한국판 '딥시크' 나오나?…국내 연구진, 저비용·고효율로 한국어 LLM 개발 가능성 입증

서울대 연구진 ‘고성능 한국어 LLM’ 개발
(왼쪽부터) 손영준 서울대 박사과정생, 소연경 박사과정생, 박찬우 석사과정생, 이재진 교수, 김진표 박사과정생, 석지헌 박사과정생, 조경제 박사과정생, 박종원 석사과정생, 김종민 박사과정생 (한국연구재단 제공)
(왼쪽부터) 손영준 서울대 박사과정생, 소연경 박사과정생, 박찬우 석사과정생, 이재진 교수, 김진표 박사과정생, 석지헌 박사과정생, 조경제 박사과정생, 박종원 석사과정생, 김종민 박사과정생 (한국연구재단 제공)

거대 언어 모델(LLM) 인공지능(AI)를 개발하려면 엄청난 돈, 시간, 인력을 투입해야 합니다. 그런데 우리나라 연구진이 천문학적 비용을 들이지 않고도 고성능 한국어 '거대 언어 모델(LLM)'을 개발할 수 있음을 보여줬어요.

LLM은 방대한 양의 텍스트 데이터를 학습해 인간 언어를 이해하고 생성하는 AI 모델이예요.

기존 영어 기반의 LLM을 효율적인 방법으로 개량해 적은 비용만으로도 고성능 한국어 LLM 개발이 가능하다는 걸 입증한 거죠. 주인공은 서울대학교 데이터사이언스대학원 이재진 교수 연구팀입니다.

한국연구재단은 이재진 교수 연구팀이 영어 기반 언어 모델인 '라마(Llama)'를 개량해 △한국어에 특화된 언어 모델인 'Llama-Thunder-LLM' △한국어 전용 토크나이저 'Thunder-Tok' △한국어 LLM 성능을 객관적으로 평가하는 'Thunder-LLM 한국어 벤치마크'를 개발했다고 밝혔어요.

토크나이저는 문장을 언어 모델이 이해할 수 있는 단위인 '토큰'으로 쪼개는 도구이고, 벤치마크는 특정 기준과 비교해 성능을 측정하고 평가하는 도구를 의미합니다.

원래 한국어 뿐만 아니라 각 나라 언어에 특화된 LLM을 만들려면 개발에 막대한 비용이 들어요. LLM을 학습시키는 데 필요한 데이터를 구하기 어렵다는 한계도 있죠. 그래서 LLM을 개발한 세계 대부분의 기업들은 돈이 많거나 풍부한 데이터를 가지고 있는 대기업과 해외 빅테크 기업인 거예요. 중소 연구기관이나 대학이 LLM을 연구개발하는 것은 여전히 쉽지 않아요.

그런데 이번에 우리나라 연구팀은 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행하며, 중국 LLM 모델 '딥시크(DeepSeek)'처럼 제한된 자원으로 고성능 언어 모델을 구축할 수 있다는 점을 입증했어요.

공개된 영어 모델을 활용했지만, 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 넣었어요. 이는 연구팀이 고성능 독자 언어 모델을 개발할 수 있는 기술 역량을 갖추고 있음을 보여주는 것이죠.

연구팀이 개발한 Llama-Thunder-LLM은 3테라바이트(TBB, 1TB=1024GBGB) 크기의 한국어 웹 데이터를 수집·전처리한 다음 라마 모델에 연속 학습과 사후 학습 등의 개량 기법을 적용한 한국어 특화 LLM이예요. 연속 학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 능력을 확장하는 과정이고, 사후 학습은 사용자의 질문·응답 등으로 추가 미세조정하는 학습 과정입니다.

한국어의 문법적 특성을 반영한 토크나이저 Thunder-Tok은 기존 라마 토크나이저 대비 토큰 수를 약 44% 절약해 추론 속도 및 학습 효율성을 높였다고 해요. 토큰 수를 줄이면 AI 모델을 운영하는 데 들어가는 비용이 줄일 수 있거든요.

연구팀이 자체 개발한 '한국어 평가용 데이터셋'을 포함한 Thunder-LLM 한국어 벤치마크는 한국어 LLM 성능을 객관적이면서 체계적으로 평가할 수 있는 기반을 제공한다는군요.

이재진 교수는 “이번 연구는 학계도 자주적인 LLM 개발이 가능하다는 점을 입증했고 국내 소버린 AI( AI주권)에 기여한 의미 있는 결과”라며 “한국어 기반 LLM 및 토크나이저, 벤치마크 데이터셋을 온라인에 공개하고 개발 과정 또한 상세히 기술해 누구나 후속 및 재현 연구에 활용할 수 있도록 했다”고 말했어요.

이번 연구 성과는 '초거대 AI모델 및 플랫폼 최적화 센터' 누리집에 공개돼 누구나 이용할 수 있어요.

최정훈 기자 jhchoi@etnews.com