네이버클라우드, '보고 듣고 말하는' AI 오픈소스 공개

하이퍼클로바X 시드 8B 옴니. [사진= 네이버클라우드 제공]
하이퍼클로바X 시드 8B 옴니. [사진= 네이버클라우드 제공]

네이버클라우드는 '보고 듣고 말하는' 네이티브 옴니모달 인공지능(AI) 오픈소스(HyperCLOVA X SEED 8B Omni, 32B Think)를 12월 29일 공개했습니다. 이 기술은 텍스트, 이미지, 오디오 등 다양한 데이터를 한 번에 통합적으로 이해하고 처리하는 것이 특징입니다.

텍스트와 이미지, 음성을 한 번에 이해하는 AI 모델을 오픈소스로 공개한 거예요. 이 모델은 시각과 청각을 통합해 일상과 산업 현장에서 활용할 수 있는 'AI 에이전트'를 본격적으로 구현하려는 전략이에요.

네이버클라우드는 자체 개발한 파운데이션 모델 '하이퍼클로바X 시드(SEED) 8B 옴니(Omni)'와 '하이퍼클로바X 시드 32B 싱크(Think)'를 선보였어요. 이번 성과는 과학기술정보통신부가 주관하는 '독자 AI 파운데이션 모델' 프로젝트의 일환이에요.

핵심은 국내 최초로 적용된 '네이티브 옴니모달(Native Omni-modal)' 구조예요. 시드 8B 옴니는 텍스트, 이미지, 오디오 같은 서로 다른 데이터를 따로 처리하지 않고 하나의 모델에서 학습해요. 기존 멀티모달 AI가 언어 모델에 시각 모델을 결합하는 방식이었다면, 네이티브 옴니모달은 정보 형태가 달라도 하나의 의미 공간에서 맥락을 통합적으로 이해하는 것이 특징이에요.

이 구조 덕분에 말과 글, 시각 정보가 함께 오가는 현실 환경에서 AI 활용도가 크게 높아졌어요. 예를 들어, 텍스트 지시만으로 이미지를 생성하거나 편집하는 기능도 단일 모델 안에서 가능해졌어요.

네이버클라우드는 모델을 무조건 크게 키우는 대신 '데이터 차별화'에 집중했어요. 인터넷 문서뿐 아니라 디지털화되지 않은 생활 맥락 데이터, 지역적 특성을 반영한 공간 데이터를 확보해 정제하는 데 힘을 썼어요.

시드 32B 씽크 벤치마크 결과. [사진= 네이버클라우드 제공]
시드 32B 씽크 벤치마크 결과. [사진= 네이버클라우드 제공]

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “데이터가 다양하지 않으면 모델을 키워도 문제 해결 능력이 제한된다”며 “옴니모달 구조 위에서 현실 데이터를 학습시켜 단계적으로 규모를 키우는 전략을 추진하겠다”고 말했어요.

또 다른 모델인 시드 32B 싱크는 추론형 AI에 시각 이해, 음성 대화, 도구 활용 능력을 더한 고성능 모델이에요. 글로벌 AI 평가 기관의 벤치마크 결과, 종합 지식과 코딩 등 주요 지표에서 세계 최고 수준 모델과 대등한 성능을 기록했어요.

특히 올해 대학수학능력시험 문제를 텍스트로 바꾸지 않고 이미지 그대로 입력해 풀이한 결과, 국어·수학·영어·한국사 등 주요 과목에서 1등급 수준 성과를 냈어요. 영어와 한국사에서는 만점을 기록하며 복합적 문제 해결 능력을 입증했어요.

네이버클라우드는 이번 모델 공개를 계기로 검색, 커머스, 콘텐츠 등 다양한 산업 분야에 특화된 AI 에이전트를 확산할 계획이에요. 단일 모델 구조라서 규모 확장이 쉽고, 산업별 요구에 맞춘 효율적인 모델 공급이 가능할 것으로 기대돼요.

최정훈 기자 jhchoi@etnews.com