
카카오가 한국어와 한국 문화를 잘 이해하는 새로운 인공지능(AI) 기술을 공개했어요. 이 기술은 사람처럼 보고, 듣고, 말할 수 있는 멀티모달 AI예요.
카카오는 12일 테크블로그에서 '카나나(Kanana)-o'라는 언어모델과 '카나나-v-임베딩'이라는 검색 모델을 소개했습니다. 두 모델은 카카오가 직접 개발한 AI로, 한국어와 한국적 맥락을 잘 이해하는 것이 특징이에요.
- 텍스트, 음성, 이미지까지 동시에 이해하고 바로 답할 수 있는 모델이에요.
- 기존 글로벌 모델보다 한국어 맥락 이해에서 훨씬 뛰어난 성능을 보여줬습니다.
- 단순한 질문·답변뿐 아니라 요약, 감정 해석, 오류 수정, 번역 같은 다양한 일을 할 수 있도록 성능을 높였어요.
- 억양, 감정, 호흡까지 학습해서 기쁨·슬픔·분노·공포 같은 감정을 자연스럽게 표현할 수 있게 했습니다.
- 팟캐스트처럼 여러 사람이 대화하는 데이터로 학습해 끊김 없는 대화도 가능해졌어요.
- 평가 결과, 영어 음성 성능은 GPT-4o와 비슷했고, 한국어 음성 인식과 감정 표현 능력은 훨씬 뛰어났습니다.

- 텍스트와 이미지를 동시에 이해하는 검색 모델이에요.
- 예를 들어 '경복궁'이나 '붕어빵' 같은 한국어 단어를 잘 이해하고, 오타가 있어도 정확한 이미지를 찾아줬습니다.
- '한복 입고 찍은 단체 사진'처럼 복잡한 조건도 정확히 이해했어요.
- 현재 카카오 내부 광고 심사 시스템에 적용됐고, 앞으로 영상이나 음성 검색에도 활용할 계획입니다.
김병학 카카오 카나나 성과리더는 “카나나는 단순히 정보를 나열하는 AI가 아니라, 사용자 감정을 이해하고 친근하게 대화하는 AI가 되도록 만들고 있다”고 말했습니다. 또 “실제 서비스에서 사람들이 일상 속에서 AI를 경험하고, 사람처럼 상호작용할 수 있도록 발전시키겠다”고 밝혔어요.
최정훈 기자 jhchoi@etnews.com