MS, 음성·이미지 생성형 AI 모델 출시

발행일 : 2026-04-03 09:24

마이크로소프트(MS)가 음성 전사(받아쓰기)와 음성 생성, 이미지 생성 특화 모델 3종을 개발자용으로 선보였습니다.

사티아 나델라 MS 최고경영자(CEO)는 2일(현지시간) 링크드인을 통해 “모든 개발자에게 발전해 나가는 MAI(MS AI) 모델 제품군을 제공하게 됐다”며 음성 전사 모델 'MAI-트랜스크라이브-1', 음성 생성 모델 'MAI-보이스-1', 이미지 생성 모델 'MAI-이미지-2' 등을 소개했습니다.

MAI-트랜스크라이브-1은 영어와 한국어를 포함한 25개 언어를 인식할 수 있고, 업계 표준 성능지표(벤치마크)인 '플뢰르'에서 오픈AI·구글 등의 모델을 제치고 가장 낮은 오류율을 보였습니다.

MS는 이 모델이 다국어로 진행되는 회의장이나 시끄러운 카페·콘서트 현장에서도 음성을 또렷하게 인식할 수 있다고 강조했습니다.

MAI-보이스-1은 몇 초 길이의 음성 데이터만으로도 맞춤형 음성을 생성할 수 있고, 60초 분량의 오디오를 단 1초 만에 만들어낼 수 있습니다.

MAI-이미지-2는 성능지표 최상위권의 이미지를 낮은 가격에 만들 수 있는 가격 대비 뛰어난 성능을 강점으로 내세웠습니다.

MS는 지난해부터 딥마인드 공동창업자 출신인 무스타파 술레이만 MAI 부문 CEO에게 인간을 능가하는 '초지능(Superintelligence)' 연구·개발을 맡겼지만, 아직 경쟁사 수준의 범용 기반 모델(파운데이션 모델)을 완성하지는 못했습니다.

이와 관련해 술레이만 CEO는 이날 블룸버그 통신에 “우리는 절대적인 최첨단 기술을 내놔야 한다”며 “2027년까지 최고 수준에 도달하는 것이 목표”라고 설명했습니다.

최성훈 기자 csh87@etnews.com