톡톡 용어 - 멀티모달

톡톡 용어 - 멀티모달

멀티모달이 뭐예요?

여러분, 혹시 AI(인공지능) 친구들이 말을 듣고 이해할 뿐만 아니라, 그림도 보고, 글도 읽고, 음악도 들을 수 있다는 걸 알고 있나요?

이처럼 다양한 방식으로 정보를 받아들이고 활용하는 기술을 '멀티모달(Multimodal)'이라고 해요! 멀티모달이란 말 그대로 여러 가지(Multi) 방식(Modal)을 뜻하는 영어 단어입니다.



그럼, 멀티모달이 무엇인지 더 쉽게 알아볼까요?

멀티모달은 여러 가지 감각을 사용하는 기술이에요!

사람은 보통 눈(시각), 귀(청각), 입(말하기), 손(촉각) 등 여러 감각을 사용해서 세상을 이해해요. 예를 들어, 우리는 책을 읽을 수도 있고(글자), 노래를 들을 수도 있고(소리), 그림을 볼 수도 있죠(이미지)!

멀티모달 기술은 AI가 이런 다양한 감각을 동시에 활용할 수 있도록 도와줘요!



멀티모달 AI는 어떻게 작동할까요?

멀티모달 AI는 다음과 같은 방식으로 정보를 이해해요:

△ 그림을 보고 이해해요!

AI가 사진을 보고 “이건 강아지야!”라고 말할 수 있어요.

△ 말을 듣고 반응해요!

우리가 “안녕!” 하면 AI가 “안녕하세요!”하고 대답할 수 있어요.

△ 글을 읽고 대답해요!

AI가 책 속의 내용을 읽고 요약해 줄 수 있어요.

△ 모두 합쳐서 똑똑한 답을 해줘요!

AI가 그림을 보고, 그 그림이 무엇인지 설명할 수도 있어요!



멀티모달 AI는 어디에서 사용할까요?

△ 번역기

외국어 글을 읽고 번역해 주거나, 말을 듣고 바로 번역해 줄 수 있어요!

△ 음성 비서(예: 시리, 빅스비, 구글 어시스턴트)

“오늘 날씨 어때?”라고 말하면, AI가 말로 답해 주고, 날씨 그림도 보여줘요.

△ 자율주행 자동차

자동차가 카메라로 길을 보고, 신호등과 보행자를 인식해 안전하게 운전해요!

△ AI 화가

AI가 설명을 듣고 그림을 그릴 수도 있어요. 예를 들어, “귀여운 고양이를 그려줘!” 하면 AI가 직접 그림을 만들어요!

이제 멀티모달에 대해 잘 이해할 수 있겠죠?

최지호 기자 jhochoi@etnews.com