
만약 영화 〈다크 나이트〉를 볼 때 화면 속 조커를 멀리서 바라보는 것이 아니라, 내가 직접 조커가 되어 고담시를 바라본다면 어떨까요.
이처럼 관객의 시선이 아닌 등장인물의 눈으로 세상을 경험하는 영상 기술이 현실이 되고 있습니다. 한국과학기술원(KAIST) 연구진이 일반 영상만으로도 사용자가 직접 보는 시점의 영상을 생성하는 새로운 인공지능(AI) 모델을 개발했습니다.
KAIST는 김재철AI대학원 주재걸 석좌교수 연구진이 관찰자 시점의 영상만을 활용해, 영상 속 인물이 실제로 보고 있었을 장면을 정밀하게 생성하는 인공지능 모델 '에고엑스(EgoX)'를 개발했다고 23일 밝혔습니다.

최근 증강현실(AR), 가상현실(VR), AI 로봇 기술이 빠르게 발전하면서 사람이 직접 보고 느끼는 장면을 그대로 담은 1인칭 시점 영상(Egocentric video)의 중요성이 커지고 있습니다. 하지만 지금까지는 고품질의 1인칭 영상을 얻기 위해 고가의 액션캠이나 스마트 글래스를 직접 착용해야 하는 불편함이 있었고, 이미 촬영된 일반 영상인 제3자 시점 영상(Exocentric video)을 1인칭 시점으로 자연스럽게 변환하는 데에도 기술적인 한계가 존재했습니다.
이번에 개발된 EgoX는 단순히 화면을 회전시키는 수준을 넘어, 인물의 위치와 자세, 주변 공간의 3차원(3D) 구조를 종합적으로 이해한 뒤 이를 바탕으로 1인칭 시점 영상을 재구성하는 점이 특징입니다.
기존 기술은 정지 이미지만 변환하거나 여러 대의 카메라 영상이 필요한 경우가 많았고, 빛의 방향이나 움직임이 복잡한 동영상에서는 화면이 어색해지는 문제가 있었습니다. 반면 EgoX는 단 하나의 3인칭 시점 영상만으로도 고품질의 1인칭 영상을 생성할 수 있고, 특히 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 구현하는 데 성공했습니다.

이 기술은 특정 환경에만 국한되지 않고 요리, 운동, 작업 등 다양한 일상 상황에서도 안정적인 성능을 보였습니다. 이를 통해 별도의 웨어러블 장치를 착용하지 않고도 기존에 축적된 영상으로부터 고품질의 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 열었다는 평가를 받고 있습니다.
EgoX는 앞으로 다양한 산업 분야에 상당한 파급력을 미칠 것으로 기대됩니다. AR·VR과 메타버스 분야에서는 일반 영상을 사용자가 직접 체험하는 것처럼 느낄 수 있는 몰입형 콘텐츠로 전환해 사용자 경험을 크게 높일 수 있으며, 로봇이 사람의 행동을 보고 배우는 모방 학습(Imitation Learning)의 핵심 데이터로 활용돼 로봇과 AI 학습 분야에도 기여할 것으로 전망됩니다. 또 스포츠 중계를 선수의 시점으로 보여주거나, 브이로그를 주인공의 눈으로 체험하는 등 새로운 형태의 영상 서비스도 가능해질 것으로 보입니다.
이번 연구는 강태웅, 김기남 KAIST 박사과정과 김도현 서울대 학부연구생이 제1저자로 참여했으며, 논문은 2025년 12월 9일 arXiv에 선공개됐습니다.
해당 연구는 미국 엔비디아(NVIDIA)와 메타(Meta) 등 글로벌 빅테크 기업과 AI 학계의 주목을 받았고, 2026년 6월 3일 미국 콜로라도에서 열리는 국제 학술대회인 The IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)에서 공식 발표될 예정입니다.
최성훈 기자 csh87@etnews.com