
로봇이 '생각'하기 시작했다… 구글이 바꾸는 현실 세계 AI
로봇은 오랫동안 사람의 명령을 그대로 따르는 기계에 가까웠어요.
정해진 동작을 반복하고, 입력된 규칙 안에서만 움직였죠.
그런데 최근에는 상황이 달라지고 있어요.
“명령 수행”을 넘어, 스스로 판단하고 행동하는 로봇이 등장하고 있기 때문이에요.
이 변화의 중심에는 구글(Google)이 있어요.
구글은 최근 Gemini Robotics-ER 1.6이라는 새로운 AI 모델을 공개하며, 로봇이 실제 세계를 이해하는 방식을 한 단계 끌어올렸어요.
로봇의 가장 큰 한계, '이해하지 못한다'
지금까지 로봇이 어려움을 겪었던 이유는 단순해요.
현실 세계를 제대로 이해하지 못한다는 한계를 가지고 있었죠.
예를 들어 보겠습니다.
o 컵을 집으라고 하면 집을 수는 있다
o 하지만 컵이 어디에 있고, 어떤 상태인지
o 다른 물체와 어떤 관계인지까지는 제대로 판단하지 못했다
이런 문제를 해결하기 위해 등장한 개념이 바로 'embodied reasoning'(몸을 가진 상태에서의 추론)이에요.
embodied reasoning이란 무엇일까
이 개념은 쉽게 말하면 이런 거예요.
“눈으로 보고, 상황을 이해하고, 판단해서 행동하는 능력”
사람은 너무 자연스럽게 하는 일이지만, 로봇에게는 매우 어려운 과정이죠.
구글의 Gemini Robotics-ER 1.6은 바로 이 능력을 강화하는 데 초점을 맞춘 모델이에요.
이 AI는 단순히 명령을 수행하는 것이 아니라, 주변 환경을 파악하고 작업을 계획하며 결과가 성공인지 판단하는 하나의 '생각하는 시스템'처럼 작동해요.
그렇다면 이 기술은 무엇이 달라졌을까요?

핵심 변화 ①: 로봇이 공간을 이해한다
이번 모델의 가장 큰 발전 중 하나는 공간 추론(spatial reasoning) 능력이에요.
이제 로봇은 물체를 “보는 것”을 넘어,
o 물체의 위치를 파악하고
o 개수를 세고
o 서로의 관계를 이해하며
o 어디를 잡아야 하는지도 판단할 수 있어요.
특히 흥미로운 기능이 바로 포인팅(pointing)이에요.
로봇은 특정 위치를 가리키며 “이 물체”, “이 위치”를 기준으로 생각을 정리해요.
이 과정은 마치 사람이 문제를 풀 때 종이에 표시를 하며 생각하는 것과 비슷하답니다.
핵심 변화 ②: 여러 시점을 동시에 이해한다
현실 세계는 생각보다 복잡해요.
한 방향에서만 보면 전체를 이해하기 어려워요.
그래서 실제 로봇에는 보통 여러 개의 카메라가 달려 있어요.
o 위에서 보는 카메라
o 손목에 달린 카메라
o 측면 카메라 등
문제는 이 정보를 하나로 합치는 일이었어요.
Gemini Robotics-ER 1.6은 multi-view reasoning을 통해 이 문제를 해결했어요.
덕분에 로봇은 여러 시점을 동시에 이해하고, 가려진 물체까지 추론하며, 시간에 따라 변하는 상황까지 파악할 수 있죠.
“부분이 아닌 전체를 보는 능력”이 생긴 거예요.
「 제미나이 로보틱스-ER 1.6 2편 」에서 이어집니다.