IT 리더 - 제미나이 로보틱스-ER 1.6 1편

제미나이 로보틱스-ER 1.6은 로봇이 계기판을 읽고 실제 환경을 이해할 수 있도록 지원한다 / Google DeepMind
제미나이 로보틱스-ER 1.6은 로봇이 계기판을 읽고 실제 환경을 이해할 수 있도록 지원한다 / Google DeepMind

로봇이 '생각'하기 시작했다… 구글이 바꾸는 현실 세계 AI

로봇은 오랫동안 사람의 명령을 그대로 따르는 기계에 가까웠어요.

정해진 동작을 반복하고, 입력된 규칙 안에서만 움직였죠.

그런데 최근에는 상황이 달라지고 있어요.

“명령 수행”을 넘어, 스스로 판단하고 행동하는 로봇이 등장하고 있기 때문이에요.

이 변화의 중심에는 구글(Google)이 있어요.

구글은 최근 Gemini Robotics-ER 1.6이라는 새로운 AI 모델을 공개하며, 로봇이 실제 세계를 이해하는 방식을 한 단계 끌어올렸어요.

로봇의 가장 큰 한계, '이해하지 못한다'

지금까지 로봇이 어려움을 겪었던 이유는 단순해요.

현실 세계를 제대로 이해하지 못한다는 한계를 가지고 있었죠.

예를 들어 보겠습니다.

o 컵을 집으라고 하면 집을 수는 있다

o 하지만 컵이 어디에 있고, 어떤 상태인지

o 다른 물체와 어떤 관계인지까지는 제대로 판단하지 못했다

이런 문제를 해결하기 위해 등장한 개념이 바로 'embodied reasoning'(몸을 가진 상태에서의 추론)이에요.

embodied reasoning이란 무엇일까

이 개념은 쉽게 말하면 이런 거예요.

“눈으로 보고, 상황을 이해하고, 판단해서 행동하는 능력”

사람은 너무 자연스럽게 하는 일이지만, 로봇에게는 매우 어려운 과정이죠.

구글의 Gemini Robotics-ER 1.6은 바로 이 능력을 강화하는 데 초점을 맞춘 모델이에요.

이 AI는 단순히 명령을 수행하는 것이 아니라, 주변 환경을 파악하고 작업을 계획하며 결과가 성공인지 판단하는 하나의 '생각하는 시스템'처럼 작동해요.

그렇다면 이 기술은 무엇이 달라졌을까요?

제미나이 로보틱스-ER 1.6은 망치 2개, 가위 1개, 페인트 브러시 1개, 플라이어 6개를 정확하게 식별했다. 또한 여러 개의 정원 도구 묶음은 하나의 그룹으로 보거나, 여러 개의 개별 대상로 해석할 수도 있다. 이미지에 존재하지 않는 대상인 수레(wheelbarrow)와 료비(Ryobi) 드릴에 대해서는 포인팅하지 않았다. 반면 제미나이 로보틱스-ER 1.5는 망치와 페인트 브러시의 개수를 정확히 파악하지 못했고, 가위를 아예 인식하지 못했다. 또한 실제로 존재하지 않는 수레를 잘못 인식하는 '환각(hallucination)'을 보였으며, 플라이어 포인팅에서도 정확성이 떨어졌다. 제미나이 3.0 Flash는 전반적으로 제미나이 로보틱스-ER 1.6과 유사한 성능을 보였지만, 플라이어를 다루는 정확도에서는 다소 부족한 모습을 보였다. / Google DeepMind
제미나이 로보틱스-ER 1.6은 망치 2개, 가위 1개, 페인트 브러시 1개, 플라이어 6개를 정확하게 식별했다. 또한 여러 개의 정원 도구 묶음은 하나의 그룹으로 보거나, 여러 개의 개별 대상로 해석할 수도 있다. 이미지에 존재하지 않는 대상인 수레(wheelbarrow)와 료비(Ryobi) 드릴에 대해서는 포인팅하지 않았다. 반면 제미나이 로보틱스-ER 1.5는 망치와 페인트 브러시의 개수를 정확히 파악하지 못했고, 가위를 아예 인식하지 못했다. 또한 실제로 존재하지 않는 수레를 잘못 인식하는 '환각(hallucination)'을 보였으며, 플라이어 포인팅에서도 정확성이 떨어졌다. 제미나이 3.0 Flash는 전반적으로 제미나이 로보틱스-ER 1.6과 유사한 성능을 보였지만, 플라이어를 다루는 정확도에서는 다소 부족한 모습을 보였다. / Google DeepMind

핵심 변화 ①: 로봇이 공간을 이해한다

이번 모델의 가장 큰 발전 중 하나는 공간 추론(spatial reasoning) 능력이에요.

이제 로봇은 물체를 “보는 것”을 넘어,

o 물체의 위치를 파악하고

o 개수를 세고

o 서로의 관계를 이해하며

o 어디를 잡아야 하는지도 판단할 수 있어요.

특히 흥미로운 기능이 바로 포인팅(pointing)이에요.

로봇은 특정 위치를 가리키며 “이 물체”, “이 위치”를 기준으로 생각을 정리해요.

이 과정은 마치 사람이 문제를 풀 때 종이에 표시를 하며 생각하는 것과 비슷하답니다.

핵심 변화 ②: 여러 시점을 동시에 이해한다

현실 세계는 생각보다 복잡해요.

한 방향에서만 보면 전체를 이해하기 어려워요.

그래서 실제 로봇에는 보통 여러 개의 카메라가 달려 있어요.

o 위에서 보는 카메라

o 손목에 달린 카메라

o 측면 카메라 등

문제는 이 정보를 하나로 합치는 일이었어요.

Gemini Robotics-ER 1.6은 multi-view reasoning을 통해 이 문제를 해결했어요.

덕분에 로봇은 여러 시점을 동시에 이해하고, 가려진 물체까지 추론하며, 시간에 따라 변하는 상황까지 파악할 수 있죠.

“부분이 아닌 전체를 보는 능력”이 생긴 거예요.



「 제미나이 로보틱스-ER 1.6 2편 」에서 이어집니다.