수년간 로봇공학은 뛰어난 하드웨어가 뇌를 기다리는 이야기였습니다. 우리는 기계견이 백플립을 하고 공장 팔이 최면을 걸듯 정밀하게 작업하는 것을 보았지만, 대부분은 그저 스크립트를 반복하는 것에 불과했습니다. 새로운 것을 해달라고 요청하면, 말없이 금속성으로 멍하니 바라보는 것과 다름없는 반응이 돌아왔죠. 그 시대는 이제 시끄럽고 요란하게, 그리고 꽤나 무미건조하게 막을 내리는 듯합니다.
이제 Google DeepMind에서 선보이는 새로운 종류의 로봇들이 등장했습니다. 이들은 미리 프로그램된 자동장치라기보다는… 사려 깊은 협력자에 가깝습니다. 최근 캘리포니아 연구소 투어에서, 이 회사는 단순히 보고 실행하는 것을 넘어, 행동하기 전에 이해하고, 계획하며, 심지어 생각하는 기계들을 선보였습니다. 이들의 비밀 병기는 더 좋은 기어나 모터가 아니라, Gemini 모델들을 움직이는 것과 동일한 강력한 AI의 주입이었습니다. 그 결과, 섬뜩할 정도로 능숙하게 점심 도시락을 싸주고, 심지어 배트맨처럼 행동하라는 요청은 유머러스하게 거절하는 로봇들이 탄생했습니다.
근육 뒤에 숨겨진 두 부분으로 나뉜 두뇌
Google DeepMind의 로봇공학 디렉터인 케시카로(Keshkaro)가 설명했듯이, 근본적인 변화는 대규모 시각-언어-행동(VLA) 모델 위에 로봇을 구축하는 것입니다. 이 로봇들은 특정 작업을 위해 프로그래밍되는 대신, 세상에 대한 일반적인 이해를 부여받습니다. 이들은 Gemini와 같은 모델에 내재된 방대한 지식을 활용하여 개념, 사물, 지시를 이전에는 공상 과학 소설에서나 가능했던 방식으로 이해합니다.
Google의 아키텍처는 로봇에게 효과적으로 두 부분으로 나뉜 두뇌를 제공합니다:
- Gemini 로보틱스-ER (Embodied Reasoning): 이것이 전략적 플래너입니다. “이 테이블을 지역 재활용 규칙에 따라 청소해라"와 같은 복잡하고 장기적인 작업을 부여받으면, 이 모델은 상위 수준의 두뇌 역할을 합니다. 심지어 필요한 정보를 찾기 위해 Google 검색과 같은 도구를 사용하여 단계별 계획을 세우기도 합니다.
- Gemini 로보틱스 VLA (Vision-Language-Action): 이것이 실행자입니다. 추론 모델로부터 받은 간단하고 순차적인 지시를 실제 행동을 수행하는 데 필요한 정확한 모터 명령으로 변환합니다.
이러한 역할 분담을 통해 로봇은 “블록을 집어라"와 같은 단순하고 단기적인 행동을 넘어, 진정한 문제 해결이 필요한 다단계의 복잡한 목표를 다룰 수 있게 됩니다.
생각하면 그렇게 되리라
아마도 가장 흥미로운 돌파구는 “사고의 흐름(chain of thought)” 추론을 물리적 행동에 적용한 것일 겁니다. 우리는 언어 모델에서 AI에게 “단계별로 생각하라"고 요청하면 출력이 향상되는 것을 보았습니다. DeepMind는 이제 로봇에게 “내적 독백"을 부여했습니다. 로봇이 움직이기 전에, 자연어로 추론 과정을 생성합니다.
“로봇이 행동하기 전에 취하려는 행동에 대해 생각하게 하는 것입니다.” 케시카로는 비디오 투어에서 이렇게 설명합니다. “그저 자신의 생각을 내뱉는 행위만으로도 로봇은 더욱 일반화되고 성능이 향상됩니다.”
이것은 단순한 학술적 연습이 아닙니다. 로봇에게 “좋아, 빵을 집어서 작은 지퍼백 입구 안에 조심스럽게 넣어야겠어"와 같이 자신의 계획을 명확히 표현하도록 강제하는 것은 인간이 직관적으로 수행하는 복잡한 행동을 구조화하는 데 도움이 됩니다. 로봇이 물리적 작업을 더 잘하게 만들려면, 먼저 스스로에게 말하는 법을 가르쳐야 한다니, 기묘하지만 효과적인 결과입니다.
점심 식사 준비 완료… 결국에는
속담처럼, 증명은 푸딩에 있습니다 – 혹은 이 경우에는, 싸여진 점심 도시락에 있습니다. 가장 설득력 있는 데모 중 하나는 도시락을 준비하는 Aloha 로봇 팔이었습니다. 이것은 팀이 “밀리미터 단위의 정밀성"이라고 부르는, 특히 얇은 지퍼백을 다룰 때 필요한 작업입니다.
로봇이 작업하는 것을 보는 것은 현재 기술 수준의 명강의였습니다. 믿을 수 없을 정도로 인상 깊지만, 동시에 사랑스럽게도 완벽하지는 않았습니다. 로봇은 능숙하게 가방을 집어 열고, 샌드위치를 조심스럽게 넣은 다음, 초콜릿 바와 포도를 추가합니다. 약간 비틀거리다가 스스로 교정하고 계속 시도합니다 – 몇 년 전만 해도 주로 부서진 레고 더미를 만들었던, 호스트 해나 프라이(Hannah Fry)가 회상했던, 취약하고 오류투성이 로봇들과는 거리가 멉니다. 이러한 능숙함은 엄격한 코드가 아니라, 원격 조작을 통한 인간의 시연, 즉 작업자가 로봇을 “체현"하여 올바른 움직임을 가르치는 방식으로 학습됩니다.
“특정 캐릭터로서 행동을 수행할 수 없습니다”
한 데모가 능숙함을 보여주었다면, 다른 데모는 시스템의 일반화 능력과 언어에 대한 재미있을 정도로 문자 그대로의 해석을 강조했습니다. “초록색 블록을 주황색 트레이에 넣어라, 하지만 배트맨처럼 해라"라는 요청을 받자, 로봇은 잠시 멈췄습니다.
그리고 무표정한 로봇 음성으로 돌아온 대답은 정말 압권이었습니다: “특정 캐릭터로서 행동을 수행할 수는 없습니다. 하지만 초록색 블록을 주황색 트레이에 넣어 드릴 수는 있습니다.”
이 대화는 이 시스템들의 힘과 현재의 한계를 완벽하게 포착합니다. 로봇은 핵심 지시를 완벽하게 이해했고, 말도 안 되는 스타일적인 수식어는 버렸습니다. 이 로봇은 행동과 사물에 대한 세계 최고 수준의 이해력을 가지고 있지만, 문화적 페르소나에 대한 이해는 전혀 없습니다. 이 로봇은 만능 로봇이지, 메소드 연기자가 아닙니다.
DeepMind 연구소 내부를 엿본 결과, 로봇공학 분야가 마침내 ‘소프트웨어’의 순간을 맞이하고 있다는 것을 알 수 있습니다. 대규모 AI의 기념비적인 발전을 활용하여, Google은 현실 세계에서 학습하고, 적응하며, 추론할 수 있는 로봇을 위한 플랫폼을 만들고 있습니다. 이들이 슈퍼히어로를 흉내 낼 준비가 되어 있지는 않을지라도, 이미 우리의 점심 도시락을 싸주고 있습니다. 그리고 매일 아침 문 밖으로 급히 나서는 사람이라면 누구에게나, 그것이야말로 가장 영웅적인 위업일지도 모릅니다.






