DeepMind의 비전: 모든 로봇을 지배할 단 하나의 AI

수십 년간 로봇 공학계는 단순하면서도 속 터지는 전제에 갇혀 있었다. 로봇을 만들고, 그 로봇만을 위한 맞춤형 뇌를 따로 개발하는 식이었다. 팔 하나만 바꿔도, 바퀴를 새로 달아도, 심지어 작업 내용이 조금만 달라져도? 에라 모르겠다, 처음부터 다시 싹 갈아엎어야 했다. 이런 공들인 ‘일회용’ 접근법은 수많은 전문가를 양산했지만, 정작 만능 재주꾼 로봇은 단 한 대도 만들지 못했다. 당신의 로봇 청소기 Roomba가 샌드위치 하나 만들지 못하고, 공장 로봇팔이 개 산책조차 시킬 수 없는 이유가 바로 여기에 있다. 하지만 만약, 단 하나의 AI가 이 모든 로봇을 조종하는 법을 배울 수 있다면 어떨까?

이것이 바로 Google DeepMind가 품고 있는 대담한 야망이자, 로봇 팀을 이끄는 캐롤라이나 파라다(Carolina Parada)가 조용히 지휘하는 혁명의 핵심이다. 최근 [The Humanoid Hub](https://www.youtube.com/watch?v=gP_fdQQR8yo" hreflang=“ko”)와의 광범위한 인터뷰에서 파라다는 맞춤형 프로그래밍이라는 구시대적 방식을 버리고, 보편적으로 적응 가능한 지능으로 대체하겠다는 비전을 제시했다. 그녀는 팀의 ‘북극성’이 다름 아닌 “물리적 세계에서 AGI(범용 인공지능) 문제를 해결하는 것"이라고 단언했다. 2022년, 전 세계가 ChatGPT의 시적인 능력에 넋을 놓고 감탄할 때, 파라다 팀은 그리 놀라지 않았다고 한다. 이미 내부적으로 대규모 언어 모델을 연구하고 있었기 때문이다. 그녀가 진정으로 깨달은 교훈은, 연구 결과를 대중의 손에 쥐여주는 것이 얼마나 엄청난 가치를 지니는지 직접 목격했다는 점이었다.

Gemini의 뇌, 로봇의 몸에 깃들다

이 야망을 추진하는 엔진은 바로 Gemini Robotics 1.5다. DeepMind가 ‘몸을 가진 AI(embodied AI)‘를 위해 내놓은 기반 모델의 최신작이다. 이건 단순히 껍데기에 대충 끼워 넣은 또 다른 챗봇이 아니다. 물리적 세계의 혼돈 속에서 인지하고, 추론하며, 행동하도록 처음부터 설계된 진정한 VLA(Vision-Language-Action) 모델이다. Google의 설명에 따르면, “Gemini Robotics는 물리적 공간을 추론하는 능력을 더해 로봇이 현실 세계에서 직접 행동할 수 있도록 합니다.”

1.5 버전 업그레이드는 일반화(generalization), 상호작용성(interactivity), 그리고 민첩성(dexterity)이라는 세 가지 핵심 축에 집중한다. 더 중요한 것은, DeepMind가 ‘물리적 에이전트(physical agents)‘라고 부르는 개념을 도입했다는 점이다. 이 시스템은 마치 두 부분으로 나뉜 뇌처럼 작동한다.

  • Gemini Robotics-ER 1.5: 이 ‘몸을 가진 추론(Embodied Reasoning)’ 모델은 전략적 계획자의 역할을 한다. “이 엎질러진 걸 치워줘” 같은 복잡한 명령을 받으면, 논리적인 단계들로 쪼개어 분석한다. 심지어 모르는 정보가 있으면 Google 검색 같은 도구를 활용해 찾아보는 똑똑함까지 겸비했다.
  • Gemini Robotics 1.5 (VLA): 이 모델은 로봇의 ‘운동 피질’과도 같다. 추론 모델이 세운 단계별 계획을 넘겨받아, 어떤 로봇 몸에 들어가 있든 그에 맞는 정확한 물리적 행동으로 전환시키는 역할을 한다.

이런 아키텍처 덕분에 로봇은 ‘행동하기 전에 생각’할 수 있게 된다. 문제를 해결하기 위해 마치 사람처럼 내면의 독백을 생성하며 추론하는 것이다. 덕분에 로봇의 결정은 훨씬 더 투명해지고, 솔직히