능력 있는 휴머노이드 로봇 개발 경쟁은 이제 하드웨어의 기술적 한계보다는 근본적인 철학적 질문, 즉 ‘기계를 가르치는 가장 좋은 방법은 무엇인가?‘에 대한 논쟁으로 빠르게 전환되고 있습니다. 한쪽에는 Sunday와 같은 기업들이 ‘인간 교사 군단’이라는 비장의 무기를 꺼내 들고 있습니다. 반대편에는 Tesla와 Nvidia 같은 거인들이 자신들의 로봇이 그저 유튜브를 시청하는 것만으로도 학습할 수 있기를 바라고 있죠. 이처럼 극명한 전략적 노선 차이는 이 분야 전체의 향방을 가르고 있으며, 아직 그 누구도 ‘정답’에 대한 합의를 이루지 못했습니다.
Sunday는 모방 학습에 그야말로 ‘올인’하고 있습니다. 500명에 달하는 ‘메모리 개발자’들에게 특수 장갑을 장착시켜 상상 가능한 모든 집안일을 위한 고품질 데이터를 장인의 손길로 세밀하게 기록하게 하죠. 회사는 이 방식 덕분에 1~2주마다 새로운 작업을 훈련하고 평가할 수 있으며, 그 결과 ‘세계에서 가장 빠르게 학습하는 로봇’을 탄생시켰다고 주장합니다. 이는 단순한 양보다는 질에 집중하는, 지극히 실질적이고 장인 정신이 깃든 데이터 수집 접근 방식이라 할 수 있습니다.

물론 이러한 인간 중심 모델에도 여러 갈래의 변형이 존재합니다. 노르웨이 기업인 1X Technologies 역시 인간의 지도를 활용하지만, 장갑과 정교하게 기획된 세션 대신 자사의 1X Neo: AI 집사, 드디어 출시 (가격 있음) 로봇들을 실제 환경에 직접 투입해 원격 조작을 통해 학습시킵니다. 이는 교실에서의 수업이라기보다는 현장 도제식 교육에 훨씬 가깝죠. 한편, Figure는 물리적인 ‘뉴라 짐(Neura Gyms)‘을 구축하며, BMW와 같은 기업들과의 협력을 통해 로봇들이 특정 작업을 훈련할 수 있는 구조화된 환경을 제공하고 있습니다.
그리고 다른 한쪽에는 ‘그냥 비디오만 봐!’ 진영이 있습니다. Tesla는 옵티머스(Optimus) 로봇이 인간이 작업을 수행하는 영상을 그저 관찰하는 것만으로도 학습할 수 있게 하겠다는 목표를 공개적으로 천명해왔습니다. Nvidia 역시 NVIDIA, 로봇을 위한 매트릭스를 구축하다: Cosmos 플랫폼을 통해 시뮬레이션과 방대한 인터넷 규모의 영상 데이터를 활용하여 로봇 공학을 위한 기반 모델을 훈련하고 있죠. 이 방법은 엄청난 확장성을 약속합니다. 온라인에는 그 어떤 ‘메모리 개발자’ 팀이 평생 만들어낼 수 있는 것보다 훨씬 더 많은 ‘방법(how-to)’ 영상들이 산재해 있으니까요. 하지만 맥락 파악, 신체적 구현, 그리고 비정형 데이터의 거대한 소음 속에서 길을 잃기 쉽다는 한계 또한 명확합니다.
이것이 왜 중요할까요?
훈련 방법론의 이러한 균열은 진정한 범용 로봇을 탄생시키는 데 있어 단연코 가장 큰 난관으로 작용합니다. 이 논쟁의 핵심은 바로 오랜 난제인 ‘질이냐, 양이냐’의 문제이며, 물리적 상호작용의 복잡성으로 인해 그 난이도가 훨씬 증폭되고 있습니다.
과연 Sunday AI: 로봇 인형 대신 직접 가르친다 가 구축하는 것처럼, 인간 시연자로부터 꼼꼼하게 큐레이션된 고품질 데이터셋이 신뢰할 수 있는 작업 실행의 핵심이 될까요? 아니면 Tesla와 Nvidia가 굳게 믿는 것처럼, 인터넷 데이터의 거대하고 혼돈스러운 양이 궁극적으로 지능으로 향하는 더욱 강력하고 확장 가능한 경로를 제공하게 될까요? 이 ‘확장 가능한 학습 퍼즐’을 풀어내는 기업은 단순히 더 나은 로봇을 만드는 것을 넘어, 향후 10년간의 인공지능과 자동화의 지형을 재정의하게 될 것입니다.






