범용 로봇을 향한 길고도 종종 어설픈 마라톤에서, 업계는 늘 같은 불편한 장애물에 발이 걸렸다: 바로 데이터였다. 언어 모델들이 인터넷 전체를, 말 그대로 텍스트의 무한 리필 뷔페처럼 마음껏 탐닉할 수 있었던 반면, 로봇 공학은 느리고, 비싸며, 고통스러울 정도로 제한적인 원격 조작(teleoperation)이라는 식단으로 창조물들을 손수 먹여 살리는 데 갇혀 있었다. 하지만 이제, Skild AI라는 스타트업은 숟가락으로 떠먹이는 것을 멈추고 로봇에게 메뉴판을 보여주기로 결정했다. 그들의 최신 증명 지점은? 인간의 영상을 보고 기술을 학습한 후 스크램블 에그 한 접시를 뚝딱 만들어낼 수 있는 로봇 팔이다.
이것은 단순한 파티 트릭이 아니다. 물리적 AI의 핵심 문제로 자리 잡은 데이터 병목 현상에 대한 정면 공격이다. 로봇 훈련의 지배적인 방법은 인간 작업자가 원격으로 기계를 “조종"하여 작업에 필요한 정밀한 모터 제어 데이터를 수집하는 것을 포함한다. Skild AI가 지적하듯이, 이 전략은 두 가지 치명적인 결함을 안고 있다. 대부분의 데이터가 무균 실험실 환경에서 수집되기 때문에 다양성이 부족하고, 진정한 파운데이션 모델에 필요한 수준으로 확장하는 것은 수학적으로 불가능하다. 수조 개의 데이터 포인트를 생성하기 위해 24시간 내내 로봇을 조종할 만큼 충분한 사람을 고용할 수는 없는 노릇이다.
유튜브에서 로봇으로: 데이터 파이프라인의 혁신
더 큰 데이터 농장을 건설하려 애쓰는 대신, Skild AI는 이미 존재하는 곳, 즉 인터넷을 활용하고 있다. 이 회사의 핵심 통찰은 인간이 이미 유튜브 튜토리얼, 틱톡 꿀팁, 그리고 수많은 다른 교육용 영상의 형태로 로봇 공학을 위한 “인터넷 규모"의 데이터셋을 만들어냈다는 것이다. 눈에 띄지 않게 숨어 있던 해결책은 바로 관찰 학습, 즉 인간이 배우는 방식과 똑같다. 우리는 유체 역학을 계산해서 음료를 따르는 법을 배우지 않는다. 다른 사람이 하는 것을 보고 우리 뇌가 나머지를 알아서 처리한다.
Skild AI는 자신들의 모델이 같은 방식으로 학습하도록 가르치고 있다. 인간이 작업을 수행하는 영상을 시청함으로써, AI는 의도와 행동의 순서를 학습하고, 시각적 시연을 로봇 명령으로 효과적으로 번역한다.

물론, 그렇게 간단하지만은 않다. 로봇에게 고든 램지가 비프 웰링턴을 만드는 영상을 보여주고 미슐랭 스타급 식사를 기대하는 것은 순전히 환상이다. 주요 기술적 과제는 업계에서 “구현 격차(Embodiment Gap)“라고 부르는 것이다. 인간의 손은 27개의 자유도를 가지고 있지만, 두 손가락 그리퍼는 그렇지 않다. 인간 셰프의 유려한 움직임을 다축 로봇 팔의 뻣뻣한 관절에 매핑하는 것은 기념비적인 번역 문제다.
옴니바디(Omni-bodied) 학습과 스킬드 브레인(Skild Brain)
바로 여기에 Skild AI가 자신들의 ‘비밀 소스’가 있다고 주장하는 지점이다. 이 회사는 “옴니바디(omni-bodied)” 파운데이션 모델이라고 부르는 것을 개발했으며, 이는 Skild Brain으로 명명되었다. 이 AI는 하드웨어에 구애받지 않도록 설계되었으며, 바퀴 달린 휴머노이드부터 고정된 팔에 이르기까지 다양한 로봇 형태를 제어할 수 있고, 특정 로봇에 과도하게 전문화되지 않는다. 이 모델은 방대한 양의 인간 영상과 물리 기반 시뮬레이션으로 사전 훈련되어, 물체가 어떻게 조작되어야 하는지에 대한 일반화된 이해를 구축할 수 있게 한다.
“미리 프로그래밍하는 것이 아니라 경험을 통해 학습하는 것이 로봇 공학에서 일어난 ‘획기적인 변화’입니다.“라고 회사는 밝히며, NVIDIA의 시뮬레이션 및 AI 인프라를 활용하여 “며칠 만에 천 년의 경험"을 습득했다고 강조했다.
이러한 접근 방식은 로봇이 미세 조정을 위한 로봇 특정 데이터 1시간 미만으로 영상에서 새로운 기술을 학습할 수 있게 한다. 그 결과는 로봇이 식기세척기에 그릇을 넣고, 식물에 물을 주고, 커튼을 치는 시연에서 볼 수 있듯이, 다양한 작업과 환경에 걸쳐 일반화할 수 있는 시스템이다.

로봇 혁명에 대한 시사점
Skild AI의 접근 방식이 주장하는 바와 같이 확장 가능하고 효과적임이 입증된다면, 그 파급 효과는 엄청날 것이다. 이는 로봇 훈련의 경제학을 근본적으로 변화시킨다. 광범위하고 값비싼 원격 조작(teleoperation) 농장의 필요성은 끊임없이 성장하는, 공개적으로 사용 가능한 인간 활동 라이브러리에서 학습하는 강력한 모델로 대체될 수 있다. 이는 가정, 식당, 건설 현장과 같이 자동화가 전통적으로 어려움을 겪었던 비정형 환경에서 로봇 배치를 극적으로 가속화할 수 있다.
업계는 주목하고 있다. 휴머노이드 및 범용 로봇 분야의 경쟁자들은 원격 조작(teleoperation), 시뮬레이션, 또는 인간 영상을 통해 데이터 문제를 해결하기 위해 모두 각자의 고위험 베팅을 하고 있다.
현재로서는, Skild AI는 설득력 있고, 솔직히 군침 도는 시연을 선보였다. 다른 세계가 인간이 볼 콘텐츠를 만드는 데 바쁜 동안, Skild는 그 콘텐츠를 미래 로봇 비서들을 위한 교육 과정으로 조용히 전환하고 있다. 스스로 학습하는 로봇 셰프의 시대가 우리가 생각하는 것보다 더 가까이 와 있을지도 모른다.






