물리적 세계에서 작동하는 ‘생각하는 기계’를 만들기 위한 자본과 기술의 전쟁터에서, 지금 거대한 철학적 균열이 발생하고 있습니다. 한쪽에는 기존 거대언어모델(LLM)의 압도적인 파워를 활용하려는 ‘실용주의자’들이 있고, 다른 한쪽에는 진정한 물리적 지능은 기존 모델에 덧붙이는 방식이 아니라 밑바닥부터 새로 구축해야 한다고 주장하는 ‘원칙주의자’들이 서 있습니다. 이번 주, 휴머노이드 로봇 기업 1X Technologies는 후자의 진영에 확실히 깃발을 꽂았습니다. 이들은 1X World Model Lab을 설립하며, 업계를 향해 마치 대포를 쏘아 올린 듯한 선언을 던졌습니다.
“파인튜닝(Fine-tuning)만으로는 범용인공지능(AGI)에 도달할 수 없습니다.” 1X의 CEO Bernt Bornich는 이번 발표에서 날 선 일침을 가했습니다. “특히 물리적 세계에서 작동하는 로봇을 만드는 데 있어 파인튜닝은 결코 정답이 될 수 없습니다.” 이 발언은 최근 GPT-4와 같은 강력한 시각-언어 모델(VLM)을 로봇의 운동 제어 기능과 결합하는 ‘VLA(Vision-Language-Action, 시각-언어-행동) 모델’을 적극 도입 중인 경쟁사들의 허를 찌르는 공격입니다. 1X는 훨씬 더 험난하지만 본질적인 길, 즉 ‘체화된 세계 모델(Embodied World Models)‘에 회사의 명운을 걸었습니다.
거대한 분기점: 파인튜닝인가, 제1원칙인가
1X의 이번 행보가 갖는 무게감을 이해하려면, 로봇의 ‘뇌’를 구축하는 두 가지 상충하는 교리를 살펴봐야 합니다.
먼저 Figure AI와 같은 기업들이 주도하는 VLA(Vision-Language-Action) 방식은 일종의 ‘지름길’입니다. 논리는 매혹적입니다. 이미 언어와 시각을 이해하고 있는 수십억 달러 규모의 파운데이션 모델을 가져와 로봇 행동 데이터셋으로 파인튜닝하면, 지시를 알아듣고 행동하는 로봇이 탄생한다는 논리죠. LLM 분야의 엄청난 진보와 투자를 그대로 활용할 수 있다는 장점이 있습니다. 하지만 비판론자들은 이 모델들에 ‘물리 법칙에 대한 진정한 이해’가 결여되어 있다고 지적합니다. 이들은 정교한 패턴 매칭 기여일 뿐, 물리 엔진이 아니라는 것이죠. 학습 데이터를 통해 유리잔을 떨어뜨리면 안 된다는 것은 알 수 있지만, 중력이 유리잔을 산산조각 낼 것이라는 사실을 ‘직관적’으로 이해하지는 못한다는 뜻입니다.
반면 세계 모델(World Model) 방식은 고난의 길입니다. 이들의 목표는 세계에 대한 내부적인 예측 시뮬레이션을 학습하는 파운데이션 모델을 만드는 것입니다. “사과를 집어라” 같은 구체적인 작업을 배우기 전에, 공간, 운동, 대상 영속성, 인과관계, 그리고 물리 법칙과 같은 개념을 먼저 체득해야 합니다. 옹호론자들은 이것만이 훈련 데이터에 없던 새로운 상황에서도 로봇이 지능적으로 대처할 수 있는 유일한 방법이라고 믿습니다.
Bornich CEO의 입장은 단호합니다. “로봇 공학의 최전선은 단순히 VLA 모델을 그럴싸하게 포장하는 것이 아닙니다. 진정한 혁신은 체화된 세계 모델을 구축하는 데 있습니다.”
1X의 올인, 그리고 ‘신의 한 수’가 될 인재 영입
새롭게 출범한 1X World Model Lab은 이 도전에 대한 응답입니다. 이 연구소의 미션은 휴머노이드를 위한 가장 범용적인 파운데이션 모델을 밑바닥부터 구축하는 것입니다. 1X는 이 야심 찬 프로젝트를 이끌 수장으로 생성형 비디오 AI 분야의 라이징 스타 Luma AI의 창립 연구 과학자 Sam Sinha를 영입했습니다.
이번 영입은 전략적인 ‘신의 한 수’로 평가받습니다. Luma AI는 극사실적인 비디오 모델링 전문 기업으로, 이는 미래의 물리적 상태를 예측하는 세계 모델 구축과 기술적으로 매우 밀접합니다. Sinha의 커리어는 멀티모달 생성 비디오 모델의 스케일링에 집중되어 왔습니다. 그는 로봇 공학이 그동안 AI 분야에서 “뒷전(second-class citizen)“으로 취급받아 왔으며, 로봇 데이터는 기존 모델 위에 얇게 덧씌워진 파인튜닝 층에 불과했다고 지적합니다. 새로운 연구소는 이 구조를 뒤집어, 로봇이 직접 겪는 ‘체화된 데이터’를 핵심 원재료로 다룰 계획입니다.
1X의 전략은 이른바 ‘데이터 플라이휠(Data Flywheel)‘이라 불리는 선순환 구조에 기반합니다:
- 시작: 웹 규모의 미디어, 1인칭 시점의 인간 활동 영상, 시뮬레이션 데이터를 활용합니다.
- 추가: 원격 제어 로봇을 통해 정교한 조작 데이터를 확보합니다.
- 배포: 휴머노이드 NEO 함대를 투입해 실제 환경에서의 온-폴리시(On-policy) 데이터를 수집합니다.
- 반복: 로봇이 데이터를 쌓으면 모델이 정교해지고, 모델이 강해지면 로봇의 성능이 올라갑니다.
세계 설계자들의 동맹
이러한 철학적 확신을 가진 곳이 1X뿐만은 아닙니다. 비록 이족보행 로봇을 만들지 않더라도, ‘세계 모델’ 진영에는 쟁쟁한 거물들이 포진해 있습니다.
Tesla의 FSD(Full Self-Driving) 시스템은 이 개념이 실제 현장에 적용된 가장 유명한 사례입니다. FSD는 주변 차량, 자전거, 보행자의 미래 행동을 예측하기 위해 ‘세계 모델’에 의존하며, 내부 시뮬레이션을 통해 가장 안전한 주행 결정을 내립니다. 단순히 반응하는 것이 아니라 앞을 내다보는 것이죠.
Meta에서 전설적인 커리어를 쌓고 현재 AMI Labs를 이끌고 있는 AI 석학 Yann LeCun 역시 수년 전부터 세계 모델의 중요성을 역설해 왔습니다. 그는 LLM이 세상이 돌아가는 내부 모델이 없기 때문에 “근본적으로 불완전하다"고 주장합니다. 영상을 관찰하고 예측함으로써 상식을 학습하는 그의 JEPA(Joint Embedding Predictive Architectures) 연구는 세계 모델 철학의 핵심 기둥 중 하나입니다.
페타바이트로 포장된 험난한 여정
1X의 행보는 ‘하이 리스크 하이 리턴’의 전형입니다. 파운데이션 세계 모델을 처음부터 만드는 것은 천문학적인 비용과 방대한 데이터가 소모되는 일입니다. VLA 진영이 Google이나 OpenAI 같은 거인들의 어깨 위에서 빠르게 출발하는 동안, 1X는 스스로 기초를 파내려가는 길을 택했습니다.
1X World Model Lab의 성공 여부는 데이터 플라이휠 전략을 얼마나 대규모로, 그리고 효율적으로 실행하느냐에 달려 있습니다. 만약 성공한다면, 이들은 그 누구도 넘볼 수 없는 강력한 ‘데이터 해자(Data Moat)‘를 구축하게 될 것이며, VLA 기반 로봇보다 훨씬 견고하고 범용적인 지능을 가진 로봇 시대를 열게 될 것입니다. 반면 실패한다면, 실용적인 지름길을 외면하고 불가능에 가까운 이상을 쫓았던 뼈아픈 사례로 남게 될 것입니다.
이제 전선은 명확해졌습니다. 로봇 공학의 미래는 LLM 혁명의 영리한 연장선일까요, 아니면 완전히 새로운 시작을 필요로 할까요? 업계는 이제 1X의 이 대담한 도박이 세상을 새로 쓰는 결과로 이어질지, 아니면 그저 재무제표를 파인튜닝하는 결말로 끝날지 숨을 죽이고 지켜보고 있습니다.
