로봇 공학에서 ‘월드 모델(World Model)‘은 시뮬레이션 시간이 길어질수록 물리적 일관성이 마치 젖은 종이봉투마냥 맥없이 무너지곤 했습니다. 하지만 여기 판도를 뒤집을 주인공, Interactive World Simulator가 등장했습니다. 이 모델은 15 FPS의 속도로 10분이 넘는 안정적인 인터랙티브 비디오 예측을 생성해내는데, 이 모든 과정이 단 한 장의 NVIDIA, Inc. RTX 4090에서 돌아갑니다. 네, 제대로 보신 게 맞습니다. 소비자용 GPU 한 장으로 10분간의 복잡한 물리 작용을 매끄럽게 구현해낸 것입니다.
연구원 Yixuan Wang이 개발한 이 액션 조건부(action-conditioned) 월드 모델은 단순한 사전 렌더링 영상이 아닙니다. 사용자가 실시간으로 직접 ‘운전’할 수 있는 완전한 인터랙티브 시뮬레이션이죠. 가장 압권인 부분은요? 지긋지긋한 파이썬 라이브러리 설정이나 pip install의 늪에 빠질 필요 없이, 지금 당장 웹 브라우저 데모에서 직접 체험해 볼 수 있다는 점입니다. 이 모델은 정교한 케이블 배선부터 물체 더미를 쓰는 작업까지, 접촉이 빈번한 다양한 태스크를 순수하게 픽셀 공간(pixel space)에서 생성해냅니다. 이는 실제 카메라로 촬영한 영상이 아니라, 모델이 스스로 예측하여 내놓은 오픈 루프(open-loop) 결과물입니다.
이게 왜 중요할까요?
이 프로젝트는 단순히 눈길을 끄는 기술 데모를 넘어, 로봇 공학계의 고질적인 두 가지 난제를 해결할 잠재력을 품고 있습니다. 첫째는 **확장 가능한 데이터 생성(Scalable data generation)**입니다. 느리고 비용이 많이 드는 실제 로봇에 의존하는 대신, 개발자들은 물리적으로 타당한 데이터를 시뮬레이터 안에서 무한정 뽑아낼 수 있습니다. 둘째는 **충실한 정책 평가(Faithful policy evaluation)**입니다. 연구자들은 실제 하드웨어를 건드리지 않고도 안전하고 일관되며 무한히 반복 가능한 가상 세계에서 로봇의 ‘두뇌’를 테스트하고 정교하게 다듬을 수 있습니다. 한마디로, 수천만 원짜리 로봇 팔이 벽에 구멍을 내는 대참사를 방지하면서도 더 저렴하고 빠르게 로봇을 훈련시킬 수 있게 된 셈입니다.













