다윗과 골리앗의 싸움에서 흔히 보듯, 덩치가 전부는 아니었습니다. 다만 이번엔 돌멩이 대신 GPU가 조금 더 많이 들어갔을 뿐이죠. AGIBOT이 선보인 불과 20억 파라미터(2B) 규모의 소형 월드 모델이 쟁쟁한 거물급 모델들을 제치고 ‘WorldArena’ 벤치마크 정상에 등극했습니다. **Genie Envisioner-Sim 2.0 (GE-Sim 2.0)**이라 불리는 이 모델은 현재 랭킹 1위에 이름을 올리며, 그동안 스포트라이트를 독점해온 거대 비디오 생성 엔진들을 내려다보고 있습니다. 결국 화려한 영상을 만드는 것과, 로봇이 수건 한 장 놓치지 않게 가르치는 것은 차원이 다른 문제라는 사실을 증명한 셈입니다.
이 모델의 핵심은 단순히 바이럴 영상을 만드는 데 있지 않습니다. GE-Sim 2.0은 실제 로봇을 훈련시키기 위한 일종의 ‘폐쇄 루프(closed-loop) 물리 시뮬레이터’입니다. 특히 ‘고일관성 멀티뷰 생성(High-Consistency Multi-View Generation)’ 기술을 통해 로봇의 헤드 카메라와 손목 카메라가 포착하는 시야를 완벽하게 일치시킵니다. 사물이 사각지대에 있거나 거울에 비치는 까다로운 상황에서도 말이죠. 유용한 시뮬레이션과 단순한 ‘디지털 환각’을 가르는 한 끝 차이는 바로 이런 집요한 디테일에 있습니다.
AGIBOT은 시뮬레이션의 고질적인 세 가지 병목 현상을 해결하며 실전성을 확보했습니다. 첫째, ‘고유 수용성 감각 상태 전문가(Proprioceptive State Expert)‘가 비디오에서 물리적 관절 각도를 직접 읽어내 로봇이 기계적 혼돈에 빠지지 않도록 피드백을 줍니다. 둘째, ‘VLM 기반 월드 저지(VLM-Based World Judge)‘가 자동 심판 역할을 수행하며 사람이 일일이 개입하지 않아도 시뮬레이션 결과를 끊임없이 평가합니다. 마지막으로 ‘분포 매칭 증류(distribution-matching distillation)’ 프레임워크를 도입해 추론 시간을 획기적으로 단축, 복잡한 25프레임 멀티뷰 영상을 단 2.3초 만에 렌더링해냅니다.
왜 이 기술이 중요한가요?
이론에 그치지 않고 ‘진짜’ 현장에서 통하기 때문입니다. GE-Sim 2.0이 생성한 정교한 합성 데이터로 학습한 로봇은 접촉이 잦은 고난도 작업에서 실제 세계 성공률이 15%나 급등하는 결과를 보여주었습니다. 이는 실체형 AI(Embodied AI)의 최대 난제인 ‘데이터 병목 현상’을 해결할 중요한 실마리입니다. 다른 모델들이 시각적인 화려함에 매몰될 때, AGIBOT은 로봇을 더 똑똑하고 빠르게 만드는 ‘실천적인 물리 세계’를 구축하고 있습니다. 이제 단순히 ‘진짜처럼 보이는’ 시대는 끝났습니다. 이제는 ‘진짜처럼 작동하는’ 시대입니다.
이 프로젝트는 오픈소스로 공개되어 누구나 기술적 세부 사항을 확인할 수 있습니다. 하이퍼링크: GitHub에서 코드 확인하기 또는 arXiv에서 논문 전문 읽기.
