로봇 업계가 마시던 커피를 뿜으며 일어날 법한 소식이 전해졌습니다. 알리바바의 금융 계열사이자 핀테크 거물인 Ant Group이 누구도 예상치 못한 시점에 ‘체화된 지능(Embodied Intelligence)‘을 위한 파운데이션 스택 전체를 세상에 공개했습니다. 더욱 놀라운 점은 이 모든 것이 파격적인 ‘아파치 2.0(Apache 2.0)’ 라이선스 하에 오픈 소스로 풀렸다는 것입니다. 이건 단순히 새로운 모델 하나가 나온 수준이 아닙니다. 차세대 로봇의 ‘보편적 두뇌’가 되기 위해 설계된 지각, 행동, 상상력의 3종 세트입니다.
전 세계가 휴머노이드 로봇의 백덤블링 묘기에 환호하고 있을 때, Ant Group 산하의 Robbyant 팀은 로봇을 실제로 쓸모 있게 만들 소프트웨어를 조용히 깎고 있었습니다. 이들은 LingBot이라는 브랜드 아래 서로 연결된 세 가지 파운데이션 모델을 선보였습니다. 지저분하고 예측 불가능한 현실 세계에서 로봇이 보고, 행동하고, 심지어 앞날을 계획하는 핵심 과제들을 정조준한 것이죠. 이는 특정 로봇만을 위한 맞춤형 두뇌를 만드는 시대에서, 누구나 그 위에서 개발할 수 있는 ‘로봇계의 안드로이드’ 같은 표준 플랫폼을 구축하겠다는 대담하고 전략적인 승부수입니다.
체화된 AI를 위한 ‘풀코스’ 요리
Ant Group은 이번 릴리스를 지각(Perception), 행동(Action), 상상(Imagination)을 아우르는 체화된 지능의 완벽한 툴킷으로 구성했습니다. 세상을 감지하는 것부터 실제로 상호작용하는 것까지, 전체 파이프라인을 관통하는 포괄적인 접근 방식입니다.
가장 먼저 공간 지각을 담당하는 LingBot-Depth가 있고, 명령을 물리적인 움직임으로 번역하는 시각-언어-행동 모델인 LingBot-VLA가 그 뒤를 잇습니다. 그리고 이번 발표의 백미(pièce de résistance)라고 할 수 있는 LingBot-World가 있습니다. 이는 훈련과 계획 수립을 위해 현실을 시뮬레이션할 수 있는 인터랙티브 세계 모델입니다. 이 셋이 모여 체화된 AI의 난제들을 끝에서 끝까지(end-to-end) 해결하려는 진지한 시도를 보여줍니다.
LingBot-VLA: 2.2년의 ‘실전 압축’ 경험을 담은 두뇌
가장 눈길을 끄는 것은 단연 LingBot-VLA입니다. 이 모델은 무려 2만 시간이라는 방대한 양의 실제 로봇 데이터로 학습되었습니다. 감이 잘 안 오신다구요? 로봇 한 대가 2.2년 동안 쉬지 않고 현실에서 작업을 수행하며 실수를 통해 배우고 물리 법칙을 깨우친 시간과 맞먹습니다. 이건 시뮬레이션 속의 ‘가짜 경험’이 아니라, 뼈저린 ‘실전 경험’의 산물입니다.
이 거대한 데이터셋은 9가지의 서로 다른 인기 듀얼 암(dual-arm) 로봇 구성을 통해 수집되었습니다. 이는 범용성을 확보하는 데 결정적인 요소입니다. VLA의 목표는 새로운 하드웨어가 나올 때마다 값비싼 재학습 과정을 거치지 않고도 다양한 로봇을 제어할 수 있는 단 하나의 ‘보편적 두뇌’를 만드는 것입니다. Ant Group은 LingBot-VLA가 싱글 암, 듀얼 암, 심지어 휴머노이드 플랫폼에까지 적응할 수 있다고 주장하는데, 이는 이 분야의 오랜 숙원이기도 합니다.
결과는 수치로 증명됩니다. GM-100 실제 로봇 벤치마크에서 LingBot-VLA는 경쟁 모델들을 압도했습니다. 특히 형제 모델인 LingBot-Depth와 결합했을 때 공간 인식 능력이 비약적으로 상승했습니다. 또한 기존 프레임워크보다 1.5배에서 2.8배 빠른 학습 속도를 보여주었는데, 이는 예산이 한정된 개발자들에게는 가뭄의 단비와도 같은 소식입니다.
마음의 눈과 디지털 놀이터
세상을 지각하는 것은 전투의 절반에 해당하며, 여기서 LingBot-Depth가 활약합니다. 이 모델은 노이즈가 많고 불완전하며 희소한 센서 데이터로부터 정확한 3D 수치를 읽어내도록 설계된 파운데이션 모델입니다. 심지어 가용 깊이 정보가 5% 미만인 상황에서도 작동한다고 합니다. 일반적인 센서들을 당혹스럽게 만드는 반사체나 투명한 물체가 가득한 환경에서도 로봇이 눈을 감지 않게 해주는 기술이죠. 깨끗한 실험실 밖의 거친 현실에서 로봇이 제대로 작동하기 위해 반드시 필요한 강인함입니다.
하지만 이번 발표에서 가장 환상적인 부분은 LingBot-World입니다. AI를 위한 ‘디지털 놀이터’ 역할을 하는 인터랙티브 세계 모델이죠. 이 모델은 물리 법칙에 기반한 안정적이고 제어 가능한 시뮬레이션 영상을 실시간으로 거의 10분 동안 생성할 수 있습니다. 이는 기존 비디오 생성 모델들이 몇 초만 지나면 장면이 기괴한 초현실주의 악몽처럼 무너져 내리는 ‘장기 표류(long-term drift)’ 문제를 정면으로 돌파한 것입니다.
더욱 인상적인 것은 이 모델이 ‘인터랙티브’하다는 점입니다. 약 16 FPS(초당 프레임 수)의 속도와 1초 미만의 지연 시간으로 실행되어, 사용자가 텍스트 프롬프트로 캐릭터를 조종하거나 환경을 바꾸면 즉각적인 피드백을 볼 수 있습니다. 또한 ‘제로샷 일반화(zero-shot generalization)’ 기능도 갖추고 있습니다. 실제 장소의 사진 한 장만 입력하면, 해당 장면에 대한 별도의 학습 없이도 완전히 상호작용 가능한 가상 세계를 만들어냅니다.
로봇 공학을 향한 ‘안드로이드 전략’
그런데 왜 핀테크 기업이 공짜 로봇 두뇌를 만드는 데 이토록 막대한 자원을 쏟아붓는 걸까요? 답은 그들의 뿌리인 Alibaba에 있습니다. 이커머스와 물류의 공룡인 Alibaba 입장에서 저렴하고 지능적인 자동화의 확산은 엄청난 이득을 가져다줍니다. Ant Group은 아파치 2.0이라는 관대한 라이선스로 파운데이션 레이어를 오픈 소스화함으로써, 전 세계 개발자들을 자신들의 플랫폼 위로 초대하고 있습니다. 전형적인 생태계 장악 전략입니다.
이번 Hugging Face를 통한 릴리스는 단순히 데이터를 던져주는 수준이 아닙니다. 데이터 처리, 미세 조정(fine-tuning), 평가 툴까지 포함된 완벽한 프로덕션급 코드베이스를 제공합니다. Ant Group은 물고기를 잡아주는 것이 아니라, 어선 한 척과 그 배를 만드는 설계도까지 통째로 넘겨주고 있는 셈입니다.
경쟁사들도 훌륭한 모델을 가지고 있지만, 상당수가 폐쇄적인 API나 제한적인 라이선스 뒤에 숨어 있습니다. Ant Group의 전면 공개 및 상업적 이용 허용 결정은 로봇 공학 분야의 ‘캄브리아기 대폭발’과 같은 혁신을 이끌어낼 촉매제가 될 수 있습니다. 이제 레이스는 누가 더 똑똑한 AI를 가졌느냐를 넘어, 누가 그 주변에 가장 활기차고 생산적인 생태계를 구축하느냐의 싸움으로 번지고 있습니다. LingBot 3부작을 통해 Ant Group은 방금 아주 강력한 선제공격을 날렸습니다.













