영상만 보고 축구와 권투를? 로봇 학습의 새 지평 'HumanX'

HKUST, IDEA Research, 그리고 Shanghai AI Laboratory의 연구진이 휴머노이드 로봇에게 ‘눈썰미’를 선물했습니다. 이들이 발표한 HumanX는 사람이 행동하는 영상만 보고도 로봇이 복잡한 실전 기술을 익힐 수 있게 돕는 풀스택 프레임워크입니다. 이제 로봇은 축구공을 드리블하고, 권투를 하며, 화물을 운반하는 법을 배우기 위해 개발자가 일일이 코드를 짜주는 ‘노가다’성 보상 프로그래밍(reward programming) 과정을 거칠 필요가 없게 되었습니다.

이 기술의 비장의 무기는 인간의 움직임을 로봇의 지식으로 변환하는 2단계 프로세스에 있습니다. 우선, XGen이라 불리는 데이터 생성 파이프라인이 사람의 단안(monocular) 영상을 분석해 물리적으로 타당한 상호작용 데이터로 합성하고, 이를 다양하게 증강합니다. 그 다음, 통합 모방 학습 프레임워크인 XMimic이 이 데이터를 활용해 로봇의 정책(policy)을 훈련시켜 기술을 습득하고 일반화하게 만듭니다. 이 모든 과정은 실제 휴머노이드 로봇인 Unitree G1에서 별도의 추가 조정 없는 ‘제로샷(zero-shot)’ 전이에 성공하며 심투리얼(sim-to-real) 구현의 정점을 보여주었습니다.

연구 논문에 따르면, 이 방식은 기존 접근법보다 일반화 성공률이 8배 이상 높습니다. 시연된 기술들은 놀라울 정도로 역동적입니다. 농구의 펌프 페이크 점프슛은 물론, 사람과 로봇이 자연스럽게 패스를 주고받는 연속 동작까지 매끄럽게 소화해냅니다.

이것이 왜 중요한가?

이번 연구는 진정한 ‘범용 휴머노이드’ 시대를 향한 거대한 도약입니다. 그동안 로보틱스 분야의 최대 병목 구간은 하드웨어가 아닌 소프트웨어였습니다. 로봇에게 새로운 기술 하나를 가르칠 때마다 모든 동작을 세세하게 프로그래밍해야 했기 때문입니다.

하지만 HumanX 프레임워크는 파격적인 지름길을 제시합니다. YouTube나 TikTok 등 지구상에서 가장 거대하고 다양한 물리적 과업 데이터셋인 ‘영상 플랫폼’을 로봇의 교과서로 활용하는 것이죠. 보상 엔지니어링(reward engineering)이라는 장벽을 허물어뜨림으로써, 새로운 로봇 기술 개발의 문턱을 획기적으로 낮췄습니다. 이제 엔지니어 팀이 ‘상자 들어올리기’ 함수를 밤새 코딩하는 대신, 창고 직원이 일하는 영상 하나를 로봇에게 보여주기만 하면 되는 시대가 오고 있습니다. SF 영화 속 상상이 현실의 하드웨어와 만나는 진정한 패러다임의 전환입니다.