휴머노이드 AI 설계의 정면 승부: Humanoid KinetIQ vs Figure Helix 02

휴머노이드 로봇의 ‘완전한 인공 두뇌’를 선점하려는 글로벌 기업들의 질주가 예사롭지 않습니다. 이제 단순히 로봇을 걷게 하거나 콜라 캔을 집어 오게 하는 수준의 경쟁은 끝났습니다. 진짜 전쟁은 ‘지능의 아키텍처’, 즉 사고의 구조 그 자체에서 벌어지고 있습니다. 한쪽에는 보고 배우는 ‘천재형’ 엔드-투-엔드(end-to-end) 모델이 있고, 다른 한쪽에는 치밀하게 짜인 ‘조직형’ 관료 체계가 있습니다. Humanoid가 최근 발표한 새로운 AI 프레임워크 KinetIQ는 명백히 후자의 진영에 서서, 단일 로봇을 넘어 로봇 군단 전체를 지휘하는 ‘오케스트라 지휘자’의 면모를 과시하고 있습니다.

이러한 행보는 10만 줄의 코드를 지운 피규어 AI, '설거지하는 로봇'의 탄생 를 통해 유연하고 장기적인 자율성을 선보이며 세상을 놀라게 했던 Figure AI와의 흥미로운 대결 구도를 형성합니다. Figure가 복잡한 다단계 과업을 스스로 학습하는 단일 통합 신경망에 집중한다면, Humanoid는 훨씬 더 까다롭고 산업적인 문제인 ‘군단 관리(Fleet Management)‘에 정면으로 도전하고 있습니다. 이는 마치 ‘천재적인 솔리스트’와 ‘노련한 총괄 기획자’의 대결과도 같으며, 그 결과에 따라 향후 수십 년간 로봇이 우리 세상에 통합되는 방식이 결정될 것입니다.

KinetIQ: 인지 능력에도 ‘계급’이 있다? 로봇판 기업형 지배구조

HumanoidKinetIQ는 이른바 ‘교차 시계열(cross-timescale)’ 아키텍처를 기반으로 합니다. 쉽게 말해, 명령과 통제를 4개의 층으로 겹겹이 쌓아 올린 케이크 같은 구조입니다. 각 계층이 서로 다른 속도와 추상화 수준에서 작동하는, 마치 거대 기업의 의사결정 시스템을 닮은 에이전트 프레임워크입니다.

가장 꼭대기에는 시스템 3(System 3), 즉 ‘에이전트 군단 오케스트레이터’가 자리 잡고 있습니다. 기업의 C-레벨(경영진)에 해당하는 이 계층은 공장이나 창고 관리 소프트웨어와 연동되어 거시적인 목표를 하달받습니다. 수 초에서 수 분 단위의 긴 호흡으로 작동하며, 이족 보행 로봇이든 바퀴형 로봇이든 상관없이 군단 내의 모든 로봇을 최적의 효율을 내기 위한 ‘자원’으로 배치합니다.

그 바로 아래는 로봇 단위의 프로젝트 매니저인 **시스템 2(System 2)**입니다. 이 계층은 옴니모달 언어 모델을 사용해 시스템 3의 지시를 해석하고, 이를 단일 로봇이 수행할 수 있는 세부 작업 순서로 쪼갭니다. 주변 환경을 추론하고 상황에 맞춰 계획을 동적으로 수정하는, 일종의 ‘현장 해결사’ 역할을 수행합니다.

실시간으로 구체적인 지시를 내리는 것은 팀장 격인 **시스템 1(System 1)**입니다. 시각-언어-행동(VLA) 네트워크인 이 계층은 5~10Hz의 빠른 속도로 작동하며, 시스템 2가 세운 계획을 실행하기 위해 로봇의 손, 몸통, 골반 등 각 부위가 취해야 할 목표 자세를 끊임없이 생성합니다.

마지막으로 실제 현장에서 ‘몸빵’을 담당하는 것이 **시스템 0(System 0)**입니다. 50Hz로 구동되는 전신 제어기(Whole-body controller)로, 시뮬레이션 환경에서 약 15,000시간에 달하는 강화 학습(RL)을 거쳐 완성되었습니다. 이 계층의 유일하고도 절박한 목표는 상위 계층에서 내려온 목표 자세를 안정적이고 균형 잡힌 관절 움직임으로 변환하는 것입니다. 즉, 상자를 집으려다 로봇이 바닥에 고꾸라지지 않도록 사력을 다해 중심을 잡는 역할입니다.

Video thumbnail

Helix 02: 모든 것을 스스로 깨우치는 ‘천재형’ 솔리스트

반대편 코너에는 근본적으로 다른 철학을 가진 Figure AIHelix 02가 서 있습니다. 다층적인 관료주의 대신, Helix 02는 단일화된 통합 시각-운동 신경망(Unified Visuomotor Neural Network)을 지향합니다. 이들의 모토는 “모든 센서 데이터를 입력하고, 모든 액추에이터 출력을 직접 뽑아낸다"는 것입니다. 시각, 촉각, 그리고 고유 수용 감각(proprioception)이 하나의 연속된 시스템 안에서 모든 관절과 직접 연결됩니다.

Helix 02 역시 계층 구조를 가지고는 있지만, 훨씬 더 압축적입니다.

  • 시스템 2는 KinetIQ의 상위 계층처럼 고차원적인 의미론적 추론을 담당합니다.
  • 시스템 1은 마법이 일어나는 핵심 구간입니다. 인지한 정보를 200Hz라는 놀라운 속도로 전신 관절 목표값으로 직접 변환하는 강력한 정책(Policy)이 작동합니다.
  • 시스템 0은 물리적 실체를 지탱하는 기반으로, 부드럽고 안정적인 움직임을 보장합니다. 하지만 순수 강화 학습에 의존하는 KinetIQ와 달리, Helix의 시스템 0은 1,000시간 이상의 인간 모션 데이터를 먼저 학습했습니다. 인간 특유의 균형 감각과 협응 능력을 먼저 배운 뒤 강화 학습으로 다듬어진 것이죠. 또한, 1kHz(초당 1,000회)라는 압도적인 속도로 구동됩니다.

이러한 접근 방식 덕분에 Figure는 로봇이 스스로 식기세척기를 비우고 채우는 4분간의 과정을 자율적으로 수행하는 데 성공했습니다. 이는 로봇 공학계에서 ‘장기 자율성(Long-horizon autonomy)‘의 이정표로 평가받는 성과입니다.

두 개의 뇌, 두 개의 미래: 철학의 충돌

KinetIQ와 Helix 02의 차이는 단순한 기술적 차이를 넘어, 로봇 공학의 미래를 바라보는 두 가지 뚜렷한 시각을 대변합니다.

특징Humanoid KinetIQFigure AI Helix 02
주요 목표이종 로봇 군단의 통합 지휘 및 관리단일 로봇의 고차원적 장기 자율성 구현
아키텍처4계층 에이전트 프레임워크3계층 통합 시각-운동 네트워크
시스템 0 학습약 15,000시간의 순수 강화 학습(RL)1,000시간 이상의 인간 데이터 + RL
시스템 0 속도50 Hz1,000 Hz (1 kHz)
핵심 강점확장성, 신뢰성, 다양한 플랫폼 관리 능력유연성, 정교함, 복잡하고 새로운 과업 학습
비유일사불란하게 움직이는 물류 대기업고도로 훈련된 만능 스포츠 스타

KinetIQ의 계층적 설계는 매우 실용적입니다. 각 계층의 역할을 분리함으로써, Humanoid는 전체 시스템을 갈아엎지 않고도 특정 계층만 개선하거나 디버깅, 혹은 교체할 수 있습니다. 이러한 모듈화 방식은 수많은 기계 간의 신뢰성과 협업이 필수적인 산업 현장에 최적화된 구조입니다.

반면 Figure의 엔드-투-엔드 방식은 ‘범용 인공 지능(AGI)‘을 향한 더 야심 찬 도전입니다. 인간의 데이터를 직접 학습함으로써, 정형화되지 않은 현실 세계의 혼돈 속에서도 인간처럼 우아하고 유연하게 대처할 수 있는 신체적 지능의 근본 모델을 만들고자 합니다. 단순히 목표를 달성하는 법이 아니라, ‘사람처럼 움직이는 법’ 자체를 배우는 셈입니다.

결론: 화려한 데모에서 험난한 현장으로

결국 어떤 아키텍처가 승리할지는 실험실이 아닌 공장 바닥과 우리 거실에서 결정될 것입니다. Humanoid는 수조 원 규모의 거대 시장이 형성될 물류 및 제조 분야에서, 서로 다른 역할을 수행하는 로봇 군단을 지휘하는 능력이 핵심 승부처가 될 것이라고 확신하고 있습니다. KinetIQ는 바로 그 세상을 위해 맞춤 설계된 시스템입니다.

반면 복잡하고 인간 중심적인 과업에 집중하는 Figure AI는 언젠가 인간의 모든 환경을 탐험할 수 있는 진정한 범용 로봇이라는 더 먼 미래를 보고 있습니다. 알약을 다루거나 주사기에 정밀한 용량을 채우는 등 이들이 보여준 놀라운 정교함은 미세 운동 제어의 한계를 밀어붙이고 있습니다.

경주가 시작되었습니다. 로봇 공학의 미래는 치밀한 AI 군단 관리자가 이끌게 될까요, 아니면 독보적인 능력을 갖춘 로봇 천재가 지배하게 될까요? KinetIQ는 화려한 하이라이트 영상보다는 24시간 멈추지 않는 산업 현장의 냉혹한 현실을 위해 설계된, 전자를 향한 강력한 선언입니다. 더 자세한 내용은 thehumanoid.ai의 공식 발표에서 확인할 수 있습니다.