현대 로봇공학의 은밀한 진실은, 가장 인상적인 시연조차 사실은 첨단 기술을 입힌 인형극에 불과하다는 것이다. 복잡하고 값비싼 원격 조작 장치(teleoperation rigs)에 몸을 묶은 수많은 인간 조작자들이 로봇의 모든 움직임을 원격으로 조종하며, 로봇에게 유용한 것을 가르치는 데 필요한 데이터를 생성한다. 느리고, 비싸고, 솔직히 말해 확장 불가능한(unscalable) 과정이다. 스탠퍼드 박사 중퇴생인 토니 자오(Tony Zhao)와 청 치(Cheng Chi)가 설립한 Sunday AI는 이 ‘확장성 교착 상태(scaling deadlock)‘를 정면으로 돌파하기보다 아예 건너뛰기로 결정했다.
새로운 기반 모델(foundation model)인 ACT-1을 구동하는 그들의 해결책은 놀랍도록 단순하다. 로봇이 어떤 작업을 배우기를 원한다면, 그냥 당신이 직접 해라. 2만 달러짜리 원격 조작 장치 대신, Sunday의 엔지니어들은 200달러짜리 ‘스킬 캡처 글러브(Skill Capture Glove)‘를 사용한다. Memo 로봇 손의 기하학적 구조와 센서에 맞춰 공동 설계된 이 장갑은 인간 움직임의 미묘하고 접촉이 풍부한 데이터를 포착한다. 그 전제는 대담하다. 인간이 장갑을 끼고 할 수 있다면, 로봇도 배울 수 있다. 인형극 같은 조종은 필요 없다.
데이터 병목 현상과 장갑 솔루션
Sunday의 핵심 신념은 로봇공학이 하드웨어, 컴퓨팅 능력, 자금 때문에 발목 잡히는 것이 아니라, 단 하나의 명확한 제약, 즉 ‘데이터’ 때문에 정체되어 있다는 것이다. 대규모 언어 모델(Large Language Models)이 인터넷 전체를 집어삼킬 수 있었던 반면, 로봇공학에는 그와 같은 실제 상호작용 데이터의 방대한 코퍼스(corpus)가 없다. Tesla와 같은 회사들은 수백만 대의 차량을 데이터 수집에 활용할 수 있지만, 로봇공학 스타트업들은 그런 호사를 누릴 여유가 없다. 원격 조작(Teleoperation)이 업계의 해답이었지만, 이는 자본 집약적이고 느린 무차별 대입 방식(brute-force approach)이다.

스킬 캡처 글러브는 이 문제에 대한 Sunday의 우아한 ‘회피책(end-run)‘이다. 데이터 수집을 분산함으로써, 물리적인 로봇이 없어도 누구나, 어디서든 훈련 세트에 기여할 수 있다. 이는 두 가지 주요 이점을 제공한다.
- 자본 효율성: Sunday는 이 장갑이 표준 원격 조작 설정보다 100배(두 자릿수) 저렴하여 데이터 수집 비용을 획기적으로 낮춘다고 주장한다.
- 데이터 품질: 양말을 접거나 식기세척기 선반에 와인잔을 놓을 때 필요한 힘을 판단하는 것과 같이 ‘손 감각’에 의존하는 작업의 경우, 이 장갑은 원격 조작으로는 도저히 재현할 수 없는 자연스러운 힘 피드백을 제공한다.
이러한 접근 방식 덕분에 Sunday는 수백 곳의 어수선하고 실제 가정 환경에서 데이터를 수집할 수 있었고, 그들이 말하는 ‘삶의 긴 꼬리(long tail of living)’—식기세척기 안의 고양이들까지도—를 반영하는 데이터셋을 구축했다.
식탁에서 식기세척기로
ACT-1의 진가를 증명하기 위해 Sunday는 “로봇이 자율적으로 수행한 가장 복잡한 작업"이라고 부르는 것을 선보였다. 바로 저녁 식탁을 치우고 식기세척기에 그릇을 넣는 일이다. 이는 단순히 물건을 집어 옮기는 수준이 아니다. 이 작업에는 섬세하고 투명한 와인잔부터 세라믹 접시, 금속 식기류에 이르기까지 21가지 다른 물체와 관련된 33가지 고유하고 총 68가지의 정교한 상호작용이 포함된다.
이 장기적인 작업(long-horizon task) 동안 Memo 로봇은 130피트(약 39.6미터) 이상을 이동하고, 음식물 쓰레기를 버리며, 심지어 식기세척기를 작동시킨다. 이는 단일 종단간 모델(end-to-end model)로 제어되는 정밀한 조작(fine-grained manipulation)과 공간 규모 내비게이션(room-scale navigation)의 교향곡과 같다. 공동 창업자 토니 자오는 개발 과정에서 수많은 잔을 깨뜨렸다고 인정했지만, 20번 이상의 라이브 시연에서는 단 한 개도 깨뜨리지 않았다고 밝혔다. 이는 모델이 학습한 섬세함에 대한 증거다.
실제 환경에서의 제로샷 일반화
자체 실험실에서만 작동하는 로봇은 그저 과학 프로젝트에 불과하다. ACT-1의 적응력을 증명하기 위해 팀은 Memo를 낯선 에어비앤비 6곳에 배치했다. 목표는 환경별 맞춤 훈련 없이 식탁을 치우고 식기세척기에 그릇을 넣는 것이었다.

훈련 중 3D 지도에 모델을 조건화함으로써, ACT-1은 특정 레이아웃을 암기하는 대신 새로운 레이아웃을 해석하는 방법을 배운다. 새로운 집에 투입되면, 제공된 지도를 사용하여 주요 위치로 이동하며, 실제 가정의 혼란 속에서 작동해야 하는 모든 로봇에게 필수적인 능력을 보여준다. 현재까지 ACT-1은 이러한 수준의 장기 조작(long-horizon manipulation)과 지도 기반 내비게이션(map-conditioned navigation)을 결합한 최초의 기반 모델이다.
정교함의 한계를 뛰어넘다
마라톤 같은 식기세척기 작업 외에도, Sunday는 악명 높게 어려운 두 가지 과제, 즉 양말 접기와 에스프레소 추출로 ACT-1의 기교를 뽐내고 있다. 다른 로봇들은 크고 예측 가능한 물건을 접었지만, 양말은 변형 가능성(deformability)과 자체 가려짐(self-occlusion)의 악몽이다. ACT-1은 어수선하게 쌓인 양말 더미에서 짝을 성공적으로 식별하고, 여러 손가락 움직임(multi-finger movements)을 사용하여 뭉친 다음, 바구니에 넣는다.
한편, 에스프레소 머신을 작동시키는 것은 밀리미터 단위의 정밀함과 무차별적인 힘(brute force)의 조합을 보여준다. 로봇은 공중에서 탬핑(mid-air tamp)을 수행하고, 포터필터(portafilter)를 삽입하며, 버튼을 누르기 전에 잠그는 데 필요한 높은 토크(high torque)를 생성한다. 이것들은 단순히 화려한 시연이 아니다. 스킬 캡처 글러브가 제공할 수 있는 고품질의 미묘한 데이터에 대한 신중하게 선택된 증거들이다.
Sunday의 접근 방식은 대담한 도박이다. 새로운 데이터 수집 방식에 모든 것을 걸고, 업계의 가장 큰 병목 현상을 우회하여 놀라운 기능을 가진 모델을 탄생시켰다. 바퀴 달린 Memo 로봇이 이족 보행 휴머노이드(bipedal humanoid)처럼 SF적인 매력은 없을지 몰라도, 그 실용적인 지능은 부인할 수 없다. Sunday는 조용히 도전장을 던졌다. 로봇공학의 미래는 인형 조종사들이 아닌, 로봇에게 ‘이렇게 하는 거야!‘라고 단순히 보여줌으로써 만들어질지도 모른다고 말이다.






