로봇에게 '되돌리기' 버튼을? RoboClaw, 학습 효율 8배 높였다

로봇을 훈련시키는 과정은 사실 영혼을 갈아 넣는 ‘노가다’에 가깝습니다. 로봇이 동작 하나를 제대로 익힐 때까지, 옆에 붙어 앉아 실패할 때마다 일일이 환경을 재설정해 주는 인간의 눈물겨운 뒷바라지가 필수적이기 때문이죠. 하지만 이제 그 지긋지긋한 ‘로봇 수발’의 시대가 끝날지도 모르겠습니다. **로보클로(RoboClaw)**라는 새로운 프레임워크가 등장하면서, 로봇에게 가장 필요한 덕목인 ‘스스로 뒷정리하는 법’을 가르치기 시작했거든요.

AgiBot, 싱가포르 국립대학교(NUS), 그리고 상하이 교통대학교 연구진이 공동 개발한 로보클로는 **‘얽힌 행동 쌍(Entangled Action Pairs, EAP)’**이라는 지극히 단순하면서도 파괴적인 개념을 도입했습니다. 핵심은 간단합니다. 로봇이 립스틱을 홀더에 꽂는 ‘정방향’ 기술을 배울 때, 이를 다시 뽑아내는 ‘역방향(Undo)’ 기술도 세트로 학습시키는 것이죠. 이렇게 두 행동이 하나의 루프를 형성하면, 로봇은 스스로 연습하고, 스스로 환경을 리셋하고, 다시 반복하며 데이터를 쌓을 수 있습니다. 더 이상 인간 베이비시터가 옆에서 지켜볼 필요가 없는 셈입니다.

연구 결과는 그야말로 압도적입니다. 기존 모델과 비교했을 때 훈련 중 인간의 개입은 8배나 줄어들었고, 데이터셋 구축에 드는 전체 작업 시간은 2.16배 단축됐습니다. 게다가 복잡한 다단계 작업에서의 성공률은 오히려 25%나 높아졌죠. 연구진은 화장대 정리 작업을 통해 이를 증명했는데, 로봇은 다양한 물건을 자율적으로 옮기고 배치하는 과정에서 실수가 발생하더라도 스스로 복구하며 학습을 이어갔습니다.

이것이 왜 중요한가?

이번 연구의 진정한 돌파구는 단순히 ‘자동 리셋’에만 있는 것이 아닙니다. 로봇을 훈련시킨 바로 그 에이전트가 실제 현장 배치까지 담당한다는 점이 핵심입니다. 기존의 로봇 시스템은 데이터 수집, 모델 훈련, 실제 실행 단계가 파편화되어 따로 노는 경우가 많았습니다. 하지만 로보클로는 이 세 과정을 하나의 시각-언어 모델(VLM) 기반 컨트롤러로 통합했습니다.

즉, 로봇이 현장에서 작업에 실패하더라도 그것은 단순한 오류로 끝나지 않습니다. 그 실패 자체가 새로운 학습 데이터가 되어 시스템에 즉각 피드백됩니다. 현장에서의 실수를 통해 스스로 성장하는 ‘폐쇄 루프(Closed-loop)’ 시스템이 완성되는 것이죠. 이는 로봇 공학의 패러다임이 미리 프로그래밍된 뻣뻣한 자동화 기계에서, 야생의 환경에서도 스스로 적응하고 배우는 진정한 ‘에이전틱(Agentic) 시스템’으로 진화하고 있음을 시사합니다.

하이퍼링크: arXiv에서 논문 전문 읽기