CMU, 로봇이 스스로 실수를 통해 배우도록 하다

카네기 멜런 대학교와 NVIDIA의 연구진은 인턴들이 그러하듯 로봇 역시 스스로의 삽질에서 배워야 한다는 결론에 도달한 모양입니다. 이들은 PLD (Probe, Learn, Distill)라는 새로운 프레임워크를 선보이며, Vision-Language-Action (VLA) 모델이 고정밀 작업에서 자율적으로 능력을 향상시키도록 했습니다. 이는 마치 손으로 마이크로칩을 깎는 것만큼이나 확장성이 떨어지는, 인간의 시범을 흉내 내 로봇을 가르치던 전통적이고 고된 방식에서 벗어난 진일보입니다.

PLD 방식은 실패를 성공의 발판으로 삼도록 설계된 3단계 과정입니다. 먼저 로봇은 기존 지식으로 작업을 시도하며 스스로의 한계를 *탐색(probe)*합니다. 그러다 필연적으로 실수를 저지르면—예를 들어, 서빙하려던 음료를 쏟는다면—**잔여 강화 학습(residual reinforcement learning)**을 통해 훈련된 경량 “구조 정책(rescue policy)“이 개입하여 행동을 수정합니다. 마지막으로 시스템은 이 성공적인 복구 과정을 *정제(distill)*하여 새로운 데이터로 메인 모델을 미세 조정합니다. 결론적으로 로봇은 실패할 때마다 조금씩 더 똑똑해지며, 굳이 옆에서 손대줄 필요도 없습니다. 이 시스템은 이미 LIBERO 벤치마크에서 99%의 성공률을, 특정 실제 조작 작업에서는 100%의 성공률을 입증했습니다.

왜 이것이 중요할까요?

이는 진정으로 적응력 있는 로봇을 만드는 데 있어 엄청난 도약입니다. 모든 상상 가능한 상황에 딱 들어맞는 완벽한 움직임만 주입받는 대신, PLD를 장착한 로봇은 새롭고 불완전한 경험으로부터 스스로 훈련 데이터를 생성할 수 있습니다. 이러한 자기 개선 루프는 개발 시간과 비용을 획기적으로 줄여, 당신의 엉망진창인 부엌처럼 복잡하고 구조화되지 않은 환경에서 로봇을 훨씬 더 실용적인 존재로 만들 수 있습니다. 이는 “보고 배우기"에서 “해보고 배우기"로, 그리고 더 나아가 “거의 망칠 뻔해야 비로소 깨닫는” 경지로의 전환이라 할 수 있습니다.