로봇, 드디어 집안일을 할 수 있을까? BEHAVIOR 챌린지

수십 년 동안, 가정용 로봇의 약속은 그저 ‘약속’으로만 남아있었습니다. 지금쯤이면 로지 로봇이 우리 집을 휘젓고 다녀야 할 것 같았지만, 현실은 욕실 매트에 걸려 옴짝달싹 못 하는 원반형 청소기가 전부죠. 공상 과학과 우리의 가정 현실 사이의 간극은 너무나도 넓고, 그 길목에는 실패한 스타트업들의 시체와 과대광고의 잔해들이 즐비합니다. 하지만 NeurIPS 2025에서 첫선을 보일 새로운 대회, BEHAVIOR 챌린지가 이 분야를 억지로라도, 비명을 지르게 하면서, 현실 세계로 끌어들이려 하고 있습니다. 적어도, 아주, 아주 설득력 있는 시뮬레이션 속으로 말이죠.

이 챌린지는 목표는 단순하지만 실행은 잔혹합니다. 로봇이 실제 집안일을 하도록 만드는 것이죠. 단순히 블록 하나를 집어 올리는 것을 넘어, 인간에게는 지루하기 짝이 없는 복잡하고 여러 단계로 이루어진 활동들을 완수하게 하는 것입니다. BEHAVIOR는 ‘가상, 상호작용적, 현실적인 환경에서의 일상 가정 활동 벤치마크(Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments)‘의 약자로, 단순한 로봇 공학 벤치마크가 아닙니다. 오늘날 최첨단 AI의 능력을 시험대에 올리기 위해 고안된 본격적인 ‘가사 노동의 관문’입니다. 그리고 솔직히 말해서, 누군가는 진작에 했어야 할 일이죠.

불쾌한 골짜기의 집안일

BEHAVIOR 챌린지의 핵심은 대부분의 로봇 시뮬레이션 환경을 아이들 장난감처럼 보이게 만드는, 매우 정교한 시뮬레이션 환경입니다. 이곳은 살균 처리된 실험실이 아닙니다. 모든 것이 엉망진창이 될 수 있는 고정밀 물리 기반의 세계입니다. 이 벤치마크는 세 가지 기둥 위에 세워져 있습니다.

  • 1,000가지 일상 작업: 큐브 쌓기는 잊으세요. 우리는 “선물 바구니 조립하기”, “접시와 음식 치우기”, 그리고 생각만 해도 지긋지긋한 “할로윈 장식 정리하기” 같은 작업들을 이야기하고 있습니다. 각 작업은 BEHAVIOR 도메인 정의 언어(BDDL)로 공식적으로 정의되어 있으며, 초기 상태와 성공을 위한 정확한 조건을 명시합니다.
  • 50가지 상호작용 환경: 단순히 정적인 방들이 아니라, 약 10,000개의 조작 가능한 물건들로 채워진 완전히 상호작용적인 집 규모의 레이아웃입니다. 냉장고를 열 수 있고, 토마토를 썰 수 있으며, 천은… 음, 변형될 수 있습니다.
  • OmniGibson 시뮬레이터: NVIDIA의 Omniverse 플랫폼을 기반으로 구축된 이곳에서 마법(과 물리법칙)이 현실이 됩니다. OmniGibson은 강체 물리학뿐만 아니라, 변형 가능한 물체, 유체 상호작용, 그리고 가열, 냉각, 절단과 같은 복잡한 상태 변화까지 지원합니다. 이것이 이전 시뮬레이터들과 차별화되는 점이며, 언젠가 실제 주방을 마주할 로봇을 훈련시키는 데 필수적인 현실감을 제공합니다.

이것은 단순히 조작이나 내비게이션만을 따로 테스트하는 것이 아닙니다. BEHAVIOR는 로봇이 고수준 추론, 장거리 내비게이션, 그리고 능숙한 양손 조작을 동시에 수행해야 하는 최초의 벤치마크입니다. 성공하려면 AI는 한 가지에만 능숙해서는 안 됩니다. (매우 인내심 있는) 인간처럼 생각하는 데 능숙해야 합니다.

NeurIPS 2025의 관문

NeurIPS 2025에서의 첫 번째 실행을 위해, 이 챌린지는 50개의 완전한 길이의 작업들을 전 세계 연구 커뮤니티에 공개합니다. 참가자들은 여러 방을 넘나들고 수십 개의 하위 목표를 포함하며 완료하는 데 몇 분이 걸릴 수 있는 시나리오를 가상 로봇이 해결하도록 프로그래밍해야 합니다. “피자 만들기” 또는 “개 장난감 씻기"와 같이, 계획, 기억력, 그리고 엄청난 디지털 땀방울을 요구하는 작업들을 상상해 보세요.

이 시뮬레이션 시험의 기본 로봇은 Galaxea의 R1 Pro입니다. 바퀴 달린 휴머노이드로, 7자유도 팔 두 개, 4자유도 몸통, 그리고 다양한 센서 세트를 갖추고 있습니다. 이것은 어설픈 양철통이 아닙니다. 그 디자인은 가정 활동에 필수적인 도달 범위, 안정성, 그리고 양손 협응력을 위해 명시적으로 선택되었습니다.

참가자들이 AI를 원시적인 무지 상태에서부터 학습시켜야 하는 부담을 덜어주기 위해, 주최 측은 방대한 데이터 세트를 제공합니다. 총 1,200시간이 넘는 10,000개의 전문가 시연 데이터입니다. 이것은 흔들리거나 어설픈 아마추어 영상이 아닙니다. 공급업체인 SimovationJoyLo 텔레오퍼레이션 시스템을 사용하여 수집한 깨끗하고 거의 최적에 가까운 데이터입니다. 운동학적 트윈 암에 장착된 휴대용 컨트롤러를 사용하는 영리한 설정인 JoyLo는 인간 조작자가 로봇을 작업을 통해 부드럽게 안내할 수 있게 하여, 모방 학습을 위한 완벽한 템플릿을 제공합니다.

왜 이렇게 지독하게 어려운가

“장기적인(long-horizon)“이라는 용어는 AI 분야에서 많이 사용되지만, BEHAVIOR는 이 용어에 진정한 의미를 부여합니다. “책을 상자에 넣어 보관하기"와 같은 작업은 로봇이 거실로 이동하여 올바른 책들을 식별하고, 차고에서 상자를 찾아 다시 가져와서, 각 책을 순서대로 상자 안에 넣는 것을 요구할 수 있습니다. 이는 몇 안 되는 벤치마크만이 해냈던 방식으로, 장기간에 걸친 계획과 기억력을 시험합니다.

더 나아가, 물체 상호작용의 순수한 다양성은 경이롭습니다. 로봇은 단순히 잡는 것을 넘어선 기술들을 이해하고 실행해야 합니다. 액체를 붓고, 표면을 닦고, 야채를 썰고, 스위치를 켜고 꺼야 할 것입니다. 물체는 열고, 닫고, 가열하고, 얼리고, 청소하고, 심지어 불을 붙일 수도 있습니다. 이처럼 풍부한 필수 기술 세트(최소 30가지의 독특한 기본 요소)는 연구자들이 단일 작업 모델을 넘어 보다 일반화되고 적응력 있는 지능으로 나아가도록 강요합니다.

챌린지에 대한 접근성을 높이기 위해, 주최 측은 ACTDiffusion Policy와 같은 표준 모델뿐만 아니라 OpenVLA와 같은 사전 훈련된 모델을 포함한 여러 기준 모델을 제공합니다. 전체 프레임워크는 오픈 소스이며, 진입 장벽을 낮추기 위한 스타터 키트와 튜토리얼이 완비되어 있습니다.

로봇 집사를 어떻게 평가할 것인가?

BEHAVIOR 챌린지의 성공은 주로 작업 성공률로 측정됩니다. 시스템은 BDDL 정의를 사용하여 로봇이 모든 목표 조건을 충족했는지 확인합니다. 부분 점수도 부여되어, 완벽하지 않더라도 의미 있는 진전을 이룬 솔루션에 인센티브를 제공합니다.

똑똑한 자와 어설픈 자를 가려내기 위해 보조 지표도 추적됩니다.

  • 효율성: 소요 시간, 이동 거리, 총 관절 움직임이 측정됩니다. 우아한 솔루션은 빠른 솔루션입니다.
  • 데이터 활용률: 주최 측은 각 제출물이 1,200시간의 시연 데이터 중 얼마나 사용되었는지 기록하여, 데이터 효율성에 대한 통찰력을 제공합니다.

경쟁은 2025년 9월 2일에 공식적으로 시작되었으며, 최종 제출은 11월 16일까지입니다. 12월 샌디에이고에서 열리는 NeurIPS 컨퍼런스에서 발표될 우승자들은 현금 상금(1등에게는 1,000달러라는 소박한 금액)을 받게 되지만, 진정한 상은 명예와 구현 AI 분야를 의미 있게 발전시킬 기회입니다.

궁극적으로 BEHAVIOR 챌린지는 단순한 경쟁 이상입니다. 전체 로봇 산업에 대한 ‘현실 점검’입니다. 우리의 알고리즘이 실험실을 벗어나 인간의 가정이라는 혼돈스럽고, 예측 불가능하며, 종종 끈적이는 환경으로 들어갈 준비가 되었는지 시험하기 위해 세심하게 설계된 시련의 도가니입니다. NeurIPS 2025의 결과는 누가 최고의 모델을 가졌는지뿐만 아니라, 로봇 도우미가 설거지를 할 준비가 되기까지 우리가 얼마나 더 나아가야 할지를 보여줄 것입니다.