로봇 혁명의 오픈 소스 시대: 엔비디아의 GR00T N1이 범용 로봇 시대를 열다
산호세 SAP 센터의 거대한 공간, 수천 명의 개발자와 기술자들의 전율 속에서 엔비디아 CEO 젠슨 황이 상징적인 가죽 재킷을 입고 무대를 가로질러 걸어 나왔다. 그는 잠시 극적인 멈춤을 가진 후 선언했다. “범용 로봇의 시대가 도래했습니다.” 화요일, 엔비디아 GTC 2025 컨퍼런스에서 발표된 이 선언은 단순한 과장이 아니었다. 이는 로보틱스의 ‘안드로이드 순간’이 될 수 있는 것, 즉 세계 최초의 오픈 휴머노이드 로봇 파운데이션 모델인 엔비디아 아이작 GR00T N1의 공개였다.
모든 신체를 위한 뇌: 로봇 지능의 대중화
오늘날 헤드라인을 장식하는 독점 AI 시스템들과는 확연히 대조적으로, GR00T N1은 로봇 지능에 대한 근본적으로 다른 접근 방식을 나타낸다. 이는 개방성, 접근성, 그리고 각 시나리오에 대한 특수 프로그래밍 없이 환경과 작업 전반에서 일반화할 수 있는 로봇에 대한 비전을 기반으로 한다.
황은 2시간을 훌쩍 넘긴 기조연설에서 “엔비디아 아이작 GR00T N1과 새로운 데이터 생성 및 로봇 학습 프레임워크를 통해 전 세계 로보틱스 개발자들은 AI 시대의 다음 개척지를 열게 될 것"이라고 가득 찬 경기장에 말했다. 이 말은 엔비디아의 야심 찬 전략을 요약한다. 차세대 휴머노이드 로봇에 동력을 공급할 기반 지능을 만들고, 이를 전 세계 개발자들에게 자유롭게 제공하는 것이다.
이 발표가 특히 중요한 이유는 로보틱스에서 가장 끈질긴 도전 과제, 즉 훈련 데이터의 확장성 문제를 해결하는 방식 때문이다. 엔비디아의 선임 연구 관리자이자 체화된 AI(Embodied AI) 책임자인 짐 팬(Jim Fan)이 기조연설 후 링크드인 게시물에서 설명했듯이, “우리는 물리적 AI를 대중화하는 임무를 수행 중입니다. 단 20억 개의 파라미터만으로, 가장 다양한 물리적 동작 데이터셋에서 학습한 범용 로봇의 두뇌가 당신 손안에 있습니다. 이 작은 녀석이 자신의 무게를 뛰어넘는 활약을 보여주고 있습니다.”
빠르고 느린 사고를 하는 로봇
GR00T N1의 핵심에는 인간의 인지에서 영감을 받은 이중 시스템 아키텍처가 있다. 엔비디아는 이를 ‘빠르게 그리고 느리게’ 생각한다고 부른다. 이 접근 방식은 인간의 사고를 직관적이고 자동적인 반응과 신중하고 체계적인 추론의 두 시스템으로 구분하는 인지 과학 이론에서 차용한 것이다.
느리게 사고하는 구성 요소인 “시스템 2"는 비전 언어 모델(Vision Language Model)을 사용하여 로봇의 환경과 수신된 명령을 인지하고 추론한 다음 적절한 행동을 계획한다. 빠르게 사고하는 구성 요소인 “시스템 1"은 이러한 계획을 120Hz 실행 속도로 정밀하고 유동적인 로봇 움직임으로 변환한다. 이 아키텍처 덕분에 로봇은 숙고와 유연한 움직임을 모두 요구하는 복잡한 작업을 처리할 수 있다. 물건을 집고, 한 팔 또는 양팔로 조작하며, 다단계 시퀀스를 수행하는 것까지 가능하다.
청중들이 눈에 띄게 흥분했던 시연에서, 황은 GR00T N1을 기반으로 구축된 정책을 사용하여 1X의 네오(Neo) 휴머노이드 로봇이 자율적으로 가정 내 정리 작업을 수행하는 모습을 보여주었다. 로봇의 유연한 움직임과 환경에 대한 뚜렷한 이해는 이 모델의 실용적 응용 잠재력을 강조했다.
합성 현실로 데이터 장벽을 깨다
엔비디아 접근 방식에서 가장 혁명적인 측면은 로보틱스의 근본적인 데이터 문제를 어떻게 해결하는가에 있다. 언어 모델은 인터넷의 방대한 텍스트 코퍼스를 학습할 수 있지만, 로봇 학습은 전통적으로 물리적 세계의 한계에 제약받았다. 인간 시연자는 하루에 24시간의 훈련 데이터만 생성할 수 있기 때문이다.
엔비디아의 GR00T N1 소개 비디오의 내레이터는 “인간 시연 데이터는 하루의 시간에 의해 제한됩니다"라고 설명했다. 이 제약을 극복하기 위해 엔비디아는 실제 시연을 기하급수적으로 증폭시켜 방대한 합성 데이터셋을 만드는 프레임워크를 개발했다.
엔비디아 아이작 GR00T 청사진의 초기 구성 요소를 사용하여, 회사는 단 11시간 만에 78만 개의 합성 궤적(9개월 치의 연속적인 인간 시연 데이터와 동등)을 생성했다. 이 합성 데이터셋은 실제 데이터와 결합되었을 때, 실제 데이터만 사용했을 때보다 GR00T N1의 성능을 40% 향상시켰다.
이 접근 방식은 세 가지 데이터 소스를 사용한다. 실제 휴머노이드 원격 조작 데이터(몰입형 제어를 위한 Apple Vision Pro와 같은 시스템을 사용하여 수집됨), 대규모 시뮬레이션 데이터(엔비디아가 30만 개 이상의 궤적과 함께 오픈 소스로 공개하고 있음), 그리고 팬이 최첨단 비디오 생성 모델을 사용하여 정확한 물리학을 가진 새로운 합성 데이터를 ‘환각’하는 방식인 ‘신경 궤적(neural trajectories)‘이다.
팬은 자신의 게시물에서 황이 이 데이터 생성 접근 방식을 설명한 것을 인용하며 “젠슨의 말을 빌리자면, ‘체계적으로 무한한 데이터’입니다!“라고 언급했다.
스타워즈 순간: 블루가 쇼를 훔치다
청중들이 휴대폰을 꺼내 들게 만든 순간, 황은 스타워즈 영화에서 튀어나온 듯한 카리스마 넘치는 로봇 ‘블루(Blue)‘를 소개했다. R2-D2를 연상시키지만 자신만의 뚜렷한 개성을 가진 이 두 발 로봇은 황 주위를 돌아다니며 표현력 있게 삐 소리를 내고 머리를 끄덕여 청중을 즐겁게 했다.
블루가 자신의 능력을 시연하자 청중의 박수 속에서 황은 “이게 놀랍지 않았다고 말해보시겠습니까"라고 말했다. 이 로봇은 단순한 쇼맨십을 위한 것이 아니었다. 이는 엔비디아와 구글 딥마인드, 디즈니 리서치 간의 새로운 파트너십을 통해 공개 소스로 개발 중인 뉴턴(Newton)이라는 새로운 물리 엔진을 시연한 것이다.
황은 “우리는 매우 세밀한, 단단한 및 부드러운 물체를 위해 설계되었으며, 촉각 피드백 및 정밀 운동 기술과 액추에이터 제어 훈련이 가능하도록 설계된 물리 엔진이 필요하다"고 설명했다. 엔비디아 워프(Warp) 프레임워크를 기반으로 구축된 뉴턴 엔진은 로봇 학습에 최적화될 것이며 구글 딥마인드의 MuJoCo 및 엔비디아 아이작 랩과 같은 시뮬레이션 프레임워크와 호환될 것이다.
월트 디즈니 이매지니어링 리서치 & 개발 부문의 수석 부사장인 카일 라플린(Kyle Laughlin)은 디즈니의 참여 배경을 설명했다. “BDX 드로이드들은 시작에 불과합니다. 우리는 세상이 이전에 보지 못했던 방식으로 더 많은 캐릭터에게 생명을 불어넣는 데 전념하고 있으며, 디즈니 리서치, 엔비디아, 구글 딥마인드와의 이 협력은 그 비전의 핵심적인 부분입니다.”
10조 달러 규모의 기회
이 로봇 혁명의 판돈은 엄청나다. 황은 로봇을 “다음 1,000조 원(10조 달러) 산업"이라고 묘사하며, 5천만 명 이상으로 추정되는 전 세계적인 노동력 부족에 대응하고 있다고 말했다.
휴머노이드 로봇을 개발하는 기업들에게 GR00T N1은 상당한 출발 이점을 제공한다. 로봇 지능을 처음부터 구축하는 대신, 개발자들은 엔비디아의 파운데이션 모델을 활용하고 사후 훈련(post-training)을 통해 특정 로봇이나 작업에 맞게 맞춤화할 수 있다.
GR00T N1을 사용하는 초기 파트너 중 하나인 1X 테크놀로지스의 CEO 베른트 뵈르니히(Bernt Børnich)는 이러한 이점을 강조했다. “엔비디아의 GR00T N1 모델은 로봇 추론과 기술에 있어 중대한 돌파구를 제공합니다. 최소한의 사후 훈련 데이터로 우리는 NEO 감마에 완전히 배포할 수 있었으며, 이는 로봇을 단순한 도구가 아닌 인간에게 의미 있고 측정할 수 없는 방식으로 도움을 줄 수 있는 동반자로 만들고자 하는 우리의 임무를 진전시킵니다.”
초기 액세스 권한을 가진 다른 선도적인 휴머노이드 개발사로는 Agility Robotics, Boston Dynamics, Mentee Robotics, NEURA Robotics가 있다.
교차 체화(Cross-Embodiment): 예상치 못한 반전
휴머노이드 로봇이 GR00T N1의 주요 초점이지만, 팬은 흥미로운 기능인 교차 체화 지원을 공개했다. 그는 “$110짜리 HuggingFace LeRobot SO100 로봇 팔에서도 작동하도록 미세 조정했습니다!“라고 글을 썼다. 이는 파운데이션 모델의 이점이 비싼 휴머노이드 플랫폼을 넘어 더 접근하기 쉬운 하드웨어로 확장될 수 있음을 시사한다.
팬은 이 개발에 대한 흥분을 감추지 못하며 결론을 맺었다. “오픈 로봇 두뇌가 오픈 하드웨어 위에서 작동한다. 딱 맞는 것 같군. 함께 로보틱스를 해결해 봅시다, 한 토큰씩 말이죠.”
앞으로의 길
GR00T N1 모델, 훈련 데이터 및 작업 평가 시나리오는 현재 Hugging Face와 GitHub에서 사용할 수 있으며, 합성 조작 동작 생성을 위한 엔비디아 아이작 GR00T 청사진은 build.nvidia.com에서 대화형 데모로 제공된다.
이러한 모델로 작업하려는 개발자를 위해 엔비디아는 DGX Spark 개인용 AI 슈퍼컴퓨터를 발표했는데, 이는 광범위한 맞춤형 프로그래밍 없이도 새로운 로봇, 작업 및 환경에 대해 GR00T N1의 기능을 확장할 수 있는 턴키 시스템을 제공한다.
뉴턴 물리 엔진은 올해 말에 출시될 예정이며, 로보틱스 개발자를 위한 툴킷을 더욱 확장할 것이다.
물리적 AI의 대중화
엔비디아 접근 방식을 차별화하는 것은 개방성과 접근성에 대한 강조다. GR00T N1과 관련 도구를 널리 배포함으로써 엔비디아는 스스로를 로봇 지능의 유일한 구축자가 아니라, 전 세계 개발자 커뮤니티가 혁신할 수 있는 기반 레이어로 자리매김하고 있다.
로보틱스가 전문 산업 응용 분야에서 벗어나 다양한 환경에 걸친 범용 기능으로 전환됨에 따라, 엔비디아의 오픈 접근 방식은 오픈 소스 소프트웨어가 컴퓨팅을 변모시킨 것과 유사한 방식으로 혁신을 가속화할 수 있다. 게임 그래픽 처리로 명성을 쌓은 회사가 이제 지능형 로봇이 오늘날 스마트폰처럼 어디에나 존재하는 미래의 토대를 마련하고 있다.
로보틱스 커뮤니티에서 GR00T N1에 대한 반응은 열광적이었지만, 로봇 하드웨어의 현재 한계에 대한 약간의 회의론도 남아 있다. 한 로보틱스 회사 설립자가 이전 GR00T 업데이트에 대한 반응으로 언급했듯이, “로봇 하드웨어가 인간과 비슷하다면 괜찮을 겁니다. 하지만 그렇지 않죠. 고통스러운 지점은 로봇이 어설프고 서투른 근사치이며 인간 수준에는 전혀 미치지 못한다는 것입니다.”
그럼에도 불구하고 엔비디아의 비전은 분명하다. 로봇이 인간 삶의 수많은 시나리오 전반에서 진정으로 다재다능하고 유용해지려면, 새로운 환경과 작업에 신속하게 적응할 수 있는 범용 지능이 필요하다. GR00T N1을 통해 그 미래는 상당히 가까워졌다.
“범용 로봇의 시대가 도래했습니다"라고 황은 선언했다. 종종 과대광고하고 약속을 지키지 못했던 분야에게 있어, 로봇 지능에 대한 엔비디아의 체계적인 접근 방식—파운데이션 모델, 합성 데이터 생성, 그리고 오픈 협업의 결합—은 그 선언을 현실로 만드는 데 있어 아마도 가장 신뢰할 수 있는 경로일 것이다.