美国国家标准与技术研究院(NIST)最近决定干一件大事:给那些在宣传片里动作丝滑、无所不能的人形机器人揭开“滤镜”,看看它们到底是真有本事,还是全靠后期剪辑。
为此,NIST 提议建立一套全新的“基准性能基准”(Baseline Performance Benchmark)。这本质上是一套标准化的障碍赛场,旨在衡量人形机器人在现实世界中的真实战力。这也是自 DARPA 机器人挑战赛(DRC)落幕近十年后,业界再次尝试给这些昂贵的机器疙瘩来一场硬核的、足以让它们“现原形”的标准化考试。
回想起 2013 至 2014 年间的 DRC 挑战赛,那简直是机器人的“大型翻车现场合集”,同时也给狂热的业界泼了一盆冷水:原来像开门这样对人类来说轻而易举的动作,对机器人而言竟是如此的“地狱级难度”。作为当年测试方案的设计者,NIST 现在打算推出 2.0 升级版。其目标是建立一套通用的、可量化的任务指标,任何自诩能打的商用人形机器人,都得在这把尺子上量一量。
这套提议中的“考卷”涵盖了四大核心科目:机动性(如爬楼梯、走斜坡)、操作能力(如拧动旋钮、使用工具)、移动操作协调性(如提着周转箱穿过房门)以及认知能力(如多步骤的任务规划)。

NIST 目前正与工业界紧密合作开发这套测试装置,并计划向参与测试的美国机器人制造商免费发放有限数量的物理测试台。更有意思的是,NIST 正在积极征求机器人社区的意见——这相当于邀请 Boston Dynamics、Figure AI 和 Tesla 等巨头亲自下场参与“出题”,共同打造那把最终将用来衡量它们自己的“金标准”。
为什么这很重要?
多年来,机器人行业一直被各种精心包装的 Demo 视频所统治。在完美的灯光和特定的条件下,每个机器人都表现得无懈可击。然而,由于缺乏标准化的衡量手段,客户和投资者往往只能靠猜:到底谁是真材实料,谁只是请了个顶级的视频剪辑师?
NIST 的这套基准测试有望刺破行业泡沫。通过建立一套可重复、可量化的测试体系,它为所有玩家提供了一个公平竞技的擂台,能让真正的“实力派”从那些只能待在实验室里的原型机中脱颖而出。对于一个正处于商业化落地前夜的行业来说,这种客观的验证不仅是“照妖镜”,更是建立市场信任、推动技术稳步前进的指南针。欲了解更多细节,可查阅 官方提案。

