从力压英伟达到排名清零,RoboArena被千寻智能“刷榜”了吗?

来源：电厂

记者何畅

编辑高宇雷

正如跑分是手机硬件性能的评估标准之一，Benchmark（基准测试）也被视为判断模型能力的重要参考。但随着技术发展和场景变化，维度单一的榜单似乎很难全面呈现模型的水平。与之相伴的另一个问题则是：所谓的榜单是否值得信任？

在 6 月 12 日至 13 日举办的智源大会上，多位嘉宾提到了对 Benchmark 和榜单的看法。智源研究院院长王仲远认为，从实际情况来看，现阶段 " 榜单确实不那么可信 " ——各种各样的榜单令人眼花缭乱，而且部分结果无法验证。香港大学计算与数据科学学院助理教授李弘扬则表示："Benchmark 现在是一个重灾区。"

观点与现实互为映照。6 月 14 日，具身智能评测平台 RoboArena 发布公告称，经过追溯调查，他们 " 已经观察到 Benchmark 存在被操纵的痕迹 "，并剔除了问题数据。对比榜单变更前后的两个版本，最大的区别在于多个模型从榜单上消失，其中就包括此前位列第一的千寻智能自研具身基座模型 Spirit v1.6。

从 " 力压英伟达 " 到排名清零

6 月 3 日，具身智能公司千寻智能通过官方微信公众号发布了一篇文章：《双线告捷！千寻智能 Spirit v1.6 横扫北美 " 具身奥林匹克 " 夺冠，再获 15 亿元 A+ 轮融资》。

标题称得上是对正文信息的高度提炼，这家公司公布的正是这两件事：技术层面，登顶 RoboArena 榜单，" 力压英伟达 Cosmos 3 和 Physical Intelligence Pi0.5，" 打破硅谷霸榜魔咒 "；资本层面，再获 15 亿元 A+ 轮融资，三个月内完成四轮交易，跑出融资加速度。

凭借技术突破吸引资本加码，再将所融资金投入后续研发——双线并行，的确达成了完美闭环。然而，几天之内，就有关注具身智能行业的人士在小红书等社交平台提出了质疑：Spirit v1.6 累计评测记录为 310 次，其中 72% 的评测来自两个账号：一个是 ECUST Robot Lab，评测 179 次，胜率为 97.2%；另一个是 Robotics Lab，评测 45 次，胜率为 86.7%。作为对比，NVIDIA 对 Spirit v1.6 进行了 21 次评测，胜率为 0。

RoboArena 方面也注意到了数据的异常。6 月 4 日，作为联合发起者之一，宾夕法尼亚大学 GRASP 实验室的王杰在相关笔记的评论区回复：" 我们已经注意到了这个情况，正在深入调查 "。

图片来源：电厂截图自小红书

经过一周的调查和追溯，RoboArena 给出了处理方案：将评测完成率低于 20% 的评测账号标记为可疑账号，以防止 Benchmark 作弊的情况再次发生；根据更新后的规则回滚了评测，将来自前述账号的评测结果剔除；同时，强制规定只有没有相关利益的第三方评测者才能自愿参与评测。

RoboArena 的核心贡献者，来自加州伯克利大学机器人学习实验室的 Pranav Atreya 也在社交平台上发文提及此事，并对社区监督表示感谢。

图片来源：电厂截图自 RoboArena

现在，如果你点进 RoboArena 的页面，首先看到的正是被置顶的处理公告，后面跟着 RoboArena 同时放出的两版榜单——短的是 Official 版本，排除了可疑评测结果；长的是 All Policies 版本，包含所有评测结果。在 All Policies 版本登顶的 Spirit v1.6，并未出现在 Official 版本，后者的前三名分别来自英伟达和 Physical Intelligence。

评测机制与可疑数据的由来

RoboArena 的公告，其实在一定程度上解释了可疑评测数据是如何产生的：" 操纵 A/B 评测结果存在多种手段，其中一种典型表现为待分配评测任务的完成率偏低。"

根据官网介绍，RoboArena 是一个分布式评测框架，发起者来自加州大学伯克利分校、斯坦福大学、华盛顿大学、英伟达等高校和科技巨头，兼具顶尖学术机构、头部科技公司背书。评测采用 " 众包 " 模式，评测者可以自主注册账号，自由选择场景和任务执行评测。在这个过程中，模型之间的对手关系来自随机匹配，评测者也不知道自己评测的是哪个模型。

大量分散的双盲、成对评测结果经过系统的收集和统计，最终汇总为一张榜单。理论上来说，这打破了单一实验室的评测模式，大幅扩展了评测的多样性，也意味着个别可疑或恶意评测行为难以轻易影响结果。

图片来源：电厂截图自 RoboArena

但实际上呢？从结果来看，ECUST Robot Lab 和 Robotics Lab 这两个评测账号集中参与了 Spirit v1.6 的评测，使后者的胜率迅速提高，而且 Spirit v1.6 的对手多数发布较早，评测结果分布失衡。此前，榜单结果遭到质疑时，王杰曾经在小红书相关笔记留言 " 我们的策略分配系统收到了攻击 "。也就是说，Spirit v1.6 可能在评测中 " 绕过了 " 真正的潜在对手。

至于 ECUST Robot Lab 和 Robotics Lab，则为了给 Spirit v1.6 贡献胜率、付出了未完成评测任务过多的代价。在 All Policies 版本的榜单中，Spirit v1.6 和另外 9 个模型都被打上了 "low sample（低采样样本组）" 的标签——根据规定，必须完成至少 100 组 A/B 评测才能上榜。数据回滚后，Spirit v1.6 仅完成 25 组 A/B 评测，首次评测时间为 4 月 30 日，最后一次评测发生在 5 月 15 日。

图片来源：电厂截图自 RoboArena

还有一个可能被忽略的情况在于，如果去掉英伟达作为评测者的结果，Official 版本的第一名将不再是英伟达 DreamZero，而是 Physical Intelligence Pi0.5，但去掉来自其他主要评测者的结果时，英伟达 DreamZero 排名并未发生变化。

RoboArena 不反对模型提供者参与评测，后者甚至可以借此为自己的模型获得更多被评测的机会。然而，当评测者就是模型提供者，很难避免 " 又当裁判员又当运动员 " 的质疑。

自愿双盲机制的出发点是好的，前提是确保结果 " 不可操纵 "。对此，一些可能的完善思路包括：不是直接进行模型成对匹配，而是在多个成对匹配中随机筛选一个结果进行评测；加强账号关联校验、利益相关方隔离和单一对象评测上限设置等，以平衡评测的开放性和结果的公平性。

榜单和排名究竟是给谁看的？

如果刷榜成为组成榜单的一部分，榜单本身的可信程度将被画上一个问号。在 6 月中旬举办的智源大会上，Benchmark 和榜单是被反复提起的热门话题。

智源研究院院长王仲远认为，从实际情况来看，现阶段 " 榜单确实不那么可信 "。一是榜单太多，各种各样的榜单让他 " 看得眼花缭乱 "，二是缺乏结果之外的信息，" 很多榜单的结果也没办法完全验证 "。

在他看来，敢于现场展示真机、" 亮真活儿 " 的模型公司 " 是有底气的 "，也能在一些场景下找到数据闭环。" 是骡子是马拉出来遛遛，能拉出来遛，通常还是可以让大家有一个体感。"

香港大学计算与数据科学学院助理教授李弘扬则表示："Benchmark 现在是一个重灾区。" 他觉得，目前 Benchmark" 存在很大的问题 "，只是大家都心照不宣，" 不愿意提 "。他自己也从来不看榜单和排名，" 如果你因为（榜单成绩）发了个朋友圈，我从心理上是非常鄙视你的 "。

究竟是谁在关注榜单和排名？或许要看谁能从中有所收获。投资人需要客观评估公司技术实力的标尺，公司需要对外宣传、吸引资本的素材，学术机构需要突出科研成果的背书。各方似乎都存在需求，但一旦与榜单过度绑定甚至钻榜单规则的空子，榜单也就失去了原有的意义。

6 月 5 日举办的腾讯 AI 产业应用大会上，腾讯 AI 首席科学家姚顺雨在与腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生对话时也提到，国内有一个不太好的倾向是 " 大家喜欢刷榜 "。姚顺雨的观点是，实用性的价值大于刷榜价值——比起所谓的排名，更重要的其实是如何实事求是地基于产品、基于真正的应用来构造更加真实的 Eval（评估）。他不否认 Benchmark 的作用，" 只是说这些榜单非常容易 Overfitting（过拟合）"。

技术实力终究要落地于真实物理世界，通过操纵评测结果换来的榜单狂欢，只是泡沫而已。正如地瓜机器人算法副总裁隋伟在小红书相关笔记下所写的那样：" 这类榜单没有太大产业指导意义，跟实际落地场景相差太远，更多的是学术价值。目前操作类模型确实缺少有说服力的 Benchmark，是行业痛点，但是无论如何也不能造假，那是 credit 的问题了。"

宙世代

一起剪

相关标签