
来源:电厂
记者 何畅
编辑 高宇雷
正如跑分是手机硬件性能的评估标准之一,Benchmark(基准测试)也被视为判断模型能力的重要参考。但随着技术发展和场景变化,维度单一的榜单似乎很难全面呈现模型的水平。与之相伴的另一个问题则是:所谓的榜单是否值得信任?
在 6 月 12 日至 13 日举办的智源大会上,多位嘉宾提到了对 Benchmark 和榜单的看法。智源研究院院长王仲远认为,从实际情况来看,现阶段 " 榜单确实不那么可信 " ——各种各样的榜单令人眼花缭乱,而且部分结果无法验证。香港大学计算与数据科学学院助理教授李弘扬则表示:"Benchmark 现在是一个重灾区。"
观点与现实互为映照。6 月 14 日,具身智能评测平台 RoboArena 发布公告称,经过追溯调查,他们 " 已经观察到 Benchmark 存在被操纵的痕迹 ",并剔除了问题数据。对比榜单变更前后的两个版本,最大的区别在于多个模型从榜单上消失,其中就包括此前位列第一的千寻智能自研具身基座模型 Spirit v1.6。
从 " 力压英伟达 " 到排名清零
6 月 3 日,具身智能公司千寻智能通过官方微信公众号发布了一篇文章:《双线告捷!千寻智能 Spirit v1.6 横扫北美 " 具身奥林匹克 " 夺冠,再获 15 亿元 A+ 轮融资》。
标题称得上是对正文信息的高度提炼,这家公司公布的正是这两件事:技术层面,登顶 RoboArena 榜单," 力压英伟达 Cosmos 3 和 Physical Intelligence Pi0.5," 打破硅谷霸榜魔咒 ";资本层面,再获 15 亿元 A+ 轮融资,三个月内完成四轮交易,跑出融资加速度。
凭借技术突破吸引资本加码,再将所融资金投入后续研发——双线并行,的确达成了完美闭环。然而,几天之内,就有关注具身智能行业的人士在小红书等社交平台提出了质疑:Spirit v1.6 累计评测记录为 310 次,其中 72% 的评测来自两个账号:一个是 ECUST Robot Lab,评测 179 次,胜率为 97.2%;另一个是 Robotics Lab,评测 45 次,胜率为 86.7%。作为对比,NVIDIA 对 Spirit v1.6 进行了 21 次评测,胜率为 0。
RoboArena 方面也注意到了数据的异常。6 月 4 日,作为联合发起者之一,宾夕法尼亚大学 GRASP 实验室的王杰在相关笔记的评论区回复:" 我们已经注意到了这个情况,正在深入调查 "。

图片来源:电厂截图自小红书
经过一周的调查和追溯,RoboArena 给出了处理方案:将评测完成率低于 20% 的评测账号标记为可疑账号,以防止 Benchmark 作弊的情况再次发生;根据更新后的规则回滚了评测,将来自前述账号的评测结果剔除;同时,强制规定只有没有相关利益的第三方评测者才能自愿参与评测。
RoboArena 的核心贡献者,来自加州伯克利大学机器人学习实验室的 Pranav Atreya 也在社交平台上发文提及此事,并对社区监督表示感谢。

图片来源:电厂截图自 RoboArena
现在,如果你点进 RoboArena 的页面,首先看到的正是被置顶的处理公告,后面跟着 RoboArena 同时放出的两版榜单——短的是 Official 版本,排除了可疑评测结果;长的是 All Policies 版本,包含所有评测结果。在 All Policies 版本登顶的 Spirit v1.6,并未出现在 Official 版本,后者的前三名分别来自英伟达和 Physical Intelligence。
评测机制与可疑数据的由来
RoboArena 的公告,其实在一定程度上解释了可疑评测数据是如何产生的:" 操纵 A/B 评测结果存在多种手段,其中一种典型表现为待分配评测任务的完成率偏低。"
根据官网介绍,RoboArena 是一个分布式评测框架,发起者来自加州大学伯克利分校、斯坦福大学、华盛顿大学、英伟达等高校和科技巨头,兼具顶尖学术机构、头部科技公司背书。评测采用 " 众包 " 模式,评测者可以自主注册账号,自由选择场景和任务执行评测。在这个过程中,模型之间的对手关系来自随机匹配,评测者也不知道自己评测的是哪个模型。
大量分散的双盲、成对评测结果经过系统的收集和统计,最终汇总为一张榜单。理论上来说,这打破了单一实验室的评测模式,大幅扩展了评测的多样性,也意味着个别可疑或恶意评测行为难以轻易影响结果。

图片来源:电厂截图自 RoboArena
但实际上呢?从结果来看,ECUST Robot Lab 和 Robotics Lab 这两个评测账号集中参与了 Spirit v1.6 的评测,使后者的胜率迅速提高,而且 Spirit v1.6 的对手多数发布较早,评测结果分布失衡。此前,榜单结果遭到质疑时,王杰曾经在小红书相关笔记留言 " 我们的策略分配系统收到了攻击 "。也就是说,Spirit v1.6 可能在评测中 " 绕过了 " 真正的潜在对手。
至于 ECUST Robot Lab 和 Robotics Lab,则为了给 Spirit v1.6 贡献胜率、付出了未完成评测任务过多的代价。在 All Policies 版本的榜单中,Spirit v1.6 和另外 9 个模型都被打上了 "low sample(低采样样本组)" 的标签——根据规定,必须完成至少 100 组 A/B 评测才能上榜。数据回滚后,Spirit v1.6 仅完成 25 组 A/B 评测,首次评测时间为 4 月 30 日,最后一次评测发生在 5 月 15 日。

图片来源:电厂截图自 RoboArena
还有一个可能被忽略的情况在于,如果去掉英伟达作为评测者的结果,Official 版本的第一名将不再是英伟达 DreamZero,而是 Physical Intelligence Pi0.5,但去掉来自其他主要评测者的结果时,英伟达 DreamZero 排名并未发生变化。
RoboArena 不反对模型提供者参与评测,后者甚至可以借此为自己的模型获得更多被评测的机会。然而,当评测者就是模型提供者,很难避免 " 又当裁判员又当运动员 " 的质疑。
自愿双盲机制的出发点是好的,前提是确保结果 " 不可操纵 "。对此,一些可能的完善思路包括:不是直接进行模型成对匹配,而是在多个成对匹配中随机筛选一个结果进行评测;加强账号关联校验、利益相关方隔离和单一对象评测上限设置等,以平衡评测的开放性和结果的公平性。
榜单和排名究竟是给谁看的?
如果刷榜成为组成榜单的一部分,榜单本身的可信程度将被画上一个问号。在 6 月中旬举办的智源大会上,Benchmark 和榜单是被反复提起的热门话题。
智源研究院院长王仲远认为,从实际情况来看,现阶段 " 榜单确实不那么可信 "。一是榜单太多,各种各样的榜单让他 " 看得眼花缭乱 ",二是缺乏结果之外的信息," 很多榜单的结果也没办法完全验证 "。
在他看来,敢于现场展示真机、" 亮真活儿 " 的模型公司 " 是有底气的 ",也能在一些场景下找到数据闭环。" 是骡子是马拉出来遛遛,能拉出来遛,通常还是可以让大家有一个体感。"
香港大学计算与数据科学学院助理教授李弘扬则表示:"Benchmark 现在是一个重灾区。" 他觉得,目前 Benchmark" 存在很大的问题 ",只是大家都心照不宣," 不愿意提 "。他自己也从来不看榜单和排名," 如果你因为(榜单成绩)发了个朋友圈,我从心理上是非常鄙视你的 "。
究竟是谁在关注榜单和排名?或许要看谁能从中有所收获。投资人需要客观评估公司技术实力的标尺,公司需要对外宣传、吸引资本的素材,学术机构需要突出科研成果的背书。各方似乎都存在需求,但一旦与榜单过度绑定甚至钻榜单规则的空子,榜单也就失去了原有的意义。
6 月 5 日举办的腾讯 AI 产业应用大会上,腾讯 AI 首席科学家姚顺雨在与腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生对话时也提到,国内有一个不太好的倾向是 " 大家喜欢刷榜 "。姚顺雨的观点是,实用性的价值大于刷榜价值——比起所谓的排名,更重要的其实是如何实事求是地基于产品、基于真正的应用来构造更加真实的 Eval(评估)。他不否认 Benchmark 的作用," 只是说这些榜单非常容易 Overfitting(过拟合)"。
技术实力终究要落地于真实物理世界,通过操纵评测结果换来的榜单狂欢,只是泡沫而已。正如地瓜机器人算法副总裁隋伟在小红书相关笔记下所写的那样:" 这类榜单没有太大产业指导意义,跟实际落地场景相差太远,更多的是学术价值。目前操作类模型确实缺少有说服力的 Benchmark,是行业痛点,但是无论如何也不能造假,那是 credit 的问题了。"


登录后才可以发布评论哦
打开小程序可以发布评论哦