雷锋网 7小时前
国产具身模型开源“屠榜”,首杀Pi0.5获英伟达Jim Fan点赞!
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Spirit,灵魂,当下机器人亟需的东西。

但过去一年机器人们的灵魂,在两个极端间横跳。

一端是各种炫目视频反复刷屏,高度结构化的实验 " 温室 " 不断产出高成功率模型,Demo 里的 AI 是如此聪明;但另一端,当这些 " 满分选手 " 走进现实,却频频翻车。

演示视频可以剪辑,实验室环境可以特制,任务的难度可以自定义。这让整个行业陷入了一种 " 关公战秦琼 " 的困惑:当场景、硬件、评测标准各不相同,我们究竟在比什么?是比技术,比智能,还是比谁家的运镜和剪辑更专业?

这场失焦的竞赛,在 2025 年底迎来了它的第一个 " 主裁判 "。

这位 " 主裁判 ",在 2026 年的第一个月,裁决出第一位中国冠军。被 Pi0.5 霸占的榜首,易主了。

1 月 12 日,千寻智能开源了自研 VLA 模型 Spirit v1.5,并在由 Dexmal、hugging face 联合发起的第三方机器人模型评测组织 RoboChallenge 的 Table30 榜单上一举登顶,超过了之前最强模型 pi0.5。

高阳在社交媒体 X 上官宣开源的帖子,立刻被英伟达机器人主管 Jim Fan 点赞,多位海外科技大佬相继转发。

本次千寻智能开源了 Spirit v1.5 的基模权重、推理代码以及使用样例,以接受公众检验,并方便开源社区在此基础上继续创新。

1、一把 " 标尺 " 开启的 " 度量衡时代 "

在 RoboChallenge 出现之前,具身智能最大的问题并非 " 谁更强 ",而是 " 无从比起 " 。

各家都宣布训出了 " 领先的模型 ",但所谓 " 领先 " 往往建立在三个脆弱的基座上:

▪ 场景无法复现的 " 温室花朵 ":很多令人惊叹的演示,都发生在光线恒定、物体摆放规整、任务流程固定的 " 温室 " 中。一旦环境出现丝毫变化,模型就可能 " 懵圈 "。在 A 公司实验室里流畅分拣的机器人,到了 B 公司的仓库可能连门都找不到。

▪ 工程强依赖人的 " 临场发挥 ":一些复杂连续任务,背后可能是工程师编写了大量 " 后门 " 代码,或者遥操干预,机器人正在借助隐身幕后的人 " 作弊 "。

▪ 任务不可对比的 " 自说自话 ":A 公司展示拧螺丝,B 公司展示插花,C 公司展示叠衣服……这些碎片化的任务维度各异,根本无法判断孰优孰劣,就像让体操选手和马拉松跑者同台竞技,再用不同刻度的尺子度量他们的能力。

2025 年底,一把 " 标尺 " 终于姗姗来迟。

由 Dexmal、Hugging Face、智源研究院等联合发起的 RoboChallenge,旨在用一套规则终结评测的混战时代。它要回答是:剥离一切外援后,模型内核——那个驱动机器人理解、规划的 " 大脑 " ——究竟有多强?

RoboChallenge 坚持在真实物理世界中进行评测,并引入随机扰动增加泛化挑战,模拟现实中的不可预测性,考验模型走出温室的生存能力。并且,它使用统一硬件,让所有算法在完全相同的 " 肉身 " 上比拼智力,挤掉了过度工程化和人为干预的 " 水分 "。

此外,它提供了一套标准化的任务库 Table30,让所有模型在同一套 " 考题 " 下作答。

从计算机视觉的 ImageNet,到自然语言处理的 GLUE,每一个技术领域的爆发式增长,都始于一个被广泛认可的基准测试。它定义了问题,统一了度量。

2025 年 12 月,RoboChallenge 发布了首份评测榜单,Pi0、Pi0.5 霸榜前二;

2026 年 1 月,中国自变量的 WALL-OSS-Flow 反超 Pi0,但仍被榜首的 Pi0.5 甩开了七分多;

但很快,这个 " 代际 " 差距被千寻 Spirit v1.5 追平了。

2、从 Pi0.5 到 Spirit v1.5:静默的 " 代际交接 "

在最近的评估中(截至 2026 年 1 月 12 日),Spirit-v1.5 在 RoboChallenge Table30 测试上取得了当前最优的性能,超越了 pi0.5 等之前的全球领先开源模型。

Table30 包含了 30 个桌面环境操作任务,这些任务在多种构型上进行评测,包括单臂(Franka, Arx5 和 UR5)和双臂系统(ALOHA),全面考察了 VLA 的各项能力,比如精确的 3D 定位、遮挡处理、时间依赖性和多阶段长序列任务,以及模型在多构型、全新任务上的迁移效率。

让我们来看看 Spirit-v1.5 在各项任务上的具体表现,以及和 pi0.5 的对比。

首先是插花,Spirit-v1.5 驱动的机械臂抓起了纤细的花枝,随后转动机械臂,使花枝方向朝下,随后精准插进了窄口花瓶中,依照同样的流程,Spirit-v1.5 一口气插好了三朵花。

反观 pi0.5,尽管也成功抓起了花枝,但由于叶片挂住夹爪,导致花枝被平放在了瓶口上。

插花任务,Spirit-v1.5(左)和 pi0.5(右)表现对比

再来看看桌面清理,桌面上随意放置着大大小小 10 个物体(碗碟、透明塑料瓶,揉皱的纸巾、士力架包装等柔性物体),Spirit-v1.5 在约 4 分钟里,分门别类将它们放进垃圾桶和整理箱中,两只小碗还被叠在一起。

而 pi0.5 在分拣了一只碗、瓶子和纸巾后,剩下的时间就和一直无法被夹起的纸盒 " 杠 " 上了。

桌面清理任务,Spirit-v1.5(左)和 pi0.5(右)表现对比

在整理物品时,Spirit-v1.5 先后抓起叉子、胶带和刷子,准确移动到箱子上方,再松手把物品放进去;pi0.5 先是抓空,又因为夹爪举得不够高碰歪了箱子,松手将叉子掉到箱子外面,随后重复拾取也没能成功,叉子直接掉到了桌子下。

物品整理任务,Spirit-v1.5(左)和 pi0.5(右)表现对比

当涉及到双臂协的任务,Spirit-v1.5 一爪固定住透明塑料盒,另一爪掀开盖子,随后将盒子中的薯条倾倒进一旁的盘子中;Pi0.5 则对第一步——拆开盒盖——就束手无策。

倾倒薯条任务,Spirit-v1.5(左)和 pi0.5(右)表现对比

四项任务涉及了不同大小、形状、材质的物品,宽口的整理箱,窄口的花瓶,极大考验了模型精准定位、空间理解和力位混合控制的能力。

半年前,由美国头部具身智能公司 Physical Intelligence(Pi)开源的 Pi0.5,代表了当时国际领先的开源 VLA 模型水平。在很长一段时间里,中国具身智能行业呈现 " 躯体强,大脑弱 " 的格局,尤其在 VLA 模型上,被认为落后美国一个身位。

有投资人曾颇感苦恼地告诉 AI 科技评论,资本——尤其是美元资本——仍不相信,一个领先的模型架构会在中国做出来,本质上,他们仍然信仰硅谷。

Spirit v1.5 的登顶,因此更像是一次静默的 " 代际交接 " 信号。

它意味着,中国具身模型,第一次不是在自家后院称王,而是在一个全球公认的、可复现、可比较的规则下进入了核心竞争序列,具备了同国际顶尖玩家同场竞技、正面抗衡的能力。从更大视角来看,中美之间的竞争在从过去明显的 " 起跑线差距 " 过渡到 " 同赛道、不同节奏 " 的新阶段,我们在策略泛化、任务稳定性和学习效率上,完成了阶段性追赶。

3、破除干净数据的 " 诅咒 "

过去一两年来,VLA 在快速进化,但泛化性一直是模型能力的最大痛处。

千寻智能的团队发现,这种对泛化能力的制约,恰恰来自对训练数据的筛选。

当研究人员着手教机器人一项新技能时,本能反应是让学习环境尽可能简单。这是由于,机器人领域的传统经验表明,如果数据多样性过高,模型将难以收敛,甚至无法完成基本任务。因此,大家会精心设计一切——动作被简化、物体被放在易触及的位置……结果就是产生了一个 " 干净 " 的数据集。例如 Open X-Embodiment ( OXE ) 、Agibot 等模型都是如此训练而来。

这种数据集的初衷是提供一个容易的起点,但容易是有代价的。

由于数据被过度 " 净化 ",模型永远学不会处理难以预测的现实世界。模型的泛化性、可扩展性都大打折扣。换句话说,一部分我们所追求的所谓 " 高质量数据 ",反而 " 画地为牢 " 圈住了模型。

因此,千寻认为,如果我们希望机器人能应对人类家庭环境中的不可预测性,从预训练阶段开始,它们就需要从像真实世界一样混乱的数据中学习。

他们选择了开放式、目标驱动的数据采集,即多样化采集。理念很简单:抛弃预设脚本,鼓励操作员 " 即兴发挥 "。比如,数据采集员今天决定,教机器人清理厨房台面,具体怎么做、涉及哪些子任务,完全由采集员个人决定。他们可能先随机拿起某个容器,发现有碎屑并开始擦拭,随后又去整理、洗涤餐具……

所有这些都在一个连续会话中完成,涵盖了广泛的微技能谱系,海量物体交互和环境转换。它们不仅是单一动作的重复,而是连续的工作流,让机器人能够学习整套技能及连接方式。

从而,机器人开始能够真正体验现实生活,而不是活在一个被提前安排好的 " 楚门的世界 "。

千寻设置了两个对照组:A 组采用 " 净化 " 数据;B 组则使用多样化采集数据预训练。

结果显示,在微调阶段,B 组无论是在收敛速度还是最终性能上都有更好表现,其达到相同性能所需的迭代次数比 A 组少了 40%。且迁移效率随多样化数据量的增加而提升,模型在新任务上的验证误差持续下降。

多样化采集预训练的模型比干净数据采集训练的模型有更快的收敛速度和更好的验证误差。

不同数据规模下的模型效果,扩大多样化采集的数据规模可以持续降低模型的验证误差。

另一项惊喜的 " 附带效果 " 是,由于无需精心设置每个场景并定义详细的任务指导,数据采集效率大幅提升,人均有效采集时长增加了 200%,算法专家的干预需求削减了 60%。

从 Pi0.5 到 Spirit v1.5,我们看到的不是单点技术的 " 奇袭 ",而是中国团队在数据范式的一次根本性转变。通过走出脚本化的环境,Spirit v1.5 证明了模型可以发展出一种基础的 " 物理常识 ",使其在现实世界中更具适应性和韧性。

在这场通往物理 AGI 的竞赛中,中国模型没有缺席,并准备好迎接下一轮关乎应用的冲刺。

4、尾声:谁开始拥有 " 被长期绑定 " 的资格?

如果说 2025 年只是具身智能落地元年,产业界尚能对翻车报以宽和一笑;那么 2026 将会是量产爬坡元年,对于智能的真实性,下游厂商会看的更重。一个机器人模型能否成为产业的 " 默认选项 " 之一,恰恰取决于它是否可靠、可泛化迁移,且具备持续进化的潜力。

Spirit v1.5 登顶,释放了一个信号:国产具身模型,已经开始具备这种 " 被长期绑定 " 的资格。

放长时间线,这将引发三重连锁反应:

▪ 产业合作格局将被重塑。过去,寻找先进模型的目光可能首先投向海外;但现在,一个经过权威验证的国产选项出现了,更多国内产业巨头会将其纳入考量范畴。

去年底,千寻智能的人形机器人 " 小墨 " 进入宁德时代中州基地,在后者新能源动力电池 PACK 生产线批量落地,它能自主应对来料位置偏差和插接点位变化,实时调整操作姿态。在插拔柔性线束时,它还能动态调节力度,确保不损伤部件并连接可靠。把单日工作量提升了三倍,插接成功率超 99%,作业节拍达到熟练工人水平。

接下来,这样的合作模式将会被大量复制。

▪ 技术生态站队开始。在操作系统、芯片等领域发生过的生态之争,可能在具身智能领域重演。头部模型会成为吸引开发者、硬件厂商、场景方共建生态的漩涡眼。谁能率先建立起围绕自身模型的软硬件开发生态,谁就可能在下一阶段取得决定性优势。

▪ 开源体系将继续良性循环。

有趣的是,赢得 " 铁王座 " 的——发布即开源的 Spirit v1.5,长期霸榜的 Pi ——无一例外是开源模型。具身智能领域,至少在短期内,开源已经成为不约而同的选择。

Hugging Face 联合创始人兼首席科学家 Thomas Wolf 很早就观察到:机器人的主要玩家几乎全部是闭源的," 像 Tesla、Figure,它们做的机器人非常出色,但整个体系都是垂直封闭的闭源堆……你无法拿一个 Optimus 去改造成你自己的机器人。"

但在开源模型的集体胜利后,具身智能领域可能重演 2025 年初 DeepSeek 胜利后 LLM 领域开源复兴的局面。它将拆除实验室的高墙,将工具分发到每一个有想法的人手中。当研究者们能够基于同一个强大的基础模型进行二次开发时,创新的速度将以指数级提升,靠单一公司或机构无法穷尽的场景、数据和长尾问题也将能更快完成拼图。

同时,透明,也是最高效的信任货币。开源模型将代码、数据乃至架构设计完全公开,意味着其经得起最挑剔的同行反复审视、验证。

所有玩家回归技术本源,用代码说话,行业的浮夸与泡沫也将在这面 " 照妖镜 " 前加速消散。

开源地址:

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5

评论
大家都在看