极客邦科技InfoQ 7小时前
一场机器人黑客松,让具身智能的差距与机会同时显形
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

作者 | 姚戈

上周一,我在深圳参加了一场机器人黑客松。

前一晚九点抵达时,我原本以为自己会是少数还在工作的那一批人。走进场地才发现,灯还亮着,地上已经支起一排排帐篷。机械臂没有停,选手们围在工位前采数据、训模型、盯评测结果。有人困得不行,就在场边睡一会儿,醒来继续干。

现场流传着一句话:" 我可以歇着,卡不能歇。"

这是迄今为止全球最大规模的线下具身智能开发者大赛之一。

自变量为所有参赛队伍免费开放高质量数据集和相关数采设备,并提供训练环境和高性能双臂操作平台以及算力资源。

参赛队伍可以在 3 天内,完成从数据采集、模型训练到真机部署的整个闭环。而通常情况下,专业研究实验室完成类似搭建至少需要 6 个月。

主办方从大量候选任务中筛出了四类核心能力:抓取放置、语言理解、精细操作和长时序决策。对应到比赛里,选手可以选择套环、按指令分类水果、插电源线、拼写单词等任务持续攻关。最终成绩不只看有没有完成步骤,也看成功率、稳定性和泛化表现。

这个被极致压缩到 3 天的比赛,让具身智能行业的差距与机会同时显形。

3 天,两个大学生,就能做出一个学术论文里的视频 demo

3 天是什么概念?

按学术研究的节奏,一篇论文从实验到发表,往往要以年为单位计算。

但如果只看某个具体任务的完成效果——许多由 00 后大学生组成的团队,借助自变量提供的算力、数据和基础模型,只用两天时间,就能让机器人完成 pick-and-place 这类常见于论文和演示视频中的任务,做出一个 " 看起来很像那么回事 " 的 demo。

这正是这场黑客松最值得注意的地方:3 天既是一个令人兴奋的数字,也是一个容易制造错觉的数字。

先看它令人兴奋的一面。

自变量此次黑客松的赛制分为 A 榜和 B 榜两个阶段。A 榜任务公开,选手可以围绕明确目标进行训练和优化;B 榜则不会提前公布具体任务和数据分布,更侧重考察模型在真实环境中的泛化能力。

比赛前两天,选手们主要攻坚 A 榜任务,包括套环、按指令分类水果、插电源线、拼写单词等。这些任务的操作要求和 KPI 都非常明确。以 " 按指令分类水果 " 为例,水果种类固定,抓取点和放置点也基本固定,模型可以围绕一组相对稳定的条件反复训练,因此短时间内就能迅速提分。

自变量算法合伙人甘如饴提到,比赛第一天,大家的成绩普遍不高,套环任务的成功率大多只有 20% 到 70%;但到了第二天,很多团队已经迅速摸清了自己擅长的方向,开始集中优化,一些团队甚至在单一任务上出现明显过拟合,成功率逼近 100%。

这意味着什么?

它意味着,在今天的具身智能行业里,把一个模型快速调到 " 能完成某个具体任务 ",已经不再像很多人想象中那么遥远。对解决方案提供商和落地工厂来说,这当然是一个足以提振信心的信号。过去,工业机器人切换一个任务,往往意味着漫长的预编程、仿真、工程调试和现场磨合;而现在,如果某些任务的适配周期真的可以被压缩到几天,即便这还远远不能说明 " 通用 ",也足以改变很多人对机器人进入工厂、承担具体工作的预期。

但问题也恰恰出在这里。

一个任务能在几天内被迅速做出来,并不意味着模型的泛化性得到提高。

也正是在 A 榜成绩快速拉高、一些团队开始接近满分的时候,自变量放出了隐藏的 B 榜。

当任务不再已知,原本围绕单一目标优化出来的模型,很快暴露出局限。

此次比赛获得三等奖、来自南京邮电大学的参赛者袁浩宽对 InfoQ 表示,他们选择的是 " 按指令分类水果 " 任务。到了 B 榜阶段,比赛不仅新增了水果种类,还加入了干扰项,并改变了抓取与放置的空间结构。" 之前针对 A 榜做的微调基本用不上了,只能回到 base model,重新采集更有多样性的真机数据。"

他们在现场补采了约 30 条随机摆放的数据,微调了约 1 小时、总计约 1 万步,但效果依然不理想,主要问题在于数据量和多样性都不够。

这也不是个别队伍的偶发问题,而是许多队伍在 B 榜阶段的共同反馈。针对单一任务做出高分并不算太难,但一旦任务开始引入泛化要求,比如增加水果种类、改变摆放方式,模型就很难稳定跟上。

在这场黑客松里我看到两件事。

一方面,任务适配的速度确实在变快,机器人进入真实场景的门槛正在被拉低;另一方面,哪些团队是在认真做 base model,哪些团队只是借助现成基座和任务微调做出表面成绩,也会以更快的方式被区分出来。

一个开源基座模型,加上一些现场采集的数据,再配几张算力卡,围绕特定任务做短周期微调,就有机会复现论文或宣传视频里的效果。

这样的结果当然不是毫无价值,它说明现有基座模型和工具链已经足以支撑某些任务的快速实现;但它也不应被误读为 " 模型已经具备通用能力 "。因为这类 demo 的前提,往往是明确任务、固定环境和有限变量,而不是开放世界中的持续适应。

真正把具身公司拉开差距的,是谁拥有更强的 base model,谁能在任务变化、环境变化和连续执行中保持稳定。

也就是说,认真做基座模型的团队,与套壳做过拟合的团队,未来的差距只会越来越大。

如果说这场黑客松带来了什么最直接的教训,那就是:今天衡量一个模型,已经不能再满足于它有没有一段漂亮的真机 demo,而要看它能否在真机环境中承受多任务、陌生任务和连续任务的压力。

也正因为如此,国内越来越多厂商开始推出自己的真机评测体系和挑战赛。原力灵机有 RoboChallenge,智元有 AgiBot World Challenge,自变量则推出了 ManipArena。它们背后的共识其实很简单:如果不把模型从 demo 里拖出来,放到真机、多任务、带约束的环境里反复测,行业就很容易被演示效果牵着走。

当然,今天的许多榜单仍然很难做到绝对透明。为了降低参评方对泄密的担忧,不少测评体系不会强制公开模型归属,也会通过接口隔离的方式,让模型参数和代码本身不被直接暴露。

这种安排有现实合理性,但它也意味着,行业仍然需要一套更成熟的标准,去区分 " 针对任务打榜的能力 " 与 " 真正可泛化的能力 "。

从这个意义上说,黑客松上那些两天就能做出来的过拟合结果,并不只是一个比赛现象,它更像一次提醒:行业应该对模型表现变得更警觉,也应该倒逼模型团队拿出更经得住真机和多任务压力的结果。

自变量的选择:不为垂直场景的快速落地,堆积针对性模型系统和工程补丁

赛场上的教训,也在某种程度上印证了自变量自己的思路。

对很多参赛队伍来说,比赛很快暴露出一个问题:后训练和参数微调可以补足一部分能力,但到了某个阶段,决定模型上限的仍然是基础模型本身。

基于这一判断,自变量在场景选择上没有选择更容易通过工程手段优化效果的场景,而是将家庭等更复杂的环境放在相对靠前的位置,希望在真实交互中积累数据,并据此持续迭代基础模型。

自变量 CTO 王昊在与包括 InfoQ 在内的媒体交流时表示,公司的核心方向是 " 保持基模不停往前迭代 "。在他看来,团队当然可以去场景里做探索,验证基模能力,看看它是否能在某些场景里实现规模化应用;但有一点必须克制,即  不要为了让机器人在垂直场景里更快落地,而堆太多针对性的模型系统和工程补丁。比如发现视觉上有盲区,就再加一个视觉小模型去做检测和弥补,这类方法 " 短期来看可以帮助你加快落地,但是长期来看,对基模的提升是有害的 "。

这句话不止技术判断,也是商业判断。

从外部合作轮廓看,自变量并非没有工业客户,但它投入更多精力的场景,明显偏向家庭、养老院、酒店等服务环境。

王昊并不回避这一点。他对我们表示,从产品战略和商业策略来说,自变量希望机器人能够尽早大规模部署,更早进入商业场景,而家庭、养老院、酒店这样的服务场景之所以重要,是因为 " 这种场景才能给我们提供数据的来源 "。

与此同时,自变量认为家庭是最复杂、最开放的环境之一,朝着这样的复杂场景推进能力,再回头覆盖更垂直的场景,本质上是一个先做通用、再做 " 降维 " 的过程:当基模足够强时,垂类场景对模型提出的额外要求反而会下降。

而通用能力,最终还是要落回基础模型能力。

这也是为什么,具身厂商开始把目标指向 " 具身原生 " 的模型。

从工程实践看,当前具身大脑的主流方案已经形成某种共识:视觉、语言,最多再加触觉等模态输入,经由大语言模型处理,输出动作;世界模型更多用于生成仿真数据或构建环境。

但问题在于,这种架构,是否真的适合物理世界?

在王昊看来,过去训练路径里有一个典型误区:不同模态的数据各自训练,最后再把它们对齐起来;或者先把语言做到足够泛化,再让视觉去对齐语言。这种方式在很多时候会牺牲视觉能力,因为它默认了视觉只是为语言服务的。但具身场景并不是这样。语言更擅长表达宏观意图,却很难精确描述一个动作在厘米级空间、秒级时间里的连续变化;而视频模型虽然关注像素级细节,却未必天然理解哪些接触、运动和碰撞在物理上更关键。

自变量给出的新方向,是在端到端框架下,把世界模型和 VLA 融合得更深,通过联合建模,让视觉与动作在更早阶段对齐,从而让预测更符合物理规律。

这并不意味着放弃大语言模型。

王昊对 InfoQ 表示,大语言模型仍然是训练的基础,但关键变化在于表达空间的重构:" 大语言模型这个训练基础还是要用,只是我们要把语言、动作拉到一个空间当中,而不是像以前,所有视觉都是服务语言。"

在他看来,语言、视觉与动作之间的差异,首先体现在信息尺度上。语言更偏向宏观表达—— " 语言描述的信息很宏观 ",很难精确刻画一个物体在厘米级空间、秒级时间里的连续变化;而视频模型则恰恰相反,聚焦像素层面的细节—— " 每个像素的颜色、明暗都能预测得很准 "。这两种尺度的信息,要在同一个模型中自然融合,本身就具有难度。

在这一框架下,动作不再只是输出结果,而成为关键模态之一。

按照王昊的说法,动作的价值在于它同时具备宏观和微观两层表达能力:" 动作是非常好的模态,它在宏观上可以表达这段行为意味着什么、会导致什么结果,在微观上又可以帮助视觉更好地观察运动中的关键变化。"  这也意味着,模型不再只是 " 看见静态世界 ",而是要理解运动本身,将视觉从静态感知推进到对动态过程的建模。

" 把这几个模态放在一起," 王昊总结说," 就可以构建一个真正属于物理世界的模型。"

围绕这一目标,动作在模型中的编码方式也随之发生变化。它不再被视为单一模态的输出,而是可以与语言、视觉进行联合编码或条件编码,并在更细粒度的时间尺度上表达。

模型结构的选择,也直接影响数据路线。

今天几乎所有具身公司都在讲自己的 " 数据金字塔 ",但不同公司对金字塔底部到底该放什么,理解并不相同。

以星海图和自变量为例,两家公司都强调 Egocentric data 的重要性,但对这个概念的理解其实并不一样。星海图的 Egocentric 核心数据基座,更多是指人类第一视角视频。自变量的 Egocentric 数据则包括人的可穿戴设备。王昊表示:" 从自由度视角来看,Egocentric 的数据完全和人的自由度一致,所有的手持式、穿戴各种设备是介于人的自由度和机器的自由度之间的形态。"

看起来这只是数据分类方法的不同,实际上对应的却是对 " 通用能力从哪里来 " 的不同判断。有人认为,先让模型拥有大量人类视角经验最重要;有人认为,要尽快获得更贴近机器人控制结构的数据;也有人更看重真机接管、遥操作和真实任务反馈。看上去所有人都在谈数据,但真正的分歧,往往恰恰藏在对数据最底层定义的不同里。

三天时间,足够做出一个像模像样的结果。这意味着,demo 不再稀缺,甚至不再可信。

真实世界需要的是基模能力的持续提升,需要真正 "hands dirty" 的过程——去理解模型、理解硬件、理解数据,也理解那些不会出现在视频里的失败与边界。

在这样的标准下,很多差距才刚刚开始显现。

今日好文推荐

智谱 AI 财报炸场,Token 价值暴涨、核心指标直追 Anthropic 水平!CEO 张鹏:人人都将是 "Token 架构师 "

Anthropic 掐断 " 龙虾 " 补贴,OpenClaw 创始人哭求仅换 7 天续命,网友吵疯:作秀还是义务

OpenAI 正在做一个 " 替你用电脑 " 的 Super App,新模型 Spud 几周内登场

谷歌重磅开源 Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 机械臂 黑客 深圳
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论