一场机器人黑客松，让具身智能的差距与机会同时显形

作者 | 姚戈

上周一，我在深圳参加了一场机器人黑客松。

前一晚九点抵达时，我原本以为自己会是少数还在工作的那一批人。走进场地才发现，灯还亮着，地上已经支起一排排帐篷。机械臂没有停，选手们围在工位前采数据、训模型、盯评测结果。有人困得不行，就在场边睡一会儿，醒来继续干。

现场流传着一句话：" 我可以歇着，卡不能歇。"

这是迄今为止全球最大规模的线下具身智能开发者大赛之一。

自变量为所有参赛队伍免费开放高质量数据集和相关数采设备，并提供训练环境和高性能双臂操作平台以及算力资源。

参赛队伍可以在 3 天内，完成从数据采集、模型训练到真机部署的整个闭环。而通常情况下，专业研究实验室完成类似搭建至少需要 6 个月。

主办方从大量候选任务中筛出了四类核心能力：抓取放置、语言理解、精细操作和长时序决策。对应到比赛里，选手可以选择套环、按指令分类水果、插电源线、拼写单词等任务持续攻关。最终成绩不只看有没有完成步骤，也看成功率、稳定性和泛化表现。

这个被极致压缩到 3 天的比赛，让具身智能行业的差距与机会同时显形。

3 天，两个大学生，就能做出一个学术论文里的视频 demo

3 天是什么概念？

按学术研究的节奏，一篇论文从实验到发表，往往要以年为单位计算。

但如果只看某个具体任务的完成效果——许多由 00 后大学生组成的团队，借助自变量提供的算力、数据和基础模型，只用两天时间，就能让机器人完成 pick-and-place 这类常见于论文和演示视频中的任务，做出一个 " 看起来很像那么回事 " 的 demo。

这正是这场黑客松最值得注意的地方：3 天既是一个令人兴奋的数字，也是一个容易制造错觉的数字。

先看它令人兴奋的一面。

自变量此次黑客松的赛制分为 A 榜和 B 榜两个阶段。A 榜任务公开，选手可以围绕明确目标进行训练和优化；B 榜则不会提前公布具体任务和数据分布，更侧重考察模型在真实环境中的泛化能力。

比赛前两天，选手们主要攻坚 A 榜任务，包括套环、按指令分类水果、插电源线、拼写单词等。这些任务的操作要求和 KPI 都非常明确。以 " 按指令分类水果 " 为例，水果种类固定，抓取点和放置点也基本固定，模型可以围绕一组相对稳定的条件反复训练，因此短时间内就能迅速提分。

自变量算法合伙人甘如饴提到，比赛第一天，大家的成绩普遍不高，套环任务的成功率大多只有 20% 到 70%；但到了第二天，很多团队已经迅速摸清了自己擅长的方向，开始集中优化，一些团队甚至在单一任务上出现明显过拟合，成功率逼近 100%。

这意味着什么？

它意味着，在今天的具身智能行业里，把一个模型快速调到 " 能完成某个具体任务 "，已经不再像很多人想象中那么遥远。对解决方案提供商和落地工厂来说，这当然是一个足以提振信心的信号。过去，工业机器人切换一个任务，往往意味着漫长的预编程、仿真、工程调试和现场磨合；而现在，如果某些任务的适配周期真的可以被压缩到几天，即便这还远远不能说明 " 通用 "，也足以改变很多人对机器人进入工厂、承担具体工作的预期。

但问题也恰恰出在这里。

一个任务能在几天内被迅速做出来，并不意味着模型的泛化性得到提高。

也正是在 A 榜成绩快速拉高、一些团队开始接近满分的时候，自变量放出了隐藏的 B 榜。

当任务不再已知，原本围绕单一目标优化出来的模型，很快暴露出局限。

此次比赛获得三等奖、来自南京邮电大学的参赛者袁浩宽对 InfoQ 表示，他们选择的是 " 按指令分类水果 " 任务。到了 B 榜阶段，比赛不仅新增了水果种类，还加入了干扰项，并改变了抓取与放置的空间结构。" 之前针对 A 榜做的微调基本用不上了，只能回到 base model，重新采集更有多样性的真机数据。"

他们在现场补采了约 30 条随机摆放的数据，微调了约 1 小时、总计约 1 万步，但效果依然不理想，主要问题在于数据量和多样性都不够。

这也不是个别队伍的偶发问题，而是许多队伍在 B 榜阶段的共同反馈。针对单一任务做出高分并不算太难，但一旦任务开始引入泛化要求，比如增加水果种类、改变摆放方式，模型就很难稳定跟上。

在这场黑客松里我看到两件事。

一方面，任务适配的速度确实在变快，机器人进入真实场景的门槛正在被拉低；另一方面，哪些团队是在认真做 base model，哪些团队只是借助现成基座和任务微调做出表面成绩，也会以更快的方式被区分出来。

一个开源基座模型，加上一些现场采集的数据，再配几张算力卡，围绕特定任务做短周期微调，就有机会复现论文或宣传视频里的效果。

这样的结果当然不是毫无价值，它说明现有基座模型和工具链已经足以支撑某些任务的快速实现；但它也不应被误读为 " 模型已经具备通用能力 "。因为这类 demo 的前提，往往是明确任务、固定环境和有限变量，而不是开放世界中的持续适应。

真正把具身公司拉开差距的，是谁拥有更强的 base model，谁能在任务变化、环境变化和连续执行中保持稳定。

也就是说，认真做基座模型的团队，与套壳做过拟合的团队，未来的差距只会越来越大。

如果说这场黑客松带来了什么最直接的教训，那就是：今天衡量一个模型，已经不能再满足于它有没有一段漂亮的真机 demo，而要看它能否在真机环境中承受多任务、陌生任务和连续任务的压力。

也正因为如此，国内越来越多厂商开始推出自己的真机评测体系和挑战赛。原力灵机有 RoboChallenge，智元有 AgiBot World Challenge，自变量则推出了 ManipArena。它们背后的共识其实很简单：如果不把模型从 demo 里拖出来，放到真机、多任务、带约束的环境里反复测，行业就很容易被演示效果牵着走。

当然，今天的许多榜单仍然很难做到绝对透明。为了降低参评方对泄密的担忧，不少测评体系不会强制公开模型归属，也会通过接口隔离的方式，让模型参数和代码本身不被直接暴露。

这种安排有现实合理性，但它也意味着，行业仍然需要一套更成熟的标准，去区分 " 针对任务打榜的能力 " 与 " 真正可泛化的能力 "。

从这个意义上说，黑客松上那些两天就能做出来的过拟合结果，并不只是一个比赛现象，它更像一次提醒：行业应该对模型表现变得更警觉，也应该倒逼模型团队拿出更经得住真机和多任务压力的结果。

自变量的选择：不为垂直场景的快速落地，堆积针对性模型系统和工程补丁

赛场上的教训，也在某种程度上印证了自变量自己的思路。

对很多参赛队伍来说，比赛很快暴露出一个问题：后训练和参数微调可以补足一部分能力，但到了某个阶段，决定模型上限的仍然是基础模型本身。

基于这一判断，自变量在场景选择上没有选择更容易通过工程手段优化效果的场景，而是将家庭等更复杂的环境放在相对靠前的位置，希望在真实交互中积累数据，并据此持续迭代基础模型。

自变量 CTO 王昊在与包括 InfoQ 在内的媒体交流时表示，公司的核心方向是 " 保持基模不停往前迭代 "。在他看来，团队当然可以去场景里做探索，验证基模能力，看看它是否能在某些场景里实现规模化应用；但有一点必须克制，即 不要为了让机器人在垂直场景里更快落地，而堆太多针对性的模型系统和工程补丁。比如发现视觉上有盲区，就再加一个视觉小模型去做检测和弥补，这类方法 " 短期来看可以帮助你加快落地，但是长期来看，对基模的提升是有害的 "。

这句话不止技术判断，也是商业判断。

从外部合作轮廓看，自变量并非没有工业客户，但它投入更多精力的场景，明显偏向家庭、养老院、酒店等服务环境。

王昊并不回避这一点。他对我们表示，从产品战略和商业策略来说，自变量希望机器人能够尽早大规模部署，更早进入商业场景，而家庭、养老院、酒店这样的服务场景之所以重要，是因为 " 这种场景才能给我们提供数据的来源 "。

与此同时，自变量认为家庭是最复杂、最开放的环境之一，朝着这样的复杂场景推进能力，再回头覆盖更垂直的场景，本质上是一个先做通用、再做 " 降维 " 的过程：当基模足够强时，垂类场景对模型提出的额外要求反而会下降。

而通用能力，最终还是要落回基础模型能力。

这也是为什么，具身厂商开始把目标指向 " 具身原生 " 的模型。

从工程实践看，当前具身大脑的主流方案已经形成某种共识：视觉、语言，最多再加触觉等模态输入，经由大语言模型处理，输出动作；世界模型更多用于生成仿真数据或构建环境。

但问题在于，这种架构，是否真的适合物理世界？

在王昊看来，过去训练路径里有一个典型误区：不同模态的数据各自训练，最后再把它们对齐起来；或者先把语言做到足够泛化，再让视觉去对齐语言。这种方式在很多时候会牺牲视觉能力，因为它默认了视觉只是为语言服务的。但具身场景并不是这样。语言更擅长表达宏观意图，却很难精确描述一个动作在厘米级空间、秒级时间里的连续变化；而视频模型虽然关注像素级细节，却未必天然理解哪些接触、运动和碰撞在物理上更关键。

自变量给出的新方向，是在端到端框架下，把世界模型和 VLA 融合得更深，通过联合建模，让视觉与动作在更早阶段对齐，从而让预测更符合物理规律。

这并不意味着放弃大语言模型。

王昊对 InfoQ 表示，大语言模型仍然是训练的基础，但关键变化在于表达空间的重构：" 大语言模型这个训练基础还是要用，只是我们要把语言、动作拉到一个空间当中，而不是像以前，所有视觉都是服务语言。"

在他看来，语言、视觉与动作之间的差异，首先体现在信息尺度上。语言更偏向宏观表达—— " 语言描述的信息很宏观 "，很难精确刻画一个物体在厘米级空间、秒级时间里的连续变化；而视频模型则恰恰相反，聚焦像素层面的细节—— " 每个像素的颜色、明暗都能预测得很准 "。这两种尺度的信息，要在同一个模型中自然融合，本身就具有难度。

在这一框架下，动作不再只是输出结果，而成为关键模态之一。

按照王昊的说法，动作的价值在于它同时具备宏观和微观两层表达能力：" 动作是非常好的模态，它在宏观上可以表达这段行为意味着什么、会导致什么结果，在微观上又可以帮助视觉更好地观察运动中的关键变化。" 这也意味着，模型不再只是 " 看见静态世界 "，而是要理解运动本身，将视觉从静态感知推进到对动态过程的建模。

" 把这几个模态放在一起，" 王昊总结说，" 就可以构建一个真正属于物理世界的模型。"

围绕这一目标，动作在模型中的编码方式也随之发生变化。它不再被视为单一模态的输出，而是可以与语言、视觉进行联合编码或条件编码，并在更细粒度的时间尺度上表达。

模型结构的选择，也直接影响数据路线。

今天几乎所有具身公司都在讲自己的 " 数据金字塔 "，但不同公司对金字塔底部到底该放什么，理解并不相同。

以星海图和自变量为例，两家公司都强调 Egocentric data 的重要性，但对这个概念的理解其实并不一样。星海图的 Egocentric 核心数据基座，更多是指人类第一视角视频。自变量的 Egocentric 数据则包括人的可穿戴设备。王昊表示：" 从自由度视角来看，Egocentric 的数据完全和人的自由度一致，所有的手持式、穿戴各种设备是介于人的自由度和机器的自由度之间的形态。"

看起来这只是数据分类方法的不同，实际上对应的却是对 " 通用能力从哪里来 " 的不同判断。有人认为，先让模型拥有大量人类视角经验最重要；有人认为，要尽快获得更贴近机器人控制结构的数据；也有人更看重真机接管、遥操作和真实任务反馈。看上去所有人都在谈数据，但真正的分歧，往往恰恰藏在对数据最底层定义的不同里。

三天时间，足够做出一个像模像样的结果。这意味着，demo 不再稀缺，甚至不再可信。

真实世界需要的是基模能力的持续提升，需要真正 "hands dirty" 的过程——去理解模型、理解硬件、理解数据，也理解那些不会出现在视频里的失败与边界。

在这样的标准下，很多差距才刚刚开始显现。

Anthropic 掐断 " 龙虾 " 补贴，OpenClaw 创始人哭求仅换 7 天续命，网友吵疯：作秀还是义务

OpenAI 正在做一个 " 替你用电脑 " 的 Super App，新模型 Spud 几周内登场

谷歌重磅开源 Gemma 4！手机离线跑 Agent、还降内存，Qwen 被拉进正面对决

宙世代

一起剪

相关标签