autocarweekly 昨天
两位具身智能头部玩家的隔空交火
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|三少爷

2026 年 4 月,智元机器人 APC 生态大会上,邓泰华高调宣布公司从 " 开发态 " 进入 " 部署态 ",目标直指今年量产数万台。两个月后,星海图全球开发者大会(WDC 2026)上,高继扬意味深长地表示:" 在技术尚未支撑生产力场景前,过早大规模商业化反而可能成为负债。"

两家的表态不可谓不理性,逻辑也都很自洽,但在规模量产这个事关公司命运的事情上,两位头部玩家却秉持着背道而驰的做法。问题就这么猝不及防地甩到了我们眼前:具身智能到底该现在就拼规模,还是再等一等呢?

智元,大干快上

数据是 AI 时代最真实的护城河,真实世界的交互数据是具身智能最有效的燃料。智元的底层逻辑很清晰——大规模本体跑起来产生海量真机数据,数据反哺模型,让大脑更聪明,聪明了就部署到更多场景,产生更多数据。

智元把这套逻辑具象化为 " 四维一体飞轮 ",是不是很熟悉?其实就是特斯拉 " 影子模式 " 的具身版。众所周知,特斯拉 FSD 的优势不只在于算法架构的先进,还在于几百万辆车每天在真实道路上产生的、可促进驾驶智能进化的海量 " 极端场景 " 数据壁垒。

关于数据,这里有两层递进关系值得拆开。

第一层,真实数据和仿真数据的区别。仿真可以生成海量场景,但它生不出真实世界的那层 " 物理噪音 " ——摩擦力、形变、接触力矩的不可预测性。这些噪音不是缺陷,是训练物理 AI 的必修课。不在真实工厂里实际上下料,你永远不知道照明变化、工件公差、产线节奏波动会让模型怎么崩溃。

当然,仿真数据肯定有用——它在加速训练、覆盖长尾场景上有不可替代的价值。但它的天花板也很明显:它只能帮你逼近真实,不能替代真实。这个差距,就是具身智能和自动驾驶都绕不过去的坎。正因为仿真有用但不够用,在具身智能领域才有了真机数据派和仿真数据派的分野,智元显然是前者的扛旗人。他们的逻辑很硬,如果仿真真的那么管用,自动驾驶何至于还困在 L3?

第二层,同样是真实数据,还有 Robot-Centric 和 Human-Centric 之分——这是同一条 " 真实数据 " 战壕里两种截然不同的采集模式。

Robot-Centric 路线里,机器人在真实产线上干活,顺带把数据传回来。数据格式严格匹配自身本体的物理约束——包含真实的关节电机角度、力矩反馈、本体摄像头视角的图像帧。这是 100% 的以机器人为本位的数据。优势在于零 Sim-to-Real Gap:采来的数据直接就能用于训练自家的模型,训完直接 OTA 下发,本体执行毫无违和感。因为数据本身就包含了机器人的物理极限和误差,模型学到的就是 " 在我这个身体上该怎么动 "。

Human-Centric 路线会大量使用 UMI 等人类穿戴设备、外骨骼或第三视角设备,在真实场景里让人类操作员戴着设备干活,记录人类的手部运动轨迹和视觉信息,再通过算法 " 翻译 " 成机器人的动作指令。这种模式的采集效率高、成本低——人类干活天然平滑高效,不需要等机器人算法迭代好。

但代价同样明显:巨大的跨本体迁移鸿沟。人的手是五根柔软的手指,机器人的夹爪或灵巧手是刚性电机;人的视点身高是 1.7 米,机器人可能是 1.3 米或轮式底盘。把人类数据强行映射到机器人身上,会遇到物理约束不符、视角偏差的问题,极其考验 " 域适应 " 和 " 遥操作映射算法 " 能力。

啥数据都赶不上真实场景部署的 Robot-Centric 数据,智元的逻辑很清晰:复制影子模式,拿到真机数据。那,星海图暂缓大规模量产又有什么道理?

星海图,等一等再上量

星海图的逻辑不是 " 不量产 ",而是 " 现在的硬件还不值得着急大规模量产 "。高继扬把整机和供应链叫 " 有限游戏 ",智能和应用叫 " 无限游戏 "。翻译过来就是:智能上限决定产业上限。在硬件会越来越成熟、越来越便宜的背景下,在硬件快速迭代的阶段砸钱上量,等于把资产建在注定过时的底座上。

星海图这套 " 不着急 " 也有理论地基。高继扬在 WDC 大会上系统阐述了具身智能的三重跃迁——本能智能让机器人学会控制身体,作业智能让机器人产生生产力,进化智能让 AI 反向定义机器人的身体形态。在这个框架里,过早押注某一个硬件版本去冲量,等于在智能底座还没搭稳之前就把本体形态锁死了。

至于数据,星海图的策略很务实:一方面带着机器人去真实的酒店、餐厅、家庭、超市、医院,采集真实场景中的操作任务;另一方面,今年上半年联合亦庄机器人公司和亦庄国投,共同发起成立了数据公司 " 亦数智能 ",目标围绕百万小时到千万小时的真实物理世界数据做规模化采集,首批 15 家合作伙伴已经入局。但星海图的采集主力并非真机自主干活,而是前文所述的 Human-Centric 模式——先用低成本把人类操作动作海量录下来,等模型学会干活、硬件收敛到位,再跳进量产。

两边的逻辑都对,也都漂亮。但问题是,甘蔗没有两头甜,两条路线也都各自带着不一样的风险。

两边都有坑

智元这条路最大的风险有两个。

硬件本体在轻量化技术、关节方案、灵巧手上还在演化,每一轮迭代都可能让上一批出货变成老版本。现在铺下去的产线、签下来的客户合同、建起来的供应链——都绑在了一个注定会被迭代的硬件版本上。

第二,从研发到制造到交付,量产是一套端到端的重型投入——智元相当于比星海图提前深度介入了整个制造和交付体系。但提前介入制造体系并不总是优势。这就不得不提一个前车之鉴:威马汽车。

当年威马是所有新势力中最早自建工厂的,在制造和交付上下了大功夫,产线、供应链、品控体系一应俱全。结果呢?产品竞争力没跟上来,那些花大价钱建起来的制造能力全部变成了沉没成本。

对于智元来说,它的产品竞争力目前看起来足够——但产品竞争力不仅要看相对值(比对手强多少),还要看绝对值(能不能强到触发社会的规模订单)。那个临界点到底什么时候来?两三年?还是十年?如果临界点在十年后,那么智元前五年在制造和交付上的投入就是纯粹烧钱,烧到临界点到来之前——飞轮的临界点在哪里,没人给过确切答案。这才是智元真正要赌的东西。

再看看星海图,它的赌注同样面临不小的风险。最大的软肋还是数据。虽然它也是真实场景数据派,但 Human-Centric 路线天生背着一层 " 翻译 " 的成本——人类操作数据必须通过算法映射到机器人的物理躯体上,而人的身体和机器身体之间的鸿沟是物理层面的,不是算法能完全抹平的。

第二个风险在于,量产本身不是你想跳就能跳进去的。从小规模量产到大规模量产,横着不可压缩的时间鸿沟。如果哪天具身智能突然涌现了——就像 ChatGPT 一夜之间让全世界见识了大语言模型的能力——订单会瞬时井喷。但量产能力不是靠钱能堆出来的,它是靠时间堆出来的。供应链管理、品质控制、规模化制造、售后服务体系,每一条都是需要在水里泡久了才能学会的。你没有提前下水——等到浪来了再跳,大概率是跳不进去的。

写在最后

两边的逻辑和风险都摊开了,孰优孰劣,该怎么判断?总不能当端水大师,给两种做法都点赞吧。

这里有三个值得逐一掂量的维度。

第一,数据的成本。就像特斯拉的几百万车主每天免费贡献行驶数据一样,智元数万台机器人进入真实场景后,数据是自动涌出来的。客户花钱买的是机器人提供的劳动,数据是顺带产生的副产品,边际成本为零。而星海图需要为数据单独付费。

第二,硬件本体能否支撑算法持续迭代。回头看自动驾驶行业,摄像头 + 激光雷达 + 毫米波 + 域控的架构延续了好多年。车企的策略从来不是等硬件成熟了再动手,而是先预埋、再通过 OTA 把软件能力持续往上刷。具身智能的硬件层面,关节、感知、计算平台的规格正在标准化,今天的底座足够支撑未来两三年算法的 OTA 升级。至于两三年之后,在模块化设计的支持下,客户付费更换模块即可。

第三,量产的组织能力能不能快速锤炼出来。制造业的经验反复证明:大规模量产不是按一下开关的事。手机那么小一个玩意,罗永浩老师不也感慨自己低估了制造的难度吗?

三个维度摊开来看,智元押注大规模量产,志在构筑两道护城河——量产能力,以及面向丰富真实场景的、以机器人为中心的真机数据。量产能力靠时间堆,真机数据靠部署攒,一个是苦活,一个是壁垒,苦活越早去干,壁垒越早去筑,先发者的身位就越难被撼动。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

全球开发者大会 机器人 ai时代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论