钛媒体 6小时前
具身智能的数据基建战争:谁在争夺AI的下一个命脉?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 舒书

4 月 16 日,智元发布数据服务平台、京东发布采集终端、小米密集宣发机器人进展——三家企业同一天用不同的方式指向同一个方向:具身智能的竞争,正在进入数据基础设施时代。

但这不是一场建设竞赛,是一场数据定义权与生态主导权的争夺战。谁先建立高价值数据的精炼能力、定义数据格式与接口标准,谁就能掌控生态、让对手的追赶成本高到无法竞争。

一、数据价值金字塔:修正与重估

行业最大的误区是堆量即正义。真实的价值金字塔如下:

数据价值金字塔

群核的核心技术是 AI 物理合成数据——从真实数据中学习物理先验,再生成符合物理规律的数据,无需手动搭建物理场景,可快速生成高保真失败案例,适配多场景迁移。这与传统刚体 / 柔体 / 流体仿真引擎的技术路线完全不同。

行业真相:据清华大学丁贵广团队《具身智能数据采集与处理综述》及行业调研,超过 90% 的采集数据在未经精细化处理前,难以直接用于模型训练(重复动作、失败无标注、传感器噪声、无物理反馈)。真正的壁垒不是采集规模,而是高价值数据的精炼能力。

二、数据飞轮:具身智能没有影子模式,怎么转?

自动驾驶有几百万辆车在路上,每分每秒都在采集数据、回传训练——这是天然的影子模式。机器人没有。

这意味着:

采集成本必须由某个商业场景承担。京东仓储、小米工厂可以,因为机器人本身在生产。纯数据服务商没有场景,采集成本 100% 靠自己烧钱。

更有价值的是失败案例数据,但它们不会自动回流。自动驾驶可以对比 AI 决策和人类司机操作,自动发现失败。机器人没有这个对照。谁在做失败案例的自动挖掘?目前几乎没有人。而这些失败案例正是需要精炼的顶层高价值数据。

" 数据→模型→数据 " 闭环是最大的技术壁垒。这不是简单的采集更多,而是:评测→发现失败模式→定向采集→模型迭代。没有这个闭环,再多数据也只是数字垃圾。

行业最大的认知错误:以为采集规模等于数据壁垒。真正的壁垒是谁能让数据自己长出数据。而这种数据自生长的能力,正是玩家们争夺的核心,一场围绕数据控制权的战争已全面打响。

三、玩家之间的战争:谁抢谁的生意?

冲突 1:智元觅蜂想做统一平台,本质是抢数据商的饭碗

智元做平台:我定义接口,我定价,我抽佣,你们沦为外包采集工。帕西尼、光轮、巨身等头部数据厂商必然抵制——这不是合作,是夺权之战

平台模式的战略价值在于网络效应和生态锁定,而非短期盈利。初期的亏损是为换取长期生态主导权的必要投入。智元的真实路径可能是 " 数据 + 服务 " 复合模式——用平台聚合需求,用增值服务(清洗、标注、仿真测试)赚钱,而非单纯的抽佣平台。

冲突 2:京东、小米的场景数据,会不会封闭不对外?

京东物流数据、小米工厂数据,是它们最核心的竞争壁垒。大概率封闭自用,不会开放给智元或其他厂商。这意味着数据基建不是统一市场,而是诸侯割据

冲突 3:合成数据 vs 真实数据,路线之争

群核的 AI 物理合成数据可以补物理规律、失败案例、多模态对齐,成本远低于真机采集。如果合成数据足够好,谁还愿意花数十万 / 小时做真机采集?这不是合作,是替代

目前合成数据仍无法完全替代顶层真机数据,核心场景(如精密装配、力控操作)仍需真机采集。两者短期是互补关系,长期是替代关系。

冲突 4:标准之争——谁定义数据格式,谁掌控生态

行业标准仍处于测试标准阶段,不规定数据格式、接口、标注规范。真正的战争在于:谁的数据格式成为行业默认标准?就像 Google 的 Protocol Buffers、Facebook 的 Thrift ——数据格式的掌控者,就是生态的主导者。

四、商业模式:谁能赚钱?

商业模式对比

真实成交价远低于数万元 / 小时的纸面报价。据行业调研,2026 年一季度具身智能领域融资超 30 起、约 200 亿元(数据引自 IT 桔子、36 氪等公开报道),百亿估值公司已达 13 家。数据交易市场根本没起来——合规、确权、定价机制全部缺失。智元现在的真实模式是 " 卖数据 + 卖服务 ",不是平台抽佣。

五、中美路线对决:不同物种的战争

中美路线对决

需要澄清的是:双方的差异更多是战略侧重点和资源禀赋的不同,而非两条泾渭分明的路线。特斯拉的 Optimus 同样高度依赖其超级工厂的真实场景数据进行迭代;中国的智源研究院等机构也在大力投入通用具身大模型的研究。

终局判断:短期看,中国在场景落地和硬件供应链上占优;长期看,美国在底层模型、仿真引擎和生态标准上领先。两条路线不会完全融合,但会相互渗透——中国的场景数据会催生更通用的能力,美国的通用模型也会向更多场景下沉。这种分化也让行业面临的泡沫、安全、合规风险,呈现出不同的地域特征。

六、隐忧与挑战

泡沫风险:2026 年开年融资超 30 起、约 200 亿元(IT 桔子、36 氪数据),百亿估值公司已达 13 家。行业共识:一半以上最终会消失。

更值得警惕的是,当前行业存在大量订单水分——很多所谓的商业订单是公关性质的展示采购,而非真实的生产力替代。虎嗅援引一位知名投资人的判断:" 真正在买单的是投资机构,本质上是 To LP。" 瑞银证券分析师也指出,当前大量出货流向科研机构和数据采集中心,而非真实生产力需求。估值更多是信仰投票,而非对商业价值的理性定价。

物理安全:机器人采集 / 执行时伤人、毁物、被劫持、越狱执行危险动作——全球首个具身安全评测基准 AGENTSAFE 已发布,但行业整体仍处于补课阶段。

数据合规:数据权属、隐私保护、跨境传输——制度性框架仍在建设中。机器人在家庭、工厂采集的数据,到底属于谁?目前没有答案。

七、终局判断:3 年演进路径

终局判断

赢家的核心能力

低成本高价值数据产能(群核的 AI 物理合成、帕西尼的超级工厂)

全链路自动化数据引擎(不是数据工厂,是学习闭环)

场景壁垒(京东的物流、小米的工厂——这是数据来源的护城河)

标准与生态主导权(谁定义数据格式,谁就是生态的收税人)

一句话判断:具身智能下一个泡沫破裂点,就是那些只会堆数据量、没有数据引擎、没有场景壁垒的公司。Demo 好看没用,能自动迭代失败案例才是壁垒。

结语

模型是表,数据是里,引擎是魂,场景是命。

4 月 16 日,智元、京东、小米宣告了数据基建时代的开启。但这不是一场建设竞赛,是一场数据定义权与生态主导权的争夺战。

谁的数据格式成为标准,谁掌控生态。谁先跑通 " 数据→模型→数据 " 的飞轮,谁就能让对手的追赶成本高到无法竞争。

未来几年,赢家不是做出最炫酷 Demo 的公司,而是那个最先建成数据精炼厂、最先跑通自动迭代闭环、最先抢占标准生态位的公司。

具身智能不是算力战争,不是模型战争,是数据飞轮的战争。而数据飞轮,只有少数人能转起来。

本文基于公开信息分析,部分数据引自 IT 桔子、36 氪、科创板日报、经济观察网、清华大学《具身智能数据采集与处理综述》等。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 机器人 自动驾驶 小米 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论