具身智能的数据基建战争：谁在争夺AI的下一个命脉？

文 | 舒书

4 月 16 日，智元发布数据服务平台、京东发布采集终端、小米密集宣发机器人进展——三家企业同一天用不同的方式指向同一个方向：具身智能的竞争，正在进入数据基础设施时代。

但这不是一场建设竞赛，是一场数据定义权与生态主导权的争夺战。谁先建立高价值数据的精炼能力、定义数据格式与接口标准，谁就能掌控生态、让对手的追赶成本高到无法竞争。

一、数据价值金字塔：修正与重估

行业最大的误区是堆量即正义。真实的价值金字塔如下：

数据价值金字塔

群核的核心技术是 AI 物理合成数据——从真实数据中学习物理先验，再生成符合物理规律的数据，无需手动搭建物理场景，可快速生成高保真失败案例，适配多场景迁移。这与传统刚体 / 柔体 / 流体仿真引擎的技术路线完全不同。

行业真相：据清华大学丁贵广团队《具身智能数据采集与处理综述》及行业调研，超过 90% 的采集数据在未经精细化处理前，难以直接用于模型训练（重复动作、失败无标注、传感器噪声、无物理反馈）。真正的壁垒不是采集规模，而是高价值数据的精炼能力。

二、数据飞轮：具身智能没有影子模式，怎么转？

自动驾驶有几百万辆车在路上，每分每秒都在采集数据、回传训练——这是天然的影子模式。机器人没有。

这意味着：

采集成本必须由某个商业场景承担。京东仓储、小米工厂可以，因为机器人本身在生产。纯数据服务商没有场景，采集成本 100% 靠自己烧钱。

更有价值的是失败案例数据，但它们不会自动回流。自动驾驶可以对比 AI 决策和人类司机操作，自动发现失败。机器人没有这个对照。谁在做失败案例的自动挖掘？目前几乎没有人。而这些失败案例正是需要精炼的顶层高价值数据。

" 数据→模型→数据 " 闭环是最大的技术壁垒。这不是简单的采集更多，而是：评测→发现失败模式→定向采集→模型迭代。没有这个闭环，再多数据也只是数字垃圾。

行业最大的认知错误：以为采集规模等于数据壁垒。真正的壁垒是谁能让数据自己长出数据。而这种数据自生长的能力，正是玩家们争夺的核心，一场围绕数据控制权的战争已全面打响。

三、玩家之间的战争：谁抢谁的生意？

冲突 1：智元觅蜂想做统一平台，本质是抢数据商的饭碗

智元做平台：我定义接口，我定价，我抽佣，你们沦为外包采集工。帕西尼、光轮、巨身等头部数据厂商必然抵制——这不是合作，是夺权之战。

平台模式的战略价值在于网络效应和生态锁定，而非短期盈利。初期的亏损是为换取长期生态主导权的必要投入。智元的真实路径可能是 " 数据 + 服务 " 复合模式——用平台聚合需求，用增值服务（清洗、标注、仿真测试）赚钱，而非单纯的抽佣平台。

冲突 2：京东、小米的场景数据，会不会封闭不对外？

京东物流数据、小米工厂数据，是它们最核心的竞争壁垒。大概率封闭自用，不会开放给智元或其他厂商。这意味着数据基建不是统一市场，而是诸侯割据。

冲突 3：合成数据 vs 真实数据，路线之争

群核的 AI 物理合成数据可以补物理规律、失败案例、多模态对齐，成本远低于真机采集。如果合成数据足够好，谁还愿意花数十万 / 小时做真机采集？这不是合作，是替代。

目前合成数据仍无法完全替代顶层真机数据，核心场景（如精密装配、力控操作）仍需真机采集。两者短期是互补关系，长期是替代关系。

冲突 4：标准之争——谁定义数据格式，谁掌控生态

行业标准仍处于测试标准阶段，不规定数据格式、接口、标注规范。真正的战争在于：谁的数据格式成为行业默认标准？就像 Google 的 Protocol Buffers、Facebook 的 Thrift ——数据格式的掌控者，就是生态的主导者。

四、商业模式：谁能赚钱？

商业模式对比

真实成交价远低于数万元 / 小时的纸面报价。据行业调研，2026 年一季度具身智能领域融资超 30 起、约 200 亿元（数据引自 IT 桔子、36 氪等公开报道），百亿估值公司已达 13 家。数据交易市场根本没起来——合规、确权、定价机制全部缺失。智元现在的真实模式是 " 卖数据 + 卖服务 "，不是平台抽佣。

五、中美路线对决：不同物种的战争

中美路线对决

需要澄清的是：双方的差异更多是战略侧重点和资源禀赋的不同，而非两条泾渭分明的路线。特斯拉的 Optimus 同样高度依赖其超级工厂的真实场景数据进行迭代；中国的智源研究院等机构也在大力投入通用具身大模型的研究。

终局判断：短期看，中国在场景落地和硬件供应链上占优；长期看，美国在底层模型、仿真引擎和生态标准上领先。两条路线不会完全融合，但会相互渗透——中国的场景数据会催生更通用的能力，美国的通用模型也会向更多场景下沉。这种分化也让行业面临的泡沫、安全、合规风险，呈现出不同的地域特征。

六、隐忧与挑战

泡沫风险：2026 年开年融资超 30 起、约 200 亿元（IT 桔子、36 氪数据），百亿估值公司已达 13 家。行业共识：一半以上最终会消失。

更值得警惕的是，当前行业存在大量订单水分——很多所谓的商业订单是公关性质的展示采购，而非真实的生产力替代。虎嗅援引一位知名投资人的判断：" 真正在买单的是投资机构，本质上是 To LP。" 瑞银证券分析师也指出，当前大量出货流向科研机构和数据采集中心，而非真实生产力需求。估值更多是信仰投票，而非对商业价值的理性定价。

物理安全：机器人采集 / 执行时伤人、毁物、被劫持、越狱执行危险动作——全球首个具身安全评测基准 AGENTSAFE 已发布，但行业整体仍处于补课阶段。

数据合规：数据权属、隐私保护、跨境传输——制度性框架仍在建设中。机器人在家庭、工厂采集的数据，到底属于谁？目前没有答案。

七、终局判断：3 年演进路径

终局判断

赢家的核心能力：

低成本高价值数据产能（群核的 AI 物理合成、帕西尼的超级工厂）

全链路自动化数据引擎（不是数据工厂，是学习闭环）

场景壁垒（京东的物流、小米的工厂——这是数据来源的护城河）

标准与生态主导权（谁定义数据格式，谁就是生态的收税人）

一句话判断：具身智能下一个泡沫破裂点，就是那些只会堆数据量、没有数据引擎、没有场景壁垒的公司。Demo 好看没用，能自动迭代失败案例才是壁垒。

结语

模型是表，数据是里，引擎是魂，场景是命。

4 月 16 日，智元、京东、小米宣告了数据基建时代的开启。但这不是一场建设竞赛，是一场数据定义权与生态主导权的争夺战。

谁的数据格式成为标准，谁掌控生态。谁先跑通 " 数据→模型→数据 " 的飞轮，谁就能让对手的追赶成本高到无法竞争。

未来几年，赢家不是做出最炫酷 Demo 的公司，而是那个最先建成数据精炼厂、最先跑通自动迭代闭环、最先抢占标准生态位的公司。

具身智能不是算力战争，不是模型战争，是数据飞轮的战争。而数据飞轮，只有少数人能转起来。

本文基于公开信息分析，部分数据引自 IT 桔子、36 氪、科创板日报、经济观察网、清华大学《具身智能数据采集与处理综述》等。