钛媒体 12小时前
具身智能的数据基建战争:谁在争夺AI的下一个命脉?
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 舒书

4 月 16 日,智元发布数据服务平台、京东发布采集终端、小米密集宣发机器人进展——三家企业同一天用不同的方式指向同一个方向:具身智能的竞争,正在进入数据基础设施时代。

但这不是一场建设竞赛,是一场数据定义权与生态主导权的争夺战。谁先建立高价值数据的精炼能力、定义数据格式与接口标准,谁就能掌控生态、让对手的追赶成本高到无法竞争。

一、数据价值金字塔:修正与重估

行业最大的误区是堆量即正义。真实的价值金字塔如下:

数据价值金字塔

群核的核心技术是 AI 物理合成数据——从真实数据中学习物理先验,再生成符合物理规律的数据,无需手动搭建物理场景,可快速生成高保真失败案例,适配多场景迁移。这与传统刚体 / 柔体 / 流体仿真引擎的技术路线完全不同。

行业真相:据清华大学丁贵广团队《具身智能数据采集与处理综述》及行业调研,超过 90% 的采集数据在未经精细化处理前,难以直接用于模型训练(重复动作、失败无标注、传感器噪声、无物理反馈)。真正的壁垒不是采集规模,而是高价值数据的精炼能力。

二、数据飞轮:具身智能没有影子模式,怎么转?

自动驾驶有几百万辆车在路上,每分每秒都在采集数据、回传训练——这是天然的影子模式。机器人没有。

这意味着:

采集成本必须由某个商业场景承担。京东仓储、小米工厂可以,因为机器人本身在生产。纯数据服务商没有场景,采集成本 100% 靠自己烧钱。

更有价值的是失败案例数据,但它们不会自动回流。自动驾驶可以对比 AI 决策和人类司机操作,自动发现失败。机器人没有这个对照。谁在做失败案例的自动挖掘?目前几乎没有人。而这些失败案例正是需要精炼的顶层高价值数据。

" 数据→模型→数据 " 闭环是最大的技术壁垒。这不是简单的采集更多,而是:评测→发现失败模式→定向采集→模型迭代。没有这个闭环,再多数据也只是数字垃圾。

行业最大的认知错误:以为采集规模等于数据壁垒。真正的壁垒是谁能让数据自己长出数据。而这种数据自生长的能力,正是玩家们争夺的核心,一场围绕数据控制权的战争已全面打响。

三、玩家之间的战争:谁抢谁的生意?

冲突 1:智元觅蜂想做统一平台,本质是抢数据商的饭碗

智元做平台:我定义接口,我定价,我抽佣,你们沦为外包采集工。帕西尼、光轮、巨身等头部数据厂商必然抵制——这不是合作,是夺权之战

平台模式的战略价值在于网络效应和生态锁定,而非短期盈利。初期的亏损是为换取长期生态主导权的必要投入。智元的真实路径可能是 " 数据 + 服务 " 复合模式——用平台聚合需求,用增值服务(清洗、标注、仿真测试)赚钱,而非单纯的抽佣平台。

冲突 2:京东、小米的场景数据,会不会封闭不对外?

京东物流数据、小米工厂数据,是它们最核心的竞争壁垒。大概率封闭自用,不会开放给智元或其他厂商。这意味着数据基建不是统一市场,而是诸侯割据

冲突 3:合成数据 vs 真实数据,路线之争

群核的 AI 物理合成数据可以补物理规律、失败案例、多模态对齐,成本远低于真机采集。如果合成数据足够好,谁还愿意花数十万 / 小时做真机采集?这不是合作,是替代

目前合成数据仍无法完全替代顶层真机数据,核心场景(如精密装配、力控操作)仍需真机采集。两者短期是互补关系,长期是替代关系。

冲突 4:标准之争——谁定义数据格式,谁掌控生态

行业标准仍处于测试标准阶段,不规定数据格式、接口、标注规范。真正的战争在于:谁的数据格式成为行业默认标准?就像 Google 的 Protocol Buffers、Facebook 的 Thrift ——数据格式的掌控者,就是生态的主导者。

四、商业模式:谁能赚钱?

商业模式对比

真实成交价远低于数万元 / 小时的纸面报价。据行业调研,2026 年一季度具身智能领域融资超 30 起、约 200 亿元(数据引自 IT 桔子、36 氪等公开报道),百亿估值公司已达 13 家。数据交易市场根本没起来——合规、确权、定价机制全部缺失。智元现在的真实模式是 " 卖数据 + 卖服务 ",不是平台抽佣。

五、中美路线对决:不同物种的战争

中美路线对决

需要澄清的是:双方的差异更多是战略侧重点和资源禀赋的不同,而非两条泾渭分明的路线。特斯拉的 Optimus 同样高度依赖其超级工厂的真实场景数据进行迭代;中国的智源研究院等机构也在大力投入通用具身大模型的研究。

终局判断:短期看,中国在场景落地和硬件供应链上占优;长期看,美国在底层模型、仿真引擎和生态标准上领先。两条路线不会完全融合,但会相互渗透——中国的场景数据会催生更通用的能力,美国的通用模型也会向更多场景下沉。这种分化也让行业面临的泡沫、安全、合规风险,呈现出不同的地域特征。

六、隐忧与挑战

泡沫风险:2026 年开年融资超 30 起、约 200 亿元(IT 桔子、36 氪数据),百亿估值公司已达 13 家。行业共识:一半以上最终会消失。

更值得警惕的是,当前行业存在大量订单水分——很多所谓的商业订单是公关性质的展示采购,而非真实的生产力替代。虎嗅援引一位知名投资人的判断:" 真正在买单的是投资机构,本质上是 To LP。" 瑞银证券分析师也指出,当前大量出货流向科研机构和数据采集中心,而非真实生产力需求。估值更多是信仰投票,而非对商业价值的理性定价。

物理安全:机器人采集 / 执行时伤人、毁物、被劫持、越狱执行危险动作——全球首个具身安全评测基准 AGENTSAFE 已发布,但行业整体仍处于补课阶段。

数据合规:数据权属、隐私保护、跨境传输——制度性框架仍在建设中。机器人在家庭、工厂采集的数据,到底属于谁?目前没有答案。

七、终局判断:3 年演进路径

终局判断

赢家的核心能力

低成本高价值数据产能(群核的 AI 物理合成、帕西尼的超级工厂)

全链路自动化数据引擎(不是数据工厂,是学习闭环)

场景壁垒(京东的物流、小米的工厂——这是数据来源的护城河)

标准与生态主导权(谁定义数据格式,谁就是生态的收税人)

一句话判断:具身智能下一个泡沫破裂点,就是那些只会堆数据量、没有数据引擎、没有场景壁垒的公司。Demo 好看没用,能自动迭代失败案例才是壁垒。

结语

模型是表,数据是里,引擎是魂,场景是命。

4 月 16 日,智元、京东、小米宣告了数据基建时代的开启。但这不是一场建设竞赛,是一场数据定义权与生态主导权的争夺战。

谁的数据格式成为标准,谁掌控生态。谁先跑通 " 数据→模型→数据 " 的飞轮,谁就能让对手的追赶成本高到无法竞争。

未来几年,赢家不是做出最炫酷 Demo 的公司,而是那个最先建成数据精炼厂、最先跑通自动迭代闭环、最先抢占标准生态位的公司。

具身智能不是算力战争,不是模型战争,是数据飞轮的战争。而数据飞轮,只有少数人能转起来。

本文基于公开信息分析,部分数据引自 IT 桔子、36 氪、科创板日报、经济观察网、清华大学《具身智能数据采集与处理综述》等。

评论
大家都在看