来源:猎云精选,文 / 王非
又一门 " 卖铲子 " 的生意,开始赚钱了。
2023 年开始火热的 " 百模大战 ",让 " 卖铲子 " 的算力硬件商赚得盆满钵满。类似的情况,正在具身智能产业 " 情景再现 ",数据采集从业者正在密集融资且收获大量订单:
3 月,光轮智能完成 10 亿元融资,成为全球第一个具身数据独角兽,并透露今年第一季度拿下 5.5 亿元订单;4 月,无问智科完成超亿元融资,并透露今年第一季度签下的订单金额达到数亿元量级;4 月,弈人科技完成 Pre-A+ 轮及 Pre-A++ 轮连续两轮亿元级融资,同时宣布 2025 年收入破亿并盈利,2026 年 Q1 具身订单超去年全年营收;智元也已分拆成立觅蜂科技……
不只是新创公司,互联网大厂也盯上了这块肥肉:京东发布具身智能数据全链路基础设施,计划发动 60 万人众包采集(如快递员、骑手佩戴设备),目标两年内积累 1000 万小时人类真实场景视频数据;百度选择了 " 数据超市 " 的模式……
行业热度陡增,这也是觅蜂科技董事长兼 CEO 姚卯青所言," 在具身智能尚未真正大规模商业化之前,数据作为基础设施,会比终端应用更早形成商业回报 " 的底层逻辑。
具身智能的数据来源主要包含四类:位于金字塔顶层的是遥控真机(即遥操作)获得 " 真机数据 ",数据质量最精准成本也最贵,但却是人形机器人落地的关键;仿真数据 / 合成数据处于中层,成本低、可规模化,能够弥补当前真机数据的不足;人类视频包含互联网视频、人类行为数据,处于金字塔底层,来源广泛、泛化性强;UMI(Universal Manipulation Interface,通用操作接口)协议,是具身智能领域的一种低成本、无本体的数据采集范式与技术标准。

发展至今,数据采集赛道大致也可以分为四大流派:" 真机数据 " 对应的如智元等头部机器人公司," 本体 + 数据 " 闭环运作,数据业务是内部能力的自然外溢;仿真数据 / 合成数据对应的则是定位为数据基础设施服务商的初创公司,比如光轮智能;跨界平台型巨头如京东、中国移动等,依靠产业场景等优势入局,采用混合采集模式;"UMI 型公司 ",如鹿明机器人、松灵机器人等,则专注于提供标准化、模块化的采集硬件。
不难发现,2026 年,已然成为 " 具身智能数据规模化元年 ",各类厂商正依靠 " 数据服务商 " 的新定位,凭借刚性需求、高壁垒和可复制的商业模式,在具身智能产业攫取利益。
缺口超 99% 催生 " 合成数据 " 新独角兽,已有 3 家公司拿下数亿订单
具身智能大模型(VLA/ 世界模型)的训练需要海量、多模态、高保真的物理交互数据。然而,截至 2026 年初,全球高质量真实物理交互数据总量仅约 50 万小时,而行业共识认为训练通用具身模型至少需要千万小时级数据,缺口超过 99% 。
这种供需失衡导致数据成为稀缺资源,买方处于 " 有多少买多少 " 的状态。于是数据采集,便成为了具身智能产业细分赛道的新型 " 铲子 " ,也再一次印证 " 数据先行、铲子先富 " 的逻辑。
需要注意的是,光轮智能、无问智科、弈人科技等明星初创公司,并非全部诞生在具身智能产业发展期,更多则是成立于智能驾驶浪潮中,且多选择走 " 仿真数据 / 合成数据 " 路线,并逐步向 " 真机数据 " 扩展走上融合发展新道路。
2023 年,随着大型语言模型(LLM)和视觉语言模型(VLM)的突破,业界开始普遍探索将 " 大脑 " 赋予机器人身体,实现了从传统自动化向具备感知、决策能力的 " 具身智能 " 跨越 。这一年的 2 月,智元成立并迅速推出首款人形机器人,引发了资本市场和科技界的广泛关注,被视为中国具身智能创业浪潮的代表性事件。
成立于 2023 年 1 月的光轮智能即定位于合成数据公司,致力于为企业落地 AI 提供合成数据解决方案。2026 年 3 月,该公司官宣完成 10 亿元 A++ 及 A+++ 轮融资,本轮融资完成后,该公司也成为了全球首个具身数据领域的独角兽企业;5 月,光轮智能又获得由蚂蚁集团领投的新一轮融资,投后估值超过 20 亿美元,在短短两个月内实现估值翻倍。

无问智科虽然成立于 2022 年 11 月,但却是在半年后的 2023 年 5 月方才正式启动运营。在其官网介绍中,无问智科多次提及智能驾驶,主要是应用 AI 驱动的大模型仿真技术,为智能驾驶汽车上路保驾护航。
2024 年,具身智能产业热度持续攀升:明星独角兽中的智元、宇树科技均在这一年接连获得 2 轮投资。
于是乘着具身智能热潮,无问智科在 2024 年 8 月官宣天使轮融资时,适时提到," 公司立足和深耕于智能驾驶 / 自动驾驶赛道,将逐渐拓展到机器人及具身智能赛道 "。2026 年 4 月,无问智科官宣超亿元新融资时,公司定位已更新为 " 物理 AI 数据基座企业 "。
据介绍,基于全国首个虚实融合闭环的长三角(德清)具身智能数据采集训练场,无问智科日产数据上千小时,形成万级规模化合成数据与千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业,2026 年 Q1 更与字节跳动、无界动力、章鱼动力等签署订单,目前在手订单数亿元,本年度营收将突破超亿元。
光轮智能则已经将人类数据与仿真打造成一套闭环的基础设施,并且人类数据交付量全球第一。它的人类视频数据产品,覆盖 2.5 万 + 环境节点、10 万 + 任务种类,累计交付超 150 万小时高质量人类数据。2025 年,该公司全年营收实现 10 倍增长;4 月份官宣公司 2026 年 Q1 单季预计收入超过 25 年全年总和,5 月份官宣 2026 年 Q1 新增 5.5 亿元订单。
更加典型的例子莫过于成立于 2013 年 3 月的弈人科技,利用自动驾驶积累的车辆感知网络,适时转型采集具身智能数据,于 2025 年实现 AI 数据业务收入过亿元,在国内率先完成 AI 数据正向盈利。同时,公司在具身智能领域已落地多场景应用,并斩获头部客户订单,仅 2026 年一季度就获得了具身智能数据新增订单超亿元。
已然过会成立于 2016 年的宇树科技招股书显示,2022 年,该公司用时 6 年实现约 1.23 亿元营业收入,但 2024 年方才 " 扭亏为盈 " 实现约 9547.47 万元净利润。
作为对比,光轮智能、无问智科等新创公司,成立仅 3 年,便在 2026 年实现过亿营收,已然成为 " 卖数据的先赚钱 " 的例证之一。
智元下场孵化,京东、百度、中国移动都来了
随着硬件本体的逐步成熟,高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据,成为了未来五年决定具身智能商业化落地的胜负手。
深谙于此的智元合伙人、高级副总裁、具身业务部总裁姚卯青,早在 2004 年 5 月就牵头建成行业规模最大(4000 平米)、场景最丰富的数采超级工厂——部署近百台远征 A2-D 专机,实现单机单日千条数据的极速采集,也是当前 " 真机数据 " 的代表性玩家。
仅仅半年后,智元就联合上海人工智能实验室、国家地方共建人形机器人创新中心及上海库帕思共同开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World。凭借于此,选择 " 本体 - 数据 - 模型 - 场景 " 重度耦合战略闭环的智元,作为整机厂商代表,在 2026 年 4 月的评选中,与独立数据提供商——光轮智能、国家级公共平台——国家地方共建人形机器人创新中心,成为国内具身智能数据赛道的 Top 3。

姚卯青不止一次地强调:当前机器人行业的瓶颈不是算力而是数据," 高质量的真机数据是实现智能涌现的关键前提 "。他还指出,当前行业中存在大量仿真模拟数据,但仿真模拟数据无法替代真实物理交互中产生的细粒度感知信息。智元的策略是 " 以真机数据为主,仿真模拟为辅 ",只有真实场景中采集的数据,才能真正驱动机器人智能的质变。公司内部也有一个清晰的量化目标:两年内积累千万小时级别的真实场景数据。
上述目标的实现,觅蜂科技数据采集体系的支撑同样至关重要。2026 年 2 月,姚卯青推动智元业务拆分出觅蜂科技,并出任董事长兼 CEO。该公司聚焦具身智能数据基础设施赛道,深度应用并推广 UMI 技术(但并非单一的 "UMI 型公司 "),打造独立开放的一站式物理 AI 数据服务平台。成立仅 10 天,觅蜂科技就完成了数亿元种子轮与天使轮融资。
据澎湃科技消息,具身智能数据当前总体定价区间在 200-500 元 / 小时。其中,机器人在现实场景中实际操作采集的真机数据,因最适合训练落地模型,需求最旺盛,价格也最贵,当前国内市场价格在 500-1000 元 / 小时。另据姚卯青透露,随着产能逐步稳定,不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时 1000 元,无本体数据未来可能稳定在 300-400 元。
数据稀缺、价格处于 " 高点 ",于是在具身智能玩家之外,嗅觉灵敏的互联网大厂、工业巨头步调一致地快速行为,今年以来接连下场,盯上数据采集 " 这块肥肉 ",强势跻身具身智能产业链。
其中,互联网大厂如百度,走上了 " 数据超市 " 模式。4 月 10 日,百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业,推出 " 具身智能数据超市(Beta 版)",首创层级化、可扩展的数据标签体系,加速具身智能规模化落地。
值得一提的是,尽管以 "UMI 协议 " 数据为主,鹿明机器人同样选择了 " 数据超市 " 这一模式,该公司于 2026 年 3 月推出了行业首个 "FastUMI Pro 数据超市 "。
伴随大模型对数据需求维度的几何级膨胀,单一技术路线已无法满足 " 规模、成本、精度、泛化 " 的苛刻要求。行业全面迈向多源融合采集时代:以人类视频注入通用物理常识,以仿真合成数据海量覆盖长尾边界,以 UMI 采集分布式扩充真实交互动作,最后依托高精度遥操作进行垂直场景的专家级微调。
以京东为例,今年 3 月 16 日,其宣布建设一个具身智能数据采集中心,计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景,记录视觉、触觉、空间轨迹等多维度数据。将发动包括内部超 10 万员工及外部最多 50 万人员在内的数十万人参与采集,计划于一年内积累 500 万小时人类真实场景视频数据,两年内总时长突破 1000 万小时,并同步采集 100 万小时机器人本体数据。
据悉,京东具身智能数据采集中心,主要采用基于可穿戴设备的人类第一视角(Egocentric)真实场景数据采集方式,并辅以真机遥操作采集,属于无本体数据(No-Body Data)与多模态真实交互数据相结合的混合采集模式。
中国移动同样如此,5 月 8 日,其宣布围绕家庭生活场景推出 1200 平米的 " 灵犀数霄 " 具身智能训练场,核心是一套覆盖数据采集、数据合成、数据处理、数据应用全链路的数据闭环,是融合了真机遥操作与无本体轻量化采集的混合数据采集体系,并辅以仿真合成数据。
不难发现,在具身智能产业链上,数据采集这个 " 铲子生意 " 已经成为具身智能数据从 " 分散采集 " 走向 " 平台化供给 "。它不再是某家机器人公司的附属业务,而是正在独立跑出一套商业逻辑,成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。


登录后才可以发布评论哦
打开小程序可以发布评论哦