具身智能产业正经历从 " 拼本体 " 向 " 拼数据 " 的关键转折。2026 年,行业竞争焦点已转向百万至千万小时级真实物理交互数据的获取能力,该规模被普遍视为训练具身基础模型并实现突破性进展的临界阈值。
星海图 CEO 高继扬指出,人类 18 岁前与物理世界交互约 10 万小时,而具身基础模型需 100 万至 1000 万小时训练数据,相当于 8.3 至 83 个人类的学习总量。光轮智能创始人谢晨则对比自动驾驶,认为物理 AI 的数据需求量为其 1000 倍。但截至 2026 年初,全球高质量真实物理交互数据总量仅约 50 万小时,距千万小时目标缺口超 95%。
千寻智能已在全国 100 多个城市部署 30 多万个采集点位,专职数采人员超千人,截至 2026 年一季度真实数据采集量达 10 万小时,计划年内突破 100 万小时。星海图亦设定 2026 年完成 100 万小时、三年内达成 1000 万小时的目标。大量中小创业者受限于资源,数据积累仍处几千至几万小时量级。
数据采集难在底层逻辑:早期依赖人工遥操作真机,受制于机器人量产能力不足、单台硬件成本高昂、设备体积笨重致入户采集流程繁琐,难以规模化。谢晨强调,具身智能缺乏类似互联网语料或自动驾驶量产车队的天然数据闭环,是根本短板。且具身交互涉及高自由度、高精度力觉与姿态控制,远超自动驾驶有限维度动力学交互。
更严峻的是数据质量困境。蚂蚁灵波科技 CEO 朱兴指出,当前行业普遍存在模态质量差、样本重复度高问题,严重削弱模型训练效果。星源智 CEO 刘东主张聚焦垂直可落地场景,深挖单一场景高质量数据;武伟提出真实失败数据同样宝贵。行业实际面临数量、质量、模态、场景分布等多维压力。
采集方式正发生范式转移。真机遥操作因成本高、效率低、多模态同步缺失而逼近天花板;仿真合成虽具并发运行、快速建模、低成本试错优势,但存在显著 sim-to-real gap,在光照、材质摩擦、物体形变及意外扰动等细节建模上难以精确还原。
" 以人为中心 " 的数采方式成为新主流。中国移动与戴盟机器人合作,依托全国数十万家线下营业厅构建 " 外发式 " 采集网络,经短期培训的市民佩戴二指夹爪、触觉手套和头戴相机,在家居、物流、制造等五大场景参与采集,满产年产能达 100 万小时。京东宣布发动数十万人参与采集,目标一年内积累 500 万小时人类真实场景视频数据,两年内突破 1000 万小时,同步实现机器人本体数据 100 万小时。朱兴认为,搭配高精度触觉手套的 UMI 采集可同步补齐视觉与力觉数据,是构建高质量数据体系的关键路径。许华哲表示,招募城市居民兼职采集,可大幅提升效率与数据体量。
但 " 能采 " 不等于 " 能用 "。若仅泛化录制日常活动,数据易同质化且缺乏精细动作标注,质量管控至关重要。行业共识逐步形成:不同来源数据应分阶段、分层使用。互联网人类操作视频虽缺精确标注,但可用于预训练阶段建立基础世界认知;物理世界采集数据则作为 " 引导程序 ",赋予模型行为直觉;微调与部署阶段,真机数据价值凸显。千寻智能联合创始人高阳强调,研发初期须融合互联网视频与真实场景数据,使模型仅需几分钟微调即可在任意任务达近 95% 成功率,再通过实际使用迭代形成无分布偏移的优质数据闭环。
数据生态建设迫在眉睫。具身智能数据需求量级为自动驾驶上千倍、大语言模型上百万倍,单家企业无法满足。当前行业深陷 " 数据孤岛 ",企业重复投入采集相似数据,却因存储格式、元数据形态、标注颗粒度差异导致流通困难,造成巨大资源浪费。星海图联合亦庄机器人公司与亦庄国投发起 " 亦数智能 ",首批 15 家合作伙伴已签约;光轮智能与 PICO、阿里云、舞肌科技等覆盖硬件、算力、场景、标准全链条;它石智航发起 " 具身数据星火计划 ",以 Human-centric 范式汇聚超 1000 万小时标准化数据,目标推动 1 亿小时共享,库帕思、联想、联宝等已加入。
北京、无锡等地正依托城市资源抢跑数据赛道,数据已上升为城市乃至国家战略资源。高继扬认为,中国数据工程链优势叠加整机供应链优势,将在未来 2 – 3 年推动本土具身基础模型能力超越美国。5 月初,国家标准化管理委员会下达《高质量数据集具身智能面向训练基地的数据采集与模型训练规范》国家标准计划,聚焦全流程、可落地规范体系,预计 2027 年实施,标志着数据采集将从 " 手工作坊 " 迈向 " 工业流水线 "。韩峰涛预判,2026 年手握海量数据并完成大规模预训练的企业将显著拉开模型实力差距;许华哲直言,缺乏头部资金与数据资源的企业将失去入场资格。数据已成为决定企业能否持续参与竞争的关键标尺。
具身智能发展回归朴素逻辑:谁能以更低成本、更高效率获取高质量数据,谁就更可能定义下一代具身智能形态。本体竞争依赖供应链与工程化水平,可快速追赶;而数据竞争依赖生态协同、标准共建与持续闭环,无法速成。这是一场关于耐心的长跑。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。


登录后才可以发布评论哦
打开小程序可以发布评论哦