人形机器人迈向 " 具身智能 " 的核心瓶颈——高质量训练数据,迎来了规模化供给。近日,国内最大的人形机器人训练场——人形机器人数据训练中心在京启用,凭借万平空间与年产超 600 万条数据的能力,为行业注入宝贵 " 数据燃料 ",旨在破解模型从仿真到真机的 " 现实落差 " 难题。
图:人形机器人数据训练中心
超万平方米多元场景,搭建未来产业 " 练兵场 "
步入训练场,仿佛提前看到了 " 未来世界 "。上万平方米的空间内,1:1 还原了工业智造、智慧家庭、康养服务和 5G 融合四大类共 16 个细分场景。
从中兴的智能生产线到一汽集团的汽车车间,从顺丰快递的称重打包到联合利华公司的洗发水装箱,以及海晨物流的纸箱打包等场景,每一个细节都真实还原实际作业环境。这里也是国内覆盖场景最全、仿真程度最高的训练场之一。
训练场内,还能看到身高 1.66 米、全身 40+ 自由度的 " 夸父 "(Kuavo)人形机器人正在各个场景中刻苦 " 练习 "。通过 VR 设备、动作捕捉系统等先进装备,机器人学习着空箱回库、物料分拣、称重打包、产品装箱等实用技能,执行成功率 95%以上。目前,这些机器人已掌握 20 多项原子技能,能够胜任搬运、巡检、导览、配送等多种任务。
图:台面清洁
图:垃圾分类回收
政府企业协同,共筑具身智能 " 数据引擎 "
作为落实国务院《关于深入实施 " 人工智能 +" 行动的意见》中 " 加强高质量数据集建设 " 要求的具体实践,该训练场由石景山区政府牵头,联合区属产业公司、北京银保产业园及人形机器人领军企业乐聚机器人共同运营。项目通过整合政府、产业、高校、科研与金融多方资源,构建协同机制,为打造自主可控的具身智能基础设施提供系统支撑。
" 就像教孩子学走路需要大量练习一样,机器人也需要在多种场景中反复训练才能变得更聪明。" 项目负责人介绍," 训练场就是要解决机器人行业目前面临的数据短缺问题。"
图:快消品装箱
图:SMT 料盘架下料
全流程数据闭环,实现具身智能数据 " 高质快产 "
据了解,该训练场年均可产出超 600 万条高质量数据,规模居全国人形机器人训练场首位。通过全国跨区分布式数采生产,平台已与苏州、济南、合肥、郑州等多地训练场联动,形成全国数据中枢,预计月数据产能可达 5000 小时。
负责人表示,该训练场所有数据均来源于真机运行,具备跨本体、跨场景的迁移能力,有效应对了行业中存在的数据质量差、成本高、迁移难等痛点。依托自研数采平台,通过采集、清洗、标注、导出四步流程,结合 " 自动 + 人工 + 模型 " 三重质检机制,实现高质量数据交付,经专业机构认证,单条数据合格率达 99%。
" 以往各企业分散采集训练,就像‘小作坊生产’,数据质量参差不齐。" 技术人员介绍," 现在通过标准化、规模化的数据生产,我们能够为整个行业提供高质量、低成本的数据服务。" 未来,依托海量真实数据,团队还将进一步推进数据标准制定和模型训练工作,通过交互式训练等方式,构建从单机控制到群体协作的完整训练体系。
图:小件工装上料
突破数据瓶颈,赋能具身智能产业标准化发展
数据是人形机器人实现智能化的核心要素。当前,具身智能行业面临数据质量参差不齐、多模态数据采集门槛高、数据规模与场景泛化能力不足等痛点。尽管视觉语言动作模型(VLA)为机器人实现跨平台、跨场景泛化能力提供了技术路径,但其性能很大程度上依赖高质量、大规模训练数据的支撑。同时,仿真数据、合成数据等无法完全复现真实物理交互、传感器噪声、环境动态扰动、执行器延迟等细节,而真机数据是模型从 " 纸上谈兵 " 走向 " 现实落地 " 的关键桥梁。
据负责人介绍,该训练场已建立全流程标准化数据体系,正积极推动异构数据融合与开放合作,所提供的数据集可直接用于训练通用型机器人基模型(Base Model),为行业构建跨本体、跨任务的数据公共基础,助力我国人形机器人产业实现标准化、规模化发展。
" 训练 + 应用 + 孵化 + 科普 " 四位一体,打造全国具身数据服务平台
训练场创新构建" 训练 + 应用 + 孵化 + 科普 " 四位一体发展模式,致力打造全国具身智能公共数据服务底座平台。不仅推进具身语料服务与数据交易,同时联合北京通用人工智能研究院等机构加强 " 具身大脑 " 研发与应用;通过产业基金支持创新孵化、举办 " 第一届具身智能操作任务挑战赛 " 等高水平赛事,并面向社会开展科普教育与人才培养,积极构建开放协同的产业生态。
图:" 训练 + 应用 + 孵化 + 科普 "
该训练场的投用,为我国人形机器人产业按下了快进键。它不仅是机器人的 " 技能培训学校 ",更是推动其从实验室走向规模化应用的基石。随着机器人在这里完成 " 实训 " 并走向市场,一个智能机器人与人类协同工作的新时代正加速到来。
登录后才可以发布评论哦
打开小程序可以发布评论哦