全球首个真实世界具身多模态数据集,它来了!
刚刚,它石智航发布全球首个大规模真实世界具身 VLTA(Vision-Language-Tactile-Action)多模态数据集World In Your Hands(WIYH)。
WIYH 是行业内首个以Human-centric为中心的、整合了视觉、语言、触觉和动作多模态数据的大型数据集,将于 2025 年 12 月面向行业共享开放。
就目前曝光的数据来看,其包含超过10 万条以上的真实人类操作视频,覆盖了40 余种任务类型、100多种人类技能,使用13种以上传感器,涵盖520多种物体。
其中,每条数据都包含6种标注,对应多模态数据的同步标记。
而这种 Human-centric 为中心的数据技术范式路线,也正在成为行业共识。
其中最受关注的莫过于马斯克治下的特斯拉,特斯拉已经开启了数据采集员工,对外剧透以此推进擎天柱机器人发展和量产。
而从创立之初就明确该路线的它石智航,率先用数据集给出了答卷。
这个维度上来说,这家这家成立仅半年便拿下2.42 亿美元融资的中国具身智能初创公司,在这条技术路线上,比特斯拉至少领先 6 个月。
全球首个真实世界具身多模态数据集
它石智航这次发布的 WIYH 数据集有两大突破:一是以真实场景为核心,覆盖多种操作任务;二是以大规模多模态数据为支撑,融合视觉、语言、动作、触觉等信息,为机器人学习复杂动作和跨场景泛化提供了坚实的数据基础。
在它石智航发布的 Human-Centric 第一视角数采视频中可以看到,与以往实验室或数据采集工厂中静态、单调的采集环境不同,WIYH 基于多个行业的真实工作场景和工作人员,采集了涵盖酒店洗衣、超市装配等多种具身场景的人类标准操作流程数据。
例如,超市中真实的拿取物品场景:工作人员从货架上挑选商品→手部伸向目标物→握住物品并抬起→调整握姿 →放入购物篮或推车→完成取放动作。
又如,酒店中的真实叠衣服场景:工作人员取出毛巾→摊平→对折或卷叠→对齐边角→放入衣柜或收纳箱→完成叠放动作。
值得一提的是,这些数据采集视频也展示了 WIYH 的多层标注,包括语义标注(Mask)、深度信息(Depth)、交互物体的可供性(Affordance)、语言推理(Language)、手部与末端动作轨迹(Tactile/Action)等。
这些标注实现了动作、触觉、语言与视觉的多维同步,为研究具身智能提供了丰富、可泛化的数据基础。
由此,WIYH 将视觉、语言、动作和触觉等多模态信息同步对齐,呈现完整的操作过程,不仅解决了 " 数据量少、质量低、成本高 " 的问题,更确保了数据源自真实世界。
总体来看,WIYH 具有以下四个特点:
真实:数据来源于真实的具身操作任务,贴近模型实际应用场景。
丰富:覆盖多个行业和操作技能,有助于模型迁移和泛化,提升数据复用价值。
全面:包括视觉、语言、触觉和动作等多模态标注,便于多模态预训练和对齐。
海量:数据规模大,能够支撑通用具身智能模型的训练和应用。
基于上面这些核心特征,WIYH 数据集在模态完整性、标注精度和采集环境上都有明显优势。
首先,WIYH 通过自研采集套件同步获取视觉(RGB)、力触觉和动作轨迹数据,保证多源信息在时间和空间上的精确对齐。
其次,WIYH 依托云端基础大模型完成高精度标注,覆盖 2D 语义、场景深度、操作任务分解、交互物体的可供性(Affordance)以及手部和末端动作轨迹等多粒度标签,为具身基座模型提供全面、多维的训练信号。
最后,WIYH 直接在真实生活操作场景中采集标准操作流程数据,相比传统高成本自建工厂,既提升了数据的真实性和多样性,也显著降低了采集成本。
对于此次 WIYH 的发布,它石智航首席科学家丁文超博士表示 :
它石 WIYH 数据集的发布,标志着行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集,并为未来实现具身基座模型的规模定律 (Scaling Law) 奠定了基础。
以人为中心的数据范式
众所周知,要让机器人掌握丰富的人类动作表现,并在多样化场景中具备迁移和泛化能力,高质量数据至关重要。
通常,用于具身智能训练的数据可分为三类:互联网视频数据、仿真数据和真实数据。
不过,这几类数据各存在相应的局限:互联网数据质量参差不齐,且缺乏动作信息;仿真数据虽然可控,但真实性有限,场景泛化能力不足,而且还要解决 sim2real gap 的问题;真机数据采集成本高,高质量数据稀缺。
由此可见,对于人形机器人而言,迈向 " 具身智能 " 的核心挑战并非算法本身,而在于如何获取大规模、真实且具泛化能力的训练数据。
在各类数据路径之间进行权衡——也成为了各实验室和团队之间的关键博弈所在。
例如,以Figure AI为代表的 VLA 路径主要依赖成本低廉的互联网数据进行训练,而像Google Robotics这样的仿真路线则结合真实操作数据与仿真扩充数据,用于训练通用抓取和搬运任务。
不过,正如具身智能领域的明星公司Physical Intelligence联合创始人 Sergey Levine 前段时间指出的,尽管真实数据难以获取,但它的重要性不可被视频或仿真等替代,该公司也一直坚持以真实数据为核心的路线。
除了 Physical Intelligence,特斯拉在训练 Optimus 机器人时同样依赖真实数据:工作人员在执行各类任务时身穿动作捕捉服,采集到的人类运动轨迹直接用于构建机器人运动策略,其高薪招聘数据采集员的做法也早已广为人知。
然而,这些数据大多仅在公司内部使用,并未开源,限制了行业的进一步发展。
在开源数据方面,像Ego4DSounds这样的数据集虽然提供了大量第一人称的操作数据,但存在明显局限:一方面缺乏触觉与语言等多模态标注,另一方面主要聚焦日常生活场景,缺少真实工作场景中的动作轨迹数据。
此外,相较于谷歌Open-X Embodiment、智元AgiBot Digital World等开放数据集,它石智航的 WIYH 更强调以人为中心,而非以机器人为中心。
对于这一点,它石智航首席科学家丁文超曾在与量子位的对谈中表示:
按照第一性原理,要实现接近人类水平的具身智能,机器人必须获得类似人类的认知与行动能力,而数据也应来源于人类自身。这正是 WIYH 与传统机器人中心数据采集方式的核心区别:后者常通过 XR 眼镜或手柄遥控机器人动作,效率低且可能生成低于人类水平的数据,相当于把人类动作 " 套 " 在机器人上,甚至导致技术降级。相比之下,我们以人为本源采集真实操作数据,获取多模态信息,才能真正推动具身智能接近人类水平。
基于此,WIYH 的发布一方面填补了跨行业、真实工作场景的数据空白,使面向真实世界的具身 AI World Engine 预训练成为可能。
另一方面它也奠定了它石智航以人为本源的 Human-Centric 范式,确保数据获取不依赖于机器人遥控或仿真重建,而是真实、可扩展且可泛化的人类操作经验,为具身智能达到人类水平的认知与行动能力提供了坚实基础。
出品方何方神圣?
最后,再次简单介绍一下它石智航。
它石智航(TARS)是一家成立于 2025 年 2 月的具身智能创业公司,由陈亦伦和李震宇联合创办,核心团队还包括丁文超(联合创始人兼首席科学家)、陈同庆(联合创始人兼首席架构师)和 Vincent(联合创始人兼首席战略官)。
CEO 陈亦伦博士曾任大疆机器视觉总工程师、华为自动驾驶 CTO 及清华大学智能产业研究院智能机器人方向首席科学家,是中国自动驾驶领域的产业领军人物。
董事长李震宇曾获华为最高荣誉嘉奖,后担任百度集团资深副总裁,长期掌管百度阿波罗自动驾驶事业群。
首席科学家丁文超入选华为 " 天才少年 " 计划,从 0 到 1 主导华为 ADS 智驾端到端决策网络。
联合创始人陈同庆为清华大学博士、国家重大专项首席科学家及空间感知首席技术专家,深耕工业制造、AI、自动驾驶和机器人领域,多款产品实现成功商用。
首席战略官 Vincent,多模态学习领域专家,持续创业者,带领多家创业公司实现跨越式发展。
它石智航以 Human-Centric 为核心,此次发布的 WIYH 数据集与此前推出的 AI World Engine 世界模型进一步地构建了数据—模型闭环,实现了真实世界的具身数据采集与空间感知能力。
此外,它石智航采用全栈开发路线,覆盖算法、硬件本体和核心应用,旨在解决柔性物体操作等复杂物理场景问题,实现工程化、产品化和量产商用。
2025 年 3 月 26 日,它石智航完成了 1.2 亿美元天使轮融资,创中国具身智能领域天使轮融资新高。7 月 8 日,其又完成了 1.22 亿美元天使 + 轮融资。
而现在,这家成立不到一年的明星具身公司,给出了数据范式上的引领性答卷。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦