全球首个真实世界具身多模态数据集，它石智航交卷，比特斯拉还早6个月

全球首个真实世界具身多模态数据集，它来了！

刚刚，它石智航发布全球首个大规模真实世界具身 VLTA（Vision-Language-Tactile-Action）多模态数据集World In Your Hands（WIYH）。

WIYH 是行业内首个以Human-centric为中心的、整合了视觉、语言、触觉和动作多模态数据的大型数据集，将于 2025 年 12 月面向行业共享开放。

就目前曝光的数据来看，其包含超过10 万条以上的真实人类操作视频，覆盖了40 余种任务类型、100多种人类技能，使用13种以上传感器，涵盖520多种物体。

其中，每条数据都包含6种标注，对应多模态数据的同步标记。

而这种 Human-centric 为中心的数据技术范式路线，也正在成为行业共识。

其中最受关注的莫过于马斯克治下的特斯拉，特斯拉已经开启了数据采集员工，对外剧透以此推进擎天柱机器人发展和量产。

而从创立之初就明确该路线的它石智航，率先用数据集给出了答卷。

这个维度上来说，这家这家成立仅半年便拿下2.42 亿美元融资的中国具身智能初创公司，在这条技术路线上，比特斯拉至少领先 6 个月。

全球首个真实世界具身多模态数据集

它石智航这次发布的 WIYH 数据集有两大突破：一是以真实场景为核心，覆盖多种操作任务；二是以大规模多模态数据为支撑，融合视觉、语言、动作、触觉等信息，为机器人学习复杂动作和跨场景泛化提供了坚实的数据基础。

在它石智航发布的 Human-Centric 第一视角数采视频中可以看到，与以往实验室或数据采集工厂中静态、单调的采集环境不同，WIYH 基于多个行业的真实工作场景和工作人员，采集了涵盖酒店洗衣、超市装配等多种具身场景的人类标准操作流程数据。

例如，超市中真实的拿取物品场景：工作人员从货架上挑选商品→手部伸向目标物→握住物品并抬起→调整握姿 →放入购物篮或推车→完成取放动作。

又如，酒店中的真实叠衣服场景：工作人员取出毛巾→摊平→对折或卷叠→对齐边角→放入衣柜或收纳箱→完成叠放动作。

值得一提的是，这些数据采集视频也展示了 WIYH 的多层标注，包括语义标注（Mask）、深度信息（Depth）、交互物体的可供性（Affordance）、语言推理（Language）、手部与末端动作轨迹（Tactile/Action）等。

这些标注实现了动作、触觉、语言与视觉的多维同步，为研究具身智能提供了丰富、可泛化的数据基础。

由此，WIYH 将视觉、语言、动作和触觉等多模态信息同步对齐，呈现完整的操作过程，不仅解决了 " 数据量少、质量低、成本高 " 的问题，更确保了数据源自真实世界。

总体来看，WIYH 具有以下四个特点：

真实：数据来源于真实的具身操作任务，贴近模型实际应用场景。

丰富：覆盖多个行业和操作技能，有助于模型迁移和泛化，提升数据复用价值。

全面：包括视觉、语言、触觉和动作等多模态标注，便于多模态预训练和对齐。

海量：数据规模大，能够支撑通用具身智能模型的训练和应用。

基于上面这些核心特征，WIYH 数据集在模态完整性、标注精度和采集环境上都有明显优势。

首先，WIYH 通过自研采集套件同步获取视觉（RGB）、力触觉和动作轨迹数据，保证多源信息在时间和空间上的精确对齐。

其次，WIYH 依托云端基础大模型完成高精度标注，覆盖 2D 语义、场景深度、操作任务分解、交互物体的可供性（Affordance）以及手部和末端动作轨迹等多粒度标签，为具身基座模型提供全面、多维的训练信号。

最后，WIYH 直接在真实生活操作场景中采集标准操作流程数据，相比传统高成本自建工厂，既提升了数据的真实性和多样性，也显著降低了采集成本。

对于此次 WIYH 的发布，它石智航首席科学家丁文超博士表示 :

它石 WIYH 数据集的发布，标志着行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集，并为未来实现具身基座模型的规模定律（Scaling Law）奠定了基础。

以人为中心的数据范式

众所周知，要让机器人掌握丰富的人类动作表现，并在多样化场景中具备迁移和泛化能力，高质量数据至关重要。

通常，用于具身智能训练的数据可分为三类：互联网视频数据、仿真数据和真实数据。

不过，这几类数据各存在相应的局限：互联网数据质量参差不齐，且缺乏动作信息；仿真数据虽然可控，但真实性有限，场景泛化能力不足，而且还要解决 sim2real gap 的问题；真机数据采集成本高，高质量数据稀缺。

由此可见，对于人形机器人而言，迈向 " 具身智能 " 的核心挑战并非算法本身，而在于如何获取大规模、真实且具泛化能力的训练数据。

在各类数据路径之间进行权衡——也成为了各实验室和团队之间的关键博弈所在。

例如，以Figure AI为代表的 VLA 路径主要依赖成本低廉的互联网数据进行训练，而像Google Robotics这样的仿真路线则结合真实操作数据与仿真扩充数据，用于训练通用抓取和搬运任务。

不过，正如具身智能领域的明星公司Physical Intelligence联合创始人 Sergey Levine 前段时间指出的，尽管真实数据难以获取，但它的重要性不可被视频或仿真等替代，该公司也一直坚持以真实数据为核心的路线。

除了 Physical Intelligence，特斯拉在训练 Optimus 机器人时同样依赖真实数据：工作人员在执行各类任务时身穿动作捕捉服，采集到的人类运动轨迹直接用于构建机器人运动策略，其高薪招聘数据采集员的做法也早已广为人知。

然而，这些数据大多仅在公司内部使用，并未开源，限制了行业的进一步发展。

在开源数据方面，像Ego4DSounds这样的数据集虽然提供了大量第一人称的操作数据，但存在明显局限：一方面缺乏触觉与语言等多模态标注，另一方面主要聚焦日常生活场景，缺少真实工作场景中的动作轨迹数据。

此外，相较于谷歌Open-X Embodiment、智元AgiBot Digital World等开放数据集，它石智航的 WIYH 更强调以人为中心，而非以机器人为中心。

对于这一点，它石智航首席科学家丁文超曾在与量子位的对谈中表示：

按照第一性原理，要实现接近人类水平的具身智能，机器人必须获得类似人类的认知与行动能力，而数据也应来源于人类自身。这正是 WIYH 与传统机器人中心数据采集方式的核心区别：后者常通过 XR 眼镜或手柄遥控机器人动作，效率低且可能生成低于人类水平的数据，相当于把人类动作 " 套 " 在机器人上，甚至导致技术降级。相比之下，我们以人为本源采集真实操作数据，获取多模态信息，才能真正推动具身智能接近人类水平。

基于此，WIYH 的发布一方面填补了跨行业、真实工作场景的数据空白，使面向真实世界的具身 AI World Engine 预训练成为可能。

另一方面它也奠定了它石智航以人为本源的 Human-Centric 范式，确保数据获取不依赖于机器人遥控或仿真重建，而是真实、可扩展且可泛化的人类操作经验，为具身智能达到人类水平的认知与行动能力提供了坚实基础。

出品方何方神圣？

最后，再次简单介绍一下它石智航。

它石智航（TARS）是一家成立于 2025 年 2 月的具身智能创业公司，由陈亦伦和李震宇联合创办，核心团队还包括丁文超（联合创始人兼首席科学家）、陈同庆（联合创始人兼首席架构师）和 Vincent（联合创始人兼首席战略官）。

CEO 陈亦伦博士曾任大疆机器视觉总工程师、华为自动驾驶 CTO 及清华大学智能产业研究院智能机器人方向首席科学家，是中国自动驾驶领域的产业领军人物。

董事长李震宇曾获华为最高荣誉嘉奖，后担任百度集团资深副总裁，长期掌管百度阿波罗自动驾驶事业群。

首席科学家丁文超入选华为 " 天才少年 " 计划，从 0 到 1 主导华为 ADS 智驾端到端决策网络。

联合创始人陈同庆为清华大学博士、国家重大专项首席科学家及空间感知首席技术专家，深耕工业制造、AI、自动驾驶和机器人领域，多款产品实现成功商用。

首席战略官 Vincent，多模态学习领域专家，持续创业者，带领多家创业公司实现跨越式发展。

它石智航以 Human-Centric 为核心，此次发布的 WIYH 数据集与此前推出的 AI World Engine 世界模型进一步地构建了数据—模型闭环，实现了真实世界的具身数据采集与空间感知能力。

此外，它石智航采用全栈开发路线，覆盖算法、硬件本体和核心应用，旨在解决柔性物体操作等复杂物理场景问题，实现工程化、产品化和量产商用。

2025 年 3 月 26 日，它石智航完成了 1.2 亿美元天使轮融资，创中国具身智能领域天使轮融资新高。7 月 8 日，其又完成了 1.22 亿美元天使 + 轮融资。

而现在，这家成立不到一年的明星具身公司，给出了数据范式上的引领性答卷。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签