新浪科技讯 6 月 2 日下午消息,NVIDIA 近日发布 NVIDIA Cosmos ™ 3 ——面向物理 AI 的开放世界基础模型,宣布基于突破性的混合 Transformer (Mixture-of-Transformers)架构,将视觉推理、世界生成和动作预测集成至单一系统中,解决了物理 AI 的一项核心难题:使机器人、智能汽车或视觉智能体能够在训练数据有限和仿真堆栈碎片化的情况下,在现实世界中进行泛化。

据悉,Cosmos 3 能够以领先的物理精度原生理解并生成文本、图像、视频、环境音和动作,将物理 AI 的训练和评估周期从数月缩短至数天。该模型的混合 Transformer 架构将推理 Transformer 与专家生成 Transformer 相结合,使得 Cosmos 3 能够在生成视频和动作轨迹前,完成对对象交互、运动及时空关系的解析。
在物理 AI 基准测试中,Cosmos 3 系列模型取得了领先结果。在 Artificial Analysis、Physics-IQ、PAI-Bench 和 R-Bench 的世界生成精确性方面,RoboLab 和 RoboArena 的动作策略方面,以及 VANTAGE-Bench 和 TAR 排行榜的视觉理解方面,Cosmos 3 均位居榜首。
在最大型的多模态物理 AI 数据集之一上进行训练——包括数十亿条文本、图像、视频、声音和动作轨迹样本中,该模型为开发者提供了强大的预训练基础,助力其以更少的数据和更低的训练成本构建物理 AI 系统。
NVIDIA 创始人兼首席执行官黄仁勋表示:" 得益于多模态推理语言、视觉和世界模型领域的多项突破,物理 AI 爆发的时代已近在眼前。Cosmos 3 系列开放前沿全模态模型,助力开发者在构建机器人、智能汽车和视觉 AI 方面实现了代际飞跃,使其能够在物理世界中完成感知、推理、规划并采取行动。"(文猛)


登录后才可以发布评论哦
打开小程序可以发布评论哦