Nvidia Cosmos 3发布，瞄准自动驾驶与机器人训练市场

盖世汽车讯 Nvidia 向开发者开放了 Cosmos 3，此举表明其更看重基础设施的带动效应，而非模型授权的收入。

Nvidia 已推出 Cosmos 3，这是一个面向物理 AI 的开放世界基础模型，基于混合专家变换器架构构建，将视觉推理、世界模拟和动作预测整合于单一系统之中。该模型旨在将物理 AI 的训练和评估周期从数月压缩至数天，可直接应用于自动驾驶汽车开发、机器人技术和视觉 AI 领域。

图片来源：英伟达

Cosmos 3 将一个推理变换器与一个专家生成变换器配对，使其能够在生成视频和动作输出之前，理解物体交互、运动及时空关系。该模型基于 Nvidia 所称的全球最大的多模态物理 AI 数据集之一进行训练，涵盖文本、图像、视频、声音和动作轨迹。

此次发布还包括 Cosmos 联盟，这是 Nvidia 与 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI 新建立的一项合作，旨在共同推进开放世界模型的发展。理想汽车是在 Cosmos 平台上进行开发的自动驾驶企业之一，该平台现已包含覆盖自动驾驶、机器人技术和空间推理的全新数据集。

Nvidia 创始人兼首席执行官黄仁勋在一份声明中表示：" 得益于多模态推理语言、视觉和世界模型的突破，物理 AI 的大爆炸即将到来。Cosmos 3 系列开放的先进全模态模型，为开发者构建能够在物理世界中感知、推理、规划和行动的机器人、自动驾驶汽车和视觉 AI，提供了代际飞跃的能力。"

此事件的重要性在于：

Cosmos 3 是 Nvidia 本周发布的其他所有产品的基础支撑。 Alpamayo 2 Super、AlpaGym 训练框架、OmniDreams 场景生成——这些工具中的每一个都以 Cosmos 作为其底层世界模型基础。综合来看，台北 GTC 大会上的发布与其说是独立的产品发布，不如说是一个垂直整合的物理 AI 技术栈。

开源发布是战略布局，而非慷慨之举。免费提供前沿基础模型，将缩短开发者在 Nvidia（而非竞争对手）架构上进行开发的时间线。Cosmos 联盟同时引入了机器人公司、视频生成实验室和 AI 开发者，进一步延伸了这一逻辑：物理 AI 生态系统中越多参与者标准化采用 Cosmos，就越难在同等规模上构建有竞争力的替代方案。

汽车领域应用潜力巨大，但其更广泛的定位更为重要。 Cosmos 3 同时定位于机器人、自动驾驶汽车和工业视觉 AI 领域。这一广度至关重要，意味着在 Cosmos 3 上进行训练的自动驾驶开发者，所依赖的数据集和架构也在通过机器人技术和仓储应用不断得到优化。这实际上意味着跨领域的训练数据规模，是任何单一领域的开发者都无法复制的。这是否能转化为实际道路性能上的显著提升，尚待验证，但从架构逻辑上看是合理的。

宙世代

一起剪

相关标签