NVIDIA发布Cosmos 3 全球首个全开源“物理AI全能模型”亮相

【CNMO 科技消息】近日，英伟达在台北举办的 GTC 活动上公布了 Cosmos 3，并将其称为全球首个 " 完全开放的全能模型 "。该模型面向机器人、自动驾驶汽车及视觉智能体，主打基于视觉的推理能力，同时可生成文本、图像、视频、环境声音和动作等多模态内容。

据介绍，Cosmos 3 采用由推理 Transformer 与生成 Transformer 组成的架构。前者用于理解物体交互、运动以及时空关系，后者则在此基础上生成视频内容和动作轨迹。英伟达表示，这种设计使模型能够先理解现实世界中的物理互动，再输出与之对应的画面和行为结果，从而提升对复杂环境的建模能力。

英伟达称，Cosmos 3 主要针对机器人、自动驾驶车辆和视觉代理在真实环境理解上的难题。当前相关训练数据仍然有限，仿真系统也较为分散，这使得机器在学习物理世界规律时面临较高门槛。Cosmos 3 的目标是让模型以更高的物理准确性，原生理解并生成文本、图像、视频、环境声音及动作信息。

从应用定位来看，英伟达表示，Cosmos 3 既可作为视觉语言模型使用，也可作为模拟物理环境、预测未来世界状态的世界模型，还可作为其他世界模型的基础平台。产品规划方面，响应精度最高的 Cosmos 3 Super 和轻量版本 Cosmos 3 Nano 已可用，面向边缘设备实时推理的 Cosmos 3 Edge 将于后续推出。

在技术层面，Transformer 是一类深度学习神经网络，擅长处理序列数据中的上下文关系，可通过并行计算提升生成效率。英伟达此次将推理与生成能力结合，意在为机器人和自动驾驶系统提供更接近真实物理世界的基础模型能力。

宙世代

一起剪

相关标签