云栖大会上,阿里宣布 AI 平台将把完整的英伟达 Physical AI(物理 AI)软件栈纳入其开发者选项菜单。这个看似技术性的宣布,实际上标志着人工智能发展的一个重要转折点。英伟达 CEO 黄仁勋在 2025 年 CES 大会上明确表示:AI 下一个前沿就是物理 AI,蕴藏着巨大的潜力和机遇。
根据市场研究数据,全球工业机器人市场规模预计从 2024 年的 1544 亿元增长到 2025 年的 3000 亿美元,其中 AI 技术在工业机器人中的应用市场更是以 21.9% 的年复合增长率快速扩张。
然而目前大部分工业机器人仍属于传统自动化设备,按照预设程序执行固定动作。一旦环境发生变化——比如零件位置偏移或形状略有不同——就需要人工重新编程。物理 AI 机器人则可以自主适应这些变化,通过实时感知和决策来完成任务。
这其中,由传统工业机器人升级到物理 AI 所带来的增长,正是阿里和英伟达合作的根本。不过在此之前,我们需要了解一个问题,什么是物理 AI?
如果非要用一句话来概括什么是物理 AI,那就是一个让人工智能从屏幕里走出来,真正进入物理世界的技术。
举个简单的例子:传统 AI 可以识别出一个杯子,并告诉你这是什么;而物理 AI 不仅能识别杯子,还能判断杯子的重量、材质,计算出抓取它需要多大的力度,以及如何避免打翻里面的液体。这种差异决定了两者的应用场景完全不同。
黄仁勋强调,Physical AI 的核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化 AI 生成的内容,使其更符合现实世界的逻辑与规律。物理 AI,顾名思义就是物理 +AI,也就是人工智能反馈的内容要符合物理规律。
物理 AI 这个概念并非一夜之间出现,而是英伟达经过多年技术积累和战略布局的结果。早在 2021 年,英伟达就开始在 GTC 大会上提及物理 AI 的概念,但真正将其作为核心战略推出是在 2024 年 3 月的 GTC 2024 大会上。黄仁勋在那次大会上首次系统性地阐述了物理 AI 的愿景,并发布了相关的技术平台和工具链。
在黄仁勋看来,AI 的发展经历了三个清晰的阶段:最初是感知 AI(Perceptual AI),能够理解图像、文字和声音,这个阶段的代表是计算机视觉和语音识别技术;然后是生成式 AI(Generative AI),能够创造文本、图像和声音,以 ChatGPT、DALL-E 等为代表;现在我们正进入 Physical AI(物理 AI)的时代,AI 不仅能够理解世界,还能够像人一样进行推理、计划和行动。
物理 AI 的技术基础建立在三个关键组件之上:世界模型(World Model)、物理仿真引擎(Physics Simulation Engine)和具身智能控制器(Embodied Intelligence Controller)。世界模型是物理 AI 的认知核心,它不同于传统的语言模型或图像模型,需要构建对三维空间的完整理解,包括物体的几何形状、材质属性、运动状态和相互关系。技术上,这通常通过神经辐射场(NeRF)、3D 高斯溅射(3D Gaussian Splatting)或体素网格(Voxel Grid)等方法来实现空间表征,模型需要学习物理定律的隐式表示,比如重力加速度、摩擦系数、弹性模量等参数,并能够根据当前状态预测未来的物理演化。
物理仿真引擎则负责实时计算物理交互,这不是简单的预设规则,而是基于偏微分方程求解器的动态计算系统,需要处理刚体动力学、流体力学、软体变形等复杂物理现象。在技术实现上,通常采用有限元方法(FEM)、粒子系统(Particle System)或基于深度学习的可微分物理仿真器,关键在于计算效率和精度的平衡——系统需要在毫秒级时间内完成复杂的物理计算,同时保证足够的精度来支持准确的决策。
具身智能控制器是连接虚拟推理和物理执行的桥梁,它接收来自世界模型的预测结果和物理仿真的计算输出,生成具体的控制指令。技术上,这通常基于模型预测控制(MPC)或深度强化学习(DRL)算法,控制器需要处理高维的状态空间和动作空间,同时考虑执行器的物理限制、延迟和噪声。
从系统架构角度,物理 AI 采用分层设计。感知层集成多模态传感器阵列,包括 RGB-D 摄像头、激光雷达、IMU、力 / 扭矩传感器等,关键技术挑战在于传感器融合和实时处理,系统需要将不同传感器的数据统一到同一个坐标系中,处理时间同步、标定误差和数据噪声,技术上通常采用卡尔曼滤波、粒子滤波或基于深度学习的传感器融合网络。
认知层运行世界模型和物理仿真引擎,这一层的计算密集度极高,需要专门的硬件加速。英伟达的方案是使用 GPU 集群进行并行计算,同时开发了专门的 CUDA 内核来优化物理仿真算法,内存管理也是关键技术点——系统需要在有限的 GPU 内存中维护大规模的 3D 场景表示和物理状态。
执行层负责运动规划和控制,技术核心是逆运动学求解和轨迹优化。对于多自由度的机器人系统,需要实时求解复杂的约束优化问题,现代方法通常结合解析解和数值优化,使用雅可比矩阵的伪逆来处理冗余自由度,并采用二次规划(QP)或序列二次规划(SQP)来处理约束。
在物理 AI 发布的同时,英伟达还发布了与之对应的完整技术生态系统,包括 Omniverse 仿真平台、Isaac 机器人开发套件、Cosmos 世界基础模型等。
这是因为物理 AI 的训练需要大量的物理交互数据,但现实世界的数据收集成本极高,解决方案是基于仿真的数据生成。于是英伟达就通过 Omniverse 和 Cosmos 平台,生成大规模的合成训练数据,包括各种物理场景、材质属性和交互模式。不过再仿真环境中,训练的模型在现实世界中往往性能下降,这被称为 " 现实差距 ",英伟达现在正在做的,就是用仿真到现实的迁移(Sim-to-Real Transfer)技术,去弥补虚拟数据和现实数据之间的差距。
物理 AI 对计算资源的需求远超传统 AI 应用,单个物理 AI 系统可能需要数百个 GPU 核心来实时运行。英伟达专门开发了 RTX PRO 服务器和 DGX Cloud 平台来支持这种计算需求,系统架构采用分布式计算,将不同的计算任务分配到专门优化的硬件上。这种技术架构使得物理 AI 能够在复杂的现实环境中实现实时的感知、推理和行动,真正实现了 AI 从虚拟世界向物理世界的跨越。
还有一点,与传统 AI 系统主要处理文本、图像等数字信息不同,物理 AI 通过大模型驱动,使机器不仅能够处理数据,还能理解三维世界的空间关系和物理规律。这种技术让 AI 系统具备了类似生物的空间感知能力,能够在现实环境中进行复杂的物理操作。
举个具体例子来说明这种差异:如果 AI 生成一段机器人抓取物体的视频,传统的生成式 AI 可能会创造出物体悬浮在空中、机械臂穿过固体障碍物、或者违反重力定律的画面,因为它只是基于训练数据进行像素级的模仿。而物理 AI 则会确保生成的内容完全符合物理世界的运作方式——物体会受重力影响下落,机械臂必须绕过障碍物,抓取力度要与物体重量相匹配。
这种技术革新的深层意义在于,它让 AI 从纯粹的信息处理工具,转变为能够真正理解和操作物理世界的智能系统。传统的 AI 就像一个只会看书但从未实践的学者,拥有丰富的理论知识却缺乏实际操作经验;而物理 AI 则像一个既有理论知识又有实践经验的工程师,不仅知道是什么和为什么,更重要的是知道怎么做,能够将抽象的知识转化为具体的行动。
黄仁勋对物理 AI 的前景极其乐观。他曾在 CES 上表示,Physical AI 将催生超 50 万亿美元规模的行业变革,涉及 1000 万家工厂、20 万个仓库、未来数十亿计台人形机器人和 15 亿辆汽车及卡车。这个数字听起来令人震撼,但背后有着坚实的逻辑支撑。
世界上有 10 亿知识工作者,AI 智能体可能是下一个机器人行业,很可能是一个价值数万亿美元的机会。黄仁勋在 CES 2025 上表示。他认为,物理 AI 意味着 AI 不再局限于虚拟世界,而是开始走向现实世界,并将在机器人、物流、汽车、制造等千行百业成为主流应用。
在黄仁勋的规划中,未来将有两款高产量的机器人产品:第一个是自动驾驶汽车,第二个很可能就是人形机器人。这两种机器都需要具有人类般的感知能力,能够应对快速变化的环境,并在几乎没有容错的情况下做出即时反应。他对人形机器人的潜力感到特别兴奋,因为它们最有可能适应为人类设计的环境。
黄仁勋还预言,机器人时代已经到来,未来所有移动的物体都将实现自主运行。这个预言的背后,是对物理 AI 技术成熟度和应用潜力的深度判断。从技术发展的角度看,随着计算能力的提升、传感器成本的降低、算法的优化,物理 AI 正在从实验室概念走向商业应用的临界点。
英伟达在物理 AI 领域的布局可以追溯到多年前对机器人技术的投入。该公司提出的物理 AI 概念,核心在于将物理规律与人工智能技术相结合,通过整合真实物理规则来优化 AI 生成的内容,使其更符合现实世界的逻辑与规律。
但是英伟达不敢步子迈得太大,与传统 AI 应用不同,物理 AI 系统直接与物理世界交互,其错误可能导致严重的安全后果。这要求物理 AI 系统具备更高的可靠性和安全性标准。
英伟达目前的方案是 Halos 安全系统。这是一个全栈安全系统,它可以统一硬件架构、AI 模型、软件工具和安全标准,确保物理 AI 系统在各种环境下的稳定运行。从数据收集、模型训练到部署应用,每个环节都需要严格的安全验证。
视角来到阿里这边,他们选择将英伟达物理 AI 软件栈纳入开发者选项,背后有着深层的战略考量。当前的 AI 大模型应用主要集中在线上场景,而物理 AI 试图将整个现实世界融入 AI 当中。这种从虚拟到现实的跨越,正是阿里云在 AI 时代需要抢占的制高点。
阿里云智能集团董事长兼 CEO 吴泳铭在云栖大会上表示:生成式 AI 最大的想象力,绝不是在手机屏幕上做一两个新的超级 app,而是接管数字世界,改变物理世界。这一表态清晰地表明了阿里对物理 AI 重要性的认识。
然而,面对物理 AI 的发展趋势,通义大模型也面临着从二维理解向三维交互转型的挑战。传统的大语言模型擅长处理文本和图像,但在理解物理世界的空间关系、物理规律方面存在天然的局限性。这正是阿里需要引入物理 AI 技术栈的根本原因。
但,这正好也是阿里的瓶颈。阿里的数据更多来自于互联网,而非线下。这就迫使他们需要找到一个全新的途径,以帮助通义来完成虚拟到物理的转变。
李飞飞曾经也说过类似的观点,她认为对于 AI 而言,如果无法建立三维世界模型,就无法真正理解、操作或重建现实世界。
通过集成英伟达的物理 AI 软件栈,阿里可以为通义大模型增加空间理解和物理交互能力。这种集成不仅仅是技术层面的叠加,更是从语言智能向空间智能的战略转型。开发者可以利用阿里云的基础设施和通义大模型的语言能力,结合英伟达的物理仿真和机器人控制技术,构建真正能够在物理世界中工作的 AI 系统。
不过与之相对的,物理 AI 的发展不是孤立的,它需要与现有的 AI 技术生态深度融合。大语言模型提供了强大的语言理解和推理能力,计算机视觉技术提供了环境感知能力,机器人技术提供了物理执行能力。物理 AI 正是这些技术融合的产物。
在这个融合过程中,数据流动和处理架构至关重要。物理 AI 系统需要实时处理来自多个传感器的海量数据,进行快速决策,并控制执行器完成动作。这对计算架构和算法优化提出了极高要求。
云边协同是物理 AI 部署的重要模式。复杂的 AI 推理可以在云端进行,而实时的控制决策则在边缘设备上执行。这种架构既能利用云端的强大计算能力,又能满足实时性要求。
所以阿里也相当于给 P 物理 AI 提供了发展的养料。
如果说第一代感知 AI 让机器学会了看和听,第二代生成式 AI 让机器学会了创造,那么物理 AI 则让机器真正学会了行动。
然而,物理 AI 的发展也面临着诸多挑战。首先是技术上的挑战,如何让 AI 系统在复杂的物理环境中稳定运行,如何降低巨大的计算成本以实现技术的普及化应用,这些都是当前亟待解决的问题。此外,仿真训练与现实应用之间的 " 现实差距 " 也是一大难题。尽管仿真可以提供大量数据,但如何确保这些数据在现实世界中的适用性是个关键问题。
物理 AI 或许不会像某些预测那样迅速颠覆所有行业,但它必将逐步改变我们的工作和生活方式。它不仅是技术的革新,更是对传统行业的颠覆和重塑。随着技术的不断发展和应用场景的拓展,物理 AI 将成为推动全球经济增长和社会进步的重要力量。
登录后才可以发布评论哦
打开小程序可以发布评论哦