
图片由 AI 生成
随着大模型深度融入汽车行业,行业竞争正从功能实现转向高阶智驾能力的比拼,而 VLA(Vision-Language-Action Model,视觉语言行动模型)被视为下一代技术竞争的关键变量。
当地时间 12 月 1 日,英伟达(NVIDIA)宣布正式开源其最新自动驾驶 " 视觉—语言—行动 "(VLA)模型 Alpamayo-R1,该模型能够同时处理车辆摄像头画面、文本指令,并输出行车决策,已在 GitHub 和 Hugging Face 平台开源,并同步推出 Cosmos Cookbook 开发资源包。
这是行业内首个专注自动驾驶领域的开源 VLA 模型,英伟达此举旨在为 L4 级自动驾驶落地提供核心技术支撑。
值得注意的是,英伟达 Alpamayo-R1 相较于传统黑盒式自动驾驶算法,主打 " 可解释性 ",能够给出自身决策的理由,有助于安全验证、法规审查与事故责任判定。而英伟达同时发布 "Cosmos Cookbook" 等配套工具,能够支持企业和开发者快速训练、评估与部署。
业内认为,英伟达试图通过开放核心技术,降低自动驾驶开发门槛,加速软件栈标准化,打破原来 Robotaxi 昂贵的 " 全栈自研 " 模式,从而转变为可快速组装的 " 安卓式 " 生态。
不过也有业内人士向笔者表示,此次英伟达 Alpamayo-R1 开源与百度 Apollo 开源类似,对自动驾驶领域的入门选手来说有价值,但对专业公司来说意义不大。
目前,VLA 正成为智能驾驶领域公认的下一代核心技术,相关企业都在加码布局。国内理想汽车、小鹏汽车、长城汽车(已搭载于魏牌蓝山)、元戎启行等都已在 VLA 上实现量产落地。
解决传统" 端到端 " 模型痛点
传统的端到端模型像一个 " 黑盒 ",可能 " 看得见但看不懂 ",在面对违规左转、行人闯入等长尾场景时容易 " 翻车 "。
而相较于传统 " 端到端 " 模型,VLA 通过引入语言模态作为中间层,将视觉感知转化为可解释的逻辑链,从而具备了处理长尾场景和复杂突发状况的潜力,让机器像人类一样 " 观察、推理、决策 ",而不仅仅是海量数据的简单映射。
自动驾驶领域的 VLA(视觉-语言-动作)大模型,代表了将视觉感知、语言理解与决策控制深度融合的技术方向。它能直接输出车辆的驾驶动作,其核心好处是,让机器有了更强的环境理解与推理能力、更高效的一体化决策、更强大的长尾场景应对、更透明的人机交互与信任构建、更自然的车控方式等。
此次英伟达开源的 VLA 模型 Alpamayo-R1,基于全新的 " 因果链 "(Chain of Causation, CoC) 数据集训练。每一段驾驶数据不仅标注了车辆 " 做了什么 ",更注明了 " 为什么这样做 "。
例如," 减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲 "。这意味着模型学会的是基于因果关系的推理,而非对固定模式的死记硬背。
同时,基于模块化 VLA 架构,英伟达 Alpamayo-R1 将面向物理人工智能应用预训练的视觉语言模型 Cosmos-Reason,与基于扩散模型的轨迹解码器相结合,可实时生成动态可行的规划方案;以及多阶段训练策略,先通过监督微调激发推理能力,再利用强化学习(RL)优化推理质量——借助大型推理模型的反馈,并确保推理与动作的一致性。
英伟达公布的数据显示:Alpamayo-R1 在复杂场景下的轨迹规划性能提升了 12%,近距离碰撞率减少 25%,推理质量提升 45%,推理-动作一致性增强 37%。模型参数从 0.5B 扩展至 7B 的过程中,性能持续改善。车载道路测试验证了其实时性表现(延迟 99 毫秒)及城市场景部署的可行性。
也因此,英伟达 Alpamayo-R1 有望给 L4 自动驾驶带来能力的跃迁,Robotaxi 有望安全地融入真实、混乱的公开道路。
成为自动驾驶赛道的 " 安卓 "
从这次开源 Alpamayo-R1,可以再次看出英伟达在自动驾驶领域的野心,已经不满足于只是 " 硬件供应商 ",而是要做成自动驾驶赛道的 " 安卓 "。
其实,早在今年 10 月份,英伟达就对外低调发布了 Alpamayo-R1 大模型。而在华盛顿 GTC 大会上,英伟达发布了自动驾驶平台—— NVIDIA DRIVE AGX Hyperion 10。
Hyperion 10 被认为是英伟达自动驾驶的 " 身体 ",而 Alpamayo-R1 则是自动驾驶的大脑。
值得注意的是,Hyperion 10 实现了 " 从仿真到实车 " 的闭环:在云端,DGX 超级计算机使用 DRIVE Sim 生成高保真仿真数据,用于训练 DRIVE AV 模型;在车端,Hyperion 10 的传感器数据与 Thor 芯片无缝对接。
因此,如果一家车企想快速推出具备 L4 级能力的车型,不需要再分别组建庞大的硬件集成、软件算法和数据训练团队,采用英伟达的整套方案可以快速实现上车。
同时,英伟达也在构建一个 " 安卓式 " 的 Robotaxi 生态,并对外公布了明确的落地时间表:2027 年起部署 10 万辆 Robotaxi。
目前,英伟达已宣布与 Uber、奔驰、Stellantis、Lucid 等公司合作,共同打造 " 全球最大 L4 级自动驾驶车队 "。截至 2025 年 10 月,英伟达的云端平台已积累超过 500 万小时的真实道路数据。
英伟达的入场,正在将 Robotaxi 的竞争从单一的技术比拼,引向生态模式的对决。
封闭模式除了导致重复的研发投入,更深刻的弊端是形成了 " 数据孤岛 "。Waymo 的美国道路经验难以惠及中国车企,每个玩家都在独立而缓慢地跨越技术曲线。
英伟达的开放生态,有机会在确保数据隐私和安全的前提下,推动生态内玩家共享经过匿名化处理的特征数据。例如,A 车企在特定路口遇到的极端场景数据,可以转化为脱敏后的训练特征,帮助 B 车企的模型更快地识别类似风险。
如果英伟达能够成为自动驾驶领域的 " 安卓 ",将有望带动整个生态的技术迭代速度从线性转变为指数级提升。这不仅是技术共享,更是成本共担。共同应对长尾场景这一行业最大难题的边际成本,将随着生态的扩大而持续降低。
元戎启行 CEO 周光预测,VLA 带来的可能是 " 断层式的领先 ",并成为下一代竞争的关键变量。
DeepWay 深向 CTO 田山告诉笔者,VLA 是目前自动驾驶行业非常火的一项技术,研究者众多,能极好地提高自动驾驶模型的泛化能力及推理能力,英伟达开源 Alpamayo-R1,使得这项很火且很有前途的自动驾驶技术有更多的人可以参与研究并做出贡献,能积极推进 VLA 技术的发展和落地,而这项技术也能应用在具身智能等物理 AI 的场景中。
隐形门槛仍在前方
不过,Alpamayo-R1 目前要满足车规级时延,还需要在 RTX A6000 ProBlackwell 级别的卡上运行——这张卡的 INT8 算力高达 4000T,是 Thor 的 6 倍左右。
英伟达的商业模式决定了,其开源是为了更好地销售其硬件和全栈解决方案。Alpamayo-R1 模型与英伟达的芯片(如 Thor)及开发平台(如 Drive)深度绑定,能实现更高的算力利用率。
这意味着,选择英伟达生态在获得便利的同时,也意味着在核心算力上与其深度绑定。
另外,DeepWay 深向 CTO 田山向笔者指出,VLA 是不是最佳的自动驾驶技术,目前还在实践过程中,而 Alpamayo-R1 模型工具链基于英伟达的平台,对很多开发者来说也是一种限制,所以也有很多其他的技术和其他的计算平台在推进自动驾驶技术发展。
在田山看来,多数公司应该更聚焦技术落地,也就是技术的工程化实现,解决实际场景的问题,早日实现智驾技术的商业化闭环更有益于行业的长久健康发展。
此外,L4 自动驾驶的落地或者说 Robotaxi 的规模化商业化,还与政策与法规息息相关。同时,如何在合规框架内运营、如何通过安全评估、如何在数据利用与隐私保护间取得平衡,这些能力的重要性,并不亚于技术本身。
英伟达的黄仁勋一直将 Robotaxi 视为 " 机器人技术的首个商业化应用 ",英伟达一直要做的不是一辆无人出租车,而是让所有玩家都能做出无人出租车的技术底座。如今,他正试图通过开源 VLA,为这个应用打造一条可以快速复制的生产线。
但最终能否通过开源降低准入门槛,加速推动 L4 自动驾驶到来,让技术的潮水涌向更广阔的商业海岸,英伟达 Alpamayo-R1 模型的开源,只是游戏的开始,后面还有门槛要迈,还需要市场来验证。(文|敏行,作者|张敏,编辑|李程程)


登录后才可以发布评论哦
打开小程序可以发布评论哦