自动驾驶的“iPhone 4”时刻：理想MindVLA到底变革了什么？

文 / 陈锋

编辑 / 子夜

AI 对于理想汽车意味着什么？

几个月前的 "2024 理想 AI Talk" 上，理想汽车董事长兼 CEO 李想的回答是：（在愿景上）意味着未来的全部。

" 电动化是上半场，智能化是下半场，但我认为，这个智能化讲的不是传统的软件智能，而是真正的人工智能，这是造车往下延续的一个必经之路。汽车将从工业时代的交通工具，进化成为人工智能时代的空间机器人。" 李想这么说道。

在当下的新能源汽车市场中，理想也是在 AI 战略上布局更早、投入更坚决的车企之一。

从 2022 年 9 月在内部将发展 AI 定为战略核心，到 2023 年初正式将这一战略对外，再到去年底 "2024 理想 AI Talk" 分享了对人工智能的最新思考和战略成果，理想已经跑出了更快的 AI" 加速度 "。

近期，围绕 AI 战略布局，以及 AI 在智能驾驶上的落地，理想汽车又迎来了一个关键里程碑，发布了理想汽车自动驾驶架构—— MindVLA。

图源理想汽车官方微信公众号

理想汽车自动驾驶技术研发负责人贾鹏表示：" 就像 iPhone 4 重新定义了手机，MindVLA 也将重新定义自动驾驶 "。在理想汽车 2024 年第四季度及全年财报业绩会上，李想表示今年计划将 MindVLA 和首款纯电 SUV 车型理想 i8 同时发布。

MindVLA，

一个司机 Agent 究竟能做什么？

MindVLA 到底是什么？

它是视觉 - 语言 - 行为大模型，是机器人大模型的新范式，非简单的将端到端模型和 VLM 模型结合在一起。它所有的模块都是全新设计的，将空间智能、语言智能和行为智能统一在了同一个模型里。

具体来看，3D 空间编码器通过语言模型，和逻辑推理结合在一起后，给出合理的驾驶决策，并输出一组 Action Token（动作词元），Action Token 指的是对周围环境和自车驾驶行为的编码，并通过 Difusion ( 扩散模型 ) 进一步优化出最佳的驾驶轨迹，整个推理过程都要发生在车端，并且要做到实时运行。

理想汽车在 VLA 上的率先布局，源于其对自动驾驶以及大模型前沿技术的敏锐洞察，也源于更早、更坚定的 AI 战略。

" 我们认为，基座模型到一定时刻，一定会变成 VLA。" 此前，李想如此表示。在他看来，语言模型也要看三维世界，也要通过语言、认知理解三维世界，同时自动驾驶走向 L4，也要有极强的认知能力。

这意味着，未来在 MindVLA 模型加持下的理想汽车，能更好地感知、思考和适应环境，成为一个能听懂用户说话、看懂用户需求、帮用户解决问题的 " 专职司机 "。具体来说：

一来，用户可以通过语音指令来改变车辆的路线和行为。

比如你正在陌生园区寻找超市，这时你只需要通过理想同学对车辆说 " 带我去超市 "，车辆将在没有导航信息的情况下，自主漫游找到目的地；车辆在行驶的过程中，你还可以跟理想同学说 " 开太快了 "" 应该走左边这条路 "，MindVLA 都能理解并执行这些指令。

二来，基于强大的通识能力，MindVLA 能更好地识别周围环境。

比如 MindVLA 能认识星巴克、肯德基等不同的商店招牌，当你在陌生地点找不到车辆时，可以拍一张附近环境的照片发送给车辆，拥有 MindVLA 赋能的车辆能够搜寻照片中的位置，并自动找到你。

第三，基于空间理解和逻辑推理能力，搭载了 MindVLA 的车辆，" 找得到 " 的能力也提升了。

搭载 MindVLA 的车型可以自主地在地库、园区和公共道路上漫游。典型的场景是 " 找车位 "。比如用户在商场地库找不到车位时，用户只需要对着车辆说 " 去找个车位停好 "，车辆无需依赖地图或导航信息，并实现自主寻找合适的车位停下。

总结来看，在有了 MindVLA 赋能后，每一辆车其实都不再是单纯的驾驶工具了，而是真正成了能与用户沟通、理解用户意图的智能体。

MindVLA 赋能的车辆，

为何能成为 " 专职司机 "？

MindVLA 能成为一名听得懂、看得见、找得到的专职司机，强大的功能背后在于 MindVLA 六大关键技术赋能。

MindVLA 打破了自动驾驶技术框架设计的传统模式，使用了能够承载丰富语义，且具备出色多粒度、多尺度 3D 几何表达能力的 3D 高斯这一中间表征，能帮系统更高效地感知、理解周围环境，同时充分利用海量数据进行自监督训练，进而极大提升了下游任务性能。

理想从 0 开始设计和训练了适合 MindVLA 的 LLM 基座模型，采用 MoE 混合专家架构，引入 Sparse Attention（稀疏注意力），实现模型稀疏化，保证模型规模增长的同时，不降低端侧的推理效率。

基座模型训练过程中，理想加入大量 3D 数据，使模型具备 3D 空间理解和推理能力。为了进一步激发模型的空间智能，理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM 基座模型获得 3D 空间智能的同时，还需要进一步提升逻辑推理能力。理想训练 LLM 基座模型学习人类的思考过程，让快慢思考有机结合到同一模型中，并可以实现自主切换快思考和慢思考。

为了把 NVIDIA Drive AGX 的性能发挥到极致，MindVLA 采取小词表结合投机推理，以及创新性地应用并行解码技术，进一步提升了实时推理的速度。至此，MindVLA 实现了模型参数规模与实时推理性能之间的平衡。

MindVLA 利用 Diffusion 将 Action Token 解码成优化的轨迹，并通过自车行为生成和他车轨迹预测的联合建模，提升在复杂交通环境中的博弈能力。同时 Diffusion 可以根据外部条件，例如风格指令，动态调整生成结果。为了解决 Diffusion 模型效率低的问题，MindVLA 采用 Ordinary Differential Equation（常微分方程）采样器，实现了 2-3 步就能完成高质量轨迹的生成。

面对部分长尾场景，理想建立起人类偏好数据集，并且创新性地应用 RLHF（基于人类反馈的强化学习）微调模型的采样过程，最终使 MindVLA 能够学习和对齐人类驾驶行为，显著提升安全下限。

与此同时，基于理想自研的重建 + 生成云端统一世界模型，MindVLA 深度融合了模型的三维场景还原能力与生成模型的新视角补全，以及未见视角的预测能力，构建了接近真实的仿真环境。

源于理想在世界模型上的技术积累与充足计算资源的支撑，MindVLA 也实现了基于仿真环境的大规模强化学习，即真正意义上的从 " 错误中学习 "。

我们了解到，过去一年里，理想自动驾驶团队完成了世界模型大量的工程优化，显著提升了场景重建与生成的质量和效率，其中一项工作，是将 3D GS 的训练速度提升了 7 倍以上。

理想通过创新性的预训练和后训练方法，让 MindVLA 的泛化能力和涌现特性，都更明显了。其不仅在驾驶场景下表现优异，在室内环境也展示出了一定的适应性和延展性。

自动驾驶，将被 MindVLA 重新定义？

从 OpenAI 到 DeepSeek，大模型推理能力不断更新与进化下，VLA 将成为车企探索智驾能力上限的新出口。

" 端到端 +VLM 可以解决 L3，比如实现 500 公里到 1000 公里一次接管，让你在车上相对轻松。但仅靠端到端实现不了 L4。" 李想如此说道。

他还提到，自动驾驶实现 L4，必须使用 VLA。

李想的这一判断，正加速成为车企共识—— 2025 年以来，VLA 所呈现出来的强大感知、思考和适应环境的能力，正重新定义自动驾驶，也将成为车企竞逐自动驾驶的新锚点。

"VLA 模型极有可能在未来两年内改写智能驾驶市场的竞争格局。" 最近，中国自动驾驶产业创新联盟调研员高超如此表示。

他提到，预计 2025 年 VLA 模型的量产落地，将推动城区 NOA 渗透率提升。

高盛发布的一则自动驾驶报告也提到，到 2030 年，VLA 模型主导的端到端方案，或将占据 L4 级自动驾驶市场 60% 的份额。

连线 Insight 也注意到，理想汽车之外，元戎启行、小鹏、华为等玩家已经在加速布局。市场上也有声音认为，2025 年将是 "VLA 上车元年 "。

基于上述背景讨论 MindVLA，其不仅是理想在通向 L4 级别自动驾驶路上的一次率先抢跑，也是 AI 推动自动驾驶能力持续上探的一个范本。

从最核心的用户体验来看，MindVLA 加持之下，传统的驾乘关系，正加速迎来新一轮变革。过往的智驾体验中，主驾必须监管、监督车辆行为，但当加持了 MindVLA 的车能够真正 " 看得见 "" 听得懂 "" 找得到 "，叠加车本身的智驾能力不断上探，这带来的是人与车更丝滑的交互体验、更舒适的驾乘生活，乃至更便捷的出行方式。

图源理想汽车官网

某种程度上，这与早些年智能手机领域的 "iPhone 4 时刻 " 有一定相似之处——同样是最大限度变革了人与 " 机器 " 的交互方式和交互体验。

由此，如果说 "iPhone 4" 的推出重新定义了手机行业，那如今 MindVLA 的推出，以及后续陆续上车，实际上已经在 " 重新定义自动驾驶 "。

从更长远视角来看，MindVLA 所呈现出来的对物理世界和数字世界结合范式的探索，也有望赋予更多行业协同发展。

( 本文头图来源于理想汽车官网。）

宙世代

一起剪

相关标签