连线Insight 前天
自动驾驶的“iPhone 4”时刻:理想MindVLA到底变革了什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 / 陈锋

编辑 / 子夜

AI 对于理想汽车意味着什么?

几个月前的 "2024 理想 AI Talk" 上,理想汽车董事长兼 CEO 李想的回答是:(在愿景上)意味着未来的全部。

" 电动化是上半场,智能化是下半场,但我认为,这个智能化讲的不是传统的软件智能,而是真正的人工智能,这是造车往下延续的一个必经之路。汽车将从工业时代的交通工具,进化成为人工智能时代的空间机器人。" 李想这么说道。

在当下的新能源汽车市场中,理想也是在 AI 战略上布局更早、投入更坚决的车企之一。

从 2022 年 9 月在内部将发展 AI 定为战略核心,到 2023 年初正式将这一战略对外,再到去年底 "2024 理想 AI Talk" 分享了对人工智能的最新思考和战略成果,理想已经跑出了更快的 AI" 加速度 "。

近期,围绕 AI 战略布局,以及 AI 在智能驾驶上的落地,理想汽车又迎来了一个关键里程碑,发布了理想汽车自动驾驶架构—— MindVLA。

图源理想汽车官方微信公众号

理想汽车自动驾驶技术研发负责人贾鹏表示:" 就像 iPhone 4 重新定义了手机,MindVLA 也将重新定义自动驾驶 "。在理想汽车 2024 年第四季度及全年财报业绩会上,李想表示今年计划将 MindVLA 和首款纯电 SUV 车型理想 i8 同时发布。

MindVLA,

一个司机 Agent 究竟能做什么?

MindVLA 到底是什么?

它是视觉 - 语言 - 行为大模型,是机器人大模型的新范式,非简单的将端到端模型和 VLM 模型结合在一起。它所有的模块都是全新设计的,将空间智能、语言智能和行为智能统一在了同一个模型里。

具体来看,3D 空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组 Action   Token(动作词元),Action Token 指的是对周围环境和自车驾驶行为的编码,并通过 Difusion ( 扩散模型 ) 进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

理想汽车在 VLA 上的率先布局,源于其对自动驾驶以及大模型前沿技术的敏锐洞察,也源于更早、更坚定的 AI 战略。

" 我们认为,基座模型到一定时刻,一定会变成 VLA。" 此前,李想如此表示。在他看来,语言模型也要看三维世界,也要通过语言、认知理解三维世界,同时自动驾驶走向 L4,也要有极强的认知能力。

这意味着,未来在 MindVLA 模型加持下的理想汽车,能更好地感知、思考和适应环境,成为一个能听懂用户说话、看懂用户需求、帮用户解决问题的 " 专职司机 "。具体来说:

一来,用户可以通过语音指令来改变车辆的路线和行为。

比如你正在陌生园区寻找超市,这时你只需要通过理想同学对车辆说 " 带我去超市 ",车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆在行驶的过程中,你还可以跟理想同学说 " 开太快了 "" 应该走左边这条路 ",MindVLA 都能理解并执行这些指令。

二来,基于强大的通识能力,MindVLA 能更好地识别周围环境。

比如 MindVLA 能认识星巴克、肯德基等不同的商店招牌,当你在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有 MindVLA 赋能的车辆能够搜寻照片中的位置,并自动找到你。

第三,基于空间理解和逻辑推理能力,搭载了 MindVLA 的车辆," 找得到 " 的能力也提升了。

搭载 MindVLA 的车型可以自主地在地库、园区和公共道路上漫游。典型的场景是 " 找车位 "。比如用户在商场地库找不到车位时,用户只需要对着车辆说 " 去找个车位停好 ",车辆无需依赖地图或导航信息,并实现自主寻找合适的车位停下。

总结来看,在有了 MindVLA 赋能后,每一辆车其实都不再是单纯的驾驶工具了,而是真正成了能与用户沟通、理解用户意图的智能体。

MindVLA 赋能的车辆,

为何能成为 " 专职司机 "?

MindVLA 能成为一名听得懂、看得见、找得到的专职司机,强大的功能背后在于 MindVLA 六大关键技术赋能。

MindVLA 打破了自动驾驶技术框架设计的传统模式,使用了能够承载丰富语义,且具备出色多粒度、多尺度 3D 几何表达能力的 3D 高斯这一中间表征,能帮系统更高效地感知、理解周围环境,同时充分利用海量数据进行自监督训练,进而极大提升了下游任务性能。

理想从 0 开始设计和训练了适合 MindVLA 的 LLM 基座模型,采用 MoE 混合专家架构,引入 Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。

基座模型训练过程中,理想加入大量 3D 数据,使模型具备 3D 空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

LLM 基座模型获得 3D 空间智能的同时,还需要进一步提升逻辑推理能力。理想训练 LLM 基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。

为了把 NVIDIA Drive AGX 的性能发挥到极致,MindVLA 采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA 实现了模型参数规模与实时推理性能之间的平衡。

MindVLA 利用 Diffusion 将 Action Token 解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时 Diffusion 可以根据外部条件,例如风格指令,动态调整生成结果。为了解决 Diffusion 模型效率低的问题,MindVLA 采用 Ordinary Differential Equation(常微分方程)采样器,实现了 2-3 步就能完成高质量轨迹的生成。

面对部分长尾场景,理想建立起人类偏好数据集,并且创新性地应用 RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使 MindVLA 能够学习和对齐人类驾驶行为,显著提升安全下限。

与此同时,基于理想自研的重建 + 生成云端统一世界模型,MindVLA 深度融合了模型的三维场景还原能力与生成模型的新视角补全,以及未见视角的预测能力,构建了接近真实的仿真环境。

源于理想在世界模型上的技术积累与充足计算资源的支撑,MindVLA 也实现了基于仿真环境的大规模强化学习,即真正意义上的从 " 错误中学习 "。

我们了解到,过去一年里,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作,是将 3D GS 的训练速度提升了 7 倍以上。

理想通过创新性的预训练和后训练方法,让 MindVLA 的泛化能力和涌现特性,都更明显了。其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。

自动驾驶,将被 MindVLA 重新定义?

从 OpenAI 到 DeepSeek,大模型推理能力不断更新与进化下,VLA 将成为车企探索智驾能力上限的新出口。

" 端到端 +VLM 可以解决 L3,比如实现 500 公里到 1000 公里一次接管,让你在车上相对轻松。但仅靠端到端实现不了 L4。" 李想如此说道。

他还提到,自动驾驶实现 L4,必须使用 VLA。

李想的这一判断,正加速成为车企共识—— 2025 年以来,VLA 所呈现出来的强大感知、思考和适应环境的能力,正重新定义自动驾驶,也将成为车企竞逐自动驾驶的新锚点。

"VLA 模型极有可能在未来两年内改写智能驾驶市场的竞争格局。" 最近,中国自动驾驶产业创新联盟调研员高超如此表示。

他提到,预计 2025 年 VLA 模型的量产落地,将推动城区 NOA 渗透率提升。

高盛发布的一则自动驾驶报告也提到,到 2030 年,VLA 模型主导的端到端方案,或将占据 L4 级自动驾驶市场 60% 的份额。

连线 Insight 也注意到,理想汽车之外,元戎启行、小鹏、华为等玩家已经在加速布局。市场上也有声音认为,2025 年将是 "VLA 上车元年 "。

基于上述背景讨论 MindVLA,其不仅是理想在通向 L4 级别自动驾驶路上的一次率先抢跑,也是 AI 推动自动驾驶能力持续上探的一个范本。

从最核心的用户体验来看,MindVLA 加持之下,传统的驾乘关系,正加速迎来新一轮变革。过往的智驾体验中,主驾必须监管、监督车辆行为,但当加持了 MindVLA 的车能够真正 " 看得见 "" 听得懂 "" 找得到 ",叠加车本身的智驾能力不断上探,这带来的是人与车更丝滑的交互体验、更舒适的驾乘生活,乃至更便捷的出行方式。

图源理想汽车官网

某种程度上,这与早些年智能手机领域的 "iPhone 4 时刻 " 有一定相似之处——同样是最大限度变革了人与 " 机器 " 的交互方式和交互体验。

由此,如果说 "iPhone 4" 的推出重新定义了手机行业,那如今 MindVLA 的推出,以及后续陆续上车,实际上已经在 " 重新定义自动驾驶 "。

从更长远视角来看,MindVLA 所呈现出来的对物理世界和数字世界结合范式的探索,也有望赋予更多行业协同发展。

( 本文头图来源于理想汽车官网。)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 ai 李想 人工智能 iphone
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论