
红星资本局 3 月 20 日消息 日前,理想汽车(02015.HK/LI.US)发布了下一代自动驾驶基础模型 MindVLA-o1。
理想汽车基座模型负责人詹锟在全球 AI" 风向标 " 英伟达 GTC 大会上表示,MindVLA-o1 以原生多模态 MoE Transformer 为核心,通过五大技术—— 3D 空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。
他认为,MindVLA-o1 基础模型正在向具身智能通用模型进化," 当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套 VLA 模型,不仅可以控制车辆,也能够扩展到机器人。因此,自动驾驶只是物理 AI 的起点,未来这类基础模型将驱动新的具身智能范式。"

从人工时代到AI 时代
理想汽车智驾技术跨越分水岭
自 2021 年启动辅助驾驶自研以来,理想汽车的辅助驾驶技术架构经历了多轮迭代。从 BEV 鸟瞰图到 NPN 先验网络,再到无图方案,这一阶段理想汽车的辅助驾驶都是基于规则算法的系统架构。

2024 年,理想汽车完成了从人工时代到 AI 时代的跨越,端到端 +VLM(视觉语言模型)双系统架构是理想首次用 AI 的方式做辅助驾驶,其本质是 " 模仿学习 ",即用人类驾驶数据训练模型、数据数量和质量决定性能。这让它首次真正具备了跨场景、跨任务的统一理解能力。
2025 年,理想汽车进一步将空间理解、语言理解与行动决策统一到同一模型框架,构建了基于 VLA、世界模型与强化学习三大技术栈的 VLA 司机大模型,并于去年 8 月随理想 i8 交付正式推送,并陆续向 AD Max 用户全量推送。
VLA 司机大模型的本质是强化学习,用生成数据结合仿真环境训练模型,仿真迭代的效率决定性能。它让汽车不再只是交通工具,让辅助驾驶不再单纯模仿人类驾驶行为,而是一个能与用户沟通、理解用户意图的智能体,让车辆能够听得懂、看得见、找得到。

为什么提出下一代架构?
VLA 方案存在三大挑战
不过理想汽车发现,行业主流 VLA 方案仍然存在三大挑战。

1、3D 空间、语言思考和行为之间的对齐效率不够理想
在自动驾驶中,模型需要同时完成三件事情:理解 3D 空间环境,进行语义层面的思考与推理,输出具体的驾驶行为轨迹。如果这三个过程在同一个隐空间中对齐不够好,就会出现两类问题:一是语义理解与行为之间的偏差,模型能够理解场景,但最终生成的轨迹并不完全符合预期。二是决策延迟,视觉、语言和行动之间的传递链路过长,导致反应速度下降。
詹锟举了一个例子:当车辆前方出现一辆行驶较慢的车时,系统不仅需要理解这个场景,还需要快速推理:是立即变道,还是继续跟随,以及变道的速度应该如何控制。如果空间理解、语言推理和行动策略之间的对齐效率不够高,最终生成的轨迹就可能不是最优的。
2、长尾场景问题
詹锟表示,在自动驾驶中很多关键问题都来自极少发生的长尾场景,仅仅依靠真实数据的规模扩展很难覆盖这些场景。因此在架构设计之初就必须考虑好强化学习,通过仿真环境进行大规模训练,才能让系统真正具备泛化能力和鲁棒性。
3、计算效率与系统成本
詹锟表示,VLA 模型往往包含大规模的语言能力,这会带来非常高的计算和内存开销。
在车端系统中,如何在有限的计算资源下运行 VLA,是非常现实的问题。理想汽车方面认为,未来的方向必须是软硬协同的架构设计,通过联合优化模型架构、推理系统以及硬件能力,才能让 VLA 真正在车端规模化落地。

新架构五大核心技术
打通智驾和具身智能
为了解决上述三大挑战,理想汽车提出了下一代自动驾驶基础模型 MindVLA-o1。

据介绍,MindVLA-o1 是一个统一了空间理解、思考推理以及驾驶行为的 VLA 模型架构。它在上一代 MindVLA 的基础上进一步演进,围绕 " 原生多模态 " 的设计理念构建。
所谓 " 原生多模态 ",是指在模型设计之初,就将视觉、语言和行动三种模态进行统一考虑,而非先分别训练视觉模型、语言模型和轨迹模型,再在后期进行组合。这种设计使不同模态能够在同一个表示空间中共同训练与对齐,从而获得更高的效率和更好的泛化能力。
MindVLA-o1 通过采用原生多模态的 MoE Transformer 架构、原生 3D 空间视觉编码、多模态推理能力、预测式隐世界模型、软硬件协同设计与强化学习闭环,推动辅助驾驶在感知、思考、行为、迭代和模型部署方面的全方位升级。
对理想汽车而言,MindVLA-o1 不仅是自动驾驶模型,它正在向具身智能通用模型进化,是理想汽车面向物理世界智能核心 AI 框架的重要组成部分。
理想汽车董事长、CEO 李想表示,"MindVLA-o1 具备 3D ViT+ 多模态思考能力,让车真正具备理解 3D 空间的能力。同一套 VLA 模型,既可以控制车辆,也可以控制机器人,自动驾驶只是物理 AI 的起点。长远看,物理世界 AI 的终局是构建一个‘硅基人’,让系统像人类一样具备完整的感知和行动能力。"


理想汽车All in AI
要做全球前三
理想汽车正向具身智能企业战略转型,以具身智能企业的运作方式重构研发组织,全面运用 AI 提效,目标成为全球领先的具身智能企业。
在李想看来,汽车是物理世界人工智能最大的应用,机器人是汽车的终极形态。他强调,提出 "All in AI" 是为了更好造车。
理想汽车在 AI 领域的投入堪称激进,2025 年一半的研发投入都花在了 AI 上,今年仍计划维持这个占比。在 2025 全年财报业绩会上,李想表示,汽车和 AI 并不是独立的关系,公司研发投入的核心是构建 AI 能力,使之结合进现有的业务模式中。
感知操作系统、星环 OS、大模型 MindGPT 和 VLA 司机大模型等技术已陆续量产上车,具备了眼睛、大脑、心脏、神经、手脚的完整技术栈。即将于今年二季度发布的全新一代理想 L9,被李想称为 " 具身智能旗舰 SUV",将把 " 车即智能体 " 的理念进一步落地。
对于 AI 时代,李想的紧迫感十足。他此前表示,"2026 年是所有想要成为 AI 头部公司上车的最后一年。" 他认为,同时布局基座模型、芯片、具身智能、操作系统等业务的公司,最终全球不会超过 3 家,理想汽车会努力成为其中一家。
在他看来,"AI 本质上是一种杠杆,个人能力越强、过往专业积累越深,这个杠杆带来的放大效应就越大。理想汽车思考的重点并不是如何用 AI 替代人,而是如何用 AI 赋能人,让每个人都能把这根‘杠杆’用起来,将每个人的能力通过 AI 进一步放大。"
红星新闻记者 吴丹若


登录后才可以发布评论哦
打开小程序可以发布评论哦