李想：智能汽车还不够智能！马赫VLA年底比肩特斯拉FSD V14

作者｜ Janson

编辑｜志豪

理想淘汰老模型，智舱、智驾纷纷亮出 AI 具身智能新解法。

智东西 6 月 15 日消息，就在刚刚的理想汽车软件与具身智能发布会上，理想汽车把自己压箱底的 AI 底牌都掏出来了。

理想还把这套能力体系具象化成了一个 " 机器人 " 形象，将 Livis 打造成一套从感知、计算、决策到执行全部打通的具身智能系统。

具体来看马赫 VLA 大模型是具身智能的大脑，3D ViT 感知模型是眼睛，马赫 M100 芯片是心脏，星环 OS 是神经系统，全线控底盘则是手脚。

单芯片 1280TOPS 的马赫 M100 Ultra、对标特斯拉 FSD V14 的马赫 VLA，以及李想提出的 " 安全和效率要超越人类 "，构成了这场活动最有话题度的几个关键词。

▲李想在发布会现场

理想汽车创始人、CEO 李想认为，过去行业通常把智能汽车定义为软件定义硬件、联网在线、可持续升级，但这些本质上仍是规则驱动，并不等于真正智能。

真正的具身智能汽车，要从功能安全进化到保护人类安全，从调用功能进化到独立完成任务，从行动缓慢进化到效率高于人类。

在这场活动上，理想汽车围绕座舱、语言智能、机器智能、自研芯片和产品体验，给出了其对 " 具身智能汽车 " 的完整解释。

一、公开王炸自研芯片细节单颗算力 1280TOPS

本次发布会中，最硬核的产品当属单颗算力 1280TOPS 的理想自研芯片马赫 M100 Ultra 了。

▲李想手持马赫 M100 Ultra

理想汽车 CTO 谢炎把马赫 M100 Ultra 放在了整个计算机架构变迁中解释。

过去通用计算时代有两大红利：摩尔定律带来的晶体管密度提升，以及登纳德缩放定律带来的功耗控制和主频提升。

▲通用计算时代两大红利

但 2004 年前后，芯片制程进入 65nm 后，漏电问题开始显著出现，登纳德缩放定律失效。

2010 年后，摩尔定律也开始放缓，每一代制程带来的性能提升不再轻松翻倍。

与此同时，AI 推理算力需求快速增长。传统冯 · 诺依曼架构以顺序指令驱动计算，虽然适合通用计算，但会用大量晶体管处理缓存、调度、分支预测等管理开销。

▲ AI 时代的计算变迁

在 AI 计算任务中，传统架构的效率瓶颈会被进一步放大。

对此，理想的答案是数据流架构。

谢炎说，AI 计算天然是并行的，数据是张量，关系是确定的，流动路径是清晰的。

▲马赫芯片数据流架构

它更像一张数据依赖图，而不是一条指令队列。因此，马赫 M100 不再让中央指令队列主导计算，而是让数据流动驱动计算发生。

▲马赫 M100 Ultra 主要参数

硬件参数上，马赫 M100 Ultra 采用 5nm 车规级工艺，单芯片算力 1280TOPS。更关键的是，因为数据流架构设计，马赫 M100 的实际算力利用率超过 82%。

▲马赫 M100 芯片架构

芯片内部，理想将超过一半晶圆面积给到神经网络处理器。

芯片 NPU 部分由 56 个计算单元和 1 个数据处理模块构成，采用 " 网格总线 + 数据环形总线 " 的双互联架构。

网格总线提供高带宽点对点通路，数据环形总线提供确定性的广播通路，使数据在阵列中流动到哪里，就在哪里触发计算。

CPU 部分，马赫 M100 Ultra 采用 24 核心 Arm Cortex-A78AE，主频 2.3GHz，负责安全系统控制等任务。

内存系统则采用 8 路 LPDDR5X 子系统，片外内存带宽达到 273GB/s，为大模型和多模态推理提供高速数据通道。

▲马赫 M100 对比 Thor-U

在性能对比中，理想将马赫 M100 与智驾领域主流芯片 Thor-U 进行对标，测试项目包括 CNN-Based 骨干网络、UniAD 以及理想 MindVLA 核心模型，马赫 M100 在相关测试中表现出彩。

与此同时，马赫 M100 也不是单一辅助驾驶芯片，它已经跑通车上所有智能化场景，包括语言大模型、Agent、多模态感知和具身智能任务。

▲马赫 M100 可以适用于更多 AI 场景

此外，安全是理想自研芯片的另一个重点。

车端芯片被攻击，威胁的不只是隐私，而可能是生命安全。

因此，理想把密钥保护、设备身份、可信启动链和关键权限管控前置到芯片设计中，再通过全栈自研软件统一调度，让芯片、编译器、操作系统、AI 算法和域控制器在同一套可信基础上协同运行。

▲理想的全链路防御体系

随着马赫 M100 量产部署，理想称其已经实现芯片、编译器、操作系统、AI 算法和域控制器的全栈自研。

换句话说，理想已经把智能汽车最核心的硬件、软件和运行逻辑都握在自己手里，从而得到了全链路的安全控制。

二、重构自动驾驶模型 " 感知、预测、规划 " 走向统一模型

有了优秀的硬件，软件架构也需要同步优化。

在理想的技术框架里，具身智能的大脑由两部分组成：语言智能和机器智能。

▲理想汽车解读具身智能大脑

语言智能负责理解指令、逻辑推理和任务规划；机器智能负责看懂物理世界，并把决策转化为动作。

机器智能部分，理想汽车基座模型负责人詹锟提到，自己在美国连续深度体验两周特斯拉 FSD V14.3 后压力很大。

随后，詹锟直接宣布了一个相当激进的目标——计划在第四季度对齐特斯拉 FSD V14 能力。

针对模型能力，理想汽车发布了全新的马赫 VLA 大模型，并从多个角度进行了解读。

▲马赫 VLA

首先是安全方面，截至 6 月 14 日，理想辅助驾驶系统累计规避安全风险 17273307 次，其中重大避险 55671 次。

理想把过去几年的安全演进梳理为一条时间线。

▲理想汽车安全演进时间线

2022 年，激光雷达首次落地主动安全体系；2023 年，AEB 完成全速度段覆盖；2024 年，行业首发 AES，同时实现 360 度低速全方位防御；2025 年，AES 进一步升级，支持多车连续避让和防御躲避被撞；2026 年，新增悬空障碍物识别，夜间极速刹停上限提升至 130km/h。

效率层面，新一代马赫 VLA 系统反应耗时为 0.28 秒，快于普通人 0.45 秒的平均反应时间。

在 120km/h 车速下，这 0.17 秒差距相当于多出约 6 米有效安全距离。

▲马赫 VLA 响应速度

这一反应速度背后，是从光子到车轮的全链路优化。

通过新一代马赫 VLA 架构，系统视觉输入时延降低 47%，模型推理时延降低 43%，底盘响应降低 38%，操作系统调度降低 28%，整体端到端时延降低 40%。

▲马赫 VLA 减少全链路时延

这也解释了理想为什么反复强调 " 芯片快 + 软件快 + 底盘快 "，而不是只讲单个模型能力。

能力层面，马赫 VLA 的核心变化是架构统一。

传统辅助驾驶系统中，感知、预测、规划往往分别工作，容易出现 " 看见了但决策不对 "" 识别没问题但规划离谱 " 的情况。

▲马赫 VLA 采用一个统一框架

理想这次将其升级为原生多模态 MoE 模型，让看见、理解、思考和行动在同一个框架内对齐。

算力和训练规模也同步放大。

双马赫 M100 让车端算力达到 2560TOPS；模仿学习数据规模提升 50%；强化学习数据量提升 15 倍，强化学习训练算力提升 5 倍；模型参数量提升 10 倍，每秒 Token 计算量提升 15 倍。

▲马赫 VLA 能力提升

在视觉能力上，理想对行业追逐高线数激光雷达的趋势提出了不同看法。

一定程度上，激光雷达线数再高，也无法识别红绿灯颜色、读懂施工路牌文字，或理解穿黄马甲保安的手势。

▲理想的 3D ViT 能力

理想的 3D ViT 能力则试图快速重建三维世界，使系统从 " 看见障碍物 " 进化到 " 理解场景 "。

按照规划，理想将在第三季度为 AD Max 推送全新马赫 VLA，并在第四季度对齐特斯拉 FSD V14 能力。

▲四季度将对齐特斯拉 FSD V14

三、语言智能淘汰老模型针对云、端分别发布新模型

语言智能方面，理想淘汰了此前模型，发布马赫 Mind-Pro 和马赫 Mind-Edge。

马赫 Mind-Pro 面向云端 Agent 能力，覆盖车辆控制、智慧出行、办公、问答、娱乐等车载场景。

▲马赫 Mind-Pro 跑分

马赫 Mind-Pro 在 IFEval 指令跟随、LongBench-v2 超长文本理解、AIME26 高阶数学推理、BFCL-v4 工具调用等基准测试中进入行业第一梯队。

在 Agent 专项领域，Claw 系列榜单等实景测试中，综合性能超过多数主流 Agent 模型。

相比跑分，更值得关注的是效率指标。

理想称，马赫 Mind-Pro 通过 Token 压缩技术，在任务完成率不下降的前提下，整体 Token 平均消耗降低 38%，工具调用冗余轮次降低 47%，模型 TPS 峰值达到 208token/s。

▲马赫 Mind-4-Pro 对比某模型的优势

对于车载 Agent 来说，这些数字意味着同样一个任务可以用更少 Token、更少调用轮次和更低时延完成，而不只是跑分好看。

训练体系上，理想为马赫 Mind-Pro 搭建了数百套真实业务沙箱环境，高精度模拟工具调用流程，并采用混合强化学习训练体系，包括关键单步强化学习、场内多步强化学习和在线环境强化学习。

这套训练体系主要解决了复杂场景决策不准，以及模型落地到真实车载业务时适配性差的问题。

马赫 Mind-Edge 则是端侧原生智能体模型，它不是云端大模型的裁剪版，而是从底层面向车载场景设计。

▲马赫 Mind-Edge

马赫 Mind-Edge 采用多模态流式时序建模，可以连续理解车内动态物理世界，并具备因果推理和自主决策能力。

车辆的全天候主动感知、人车交互、自主控车、多模态问答都可以在车端本地完成，数据不上传。

四、解构新一代座舱首发骁龙座舱 8797 Elite

软硬件能力可以说是汽车的基座，最终还需要通过座舱来展现。

理想汽车新一代座舱的核心是全景宽幅屏。

理想方面称，团队曾尝试过 16:9、中等宽幅和更高比例的屏幕方案，但 16:9 显得局促，更高的屏幕又会侵占驾驶视线，最终形成了现在的全景宽幅布局。

主驾区域显示宽度达到上一代双连屏的约 1.5 倍，地图、车速、续航、车辆控制和媒体控制都被放在更靠近驾驶员的位置；进入泊车场景时，环境感知画面会自动放大，其他应用则自适应缩小。

硬件上，理想 SS HW 4.0 座舱架构首发搭载骁龙座舱 8797 Elite。

▲理想 SS HW 4.0 平台

新一代座舱硬件性能已经从追平手机进入到超越主流手机的阶段，支持行业首个全景屏 90Hz 高刷新率，并配合 180Hz 触控采样率和自研底层系统，实现更快的触控响应。

软件体验层面，理想重构了图标、页面动效、控件回弹、实时动态高斯模糊和光影反馈。副驾娱乐场景下，屏幕可以一键进入主副驾 1:1 分屏。

停车观影时，汽车主驾内容会收起，视频内容沉浸式铺开，显示宽度相比此前双屏提升约 1.7 倍。

此外，影音仍是理想座舱的重要入口。

▲理想 L9 Livis 配备 9.6.3 环绕全景声音响系统

理想披露，车主在 78% 的旅程中都会使用媒体功能。新一代 L9 Livis 配备 9.3.6 环绕全景声音响系统，并通过前后排独立声区、头枕音响和空间音频算法，强化多座位的沉浸体验。

▲理想汽车将支持 CarPlay

同时，理想还将对 CarPlay 提供支持，并与 HUD、方向盘控制联动。Apple Music 将结合车内全景声系统，提供更完整的空间音频体验。

五、李想现场研判：智能汽车不能只停留在 " 功能驱动 "

李想在发布会上提出了一个判断：今天的智能手机和智能汽车，其实都还不是真正智能。它们虽然能够联网、升级，也可以由软件定义硬件。

但这套系统本质上仍然是功能驱动系统，不是一个能理解目标、判断环境并独立行动的智能体。

▲李想称目前的智能汽车并不智能

他把智能汽车的进化拆成三个维度：安全、能力和效率。

在安全上，传统智能汽车通常满足的是功能安全。系统遇到复杂、极端或未见过的场景时，可以选择退出并把控制权交还给驾驶员。

但在真实道路中，危险恰恰可能发生在接管瞬间。李想认为，具身智能汽车的安全逻辑不能只是 " 系统免责 "，而应当以保护人为核心。

▲李想解读具身智能汽车三要素

在能力上，传统智能汽车更多是在调用功能，或在特定条件下执行辅助驾驶。

但具身智能需要独立完成任务，能够像人一样理解场景，例如自主倒车、靠边停车、识别保安手势、理解施工绕行、完成接人和停车等连续任务。

在效率上，李想指出，用户在赶时间、进入胡同、通过窄路或面对复杂道路时，经常会选择自己开，而不是使用辅助驾驶。

这样的原因也很直接，现有系统的效率和反应速度还不够高。理想给具身智能汽车设定的目标，是比人更安全、比人更能完成任务，也比人更高效。

在产品定义上，李想给出了一个相对清晰的答案。

▲具身智能产品本质

具身智能汽车不是某个单点功能，而是一辆电动车、一位职业司机、一台 AI 计算机和一个生活助手的融合。

电动车提供身体和移动能力，职业司机负责可靠完成出行任务，AI 计算机提供模型和算力，生活助手则理解用户需求并调度服务。

现场演示中，理想不仅通过长指令展示了车辆控制能力，还展示了复杂任务规划能力。

第一个复杂任务是接机和洗尘宴安排。

▲车机安排复杂场景

用户告诉理想同学：朋友乘坐 CA1314 航班来北京，且是素食主义者，需要先接机，再去望京找餐厅吃洗尘宴。

这就意味着系统需要理解航班号、判断到达机场和时间，再结合饮食偏好寻找餐厅并规划路线。

现场演示中，理想同学给出了精准的规划。

第二个任务是燕京八景路线规划。用户要求先去金台夕照，最后去居庸叠翠。

▲车机安排燕京八景游览

系统不仅搜索各景点位置，还根据开放状态和时间限制进行筛选，最终没有机械地把八个点全部塞进路线，而是生成了现实中更可执行的游览方案。

第三个任务更接近日常家庭场景：用户需要按照指定顺序接上分散在蓝色港湾、望京、中关村、马泉营等地的家人，最后去三里屯给孩子过生日。

▲车机进行复杂任务安排

这个任务难点在于人物介绍顺序和实际接人顺序并不一致，系统需要记住每个人的位置、身份和接送顺序，并最终生成多点导航路线。

现场演示中，系统成功输出了一条约 86.5 公里的路线。

▲车机最终输出的路线

更有 " 具身智能 " 特征的是车内场景控制。

面对 " 哄二排孩子睡觉 " 的场景，理想同学不只是播放摇篮曲，而是同时降低音量、调节空调、改变灯光，并调用主动悬架，让车辆呈现类似摇篮的律动。

▲全主动悬架化身摇篮

此外，理想还展示了车辆在雷达被遮挡时自主靠边停车并提示用户处理；自动前往理想自动充电站充电，并在充电完成后挪出车位。

面对高难度停车位时通过 VLA 寻找更高效的代泊方案；在园区停车时，车辆还能与停车管理人员交流，理解指引后前往合适车位。

六、新功能计划三次 OTA 7 月、9 月、12 月逐步释放能力

发布会最后，李想预告了今年三个关键 OTA 节点。

▲今年三个关键 OTA 节点

7 月 OTA 的主题是效率提升。

此次更新，辅助驾驶效率将整体提升 30%，并覆盖限宽墩、限高杆等场景。

现场展示的出行导游 Agent 技能上线，车友对讲机功能上线，两天一度电的哨兵模式上线。

此外，还将上线利用主动悬架硬件能力实现的便捷换胎功能。

▲ 7 月 OTA 功能

9 月 OTA 将重点补齐更像人类司机的能力，包括窄路倒车、会车倒车让行、复杂路面通过，以及智能地锁和车库门控制。

Agent 也将进一步连接电脑和手机，调用办公、社交软件信息，CarPlay 和 Apple Music 无损音质也会在这一阶段推出。

▲ 9 月 OTA 功能

12 月 OTA 则是理想最有野心的一步：让 Livis 的安全和效率超越人类。

按照发布会说法，系统将在用户误触方向盘导致辅助驾驶退出时继续保护安全。

当用户紧急打方向但角度不足以避险时，Livis 会主动介入，寻找更安全的轨迹。

面对交警疏导交通，系统也可以理解指挥并有序通行。

此外，理想汽车还将继续释放马赫 M100 潜力，将最快反应速度提升到 0.2 秒，比普通人快 56%。

结语：理想全面布局具身智能

这场发布会的重点，不只是理想做了一块更大的屏幕、一套更强的辅助驾驶系统，或一颗更高算力的芯片。

可以说，理想试图把座舱、模型、芯片、操作系统、辅助驾驶、车内交互和生活服务，统一到 " 具身智能汽车 " 这个故事里。

不难看出，理想已经不满足于继续讲 " 移动的家 " 这个故事。

它希望汽车从一个可升级的交通工具，变成一个能够理解环境、理解人、并主动完成任务的智能体。

用李想的话说，过去十年理想创造了一个移动的家，接下来要给车和家赋予生命。

宙世代

一起剪

相关标签