李想开炮：大部分车都是「假智能」

" 给我拍张照片吧，要不网上留下的都是我举桌子的。"

2026 年 6 月 15 日，理想技术日，李想站在台上，手里举着一块芯片——理想自研的 AI 芯片马赫 100。

台下笑了。

一年前 MEGA HOME 发布会上举桌板，有人觉得幽默，但也有人觉得滑稽，争议不少。李想很聪明地用自嘲和过去的形象划清界限。

而连同个人过去的标签，一起被李想甩倒身后的，还有 " 智能汽车 " 这四个字。

他说了一句很多人不爱听、也不一定认可的话：

" 今天的智能汽车，其实不智能。"

意思是，理想不再跟友商卷智能汽车了——理想在做在思考的，是具身智能汽车应该长什么样？

物理 AI 怎么在一辆车上真的跑起来？

这不是一次升级。这是一次和主流产业界的割席断交。

是飞升还是飘了？李想给出的技术逻辑和实现路径，藏着答案。

李想的具身智能汽车，啥样的？

李想狂戳行业肺管子：" 今天的智能汽车是假智能 "，他的论点有三个。

安全上，传统智驾遇到复杂、极端场景会直接退出，把方向盘甩给毫无准备的驾驶员——近一半的智驾事故发生在接管瞬间，合规但不安全、不负责任。

能力上，智驾只会向前、向左、向右，不会像人一样倒车腾挪，也不会靠边停车。

效率上，你赶时间或走窄路时宁愿自己开，因为智驾太慢。一个号称 " 智能 " 的东西用起来比人还慢，用户凭什么买单？

基于此，李想定义的具身智能汽车是这样：它是一辆电动车，一位职业司机，一台 AI 计算机，一个生活助手。

四个角色合为一体，指向三大升维——从功能安全到保护人类安全，从调用功能到独立完成任务，从运行缓慢到比人类效率更高。

比如挖掘机爪臂伸出时减速、收起时通过——它看懂了；保安打手势，它识别停和走；激光雷达被遮挡，它自己靠边并请车主帮忙。

再比如一句 " 去新国展充电 "，它自己找有空位的充电站导航过去；窄路会车时自主倒档礼让；泊车时对外喊话 " 麻烦让一下 "；被保安告知不能停，它回 " 那我换个车位 "。

生活助手场景更惊艳：用户丢出一串混乱的接人顺序和生日安排，它自动重排并规划最优路线；从 Party 模式到 " 哄宝宝睡觉 "，它联动音乐、灯光、空调、悬架一键切换；甚至 " 耳机找不到了 "，它直接回答 " 在扶手箱上 "。

这些案例的共同本质：车不再等你 " 调用功能 "，而是一个超级 Agent，理解目标、自主完成。这就是李想所说的 " 独立完成任务，比人类更高效 "。

李想的具身智能技术栈

理想的打法很清晰：从最底层的计算范式开始重构，向上依次是芯片、操作系统、模型、交互，每一层都为物理 AI 原生设计，层与层之间深度耦合而非简单堆叠。

这套体系的核心逻辑可以概括为——用数据流芯片提供算力基座，用 AI 原生操作系统调度确定性延迟，用 VLA 融合模型理解物理世界，用 Agent 完成自主任务。

四层一体，才能让车从 " 功能执行 " 变成 " 目标完成 "。

最底层：芯片的范式革命——数据流架构

一切能力的起点是算力。但理想的判断是：传统芯片架构已经跑不动 AI 了——摩尔定律和登纳德缩放定律双双在失效边缘，但 AI 算力需求在以超指数级增长，这个剪刀差，是行业最深层的矛盾。

底层因素，是传统芯片架构基于冯 · 诺依曼，指令队列顺序执行，大量晶体管消耗在 " 取指、译码、调度、分支预测 " 这些管理开销上，真正用于计算的效率只有 30%-50%。而 AI 计算天然是并行的、数据关系确定的。

理想给出的方案是抛弃指令驱动的范式，改用数据流架构。

马赫 M100 芯片内部由 56 个计算单元和数据处理模块构成，通过网格总线和环形总线互联。没有中央指挥，数据在阵列中自由流动，流到哪里就在哪里触发计算。

单芯片算力达到 1280 TOPS ——量产车的行业第一。数值之外，有数倍性能领先，比如官方给的案例是跑千问 3.5 大模型，甚至比一台 4 万元的桌面 AI 超算还要快 1.5-2.7 倍。

操作系统层：星环 OS —— AI 原生神经系统

理想没有用安卓或 Linux 魔改，而是从零打造了星环 OS，专门为 AI 原生和具身智能设计。它的核心任务只有一个：把感知、决策、执行全链路打通，确保关键任务的延迟是确定的、极短的。

传统车载 OS 是多层软件栈堆叠，传感器数据经过层层传递才能到达决策模块，每个环节都有不可控的抖动。星环 OS 为紧急刹车这类任务开辟了 " 火箭通道 "，从硬件中断到执行器响应，整条链路被统一调度。

配合全栈自研的线控底盘，端到端反应速度做到了 0.28 秒，比人类平均反应快 40%。120 公里时速下，这多出来的 0.17 秒意味着提前 6 米刹停——一台劳斯莱斯幻影的长度，也是生存与毁灭的全部距离。

芯片和 OS 的深度协同，是理想软硬件一体化的第一道关。

模型层：VLA ——让机器真正 " 看懂 " 物理世界

理想的模型体系分为两路，一路处理语言，一路处理物理世界，最终融合成完整的具身大脑。

语言智能负责逻辑推理和任务规划，包括端云双模型：云端的马赫 Mind Pro 是强 Agent 模型，Token 消耗降 38%，推理速度 208 token/s，效率是主流模型的两倍以上。

端侧的马赫 Mind Edge 则 Always-on 运行在车机本地，毫秒响应、数据不上传、能直接调用车辆硬件。

两者配合，让车既能理解 " 先去接老大再去接老四最后给老四过生日 " 这种复杂指令，又能实时回答 " 我的耳机在哪 "。

处理物理世界任务的核心是 3D-ViT（Vision Transformer），将多视角摄像头同步采集的图像切分成固定大小的 Patch（图像块），每个 Patch 被线性投影为一个向量，并加上时序信息（当前帧与前后若干帧）一起输入 Transformer 编码器，通过多头自注意力机制计算所有 Patch 之间的相关性。

然后编码器输出一个统一的 3D 场景表示——可以是体素网格或隐式神经场，每个体素附带语义类别标签。

3D-ViT 的能力，是输出 " 在坐标 ( x,y,z ) 处有一个正在伸臂的挖掘机 " 这样的结构化语义信息，不需要预先为每一种可能出现的物体编写规则。

语言、物理 AI 模型，统一在 MoE（Mixture of Experts，混合专家模型）下，核心思想是将模型拆分成多个 " 专家 " 子网络，每个专家擅长处理某类特定输入。同时有一个 " 门控网络 " 负责判断当前输入应该由哪些专家处理。

使得 MoE 模型能在保持超大参数量（从而具备强大表达能力的）同时，将单次推理的计算量控制在一个较低水平。

本质上是让 " 看见、理解、行动 " 从一开始就在同一个框架里对齐，而非机械地把几个网络串联成 " 端到端 "。

比如 VLA 将 3D-ViT 输出的 3D 语义场景直接输入到 MoE 架构的决策模块，形成端到端的统一模型，覆盖从像素到轨迹的全链路，所有参数联合优化，彻底消除了模块间的信息损耗和目标冲突。

交互与 Agent 层：从 " 调用功能 " 到 " 完成目标 "

第一层是意图理解与任务拆解。当用户输入一段自然语言，语言模型（马赫 Mind 系列）先进行语义解析，将模糊目标转化为结构化的任务树——哪些硬件参数的变化符合用户的需求。

第二层是工具调用与跨域执行。传统车控是扁平的原子指令，Agent 则构建了一个可调用的 " 工具库 "，覆盖娱乐系统、车身控制、空调、底盘、导航、第三方应用等数十个域。

规划模块决定调用哪些工具、以什么顺序调用、如何处理依赖关系，内部还会维护一个短期记忆，记录当前车辆状态和执行进度，以便在长链路任务中支持恢复和纠偏。

第三层是端云协同的推理与响应。Mind Edge 运行在车机本地，负责低延迟、高隐私的场景——如 " 耳机找不到了 " 这类实时问答，数据不传出车外。

马赫 Mind Pro 部署在云端，处理长链路、复杂推理的任务——如包含多个地点和约束条件的路线规划、需要外部知识检索的出行攻略。

Agent 架构的语言智能部分与机器智能（MoE）并非独立运行，而是在决策层深度融合，Agent 的最终决策需要同时满足语言指令的约束和物理世界的实时条件。

总结一下，理想把车打造成具身智能产品方案，技术框架的逻辑非常清晰：

最底层的数据流芯片马赫 100，解决了 " 算得动 " 的问题；

星环 OS 解决了 " 来得快 " 的问题；

3D-ViT 模型解决了 " 看得懂 " 的问题；

Agent 解决了 " 做得到 " 的问题。

四层缺一不可，层层自研、层层打通，统一在 MoE 架构下。

行业第一份物理 AI 答案，理想给出的

2025 年初，李想的一系列 AI Talk 并不被人理解—— " 有点颠，好好造车不行吗？"

一年多后，理想用 Livis Day 第一次给出了系统性、技术性的回应：AI 汽车，不是加个语音助手或升级智驾，而是从芯片架构、模型架构、操作系统到体验的全套重构。

造车这件事本身，除了提供现金流和利润，更本质的是围绕这个汽车这个载体，构建一套从芯片到算法再到 OS，甚至包括用户一侧的 Agent 的物理 AI 全栈技术平台。

因为汽车本身足够普及、足够高频、足够复杂，也是最强的用户入口，背后连接着最广泛的终端触点。

物理 AI 内涵，不是模型对数字世界的脱离、泾渭分明，而是横跨虚拟和现实维度，完成各种物理的、语言的任务。

换句话说，理想比任何自动驾驶玩家都更深一层。

相对绝大数把物理 AI 挂在嘴边，只有使命愿景、市值管理，却没有技术路线落地思考的 L2 玩家，理想领先不知多少个身位。

相对 L4 阵营来看，他们从 Robotaxi 的出租车产品需求出发，的确只需要把驾驶这件事做好，VLA 中的 L（language）是 Over Kill，没必要。

但理想则从具身智能、物理 AI 与真实世界、用户的交互出发，没有单一押注 vision based 或 language based，提出了任务导向、用户导向的综合软硬件技术——

第一次系统性地回答了物理 AI 怎么在车上落地，而物理 AI 的终点，远比自动驾驶要远。

可能被质疑、被模仿、或被证伪，但历史来看，从来没人可以假装理想的思考和实践不存在。

One More thing

不是老有人黑理想用户乱停车吗？

这次李想给了「官方回应」：

李想的 AI 形象坐在桌前，认真地翻阅一本名为《停车的艺术》（The Art of Parking）的书，封面还印着 " 如何正确泊车 "，书页看起来已经被翻了不知道少次。

没人比李想更会玩梗，没人比李想更会自嘲。

— 联系作者 —

— 完 —

【智能车参考】原创内容，未经账号授权，禁止随意转载。

点这里关注我，记得标星，么么哒～

宙世代

一起剪

相关标签