智能车参考 21小时前
李想开炮:大部分车都是「假智能」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 给我拍张照片吧,要不网上留下的都是我举桌子的。"

2026 年 6 月 15 日,理想技术日,李想站在台上,手里举着一块芯片——理想自研的 AI 芯片马赫 100

台下笑了。

一年前 MEGA HOME 发布会上举桌板,有人觉得幽默,但也有人觉得滑稽,争议不少。李想很聪明地用自嘲和过去的形象划清界限。

而连同个人过去的标签,一起被李想甩倒身后的,还有 " 智能汽车 " 这四个字。

他说了一句很多人不爱听、也不一定认可的话:

" 今天的智能汽车,其实不智能。"

意思是,理想不再跟友商卷智能汽车了——理想在做在思考的,是具身智能汽车应该长什么样?

物理 AI 怎么在一辆车上真的跑起来?

这不是一次升级。这是一次和主流产业界的割席断交。

是飞升还是飘了?李想给出的技术逻辑和实现路径,藏着答案。

李想的具身智能汽车,啥样的?

李想狂戳行业肺管子:" 今天的智能汽车是假智能 ",他的论点有三个。

安全上,传统智驾遇到复杂、极端场景会直接退出,把方向盘甩给毫无准备的驾驶员——近一半的智驾事故发生在接管瞬间,合规但不安全、不负责任。

能力上,智驾只会向前、向左、向右,不会像人一样倒车腾挪,也不会靠边停车。

效率上,你赶时间或走窄路时宁愿自己开,因为智驾太慢。一个号称 " 智能 " 的东西用起来比人还慢,用户凭什么买单?

基于此,李想定义的具身智能汽车是这样:它是一辆电动车,一位职业司机,一台 AI 计算机,一个生活助手。

四个角色合为一体,指向三大升维——从功能安全到保护人类安全,从调用功能到独立完成任务,从运行缓慢到比人类效率更高。

比如挖掘机爪臂伸出时减速、收起时通过——它看懂了;保安打手势,它识别停和走;激光雷达被遮挡,它自己靠边并请车主帮忙。

再比如一句 " 去新国展充电 ",它自己找有空位的充电站导航过去;窄路会车时自主倒档礼让;泊车时对外喊话 " 麻烦让一下 ";被保安告知不能停,它回 " 那我换个车位 "。

生活助手场景更惊艳:用户丢出一串混乱的接人顺序和生日安排,它自动重排并规划最优路线;从 Party 模式到 " 哄宝宝睡觉 ",它联动音乐、灯光、空调、悬架一键切换;甚至 " 耳机找不到了 ",它直接回答 " 在扶手箱上 "。

这些案例的共同本质:车不再等你 " 调用功能 ",而是一个超级 Agent,理解目标、自主完成。这就是李想所说的 " 独立完成任务,比人类更高效 "

李想的具身智能技术栈

理想的打法很清晰:从最底层的计算范式开始重构,向上依次是芯片、操作系统、模型、交互,每一层都为物理 AI 原生设计,层与层之间深度耦合而非简单堆叠。

这套体系的核心逻辑可以概括为——用数据流芯片提供算力基座,用 AI 原生操作系统调度确定性延迟,用 VLA 融合模型理解物理世界,用 Agent 完成自主任务

四层一体,才能让车从 " 功能执行 " 变成 " 目标完成 "。

最底层:芯片的范式革命——数据流架构

一切能力的起点是算力。但理想的判断是:传统芯片架构已经跑不动 AI 了——摩尔定律和登纳德缩放定律双双在失效边缘,但 AI 算力需求在以超指数级增长,这个剪刀差,是行业最深层的矛盾。

底层因素,是传统芯片架构基于冯 · 诺依曼,指令队列顺序执行,大量晶体管消耗在 " 取指、译码、调度、分支预测 " 这些管理开销上,真正用于计算的效率只有 30%-50%。而 AI 计算天然是并行的、数据关系确定的。

理想给出的方案是抛弃指令驱动的范式,改用数据流架构

马赫 M100 芯片内部由 56 个计算单元和数据处理模块构成,通过网格总线和环形总线互联。没有中央指挥,数据在阵列中自由流动,流到哪里就在哪里触发计算

单芯片算力达到 1280 TOPS ——量产车的行业第一。数值之外,有数倍性能领先,比如官方给的案例是跑千问 3.5 大模型,甚至比一台 4 万元的桌面 AI 超算还要快 1.5-2.7 倍。

操作系统层:星环 OS —— AI 原生神经系统

理想没有用安卓或 Linux 魔改,而是从零打造了星环 OS,专门为 AI 原生和具身智能设计。它的核心任务只有一个:把感知、决策、执行全链路打通,确保关键任务的延迟是确定的、极短的。

传统车载 OS 是多层软件栈堆叠,传感器数据经过层层传递才能到达决策模块,每个环节都有不可控的抖动。星环 OS 为紧急刹车这类任务开辟了 " 火箭通道 ",从硬件中断到执行器响应,整条链路被统一调度。

配合全栈自研的线控底盘,端到端反应速度做到了 0.28 秒,比人类平均反应快 40%。120 公里时速下,这多出来的 0.17 秒意味着提前 6 米刹停——一台劳斯莱斯幻影的长度,也是生存与毁灭的全部距离。

芯片和 OS 的深度协同,是理想软硬件一体化的第一道关。

模型层:VLA ——让机器真正 " 看懂 " 物理世界

理想的模型体系分为两路,一路处理语言,一路处理物理世界,最终融合成完整的具身大脑。

语言智能负责逻辑推理和任务规划,包括端云双模型:云端的马赫 Mind Pro 是强 Agent 模型,Token 消耗降 38%,推理速度 208 token/s,效率是主流模型的两倍以上。

端侧的马赫 Mind Edge 则 Always-on 运行在车机本地,毫秒响应、数据不上传、能直接调用车辆硬件。

两者配合,让车既能理解 " 先去接老大再去接老四最后给老四过生日 " 这种复杂指令,又能实时回答 " 我的耳机在哪 "。

处理物理世界任务的核心是 3D-ViT(Vision Transformer) ,将多视角摄像头同步采集的图像切分成固定大小的 Patch(图像块),每个 Patch 被线性投影为一个向量,并加上时序信息(当前帧与前后若干帧)一起输入 Transformer 编码器,通过多头自注意力机制计算所有 Patch 之间的相关性。

然后编码器输出一个统一的 3D 场景表示——可以是体素网格或隐式神经场,每个体素附带语义类别标签。

3D-ViT 的能力,是输出 " 在坐标 ( x,y,z ) 处有一个正在伸臂的挖掘机 " 这样的结构化语义信息,不需要预先为每一种可能出现的物体编写规则。

语言、物理 AI 模型,统一在 MoE(Mixture of Experts,混合专家模型)下, 核心思想是将模型拆分成多个 " 专家 " 子网络,每个专家擅长处理某类特定输入。同时有一个 " 门控网络 " 负责判断当前输入应该由哪些专家处理。

使得 MoE 模型能在保持超大参数量(从而具备强大表达能力的)同时,将单次推理的计算量控制在一个较低水平。

本质上是让 " 看见、理解、行动 " 从一开始就在同一个框架里对齐,而非机械地把几个网络串联成 " 端到端 "。

比如 VLA 将 3D-ViT 输出的 3D 语义场景直接输入到 MoE 架构的决策模块,形成端到端的统一模型,覆盖从像素到轨迹的全链路,所有参数联合优化,彻底消除了模块间的信息损耗和目标冲突。

交互与 Agent 层:从 " 调用功能 " 到 " 完成目标 "

第一层是意图理解与任务拆解。当用户输入一段自然语言,语言模型(马赫 Mind 系列)先进行语义解析,将模糊目标转化为结构化的任务树——哪些硬件参数的变化符合用户的需求。

第二层是工具调用与跨域执行。传统车控是扁平的原子指令,Agent 则构建了一个可调用的 " 工具库 ",覆盖娱乐系统、车身控制、空调、底盘、导航、第三方应用等数十个域。

规划模块决定调用哪些工具、以什么顺序调用、如何处理依赖关系,内部还会维护一个短期记忆,记录当前车辆状态和执行进度,以便在长链路任务中支持恢复和纠偏。

第三层是端云协同的推理与响应。Mind Edge 运行在车机本地,负责低延迟、高隐私的场景——如 " 耳机找不到了 " 这类实时问答,数据不传出车外。

马赫 Mind Pro 部署在云端,处理长链路、复杂推理的任务——如包含多个地点和约束条件的路线规划、需要外部知识检索的出行攻略。

Agent 架构的语言智能部分与机器智能(MoE)并非独立运行,而是在决策层深度融合,Agent 的最终决策需要同时满足语言指令的约束和物理世界的实时条件。

总结一下,理想把车打造成具身智能产品方案,技术框架的逻辑非常清晰:

最底层的数据流芯片马赫 100,解决了 " 算得动 " 的问题;

星环 OS 解决了 " 来得快 " 的问题;

3D-ViT 模型解决了 " 看得懂 " 的问题;

Agent 解决了 " 做得到 " 的问题。

四层缺一不可,层层自研、层层打通,统一在 MoE 架构下。

行业第一份物理 AI 答案,理想给出的

2025 年初,李想的一系列 AI Talk 并不被人理解—— " 有点颠,好好造车不行吗?"

一年多后,理想用 Livis Day 第一次给出了系统性、技术性的回应:AI 汽车,不是加个语音助手或升级智驾,而是从芯片架构、模型架构、操作系统到体验的全套重构。

造车这件事本身,除了提供现金流和利润,更本质的是围绕这个汽车这个载体,构建一套从芯片到算法再到 OS,甚至包括用户一侧的 Agent 的物理 AI 全栈技术平台

因为汽车本身足够普及、足够高频、足够复杂,也是最强的用户入口,背后连接着最广泛的终端触点。

物理 AI 内涵,不是模型对数字世界的脱离、泾渭分明,而是横跨虚拟和现实维度,完成各种物理的、语言的任务

换句话说,理想比任何自动驾驶玩家都更深一层。

相对绝大数把物理 AI 挂在嘴边,只有使命愿景、市值管理,却没有技术路线落地思考的 L2 玩家,理想领先不知多少个身位。

相对 L4 阵营来看,他们从 Robotaxi 的出租车产品需求出发,的确只需要把驾驶这件事做好,VLA 中的 L(language)是 Over Kill,没必要。

但理想则从具身智能、物理 AI 与真实世界、用户的交互出发,没有单一押注 vision based 或 language based,提出了任务导向、用户导向的综合软硬件技术——

第一次系统性地回答了物理 AI 怎么在车上落地,而物理 AI 的终点,远比自动驾驶要远。

可能被质疑、被模仿、或被证伪,但历史来看,从来没人可以假装理想的思考和实践不存在。

One More thing

不是老有人黑理想用户乱停车吗?

这次李想给了「官方回应」:

李想的 AI 形象坐在桌前,认真地翻阅一本名为 《停车的艺术》(The Art of Parking) 的书,封面还印着 " 如何正确泊车 ",书页看起来已经被翻了不知道少次。

没人比李想更会玩梗,没人比李想更会自嘲。

—  联系作者  —

—    —

【智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里关注我,记得标星,么么哒~

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

李想 ai 智能汽车 物理 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论