理想高管太敢说：靠英伟达做不成物理AI，一段式和VLA是「狗和人」的区别

理想，够燥的！

前有力推的 VLA 路线被广泛质疑没用、走弯路，后有技术向的 Big name 们先后出走投身具身创业。

但理想依然通过 Livis Day 向外界宣告：

有人、有技术、有产品！

不仅如此，理想对自研、对 AI 还有态度：

" 只靠英伟达，做不成物理 AI"；

" 一定要有 L，不然就是狗和人的区别 "；

" 理想没走过弯路，特斯拉也是从 Mobileye 到 FSD 再到端到端的 "。

" 我敢说，理想的芯片就是天下第一！"

如此强硬、激烈，在之前的理想从未见过。

这样的表述，出自谢炎、詹锟，分别是理想如今 AI 硬件、软件的一号位负责人，也就是外界熟知的马赫 100 芯片，和基于此的马赫 VLA 全栈模型架构主导者。

（QA 只做流畅性编辑，未改变原意）

正面回应：理想自研 AI，是不是走弯路了？

Q：感知路线从 BEV → OCC → 3D-VIT，是走了弯路吗？

詹锟：不是弯路，是随算力升级的必然演进。BEV 受限于当时算力（只能稀疏采样），OCC 是算力升级后变密，而 3D-VIT 基于最新 3DGS 思想（2025/2026 CVPR Best Paper），把栅格化变为高维表征——不定义类别，任何物体都能投影到三维空间（带 RGB、纹理、属性）。这些思想早有，但需要硬件到位才能爆发。

谢炎：商业化落地是一步步的。特斯拉也是从 Mobileye 到 FSD 再到端到端，不可能一步到位。

Q：车队规模增大后，数据的边际效用是否衰减？如何用好数据？

詹锟：数据理解已收敛。1）量要足够大，目的是收集长尾场景，我们很早（1.8 万台）就统一基建回传数据，Leeds 回传质量已达 L4 采车队水平；2）行为质量要高，众包车队行为多样，我们通过算法筛选高质量行为（稳定的加减速、合理变道），去掉不好的。边际效用确实是对数曲线，越往后收敛越慢，但数据规模和质量提升会抵抗衰减。

Q：用户反馈新平台智驾 " 肉 "（加速慢、变道不积极），原因是什么？如何追齐 FSD？

谢炎：这不是芯片适配问题。新模型在复杂窄路表现远超之前，加速偏保守是风格选择，后续版本就会改进，不难解决。真正的难点是扩大模型，提升感知和认知上限。

詹锟：追赶 FSD V14 分两方面：1）基础体验（安全、效率、舒适），我们很有信心年底达到同等水平，芯片性能还有释放空间；2）独特能力（自由倒车、礼让、极窄通行），涉及架构和数据层面的突破，我们已有初步成果。

Q：3D-VIT 具体如何让模型理解 3D？效果能否达到激光雷达水平？

詹锟：人眼通过双目和移动获得 3D 感，机器同理——通过视频序列进行三维建模，将 3D 结构固化到单目视觉表征中。

3D-VIT 是纯视觉方案，能输出类似全彩点云的丰富表征（RGB+ 纹理 + 动静分离），近处深度精度接近激光雷达，远处虽略逊但足够支撑行为决策。提高帧率主要是提高反应速度，我们目标是 15Hz、20Hz 起步。

Q：理想如何建立智驾护城河？为何第一梯队差距感觉没拉大？

詹锟：一年来许多玩家已退出，智驾已完全收敛。差距没拉大是因为护城河还没真正建起来。

两点关键：1）真正全栈可控（算力、芯片、基础设施统一），算法和人才流动快，但全栈迁移成本极高；2）愿下苦功夫——精细洗数据、高效评测体系，这些细节才形成护城河。大家与特斯拉的距离并未缩小，我们年底追赶 FSD 的计划正是脱颖而出的机会。

Q：理想与特斯拉的 FSD 体系相比，差异化和优势在哪里？

谢炎：出发点一致（快速迭代 + 垂直整合）。优势在于整合效率更高：特斯拉历任负责人或偏硬件或偏软件，而我的背景覆盖 OS、架构、应用和 AI，团队磨合更顺。

此外，我们保持相对较小的组织规模，在高密度整合需求下能减少部门墙。

Q：李想喜欢用类比，是否说明技术判断穿透力不足？

谢炎：类比是为了帮助理解，只有理解深入才能做出好类比。理想在技术原理上可能讲得最清楚——从芯片到智驾，每年几十篇顶会论文，2022 年至今发了 180 篇。如果类比建立在公开可验证的理论之上，它就是 " 深入浅出 "，而非 " 空洞忽悠 "。

詹锟：类比分两种：对外沟通帮助理解，李想非常擅长；另一种是从第一性原理出发思考 " 硅基人 " 或 " 具身智能 "，那是深刻的技术思考。我们每年所有顶会都有投稿和重稿，技术研究非常深入。

Q：其他车企都说自己很领先，理想如何证明自己是 " 真自研 "？

谢炎：三个标准：1）敢不敢把架构写进论文公开；2）敢不敢让第三方跑 Benchmark；3）敢不敢全系车型全量切换。

我们三点都做到了——论文已发，Benchmark 下个月公布，M100 已全量上车。有些公司买 IP 拼凑就宣布 " 自研 "，我们连 IP 都没得买——全世界没有第二颗芯片跟我们一样。

自研不是为了证明 " 我能做 "，而是为了 " 解决真问题 "。四年前的目标—— 4 倍 Orin 性能、成本更低——已经兑现了。

" 只有 V-A，就像一条狗 "

这一部分，主要围绕 " 语言模型对自动驾驶的必要性 " 争议展开的交流。一段式端到端路线，和 VLA 路线之争，是今年自动驾驶赛道最热的话题之一。

而谢炎用 " 狗与人的区别 " 这一犀利比喻，解释了理想为什么坚持 VLA。

挺大胆的。

詹锟的观点更大胆，直言如今自动驾驶的技术栈，几乎无法迁移到机器人——换句话说，大部分自称物理 AI 的玩家，可能都是在 " 自欺欺人 "。

Q：马赫 VLA 中还有语言（Language）部分吗？是 Language-based 还是 Vision-based？

詹锟：我觉得对机器智能来说，vision-based 是更合理的——它对 3D 空间的感知、对环境的重构更合理。

但 language 肯定有用，它对理解环境、理解交通指示、理解复杂决策（reasoning）都有价值。

所以理想要把 reasoning 上车，虽然还没上，但大家都在往这个方向做。

长远来看，Google 的原生多模态（不区分 vision/language base）可能是趋势。但当下，每个环节都需要语言和视觉共同提供指导。

Q：光靠视觉和海量数据能不能解决长尾问题？为什么必须靠语言？

谢炎：这个问题我直说，如果你只有 VA（Vision-Action，视觉 - 行动），那你就像一条狗。

狗有视觉，看到东西也知道做动作，比如看到球就去追。但狗遇到分布以外的情况，比如路上突然出现一只鸵鸟，或者一头大象，它完全不知道怎么办——它没见过，也没有推理能力。

所以，"L" 不是可有可无的装饰，它是从 " 动物智能 " 跨越到 " 人类智能 " 的阶梯。

越往 L3、L4 走，要解决的问题越来越接近 90%、95%、98% 以后的场景——那些从来没出现过的长尾问题。这时候，模型需要像人类一样具备高层次思考能力。

这也是为什么未来车端算力需求会急剧膨胀——因为你不仅要跑视觉模型，还要跑几十亿甚至百亿参数的语言模型做实时推理。

Q：基座模型如何从车端扩展到机器人？瓶颈在哪？

詹锟：自动驾驶怎么迁移到机器人上，现在的 gap 是很大的。

导航（navigation）迁移没问题，但操作（manipulation）完全不一样——后训练一定是千差万别，这个我们得承认。

但另一面，车包含了 language，也包含了语言智能，直接迁移到机器人的概率非常大——我们的交互、思考、场景规划都有共通性。

理想把物理机器人分三块：

具身交互（沟通、交流、思考、任务规划）；

移动（自动驾驶，从 A 到 B 无碰撞）；

操作（夹取等，目前未解决的开放性问题）。

车有机会把这三个都涵盖。这也是我们成立基座模型团队的原因：基座支撑各业务，但每个业务有各自特性。

Q：基座模型是否像发动机一样，是汽车公司必备能力？

詹锟：是的。只要想走具身智能、走 AI 方向，基模是必争之地。

每个人的环境、任务、规模都不一样，基模需求也不同，不太可能像 OS 一样由外部提供标准件。

我们的基模对视觉比语言更重视一些——因为做物理 AI，视觉是感知物理世界的第一入口。

未来可能有开源预训练模型，但各公司仍需强力的 post-training 才能形成可用基模。

Q：统一基座下，如何保证自动驾驶的确定性和安全性？

谢炎：车里有一个 " 司机 " 和一个 " 娱乐管家 "，这两个人是两个角色，不是同一个人。

不是说这个人一会给你开车，一会你跟他聊天放音乐——这是两套系统。我认为仓驾融合不是简单的 " 融合 "，智驾任务应该有专属的算力、内存和带宽保障，不受座舱任务干扰。

Q：马赫 Mind Pro 的规模和架构？是否对外输出 Token？

詹锟：Mind Pro 的参数量在百亿左右，架构参考千问、DeepSeek 等主流的 MQA、GQA。

关于对外输出 Token，我们不太倾向——我们的优势在结合车辆硬件资源的强化学习，其他大模型没有这种本体感知能力。

对外卖 Token 是另一个赛道，不一定符合理想的主路径。但长远看，具身智能应用的开源 Token 是有可能的。

" 靠英伟达，做不成物理 AI"

Q：4 年前为何决定自研数据流架构芯片？背后的技术逻辑是什么？

谢炎：自研不是为了证明能力，而是必须比外购方案更好——当年目标是 4 倍 Orin 性能，但成本还要更低。

但分析后发现，沿英伟达的技术路线走，你不可能赢——就像你想在 100 米赛道上赢博尔特，他比你早跑 2 秒，你没有任何胜算。

我们从第一性原理看 AI 计算本身：传统冯诺依曼架构为了人类编程方便，加了顺序指令流、Cache 一致性、分支预测等大量 " 翻译层 " ——数据流全部去掉，在 AI 高并行 workload 下有优势。

对于计算密度不高的 workload（如 MoE），可通过加大片上 SRAM、减少 DDR 进出解决。斯坦福去年 "Make SRAM Bigger" 的论文也是这个思路。

没有自己的芯片，光靠英伟达的 GPU，很多软件跟硬件、模型联合解决的问题，我们就没有机会。这就是为什么我们必须从底层重构计算架构——只靠英伟达，做不成物理 AI。

Q：如何看待 " 舱驾融合 "？为何高算力芯片不做，反而高通在低算力上做？

谢炎：这是两套独立系统。L3/L4 需要确定性、独占资源，即使物理上拼在一起，资源仍是隔离的，价值不大。

L2 对时延要求不高，融合能省一次封装成本（约几十美金），有一定意义。真正的融合应像笔记本内存那样复用，但现在做不到。

Q：自研芯片需要哪些前提条件？

谢炎：两大条件：1）营收规模要足够大（头部车企年营收千亿以上，每年数亿研发可行）；2）芯片解决的问题必须让主营业务竞争力更强——若与卖车无关则无意义。

芯片成本与面积相关。两颗 M100 约 800 平方毫米，相当于 8 台高端手机芯片。几十万辆车对应的晶圆面积足以摊薄成本。我们立项时就算过——做芯片是帮公司省钱，而非烧钱。

Q：未来多少车企能做自研芯片？产业链哪些环节被加速，哪些必须踩坑？

谢炎：我们花了近 4 年，新势力中启动最晚但落地最快。做一颗芯片和做一颗领先芯片难度不同——最糟糕的是做出来但不领先，不解决问题。

评估标准是否全系车型都用自研芯片跑最高端智驾、是否有好体验、是否持续迭代（二代、三代）。

产业链上，后端支持可借助供应链，但领先设计必须自己做，软件必须自己做。往后越做越深，要跟晶圆厂、封装厂联合设计——这也是垂直整合的一部分。

Q：M100 为何定位推理芯片而非训练芯片？未来会对外供应吗？

谢炎：推理市场最终远大于训练。训练对成本不敏感，追求迭代速度；推理需同时考虑成本和效率，且与目标之间的 gap 更大，更有机会解决。

对外供应不排除，但需工具链更完善。未来可能选择非车企伙伴（如机器人公司）——他们现在也找不到特别好的芯片。

Q：理想芯片的领先性体现在哪？量产时间线和成本平衡点如何？

谢炎：我们敢说世界第一。

是因为与市面上最好的 SoC（Orin）对比，性能是其两倍以上，且愿让第三方做 benchmark 测试（其他家多不愿意）。

成本方面，一年出货量就能覆盖所有研发成本。

— 联系作者 —

— 完 —

【智能车参考】原创内容，未经账号授权，禁止随意转载。

点这里关注我，记得标星，么么哒～

宙世代

一起剪

相关标签