理想,够燥的!
前有力推的 VLA 路线被广泛质疑没用、走弯路,后有技术向的 Big name 们先后出走投身具身创业。
但理想依然通过 Livis Day 向外界宣告:
有人、有技术、有产品!
不仅如此,理想对自研、对 AI 还有态度:
" 只靠英伟达,做不成物理 AI";
" 一定要有 L,不然就是狗和人的区别 ";
" 理想没走过弯路,特斯拉也是从 Mobileye 到 FSD 再到端到端的 "。
" 我敢说,理想的芯片就是天下第一!"
如此强硬、激烈,在之前的理想从未见过。
这样的表述,出自谢炎、詹锟,分别是理想如今 AI 硬件、软件的一号位负责人,也就是外界熟知的马赫 100 芯片,和基于此的马赫 VLA 全栈模型架构主导者。
(QA 只做流畅性编辑,未改变原意)
正面回应:理想自研 AI,是不是走弯路了?
Q:感知路线从 BEV → OCC → 3D-VIT,是走了弯路吗?
詹锟:不是弯路,是随算力升级的必然演进。BEV 受限于当时算力(只能稀疏采样),OCC 是算力升级后变密,而 3D-VIT 基于最新 3DGS 思想(2025/2026 CVPR Best Paper),把栅格化变为高维表征——不定义类别,任何物体都能投影到三维空间(带 RGB、纹理、属性)。这些思想早有,但需要硬件到位才能爆发。
谢炎:商业化落地是一步步的。特斯拉也是从 Mobileye 到 FSD 再到端到端,不可能一步到位。
Q:车队规模增大后,数据的边际效用是否衰减?如何用好数据?
詹锟:数据理解已收敛。1)量要足够大,目的是收集长尾场景,我们很早(1.8 万台)就统一基建回传数据,Leeds 回传质量已达 L4 采车队水平;2)行为质量要高,众包车队行为多样,我们通过算法筛选高质量行为(稳定的加减速、合理变道),去掉不好的。边际效用确实是对数曲线,越往后收敛越慢,但数据规模和质量提升会抵抗衰减。
Q:用户反馈新平台智驾 " 肉 "(加速慢、变道不积极),原因是什么?如何追齐 FSD?
谢炎:这不是芯片适配问题。新模型在复杂窄路表现远超之前,加速偏保守是风格选择,后续版本就会改进,不难解决。真正的难点是扩大模型,提升感知和认知上限。
詹锟:追赶 FSD V14 分两方面:1)基础体验(安全、效率、舒适),我们很有信心年底达到同等水平,芯片性能还有释放空间;2)独特能力(自由倒车、礼让、极窄通行),涉及架构和数据层面的突破,我们已有初步成果。
Q:3D-VIT 具体如何让模型理解 3D?效果能否达到激光雷达水平?
詹锟:人眼通过双目和移动获得 3D 感,机器同理——通过视频序列进行三维建模,将 3D 结构固化到单目视觉表征中。
3D-VIT 是纯视觉方案,能输出类似全彩点云的丰富表征(RGB+ 纹理 + 动静分离),近处深度精度接近激光雷达,远处虽略逊但足够支撑行为决策。提高帧率主要是提高反应速度,我们目标是 15Hz、20Hz 起步。
Q:理想如何建立智驾护城河?为何第一梯队差距感觉没拉大?
詹锟:一年来许多玩家已退出,智驾已完全收敛。差距没拉大是因为护城河还没真正建起来。
两点关键:1)真正全栈可控(算力、芯片、基础设施统一),算法和人才流动快,但全栈迁移成本极高;2)愿下苦功夫——精细洗数据、高效评测体系,这些细节才形成护城河。大家与特斯拉的距离并未缩小,我们年底追赶 FSD 的计划正是脱颖而出的机会。
Q:理想与特斯拉的 FSD 体系相比,差异化和优势在哪里?
谢炎:出发点一致(快速迭代 + 垂直整合)。优势在于整合效率更高:特斯拉历任负责人或偏硬件或偏软件,而我的背景覆盖 OS、架构、应用和 AI,团队磨合更顺。
此外,我们保持相对较小的组织规模,在高密度整合需求下能减少部门墙。
Q:李想喜欢用类比,是否说明技术判断穿透力不足?
谢炎:类比是为了帮助理解,只有理解深入才能做出好类比。理想在技术原理上可能讲得最清楚——从芯片到智驾,每年几十篇顶会论文,2022 年至今发了 180 篇。如果类比建立在公开可验证的理论之上,它就是 " 深入浅出 ",而非 " 空洞忽悠 "。
詹锟:类比分两种:对外沟通帮助理解,李想非常擅长;另一种是从第一性原理出发思考 " 硅基人 " 或 " 具身智能 ",那是深刻的技术思考。我们每年所有顶会都有投稿和重稿,技术研究非常深入。
Q:其他车企都说自己很领先,理想如何证明自己是 " 真自研 "?
谢炎:三个标准:1)敢不敢把架构写进论文公开;2)敢不敢让第三方跑 Benchmark;3)敢不敢全系车型全量切换。
我们三点都做到了——论文已发,Benchmark 下个月公布,M100 已全量上车。有些公司买 IP 拼凑就宣布 " 自研 ",我们连 IP 都没得买——全世界没有第二颗芯片跟我们一样。
自研不是为了证明 " 我能做 ",而是为了 " 解决真问题 "。四年前的目标—— 4 倍 Orin 性能、成本更低——已经兑现了。
" 只有 V-A,就像一条狗 "
这一部分,主要围绕 " 语言模型对自动驾驶的必要性 " 争议展开的交流。一段式端到端路线,和 VLA 路线之争,是今年自动驾驶赛道最热的话题之一。
而谢炎用 " 狗与人的区别 " 这一犀利比喻,解释了理想为什么坚持 VLA。
挺大胆的。
詹锟的观点更大胆,直言如今自动驾驶的技术栈,几乎无法迁移到机器人——换句话说,大部分自称物理 AI 的玩家,可能都是在 " 自欺欺人 "。
Q:马赫 VLA 中还有语言(Language)部分吗?是 Language-based 还是 Vision-based?
詹锟:我觉得对机器智能来说,vision-based 是更合理的——它对 3D 空间的感知、对环境的重构更合理。
但 language 肯定有用,它对理解环境、理解交通指示、理解复杂决策(reasoning)都有价值。
所以理想要把 reasoning 上车,虽然还没上,但大家都在往这个方向做。
长远来看,Google 的原生多模态(不区分 vision/language base)可能是趋势。但当下,每个环节都需要语言和视觉共同提供指导。
Q:光靠视觉和海量数据能不能解决长尾问题?为什么必须靠语言?
谢炎:这个问题我直说,如果你只有 VA(Vision-Action,视觉 - 行动),那你就像一条狗。
狗有视觉,看到东西也知道做动作,比如看到球就去追。但狗遇到分布以外的情况,比如路上突然出现一只鸵鸟,或者一头大象,它完全不知道怎么办——它没见过,也没有推理能力。
所以,"L" 不是可有可无的装饰,它是从 " 动物智能 " 跨越到 " 人类智能 " 的阶梯。
越往 L3、L4 走,要解决的问题越来越接近 90%、95%、98% 以后的场景——那些从来没出现过的长尾问题。这时候,模型需要像人类一样具备高层次思考能力。
这也是为什么未来车端算力需求会急剧膨胀——因为你不仅要跑视觉模型,还要跑几十亿甚至百亿参数的语言模型做实时推理。
Q:基座模型如何从车端扩展到机器人?瓶颈在哪?
詹锟:自动驾驶怎么迁移到机器人上,现在的 gap 是很大的。
导航(navigation)迁移没问题,但操作(manipulation)完全不一样——后训练一定是千差万别,这个我们得承认。
但另一面,车包含了 language,也包含了语言智能,直接迁移到机器人的概率非常大——我们的交互、思考、场景规划都有共通性。
理想把物理机器人分三块:
具身交互(沟通、交流、思考、任务规划);
移动(自动驾驶,从 A 到 B 无碰撞);
操作(夹取等,目前未解决的开放性问题)。
车有机会把这三个都涵盖。这也是我们成立基座模型团队的原因:基座支撑各业务,但每个业务有各自特性。
Q:基座模型是否像发动机一样,是汽车公司必备能力?
詹锟:是的。只要想走具身智能、走 AI 方向,基模是必争之地。
每个人的环境、任务、规模都不一样,基模需求也不同,不太可能像 OS 一样由外部提供标准件。
我们的基模对视觉比语言更重视一些——因为做物理 AI,视觉是感知物理世界的第一入口。
未来可能有开源预训练模型,但各公司仍需强力的 post-training 才能形成可用基模。
Q:统一基座下,如何保证自动驾驶的确定性和安全性?
谢炎:车里有一个 " 司机 " 和一个 " 娱乐管家 ",这两个人是两个角色,不是同一个人。
不是说这个人一会给你开车,一会你跟他聊天放音乐——这是两套系统。我认为仓驾融合不是简单的 " 融合 ",智驾任务应该有专属的算力、内存和带宽保障,不受座舱任务干扰。
Q:马赫 Mind Pro 的规模和架构?是否对外输出 Token?
詹锟:Mind Pro 的参数量在百亿左右,架构参考千问、DeepSeek 等主流的 MQA、GQA。
关于对外输出 Token,我们不太倾向——我们的优势在结合车辆硬件资源的强化学习,其他大模型没有这种本体感知能力。
对外卖 Token 是另一个赛道,不一定符合理想的主路径。但长远看,具身智能应用的开源 Token 是有可能的。
" 靠英伟达,做不成物理 AI"
Q:4 年前为何决定自研数据流架构芯片?背后的技术逻辑是什么?
谢炎:自研不是为了证明能力,而是必须比外购方案更好——当年目标是 4 倍 Orin 性能,但成本还要更低。
但分析后发现,沿英伟达的技术路线走,你不可能赢——就像你想在 100 米赛道上赢博尔特,他比你早跑 2 秒,你没有任何胜算。
我们从第一性原理看 AI 计算本身:传统冯诺依曼架构为了人类编程方便,加了顺序指令流、Cache 一致性、分支预测等大量 " 翻译层 " ——数据流全部去掉,在 AI 高并行 workload 下有优势。
对于计算密度不高的 workload(如 MoE),可通过加大片上 SRAM、减少 DDR 进出解决。斯坦福去年 "Make SRAM Bigger" 的论文也是这个思路。
没有自己的芯片,光靠英伟达的 GPU,很多软件跟硬件、模型联合解决的问题,我们就没有机会。这就是为什么我们必须从底层重构计算架构——只靠英伟达,做不成物理 AI。
Q:如何看待 " 舱驾融合 "?为何高算力芯片不做,反而高通在低算力上做?
谢炎:这是两套独立系统。L3/L4 需要确定性、独占资源,即使物理上拼在一起,资源仍是隔离的,价值不大。
L2 对时延要求不高,融合能省一次封装成本(约几十美金),有一定意义。真正的融合应像笔记本内存那样复用,但现在做不到。
Q:自研芯片需要哪些前提条件?
谢炎:两大条件:1)营收规模要足够大(头部车企年营收千亿以上,每年数亿研发可行);2)芯片解决的问题必须让主营业务竞争力更强——若与卖车无关则无意义。
芯片成本与面积相关。两颗 M100 约 800 平方毫米,相当于 8 台高端手机芯片。几十万辆车对应的晶圆面积足以摊薄成本。我们立项时就算过——做芯片是帮公司省钱,而非烧钱。
Q:未来多少车企能做自研芯片?产业链哪些环节被加速,哪些必须踩坑?
谢炎:我们花了近 4 年,新势力中启动最晚但落地最快。做一颗芯片和做一颗领先芯片难度不同——最糟糕的是做出来但不领先,不解决问题。
评估标准是否全系车型都用自研芯片跑最高端智驾、是否有好体验、是否持续迭代(二代、三代)。
产业链上,后端支持可借助供应链,但领先设计必须自己做,软件必须自己做。往后越做越深,要跟晶圆厂、封装厂联合设计——这也是垂直整合的一部分。
Q:M100 为何定位推理芯片而非训练芯片?未来会对外供应吗?
谢炎:推理市场最终远大于训练。训练对成本不敏感,追求迭代速度;推理需同时考虑成本和效率,且与目标之间的 gap 更大,更有机会解决。
对外供应不排除,但需工具链更完善。未来可能选择非车企伙伴(如机器人公司)——他们现在也找不到特别好的芯片。
Q:理想芯片的领先性体现在哪?量产时间线和成本平衡点如何?
谢炎:我们敢说世界第一。
是因为与市面上最好的 SoC(Orin)对比,性能是其两倍以上,且愿让第三方做 benchmark 测试(其他家多不愿意)。
成本方面,一年出货量就能覆盖所有研发成本。
— 联系作者 —
— 完 —
【智能车参考】原创内容,未经账号授权,禁止随意转载。
点这里关注我,记得标星,么么哒~


登录后才可以发布评论哦
打开小程序可以发布评论哦