光锥智能 03-05
自动驾驶软硬一体,理想给出了自己的答案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

前沿科技,数智经济

2016 年 7 月,马斯克终止了特斯拉与智驾芯片供应商 Mobileye 的合作。

这场分手的背后,是自动驾驶技术全栈闭环的理念之争。特斯拉当时要做技术全栈闭环,需要掌控数据和算法,但 Mobileye 始终不同意完全开放。谈判破裂后,马斯克下定决心走上软硬一体的路线。在后来多次财报电话会上,马斯克感慨,正是这次 " 自己造芯 " 的冒险,才让特斯拉在自动驾驶赛道建立了难以逾越的护城河。

如今,中国的自动驾驶玩家也来到了软硬一体的阶段。

站在 2026 年这个节点,我们能看到非常多自动驾驶玩家的自研芯片有了实质进展。其中,蔚来神玑芯片和小鹏图灵芯片已经上车,理想的马赫 100 芯片也即将随着全新理想 L9 亮相。

但在这个过程中,行业普遍遇到的一个共性问题就是:自研芯片开发成本极高,软件适配难度极大。芯片流片一次动辄数十亿,算法团队还要花数月时间反复适配、调优,稍有不慎就会出现 " 芯片算力拉满、实际效能却打折 " 的尴尬局面。

如果说自研芯片是自动驾驶行业的必然趋势,那如何才能解决高昂成本和软硬适配的痛点?近日,理想汽车公布了一项研究成果,为智驾软硬结合提供了理论支撑。

在过去几年里,自动驾驶的一条主线是算力竞赛。消费者看硬件参数、车企拼 TOPS,大家似乎都相信,更大的算力就能证明智驾能力更强。在发展的过程中,我们也见证了智驾芯片从英伟达 Orin 的 254 TOPS 到 Thor 的 1000 TOPS,再到国产自研芯片的更大算力,数据不断刷新。

但智驾真的百分百适用于 Scaling Law 吗?

不完全是这样。例如当行业进入 VLA(视觉 - 语言 - 行动)模型时代之后,自动驾驶就遇到了前所未有的难题。一方面,VLA 作为一个逻辑自洽的技术架构,需要更高的认知智能才能发挥实力。它要像人类司机一样 " 看懂场景、理解意图、作出决策 "。另一方面,汽车智驾跟云端大模型完全不一样。车载芯片受限于功耗、散热、成本、实时性、安全冗余,根本不能盲目堆参数、堆算力。造成的结果就是,模型越来越聪明,芯片却有点 " 跟不上 "。

本次理想提出的 " 端侧大语言模型的软硬协同设计定律 ",就指出了破局的关键。

本次研究,理想回答了两个核心问题。第一是芯片峰值性能并不等于实际系统效能,芯片的有效算力更重要;第二是通过数学手段,能构建一套可量化、可预测、可落地的数学框架,让 " 算法定义芯片 " 从空谈变成现实。

一句话总结就是,智驾软件和硬件能够找到一个场景最佳的解法。同时,相互合适的硬件和软件,是能通过协同设计的方式来发现的。

基于这项研究结果,理想准备在全新理想 L9 落地自研的马赫 100 芯片,挑战汽车智能的上限。

那么,理想发现的软硬协同设计定律到底讲了什么?到底想要解决行业的什么痛点?我们一起来看这项研究。

算法和芯片

需要 " 商量着 " 一起长大

过去几年里,英伟达计算平台几乎是汽车高阶智驾的标配。但随着智驾技术发展,英伟达的对手越来越多。车企这边,选择自研芯片的有理想、小鹏、蔚来等厂商。芯片厂商这边,AMD、高通近几年也加入 " 战场 ",共同分食英伟达的 " 蛋糕 "。

为什么汽车厂商要选择更换计算平台?这场变革的背后,是自动驾驶技术撞上了两堵硬墙。

第一堵墙是大模型进化极快,芯片迭代却相对缓慢,导致硬件迭代速度有点跟不上了。在 VLA 逐渐成为主流技术范式的当下,智驾模型的参数规模、训练数据、能力边界几乎每几个月就刷新一次,而车规级芯片从设计到流片、验证、上车,往往需要 3-5 年时间。对于这些新的模型需求,不少新计算平台开始强调对 MoE 稀疏计算有原生支持、提供 KV 缓存超大容量,或能实现动态资源调度。种种迹象,意味着过去 " 公认 " 的计算平台已经越来越难以满足 VLA 时代的性能需求。

另一堵墙则是,自动驾驶行业发现通用计算平台不能完全发挥模型能力上限。智驾模型需要芯片具备特定参数的性能,而这恰恰是通用计算平台难以满足的。例如智驾模型做决策时,需要大量 MoE 调用能力,但通用计算平台缺乏对稀疏计算原生支持,也缺乏对量化的原生支持。智驾保障行车安全需要低延迟反馈,但通用计算平台会 " 相互卡任务 " 不能保障输出稳定。这导致算法适配最终只能 " 削足适履 ",要么牺牲模型精度,要么牺牲实时响应,或者增加冗余芯片导致成本飙升。

为了解决这两项难题,理想在这篇论文中认为——软硬件协同设计是破局的关键。

具体来说,理想用了两个核心数学手段来实现这一协同。

第一个是用损失函数扩展法则的车载化应用,用低成本 " 算出 " 模型能力上限。这其实是行业大模型研发比较普遍的流程。基本原理是大模型本身有一个 " 错误率 ",模型越小 " 错误率 " 越大,但 " 错误率 " 的增长曲线可以预测。这就意味着只要给定模型超参(参数量、层数、FFN 倍数等),就能无需完整训练,直接预测最终精度。

简单来说,就是只要用小模型跑几次就能算出 " 大模型大概能聪明到什么程度 ",从而省下天价的 GPU 电费和时间。

另一个手段是 Roofline 性能建模的车载化革新," 计算出 " 模型所需的关键硬件参数。Roofline 本来是用于 HPC(高性能计算)的可视化性能分析框架,用于定量评估应用程序处理器上的瓶颈。理想针对车载场景进行了扩展,在考虑传统计算与内存带宽平衡之外,首次添加了智驾所需的 KV 缓存(可理解为关键信息缓存)、MoE 路由(可以理解为分配专家模型运行的机制)、注意力机制等大模型特有需求,来计算模型对智驾计算平台的影响。

简单来说,就是 " 算出 " 计算平台能支持的模型 " 聪明程度 "。

在此基础上,结合上述两个式子就诞生了 PLAS(帕累托最优 LLM 架构搜索)框架,从而实现了协同设计。在公式中,只需要输入芯片的算力、带宽、缓存层次,以及工程约束(例如延迟 <100ms、功耗、内存),自动生成最优的模型架构方案——找到 " 在当前硬件上,精度最高、延迟最低的那条边界 "。简单来说,就是能同时找到算法能力和芯片设计的共同最优解。

同时,理想还给出了不同硬件平台 ( Jetson Orin/Thor)上的帕累托最优前沿,验证了 " 硬件协同设计扩展定律 " 的跨硬件平台泛化性,找到了英伟达计算平台的能力上限。

这种设计模式最大的价值就是让此前行业 " 先设计芯片再适配算法 " 或 " 先开发算法再找芯片 " 的割裂流程彻底成为历史。

" 本来 Orin 芯片是不支持跑语言模型的。但因为英伟达没时间,所以我们自己写了底层推理引擎 "。理想创始人兼 CEO 李想在一次采访中称。

传统的流程,一边是芯片工程师在拼命追求算力更强,一边是算法工程师在拼命追求模型更智能,但两者对接时才发现 " 不兼容 ",造成大量资源浪费。协同设计就是要打破隔阂,让芯片和算法从一开始就紧密配合,让算法和芯片从一开始就 " 商量着 " 一起长大。

对于自动驾驶行业准备走软硬一体路线的玩家来说,理想的研究无疑向行业交了一把可复制的钥匙。

没有通用芯片

只有场景最优芯片

理想关于协同设计的数学计算过程并不困难。但在 AI 时代,一个好问题的价值,要远胜于无数浅薄的信息。

为什么理想要进行协同设计的研究?因为它很早就碰上了自动驾驶技术落地的难题。

" 在车载芯片上部署 VLM 面临巨大挑战,尤其是在主流的 Orin-X 芯片上,该芯片在设计之初并未考虑大模型的应用需求。因此,我们在部署过程中需克服诸多工程难题。"

正如理想汽车基座模型负责人詹锟在 2024 年所说。早在英伟达 Orin 芯片落地高阶智驾的时期,理想就深刻体会到 " 软硬割裂 " 的痛苦。平心而论,英伟达计算平台确实提供了强大的理论算力,但在实际部署大语言模型时,理想的技术团队常发现 " 芯片峰值性能≠实际系统效能 " 的困境。

精心设计的模型架构往往无法充分利用硬件特性,而为了硬件适配做出的妥协又可能损害模型智能。这简直就像是一尊精致的雕像,只能以残缺的状态展示给观众。这种割裂感让理想下定决心,必须从根本上解决。

解决的思路,是理想决定从提升模型性能入手,同时试图找到兼顾模型落地的时间、硬件和应用成本的答案。具体目标包括:把模型设计和选择的周期从数月压缩至一周;无需盲目使用更贵的芯片,也能为用户带来更好的智能体验;根据应用场景,快速选出最适合的模型配置,整体缩短开发周期。

根据这项研究,理想将上述目标提炼成了 6 个核心结论。每一条都直指车载大模型部署的痛点,并将自研芯片提到了势在必行的高度。

首先,稀疏计算将成为车载 AI 标配。在车载典型的批处理大小为 1 的场景下,MoE 稀疏架构 100% 主导效率前沿。这意味着未来车载芯片需要原生支持稀疏计算和动态路由,而非简单提供密集矩阵乘算力。简单来说,车载 AI 模型的发展方向跟云端 " 大而全 " 不一样,计算平台需要原生支持 " 专且精 " 的架构。

其次,内存子系统设计比算力峰值更重要。论文指出 " 宽而浅 " 的最优架构形态表明,内存带宽和缓存效率往往比理论 TOPS 更能决定系统实际性能。这意味着芯片内存层次设计要随需求变化,例如专门为 KV 缓存和注意力机制预留足够的高速缓存空间。

第三,阶段感知的微架构优化。在模型运作过程中,Prefill(预填充)和 Decode(解码)阶段对硬件资源的需求截然不同,Prefill 需要大量并行算力单元,猛猛计算;而 Decode 阶段需要大量内存带宽和空间,算力反而闲置。在常规 GPU 设计里,这些计算流程通常都是固定的,但汽车智驾需要兼顾实时性和确定性。这代表新的芯片需要支持动态的微架构重构或资源分配,以保障两个阶段的计算都能稳定输出。

第四,打破 4 倍 FFN(前馈网络)的固定模式。传统 Transformer 架构一般默认是 4 倍 FFN 扩展比,就像是个放大镜,不管输入多复杂都要先把维度扩大 4 倍,算完再压缩回去。但车载场景下,运算资源相对有限," 火力全开就代表着油耗爆炸 "。这意味着芯片的矩阵乘单元和激活函数单元需要更灵活的配比,才能适配 VLA 模型的实际负载分布。

第五,量化加速需要硬件原生支持。为了保证智驾输出的实时性、安全性和功耗要求,理论上智驾模型从 FP16 或 BF16 权重量化到 INT8 量化的加速因子为 2 倍。但根据理想实际测试,使用常规平台的加速效果只有 1.3-1.6 倍。这是因为在换算过程中,非线性算子和精度转换都会占用资源,这意味着大量运算资源被浪费。所以,下一代芯片需要在指令集和运算单元层面提供混合精度计算和算子融合的原生支持。

第六,没有通用芯片,只有场景最优芯片。综合上述结论看到,要想最大化模型能力就必须要重新调整硬件计算架构,这从根本上证明了 " 算法定义芯片 " 的必要。只有深度理解上层算法需求,才能设计出最高效的专用计算架构。

这些发现,并不是纸上谈兵。为了验证协同设计定律,理想在英伟达 Jetson Orin/Thor 平台上做了严格对比测试。结果显示,应用协同设计定律优化的模型,在与 Qwen2.5-0.5B 保持完全相同延迟的前提下,实现了 19.42% 的精度提升。这直接证明了软硬协同设计可以实现 " 同等硬件、更优性能 ",能立刻带来可量化的工程收益。

对于产品侧来说,这一发现也直接促成理想自研马赫 100 芯片。作为马赫 100 首发搭载的全新理想 L9,李想更是在微博中宣称,其 3 倍于英伟达 Thor-U 芯片的有效算力,是全球最强的智驾大脑。

拥有了自研芯片,不仅意味着理想从 " 被动适配芯片 " 转到 " 算法定义芯片 " 的阶段。更是为中国自动驾驶厂商在 VLA 时代提供了可以 " 开箱即用 " 的理论武器。

李想的 AI 工程方法论

软硬结合、协同开发,早就是全球每一个 AI 巨头的必修课。

2013 年,时任 Google Brain 负责人的 Jeff Dean 随手拿了一张餐巾纸做了一项计算。结果显示,为了支撑用户使用语音识别模型,谷歌需要把数据中心集群再扩建一倍。简单几个数字,让在场的所有高管冷汗直流。

为了避免这场危机,谷歌当机立断启动 TPU 研发项目。定义硬件的方式,是根据一篇老论文,将芯片设计成匹配算法需要的矩阵运算。15 个月后,谷歌做出了 TPU,从此不再被 GPU" 绑架 "。如今,通过谷歌云和 Gemini,谷歌将 TPU 卖到了全世界。

谷歌用实际行动证明,只有软硬协同,才能把每一分算力都用在刀刃上。理想在这条路上,也找到了辅助驾驶全栈技术闭环的方向。

还记得在 2025 年时,智驾技术领先的玩家还在参考 DeepSeek 的技术,用蒸馏的手段让 AI 大模型从 " 云端大模型下车 "。理想当时针对智驾大模型做了一系列预训练、后训练和强化训练的调整,才拿出了对标人类智能的 " 司机大模型 " —— VLA。

" 我们对 Deepseek R1 从上线到后面开源都做了相当多的研究和拥抱。DeepSeek 的速度比想象中快,所以 VLA 到来的速度也比想象中快。" 李想曾如此总结说。

如今,在完成软硬一体之后,为车端量身定制的 " 算法原生模型 " 能让智驾实现感知、决策、规划、控制全链路都在同一套数学框架下优化,进一步刷新了整个系统的延迟、精度和能效。

这种转变,本质上是 AI 工程能力的进化。过去还需要工程师根据经验调优、不断试错迭代,现在靠 PLAS 框架和数学定律,最优方案已经能实现 " 一键生成 "。

" 任何时候当我们想去改变和提升能力,第一步一定是搞研究,第二步是研发,第三步是把能力表达出来,第四步是能力变成业务的价值。" 李想说。

理想为了实现这一目标,下了相当多的苦功夫。

在基础研究层面,理想的投入可谓是 " 豪横 "。近 8 年来,理想一直在加大研发投入。光是 2025 一年,理想预计研发投入达到 120 亿元,其中人工智能领域投入达到 60 亿元。

随着研发投入,我们也能清晰看到理想自动驾驶技术的成长足迹。自 2021 年至 2025 年 11 月,理想围绕 BEV(Bird's-eye-view,鸟瞰图)、端到端模型、VLM 视觉语言模型、VLA 视觉语言行动模型、强化学习、世界模型、AI 基座模型等领域,发表近 50 篇论文,被引用超过 2500 次。其中,32 篇论文中稿顶会。

在基础研究中,理想的组织架构也在朝着更适合 AI 研究的方向演进。在今年 1 月,理想就率先进行了一系列组织调整。其中,理想汽车自动驾驶高级算法专家詹锟接手基座模型业务,整体负责理想的 VLA 基座模型研发,并将相关技术研发团队充分整合。这代表理想的智驾全面进入 AI 大模型时代。

1 月底,李想在内部还明确说,将大幅调整技术研发团队架构,参照最先进 AI 公司的运作模式,按照协作构建硅基生命的方式重新设定人员分工。通过持续优化内部架构的方式,理想希望公司的算法、芯片、OS 团队实现深度协同,让研究成果能以最快速度转化为量产能力。

也正是基于对 AI 的理解,李想也成了汽车圈 " 最拥护 "AI 发展的 CEO。近日,李想还在朋友圈明确感慨,学会使用 Agent 能放大顶级专家和普通人之间的差距。

或许,AI 时代最重要的法则就是 ALL in AI。

曾经领先全球的特斯拉 FSD(特斯拉自动驾驶),在中国自动驾驶厂商技术全栈闭环的追赶下,逐渐不再 " 惊艳 "。

软硬协同设计定律只是一个开始,中国智能汽车厂商们正在定义汽车智能的上限。

联系我们

王一粟

创始人 / 主编

ID:cishicike000

商务合作请添加微信:GZZN2019

转载开白请留言或添加微信:GZZN2019

进群交流请添加微信:GZZN2019

※添加时请备注公司 + 姓名 + 来意

「往期精彩推荐」

深度研报:

AI 大爆炸:

云计算:

数智化案例:

更多精彩内容,欢迎关注: 

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 芯片 马斯克 特斯拉 mobileye
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论