从HW1.0到AI5,特斯拉芯片做了一次极限删减?

[ 首发于智驾最前沿微信公众号 ] 25TOPS，这是 2014 年第一代 Autopilot 硬件 Mobileye EyeQ3 的算力水平。十年之后，特斯拉下一代 FSD 计算平台 AI5 的算力飙到了 2000 TOPS～2500TOPS，算力提升的背后，不仅仅是晶体管数量在堆叠，更是芯片设计理念在重构。2024 年 6 月，马斯克在社交媒体上宣布，原本预计命名为 HW5.0 的第五代车载计算平台，正式更名为 AI5，2025 年 6 月，AI5 正式进入量产阶段，由台积电和三星共同代工。

HW4.0 采用的是三星 7nm 工艺，算力大约在 300 到 500 TOPS 之间。而 AI5 直接跳到台积电 3nm N3P 工艺，三星作为备用代工厂，预计 2026 年大规模量产搭载 AI5 的车型时才会启动。算力翻了五到八倍，性能提升达到四十倍，这不是简单的制程换代能够解释的。此外，真正让行业紧张的，是特斯拉在芯片设计上做了一件反常规的事情，那就是做减法。

AI5 移除了传统 GPU 和 ISP 图像信号处理器？

大多数芯片公司在设计产品时，考虑的是尽可能覆盖更多的应用场景，英伟达的 GPU 要兼容游戏、渲染、科学计算、自动驾驶等多个领域，必须保留大量通用模块，特斯拉则不是这个逻辑。AI5 只为一个客户服务，那就是它自己，所以架构师们做了个在当时看来相当激进的决策，即把 GPU 和 ISP 直接从芯片上砍掉。

移除 GPU 意味着什么？这意味着图形渲染的工作被彻底扔给了座舱芯片（AMD Ryzen 处理器），FSD 芯片不再需要分心去处理屏幕显示这类任务，全部精力集中在神经网络推理上。ISP 是负责将原始传感器数据处理成好看图像的传统模块，降噪、调色、锐化等操作本意是为了让人眼看画面更舒服，但对于神经网络来说，这些处理反而是对原始信息的一种过滤和损失。AI5 绕过 ISP，直接给神经网络输入原始的 12-bit 光子数据，这样的数据更原生，延迟也更低，信息的损耗也被控制在了最小范围。

图片源自：网络

这样的减法操作，可以让芯片面积控制在一个半掩模版内，在半导体制造里，掩模版就是光刻时的底片，尺寸越大良率越低。AI5 的面积刚好卡在半掩模版的上限，单次曝光就能把整块芯片做出来，不需要把多个掩模版拼在一起，面积小了，制造成本自然下降，晶圆切割出的芯片数量增多，缺陷率也降下来了，省下来的晶体管预算，更可以全部砸进了 AI 推理专用的计算单元里。

但只有硬件层面的精简还不够，AI5 在指令集层面也做了定制化升级。举个例子，神经网络里有一个叫 SoftMax 的常用操作，用来把一组数值转成概率分布。在 AI4 上跑这个操作，需要用常规指令模拟出四十个步骤才能完成，而 AI5 直接在硬件层面原生支持这个指令，几步就能跑完。一次操作节省三十多个步骤，乘上神经网络里数百万次乃至上亿次调用，性能差距就被放大了几十倍，这也是为什么 AI5 的原始算力比 AI4 高五到八倍，但在推理层面的实际表现可以达到四十倍甚至更高的原因。

传感器配置也在变？

有消息指出，在 AI5 硬件套件里，特斯拉把摄像头数量从 9 颗扩充到了 12 颗，分辨率也从之前的 500 万像素升级到了 800 万像素。这些摄像头还不是简单的换镜头，而是在新的模组中集成了镜片加热元件，可以在冰雪天气里快速融冰，还加了疏水涂层来减少雨水挂壁。在北方冬天的车主应该能对这个升级有直观体验，传统的摄像头一旦起雾或者结冰，感知系统将直接无法使用，而特斯拉显然意识到了纯视觉系统的这个死穴，选择用硬件方案来弥补。

此外，特斯拉在 AI5 里还重新配上了 4 颗 4D 毫米波雷达，4D 毫米波雷达除了能测距离、速度、方位角信息，还能测高度信息，而且不受雨雪雾天气的影响，配合 12 路高清摄像头，感知系统在硬件层面形成了一套完整的多模态冗余体系。但在 AI5 中，后端决策依然是端到端的纯神经网络在完成，传感器送进来的数据全部汇入同一条推理管道，由同一个模型做出最终的驾驶决策。

2500 TOPS 的算力到底能做什么？

在文章的一开始也提到，AI5 单颗芯片的算力在 2000TOPS～2500TOPS，作为参照，英伟达的 Thor-X 芯片算力约 2000TOPS，蔚来神玑 NX9031 超过 1000TOPS，可见 AI5 的单颗芯片还是很能打的。

除了算力在主流水平，其内存子系统也得到了升级，据网上查找的数据，AI4 用的是 GDDR6 显存，带宽约 384 GB/s，AI5 的芯片周围排布了 12 颗 SK 海力士 LPDDR5X 内存颗粒，单颗容量 16GB，总容量达到 144GB 到 192GB。基于 384-bit 的内存接口，带宽保守估计在 900GB/s 左右，乐观估算可以突破 1.5TB/s。

由于 HBM 需要硅中介层封装，成本极高，且车规认证周期更长，特斯拉并没有采用 HBM3 方案，而是选择了成熟 LPDDR5X 这条路。内存带宽决定了芯片在跑大模型时不会因为数据喂不饱而闲置算力，AI5 的 900GB/s 级别带宽相比 HW4 的 384GB/s 提升了约 2.3 倍，足以支撑百亿参数级别的大模型实时推理。

AI5 的能效表现也相当可观，在 2000TOPS 的峰值算力下，功耗约为 200W，约是英伟达 Thor-X 同算力产品的三分之一，能效比在 810TOPS/W～10TOPS/W 之间。低功耗意味着整车散热系统的负担大幅减轻，电池能量可以更多分配给动力。

特斯拉为 AI5 做的 INT8 和 INT4 量化支持，是能效提升的关键原因之一。传统的浮点运算计算复杂、功耗大，而整数运算的逻辑门比浮点运算简单将近一半，相同任务下功耗能降低六成以上，时延缩短三倍。特斯拉在模型训练时就用上了量化感知训练（QAT），在精度损失控制在不到 1% 的前提下，实现了芯片层面的大幅功耗压缩。

AI5 的另一个技术细节在其内存配置上，有报告提出它配备的是 144GB LPDDR5X 内存，专为 Transformer 架构做了深度优化，能同时处理 12 路高清摄像头的实时画面和多条轨迹预测。而 AI4 的内存配置大约是 16GB，在处理更复杂的无保护左转、密集施工区域等长尾场景时，内存容量逐渐显得吃紧。内存容量的提升，可以让 AI5 运行体量大得多的端到端神经网络模型，当前 FSD 的模型参数规模在持续增长，硬件的内存墙必须提前拆掉。

AI5 让 FSD 从能用到好用 ?

2025 年 12 月，一辆 Model 3 从洛杉矶出发，一路向东，在 2 天 20 小时里跑了 4397 公里，横穿美国，实现零人工干预。在 2026 年 5 月，一组特斯拉车主完成了一次横跨加拿大的自动驾驶实测，从温哥华启程，历时 4 天 21 小时，跑了 3760 英里（约 6051 公里），同样实现全程零人工干预。

这两次实测展示了 FSD 在真实复杂路况下的持续运行能力，暴雨、施工路段、夜间行车，系统没有因为场景超出预设规则而交还控制权，而是自动完成了整个驾驶过程，而这套系统背后跑的就是端到端神经网络架构。

FSD V12 已经把超过 40 万行 C++ 规则代码全部移除，从摄像头的原始数据直接输出方向盘、加速、制动的控制信号，所有决策逻辑都交给了神经网络自己学习。想跑通这种模型的前提，是硬件必须足够强，端到端模型对算力的需求几乎是传统模块化架构的指数级增长。AI5 的高算力、高带宽和原生 SoftMax 加速，正是为这种统一大模型架构准备的。

能效比领先，成本更低？

从价格上看，AI5 展现出了更强的竞争力，马斯克公开表示，AI5 的成本仅为英伟达同级芯片的十分之一。之所以能把成本压得这么低，除了使用专用化架构省去了大量通用模块，芯片面积小，晶圆利用率高外，更是因为双代工策略带来的议价空间，即台积电负责主力量产，三星作为备选，两家工厂抢订单，成本自然往下走。这种 A 主 B 备的模式在汽车芯片行业里并不多见，绝大多数车企还在为一颗 Orin X 的发货排期发愁时，特斯拉已经在布局双供应链了。

在制程选择上，AI5 同样展现了灵活的一面，台积电采用 3nm N3P 工艺作为主力，三星则计划以 2nm 工艺进行试产，两家工厂都设在美国本土，分别位于亚利桑那州和得克萨斯州，供应链风险降到了比较低的水平。

量产时间一再推迟，Cybertruck 和 Robotaxi 要等多久

从现在公布的数据来看，AI5 的硬件配置的确足够惊艳，但这套系统什么时候才能真正上车，目前还存在不确定性。马斯克曾在 2024 年 6 月公布 AI5 会在 2025 年下半年装车，但到了 2025 年底，大量量产时间又被推到了 2027 年年中。按照最乐观的预计，2026 年底会出现 AI5 的工程样片和小批量试产，但要储备几十万块 AI5 主板才能切换整车生产线，这也就意味着原定 2026 年量产的 Cybercab 和 Robotaxi，大概率还是会采用 AI4 硬件。

为了填补 AI5 推迟量产带来的空窗期，特斯拉在 2026 款 Model Y 上临时推出了 AI4.5 作为过渡方案，不过马斯克也给出了一个长期承诺，即从 AI6 开始，特斯拉会把芯片的设计周期压缩到 9 个月一代。这个说法在半导体行业里引起了不小的讨论，毕竟哪怕是苹果也维持着一年一次的芯片更新节奏。但特斯拉的逻辑在于，它的芯片设计只服务一个客户，迭代链比任何通用芯片公司都要短。如果这个节奏真的能跑通，特斯拉在车载 AI 芯片上的领先优势还将进一步扩大。

最后的话

从 HW1 到 AI5，特斯拉用了十一年，从 0.256 到 2500，算力增长曲线已经跳出了常规迭代的节奏。但算力本身不是终点，AI5 其实给我们回答了一个问题，那就是当自动驾驶从规则时代进入大模型时代，车载计算平台应该长什么样。答案不是堆更多的晶体管，不是塞更多冗余模块，而是针对单一任务做彻底的减法，把所有晶体管集中在一个目标上，让软件和硬件在同一个逻辑下协同进化。

声明：本文由太平洋号作者撰写，观点仅代表个人，不代表太平洋汽车。文中部分图片来自于网络，感谢原作者。

宙世代

一起剪