智驾最前沿 14小时前
从HW1.0到AI5,特斯拉芯片做了一次极限删减?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

[ 首发于智驾最前沿微信公众号 ] 25TOPS,这是 2014 年第一代 Autopilot 硬件 Mobileye EyeQ3 的算力水平。十年之后,特斯拉下一代 FSD 计算平台 AI5 的算力飙到了 2000 TOPS~2500TOPS,算力提升的背后,不仅仅是晶体管数量在堆叠,更是芯片设计理念在重构。2024 年 6 月,马斯克在社交媒体上宣布,原本预计命名为 HW5.0 的第五代车载计算平台,正式更名为 AI5,2025 年 6 月,AI5 正式进入量产阶段,由台积电和三星共同代工。

HW4.0 采用的是三星 7nm 工艺,算力大约在 300 到 500 TOPS 之间。而 AI5 直接跳到台积电 3nm N3P 工艺,三星作为备用代工厂,预计 2026 年大规模量产搭载 AI5 的车型时才会启动。算力翻了五到八倍,性能提升达到四十倍,这不是简单的制程换代能够解释的。此外,真正让行业紧张的,是特斯拉在芯片设计上做了一件反常规的事情,那就是做减法。

AI5 移除了传统 GPU 和 ISP 图像信号处理器?

大多数芯片公司在设计产品时,考虑的是尽可能覆盖更多的应用场景,英伟达的 GPU 要兼容游戏、渲染、科学计算、自动驾驶等多个领域,必须保留大量通用模块,特斯拉则不是这个逻辑。AI5 只为一个客户服务,那就是它自己,所以架构师们做了个在当时看来相当激进的决策,即把 GPU 和 ISP 直接从芯片上砍掉。

移除 GPU 意味着什么?这意味着图形渲染的工作被彻底扔给了座舱芯片(AMD Ryzen 处理器),FSD 芯片不再需要分心去处理屏幕显示这类任务,全部精力集中在神经网络推理上。ISP 是负责将原始传感器数据处理成好看图像的传统模块,降噪、调色、锐化等操作本意是为了让人眼看画面更舒服,但对于神经网络来说,这些处理反而是对原始信息的一种过滤和损失。AI5 绕过 ISP,直接给神经网络输入原始的 12-bit 光子数据,这样的数据更原生,延迟也更低,信息的损耗也被控制在了最小范围。

图片源自:网络

这样的减法操作,可以让芯片面积控制在一个半掩模版内,在半导体制造里,掩模版就是光刻时的底片,尺寸越大良率越低。AI5 的面积刚好卡在半掩模版的上限,单次曝光就能把整块芯片做出来,不需要把多个掩模版拼在一起,面积小了,制造成本自然下降,晶圆切割出的芯片数量增多,缺陷率也降下来了,省下来的晶体管预算,更可以全部砸进了 AI 推理专用的计算单元里。

但只有硬件层面的精简还不够,AI5 在指令集层面也做了定制化升级。举个例子,神经网络里有一个叫 SoftMax 的常用操作,用来把一组数值转成概率分布。在 AI4 上跑这个操作,需要用常规指令模拟出四十个步骤才能完成,而 AI5 直接在硬件层面原生支持这个指令,几步就能跑完。一次操作节省三十多个步骤,乘上神经网络里数百万次乃至上亿次调用,性能差距就被放大了几十倍,这也是为什么 AI5 的原始算力比 AI4 高五到八倍,但在推理层面的实际表现可以达到四十倍甚至更高的原因。

传感器配置也在变?

有消息指出,在 AI5 硬件套件里,特斯拉把摄像头数量从 9 颗扩充到了 12 颗,分辨率也从之前的 500 万像素升级到了 800 万像素。这些摄像头还不是简单的换镜头,而是在新的模组中集成了镜片加热元件,可以在冰雪天气里快速融冰,还加了疏水涂层来减少雨水挂壁。在北方冬天的车主应该能对这个升级有直观体验,传统的摄像头一旦起雾或者结冰,感知系统将直接无法使用,而特斯拉显然意识到了纯视觉系统的这个死穴,选择用硬件方案来弥补。

此外,特斯拉在 AI5 里还重新配上了 4 颗 4D 毫米波雷达,4D 毫米波雷达除了能测距离、速度、方位角信息,还能测高度信息,而且不受雨雪雾天气的影响,配合 12 路高清摄像头,感知系统在硬件层面形成了一套完整的多模态冗余体系。但在 AI5 中,后端决策依然是端到端的纯神经网络在完成,传感器送进来的数据全部汇入同一条推理管道,由同一个模型做出最终的驾驶决策。

2500 TOPS 的算力到底能做什么?

在文章的一开始也提到,AI5 单颗芯片的算力在 2000TOPS~2500TOPS,作为参照,英伟达的 Thor-X 芯片算力约 2000TOPS,蔚来神玑 NX9031 超过 1000TOPS,可见 AI5 的单颗芯片还是很能打的。

除了算力在主流水平,其内存子系统也得到了升级,据网上查找的数据,AI4 用的是 GDDR6 显存,带宽约 384 GB/s,AI5 的芯片周围排布了 12 颗 SK 海力士 LPDDR5X 内存颗粒,单颗容量 16GB,总容量达到 144GB 到 192GB。基于 384-bit 的内存接口,带宽保守估计在 900GB/s 左右,乐观估算可以突破 1.5TB/s。

由于 HBM 需要硅中介层封装,成本极高,且车规认证周期更长,特斯拉并没有采用 HBM3 方案,而是选择了成熟 LPDDR5X 这条路。内存带宽决定了芯片在跑大模型时不会因为数据喂不饱而闲置算力,AI5 的 900GB/s 级别带宽相比 HW4 的 384GB/s 提升了约 2.3 倍,足以支撑百亿参数级别的大模型实时推理。

AI5 的能效表现也相当可观,在 2000TOPS 的峰值算力下,功耗约为 200W,约是英伟达 Thor-X 同算力产品的三分之一,能效比在 810TOPS/W~10TOPS/W 之间。低功耗意味着整车散热系统的负担大幅减轻,电池能量可以更多分配给动力。

特斯拉为 AI5 做的 INT8 和 INT4 量化支持,是能效提升的关键原因之一。传统的浮点运算计算复杂、功耗大,而整数运算的逻辑门比浮点运算简单将近一半,相同任务下功耗能降低六成以上,时延缩短三倍。特斯拉在模型训练时就用上了量化感知训练(QAT),在精度损失控制在不到 1% 的前提下,实现了芯片层面的大幅功耗压缩。

AI5 的另一个技术细节在其内存配置上,有报告提出它配备的是 144GB LPDDR5X 内存,专为 Transformer 架构做了深度优化,能同时处理 12 路高清摄像头的实时画面和多条轨迹预测。而 AI4 的内存配置大约是 16GB,在处理更复杂的无保护左转、密集施工区域等长尾场景时,内存容量逐渐显得吃紧。内存容量的提升,可以让 AI5 运行体量大得多的端到端神经网络模型,当前 FSD 的模型参数规模在持续增长,硬件的内存墙必须提前拆掉。

AI5 让 FSD 从能用到好用 ?

2025 年 12 月,一辆 Model 3 从洛杉矶出发,一路向东,在 2 天 20 小时里跑了 4397 公里,横穿美国,实现零人工干预。在 2026 年 5 月,一组特斯拉车主完成了一次横跨加拿大的自动驾驶实测,从温哥华启程,历时 4 天 21 小时,跑了 3760 英里(约 6051 公里),同样实现全程零人工干预。

这两次实测展示了 FSD 在真实复杂路况下的持续运行能力,暴雨、施工路段、夜间行车,系统没有因为场景超出预设规则而交还控制权,而是自动完成了整个驾驶过程,而这套系统背后跑的就是端到端神经网络架构。

FSD V12 已经把超过 40 万行 C++ 规则代码全部移除,从摄像头的原始数据直接输出方向盘、加速、制动的控制信号,所有决策逻辑都交给了神经网络自己学习。想跑通这种模型的前提,是硬件必须足够强,端到端模型对算力的需求几乎是传统模块化架构的指数级增长。AI5 的高算力、高带宽和原生 SoftMax 加速,正是为这种统一大模型架构准备的。

能效比领先,成本更低?

从价格上看,AI5 展现出了更强的竞争力,马斯克公开表示,AI5 的成本仅为英伟达同级芯片的十分之一。之所以能把成本压得这么低,除了使用专用化架构省去了大量通用模块,芯片面积小,晶圆利用率高外,更是因为双代工策略带来的议价空间,即台积电负责主力量产,三星作为备选,两家工厂抢订单,成本自然往下走。这种 A 主 B 备的模式在汽车芯片行业里并不多见,绝大多数车企还在为一颗 Orin X 的发货排期发愁时,特斯拉已经在布局双供应链了。

在制程选择上,AI5 同样展现了灵活的一面,台积电采用 3nm N3P 工艺作为主力,三星则计划以 2nm 工艺进行试产,两家工厂都设在美国本土,分别位于亚利桑那州和得克萨斯州,供应链风险降到了比较低的水平。

量产时间一再推迟,Cybertruck 和 Robotaxi 要等多久

从现在公布的数据来看,AI5 的硬件配置的确足够惊艳,但这套系统什么时候才能真正上车,目前还存在不确定性。马斯克曾在 2024 年 6 月公布 AI5 会在 2025 年下半年装车,但到了 2025 年底,大量量产时间又被推到了 2027 年年中。按照最乐观的预计,2026 年底会出现 AI5 的工程样片和小批量试产,但要储备几十万块 AI5 主板才能切换整车生产线,这也就意味着原定 2026 年量产的 Cybercab 和 Robotaxi,大概率还是会采用 AI4 硬件。

为了填补 AI5 推迟量产带来的空窗期,特斯拉在 2026 款 Model Y 上临时推出了 AI4.5 作为过渡方案,不过马斯克也给出了一个长期承诺,即从 AI6 开始,特斯拉会把芯片的设计周期压缩到 9 个月一代。这个说法在半导体行业里引起了不小的讨论,毕竟哪怕是苹果也维持着一年一次的芯片更新节奏。但特斯拉的逻辑在于,它的芯片设计只服务一个客户,迭代链比任何通用芯片公司都要短。如果这个节奏真的能跑通,特斯拉在车载 AI 芯片上的领先优势还将进一步扩大。

最后的话

从 HW1 到 AI5,特斯拉用了十一年,从 0.256 到 2500,算力增长曲线已经跳出了常规迭代的节奏。但算力本身不是终点,AI5 其实给我们回答了一个问题,那就是当自动驾驶从规则时代进入大模型时代,车载计算平台应该长什么样。答案不是堆更多的晶体管,不是塞更多冗余模块,而是针对单一任务做彻底的减法,把所有晶体管集中在一个目标上,让软件和硬件在同一个逻辑下协同进化。

声明:本文由太平洋号作者撰写,观点仅代表个人,不代表太平洋汽车。文中部分图片来自于网络,感谢原作者。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论