电动星球News 前天
理想i8单芯片2000TOPS算力,是吹牛吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

更深刻了解汽车产业变革

出品: 电动星球

作者:毓肥

这是一篇迟来的科普,但大家看完今天的文章,相信会对最近一个月的算力纷争,有更深刻的理解。

我们先回到半个月前的 i8 发布会。

发布会上理想汽车智能驾驶负责人郎咸朋表示,同样一颗 Thor 芯片,理想可以跑出 2000TOPS 的算力。

而自从 Thor 发布以来,标准版 Thor-U 一直以「700TOPS」的单芯片算力,出现在各种宣传口径中。

于是疑问随之而来:为什么理想说他们的 Thor-U 能跑 2000?到底是英伟达藏拙,还是理想「算错数」?

答案其实很简单:每一颗 Thor-U 都能跑到 2000TOPS,但又不是每一家车企的 Thor-U 都能马上跑到 2000TOPS。

进入 2025,辅助驾驶芯片竞争继续升温,而买车时除了车企之间纯粹的数字游戏,还有更多概念影响着辅助驾驶的理论能力。

我们今天要讲清楚的概念是:精度。

理想吹牛了?

聊英伟达和理想之前,我们要引入另外两个例子:高通和零跑。

今年 3 月份,零跑 B10 正式发布,它也是首批交付的,搭载高通 SA8650 辅助驾驶芯片的车型。

有意思的地方在于,如果你去搜索 SA8650 的算力,会得到两个数字:

100TOPS(稠密 INT8)、200TOPS(稀疏 INT8)——比如零跑官方一开始,就是按照 100TOPS 稠密 INT8 算力宣传 SA8650 的。

稠密算力的本职是对所有连续存储数据进行无差别计算,可以理解为一味埋头苦干的老实人;稀疏算力则是基于条件判断的动态计算,可以理解为只在效率最高的时候干活的精明人。

没错,芯片算力并不是固定的,在不同条件下,同一块芯片会跑出不一样的算力。

而理想号称 Thor-U 在他们手上能跑 2000TOPS 的原因,则在于「精度」这个条件。

精度可以简单理解为计算的详细程度,举个例子:

高精度计算,算出来我的身高 1.801234 米;

低精度计算,算出来我的身高 1.8 米。

在这个语境中,高低精度算出来的值,在应用层面(知道我身高如何)没有收益的区别,但却造成了计算过程的天差地别(一个用卷尺,另一个要用激光)。

也正是因为标准不同算法就不同,所以除了稀疏 / 稠密,还要再加上「精度」的综合考量,我们才能算出一块芯片具体工况下的算力。

再回到 i8 发布会,郎咸朋展示的 PPT 里面,在业界通用的 FP16 精度计算中,可以释放的 Thor-U 算力为 500TOPS。

FP16 是目前业界常用的高效率原始精度,而根据英伟达博客,Thor 更多程度上强调的是「FP8」精度。

在这个精度上,英伟达官方博客给的是 1000TOPS 算力,跟理想官方 PPT 相符。

而李想本人在微博则表示,由于理想官方使用的是「INT8 和 FP8 混合推理」,所以最终得到的算力是单芯片 700TOPS ——这就是过去一年来,各家车企们宣传的 Thor-U 实际算力。

事实上,理想做双精度混合推理也是正常操作。

其实回看各家车企对 Thor 的宣传,数字其实对应的都是混合精度,或者应该说偏向 INT8 精度的 700TOPS 算力。

一位智驾相关人士向我们提供的内部文档显示,Thor 芯片的纯 INT8 精度算力正好是 700TOPS。

之所以同一块 Thor 还会有不同的精度同时计算,本质还是因为,Orin X 的官方参数就是「254TOPS INT8 算力」。

上一代主要用的还是 INT8 精度,到了 Thor 这一代,则同时兼容 FP8 和 INT8 精度。

这也就引出下一个结论:不同精度之间的混合推理,同样也会对最终算力造成影响,也就造成了我们看到各种各样的算力数字。

原理我们就不过分展开了,可以简单地给大家总结下:主流推理环境下,INT8 的算力消耗会比 FP8 更大,而两种精度混合推理,则会进一步增加格式转换的开销。

再回到数字上,到目前为止,500、700、1000TOPS,都与英伟达和车企们宣传的口径一致。

那 2000TOPS 是哪里来的?

算力游戏与落地难度

答案很直白:精度都从 16 降到 8 了,那当然也可以从 8 降到 4 啊!

虽然用途不同(打游戏、辅助驾驶、AI 训练),但英伟达的芯片都会尽可能收敛到同一套架构中,比如 Thor 系列都基于 Blackwell 架构打造。

而 Blackwell 架构,是英伟达首次在架构层级兼容 FP4 精度。

在更低精度下,同一款芯片自然就可以跑出更高的算力。比如 Thor-U 就可以扶摇直上,跑出 2000TOPS 的惊人数字。

隔壁高通的 SA8650 其实也已经兼容 FP4 和 INT4 精度了,不过高通阵营各家宣传的,也还是 INT8 精度。

理论上,企业应该优先宣传最大参数,但算力层面,似乎大家都有点保守?

比如理想在 i8 发布会上提到的 2000TOPS 算力,其实没有归纳进今年主推的 VLA 司机大模型中,VLA 主要用的依然是 INT8/FP8 精度去跑算力。

这里岔开一下,特斯拉一直用的都是稠密 FP16 以及 BF16(谷歌也在用这个),这一点和华为 MDC 类似,所以这两家的算力很难直接拉出来跟英伟达高通地平线们相比。

芯片公司可以兼容超低精度,但目前看来 OEM 落地还是需要一段时间。李想本人的回应也是「未来我们会将精度逐渐往 FP4 去优化」,并未透露具体时间。

为什么?因为低精度很可能「出事」,特别是与安全息息相关的汽车。

事实上,FP4 和 FP8 看起来是等比缩小,但业界甚至还没有针对 FP4 制定出一个大家都接受的「标准格式」。

然后是训练阶段,目前业界甚至没有一个纯粹地用 FP4 训练出来的模型,因为这么低的精度非常容易造成崩溃。

目前整个人工智能业界对于 FP4 的探索,还聚焦在用 FP8 给 FP4 做兜底的混合推理,想要再往前一步,就要看英伟达、高通、AMD 们的最新芯片能卖多少了。

也正是如此,尽管 FP4 让算力暴涨,但业界其实还没有打开 FP4「潘多拉魔盒」的能力。特别是 2025 年,辅助驾驶体验其实还还远谈不上超越人类,整「花活」就更难了。

聊到这里,结论已经很简单:

理想没有吹牛,因为   2000TOPS 是 Thor-U 天生就有的能力。

另一方面,我们还要很久才能看到 Thor-U 发挥出 2000TOPS 的潜能,甚至可能永远都无法实现,因为 FP4 落地极其困难。

你当然可以认为这是李想画的饼,但理论跟工程之间始终有鸿沟。

但无论如何,Thor 还是你目前能买到最新一代、算力最强之一的智能驾驶芯片,而算力本身,又还远不是衡量一台车有多智能的唯一标准。

大家买车的时候,算力是最重要的维度吗?

(完)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

芯片 零跑 高通 英伟达 智能驾驶
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论