各位小伙伴们,大家好哈。
今天我们来聊聊 AI 芯片的算力。
算力时代,AI 算力的重要性不言而喻。而AI 算力的核心命脉—— AI 芯片,已成为全球科技竞逐的焦点。
但最近,美国对华的芯片禁令限制使得中国企业面临算力供应的不确定性,随着美国进一步限制 AI 芯片对中国销售,NVIDIA 只能进一步阉割芯片性能来为中国定制 AI 芯片。
那么,目前国内的 AI 芯片发展如何呢?国产 AI 芯片是否像他们宣称的一样,性能已经可以媲美 NVIDIA GPU 了吗?
今天我就跟大家聊聊,国产 AI 芯片和英伟达的差距在哪里?有多大?
一、算力性能:差距显著
单卡算力密度
首先,单卡性能方面,咱们得承认,国产 AI 芯片和英伟达的还是有不小的差距。这也是为什么阉割版的 H20 在国内依然一卡难求的原因。下图是英伟达主流 AI 芯片的参数情况:
可以看到,A100 是最差的,但表现已经非常出色了,FP16 算力高达 312T,NVLINK 带宽高达 600GB/S,功率是 400W,至于 GB200,则是最强的,FP16 算力达到 5P,NVLINK 带宽是 3.6TB/S,功率是 2700W。
那国内 AI 芯片的性能如何呢?
下面是网友总结的部分国产 AI 芯片的参数,也许不是最新的,但是我们可以拿来参考。
我们可以看到,目前英伟达主流的 H100 ( SXM ) 的 FP16 算力达 1979 TFLOPS,是华为昇腾 910B 的 5.2 倍。若以 2024 年发布的 Blackwell 平台为例,其训练 1.8 万亿参数的 GPT-4 模型时,能耗较 Hopper 架构降低 50%,而国产昇腾 910B 的升级周期长达 4 年。
网友表示: "用英伟达芯片训练模型,就像开超跑飙车;国产芯片还在学制造汽车。"
所以说,不吹不黑,单说性能等,国产 AI 芯片,远远不是英伟达的对手,即便英伟达拿出最差的 A100 出来,都能将大家打趴下,国产 AI 芯片在性能方面还都是小弟级别。
集群扩展能力
AI 算力,除了看单卡的能力,更重要的还是看集群扩展的能力,而在集群扩展能力方面,差距依然巨大。
英伟达 NVLink 技术提供 900GB/s 的卡间互联带宽,支撑千卡集群训练效率超 90%;而国产芯片(如昇腾)的互联带宽仅 200GB/s,千卡集群效率不足 30%。而且全球 TOP500 超算中,英伟达支撑 346 台,国产千卡集群尚未见成熟案例。
在今年的 COMPUTEX 2025 台北国际电脑展上,英伟达推出 NVLink Fusion,NVLink Fusion 的问世为客户构建英伟达与第三方半定制混合 AI 基础设施提供了可能。对于决定开展芯片定制化的大型客户,能以 NVLink 的形式参与到其中,既可以有芯片定制化的 IP 收入,又可以有 NVLink switch 的收入,更重要的是可以深入参与到客户的芯片定制化中,更加精准地提供更好的芯片方案。
为了提升集群的计算能力,华为也在努力将 AI 系统的性能推向极致。说的简单点,就是单个 GPU 比不过,那就用数量来 " 凑 "。
在 4 月份,华为发布了基于昇腾 910C 构建的 CloudMatrix 384,这个集群采用全互连拓扑结构。这种设计虽然意味着每个昇腾 GPU 的性能只有英伟达 Blackwell 的三分之一,但凭借数量上的优势,整体性能得到了显著提升。
在集群方面,性能上的差距并不是不可逾越的鸿沟。随着技术的不断进步和研发的不断投入,国产 AI 芯片的性能也在不断提升。说不定哪天,咱们就能用上性能媲美甚至超越英伟达的国产 AI 芯片了呢!
二、生态壁垒:CUDA 的 " 软实力帝国 "
开发者生态
有一种说法是"CUDA 是 Nvidia 最深的护城河 "。我个人很赞同这种说法,了解越多越赞同。
CUDA 生态积累 20 年,覆盖全球 400 万开发者、5.6 万开源项目,而昇腾 CANN 生态适配仅 30 余个大模型,工具链完善度不足 CUDA 的 60%。迁移至国产平台需重构 70% 代码,成本相当于三个程序员年薪。
比起硬件算力的差距,软件生态上的差距更让人绝望。当 CUDA 几乎与 AI 画等号的时候,会有大量的社区力量为其助力。这就是一种良性循环:好的性能带来好的生态,好的生态会有助于更好的性能。
软件适配
英伟达提供 400+ 专用库(如 cuDNN),国产配套工具不足其 1/3,适配周期长达数月。例如,百度文心一言、阿里通义千问等大模型仍依赖英伟达 H100 集群。
三、市场现状:份额与技术的双重失衡
市场占有率
2025 年 5 月,IDC 发布的 2024 年中国 GPU 市场数据。数据显示,在 AI 芯片这片激烈竞争的战场上,英伟达的销量占比达 70%,华为昇腾以 23% 的销量份额成为当之无愧的 " 亚军 ",成为国产芯片的领军者。
除了华为昇腾,天数、寒武纪、沐曦、燧原、太初、摩尔线程等国产芯片厂商也在不断发力,但它们的市场份额目前合计只有 7% 左右。这些厂商在不同的细分领域深耕,有的专注于云端 AI 芯片,有的专注于边缘端 AI 芯片,为中国 AI 芯片市场的多元化发展做出了贡献。
产品迭代速度
在产品更新换代方面,英伟达已经形成了比较成熟的更新频率,英伟达 2023 年发布 H200(显存 141GB HBM3),2024 年推出 Blackwell 平台;而国产昇腾 910B 自 2019 年推出后,升级版 910B 直至 2023 年才小规模应用,其它厂商的产品迭代更是目前没有一个清晰的路线图。
四、技术瓶颈:制造与架构的双重制约
先进制程差距
英伟达已迈入 4nm 工艺,国产芯片多停留在 7nm/14nm。例如,昇腾 910B 采用 14nm 工艺,而英伟达 H200 的 4nm 工艺使其晶体管密度提升 3 倍。
封装技术短板
英伟达 GB200 芯片集成 2080 亿晶体管,算力达 H100 的 6 倍;国产芯片在 Chiplet(芯粒)和存算一体等前沿技术上仍处实验室阶段。
五、国产 AI 细腻品突围路径
政策支持
国家大基金二期向 AI 芯片倾斜,目标 2025 年实现 7nm 量产、5nm 突破。2025 年一季度国产 AI 芯片采购量同比激增 210%,市场份额升至 27%。
场景突破
推理场景:昇腾 910B 在政务、金融领域实现规模化部署,推理效率媲美英伟达。
行业定制:讯飞星火 X1 大模型通过算法优化,在国产算力平台以更少资源达到国际效果。
结语:差距缩小,但硬仗才刚刚开始 ?
尽管国产芯片在推理、边缘计算等场景逐步缩小差距(如寒武纪思元 370 能效比超 A100 的 85%),但高端训练、生态成熟度仍落后 3-5 年。这场 " 算力战争 " 的胜负,取决于国产厂商能否在 3nm 工艺、Chiplet 封装、全栈工具链等核心领域实现突破,同时构建开发者生态的 " 护城河 "。
正如业内人士所言:" 国产芯片已从‘不能用’走向‘勉强用’,但要挑战英伟达,仍需一场长征。"
登录后才可以发布评论哦
打开小程序可以发布评论哦