英伟达GPU要缺到什么时候？

自从 2022 年 11 月 Open AI 发布了 ChatGPT 以来，生成式 AI（人工智能）在全球范围内迅速普及。这些生成式 AI 是在搭载了 NVIDIA 等 AI 半导体的 AI 服务器上运行的。

然而，根据 TrendForce 于去年 2023 年 12 月 14 日发布的预测，AI 服务器的出货数量并没有如人们预期的那样增长。AI 服务器在所有服务器出货数量中所占比例预测为：2022 年为 6％，2023 年为 9％，2024 年为 13％，2025 年为 14％，2026 年为 16％（见图 1）。

图 1 服务器出货数量、AI 服务器比例以及 AI 芯片用晶圆比例来源：Joanna Chiao（TrendForce），" 台积电的全球战略和 2024 年半导体晶圆厂市场展望 "（TreendForce Industry Focus Information，2023 年 12 月 14 日）

关于这个原因，笔者在此前的文章中进行了如下分析：

这个原因可以归结为AI 半导体的供应瓶颈。目前，约占 AI 半导体 80％的 NVIDIA GPU 在台积电进行前后工艺。后端工艺包括了所谓的 CoWoS 封装，而这种 CoWoS 的产能成为了瓶颈。

此外，在 CoWoS 中，GPU 周围堆叠了多块 HBM（高带宽存储器）DRAM，这种 HBM 也被认为是瓶颈之一。

那么，为什么台积电的 CoWoS（Chip on Wafer on Substrate）产能一直不足呢？此外，尽管 DRAM 制造商有三家，即三星、SK 海力士和美光，为什么 HBM 还是不足呢？

本文将对这些细节进行讨论，并且将阐述为什么 NVIDIA 等 AI 半导体短缺将持续数年以上。

台积电的中间工序是什么？

图 2 显示了 NVIDIA GPU 在台积电的制造方式。首先，在前端过程中，GPU、CPU、内存（DRAM）等是单独制造的。在这里，由于台积电不生产 DRAM，因此它很可能从 SK 海力士等 DRAM 制造商那里获得 HBM。

图 2 2.5D-3D 界面的中间工序，如 NVIDIA GPU 资料来源：Tadashi Kamewada，" 下一代半导体封装和封装技术趋势与市场展望 "，科技研讨会，2024 年 2 月 6 日幻灯片

接下来，将 GPU、CPU、HBM 等键合在 " 硅中介层 " 上，其中 12 英寸硅晶圆被切割成方形（晶圆上的芯片，即 CoW）。硅中介层预制有连接芯片和硅通电极（TSV）的布线层。

这些工序被称为 " 中间工序 "。笔者对其中原因的解释是，中间工序被归类为后端工序，但在硅插层上形成的布线层等是使用前端工序的制造设备制造的。" 中间工序 " 一词之所以被使用，可能就是因为这一中间含义。

中间工序完成后，将中介层连接到基板（基板上的晶圆，即 WoS），并进行各种测试以完成 CoWoS 封装。

图 3 显示了 CoWoS 的横截面结构。在形成布线层和 TSV 的硅中介层上，键合了两个逻辑芯片，例如 GPU 和 CPU，以及堆叠了 DRAM 的 HBM。中介层通过 C4（受控塌片连接）铜凸块与封装基板连接，基板通过封装球与电路板连接。

图 3 CoWoS 结构与英伟达 GPU 等 AI 半导体的两大瓶颈资料来源：WikiChip

在这里，我们认为第一个瓶颈是中间工序中的硅中介层，第二个瓶颈是 HBM。下面将解释其基本原理。

中介层越来越大，

HBM 的数量也有所增加

图 4 显示了自 2011 年以来 CoWoS 如何经历代际变化。首先，我们可以看到硅中介层每一代都在变得越来越大，HBM 的搭载数量也在不断增加。

图 4 封装基板面积和 HBM 搭载数量不断增长资料来源：K C Yee（TSMC），"Advanced 3D System Integration Technologies"，IEDM SC1,2020 年 12 月 13 日

图 5 显示了从 CoWoS Gen 1 到 Gen 6 的 12 英寸晶圆中安装的逻辑芯片类型、HBM 标准和安装数量、硅中介层面积以及可获得的中介层数量。

图 5 CoWoS 代次、HBM 安装数量、12 英寸晶圆中介层数量

首先，可以看出，自第三代以来，HBM 的搭载数量持续增长了 1.5 倍。此外，HBM 的标准也发生了变化，性能也得到了提高（稍后会详细介绍）。此外，随着中介层面积的增加，可以从 12 英寸晶圆获得的中介层数量减少。

但是，该数值只是 "12 英寸晶圆的面积除以中介层的面积的值 "，实际得到的数值会更少。

图 6 举例说明了这一点：2023 年发布的第 6 代 CoWoS 中介层面积为 3400 平方毫米，如果是正方形，则为 58 毫米 x 58 毫米（58 毫米正方形）。如果将这个 58 毫米的正方形铺设在 12 英寸的晶圆上，晶圆边缘的所有中介层都将有缺陷。因此，一个 12 英寸晶圆上最多只能获得 9 个 58 平方毫米的中介层。

图 6 12 英寸晶圆能获得多少个中介层资料来源：Tadashi Kamewada，" 下一代半导体封装和封装技术趋势和市场展望 "，科学与技术研讨会，2024 年 2 月 6 日

此外，在中介层上形成布线层和 TSV，但良率约为 60-70%，因此从 12 英寸晶圆上可以获得的良好中介层数量最多为 6 个。

顺便提一下，采用这种 58 平方毫米的中介层制造的 CoWoS 的代表性 GPU 是英伟达的H100，该产品在市场上备受争夺，售价高达 4 万美元。

台积电的 CoWoS 产能不足

那么，台积电在 CoWoS 中间工序的产能有多大呢？产能足够吗？

在 2023 年 11 月 14 日举行的 DIGITIMES 研讨会 " 生成式 AI 浪潮中 2024 年全球服务器市场的机遇与挑战 "（Jim Hsiao）上，据估计，其产能将从 2023 年第二季度的每月 1.3 万至 1.5 万片晶圆翻番至 2024 年第二季度的每月 3 万至 3.4 万片晶圆，从而缩小英伟达 GPU 的供需缺口。

然而，这种前景还很遥远。这是因为，截至 2024 年 4 月，NVIDIA 仍然没有足够的 GPU。而 TrendForce 集邦咨询在 4 月 16 日的新闻中表示，到 2024 年底，台积电的 CoWoS 产能将达到每月 40K 左右，到 2025 年底将翻一番。毕竟，台积电的中间工序产能是不够的。

此外，TrendForce 的这则消息还提到，继 "H100 " 之后，台积电还将推出下一代 "B100 " 和 "B200"，而这些中介层的尺寸可能比 58 平方毫米的还要大。这意味着，从 12 英寸晶圆上可以获得的优质中介层数量将进一步减少，因此即使台积电拼命尝试增加 CoWoS 产能，也无法拥有足够的 GPU 来满足需求。可以说，这款 GPU CoWoS 中介层的巨大需求和台积电产能的增加，无论走多远都是一场 " 猫捉老鼠的游戏 "，是一场永无止境的比赛。

为了结束这种 " 猫捉老鼠的游戏 "，有人建议使用 515 × 510 毫米的方形基板代替 12 英寸晶圆作为中介层。此外，英特尔公司还提议使用矩形玻璃基板。当然，如果可以使用大型矩形基板，则可以比圆形 12 英寸晶圆更有效地获得大量中介层。

然而，要在矩形基板上形成布线层和 TSV，需要专门的制造设备和运输系统。考虑到这些准备工作耗时长、成本高、难度大，因此目前看来 " 猫捉老鼠的游戏 " 并没有尽快解决的好办法。

现在，我想解释一下 HBM 的情况，这是另一个瓶颈。

HBM 的路线图

和 DRAM 制造商的命运

如图 4 和图 5 所示，HBM 的数量随着 CoWoS 的产生而增加，这也导致了中介层面积的扩张。DRAM 制造商仅仅按照相同的标准制造 HBM 是不够的：随着 CoWoS 的发展，他们必须提高 HBM 各方面的性能。HBM 路线图如图 7 所示。

图 7：HBM 路线图和 HBM 堆叠的 DRAM 数量来源：报告 "HBM 技术与容量发展 "（2024 年 1 月），DIGI TIMES Research，"HBM 技术与容量发展 "（2024 年 1 月）

首先，HBM 必须提高每秒交换数据的带宽，以配合 GPU 性能的提高。具体来说，2016 年 HBM1 的带宽为 128 GB/s，而 HBM3E 的带宽将扩大约 10 倍，达到 1150 GB/s，将于 2024 年发布。

接下来，HBM 的内存容量（GB）必须增加。为此，有必要将堆叠在 HBM 中的 DRAM 芯片数量从 4 个增加到 12 个。下一代 HBM4 的 DRAM 层数预计将达到 16 层。

此外，HBM 的 I/O 速度（GB/s）也必须提高。为了同时实现所有这些目标，我们必须不惜一切代价实现 DRAM 的小型化。图 8 显示了按技术节点划分的 DRAM 销售比例的变化。2024 年将是从 1z （15.6 nm）切换到 1 α （13.8 nm）的一年。之后，小型化将以 1 nm 的增量进行，例如 1 β （12.3 nm）、1 γ （11.2 nm）和 1 δ （10 nm）。这可能是 DRAM 厂商的命运。

图 8 按技术节点划分的 DRAM 销售额百分比（%）来源：作者根据 Yole Intelligence 的数据创建

请注意，括号中的数值是该代 DRAM 芯片中实际存在的最小加工尺寸。如今，器件分离的半间距（hp）是最小的，因此该尺寸已成为技术节点。另一方面，例如在逻辑芯片中，即使台积电说它正在批量生产 3 纳米的芯片，但在芯片的任何地方都找不到 3 纳米的证据。换句话说，逻辑芯片的技术节点只是一个产品名称。

EUV 也开始应用于 DRAM

话题有些偏离，但 DRAM 制造商为了实现高度集成和高速化，确实需要进行 1 纳米级微细化。因此，为了形成微细图案，已经开始应用 EUV（极紫外光）光刻技术（见图 9）。

图 9 各 DRAM 制造商应用 EUV 的层数来源：基于 Yole Intelligence 的数据创作

最早开始在 DRAM 中使用 EUV 技术的是三星，他们在 Gen 1z 只应用了一层。然而，这只是三星的逻辑芯片厂为了进行 EUV 应用的练习而借用的一个巨大的 DRAM 生产线，最大产量为每月 1 万块。因此，三星真正意义上开始在 DRAM 中使用 EUV 是从 1 α 开始的，那时他们使用了 5 层 EUV。

接下来，拥有 HBM 市场份额领先地位的 SK 海力士在 1 α 时期应用了一层 EUV。而今年 2024 年，他们计划转向 1 β，似乎打算在 3-4 层上应用 EUV。因此，此前只拥有几台 EUV 的 SK 海力士计划在 2024 年引入10 台EUV。值得一提的是，由于三星还有逻辑芯片厂，他们可能拥有30 台以上的 EUV。

最后，美光为了尽快推进技术节点，一直采取尽量不使用 EUV 的策略。实际上，他们在 1 β 阶段也不使用 EUV。此外，在 1 γ 开发阶段，原计划也不使用 EUV，而是采用 ArF 液浸 + 多重曝光技术，但由于技术上的难度逐渐增加，同时生产率的提升也变得困难，因此预计从 1 γ 开始引入 EUV。

这三家 DRAM 制造商目前使用的（或计划使用的）EUV 的镜头开口数（NA）为 0.33，但预计在 2027 年至 2028 年后期会考虑转向 High NA。这样，DRAM 制造商的微细化将持续不断。

那么，使用这样的最先进工艺，将能够生产多少 HBM 呢？

DRAM 出货额

和 HBM 出货额

在图 10 中，显示了 DRAM 出货额、HBM 出货额以及 HBM 占 DRAM 出货额比例。正如前文所述，ChatGPT 于 2022 年 11 月发布，并且结果是，2023 年 NVIDIA 的 GPU 大获成功。

图 10 DRAM 出货额、HBM 出货额、HBM 比例（％）来源：基于 Yole Intelligence 数据，作者制作

与此同时，HBM 出货额也迅速增长。2022 年 HBM 出货额为 27.5 亿美元（占 3.4％），到了 2023 年增长了近两倍，达到 54.5 亿美元（占 10.7％），2024 年更是急剧增长到 140.6 亿美元（占 19.4％）以上（括号内为 HBM 占 DRAM 出货额比例）。

关注 DRAM 出货额，可以看到在 2021 年因冠状病毒特需而达到顶峰，但到了 2023 年，特需结束后出货额大幅下降。之后，出货额逐渐回升，预计到 2025 年将超过 2021 年的峰值。而在 2026 年后，尽管会有些许波动，但将持续增长，预计到 2029 年将超过 1500 亿美元。

另一方面，预计 HBM 出货额将在 2025 年后继续增长，但 HBM 占 DRAM 出货额比例在 2027 年后将饱和在 24-25％。这是为什么呢？

各种 HBM 的出货量

和 HBM 的总出货量

通过查看图 11 所示的各种 HBM 的出货量以及 HBM 出货总量的变化，可以解开这个谜团。

图 11 各种 HBM 的出货量以及 HBM 的出货总量来源：基于 Yole Intelligence 数据，作者制作

首先，到 2022 年为止，主要出货的是 HBM2。接着，在 NVIDIA 的 GPU 于 2023 年大热之后，HBM2E 取代 HBM2 成为主角。然后，在 2024 年到 2025 年之间，HBM3 将成为主流。再者，到 2026 年到 2027 年之间，HBM3E 的出货量最多，而 2028 年开始则由 HBM4 主导。

也就是说，HBM 大致上以两年为周期进行世代更替。这意味着 DRAM 制造商不仅需要在微细化方面以 1 纳米为单位前进，还需要每两年更新一次 HBM 的规格。

因此，从图 11 可以明显看出，HBM 的出货总量在 2025 年后几乎没有增长。这并不是 DRAM 制造商懈怠的结果，而是因为他们需要全力生产最先进的 DRAM，同时还要制造最先进的 HBM。

此外，导致 HBM 出货总量在 2025 年后增长不大的原因之一是，堆叠在 HBM 内的 DRAM 芯片数量增加了（见图 12）。随着 GPU 性能的提升，HBM 的内存容量（GB）也必须增加，因此 HBM 内的 DRAM 堆叠层数从 HBM2 和 HBM2E 的 4 至 8 层增加到 HBM3 和 HBM3E 的 8 至 12 层，最后到 HBM4 则为 16 层。

图 12 各种 HBM 的内存容量（GB）以及 HBM 内的 DRAM 芯片堆叠层数来源：基于 Yole Intelligence 数据，作者制作

也就是说，HBM2 只需要 4 至 8 层 DRAM，但到了 HBM4 则需要 2 至 4 倍的 16 层 DRAM。因此，DRAM 制造商在 HBM4 时代可能会生产 2 至 4 倍于 HBM2 时代的 DRAM，但 HBM 的出货量可能会保持相同水平。

综上所述，由于 DRAM 持续以 1 纳米为单位进行微细化，HBM 大约每两年进行世代更替，以及 HBM 内的 DRAM 随着世代增加，预计 2025 年后 HBM 的出货总量将达到饱和。

那么，HBM 短缺会持续下去吗？DRAM 制造商不能进一步增加 HBM 的出货量吗？

DRAM 制造商迫切希望

大规模生产 HBM

虽然已经解释了 DRAM 制造商无法迅速增加 HBM 出货量的原因，但即便如此，DRAM 制造商仍将挑战其极限，全力以赴地量产 HBM。这是因为HBM 的价格非常高昂。

图 13 展示了各种 HBM 和常规 DRAM 每 GB 平均价格的对比图表。无论是常规 DRAM 还是 HBM，它们在发布时的每 GB 价格都是最高的。虽然趋势相同，但常规 DRAM 和 HBM 每 GB 的价格相差20 倍以上。需要注意的是，在图 13 中，为了比较常规 DRAM 和 HBM 每 GB 的平均价格，将常规 DRAM 的价格放大了 10 倍并标记在图表上。

图 13 各种 HBM 和常规 DRAM 每 GB 平均价格的对比来源：基于 Yole Intelligence 数据，作者制作

直接比较发布后价格最高的情况，常规 DRAM 每 GB 的价格为 0.49 美元，而 HBM2 为其约 23 倍的 11.4 美元，HBM2E 为约 28 倍的 13.6 美元，HBM4 则为 30 倍的 14.7 美元。

此外，图 14 展示了各种 HBM 的平均价格图表。在价格最高的情况下，HBM2 为 73 美元，HBM2E 为 157 美元，HBM3 为 233 美元，HBM3E 为 372 美元，而 HBM4 则高达 560 美元。

图 14 各种 HBM 和常规 DRAM 每 GB 平均价格的对比来源：基于 Yole Intelligence 数据，作者制作

图 15 显示了 HBM 的价格有多昂贵。例如，DRAM 制造商在 1z 工艺下生产的 DDR5 16GB 的 DRAM 的价格最多为 3 至 4 美元。然而，今年（2024 年），SK 海力士发布的 HBM3E 却高达其 90 至 120 倍的 361 美元。

需要说明的是，DDR（Double Data Rate）是内存标准的一种。数据传输速度越来越快，DDR5 比 DDR4 快 2 倍，DDR6 比 DDR5 快 2 倍。2024 年是从 DDR4 转向 DDR5 的一年，DRAM 制造商需要不断更新 DDR 标准。

图 15 各种半导体的工艺、芯片尺寸、晶体管数量（位数）、平均价格的对比

回到 HBM，HBM3E 使用 TSMC 最先进的 3nm 工艺生产，与最新款 "iPhone 15" 用的 "A17 Bionic" AP（应用处理器）几乎相同的芯片尺寸，但价格高达其 3.6 倍。相比于先进的逻辑芯片，DRAM 的 HBM 更昂贵，这令人震惊。因此，由于这种高昂的价格，DRAM 制造商将全力以赴增加 HBM 的出货量，以夺取 HBM 的主导地位。

让我们来看看三家 DRAM 制造商的路线图。

DRAM 制造商争夺 HBM

图 16 展示了在 2015 年至 2024 年期间，三家 DRAM 制造商是如何生产 HBM 的。

图 16 SK 海力士、Samsung、Micron 的 HBM 路线图来源：DIGITIMES Research, "HBM Technology and capacity development"（2024 年 1 月）报告中的图表

首先成功量产 HBM1 的是 SK 海力士。然而，在 HBM2 时代，三星比 SK 海力士更早实现了量产。然后，在 2023 年 NVIDIA 的 GPU 大获成功时，SK 海力士恰巧比其他公司更早实现了 HBM3 的量产。这使得 SK 海力士获得了巨大利益。结果，DRAM 冠军三星落后了。

另一方面，另一家 DRAM 制造商美光最初开发的是与 HBM 不同的 HMC（混合内存立方体）标准。然而，美国半导体标准化推进组织 JEDEC（联合电子设备工程委员会）正式认证了 HBM 而非 HMC 的标准。因此，美光从 2018 年开始放弃了 HMC 的开发，并在大幅落后于韩国两家制造商之后参与了 HBM 的开发。

根据 2024 年 3 月 20 日 Bloomberg 的报道，HBM 的市场中，SK 海力士占 54％，三星占 41％，美光占 5％。

市场份额排名第一的 SK 海力士于 2023 年在 NAND 工厂 M15 开始生产 HBM。此外，他们计划在 2024 年上半年发布 HBM3E。而在 2025 年，他们计划将目前正在建设中的 M15X 工厂改造为专用的 HBM 工厂，用于生产 HBM3E 和 HBM4。

另一方面，希望赶上 SK 海力士的三星于 2023 年开始在 Samsung Display 工厂生产 HBM，并计划在 2024 年将 HBM 产能扩大两倍，在 2025 年比 SK 海力士更早开始量产 HBM4。

落后的美光则跳过了 HBM3，计划在 2024 至 2025 年通过 HBM3E 竞争，并在 2025 年争取获得 20％的市场份额。此外，在 2027 至 2028 年间，他们计划通过量产 HBM4 和 HBM4E 来赶上领先的韩国两家制造商。

通过三家 DRAM 制造商的激烈竞争，可能打破 HBM 出货总量饱和的状态，从而有望解决 HBM 短缺问题。

NVIDIA 的 GPU 短缺

会持续多久？

本文解释了全球范围内 NVIDIA GPU 等 AI 半导体短缺的原因。这些原因可以总结为以下两点：

1）NVIDIA 的 GPU 采用台积电的 CoWoS 封装技术。然而，CoWoS 的产能完全不足。原因在于，GPU、CPU、HBM 等芯片所搭载的硅中介层随着世代更新而变得越来越大。台积电正试图增加这种中间工艺的产能，但随着 GPU 世代的更新，中介层也会变得更大，这可能导致一直处于 " 你追我赶 " 的状态。

2）搭载在 CoWoS 中的 HBM 也存在短缺。原因是，DRAM 制造商不仅需要以 1nm 的微细度进行持续缩小，还必须每两年更新一次 HBM 的规格，同时随着世代的变化，HBM 中的 DRAM 芯片也在增加。DRAM 制造商正在全力生产 HBM，但据预测，到 2025 年后 HBM 的供应将达到饱和。然而，由于 HBM 价格极高，DRAM 制造商正展开激烈的竞争，这可能有助于解决 HBM 短缺问题。

因此，导致 NVIDIA 的 GPU 短缺的瓶颈问题包括台积电中间工艺产能不足和 HBM 短缺这两点，但这些问题短时间内很难解决。因此，预计 NVIDIA 的 GPU 短缺将持续数年（甚至更长时间？）。

领取 100G 半导体产业资料包

来源：内容由芯世相（ID：xinpianlaosiji）编译自「eetimes japan」，作者：汤之上隆

▶

宙世代

智慧云

相关标签