公众号记得加星标⭐️,第一时间看推送不会错过。
在 AI 模型参数量呈指数级增长的时代背景下,数据中心正经历一场从 " 算力至上 " 向 " 带宽驱动 " 的深刻变革。在这场算力架构革新的浪潮中,HBM(High Bandwidth Memory,高带宽存储器)正悄然崛起,成为支撑大模型计算的核心基础设施。
步入 " 后 AI" 时代,HBM 已不仅仅是高性能 AI 芯片(如 GPU、TPU)的标配组件,更演变为半导体巨头间激烈角逐的战略制高点。
无论是三星、SK 海力士,还是美光,这些存储领域的领军企业都不约而同地将 HBM 视为未来营收增长的关键引擎。它们似乎达成了一个共识:要想在存储市场称霸,就必须率先掌握 HBM 这一核心技术。
那么,在这场没有硝烟的竞争中,都有哪些技术值得关注呢?让我们一起来深入分析分析。
定制化是唯一出路?
定制化可能是 HBM 的最终归宿之一。
事实上,早在两年多以前,HBM 初步崭露头角之际,海力士和三星就讨论过定制化这一趋势,伴随着云巨头纷纷定制自己的 AI 芯片,对 HBM 的需求只增不减,定制化借此成为了必然需求之一。
而在去年 8 月,SK 海力士副总裁柳成洙表示:" 所有 M7(Magnificent 7,指的是标准普尔 500 指数中的七大科技股:苹果、微软、谷歌 Alphabet、亚马逊、Nvidia、Meta 和特斯拉。)公司都来找我们,要求我们做定制 HBM(高带宽内存)。"
而在今年 6 月,韩国媒体表示,SK 海力士已同时锁定了英伟达、微软(MS)、博通(Broadcom)等有望成为定制 HBM 市场 " 重量级客户 " 的公司。其近期已与英伟达、微软、博通达成协议,将向其供应定制型 HBM,并已开始根据各家公司的需求开展设计工作。
据悉,SK 海力士是以其最大客户英伟达的供货计划为核心,优先确定其他客户名单。业内人士表示:" 考虑到 SK 海力士的产能以及各大科技公司 AI 服务的推出时程,无法一口气满足 M7 全部客户的需求 ",但也指出 " 考虑到 HBM 市场情况的变动,未来或将新增若干客户 "。
SK 海力士也在今年 4 月宣布,从第七代 HBM(HBM4E)开始将转向定制化,其已和台积电展开合作。计划在 HBM4 基础裸片上采用台积电的先进逻辑(Logic)工艺,预计其首批定制 HBM 产品预计将于明年下半年问世,
值得一提的是,由于 SK 海力士成功拿下了多家重量级客户,其在下一代定制 HBM 市场中延续主导地位的可能性大大提升。根据 TrendForce 的数据,SK 海力士目前在 HBM 市场的占有率约为 50%,远超三星电子(30%)和美光(20%)。若仅看最新的 HBM3E 产品,SK 海力士的市占率更是高达 70%。
另一方面,三星电子也被曝正就定制 HBM 的供应问题与多家客户进行讨论。鉴于其近期已成功向全球第二大 AI 芯片厂商 AMD 供应 HBM3E,业界预计其不久后也将拿下 HBM4 及定制 HBM 的客户。据称,目前三星已在就 HBM4 产品与博通、AMD 等客户进行具体协商。
与两家韩国厂商相比,远在美国的美光显得迟钝了不少。今年 6 月,美光云内存业务部高级副总裁兼总经理 Raj Narasimhan 表示,HBM4 的生产计划将与客户的下一代 AI 平台准备情况紧密结合,以确保无缝集成和及时扩大产量以满足市场需求。
其表示,除了向主流客户提供最新的 HBM4 之外,客户还在寻求定制版本,下一代 HBM4E 的开发也正在进行中。与特定客户合作开发定制化的 HBM 解决方案,将进一步提升内存产品的价值。
这时候,可能很多人想问了,定制 HBM 都有哪些好处,为什么 DRAM 厂商和云巨头都趋之若鹜呢?
受限需要明确的是,定制化 HBM(cHBM)的关键在于将基础芯片(base die)的功能集成进由 SoC 团队设计的逻辑芯片(logic die)中。这包括控制 I/O 接口、管理 DRAM 堆叠、以及承载用于诊断和维护的直接访问(DA)端口。
这一集成过程需要与 DRAM 厂商紧密合作,但它赋予 SoC 设计人员更大的灵活性和更强的对 HBM 核心芯片堆栈访问的控制能力。设计人员可以更紧密地集成内存与处理器芯片,并根据具体应用在功耗、性能与面积(PPA)之间进行优化。
SoC 设计人员可以自由配置和实例化自己的 HBM 内存控制器,通过 DFI2TSV 桥接与 HBM DRAM 堆栈直接交互。逻辑芯片还可以集成增强功能,如可编程的高质量内建自测试(BIST)控制器、芯粒间适配器(D2D adapter)以及高速接口(如通用芯粒互连标准 UCIe),从而实现与处理器芯片在完整 3D 堆栈中的通信。由于该芯片使用逻辑制程而非 DRAM 制程制造,因此可以复用现有设计。
而定制 HBM 的一个重要优势在于显著减少中介层(interposer)在数据路径中引入的延迟,降低相关的功耗与性能损失。它通过复用现有的高速裸芯片互连(如 UCIe),有效地将内存与处理器芯片距离拉近。这种灵活性可应用于多种场景,比如云服务提供商用于边缘 AI 应用,对成本和功耗要求极高的场合,以及用于复杂 AI/ 机器学习计算场景,追求最大容量和吞吐率的系统等。
不过,定制 HBM 目前也面临着一些挑战,其整个理念仍属新兴,技术也处于早期发展阶段。如同所有创新一样,前路必然伴随挑战。将基础芯片功能集成至逻辑芯片意味着终端用户需从芯片生命周期管理(SLM)的视角考量整个生命周期——从设计、试产、量产,到现场应用。例如,在晶圆级 HBM 芯片堆叠后,DRAM 单元缺陷的筛查责任将落到终端用户身上。这带来了一些问题,比如用户该如何处理供应商推荐的特定 DRAM 算法?以及用户能否在计划性停机期间,进行全面的 HBM 现场测试与诊断?
目前来看,要成功部署定制 HBM,需要一个完整的生态系统,汇集 IP 提供商、DRAM 厂商、SoC 设计方以及 ATE(自动测试设备)公司。例如,由于互连数量多、密度高,传统 ATE 已无法用于定制 HBM 测试。
总而言之,定制 HBM 已经成为一大趋势,不论厂商是否喜欢,它都将在 HBM4 标准中占据相当重要的地位。
混合键合,绕不开的技术难题?
除了定制化外,混合键合(Hybrid Bonding)也是未来 HBM 重要的发展方向之一。
目前,随着堆叠层数的不断增加,传统焊接技术面临显著的挑战。目前所使用的助焊剂(Flux)虽能去除金属表面氧化物并促进焊料流动,但其残留物会引发堆叠间隙增大、热应力集中等问题,尤其在高带宽内存(HBM)等精密封装领域,这一矛盾更为突出。
而包括三星、SK 海力士甚至是美光,都在考虑在下一代 HBM 中采用混合键合技术。
先来了解一下目前 HBM 芯片的键合技术。在传统的倒装芯片键合中,芯片被 " 翻转 ",以便其焊料凸块(也称为 C4 凸块)与半导体基板上的接合焊盘对齐。整个组件被放置在回流炉中,并根据焊料材料均匀加热至 200 º C-250 º C 左右。焊料凸块熔化,在接合和基板之间形成电气互连。
随着互连密度的增加和间距缩小到 50 µ m 以下,倒装芯片工艺面临一些挑战。由于整个芯片封装都放入烤箱中,芯片和基板会因热量而以不同的速率膨胀(即不同的热膨胀系数,CTE),从而产生变形,导致互连出现故障。然后,熔融焊料会扩散到其指定区域之外。
这种现象称为焊料桥接,会导致相邻焊盘之间出现不必要的电连接,并可能造成短路,从而导致芯片出现缺陷。这就是 TCB(Thermal Compression Bonding 热压键合)工艺发挥作用的地方,因为它可以解决间距缩小到某个点以下时倒装芯片工艺出现的问题。
TCB 的优势在于,热量是通过加热工具头局部施加到互连点上,而不是在回流焊炉(倒装芯片)中均匀施加。这样可以减少向基板的热量传递,从而降低热应力和 CTE 挑战,实现更强大的互连。对芯片施加压力以提高粘合质量并实现更好的互连。典型的工艺温度范围在 150 º C-300 º C 之间,压力水平在 10-200MPa 之间。
TCB 允许的接触密度比倒装芯片更高,在某些情况下每平方毫米可达到 10,000 个接触点,但更高精度的主要缺点是吞吐量较低。虽然倒装芯片机每小时可以达到超过 10,000 个芯片的吞吐量,但 TCB 的吞吐量则在 1,000-3,000 个芯片的范围内。
标准的 TCB 工艺还需要使用助焊剂。在加热过程中,铜可能会氧化并导致互连故障,助焊剂是一种用于去除铜氧化物的涂层。但当互连间距缩小到 10 µ m 以上时,助焊剂会变得更难清除,并会留下粘性残留物,这会导致互连发生微小变形,从而造成腐蚀和短路。
无助焊剂键合技术(Fluxless Bonding)由此应运而生,但无助焊剂键合技术只能进一步缩小间距尺寸至 20 μ m,最大可达 10 μ m,仅能作为过渡技术来使用,而当 I/O 间距小于 10 μ m 时,就需要用到混合键合技术了。
混合键合技术通过铜与铜的直接连接(copper-to-copper bonding),实现 DRAM 芯片堆叠,无需传统的凸点(bump)结构,这种方式不仅能显著缩小芯片尺寸,还能将能效与整体性能提升一倍以上。
据业内人士透露,截至 5 月 7 日,三星电子与 SK 海力士正推进将混合键合技术用于其下一代 HBM 产品的量产。预计三星最快将于明年在 HBM4(第六代 HBM)中采用该技术,而 SK 海力士则可能在第七代产品 HBM4E 中率先引入。
当前的第五代 HBM —— HBM3E 仍使用热压键合技术,在芯片间通过加热加压及凸点连接方式进行固定堆叠。三星主要从其子公司 SEMES 以及日本新川电机(SHINKAWA)采购 TC 设备,SK 海力士则依赖韩美半导体和韩华半导体。而向英伟达提供 HBM 的美国美光(Micron)也采购韩美和新川的设备。
随着混合键合市场的初步开启,该技术有望引发半导体设备领域的一场重大洗牌。一旦成功导入,混合键合将可能成为未来 HBM 堆叠的主流工艺。
为抢占先机,美国的应用材料公司已收购全球唯一具备混合键合先进设备量产能力的企业——荷兰 Besi 公司 9% 的股份,并率先将其混合键合设备导入系统级半导体市场,抢占应用先机。
与此同时,韩美半导体与韩华半导体也在加速研发下一代芯片堆叠设备,这两家韩国厂商不仅在迅速推进混合键合设备研发,还在积极开发无助焊剂键合设备,以此来增强市场竞争力。
如果说定制化 HBM 是 DRAM 厂商和云巨头间的角力的话,那么混合键合就是 DRAM 厂商与键合设备厂商之间的对弈,伴随着 HBM 在今年下半年正式迈入 HBM4 时代,混合键合所受到的关注度可能会进一步提高。
还有哪些新技术?
值得一提的是,在今年 6 月,韩国国家级研究机构——韩国科学技术院(KAIST)发布了一份长达 371 页的研究论文,系统性地描绘了 HBM 技术从 HBM4 一路发展到 HBM8 的演进路径。内容涵盖带宽、容量、I/O 接口宽度、热设计等方面的提升,以及封装方式、3D 堆叠结构、嵌入式 NAND 存储的内存中心架构,甚至包括基于机器学习的功耗控制方法。
值得强调的是,这份文档并非商业公司发布的产品路线图,而是基于目前产业趋势和科研进展,对未来 HBM 技术潜在演变的学术预测,但它也足以让我们一窥未来 HBM 的可能发展方向。
先来看下 HBM4 至 HBM8 的各代产品技术特色:
HBM4:定制化设计的先锋
HBM4 作为新一代 HBM 技术的开端,最大的创新在于定制化基础裸片设计。通过集成 NMC(近存计算)处理器和 LPDDR 控制器,HBM4 实现了对 HBM 和 LPDDR 的直接访问,无需 CPU 介入。这一设计显著减少了数据传输延迟,提升了整体系统效率。
HBM4 支持多种灵活的数据传输模式,包括 GPU 与 HBM 的直接读写、HBM 与 LPDDR 间的数据迁移,以及 GPU 通过 HBM 间接访问 LPDDR。双命令执行能力的引入进一步提升了多任务处理效率,为复杂的 AI 工作负载提供了有力支撑。
HBM5:3D 近存计算的突破
HBM5 将 3D 近存计算技术推向新的高度。通过集成 NMC 处理器裸片和缓存裸片,并采用专用 TSV 互连和电源网络,HBM5 实现了高能效的计算架构。分布式电源 / 接地和热 TSV 阵列的引入有效降低了 IR 压降,提高了散热效率。
特别值得关注的是,HBM5 开始引入 AI 设计代理优化技术,通过智能算法优化 TSV 布局和去耦电容放置,显著减少了电源噪声诱导抖动(PSIJ)。这一创新不仅提升了系统稳定性,还为后续产品的智能化设计奠定了基础。
HBM6:多塔架构的创新
HBM6 的最大亮点是四塔(Quad-Tower)架构的引入。四个 DRAM 堆叠共享一个基础裸片,通过 8,096 个 I/O 通道实现 8 TB/s 的惊人带宽。这一架构设计不仅提升了带宽性能,还通过资源共享提高了成本效益。
L3 缓存的集成是 HBM6 的另一个重要创新。通过减少对 HBM 的直接访问需求,L3 缓存显著提升了 LLM 推理性能。实测数据显示,HBM6 的 L3 缓存嵌入使 HBM 访问减少 73%,延迟降低 87.3%。交叉开关网络的引入实现了 HBM 集群互连,优化了高吞吐量、低延迟的 LLM 推理性能。
HBM7:混合存储生态
HBM7 构建了一个完整的混合存储生态系统。通过集成高带宽闪存(HBF),形成 HBM-HBF 存储网络,总容量达到 17.6 TB,能够满足大规模 AI 推理的存储需求。与 3D 堆叠 LPDDR 的结合进一步扩展了存储层次,在玻璃中介层上实现了 4096 GB/s 的互连带宽。
嵌入式冷却结构的全面应用是 HBM7 的重要特征。通过热传输线和流体 TSV 技术,实现了从芯片到冷却流体的高效热传递。LLM 辅助的交互式强化学习(IRL)技术的引入,使得去耦电容放置和 PSIJ 优化更加智能化和精准化。
HBM8:全 3D 集成时代
HBM8 代表了 HBM 技术的巅峰,实现了真正的全 3D 集成和 HBM 中心计算。双面中介层设计支持 GPU-HBM-HBM、GPU-HBM-HBF 和 GPU-HBM-LPDDR 等多种 3D 扩展架构,为不同应用场景提供了灵活的配置选择。
全 3D GPU-HBM 集成架构是 HBM8 的核心创新,GPU 位于存储堆叠顶层,不仅有利于散热,还实现了存储与计算的无缝融合。AI 设计代理的全面应用使得 3D 布局和布线优化更加智能化,考虑了热 - 信号完整性的协同优化。
从整体发展趋势来看,HBM 技术的演进呈现出明显的量级跃升特征。在带宽方面,从 HBM4 的 2.0 TB/s 到 HBM8 的 64 TB/s,实现了 32 倍的惊人增长。这一突破主要通过两个维度实现:一是 I/O 数量的大幅增加,从 2,048 个增至 16,384 个;二是数据速率的稳步提升,从 8 Gbps 增长至 32 Gbps。
而在容量扩展方面,单模块容量从 HBM4 的 48 GB 提升至 HBM8 的 240 GB,这一提升通过增加堆叠层数和单裸片容量共同实现。同时,功耗从 75W 逐步增长至 180W,虽然功耗有所上升,但考虑到性能的大幅提升,整体能效比仍有显著改善。
关键技术创新路径
HBM 技术演进的另一个显著特征是 3D 集成技术的持续突破。从 HBM4 开始,技术路线逐步从传统的微凸点键合过渡到无凸点 Cu-Cu 直接键合技术。这一转变不仅显著减少了接触电阻,还大幅提高了互连密度,为后续的高密度 3D 堆叠奠定了基础。
TSV(硅通孔)技术作为 3D 集成的核心,实现了垂直堆叠裸片间的高效电气连接。通过缩短互连长度,TSV 技术有效降低了 RC 延迟和功耗,为高带宽数据传输提供了硬件保障。到 HBM8 阶段,同轴 TSV 技术的引入进一步提升了信号完整性,支持 32 Gbps 的高速数据传输。
中介层技术的发展同样令人瞩目。从单一的硅中介层发展到硅 - 玻璃混合中介层,这一创新突破了纯硅中介层的尺寸限制,同时保持了优异的信号完整性。混合中介层技术结合了硅中介层的高带宽特性和玻璃中介层的大尺寸扩展能力,为复杂的多塔架构提供了技术支撑。
值得关注的是,随着 HBM 性能的不断提升,散热问题成为制约技术发展的关键瓶颈。HBM 技术路线图展现了一条清晰的冷却技术演进路径,从传统的风冷逐步升级为更加先进的冷却方案。
HBM4 采用直冷式液冷(D2C)技术,直接对芯片进行液体冷却,相比传统风冷具有更高的散热效率。到 HBM5 和 HBM6 阶段,浸没式冷却技术成为主流,将整个模块浸入绝缘冷却液中,实现更加均匀和高效的散热。
最为先进的是 HBM7 和 HBM8 采用的嵌入式冷却技术,通过流体 TSV(F-TSV)和微通道结构,实现了芯片级的精准冷却。这种技术通过热传输线(TTL)将热量从 HBM 裸片直接传递到冷却流体,实现了前所未有的散热效率。
当然,HBM 技术的演进带来了显著的性能提升。在 LLM 推理方面,HBM6 的四塔架构使 LLaMA3-70B 模型的推理吞吐量提升 126%。在能效方面,HBM7 的 NMC 架构减少了数据移动,使 GEMM 工作负载的功耗降低 30% 以上。
系统级扩展能力的提升同样令人瞩目。HBM8 的全 3D 架构支持多 GPU-HBM 集群,总带宽可达 1,024 TB/s,为 Exascale 计算提供了强大的存储支撑。这些性能提升不仅满足了当前 AI 应用的需求,还为未来的人工通用智能(AGI)奠定了技术基础。
写在最后
从定制化 HBM 到混合键合,从新一代中介层到融合型存储架构,HBM 技术正在加速演进,迭代节奏愈发迅猛。
但在这场高度复杂的技术竞赛中,唯有具备系统级视野、并能深度整合多维工艺与生态资源的玩家,才有机会脱颖而出。随着 SK 海力士将基础裸片代工交由台积电,DRAM 厂商在 HBM 制造流程中的主导能力已逐步减弱。这一技术体系已不再是单一厂商可以独自完成的任务,而是一个需要多方协同、跨界整合的新战场。
究竟是 SK 海力士、三星,还是美光将在未来占据上风,答案仍未揭晓。但可以确定的是,在后 AI 时代,HBM 的竞争才刚刚开始,而且只会愈演愈烈。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
登录后才可以发布评论哦
打开小程序可以发布评论哦