公众号记得加星标⭐️,第一时间看推送不会错过。
过去几年,先进制程工艺的玩家越来越频繁地遇到同一个问题:逻辑晶体管还在继续缩小,但 SRAM 跟不上了。
这一矛盾早在台积电 3nm 节点上就已经暴露出来。SemiWiki 援引 IEDM 资料称,台积电 N3 的高密度 SRAM 位单元约为 0.0199 平方微米,而 N3E 披露的高密度 SRAM 位单元约为 0.021 平方微米;后者不仅没有继续缩小,甚至与 N5 时代约 0.021 平方微米的水平接近。
台积电 SRAM 单元尺寸的发展
因此,过去几年行业中 "SRAM 缩放已经走到尽头 " 的讨论越来越多。SemiEngineering 在 2024 年的一篇分析中指出,SRAM 难以继续随先进节点缩放,已经对功耗和性能目标构成挑战;但与此同时,SRAM 又是 AI 应用中最关键的片上工作存储之一。该文还援引 Flex Logix CEO Geoffrey Tate 的说法称,先进节点客户普遍抱怨逻辑比 SRAM 缩得更快;如果把缓存放到片外,性能会 " 断崖式下降 "。
SRAM 不是一个可以被轻易移出芯片的模块。在《SRAM,取代 HBM?》一文中我们就探讨了 SRAM 的重要性。它之所以重要,恰恰在于足够靠近计算单元,能够提供低延迟、高带宽、可预测的数据访问。一旦把缓存、缓冲区或片上暂存存储放到片外,即便片外有 HBM、CXL 或其他高带宽方案,芯片仍然会遭遇延迟、功耗、调度复杂度和系统成本的多重惩罚。
然而,6 月 25 日,IBM 给这个看似悲观的问题提供了一个新的答案。
IBM 发布了 0.7nm 级的 " 纳米堆叠 "(Nanostack)晶体管架构。按照 IBM 官方表述,这是业界首个已知的基于纳米片的三维晶体管设计,可在指甲大小的芯片面积内容纳近 1000 亿个晶体管,密度几乎是 IBM 于 2021 年发布的 2nm 芯片的两倍,并有望相较 IBM 2nm 节点实现最高 50% 的性能提升,或 70% 的能效改善。
图源:IBM
但这款晶体管真正值得关注的,不仅仅是 0.7nm 这个标签,而是 IBM 在同一发布中提到的另一项指标:SRAM 缩放。
IBM 称,其研究人员在 VLSI 2026 上发表的新研究显示,Nanostack 架构可带来 40% 的 SRAM 缩放。更准确地说,这不是 "SRAM 容量降低 40%",而是 SRAM 单元高度或 SRAM 面积维度的缩小:同样面积下可以放入更多 SRAM,或者同样 SRAM 容量可以占用更小芯片面积。IBM 官方发布页也列出相关 VLSI 论文,题为《交错沟道纳米堆叠 SRAM 位单元的面积与性能研究》(Area and Performance of Staggered-Channel Nanostack SRAM Bitcells)。
SRAM 是否还能继续缩?也引发业界的关注。
SRAM 危机,在 AI 时代更凸显
SRAM 缩放放缓之所以在今天变得更加突出,是因为 AI 芯片的核心瓶颈已经不只是算得够不够快,而是数据能不能足够快、足够近、足够便宜地送到计算单元旁边。
大模型训练和推理都高度受限于数据搬运。Transformer 模型中的权重、激活值、中间结果、注意力计算,以及推理阶段越来越重要的 KV 缓存,都需要在不同存储层级之间频繁移动。即便算力继续提升,如果这些数据无法高效留在计算附近,芯片就会被 HBM 带宽、片间通信、片上互连和存储层级拖住。
过去几年,AI 芯片竞争表面上看是张量计算单元、FP8、FP4、HBM 容量、先进封装和互连带宽之争;但更底层的矛盾是,计算单元越来越多,数据却越来越难喂饱它们。
如果 SRAM 继续停滞,AI 芯片会越来越依赖 HBM、先进封装、芯粒化缓存、近存计算、存算一体和更复杂的系统互连。芯片可以更强,但系统也会更贵、更复杂、更难扩展。
具体来看,SRAM 缩不动至少会带来五个直接后果。
第一是裸片面积。SRAM 面积不缩,芯片中片上存储占比就会上升。对于大 GPU、AI ASIC 和高性能 CPU 而言,这意味着更大的裸片面积、更高的光罩成本,以及更紧张的单次曝光面积限制。尤其是 AI 芯片往往需要大规模片上缓冲区、缓存和暂存存储,SRAM 面积停滞会直接稀释先进节点的面积收益。
第二是良率。先进节点下,大尺寸裸片对缺陷密度更敏感。SRAM 如果继续占用大量面积,就会把 AI 芯片推向更高良率压力。一个芯片上的 SRAM 阵列越大,对冗余设计、修复机制、测试成本和良率管理的要求也越高。
第三是功耗。片外搬数据通常比片内访问更耗能。SemiEngineering 援引 Rambus 专家 Steve Woo 的观点指出,如果处理器核心无法获得足够 SRAM,就必须从更远处搬数据,这会增加功耗并拉低性能。
第四是延迟。对大模型推理而言,尤其是解码阶段、长上下文、多轮对话和实时响应场景,KV 缓存与中间状态访问会显著影响尾延迟和用户体验。片上 SRAM 越充足,越有机会减少访问 HBM 或跨芯片搬运的次数,从而降低不确定性。
第五是架构选择。SRAM 缩不动,会迫使芯片公司在多种路线之间重新取舍:是继续堆 HBM,还是做更大的片上 SRAM?是走芯粒化缓存,还是走 3D 缓存?是采用近存计算、存算一体,还是通过 CXL 扩展外部内存池?这些选择都不只是工艺问题,而会直接影响 AI 芯片的系统形态。
这也是为什么 SRAM 重新变得重要。
巨头们,各出奇招
SRAM 缩放放缓并不是 IBM 一家看到的问题。台积电、三星、英特尔过去几年的路线,已经从不同角度说明:SRAM 正在从一个默认跟随逻辑缩放的配套模块,变成先进节点竞争力的重要指标。
台积电是 SRAM 缩放放缓最典型的案例。
如同文章开头所述,在 3nm 节点,台积电仍然实现了逻辑密度提升,但 SRAM 位单元已经几乎停滞。N3 高密度 SRAM 位单元约 0.0199 平方微米,仅比 N5 的 0.021 平方微米缩小约 5%;N3E 的 SRAM 位单元约 0.021 平方微米,与 N5 基本接近。
到了 N2,台积电试图把 SRAM 缩放重新拉回正轨。台积电官方研究页面显示,其 2nm CMOS 纳米片技术展示了 38.1Mb/mm ² 的 SRAM,用于高密度和高能效计算应用。该设计使用 0.021 平方微米的高密度位单元,并通过设计技术协同优化,让整体 SRAM 密度相较前一代技术提升 1.1 倍。
台积电 2nm-CMOS 纳米片工艺的 38.1Mb/mm ² SRAM(图源:台积电)
这里的关键不是位单元尺寸大幅缩小,因为 0.021 平方微米本身并不比 N5、N3E 时代更小。真正的变化在于,台积电通过 GAA 纳米片、阵列设计、电路技术和设计技术协同优化,提高了 SRAM 宏单元层面的整体密度。Mark LaPedus 对相关论文的梳理也提到,台积电 2nm SRAM 宏单元容量为 580Kb,使用 0.021 平方微米位单元,整体 SRAM 密度较前代提升 10%,达到 38.1Mb/mm ²。
台积电对 SRAM 问题的态度是:SRAM 缩放不能再只靠几何微缩,而要靠器件结构、阵列架构、辅助电路和设计技术协同优化共同解决。这也解释了为什么台积电在面向 AI/HPC 的后续节点中继续强化 A16、超级电轨(Super Power Rail)等技术。随着 AI 芯片越来越受限于供电、互连和片上存储,先进节点不再只是晶体管结构之争,而是逻辑、SRAM、供电网络、后端互连和先进封装的系统协同。
三星的路线更偏向结构创新。
2022 年,三星宣布 3nm GAA 工艺进入初始生产,并称其 MBCFET 技术通过纳米片结构提升驱动电流能力、降低供电电压、改善功耗和性能。三星还强调,GAA 可通过调整纳米片沟道宽度,针对不同客户需求优化功耗和性能。
这对 SRAM 尤其重要。三星在一篇专门讨论 "3nm GAA MBCFET 与 SRAM 设计灵活性 " 的技术博客中写到,MBCFET 的纳米片宽度可调,能够为 SRAM 单元设计提供更大灵活性;通过分别调节 PMOS 和 NMOS,以及下拉晶体管、传输门晶体管等器件的沟道宽度,可以在 SRAM 单元中获得更好的裕量。三星还称,GAA SRAM 位单元相比鳍式晶体管需要更低功耗,并且由于 GAA 宽度可独立调整,能够改善性能、功耗、面积与 SRAM 稳定性之间的平衡。
从三星 SF2 节点看,这一思路仍在延续。三星官方逻辑节点页面显示,SF2 作为第二代 MBCFET/GAA 先进节点,强调更强的稳定性、先进计算负载性能,以及通过多种纳米片宽度配置提升单位功耗性能,同时实现单元高度降低。
英特尔的思路则更偏向系统组合。英特尔 18A 的核心卖点是 RibbonFET 与 PowerVia。英特尔官方介绍称,18A 采用 RibbonFET 和 PowerVia 背面供电技术。PowerVia 将供电网络移至晶圆背面,以减少正面金属层中电源与信号布线的拥塞,从而改善性能、功耗和密度。
从 SRAM 角度看,PowerVia 的重要性不只在于提升逻辑标准单元的布线效率,也在于改善大规模片上存储附近的供电完整性。SRAM 阵列对电压波动非常敏感,最低工作电压、读写稳定性、动态压降都会影响可用频率和工作电压。因此,背面供电本质上也是在为先进节点下 SRAM 和高密度逻辑阵列提供更稳定的电源基础。
IEDM 相关资料显示,Intel 18A RibbonFET CMOS 技术中包含 0.023 平方微米的高电流 SRAM 单元和 0.021 平方微米的高密度 SRAM 单元,并结合 PowerVia 背面供电。IEEE Xplore 收录的论文摘要也显示,英特尔展示了首个基于 RibbonFET 技术、通过硅验证的高电流和高密度 6T SRAM。
总体来看,台积电、三星、英特尔三家路线各不相同,但共同指向一个判断:SRAM 已经成为先进制程的新考题。
IBM 如何让 SRAM 继续缩放?
这就要回到晶体管结构本身。
传统 CMOS 里,nFET 和 pFET 通常在同一平面左右排列。SRAM 位单元又高度依赖 n/p 器件的密集排布。随着节点推进,晶体管本身可以继续缩,但 n/p 之间的隔离、不同功函数金属、源漏区、栅切割、局部互连和布线规则,不一定能同步缩。
换言之,SRAM 不只是晶体管尺寸问题,更是版图、器件隔离、读写裕量、稳定性和互连规则共同约束的结果。
IBM Nanostack 的思路,是把这件事从平面维度改写到垂直维度。IBM 称,Nanostack 是一种三维、基于纳米片的晶体管架构,通过垂直堆叠和错位排列晶体管来提升密度,并允许不同层使用不同材料组合,从而分别优化性能和功耗。
Futurum 对 IBM 这款纳米堆叠晶体管的解读进一步提到,SRAM 位单元中的 N 到 P 间距是长期约束,而 Nanostack 通过把 N 型和 P 型器件上下堆叠,把横向间距转化为纵向薄介质键合,从而移除一部分横向面积瓶颈;其解读称 IBM VLSI 2026 论文展示了超过 40% 的 SRAM 单元高度降低。
通俗地说,IBM 不是靠把每个晶体管雕得更小来救 SRAM,而是靠改变 nFET 和 pFET 的相对摆放方式:把原本占平面面积的隔离距离,压进垂直方向。
这和 CFET SRAM 研究方向是一致的。CFET,也就是互补场效应晶体管,本质上同样是把 nFET 和 pFET 从横向并排推进到垂直堆叠。IEEE Transactions on Electron Devices 在 2023 年发表的一篇 CFET SRAM 设计技术协同优化论文摘要显示,A5 CFET SRAM 相比 A14 纳米片 SRAM 可实现最高 55% 的位单元面积缩放,相比 A10 forksheet SRAM 也可实现约 40% 的位单元面积缩放。
IBM Nanostack 展示的 SRAM 收益并不是偶然,而是整个先进逻辑从鳍式晶体管走向 GAA 纳米片,再走向 forksheet、CFET、Nanostack 和更广义 3D CMOS 过程中的一部分。
当然,IBM 此次发布还有另一层产业含义:它试图重新定义 GAA 之后的晶体管路线。
IBM 在纳米片 /GAA 方向上起步很早。2021 年,IBM 发布 2nm 纳米片技术,称其可相较 7nm 芯片实现 45% 的性能提升或 75% 的能耗降低。但从产业商业化角度看,GAA 纳米片的实际量产红利更多落到了三星、台积电、英特尔等制造玩家手中。
2022 年,IBM 与日本 Rapidus 宣布战略合作。Rapidus 将进一步开发 IBM 的 2nm 节点技术,并计划在其日本晶圆厂中导入相关技术;IBM 也表示 Rapidus 工程师将与 IBM 研究人员在 Albany NanoTech Complex 展开合作。2024 年,IBM 和 Rapidus 又把合作扩展到 2nm 世代的芯粒封装技术。
但问题在于,IBM 已经不是主流先进逻辑量产厂,真正落地仍要靠合作伙伴。Reuters 在报道 IBM 此次 0.7nm 技术时提到,IBM 尚未公布制造伙伴,但其此前曾将芯片技术授权给三星和日本 Rapidus;IBM 方面认为,该技术最早可能在未来五年内进入生产路径。
给 SRAM 续命的,还有他们
事实上,在 IBM 发布 0.7nm Nanostack 之前,AI 芯片架构层面已经出现了一批重新重视 SRAM 的路线。
其中最典型的是 Groq。Groq 官方对 LPU 架构的介绍中明确提到,LPU 集成了数百 MB SRAM,并将其作为主要权重存储,而不是缓存,从而降低延迟,并使计算单元能够全速运行。这种架构可以支持跨芯片的高效张量并行,对于快速、可扩展的推理而言是一项实际优势。
Groq 这一路线后来也吸引了英伟达的视线。2025 年 12 月,Groq 宣布与英伟达达成一项非独家的推理技术授权协议。按照 Groq 官方说法,双方合作的目标是扩大高性能、低成本推理能力;与此同时,Groq 创始人 Jonathan Ross、总裁 Sunny Madra 以及部分团队成员将加入英伟达,帮助推进和扩展被授权的推理技术。不过,Groq 也强调,公司将继续作为独立公司运营,GroqCloud 也会继续运行。
Groq 路线的核心不是 "SRAM 容量比 HBM 大 "。恰恰相反,单芯片 SRAM 容量远小于 HBM。但 SRAM 的价值在于低延迟、高带宽、靠近计算和可预测性。Groq 把权重和数据流尽可能显式安排在片上 SRAM 中,本质上是在用架构和编译器控制数据运动,而不是让硬件缓存层级和外部存储系统承担全部压力。
Cerebras 则走得更极端。其 WSE-3 采用台积电 5nm 工艺,集成 4 万亿晶体管、90 万个 AI 核心、125 PFLOPS 峰值 AI 性能,并拥有 44GB 片上 SRAM。Cerebras 官方资料显示,WSE-3 面向大模型训练与推理,试图通过晶圆级芯片方式,把计算、片上存储和互连铺在一整片晶圆上。
Groq 和 Cerebras 代表了两种不同形态,但它们共同说明了一个趋势:AI 芯片的差异化,不再只是张量计算单元有多强,也在于能把多少高带宽、低延迟的存储放到计算旁边。
结语
过去几十年,摩尔定律的核心是单位面积内容纳更多晶体管。到了 AI 时代,这个表达已经不够完整。AI 芯片的竞争,已经不再只是计算单元之争,也越来越是片上存储能力之争。
如果 SRAM 通过 Nanostack、CFET 或其他 3D CMOS 路线重新获得一轮缩放,那么 AI 芯片架构就会获得新的设计空间。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第 4457 内容,欢迎关注。
推荐阅读
加星标⭐️第一时间看推送
求点赞
求分享
求推荐


登录后才可以发布评论哦
打开小程序可以发布评论哦