半导体行业观察 2小时前
突破“存储墙”,三路并进
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近年来,AI 与高性能计算的爆发式增长,正推动计算需求呈指数级攀升。从 ChatGPT 的横空出世到 Sora 带来的视觉震撼,大规模 AI 模型不仅在参数规模上指数级膨胀,其对计算能力的需求更是呈现出令人惊叹的增长曲线。

然而,在这片繁荣的背后,一个日益严峻的挑战正浮出水面—— " 存储墙 "。

从千亿参数的大语言模型到边缘端的智能终端,各类应用对存储器的性能、功耗、面积(PPA)提出了前所未有的严苛要求。存储 " 带宽墙 " 成为制约 AI 计算吞吐量与延迟的核心瓶颈,传统存储器技术已难以满足系统能效优化需求,巨大的性能缺口正制约着 AI 芯片发挥其全部潜力。

作为全球半导体制造的领导者,台积电深刻洞察到这一根本性矛盾。在 2025 年的 IEDM(国际电子器件会议)教程中,台积电清晰指出:未来 AI 与高性能计算芯片的竞争,将不仅仅是晶体管密度与频率的竞赛,更是内存子系统性能、能效与集成创新的综合较量。

本文将基于台积电的技术蓝图,以 SRAM、MRAM、CIM 为核心,结合 3D 封装与计算 - 存储融合的全栈技术体系,深入剖析面向 AI 计算的高速嵌入式存储器的技术演进、当前挑战与未来融合趋势。

AI 算力狂奔下,存储 " 带宽墙 " 成核心痛点

AI 模型的进化史,堪称一场对算力与存储的极限压榨。

从早期的 AlexNet 到如今的 GPT-4、Llama2、PaLM,模型参数从百万级跃升至万亿级,模型规模的扩张直接带动训练与推理阶段的计算量(FLOPs)突破天际。数据显示,过去 70 年间,机器学习模型的参数规模提升,训练计算量增长超过 1018 倍,推理计算量同步呈现爆发式增长。

然而,根据经典的 Roofline Model(屋顶线模型),任何计算系统的最终性能,都由其峰值算力和内存带宽共同决定。

因此,这种爆发式增长的计算需求,不仅对处理器性能提出挑战,更将存储器推向了技术变革的前沿——存储器的带宽、延迟、能耗与密度,已成为决定 AI/HPC 系统整体性能的核心要素。

计算性能的增长速度与存储器带宽的提升速度严重失衡,形成了制约系统性能的 " 带宽墙 "。据数据统计显示,过去 20 年间,硬件峰值浮点运算性能(HW FLOPS)增长了 60000 倍,平均每 2 年增长 3.0 倍;而 DRAM 带宽仅增长 100 倍,平均每 2 年增长 1.6 倍;互连带宽增长 30 倍,平均每 2 年仅增长 1.4 倍。

这种失衡的增长速度,导致 AI 推理等场景中,存储器带宽成为限制计算吞吐量的主要瓶颈,大量计算资源因等待数据而闲置。以英伟达的 H100 GPU 为例,其 BF16 精度下的峰值计算性能达 989 TFLOPs,但峰值带宽仅 3.35 TB/s,当运算强度不足时,系统性能将陷入存储受限状态,庞大的计算潜力无法充分释放。

面对 AI 与 HPC 的严苛需求,存储器技术需同时满足三大核心指标:大容量、高带宽、低数据传输能耗。大容量保障模型参数与训练数据的存储需求,高带宽解决数据吞吐瓶颈,低能耗则是实现绿色计算的关键——高功耗不仅会增加硬件成本(如更大容量的电池、更复杂的冷却系统),还会限制边缘设备等场景的部署可能性。

在此背景下,传统计算为中心的架构正加速向存储为中心转型,高密度、低能耗的嵌入式存储器成为技术突破的关键方向。台积电认为,未来存储器架构的演进路径将围绕 " 存储 - 计算协同 " 展开:从传统的片上缓存,到片上缓存 + 大容量封装内存储器,再到高带宽低能耗封装内存储器,最终实现存算一体与近存计算,通过存储与计算的深度融合突破性能与能效瓶颈。

为平衡速度、带宽、容量与功耗的多重需求,现代计算系统普遍采用分层存储架构。从寄存器到存储设备,不同层级的存储器呈现出明确的性能 - 成本权衡:寄存器与 SRAM 缓存凭借低延迟(寄存器 1ns、SRAM 缓存 10ns)、高带宽优势,承担高频数据访问任务;HBM 与 DRAM 主存平衡容量与性能;SSD 等存储设备则以大容量、低密度满足海量数据存储需求。

台积电认为,AI 与 HPC 时代的存储技术演进,绝非单一技术的单点突破,而是材料、工艺、架构、封装的全链条协同优化。

面对行业挑战,台积电基于上述层次结构,持续优化各层级嵌入式存储器技术:SRAM 作为缓存层核心,通过工艺与设计创新提升密度与能效;MRAM 以非易失性、高密度特性,填补嵌入式非易失性存储器(eNVM)的技术缺口;DCiM 则打破存储与计算的物理边界,从架构层面优化能效比。同时,3D 封装与芯粒集成技术的发展,进一步缩短了存储与计算单元的物理距离,为突破 " 带宽墙 " 提供了系统级解决方案。

SRAM:计算场景的 " 性能基石 "

静态随机存取存储器(SRAM)作为高速嵌入式存储器的主力方案,凭借低延迟、高带宽、低功耗、高可靠性的核心优势,成为寄存器、缓存等关键层级的首选技术。其兼容先进 CMOS 逻辑工艺,从 FinFET 到 Nanosheet 架构,SRAM 持续通过工艺迭代优化性能。

在应用场景中,SRAM 广泛部署于数据中心 CPU、AI 加速器、客户端 CPU、游戏 GPU、移动 SoC 等各类高性能芯片。从工艺节点来看,SRAM 已覆盖 N28 至 N2 全节点,随着先进工艺(N3/N2)的普及,其在高性能计算芯片中的用量持续增长,成为提升芯片性能的核心支撑。

其中,SRAM 的面积缩放是优化芯片性能的关键,但随着工艺节点向 7nm、5nm、3nm 乃至 2nm 演进,SRAM 单元的面积缩放速度逐渐放缓,面临诸多技术挑战。台积电通过设计 - 工艺协同优化(DTCO)策略,结合多种创新技术,实现了 SRAM 的持续缩放。

从技术演进历程来看,SRAM 的面积缩放依赖于关键节点的工艺与设计突破:90nm 节点引入应变硅技术;45nm 节点采用高 k 金属栅(HKMG)工艺;28nm 节点推出 FinFET 架构、飞跨位线(FLY BL)与双字线技术;7nm 节点应用 EUV 光刻与金属耦合技术;2nm 节点则通过 Nanosheet 架构实现进一步缩放。

这种密度提升,使得芯片在有限面积内可集成更大容量的缓存,直接推动计算性能提升——每周期指令数(IPC)随 L3 缓存容量增加而显著增长,32 倍缓存容量下,CPU 性能提升效果尤为明显。能看到,SRAM 缓存的能效和响应速度远超 DRAM 主存和 SSD 存储。

不过,随着工艺节点向 7nm、5nm、3nm 乃至 2nm 演进,SRAM 面临着日益严峻的发展挑战:一是面积缩放速度放缓,SRAM 单元的尺寸缩小幅度逐渐收窄,在有限芯片面积内集成更大容量缓存的难度持续增加;二是最小工作电压(VMIN)优化困境,低 VMIN 下读写稳定性面临挑战,直接影响芯片能效;三是互连损耗加剧,Cu 金属线线宽小于 20nm 时,电阻率快速上升,导致字线与位线的电阻和电容显著增加,制约 SRAM 的速度提升。

为应对解决传统芯片上 SRAM 缓存的面积限制,除了上面提到的工艺层面的持续演进和技术创新之外。在设计层面,台积电推出 3D 堆叠 V-Cache 技术,通过 3D 堆叠架构优化末级缓存(LLC)的容量、延迟与带宽。

AMD Ryzen™ 7 5800X3D 处理器采用该技术,集成 8 个计算核心、512KB L1 缓存、4MB L2 缓存与最高 96MB 共享 L3 缓存,通过 32 字节 / 周期的双向总线,实现了缓存性能的跨越式提升,游戏性能显著提升,充分验证了 3D 堆叠 SRAM 对计算性能的赋能作用。

此外,台积电还开发了写辅助电路、读辅助电路、双轨 SRAM 等技术,将 N3 工艺 SRAM 的 VMIN 降低超过 300mV;通过交错三金属层字线、飞跨位线等技术,降低互连损耗,提升 SRAM 的速度与密度。

未来,SRAM 的发展将聚焦两大方向:一是持续推进工艺缩放,在 N2 及更先进节点上,通过 Nanosheet 架构与 DTCO 策略的深度融合,进一步提升密度与能效;二是与 3D 封装技术结合,通过垂直堆叠实现缓存容量的跨越式增长,匹配 AI 加速器的超高带宽需求;三是与存算一体架构协同,成为 DCiM 的核心存储单元,在计算过程中提供高速数据访问支撑。

存内计算,DCiM 成主角

如果说优化 SRAM 是在传统架构上精雕细琢,那么存内计算(Computing-in-Memory, CIM)则是一场更具颠覆性的架构革命,其核心思想直指 " 存储墙 " 的病根:减少不必要的数据搬运。

在典型的 AI 加速器中,超过 90% 的能耗可能用于在存储单元和计算单元之间搬运数据,而非实际的计算操作。因此,数据移动和搬运成为制约加速器能效比的核心因素。

CIM 架构则打破了 " 存储 - 计算 " 分离的冯 · 诺依曼架构,将简单的计算功能直接嵌入到内存阵列中,将计算单元与存储单元紧密集成,数据在原地或近旁被处理,极大地节省了能耗和延迟,成为解决这一问题的关键路径。

与传统 DLA(深度学习加速器)中存储与计算分离、依赖数据搬运的架构不同,CIM 架构实现了计算在内存中,数据复用率显著提升,能效比大幅优化。

对于模拟存内计算(ACiM)和数字存内计算(DCiM)两条路径,台积电认为,DCiM 相比 ACiM 更具发展潜力。

与 ACiM 相比,DCiM 凭借无精度损失、灵活性强、工艺兼容等,在技术缩放、精度控制、场景适配等方面具备明显优势:ACiM 面临模拟信号变化、动态范围受限等挑战,而 DCiM 能够兼容先进工艺,随节点演进持续提升性能,且支持多精度计算,成为 AI 计算的核心架构方向,特别适用于边缘推理场景,为解决数据中心和终端设备的能效瓶颈提供了可扩展的解决方案。

DCiM 的核心优势体现在三方面:灵活性高: 可以针对不同的 AI 工作负载配置计算位宽,在精度和能效间取得最佳平衡;计算密度高:得益于先进的逻辑工艺,DCiM 的能效(TOPS/W)和计算密度(TOPS/mm²)随着制程进步而显著提升。台积电数据显示,从 22nm 到 3nm,DCiM 宏的性能指标实现了数量级的飞跃;精度灵活与能效比高:支持 INT8/12/16 及 FP16 精度,精度损失 <2.0%,INT8 精度下的能效比相比传统架构提升约 4 倍。

MRAM:非易失性嵌入式存储器的新突破

另一方面,随着汽车电子、边缘 AI 等新兴场景的崛起,市场对存储器的需求超越了速度和能效,非易失性、高可靠性和极高耐久性成为关键。

传统的嵌入式闪存(eFlash)在 28nm 以下工艺微缩困难,难以满足先进工艺节点的密度与性能需求。而磁阻随机存取存储器(MRAM)则展现出强大的技术生命力,凭借低待机功耗、高密度、非易失性、速度快、耐久性和工艺友好等核心优势,成为 eNVM 的理想替代方案。

台积电认为,MRAM 的核心价值在于兼顾性能与非易失性,能够同时满足高速读写与数据长期保存的双重需求,这使其在软件定义汽车、边缘智能终端等场景中具备不可替代的优势。

例如在汽车电子领域,MCU 广泛应用于车载系统,下一代软件定义汽车架构对 MCU 的性能、可靠性与安全性提出了更高要求。MRAM 的速度与 robustness 支撑 OTA 更新功能,能够延长车辆生命周期并提升功能扩展性。台积电 N16 FinFET 嵌入式 MRAM 技术已满足汽车应用的严苛要求:100 万次循环耐久性、支持焊料回流、150 ℃下 20 年数据保持能力,成为车载 MCU 的核心存储方案。

在边缘 AI 领域,MRAM 支持 TinyML、MobileNet 等紧凑 AI 架构,仅需 2-4MB 容量即可存储模型权重,同时支持安全 OTA 更新。相比云端 AI 与移动 AI,边缘 AI/MCU 对存储容量需求较低,但对能效与可靠性要求更高,MRAM 恰好匹配这一需求特性。

但 MRAM 也存在明显短板,比如单位容量成本高于 DRAM 与 NAND;高温度环境下的数据保持能力需通过技术优化保障;强磁场环境下的抗干扰能力需特殊设计,强永磁体(N52)环境下需保持 9mm 的安全距离等。

为解决 MRAM 的短板,台积电通过多重技术优化提升其可靠性:一是数据擦洗(Data Scrubbing)技术,定期重读数据、检测错误并将修正后的数据写回存储单元,结合 ECC 纠错,125 ℃下可将位错误率(BER)控制在预算范围内;二是抗磁性干扰设计,通过优化 MTJ 结构与布局,确保车载等复杂环境中的稳定工作;三是应用差异化优化,针对 NVM 与 RAM 两种应用场景,通过调整参数权衡数据保持能力、密度与速度,满足不同场景的需求。

数据擦除以提升数据保持可靠性

MRAM 抗磁性干扰能力

据悉,台积电已将 N16 工艺的嵌入式 MRAM(eMRAM)技术成功推向市场,特别是在汽车领域大放异彩,并正在向更先进节点迈进。

计算 - 存储融合:系统级优化的 " 终极路径 "

台积电认为,AI 与 HPC 时代的存储技术突破,最终需要走向系统级的计算 - 存储融合。单一存储技术的优化已难以满足 " 更高带宽密度、更低单位比特能耗、更短延迟、更高互连密度 " 的系统需求,必须通过 3D 封装、芯粒集成等技术,将存储与计算单元紧密连接,实现存储靠近计算的架构重构。

在此趋势下,2.5D/3D 先进封装将提供关键赋能,通过将计算芯粒(Chiplet)与高带宽内存(如 HBM)通过硅中介层(Interposer)或硅桥(Silicon Bridge)封装在一起,可以创造出一个带宽极高、距离极近的超级系统。这种 2.5D/3D 集成技术,使得内存带宽能够匹配先进 AI 加速器的巨大吞吐需求。

台积电在先进封装领域已形成广泛布局,例如:

CoWoS: 台积电的先进封装平台,将逻辑芯片和 HBM 集成在硅中介层上,实现了远超 PCB 级别的互连密度和带宽。

SoIC: 更进一步的 3D 堆叠技术,允许芯片像盖楼一样垂直堆叠,实现芯片间最短、最密集的互连,将数据移动的能耗和延迟降至最低。

这种高密度互连带来了诸多优势:缩短数据移动路径,降低数据移动能耗与延迟;提升带宽密度,解决 " 带宽墙 " 瓶颈,3D 堆叠的比特能效相比封装外铜互连提升 60 倍;模块化设计支持灵活配置,适配不同应用场景的需求,AI 内存带宽需求已达 20.0TB/s,3D 封装可高效支撑等。

综合分析,未来的 AI 芯片,可能不再有明显区分的内存和计算边界。通过 3D 堆叠,计算单元可以被直接放置在高速缓存或存内计算单元之上,形成紧耦合的异构集成体。同时,集成的电压调节器、光子互连等创新技术,将从供电和通信层面为整个系统解绑。

这种系统级的思维,意味着芯片设计者、存储器专家、封装工程师必须更早、更紧密地协作。从架构设计之初,就统筹考虑计算模式、数据流、存储层级和物理实现,通过内存 - 计算协同优化,突破存储墙与能效瓶颈,最终实现能效和性能的阶跃式提升。

存储技术的未来图景

AI 计算的未来,是一场围绕数据进行的效率革命,正推动存储技术进入全维度创新的新时代。

面对 " 带宽墙 " 与 " 能效瓶颈 " 的双重挑战,台积电的技术蓝图清晰地描绘了这场革命的路径:以 SRAM 为缓存层核心,保障高速数据访问;以 MRAM 的多元特性开拓新场景,填补非易失性存储的技术空白;以 DCiM 的架构创新为利器,实现存算一体,突破能效瓶颈;最终以 3D 封装与芯粒集成实现系统级融合,重构存储与计算的连接方式,构建出真正能满足 AI 巨大算力渴求的下一代硬件平台。

对产业而言,这意味着竞争格局的深化。领先的半导体企业不仅需要掌握最尖端的制程工艺,更需要在存储技术、先进封装和系统架构上构建全方位的创新能力,技术的协同与融合将成为破局的关键。

在这场破局 " 存储墙 " 的征程中,谁能率先实现从晶体管到系统的全栈优化,谁就将引领 AI 算力的下一个黄金时代。而台积电的战略布局,正为行业描绘出清晰的演进路径。

评论
大家都在看