英伟达出手，SRAM重回C位

文 | 半导体产业纵横

过去两年，全球半导体产业的聚光灯始终打在 HBM 身上。这种通过硅通孔技术垂直堆叠的 DRAM，伴随英伟达 GPU 的大规模出货，完成了从一个小众产品到供不应求的 " 硬通货 " 的蜕变。然而，就在 2026 年的春天，一个看似陈旧的技术名词—— SRAM（静态随机存取存储器），正在以惊人的速度重回舞台中央。

要理解这场复权的底层逻辑，必须先厘清存储层级的基本分工。在当代计算架构中，存储系统呈现为一座金字塔：塔尖是集成在 CPU、GPU 计算核心附近的片上 SRAM，具备纳秒级访问时延与高度确定性的带宽特性，带宽极高但容量极小、成本极高；向下依次是 HBM、DRAM 和 SSD，每一级的容量递增，但时延和带宽的不确定性也随之增加。在过去以训练为主的时代，大容量吞吐比纳秒级响应更重要，因此 HBM 占据了主导。但当 AI 应用从实验室走向普罗大众，当用户体验的标尺从 " 模型有多大 " 转向 " 回答有多快 "，这座金字塔的受力结构正在发生深刻变化。

3 月 17 日，加州圣何塞 SAP 中心的舞台上，身着标志性黑色皮夹克的黄仁勋用两个半小时的演讲，正式为这一趋势写下了注脚。在这场备受瞩目的 GTC 2026 主题演讲中，英伟达正式发布了集成 Groq LPU 架构的推理芯片，并披露了令人瞩目的技术细节：最新 Groq 3 LPU 单芯片集成 500MB 片上 SRAM，存储带宽高达 150TB/s，而作为对比，主流 GPU 的片外 HBM4 带宽约为 22TB/s。

更令人震撼的是其机架级方案：Groq 3 LPX 机架搭载 256 个 LPU 处理器，提供 128GB 片上 SRAM 和高达 40PB/s 的推理加速带宽，并通过每个机架 640TB/s 的专用扩展接口将这些芯片连接在一起。黄仁勋在现场宣布，这款芯片将由三星电子代工，目前已进入生产阶段，预计今年下半年开始出货。更令业界震动的是，OpenAI 已确定成为该芯片的首批客户，并承诺投入 300 亿美元采购相关推理算力。这不仅是英伟达在 AI 芯片之路上的一次技术路线微调，更是一个清晰的信号：AI 计算的需求结构正在发生根本性位移，推理已取代训练，成为定义下一代芯片架构的决定性力量。

01 SRAM 如何重塑 AI 推理体验

要理解 SRAM 为何在此时爆发，必须首先厘清 AI 工作负载的历史性转折。过去五年，AI 产业的中心矛盾是 " 算力饥渴 "，即如何用更多的 GPU 堆出更大的模型。彼时，无论是 OpenAI 还是 Google，核心诉求都是用最短的时间完成海量数据的预训练。在那个阶段，HBM 凭借其极高的容量和数据传输速率，完美地充当了 GPU 计算核心的 " 粮仓 "，尽管存在延迟，但吞吐量是第一要务。

然而，德勤在《2026 科技、传媒和电信行业预测》中断言，到 2026 年，" 推理 " 将占据全部 AI 计算能力的三分之二。当 AI Agents 开始承担复杂的多步骤任务，当代码生成工具需要实时响应用户的每一次按键，用户体验的衡量标尺发生了翻天覆地的变化。用户不再关心模型训练了多久，只关心提问后多久能看到第一个字（Time-to-First-Token），以及文字生成是否流畅无卡顿（尾时延）。

这正是 Groq 投资人 Gavin Baker 所强调的 " 推理拆分 "：模型处理提示词的 prefill 阶段依然需要 GPU 的大规模并行算力，而逐字生成回复的 decode 阶段，瓶颈早已不在算力，而在内存带宽。传统 GPU 的困境在于，其海量参数存放在片外的 HBM 中。每生成一个 token，计算核心都需要穿越复杂的封装和互连线路去 HBM 中搬运一次权重。这种 " 远距离运输 " 在 prefill 阶段或许可以容忍，但在需要串行输出成百上千个 token 的 decode 阶段，却造成了巨大的延迟和能耗浪费。

在大模型应用中，相比依赖外置 HBM，SRAM 可显著降低权重与激活数据的访存延迟与抖动，从而改善 Time-to-First-Token 与尾时延表现。Groq 和 Cerebras 两家明星创业公司正是抓住了这一技术痛点，推出了基于 SRAM 的 AI 芯片。当新一代 Groq LPU 将片上带宽提升至 HBM 的 7 倍时，其意义不仅是数字上的领先，而是从根本上改变了推理的体验边界。以 Llama 3.3 70B 模型为例，根据 Artificial Analysis 等独立基准测试，Groq 平台在不同上下文长度下能维持 200-300+ token/s 的稳定推理速度，显著优于传统 GPU 推理平台。这种带宽的确定性和时延的可预测性，对于构建实时交互系统而言至关重要。

而 Cerebras 则走得更远。根据 Cerebras 官网信息，其晶圆级引擎 3（WSE-3）芯片集成了高达 44GB 的片上 SRAM，片上存储带宽达到惊人的 21 PB/s。这种将整片晶圆做成一颗芯片的激进设计，使得海量计算核心与海量 SRAM 之间的数据交换几乎不存在瓶颈。在 OpenAI GPT-OSS 120B 推理任务中，Cerebras 实现了超过 3000 tokens/s 的输出速度，较主流 GPU 云推理快约 15 倍。如果说 Groq 证明了 SRAM 架构在单卡推理上的效率优势，Cerebras 则展示了当 SRAM 容量足够大时，推理速度可以逼近何种极限。SRAM 就像放在 CEO 办公桌上的便签纸，无需等待秘书从档案室调取文件，抬手即可获取。这种 " 纳秒级 " 的响应速度，对于构建真正具备实时交互感的 AI Agent 而言，是致命的竞争优势。

02 英伟达的 " 钞能力 " 与 SRAM 的回归

英伟达显然洞察到了这一范式转移的风险。尽管其在训练市场占据绝对统治地位，但在低延迟推理这一细分战场上，Groq 和 Cerebras 等创业公司正凭借 SRAM 架构撕开裂缝。如果任由这种趋势发展，未来数据中心可能会演变为 "GPU 做训练、LPU 做推理 " 的双头格局，英伟达的统治版图将被从边缘蚕食。

去年 12 月，英伟达斥资 200 亿美元获得 Groq 知识产权的非独家授权，其中包括其语言处理单元（LPU）和配套软件库，并吸纳了 Groq 核心工程团队。这笔交易的战略意义远大于财务数字。它意味着英伟达承认，在纯粹的串行推理场景中，GPU 的架构确实存在短板，而 Groq 的 SRAM 方案是目前最好的补丁。

与此同时，SRAM 阵营的另一极也在快速壮大。根据 Cerebras 官方披露，2026 年 2 月，Cerebras 宣布完成 10 亿美元 H 轮融资，估值达到 230 亿美元。更引人注目的是，OpenAI 与 Cerebras 签署了一份高达 100 亿美元的合同，部署多达 750 兆瓦的定制 AI 芯片。紧接着在 2026 年 2 月，OpenAI 推出了首个运行在 Cerebras Systems AI 加速器上的模型—— GPT-5.3-Codex-Spark 预览版，该模型支持超过 1000 tokens/s 的代码生成响应速度，为用户提供更具交互性的编程体验。这一系列动作清晰地表明，头部大模型厂商已经开始为下一代实时交互应用储备 "SRAM 算力 "。

根据 GTC 2026 上正式发布的信息，英伟达并未采用将 LPU 单元 3D 堆叠在 GPU 核心晶圆上的激进方案，而是采取了更为务实的路线：Groq 3 LPU 作为独立的推理加速器芯片，与 Rubin GPU 通过协同设计的架构进行组合，共同构成 Vera Rubin 平台。云岫资本此前的分析指出，若通过 PCIe 等外部接口连接，数据传输会引入新的延迟，部分抵消 SRAM 的优势。

这意味着未来的 AI 芯片将出现复杂的异构内存层级：底层是负责 prefill 的计算晶圆，中间层是通过 3D 堆叠提供的巨大 SRAM 缓存用于高速 decode，旁边则依然通过 CoWoS 封装着大容量的 HBM 用于存储海量上下文（KV Cache）。这种设计既保留了 GPU 在并行计算上的统治力，又吸收了 LPU 在串行生成上的低延迟优势，同时还能通过英伟达的 Dynamo 推理框架和 KV 缓存管理系统，智能地路由不同的 token 请求。

可以说，SRAM 的回归并非要 " 杀死 "HBM，而是将内存层级推向一个更精细化分工的多元时代。

03 机遇，来了

英伟达的技术转向，在资本市场上激起了巨大的涟漪，也引发了一些有趣的误读。当 " 英伟达将推 SRAM 推理芯片 " 的消息传出后，韩国股市一度剧烈波动，市场担忧 SRAM 的使用会减少对 HBM 的需求，进而冲击三星和 SK 海力士的核心业务。然而，这种担忧很快被专业机构澄清为误判。

从物理特性看，SRAM 的单元面积是 DRAM 的 5 到 10 倍，每比特成本极高，注定无法替代 HBM 作为主内存的角色。即便 Cerebras 的 WSE-3 集成了 44GB SRAM，这已是工程上的奇迹，但要存储一个 700 亿参数模型的全部权重，仍需要数百 GB 的存储空间，这只能由 HBM 或 DRAM 来承担。SRAM 的用武之地在于需要极致低延迟的特定场景，比如 OpenAI 的代码生成工具，或者未来的物理 AI 机器人——这些场景中，每毫秒的延迟都可能打断人类的思维流或机器人的动作连续性。

事实上，内存层级的细分反而会扩大整个市场的总规模。因为未来每一个数据中心可能都需要同时配备用于训练的 HBM 服务器和用于实时响应的 SRAM 加速卡。HBM 负责承载模型的 " 长期记忆 "，而 SRAM 负责处理需要 " 瞬时反应 " 的交互任务。两者是互补而非替代关系。韩系存储巨头需要警惕的，不是 SRAM 替代 HBM，而是如果 SRAM 加速卡大规模部署，GPU 的采购比例是否会发生变化，进而影响 HBM 的搭载率。

此外，当推理市场的聚光灯转向 SRAM，半导体产业链的受益逻辑也随之发生微妙变化。过去，HBM 的繁荣主要利好的是专门从事记忆体制造的厂商。而现在，由于 SRAM 直接集成在逻辑芯片内部，依赖于先进逻辑制程，晶圆代工厂的地位被前所未有地凸显出来。

在此次 GTC 2026 上，台积电被供应链明确点名为 " 受惠第一排 "。SRAM 作为嵌入式计算核心的一部分，其设计与制造完全依赖于顶尖的逻辑制程工艺。无论是英伟达采用 N3P 制程打造下一代 LPU，还是 AMD、英特尔以及各大 ASIC 厂商跟进类似的 SRAM 增强架构，最终都要回归到台积电的先进产线。对于台积电而言，这不仅意味着更高的晶圆平均销售单价（因为芯片面积增大、制程更先进），更巩固了其在 AI 半导体制造领域的核心枢纽地位。

与此同时，中国台湾的存储供应链也在这股浪潮中找到了新的叙事空间。过去，由于其在标准 DRAM 和 HBM 领域的份额远不及韩系厂商，往往在 AI 存储盛宴中扮演陪跑角色。但 SRAM 路线的兴起，为他们打开了一扇窗。此次 GTC 前后，市场关注点迅速锁定了几家具备想象空间的台厂。

华邦电因其具备 SRAM 量产经验而受到关注，其定制化内存（CMS）业务中的 PSRAM（伪静态随机存取存储器），结合了 DRAM 的高容量与 SRAM 的高速接口特性，被视为在成本与性能之间的折中方案。力积电则通过其 3D AI Foundry 策略，展现了在多层晶圆堆叠与高容值中介层技术上的实力，具备了承接 SRAM 相关代工的潜力。此外，钰创的产品线覆盖 38 纳米、63 纳米制程的 SRAM，容量范围刚好符合 Groq LPU 采用的标准；而爱普则提供新一代 ApSRAM，在功耗和带宽上实现倍数级提升。

这表明，虽然 SRAM 的核心制造在台积电，但其相关的 IP 设计、利基型产品供应以及先进封装配套，为整个国产的半导体生态带来了增量机会。

站在此刻回望，SRAM 的回归像是一场技术的轮回。在半导体历史上，每一次算力中心的转移，都会伴随存储层级的重构。当 AI 产业从训练狂飙转入推理深耕，当用户体验的焦点从 " 模型有多大 " 转向 " 回答有多快 "，我们正在见证的不仅是英伟达一家公司的产品迭代，更是一个时代的切换。存储金字塔的顶端，那个曾经因为成本过高而被束之高阁的 SRAM，正在因为人类对实时交互的渴望，重新焕发生机。

宙世代

一起剪

相关标签