谷歌新内存技术“炸”了存储芯片市场闪迪暴跌超11%

快科技 3 月 27 日消息，据媒体报道，美东时间 3 月 26 日，存储芯片股集体重挫，闪迪跌超 11%，希捷跌逾 8%，超威半导体、西部数据跌逾 7%，美光科技跌近 7%。

业内人士分析，这一波动源自谷歌研究院即将在国际学习表征会议（ICLR 2026）上正式亮相的学术论文，该研究推出了一种新型 AI 内存压缩技术 "TurboQuant"。

谷歌宣称，该技术可将大语言模型推理中的缓存内存占用压缩至六分之一，并在英伟达 H100 GPU 上实现最高 8 倍的性能加速。

AI 模型运行时存在一种 " 工作内存 "，即 KV 缓存（Key-Value Cache）。每当模型处理信息、生成回答时，KV 缓存便会迅速膨胀，且上下文窗口越长，缓存占用的内存越大。

TurboQuant 本质上是一种极致的量化压缩算法，传统量化方法需要在压缩精度和额外存储开销之间妥协，而谷歌团队通过 PolarQuant（极坐标量化）和 QJL（量化 JL 变换）两项创新，实现了在 " 零损失 " 前提下将 KV 缓存压缩至 3-bit 精度。

Cloudflare 首席执行官将这一成果称为谷歌的 "DeepSeek 时刻 "，认为其有望像 DeepSeek 一样，通过极致效率大幅拉低 AI 的运行成本。

不过，摩根士丹利在最新研报中指出，市场对此存在误读。该技术仅作用于推理阶段的键值缓存，并不影响模型权重所占用的高带宽内存（HBM），也与 AI 训练任务无关。

分析师强调，所谓的 "6 倍压缩 " 并非存储总需求的减少，而是通过效率提升增加单 GPU 的吞吐量。这意味着在相同硬件条件下，可以支持 4 倍至 8 倍更长的上下文，或在不触发内存溢出的前提下显著提升批处理规模。

目前，谷歌尚未公布 TurboQuant 在 Gemini 等自研模型中的具体部署时间表，研究团队计划在下个月的 ICLR 2026 会议上正式发布相关成果。

宙世代