谷歌扔出技术核弹，内存需求将崩塌？

全球 AI 算力竞赛出现重大技术拐点！

近日，谷歌公布的全新 AI 內存压缩技术 "TurboQuant"，引发了业界的极大关注。该技术宣称能在不牺牲模型精准度的前提下，将生成式 AI 推理阶段最吃资源的 " 键值缓存 "（KV Cache）空间需求减少到原来的 1/6，并让计算速度暴增 8 倍。这一突破性的技术，也引发了整个市场对于内存需求将断崖式下跌的担忧，美光、Sandisk、西部数据等存储相关美股纷纷大跌。

TurboQuant 究竟是什么？

在 LLM（大语言模型）推理过程中，为了处理长文本，系统必须将过往对话信息存放在 KV Cache 中，这如同 AI 的 " 随身笔记本 "。随着对话长度增加，这本笔记本需要存储的信息会迅速挤爆 AI GPU 的高频宽內存（HBM），成为 AI 运行的最大瓶颈。

谷歌的 TurboQuant 技术的核心优势在于解决了传统内存压缩技术产生的 " 內存噪声 "（Overhead）。该技术由两大关键部分组成：

PolarQuant（极坐标量化）：传统向量以 XYZ 坐标标注，运算繁琐。谷歌改为采用 " 极坐标 " 逻辑，将复杂的方位简化为 " 半径 " 与 " 角度 "。这好比将原本要标记 " 往东走 3 公里、再往北走 4 公里 " 的信息，简化为 " 以 37 度角走 5 公里 "。这种几何结构的转换，大幅减少了数据处理的负荷。

QJL（Quantized Johnson-Lindenstrauss）：这是一套极其精简的 1bit 数学校正机制。仅利用额外的 1bit 来精准修正压缩过程中的残余误差，让模型即使被压缩到仅剩 3bit，在 LongBench 等多项基准测试中仍能达成 " 零精度损失 "。

△在 Llama-3.1-8B-Instruct 模型上，TurboQuant 在 LongBench 基准测试中展现出强大的 KV 缓存压缩性能，优于各种压缩方法（括号中标明了位宽）。

谷歌选择将这套足以成为核心竞争力的技术完全开源，不仅优化了 Gemini 等大型模型的检索效率，更为其他大模型减少对于内存依赖，加速端侧 AI 发展铺平道路。

根据实测，在英伟达（NVIDIA）H100 加速器上，TurboQuant 相比未压缩方案，性能最高提升了 8 倍，且无须重新训练模型即可直接挂载，堪称 AI 部署的降本增效的 " 神兵利器 "。

△在 NVIDIA H100 加速器上，TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升，在各种位宽级别上均优于高度优化的 JAX 基线。

△ TurboQuant 展现出强大的检索性能，在 GloVe 数据集 ( d=200 ) 上实现了相对于各种最先进的量化基线的最佳 1@k 召回率。

Cloudflare 首席执行官 Matthew Prince 等人将 TurboQuant 称为谷歌的 "DeepSeek 时刻 "，认为其有望像 DeepSeek 一样，通过极高的效率收益大幅拉低 AI 的运行成本，同时在结果上保持竞争力。

内存需求会降低，还是会带来更大需求？

针对 TurboQuant 技术会引发了整个市场对于内存需求断崖式下跌的担忧，产业专家与研究机构也给出了截然不同的看法：

富国银行（Wells Fargo）分析师 Andrew Rocha 指出：" 当 context window（上下文窗口）越来越大，KV Cache 的爆炸性成长原本是推升內存需求的保证。但 TurboQuant 正在直接攻击这条成本曲线，一旦被广泛采用，数据中心对內存容量的规格要求将被打上大问号。"

不过，知名投行摩根士丹利（Morgan Stanley）和研究机构 Lynx Equity Strategies 则给出了截然不同的观点，

摩根士丹利认为市场可能忽视了 " 效率提升带动总量增长 " 的经济规律。当 AI 计算所需的内存成本降低到原本的 1/6，这将会使得原本因内存太贵而无法上线的 AI 应用（如长文本翻译、复杂代码生成）需求大规模爆发，反而会填补、甚至超越被压缩掉的内存缺口。

这就是杰文斯悖论（Jevon's paradox），即当技术进步提高了使用资源的效率（减少任何一种使用所需的数量），但成本降低导致需求增加，令资源消耗的速度不减反增。

摩根士丹利分析师约瑟夫 · 摩尔（Joseph Moore）及其团队在周四发布的投资者报告中指出： " 有报道称谷歌的 TurboQuant 会导致内存使用量减少了到原来的 1/6，但这忽略了他们仅仅指的是 KV Cache，而不是整体内存使用量。

" 值得注意的是，谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个 Token 的上下文窗口，但谷歌曾透露，他们使用 Gemini 1.5 Pro 测试过高达 1000 万个 Token 的上下文窗口，并取得了非常好的结果，但由于推理成本较高，他们最终没有发布该模型，" 摩尔说道。" 因此，我们预计，随着此类创新以及其他技术的出现，成本将会降低，这项技术将被用于服务于更智能、计算密集型的产品。"

摩根士丹利进一步指出，TurboQuant 主要优化的是 " 推理阶段 " 的缓存，并非 " 训练阶段 " 的模型权重。因此，对于支撑 AI 核心训练的 HBM（高频宽內存）采购逻辑影响相对有限。

相比之下，TurboQuant 对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限，这类高效压缩技术能让更强大的 AI 模型在手机端运行，这反而会刺激各类终端装置进行內存规格的全面换代。

Lynx Equity Strategies 的观点认为，虽然人工智能提供商需要创新来解决推理中随着 Token 上下文长度增加而出现的瓶颈问题，但由于供应限制，这在未来三到五年内并不会减少对内存和闪存的需求。

编辑：芯智讯 - 浪客剑

宙世代

一起剪