
全球 AI 算力竞赛出现重大技术拐点!
近日,谷歌公布的全新 AI 內存压缩技术 "TurboQuant",引发了业界的极大关注。该技术宣称能在不牺牲模型精准度的前提下,将生成式 AI 推理阶段最吃资源的 " 键值缓存 "(KV Cache)空间需求减少到原来的 1/6,并让计算速度暴增 8 倍。这一突破性的技术,也引发了整个市场对于内存需求将断崖式下跌的担忧,美光、Sandisk、西部数据等存储相关美股纷纷大跌。
TurboQuant 究竟是什么?
在 LLM(大语言模型)推理过程中,为了处理长文本,系统必须将过往对话信息存放在 KV Cache 中,这如同 AI 的 " 随身笔记本 "。随着对话长度增加,这本笔记本需要存储的信息会迅速挤爆 AI GPU 的高频宽內存(HBM),成为 AI 运行的最大瓶颈。
谷歌的 TurboQuant 技术的核心优势在于解决了传统内存压缩技术产生的 " 內存噪声 "(Overhead)。该技术由两大关键部分组成:
PolarQuant(极坐标量化):传统向量以 XYZ 坐标标注,运算繁琐。谷歌改为采用 " 极坐标 " 逻辑,将复杂的方位简化为 " 半径 " 与 " 角度 "。这好比将原本要标记 " 往东走 3 公里、再往北走 4 公里 " 的信息,简化为 " 以 37 度角走 5 公里 "。这种几何结构的转换,大幅减少了数据处理的负荷。

QJL(Quantized Johnson-Lindenstrauss):这是一套极其精简的 1bit 数学校正机制。仅利用额外的 1bit 来精准修正压缩过程中的残余误差,让模型即使被压缩到仅剩 3bit,在 LongBench 等多项基准测试中仍能达成 " 零精度损失 "。

△在 Llama-3.1-8B-Instruct 模型上,TurboQuant 在 LongBench 基准测试中展现出强大的 KV 缓存压缩性能,优于各种压缩方法 (括号中标明了位宽)。
谷歌选择将这套足以成为核心竞争力的技术完全开源,不仅优化了 Gemini 等大型模型的检索效率,更为其他大模型减少对于内存依赖,加速端侧 AI 发展铺平道路。
根据实测,在英伟达(NVIDIA)H100 加速器上,TurboQuant 相比未压缩方案,性能最高提升了 8 倍,且无须重新训练模型即可直接挂载,堪称 AI 部署的降本增效的 " 神兵利器 "。

△在 NVIDIA H100 加速器上,TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升,在各种位宽级别上均优于高度优化的 JAX 基线。

△ TurboQuant 展现出强大的检索性能,在 GloVe 数据集 ( d=200 ) 上实现了相对于各种最先进的量化基线的最佳 1@k 召回率。
Cloudflare 首席执行官 Matthew Prince 等人将 TurboQuant 称为谷歌的 "DeepSeek 时刻 ",认为其有望像 DeepSeek 一样,通过极高的效率收益大幅拉低 AI 的运行成本,同时在结果上保持竞争力。
内存需求会降低,还是会带来更大需求?
针对 TurboQuant 技术会引发了整个市场对于内存需求断崖式下跌的担忧,产业专家与研究机构也给出了截然不同的看法:
富国银行(Wells Fargo)分析师 Andrew Rocha 指出:" 当 context window(上下文窗口)越来越大,KV Cache 的爆炸性成长原本是推升內存需求的保证。但 TurboQuant 正在直接攻击这条成本曲线,一旦被广泛采用,数据中心对內存容量的规格要求将被打上大问号。"
不过,知名投行摩根士丹利(Morgan Stanley)和研究机构 Lynx Equity Strategies 则给出了截然不同的观点,
摩根士丹利认为市场可能忽视了 " 效率提升带动总量增长 " 的经济规律。当 AI 计算所需的内存成本降低到原本的 1/6,这将会使得原本因内存太贵而无法上线的 AI 应用(如长文本翻译、复杂代码生成)需求大规模爆发,反而会填补、甚至超越被压缩掉的内存缺口。
这就是杰文斯悖论(Jevon's paradox),即当技术进步提高了使用资源的效率(减少任何一种使用所需的数量),但成本降低导致需求增加,令资源消耗的速度不减反增。
摩根士丹利分析师约瑟夫 · 摩尔(Joseph Moore)及其团队在周四发布的投资者报告中指出: " 有报道称谷歌的 TurboQuant 会导致内存使用量减少了到原来的 1/6,但这忽略了他们仅仅指的是 KV Cache,而不是整体内存使用量。
" 值得注意的是,谷歌的 Gemini 3 和 2.5 Pro 模型都拥有 100 万个 Token 的上下文窗口,但谷歌曾透露,他们使用 Gemini 1.5 Pro 测试过高达 1000 万个 Token 的上下文窗口,并取得了非常好的结果,但由于推理成本较高,他们最终没有发布该模型," 摩尔说道。" 因此,我们预计,随着此类创新以及其他技术的出现,成本将会降低,这项技术将被用于服务于更智能、计算密集型的产品。"
摩根士丹利进一步指出,TurboQuant 主要优化的是 " 推理阶段 " 的缓存,并非 " 训练阶段 " 的模型权重。因此,对于支撑 AI 核心训练的 HBM(高频宽內存)采购逻辑影响相对有限。
相比之下,TurboQuant 对手机、笔记本电脑等终端设备的人工智能部署更具意义。由于移动设备的內存有限,这类高效压缩技术能让更强大的 AI 模型在手机端运行,这反而会刺激各类终端装置进行內存规格的全面换代。
Lynx Equity Strategies 的观点认为,虽然人工智能提供商需要创新来解决推理中随着 Token 上下文长度增加而出现的瓶颈问题,但由于供应限制,这在未来三到五年内并不会减少对内存和闪存的需求。


登录后才可以发布评论哦
打开小程序可以发布评论哦