
智东西
编译 | 刘煜
编辑 | 陈骏达
智东西 3 月 26 日报道,昨天,谷歌于发布了一款针对大语言模型键值缓存(KV Cache)的无损极限压缩算法 TurboQuant,它能够从根本上解决向量量化中内存开销问题。谷歌称,TurboQuant 可将大语言模型键值缓存内存占用至少降至原来的 1/6,推理速度最高提升 8 倍,同时保持 100% 精确程度。
Cloudflare 的联合创始人、CEO 兼执行主席 Matthew Prince 称,谷歌推出 TurboQuant 堪称 " 谷歌的 DeepSeek 时刻 "。

Matthew Prince 的推文(图源:X)
向量量化一直是企业为 AI 数据 " 瘦身 " 的主流技术,主要用于压缩高维向量、节省内存、提升检索与推理效率。但传统压缩方法通常会引入额外的内存开销(每一小块数据都要单独算、单独存一套完整的 " 压缩参数 "),这些参数很占内存,每个数字都要多占 1-2 bit,这样反而会影响向量量化的效果。
谷歌称,此次推出的 TurboQuant 借助了谷歌提出的 1 bit 无偏误差校正算法 QJL 与极坐标量化压缩技术 PolarQuant,实现了压缩算法的突破。
谷歌官宣推出 TurboQuant 后,引发资本市场短期内对该技术会降低存储芯片采购需求的担忧,导致存储芯片板块集体回调。
当天美股盘中,美光股票跌幅超过 5%,收盘时下跌 3.4%,市值蒸发约 151.6 亿美元(约合人民币 1047.37 亿元)。闪迪股票下跌幅度更大,一度超过 7%,收盘时下跌 3.5%,市值蒸发约 36.44 亿美元(约合人民币 251.75 亿元)。韩股收盘时,SK 海力士股价下跌了 6.23%。

美光、闪迪股价图(图源:腾讯自选股)SK 海力士股价图(图源:Investing)
博客链接:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
一、TurboQuant 的工作原理:高质量压缩与误差修正
TurboQuant 能够在零精度损失下实现模型尺寸的大幅缩小,非常适合支持键值缓存压缩和向量搜索。它主要通过两个关键步骤实现这一目标。
TurboQuant 首先对数据向量进行随机旋转变换,这样处理简化了数据的几何结构,使得 TurboQuant 可以对向量的每个部分单独应用标准的高质量量化器(量化器是一种将大量连续数值映射为更少并且离散的符号或数值的工具,比如音频量化与 JPEG 压缩)。
第一阶段,PolarQuant 利用大部分压缩算力(绝大多数比特位)来捕捉原始向量的核心语义与特征强度,完成主体压缩。
PolarQuant 不再使用表示各轴距离的标准坐标系(即 X、Y、Z 坐标)来描述向量,而是通过笛卡尔坐标系将向量转换为极坐标。这就好比把 " 向东走 3 个街区,向北走 4 个街区 ",替换成 " 沿 37 度方向走 5 个街区 "。
PolarQuant 转换后只会保留半径(代表核心数据的强度)和角度(代表数据的方向或语义)。由于角度的分布规律已知且高度集中,模型不再需要执行计算代价高昂的数据归一化操作。它将数据映射到一个边界固定、可预测的圆形网格上,PolarQuant 就不用再存那些 " 用来表示数据范围 " 的额外信息,从而省下了一大块内存空间。
PolarQuant 工作概念图(图源:谷歌官网)
第二阶段,TurboQuant 仅以 1 bit 的极小额外内存开销,将 QJL 作用于第一阶段压缩后残留的微小误差上,消除误差。
QJL 采用一种名为约翰逊–林登斯特劳斯变换(Johnson-Lindenstrauss Transform)的数学方法,在保留数据点之间基本距离与关联关系的前提下,把复杂的数据压缩成了一种超级简单、几乎不占额外内存、计算又特别快的格式。
QJL 在高精度查询与低精度简化数据之间进行结构化平衡,相当于一个数学误差校正器,能够消除压缩带来的偏差。这使得模型能够精准计算注意力分数(即判断输入信息中哪些部分重要、哪些部分可安全忽略的核心过程)。
二、拆解测试:TurboQuant 强在哪?
谷歌称,在实验中,TurboQuant 能在完全不降低 AI 模型效果、不损失精度的前提下,显著解决键值缓存给模型推理带来的性能瓶颈。
谷歌拿 Meta 开源的 Llama-3.1-8B 模型做测试,将 TurboQuant、PolarQuant 和 KIVI 算法相比较,可以看到,与官方基准线 Full Cache 相比,TurboQuant 能够将键值缓存量化至仅 3.5 bit,并且没有损失模型精度。同时,PolarQuant 也几乎实现了无损压缩。

TurboQuant 的缓存压缩性能图(横轴为性能得分,纵轴为量化方案)(图源:谷歌官网)
谷歌对 3 种不同量化位宽的 TurboQuant 进行测试,结果表明,在下图的所有序列长度(模型处理的文本 token 数量)中,TurboQuant 1 bit 版本加速比最高,4 bit 版本加速比最低。在 1M 超长上下文中,TurboQuant 1 bit 版本加速比在 13 倍左右,4 bit 版本在 7 倍左右。
同时,谷歌称 TurboQuant 在 JAX 框架(谷歌的超级加速框架)的基础上,仍能实现显著加速。在英伟达的 H100 GPU 上,TurboQuant 4 bit 版本相比不压缩的 32bit 原版键值缓存,速度最高提升 8 倍,不仅能加速大模型推理,还能大幅优化向量搜索、索引构建等关键场景。

TurboQuant 计算注意力 logits 的加速效果图(横轴为序列长度,纵轴为加速比)(图源:谷歌官网)
在高维向量搜索任务中,谷歌以 1@k 召回率(1@k 召回率用于衡量算法在其前 k 个近似结果中,压缩后的向量和不压缩时算出 " 最相似结果 " 一样的概率。)为指标,将 TurboQuant 与当前最优方法 PQ 和 RabbiQ 进行了效果对比。
从下图可以看到,不管是 2 bit 还是 4 bit 版本的 TurboQuant,都在召回率指标上持续取得了更优表现。这证实了 TurboQuant 在高维搜索任务中的稳健性与高效性。
同时,谷歌称,在 GloVe 数据集(维度 d=200)(斯坦福大学发布的经典预训练词向量数据集)上,TurboQuant 在与当前多种主流先进量化方法的对比中,展现出稳健的检索性能,并实现了最优的 1@k 召回率。

TurboQuant 的召回率图(横轴是检索范围,纵轴是召回率)(图源:谷歌官网)
由此可见,TurboQuant 在 PolarQuant 主体压缩的基础上,通过极低比特量化与误差校正,使键值缓存的存储空间显著减少,让模型能够在相同硬件条件下处理更长的上下文、更大的批量数据,同时降低推理成本。
此外,TurboQuant 的推理速度极快,精度几乎达到无损效果,即使在超长文本下其推理能力依然稳定高效。
结语:算法博弈下的存储焦虑,企业推动大模型 " 瘦身 " 革命
TurboQuant 在谷歌的测试中表现出了出色的出成绩,它能够以极低的内存占用、近乎为零的预处理耗时,完成大规模向量索引的构建与查询,这让 " 谷歌级别 " 的语义搜索变得更加快速高效。
早在 2025 年,英伟达于在 arXiv 上公开了第一版 KVTC,证明它能把大模型的键值缓存压缩到原来的 1/20,同时精度损失不到 1%。近期,英伟达更新了实测数据,称在 H100 GPU 上处理 8000 Token 的长提示时,模型生成第一个词的时间,从传统方案的 3 秒左右,缩短至 380 毫秒,速度提升 8 倍。
科技大厂正通过持续的算法创新与迭代,不断提升 AI 大模型的推理效率。在当前存储芯片供应紧张的背景下,企业通过对大模型推理过程中的键值缓存进行高效压缩,来提升大模型自身的推理效率,或许可以在一定程度上缓解存储芯片产能跟不上 AI 算力发展速度的局面。

智东西
编译 | 刘煜
编辑 | 陈骏达
智东西 3 月 26 日报道,昨天,谷歌于发布了一款针对大语言模型键值缓存(KV Cache)的无损极限压缩算法 TurboQuant,它能够从根本上解决向量量化中内存开销问题。谷歌称,TurboQuant 可将大语言模型键值缓存内存占用至少降至原来的 1/6,推理速度最高提升 8 倍,同时保持 100% 精确程度。
Cloudflare 的联合创始人、CEO 兼执行主席 Matthew Prince 称,谷歌推出 TurboQuant 堪称 " 谷歌的 DeepSeek 时刻 "。

Matthew Prince 的推文(图源:X)
向量量化一直是企业为 AI 数据 " 瘦身 " 的主流技术,主要用于压缩高维向量、节省内存、提升检索与推理效率。但传统压缩方法通常会引入额外的内存开销(每一小块数据都要单独算、单独存一套完整的 " 压缩参数 "),这些参数很占内存,每个数字都要多占 1-2 bit,这样反而会影响向量量化的效果。
谷歌称,此次推出的 TurboQuant 借助了谷歌提出的 1 bit 无偏误差校正算法 QJL 与极坐标量化压缩技术 PolarQuant,实现了压缩算法的突破。
谷歌官宣推出 TurboQuant 后,引发资本市场短期内对该技术会降低存储芯片采购需求的担忧,导致存储芯片板块集体回调。
当天美股盘中,美光股票跌幅超过 5%,收盘时下跌 3.4%,市值蒸发约 151.6 亿美元(约合人民币 1047.37 亿元)。闪迪股票下跌幅度更大,一度超过 7%,收盘时下跌 3.5%,市值蒸发约 36.44 亿美元(约合人民币 251.75 亿元)。韩股收盘时,SK 海力士股价下跌了 6.23%。

美光、闪迪股价图(图源:腾讯自选股)SK 海力士股价图(图源:Investing)
博客链接:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
一、TurboQuant 的工作原理:高质量压缩与误差修正
TurboQuant 能够在零精度损失下实现模型尺寸的大幅缩小,非常适合支持键值缓存压缩和向量搜索。它主要通过两个关键步骤实现这一目标。
TurboQuant 首先对数据向量进行随机旋转变换,这样处理简化了数据的几何结构,使得 TurboQuant 可以对向量的每个部分单独应用标准的高质量量化器(量化器是一种将大量连续数值映射为更少并且离散的符号或数值的工具,比如音频量化与 JPEG 压缩)。
第一阶段,PolarQuant 利用大部分压缩算力(绝大多数比特位)来捕捉原始向量的核心语义与特征强度,完成主体压缩。
PolarQuant 不再使用表示各轴距离的标准坐标系(即 X、Y、Z 坐标)来描述向量,而是通过笛卡尔坐标系将向量转换为极坐标。这就好比把 " 向东走 3 个街区,向北走 4 个街区 ",替换成 " 沿 37 度方向走 5 个街区 "。
PolarQuant 转换后只会保留半径(代表核心数据的强度)和角度(代表数据的方向或语义)。由于角度的分布规律已知且高度集中,模型不再需要执行计算代价高昂的数据归一化操作。它将数据映射到一个边界固定、可预测的圆形网格上,PolarQuant 就不用再存那些 " 用来表示数据范围 " 的额外信息,从而省下了一大块内存空间。
PolarQuant 工作概念图(图源:谷歌官网)
第二阶段,TurboQuant 仅以 1 bit 的极小额外内存开销,将 QJL 作用于第一阶段压缩后残留的微小误差上,消除误差。
QJL 采用一种名为约翰逊–林登斯特劳斯变换(Johnson-Lindenstrauss Transform)的数学方法,在保留数据点之间基本距离与关联关系的前提下,把复杂的数据压缩成了一种超级简单、几乎不占额外内存、计算又特别快的格式。
QJL 在高精度查询与低精度简化数据之间进行结构化平衡,相当于一个数学误差校正器,能够消除压缩带来的偏差。这使得模型能够精准计算注意力分数(即判断输入信息中哪些部分重要、哪些部分可安全忽略的核心过程)。
二、拆解测试:TurboQuant 强在哪?
谷歌称,在实验中,TurboQuant 能在完全不降低 AI 模型效果、不损失精度的前提下,显著解决键值缓存给模型推理带来的性能瓶颈。
谷歌拿 Meta 开源的 Llama-3.1-8B 模型做测试,将 TurboQuant、PolarQuant 和 KIVI 算法相比较,可以看到,与官方基准线 Full Cache 相比,TurboQuant 能够将键值缓存量化至仅 3.5 bit,并且没有损失模型精度。同时,PolarQuant 也几乎实现了无损压缩。

TurboQuant 的缓存压缩性能图(横轴为性能得分,纵轴为量化方案)(图源:谷歌官网)
谷歌对 3 种不同量化位宽的 TurboQuant 进行测试,结果表明,在下图的所有序列长度(模型处理的文本 token 数量)中,TurboQuant 1 bit 版本加速比最高,4 bit 版本加速比最低。在 1M 超长上下文中,TurboQuant 1 bit 版本加速比在 13 倍左右,4 bit 版本在 7 倍左右。
同时,谷歌称 TurboQuant 在 JAX 框架(谷歌的超级加速框架)的基础上,仍能实现显著加速。在英伟达的 H100 GPU 上,TurboQuant 4 bit 版本相比不压缩的 32bit 原版键值缓存,速度最高提升 8 倍,不仅能加速大模型推理,还能大幅优化向量搜索、索引构建等关键场景。

TurboQuant 计算注意力 logits 的加速效果图(横轴为序列长度,纵轴为加速比)(图源:谷歌官网)
在高维向量搜索任务中,谷歌以 1@k 召回率(1@k 召回率用于衡量算法在其前 k 个近似结果中,压缩后的向量和不压缩时算出 " 最相似结果 " 一样的概率。)为指标,将 TurboQuant 与当前最优方法 PQ 和 RabbiQ 进行了效果对比。
从下图可以看到,不管是 2 bit 还是 4 bit 版本的 TurboQuant,都在召回率指标上持续取得了更优表现。这证实了 TurboQuant 在高维搜索任务中的稳健性与高效性。
同时,谷歌称,在 GloVe 数据集(维度 d=200)(斯坦福大学发布的经典预训练词向量数据集)上,TurboQuant 在与当前多种主流先进量化方法的对比中,展现出稳健的检索性能,并实现了最优的 1@k 召回率。

TurboQuant 的召回率图(横轴是检索范围,纵轴是召回率)(图源:谷歌官网)
由此可见,TurboQuant 在 PolarQuant 主体压缩的基础上,通过极低比特量化与误差校正,使键值缓存的存储空间显著减少,让模型能够在相同硬件条件下处理更长的上下文、更大的批量数据,同时降低推理成本。
此外,TurboQuant 的推理速度极快,精度几乎达到无损效果,即使在超长文本下其推理能力依然稳定高效。
结语:算法博弈下的存储焦虑,企业推动大模型 " 瘦身 " 革命
TurboQuant 在谷歌的测试中表现出了出色的出成绩,它能够以极低的内存占用、近乎为零的预处理耗时,完成大规模向量索引的构建与查询,这让 " 谷歌级别 " 的语义搜索变得更加快速高效。
早在 2025 年,英伟达于在 arXiv 上公开了第一版 KVTC,证明它能把大模型的键值缓存压缩到原来的 1/20,同时精度损失不到 1%。近期,英伟达更新了实测数据,称在 H100 GPU 上处理 8000 Token 的长提示时,模型生成第一个词的时间,从传统方案的 3 秒左右,缩短至 380 毫秒,速度提升 8 倍。
科技大厂正通过持续的算法创新与迭代,不断提升 AI 大模型的推理效率。在当前存储芯片供应紧张的背景下,企业通过对大模型推理过程中的键值缓存进行高效压缩,来提升大模型自身的推理效率,或许可以在一定程度上缓解存储芯片产能跟不上 AI 算力发展速度的局面。


登录后才可以发布评论哦
打开小程序可以发布评论哦