财联社 2小时前
谷歌推出压缩算法TurboQuant 宣称实现约6倍内存节省
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

财联社 3 月 26 日电,谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法 TurboQuant。根据谷歌介绍,TurboQuant 压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对 AI 系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。TurboQuant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至 3bit 精度,同时基本保持模型准确率不受影响。对包括 Gemma、Mistral 等开源模型的测试显示,该技术可实现约 6 倍的键值缓存内存压缩效果。此外,在英伟达 H100 加速器上的测试结果显示,与未量化的键向量相比,该算法最高可实现约 8 倍性能提升。研究人员也表示,这项技术的应用不局限于 AI 模型,还包括支撑大规模搜索引擎的向量检索能力。谷歌计划于 4 月的国际学习表征会议(ICLR 2026)上展示 TurboQuant 技术。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 搜索引擎 英伟达 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论