36氪 13小时前
谷歌推出压缩算法TurboQuant,宣称实现约6倍内存节省
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌推出一种可能降低人工智能系统内存需求的压缩算法 TurboQuant。TurboQuant 压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对 AI 系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。TurboQuant 可在无需重新训练或微调模型的情况下,将键值缓存压缩至 3bit 精度,同时基本保持模型准确率不受影响。对包括 Gemma 等开源模型的测试显示,该技术可实现约 6 倍的键值缓存内存压缩效果。(财联社)

评论
大家都在看