驱动之家 前天
华为发布开源技术SINQ:可大幅降低大模型硬件需求!一张4090就能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 10 月 5 日消息,据报道,华为苏黎世的实验室发布了一种新的开源量化方法,可在不牺牲大模型输出质量的情况下,减少显存需求。

该技术名为 SINQ(Sinkhorn-Normalized Quantization),目前已在 GitHub 和 Hugging Face 上开源,采用 Apache 2.0 许可,允许企业和研究机构免费使用、修改和商业部署。

SINQ 的核心优势在于其快速、无需校准,并且易于集成到现有模型工作流中,通过独特的量化方法,将模型的显存需求降低了 60% 至 70%,具体取决于模型架构和位宽。

这意味着原本需要超过 60GB 显存才能运行的模型,现在可以在大约 20GB 的环境中运行。原本需要在高端企业级 GPU(如 A100 或 H100)才能运行的大模型,如今可在更经济的硬件上运行,例如单张 RTX 4090。

SINQ 已在多种架构和模型(如 Qwen3 系列、LLaMA 和 DeepSeek)上进行了评估,并在 WikiText2 和 C4 等基准测试中表现出色,显著降低了困惑度和翻转率。

它还支持非均匀量化方案(如 NF4),并可与校准方法(如 AWQ)结合使用,进一步缩小与全精度模型的差距。

在运行效率方面,SINQ 的量化速度比 HQQ 快约两倍,比 AWQ 快 30 倍以上,非常适合对量化时间有实际限制的研究和生产环境。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 华为 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论