智东西 02-10
主打一个快!腾讯开源0.3B端侧模型,手机耳机都能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 心缘

智东西 2 月 10 日报道,今日,腾讯混元开源一款面向消费级硬件场景的 " 极小 " 模型HY-1.8B-2Bit,等效参数量仅有0.3B,内存占用仅600MB,比常用的一些手机应用还小,可本地化部署于手机、耳机智能家居等设备应用。

该模型基于首个产业级 2 比特(Bit)端侧量化方案,通过对此前混元的小尺寸语言模型 HY-1.8B-Instruct 进行2 比特量化感知训练(QAT)产出。这一模型对比原始精度模型等效参数量降低 6 倍,沿用原模型全思考能力,可根据任务复杂度切换长 / 短思维链;同时在真实端侧设备上生成速度提升2-3 倍

HY-1.8B 原始精度模型生成效果

HY-1.8B-2Bit 模型生成效果,2bit 量化后的模型速度明显更快

比特是计算机存储的最小单位,一般模型的精度有 2 比特、4 比特、8 比特、32 比特等表示方法,数值越大模型的精度更高,所占的内存就越大。虽然 2 比特量化的精度损失较大,但通过 QAT 和先进的量化策略,团队已经能让 2 比特模型接近全精度模型的性能,对比 4 比特 PTQ 模型版本数学、代码、科学等指标上表现相当。

对于原始模型大小只有 1.8B,量化 bit 数只有 2bit 的 HY-1.8B-2Bit,混元团队采用了量化感知训练策略,从而显著提升了量化后模型的性能。腾讯混元还通过数据优化、弹性拉伸量化以及训练策略创新三个方法,来提升 HY-1.8B-2Bit 的全科能力。

部署方面,腾讯混元提供了 HY-1.8B-2Bit 的 gguf-int2 格式的模型权重与 bf16 伪量化权重,对比原始精度模型,HY-1.8B-2Bit实际模型大小直降 6 倍,仅有 300MB,能够灵活用于端侧设备上。该模型也已在Arm等计算平台上完成适配,可部署于启用 Arm SME2 技术的移动设备上。

MacBook M4芯片上,HY-1.8B-2Bit 固定了线程数为 2 测试了不同窗口大小下的首字时延和生成速度,模型选定 fp16、Q4、HY-1.8B-2Bit 三种 gguf 格式作为对比,首字时延在 1024 输入内能够保持3~8 倍的加速,生成速度上常用窗口下对比原始模型精度,HY-1.8B-2Bit 能够实现至少2 倍稳定加速。

天玑 9500上同样进行了测试,对比 HY-1.8B-Q4 格式首字时延能够加速1.5~2 倍,生成速度加速约1.5 倍

项目链接:

https://github.com/Tencent/AngelSlim

模型地址:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

技术报告:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

结语:模型 " 瘦身 ",加速端边侧智能发展

HY-1.8B-2Bit 的推出标志着腾讯在小型化、多语言和端侧 AI 上的新突破。它不仅在性能上接近更大规模的模型,还兼顾了速度、内存和隐私的平衡。

从去年中阿里的 Qwen-Embedding-0.6B、谷歌的 0.27B 的 Gemma 3、0.3B 的 EmbeddingGemma,再到今年初腾讯 0.3B 的 HY-1.8B-2Bit,越来越多的小尺寸模型可供开发者选择,推动 RAG、语义搜索等应用不断下沉至个人设备。

当前,HY-1.8B-2Bit 的能力仍受限于监督微调(SFT)的训练流程,以及基础模型本身的性能与抗压能力。针对这一问题,混元团队未来将重点转向强化学习与模型蒸馏等技术路径,以期进一步缩小低比特量化模型与全精度模型之间的能力差距。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 开源 效果 arm
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论