
智东西
作者 | 程茜
编辑 | 云鹏
0.4G、离线也能跑的翻译模型,开源了!
智东西 4 月 29 日报道,今日,腾讯混元开源翻译模型 Hy-MT1.5-1.8B-1.25bit。该模型仅 0.4G,就实现了 33 种语言高质量互译,且下载后可直接在手机本地离线运行,翻译表现优于谷歌翻译。
这一原始模型的参数规模为 1.8B,为降低用户手机内存压力,腾讯混元团队通过量化压缩推出了适配中高性能手机的 2-bit、全系列手机的 1.25-bit 两种方案,模型体积分别被压缩至 574MB、440MB。

开源项目主页
此次开源,腾讯混元团队还制作了一个实际可用的腾讯混元翻译 Demo 版,并适配 " 后台取词模式 "。用户在本地查看邮件、浏览网页时,都能随时调用混元翻译,且无需网络、订阅,翻译过程都在本地处理、不涉及个人信息的采集和上传,一次下载永久免费使用。该 Demo 暂时只支持安卓体验, 后续正式版会添加对 IOS 等平台的支持。
演示设备:高通骁龙 7+gen2,16GB 内存
Hy-MT1.5 是腾讯混元团队打造的专业翻译大模型,原生支持 33 种语言、5 种方言及 1056 个翻译方向,包含中英互译以及对法语、日语、阿拉伯语、俄语,甚至藏语、蒙古语等各种语言的翻译。
翻译模型演示,设备:高通骁龙 865,8GB 内存
腾讯混元的基准测试结果显示,Hy-MT1.5 的翻译效果可比肩商业翻译 API 和 235B 级大模型的翻译效果,且翻译质量在基准测试中超过了谷歌翻译等主流系统。

原始 1.8B 模型在 FP16 精度下会占用 3.3GB 内存,为了不占用手机内存,研究人员进行了量化压缩。
其将模型里原本用 16 位数字(16-bit)表示的参数转用更低位数字储存。这就像把一幅高清照片压缩成缩略图,虽然文件小但还是能看清楚内容。
此外,针对不同的手机用户,腾讯还推出了 2-bit 与 1.25-bit 两种量化压缩方案。其实测显示,量化压缩后的两款模型表现效果远超同体积或更大体积大模型的翻译效果。

2-bit 适用的中高端机型,模型体积压缩至 574MB。
根据官方介绍,2-bit 模型采用拉伸弹性量化(SEQ),将模型参数量化至 {-1.5,-0.5,0.5,1.5},并结合量化感知蒸馏,在将模型体积压缩至 574MB 的同时,实现了几乎无损翻译质量,效果超越上百 GB 的大模型。在支持 Arm SME2 技术的移动设备上,2-bit 模型能够实现更快速、更高效的推理。
1.25-bit 模型适用全系机型,模型体积为 440MB。
这一模型基于 Sherry(稀疏高效三值量化)技术,其核心逻辑在于 " 细粒度稀疏 " 策略:每 4 个模型参数,3 个最重要的用 1-bit 储存,1 个用 0 储存,平均每个参数仅需 1.25-bit。

此外,其还搭载了腾讯为手机 CPU 设计的 STQ 内核,适配 SIMD 指令集。这使得该模型能长时间在后台停留。Sherry 技术方案已经被 NLP 顶级学术会议 ACL 2026 录用。

结语:腾讯混元拉低离线翻译普及门槛
AI 翻译已成为手机、输入法、浏览器、会议、客服工具等各种工具的标配功能,但大多工具仍是联网调用云端 API,离线能力弱、体验差、隐私风险高。
腾讯混元此次开源轻量化翻译模型,用几百 MB 级的体积实现了媲美云端大模型的翻译质量,或直接把高端离线翻译从云端特权拉到手机可普及的门槛。


登录后才可以发布评论哦
打开小程序可以发布评论哦