智东西 2小时前
干掉同声传译?阿里又开源一模型,精通18种语言,离线可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

占据多个中英及多语言语音翻译榜单第一名。

作者 | 王涵

编辑 | 漠影

智东西 9 月 30 日消息,刚刚,通义千问多语言实时音视频同传模型 Qwen3-LiveTranslate-Flash 开源,占据多个中英及多语言语音翻译榜单第一名!

Qwen3-LiveTranslate-Flash 实现了覆盖 18 种语言的离线和实时两种音视频翻译能力,主要有以下 5 个核心亮点:

1、多语言和方言:支持中文、英文、法语、德语、俄语、意大利语、西班牙语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。

2、视觉增强:首次引入视觉上下文增强技术,Qwen3-LiveTranslate-Flash 可以通过识别和利用口型、动作、文字、实体等多模态信息,有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。

3、3 秒延迟:轻量的混合专家架构与动态采样策略,同传实现最低 3 秒的延迟。

4、无损同传:该模型采用语义单元预测技术缓解跨语言翻译的调序问题,实现与离线翻译几乎无损的翻译质量。

5、音色自然:该模型使用海量语音数据训练,可以根据原始语音内容自适应调节语气和表现力的拟人音色。

01.

超越 Gemini-2.5-Flash

同传准确度达 94% 以上

在公开测试集上,中英及多语言语音翻译榜单中,Qwen3-LiveTranslate-Flash 的准确度优于当前主流大模型 Gemini-2.5-Flash、GPT-4o-Audio-Preview 和 Voxtral Small-24B 等模型,在除 AVG.XX-EN 以外的测试中均是第一名。

Qwen3-LiveTranslate-Flash 在不同领域和复杂声学环境下的测试成绩也优于 Gemini-2.5-Flash 等主流大模型。

该模型研发语义单元预测技术来缓解跨语言调序问题,其实时同传可在保持非实时翻译 94% 以上准确度的同时,显著降低延迟。

视觉增强技术进一步让 Qwen3-LiveTranslate-Flash 在嘈杂音频、一词多译、专有名词翻译等场景翻译更精准。在实时场景中,视觉信息弥补了语音上下文的缺失,优势更明显。

02.

能分清 Mask 和 Musk

还有多种不同声色

官方给出了丰富的实例,Qwen3-LiveTranslate-Flash 在同传翻译、视觉增强辅助等能力上的表现确实能打,着实为专业翻译工作人员捏了一把汗。

03.

结语:通义千问加速 AI 音视频翻译落地

Qwen3-LiveTranslate-Flash 首次引入视觉上下文增强技术,让音视频 AI 翻译更上了一个台阶。

通义千问团队称,今后还将持续提升语音翻译的准确性、自然度、情感一致性,拓展更多语种的覆盖范围,增强在各种复杂语音环境下的翻译鲁棒性。

在语音翻译这个应用面推进技术进步的红海赛道,通义千问这次开源,或将大幅降低全球开发者在实时跨语言交流应用上的创新门槛,加速催生从国际会议、跨境直播到无障碍沟通等场景的下一代产品落地。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

语音翻译 翻译 开源 俄语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论