驱动之家 5小时前
阿里两款千问语音新模型齐发:动物也能“原声”说人话了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 12 月 24 日消息,阿里今日升级语音模型家族 Qwen3-TTS,发布音色创造 Qwen3-TTS-VD 和音色克隆 Qwen3-TTS-VC 两款全新模型。

在生成效果上,全新模型的表现显著超越 GPT-4o。

Qwen3-TTS 新模型可实现 DIY 声音设计和像素级音色模仿,甚至让动物 " 原生 " 开口说人话。

其音色自然、效果稳定、生成高效,可大大加速语音大模型在有声小说、AI 漫剧、影视配音等多专业领域落地。

其中,音色创造模型支持通过自然语言描述生成定制化的音色形象,具有极强的可控生成能力。

在指令遵循评测 InstructTTS-Eval 中,Qwen3-TTS 综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct 等同类模型。

在强调表达一致性与沉浸感的角色扮演测试中,模型整体效果超过 Gemini-2.5-pro-preview-tts。

音色克隆模型则专注于 " 音色模仿 ",仅需 3 秒的语音样本,即可精准复刻原始声线。

在 MiniMax TTS Multilingual Test Set 测试集中,Qwen3-TTS-VC 显示出其在多语言语音准确性与稳定性方面的优势。

它的平均词错误率(WER)指标上表现突出,整体结果全面优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。

此外,Qwen3-TTS-VC 还可自动生成英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 9 种语音。

值得注意的是,它连动物音色也能复刻,只需录入家中宠物的原始声音,就能用模型让它 " 开口说人话 "。

目前,两款模型均在阿里云百炼平台上架 Flash 版本 API,响应速度极快,可完全满足工业级语音合成需求。

千问语音生成模型系列 Qwen3-TTS 仍在不断升级,目前可支持 50 种音色,10 大主流语言和闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等 8 大方言,可真实还原地方口音特色与语言神韵。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 阿里云 效果 俄语
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论