来源:新浪科技
新浪科技讯 6 月 23 日下午消息,近日,网易有道发布 " 子曰 4.0"TTS 语音合成引擎 Confucius4-TTS,是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。该模型在跨语种语音克隆、免参考文本建模、情感韵律迁移和本地化部署等关键维度上达到国际最前沿水平,现已面向全球用户全量开源。

目前,网易有道 Confucius4-TTS 已全面支持中文、英语、西班牙语等 14 种语言的自然流利表达。
同时,网易有道 Confucius4-TTS 实现了全面突破:第一,用户仅需提供 3 秒音频素材,模型即可完成音色克隆。克隆音色与原声相似度超过 85%,克隆任务准确度高达 97%。第二,支持 14 种语言无缝切换,消除跨语种口音壁垒。第三,实现情感韵律的无损跨语种迁移,Confucius4-TTS 能自动提取、解析参考音频中的情感特征。
据悉,Confucius4-TTS 引入了 GPT 式语义大模型作为主干,搭配基于 SSL 预训练特征和 ECAPA-TDNN 的可学习说话人编码器,并采用 Flow Matching 流匹配生成框架。目前,网易有道已将该模型全量开源。Confucius4-TTS 采用 Apache 开源协议,面向全球开发者开放完整模型权重和配套工具链,商用没有限制。开发者可以下载 54G 完整资源包,本地离线部署运行。


登录后才可以发布评论哦
打开小程序可以发布评论哦