网易有道推出业内首个14语种无口音免文本语音克隆模型

来源：新浪科技

新浪科技讯 6 月 23 日下午消息，近日，网易有道发布 " 子曰 4.0"TTS 语音合成引擎 Confucius4-TTS，是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。该模型在跨语种语音克隆、免参考文本建模、情感韵律迁移和本地化部署等关键维度上达到国际最前沿水平，现已面向全球用户全量开源。

目前，网易有道 Confucius4-TTS 已全面支持中文、英语、西班牙语等 14 种语言的自然流利表达。

同时，网易有道 Confucius4-TTS 实现了全面突破：第一，用户仅需提供 3 秒音频素材，模型即可完成音色克隆。克隆音色与原声相似度超过 85%，克隆任务准确度高达 97%。第二，支持 14 种语言无缝切换，消除跨语种口音壁垒。第三，实现情感韵律的无损跨语种迁移，Confucius4-TTS 能自动提取、解析参考音频中的情感特征。

据悉，Confucius4-TTS 引入了 GPT 式语义大模型作为主干，搭配基于 SSL 预训练特征和 ECAPA-TDNN 的可学习说话人编码器，并采用 Flow Matching 流匹配生成框架。目前，网易有道已将该模型全量开源。Confucius4-TTS 采用 Apache 开源协议，面向全球开发者开放完整模型权重和配套工具链，商用没有限制。开发者可以下载 54G 完整资源包，本地离线部署运行。

宙世代

一起剪

相关标签