量子位 02-27
语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

活久见,太乙真人给讲论文了噻!

咳咳,诸位道友且听我一番唠叨。

老道我闭关数日,所得一篇妙诀,便是此Llasa之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼 "HOLY SHIT"!

热度最高时,曾在 huggingface 上的 " 丹药热度榜 " 上排第六。

咳咳,书回正传。

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循 Scaling Law,即扩展计算资源、语音合成效果可以更好

它核心提出了一个语音合成的简单框架 Llasa,该框架采用单层 VQ 编解码器和单个 Transformer 架构,和标准 LLM 保持一致。

研究团队提供了 TTS 模型(1B、3B、8B)、编解码器的 checkpoint 以及训练代码。

一气呵成 TTS 系统

近年来,基于 Transformer 的大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是通过扩展模型规模和训练数据来提升性能。

然而,当前的 TTS 系统通常需要多阶段模型(例如在 LLM 后使用扩散模型),这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段 TTS 框架Llasa,旨在简化这一过程,同时探索训练时间和推理时间扩展对语音合成的影响。

它基于 Llama 模型,采用单 Transformer 架构,结合了一个设计良好的语音分词器(tokenizer),能够将语音波形编码为离散的语音标记,并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模,通过预测下一个语音标记来生成语音。

关键组件:

语音分词器(Xcodec2):将语音波形编码为离散标记,同时保留语音的语义和声学信息。

Transformer 模型:基于 Llama 初始化,学习文本和语音标记的联合分布。

验证 Scaling Law 训练时间扩展(Scaling Train-time Compute)

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明,增加模型参数(从 1B 到 8B)和训练数据量(从 80k 小时到 250k 小时)可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现:

文本理解能力:更大的模型和更多的数据能够更好地理解复杂文本(如诗歌、情感文本)。数据越多,连生僻字,复合词也能辨其真意。

零样本学习能力:扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。

推理时间扩展(Scaling Inference-time Compute)

研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法:

过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。

输出奖励模型(ORM):通过评估最终生成的语音来选择最优输出。

实验结果

语音分词器性能:提出的 Xcodec2 在多个指标上优于现有分词器,特别是在低比特率下的语音重建质量。

TTS 性能:Llasa 在 LibriSpeech、Seed-TTS-Eval 和 ESD 数据集上达到了最先进的性能,尤其是在情感相似性、音色相似性和零样本学习能力方面。

推理时间扩展效果:通过 PRM 和 ORM 方法,推理时间扩展显著提高了语音合成的质量,尤其是在复杂任务中。

" 开源渡世 "

咳咳,太乙真人重新上线:

老道已将丹方(训练代码)、丹药(模型权重)公之于世,广邀三界修士共参:

秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

论文链接:https://arxiv.org/abs/2502.04128

Llasa 训练代码   https://github.com/zhenye234/LLaSA_training

Codec 训练   https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling 代码   https://github.com/zhenye234/LLaSA_inference

模型权重 :   https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

诸位道友若有心得,不妨留言论道,老道自当一一解惑!

—    —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

语音合成 效果 自然语言处理 香港科技大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论