量子位 18小时前
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

这一天,辣个男人终于回想起……他的小破站账号!(活久见)

李沐老师终于带着他的手搓语音大模型教程回归了… .

本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2 模型,不仅能处理文本,还能同时理解并生成语音。

除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

整个过程堪称" 大力出奇迹 ",直接将1000 万小时的语音数据整合到 LLM 的文本训练,让它能听也能说。(当然还有亿点点细节)

粗暴,但有效!

鬼畜视频?人力手搓已经 OUT 了,李沐老师直接用算力帮大伙搞定,效果 be like:

网友:醒醒,开组会了。

沐导今日组会内容速记

传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让 LLM 用语音进行沟通。

那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为系统指令(system)、用户输入(user)、模型回复(assistant)三个部分。

system 告诉模型,需要做什么事情,例如回答该问题、写一段文字或者其他,user 就是告知事情的详细内容,例如问题具体是什么、文字要什么风格。

所以如果要让模型支持语音,就需要为模型增加一个系统命令,在 user 里输入要转录为语音的文字,让模型从 system 里输出对应语音数据。

这样语音任务就能转换成相同的处理格式,直接打通语音和文本之间的映射,通过追加更多的数据和算力,直接scaling law" 大力出奇迹 "。

这就引出了新的问题,语音信号本质是连续的,要如何才能在离散的文本 token 中表示呢?

现有的方法是将一秒的语音信号裁切成多段(如 100 毫秒一段),为每一段匹配最相似的预定义模板(如 45 个模板),然后将其表示为长度为 10 的编号序列,也就是一个个 token。

但这样做,虽然可以将一小时的音频从 60 兆压缩到 0.16 兆,但质量相当糟糕,所以需要优先保留语音的语义信息,而声学信号只保留少量部分,后续再通过其他手段还原。

于是他们训练了一个统一的离散化音频分词器,以每秒 25 帧的速度运行,同时保持甚至提高音频质量,以捕获语义和声学特征。

然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。

这样得到的数据质量参差不齐,需要删除其中的 90% 才能满足1000 万小时的训练数据需求。

其次,将语音对话表示为相应的 system(场景描述、声学特征、人物特征等)、user(对话文本)、assistant(对应音频输出)的形式。

由于 OpenAI 和谷歌一向禁止使用他们的模型输出再训练,且训练成本过高,为了实现这种标注,他们利用相同的模型架构额外训练出一个语音模型AudioVerse

该模型接收用户语音输入,分析并输出场景、人物、情绪、内容等信息,再将输出反过来作为生成模型的 system 提示和 user 输入,实现模型的共同进步。

举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。

最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。

还能根据语音分析场景、人物(性别、年龄、情绪状态)、环境音(室内外),并进行复杂的理解和推理。

在实时语音聊天上,还可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答。

EmergentTTS-Eval基准上,相较于其他模型,性能可以说是遥遥领先,尤其是在 " 情绪 " 和 " 问题 " 类别中,相比GPT-4o-mini-tts高出了 75.7% 和 55.7% 的胜率。

此外,它在 Seed-TTS Eval 和情感语音数据集   ( ESD )   等传统 TTS 基准测试中也取得了最佳性能。

那么,我们能玩吗?相信同学们都已经跃跃欲试了。

放心,沐导都包圆了,模型代码都已全部发布在GitHub上(可点击文末链接获取~),并提供了在线试玩平台和 Hugging Face 版本。

想要安装在自己电脑上的同学,需要准备好GPU 版 Pytorch,或使用 media 驱动提供的Docker简化安装,readme 里还有一些语音样例(包含文本和对应的音频),大家可以自行体验学习。

尤其是喜欢搞搞鬼畜视频、虚拟主播的同学们,这个模型一定要试试,它可以直接复制特定人物的声音。

不过温馨提醒,生成特定场景的文本时,最好提供类似场景中人物说话的语音信息(例如吵架、放松、大笑的语音),可以更好地进行声纹克隆嗷~

断更的日子里,沐导干嘛去了?

在小破站消失的这段时间里,沐导也没闲着,他创业的公司正在如火如荼先后推出多项新产品。

但还是先给不了解沐导的新同学们,简单介绍一下沐导和他的公司Boson AI

李沐其人,小破站 AI 科普只是副业(即将达成百万粉丝成就,同学们点点关注,冲鸭!),本职还是个正儿八经的 AI 技术专家。(小声说:我们量子位在 B 站也有账号嗷~欢迎来一键三连)

本科毕业于上海交大,曾在百度担任高级研究员,卡耐基梅隆大学博士毕业后成为亚马逊的资深首席科学家,现在又和自己的导师一起创办了人工智能公司 Boson.ai。

开发了著名的深度学习框架MXNet,还是那本 AI 必读经典《动手学深度学习》的作者之一。

其创办的 Boson.ai 主要涉及 LLM 研发,早前推出的开源模型Higgs - Llama - 3 - 70B,基于 Llama 3 打造,做了完整的 SFT、RLHF,不仅能在复杂角色扮演任务上表现优异,在通用领域的指令遵循和推理方面也颇具竞争力。

今年 4 月,Boson.ai 还推出了Higgs Audio UnderstandingHiggs Audio Generation两个工具,可以为不同音频理解和生成需求构建定制 AI Agent。

5 月份,还发布了一个专门设计用于评估 TTS 系统在复杂场景下表现的综合基准——EmergentTTS-Eval,涵盖情感表达、非语言线索、语法复杂性等六个关键维度的挑战场景,并采用 " 模型即评判者 " 的创新评估框架。

……

只能说,沐导人是真忙,还愿意抽空来教同学们手搓新玩具,泪目 TT

所以,沐导咱下一个视频什么时候发呀?(doge)

视频教程:https://www.bilibili.com/video/BV1LGbozkEDY/?spm_id_from=333.337.search-card.all.click&vd_source=4075efdd29cbc7a407952a778f815fd3

模型代码:https://github.com/boson-ai/higgs-audio

参考链接:

[ 1 ] https://www.boson.ai/blog/higgs-audio

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

李沐 奇迹 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论