智东西 11小时前
阿里开源音频生成模型!为AI视频生成匹配音频、分分钟生成游戏音效
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 金碧辉

编辑 | 程茜

智东西 7 月 1 日消息,阿里通义实验室全球首个应用思维链(CoT)技术的音频生成模型 ThinkSound 今天开源,该模型首次将 CoT 引入音频生成领域,通过多阶段推理框架解决传统视频转音频(V2A)技术的音画错位问题,并开源配套数据集 AudioCoT。

ThinkSound 模型可直接应用于影视后期制作,为 AI 生成的视频自动匹配精准的环境噪音与爆炸声效;服务于游戏开发领域,实时生成雨势变化等动态场景的自适应音效;同时可以无障碍视频生产,为视障用户同步生成画面描述与环境音效。

ThinkSound 模型生成的视频内容

目前,ThinkSound 一共有 ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,开发者可按需调用适配。开发者可通过 GitHub、Hugging Face、魔搭社区免费调用 Apache 2.0 协议的开源代码。

性能验证显示,在 VGGSound 测试集上,ThinkSound 的 Fréchet 音频距离降至 34.56,较此前主流模型 MMAudio 显著提升 20.1%;时序对齐误差率仅 9.8%,同比降低 37.2%;声音事件判别指标 KLPaSST 与 KLPaNNs 分别达到 1.52 和 1.32,均为当前同类模型最佳结果。在面向影视场景的 MovieGen Audio Bench 测试中,其表现大幅领先 Meta 的 Movie Gen Audio 模型。

ThinkSound 在 VGGSound 测试集上的表现

技术主页:

https://thinksound-project.github.io/

开源地址:

https://huggingface.co/FunAudioLLM

GitHub:https://github.com/liuhuadai/ThinkSound

体验地址:

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三阶段流程完成推理,模拟人类音效师创作流程

ThinkSound 模型的突破性在于其成功模拟了专业音效师的核心工作逻辑,通过三阶段推理流程实现自动化音效生成。

首先,模型执行视觉事件解析,逐帧分析视频内容,精准识别关键物理事件如玻璃碎裂轨迹或脚步移动速度,并同时判断画面中物体的材质属性,例如金属、木材或液体,输出带时间戳的结构化事件与属性数据。

然后模型进入声学属性推导阶段,基于解析出的视觉特征,运用物理规则进行映射:依据材质类型推导声音的频谱特性,金属材质会产生高频共振;根据运动强度计算声波能量,雨滴高度直接影响混响强度;同时模拟环境空间如密闭房间或开放广场对声场反射的影响,最终生成物理特性准确的声学参数矩阵。

最后是时序对齐合成阶段,模型通过动态对齐引擎将声学参数与视频帧精确绑定,利用时间编码器自适应补偿画面跳帧或慢动作变化以确保声波连续性,并采用分层渲染技术实时合成音频流,包含基础音色层、环境反射层及运动特效层。

这一流程实现了与画面帧的精准同步,其时序误差率低至仅 9.8%,较传统模型大幅降低 37.2%,从而将传统手工音效制作中耗时数小时的音画对齐工作压缩至分钟级完成。

在生物声学场景中,ThinkSound 模型生成的婴儿哭声音频严格匹配表情动作变化,其音高动态范围与呼吸节奏波动精准遵循婴幼儿生理发声模式,通过时序对齐算法确保哭声强度峰值与面部扭曲程度实现帧级同步。

ThinkSound 模型生成的婴儿哭声视频截图

ThinkSound-1.3B 的参数量为 13 亿,是当前开源版本中规模最大的模型,适合专业级音效生成任务;ThinkSound-724M 的参数量为 7.24 亿,该模型平衡了生成质量与计算效率。适合需要较高音效质量但资源受限的场景;ThinkSound-533M 的参数量为 5.33 亿),定位为轻量级入门模型。在保证基础音效生成能力的同时,显著降低硬件门槛,适用于快速原型开发和教育研究用途。

二、整合总计 2531.8 小时音频,构建全球首个 AudioCoT 数据集

为突破传统音频生成模型 " 黑箱操作 "、缺乏可解释设计逻辑的瓶颈,阿里团队构建了业界首个且规模最大的带思维链标注音频数据集 AudioCoT。

该数据集整合了总计 2531.8 小时的音频、视觉素材,涵盖影视片段库、高保真自然声场采集及国际知名专业音效库。

AudioCoT 的核心突破在于其思维链标注体系:每条数据均由专业团队深度标注出完整的逻辑链条。标注团队从视觉事件分析识别画面中的关键触发元素,到声学特性推理推导声音应有的物理和感知属性,再到音效合成策略明确实现目标声音的技术路径。这种从视觉输入到声音输出的完整逻辑映射,为模型构建了理解声音设计 " 为什么 " 和 " 怎么做 " 的知识图谱。

ThinkSound 在训练中不仅学习生成声音,还能够基于画面元素自动推理并调整生成声音的属性,改变了依赖预设标签的黑箱生成模式,实现了生成高质量音频的同时 " 知其所以然 ",增强 AI 生成音效的真实感和同步性。

ThinkSound 模型增强 AI 生成音效的真实感和同步性

三、关键指标超越主流方案,时序对齐误差率降低 37%

在权威测试集 VGGSound 上,ThinkSound 的 Fréchet 音频距离(FD)降至 34.56(对比 MMAudio 的 43.26),逼近真实音效分布;声音事件判别精度 KLPaSST/KLPaNNs 达 1.52/1.32,ThinkSound 超越 MMAudio 等标杆模型。

在影视场景测试集 MovieGen Audio Bench 中,ThinkSound 以 20% 优势超越 Meta 的 Movie Gen Audio 模型,尤其在爆炸、金属摩擦等复杂声效的时序对齐误差率降低 37%。

ThinkSound 超越 Meta 的 Movie Gen Audio 模型

为验证 ThinkSound 核心技术设计的必要性,阿里团队展开消融实验。

当前视频生成音频(V2A)技术长期面临的核心痛点,是模型难以捕捉视觉事件与声音之间的物理关联。例如,玻璃碎裂的画面本应触发高频清脆声,但传统模型常输出模糊的 " 破碎声 " 或与画面时序错位的音效。其根源在于数据与建模的局限性,主流方案依赖文本、音频的浅层匹配,缺乏对声学物理规律的推理能力。例如,早期模型 Make-An-Audio 虽通过 CLAP 文本编码器和频谱自编码器提升可控性,但仍无法解析 " 物体材质如何影响声音频率 " 这类逻辑链。

同时,传统模型还存在时序错位问题,通用模型如 Meta 的 Movie Gen Audio 在复杂场景中常出现音画不同步,例如爆炸声滞后于火光画面,因模型未建立事件因果链。

团队将视频的 CLIP 视觉特征与 T5 文本推理特征在时间轴上对齐融合,相比单独输入音频特征,音画同步精度提升 23%。

ThinkSound 的不同的文本编程策略比较

门控融合机制通过动态分配权重,例如会优先处理视觉事件声效而非环境背景音,在 KLPaSST 指标上实现 17% 的提升,Fréchet 音频距离降低 12%,超越常规的拼接融合与加法融合策略。

多模式整合机制比较

结语:ThinkSound 开源,阿里三大模型补全音频工具链

ThinkSound 的发布标志着音频生成从 " 能发声 " 迈向 " 懂画面 " 的智能阶段。其技术价值不仅在于性能提升,更在于将专业音效设计流程标准化、自动化,把传统需数小时的手工音画对齐工作压缩至分钟级完成。

对产业而言,ThinkSound 与阿里此前开源 CosyVoice 2.0(语音合成)、Qwen2.5-Omni(全模态交互)形成技术矩阵,覆盖从语音到环境音效的全场景音频生成需求。开发者可基于此构建影视配音、游戏实时音效、无障碍视频制作等低成本工具,尤其为中小创作者提供接近专业工作室的音频生产能力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 阿里 物理 自动化
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论