IT之家 7小时前
阿里通义实验室发布PrismAudio视频生成音频框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 3 月 24 日消息,阿里巴巴通义实验室今日发布了 PrismAudio,这是一个视频生成音频(Video-to-Audio)框架,其研究重点是环境音 / 音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而不是给人物配音。

IT 之家附官方详细介绍如下:

PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,我们教模型学会了 " 先思考,再发声 ",并且有四位 " 老师 " 同时给它打分。

语义老师盯着画面,教模型认准 " 这是马蹄声,不是鸟叫声 "。

时序老师拿着秒表,监督声音和动作必须严丝合缝。

美学老师挑剔音质,要求声音自然、有层次、不刺耳。

空间老师听声辨位,检查声音是不是从该来的方向来。

但问题来了:四个老师同时打分,如果要求不一样怎么办?比如语义老师说 " 这个声音像了 ",时序老师说 " 但慢了半拍 ",听谁的?

PrismAudio 的解法是:让模型先想清楚,再动手。

第一步:先写笔记,再发声

传统的配音模型是 " 端到端 " 的:输入视频,直接输出音频。模型内部发生了什么,没人知道,也没人控制。

但我们希望模型不是 " 瞎蒙 ",而是 " 有思路 " 地生成。所以,我们没让模型一上来就生成音频,而是先让它 " 写笔记 "。

这段视频里有什么?应该发出什么声音?

声音什么时候开始?什么时候结束?顺序怎么排?

声音应该是什么质感?清脆还是低沉?远近怎么处理?

声源在左边还是右边?有没有移动?

四份笔记写完,拼接成一份完整的 " 行动指南 ",再交给音频生成模型去执行。这就是我们说的分解式思维链,不是让模型 " 一拍脑袋 " 出声音,而是让它把思考过程拆开、写下来,每一步都有据可依。

第二步:四位老师,持续打分

生成音频后,怎么判断它做得好不好?光靠 " 像不像真实声音 " 这一个标准,仍然会让模型再次陷入 " 顾此失彼 " 的老问题。所以,我们给每个老师配了一个 " 打分器 "(奖励函数),让四个老师各自打分,互不干扰:

语义老师用 MS-CLAP 打分,检查声音和画面内容是否匹配

时序老师用 Synchformer 打分,精准测量声音和动作是否同步

美学老师用 Meta Audiobox Aesthetics 打分,从清晰度、动态、丰富度等多个维度评估音质

空间老师用 StereoCRW 打分,验证左右声道信息是否与画面中的声源位置一致

四个分数加在一起,形成一个综合评分。模型的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样模型不会被单一标准牵着走,而是必须同时满足四个的要求,哪个维度都不掉队。

第三步:高效训练,解决效率瓶颈

有了打分机制,下一步就是用强化学习来优化模型。

但这里有一个现实问题:强化学习训练扩散模型,太慢了。

传统方法每一步都要做随机采样,成本极高。如果每一步都这么折腾,训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。

它的核心思路很简单:把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样,其余时间走快速通道。这样既保留了探索空间,又把训练时间大幅缩短。

结果显示:在单独优化某个指标时,Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。

效果怎么样?

我们做了严格的测试,在传统的 VGGSound 测试集上,PrismAudio 全面超越了现有最好方法:

在我们自己搭建的复杂场景测试集 AudioCanvas 上,差距拉得更大:

PrismAudio 只有 5.18 亿参数,生成 9 秒音频只要 0.63 秒,比那些动辄几十亿参数的模型更轻量、更实用。

这项研究已被顶级会议 ICLR 2026 收录,代码即将开源

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

it之家 阿里巴巴
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论