阿里通义实验室发布PrismAudio视频生成音频框架

IT 之家 3 月 24 日消息，阿里巴巴通义实验室今日发布了 PrismAudio，这是一个视频生成音频（Video-to-Audio）框架，其研究重点是环境音 / 音效合成，比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音，而不是给人物配音。

IT 之家附官方详细介绍如下：

PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说，我们教模型学会了 " 先思考，再发声 "，并且有四位 " 老师 " 同时给它打分。

语义老师盯着画面，教模型认准 " 这是马蹄声，不是鸟叫声 "。

时序老师拿着秒表，监督声音和动作必须严丝合缝。

美学老师挑剔音质，要求声音自然、有层次、不刺耳。

空间老师听声辨位，检查声音是不是从该来的方向来。

但问题来了：四个老师同时打分，如果要求不一样怎么办？比如语义老师说 " 这个声音像了 "，时序老师说 " 但慢了半拍 "，听谁的？

PrismAudio 的解法是：让模型先想清楚，再动手。

第一步：先写笔记，再发声

传统的配音模型是 " 端到端 " 的：输入视频，直接输出音频。模型内部发生了什么，没人知道，也没人控制。

但我们希望模型不是 " 瞎蒙 "，而是 " 有思路 " 地生成。所以，我们没让模型一上来就生成音频，而是先让它 " 写笔记 "。

这段视频里有什么？应该发出什么声音？

声音什么时候开始？什么时候结束？顺序怎么排？

声音应该是什么质感？清脆还是低沉？远近怎么处理？

声源在左边还是右边？有没有移动？

四份笔记写完，拼接成一份完整的 " 行动指南 "，再交给音频生成模型去执行。这就是我们说的分解式思维链，不是让模型 " 一拍脑袋 " 出声音，而是让它把思考过程拆开、写下来，每一步都有据可依。

第二步：四位老师，持续打分

生成音频后，怎么判断它做得好不好？光靠 " 像不像真实声音 " 这一个标准，仍然会让模型再次陷入 " 顾此失彼 " 的老问题。所以，我们给每个老师配了一个 " 打分器 "（奖励函数），让四个老师各自打分，互不干扰：

语义老师用 MS-CLAP 打分，检查声音和画面内容是否匹配

时序老师用 Synchformer 打分，精准测量声音和动作是否同步

美学老师用 Meta Audiobox Aesthetics 打分，从清晰度、动态、丰富度等多个维度评估音质

空间老师用 StereoCRW 打分，验证左右声道信息是否与画面中的声源位置一致

四个分数加在一起，形成一个综合评分。模型的目标，就是不断调整自己的生成策略，让这个总分越来越高。这样模型不会被单一标准牵着走，而是必须同时满足四个的要求，哪个维度都不掉队。

第三步：高效训练，解决效率瓶颈

有了打分机制，下一步就是用强化学习来优化模型。

但这里有一个现实问题：强化学习训练扩散模型，太慢了。

传统方法每一步都要做随机采样，成本极高。如果每一步都这么折腾，训练一轮可能要好几周。所以我们设计了一个高效训练算法 Fast-GRPO。

它的核心思路很简单：把随机探索限制在刀刃上。只在生成过程的极短时间内做随机采样，其余时间走快速通道。这样既保留了探索空间，又把训练时间大幅缩短。

结果显示：在单独优化某个指标时，Fast-GRPO 只用 200 步就达到了传统方法 600 步的性能水平。

效果怎么样？

我们做了严格的测试，在传统的 VGGSound 测试集上，PrismAudio 全面超越了现有最好方法：

在我们自己搭建的复杂场景测试集 AudioCanvas 上，差距拉得更大：

PrismAudio 只有 5.18 亿参数，生成 9 秒音频只要 0.63 秒，比那些动辄几十亿参数的模型更轻量、更实用。

这项研究已被顶级会议 ICLR 2026 收录，代码即将开源

论文地址：arXiv：2511.18833

开源地址：https://prismaudio-project.github.io/

宙世代