现在的 AI Agent 在文档生成 PPT 或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。
来自澳大利亚人工智能研究所、利物浦大学、拉筹伯大学的团队联合提出PresentAgent,一个多模态智能体,旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,实现一个完整集成的视频体验,模拟人类演讲者的信息传递方式。
打工人福音啊。
它能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示,比如商业报告、技术手册、政策简报或学术论文等。
团队在测试集上进行了验证,结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。
方法:模块化生成框架 PresentAgent
将长篇文档(如商业报告、技术手册、政策简报或学术论文)制作成高质量演示视频通常需要耗费大量人工精力。
这个过程涉及内容筛选、幻灯片设计、讲稿撰写、语音录制,以及将所有内容整合成一个连贯的多模态输出。
该任务的挑战远超传统的摘要或文本转语音系统,因为它需要:
选择性内容抽象
基于布局的视觉规划
视觉与语音的精确多模态对齐
为应对上述挑战,团队提出了一个模块化生成框架—— PresentAgent,如图 1 所示。
其流程包括:1、将输入文档语义分块(通过大纲规划);2、为每个语义块生成具有布局指导的幻灯片视觉内容;3、将关键信息重写为口语化解说文本;4、语音合成后,与幻灯片进行时间同步,最终生成一个结构良好、讲解清晰的视频演示。
△图 1:PresentAgent 概览
该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理(2)结构化幻灯片生成(3)同步字幕创建(4)语音合成。
最终输出为一个结合幻灯片和同步讲解的演示视频。图 1 中紫色高亮部分表示生成过程中的关键中间输出。
输入端的文档形式如图 2 所示,展示了评估基准中的文档多样性。
△图 2:评估基准中的文档多样性
如图 3 所示,左侧给定多样的输入文档,如论文、网站、博客、幻灯片或 PDF,PresentAgent 能生成带讲解的演示视频,输出为同步的幻灯片和音频。
图 3 右侧,团队设计了PresentEval,一个双路径的评估框架:
客观测验评估(上),通过 Qwen-VL 进行事实理解检测;
主观打分评估(下),借助视觉 - 语言模型从内容质量、视觉设计与语音理解等维度进行评分。
△图 3:方法框架概览
值得一提的是,整个流程具有可控性和领域适应性,适用于多种文档类型和演示风格。
评估:接近人类表现水平
为有效评估此类复杂多模态系统,团队整理了一个涵盖教育、金融、政策与科研等多个领域的 30 组人工制作的 " 文档 - 演示视频对 " 的测试集。
同时,我们设计了一个双路径评估策略:一方面使用固定选择题测试内容理解;另一方面通过视觉语言模型打分,评估视频的内容质量、视觉呈现与观众理解程度。
考虑到这种多模态输出的评估难度,团队引入了 PresentEval,一个由视觉 - 语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)、观众理解度(Audience Comprehension)。
评估采用基于提示的方式进行。团队在一个精心整理的包含 30 对 " 文档 - 演示 " 样本的数据集上进行了实验验证,如下图所示。结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。
这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力。
这表明将语言模型、视觉布局生成与多模态合成结合,能够实现可解释、可扩展的自动演示生成系统。
论文链接:
https://arxiv.org/pdf/2507.04036
代码仓库:
https://github.com/AIGeeksGroup/PresentAgent
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦