学术头条 8小时前
Netflix也发视频模型了:不只是“擦除”,而是“重写”物理世界
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

视频物体移除是视频编辑中的一项基础任务。现有方法在处理 " 简单 " 移除场景时已经表现出色,比如去掉一个物体后,把它背后的背景补全,或者消除它的影子和倒影。

但问题来了:如果被移除的物体与场景中的其他物体存在物理交互呢?

想象一排多米诺骨牌正在连锁倒下,如果我们用视频修复模型把中间几块骨牌移除,现有方法会让后面的骨牌继续倒下,但这在物理上是不可能的,因为没有骨牌去推它们了;再比如,一个人正在用手转陀螺,如果我们移除这双手,陀螺应该继续自行旋转,而不是突然消失或停止。

这些场景要求模型具备因果推理能力:不仅要 " 移除 " 物体,还要推演 " 如果这个物体从未存在过,整个场景会如何发展 "。这正是当前视频编辑模型普遍欠缺的能力。

在这项工作中,Netflix(网飞)团队及其合作者提出了 " 视频目标与交互删除 "(Video Object and Interaction Deletion,VOID)框架。

论文链接:https://arxiv.org/pdf/2604.02296

VOID 不仅移除目标物体,还能对其移除后引发的物理连锁反应进行合理建模。该框架包含三个核心创新:基于物理仿真引擎的反事实数据集构建、交互感知的 " 四值掩码 "(quadmask)条件化策略,以及利用视觉 - 语言模型(VLM)在推理时自动识别受影响区域。

值得一提的是,VOID 基于智谱的视频生成模型 CogVideoX 构建,并针对具备交互感知掩码条件的视频修复任务进行了微调。

研究结果显示,VOID 在人类偏好评估中被选为 SOTA 结果的比例达到 64.8%,远超第二名 Runway 的 18.4%。

同时,VOID 也展现出了对训练数据中未出现过的物理效果的泛化能力,比如 " 移除拿气球的熊后气球会飘走 "," 移除按搅拌机按钮的人后搅拌机不会启动 ",这说明 VOID 并非简单记忆训练样本,而是学会了利用底层模型的物理直觉进行推理。

整体上,这项工作为视频编辑模型迈向 " 世界模拟器 " 提供了重要参考。

更懂物理的 " 视频移除 "

VOID 构建在 CogVideoX DiT 骨架之上,并从 Generative Omnimatte 的预训练权重初始化,继承其层级物体 - 效果解耦能力。

在此基础上,研究团队使用反事实数据对和四值掩码进行微调,让模型学会在移除物体后生成物理合理的新运动轨迹。

VOID 的整体流程如下:用户提供一段视频并指定要移除的物体,系统自动推理哪些区域会因该物体的消失而发生变化,然后生成一段物理上合理的反事实视频。

图|VOID 示意图

1. VLM 引导的推理时四值掩码生成

在推理时,用户只需简单点击目标物体。系统使用视觉 - 语言模型(VLM)分析场景,自动推理哪些物体会受到影响、它们在反事实场景中会出现在什么位置。具体流程为:

1)VLM 接收视频和物体掩码,输出受影响物体的描述列表;

2)使用 SAM 3 对受影响物体进行分割,获取其原始位置掩码;

3)在视频上叠加空间网格,VLM 预测这些物体在反事实场景中的新位置;

4)合并两组掩码,生成最终的四值掩码。

2. 两阶段推理

基于生成的四值掩码,VOID 通过两阶段推理生成最终结果。

第一阶段:反事实轨迹合成。 模型根据输入视频和四值掩码,生成初步的反事实预测。这一阶段能捕捉大方向上正确的运动假设,例如失去支撑的物体开始自由落体。但由于视频扩散模型在生成复杂运动时容易出现物体变形等问题,需要进一步优化。

第二阶段:光流引导的噪声稳定。 受 Go-with-the-Flow 方法启发,VOID 从第一阶段输出中提取光流场,用其生成时序相关的扭曲噪声,然后作为第二阶段的输入。这使得扩散模型沿正确轨迹进行一致性去噪,显著减少物体变形。VLM 会自动判断是否需要触发第二阶段(仅在检测到大幅动态变化时启用)。

研究结果

在真实数据与合成数据上的实验均表明,与现有视频对象移除方法相比,该方法在对象移除后能更好地保持场景动态的一致性。

1. 真实世界视频评估

由于真实世界视频没有 " 标准答案 ",研究团队采用了多种评估方式。

人类偏好研究:25 名参与者各评估 5 个场景,从 7 个模型的输出中选择最佳结果。结果显示,VOID 以 64.8% 的胜率取得了 SOTA 结果,即使 Runway 额外接受了描述预期场景变化的文本指令。

VLM 裁判评估:研究团队使用 Gemini 3 Pro、GPT-5.2 和 Qwen 3.5-32B 三个 VLM 作为自动裁判,从交互物理、物体移除、时序一致性、场景保留等维度进行评分。在所有三个裁判的评估中,VOID 均获得 SOTA 总分。其中 " 交互物理 " 维度的优势更为明显,在 Gemini 3 Pro 评估中,VOID 得分 3.66,而第二名 Runway 仅 2.61。

定性对比:在多个真实场景中,基线方法出现了各种失败:碰撞场景中未正确移除物体、枕头在移除重物后仍然凹陷、移除油漆滚筒后墙上仍出现新油漆等。而 VOID 在所有案例中均表现出正确的物理推理。

对未见效果的泛化:在泛化性方面,VOID 成功处理了训练数据中从未出现过的多种交互类型。如下图:移除拿气球的卡通熊后,气球向上飘走;移除按搅拌机按钮的孩子后,搅拌机不再启动;移除正在咬棍子的狗后,棍子自然掉落;移除橡皮鸭障碍物后,球改变滚动轨迹等。

2. 合成数据集评估

在包含 10 个经典影子 / 倒影移除案例和 30 个动态交互案例的合成基准上,VOID 也展现出了 SOTA 能力。

例如,VOID 在除 LPIPS 外的所有指标上均为最佳。值得注意的是,LPIPS 对局部位移敏感——如果模型正确模拟了物体掉落但速度略有偏差,反而可能比直接删除物体的模型得分更低。在视频级指标 FVD 和 VLM 裁判分数上,VOID 与基线的差距最为显著,有力证明了其在物理合理性和语义一致性方面的优势。

此外,在 75 个真实世界测试用例上进行的消融研究表明,混合两个数据集的多样性(即使总量不变)优于单一数据源;精细的四值掩码配合 VLM 引导的掩码生成流程,显著优于粗糙的全局掩码策略。

不足与未来展望

尽管 VOID 展现出了强大的泛化能力,但这项研究也存在一些局限性。如下:

域差距问题:当测试视频的相机角度异常或过于靠近物体时,性能会下降。

数据来源局限:目前训练数据全部来自渲染引擎,未来可以探索更多样化的数据获取方式。

视频长度和分辨率:生成的视频仍限制在几秒钟的长度,分辨率也有提升空间。

研究团队表示,随着更强的视频生成模型和 VLM 的出现,该框架的性能有望进一步提升。更重要的是,这项工作揭示了一个有趣且尚未充分探索的方向,即如何将强大的世界建模能力迁移到视频编辑领域。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

物理 netflix 子和
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论