Netflix也发视频模型了：不只是“擦除”，而是“重写”物理世界

视频物体移除是视频编辑中的一项基础任务。现有方法在处理 " 简单 " 移除场景时已经表现出色，比如去掉一个物体后，把它背后的背景补全，或者消除它的影子和倒影。

但问题来了：如果被移除的物体与场景中的其他物体存在物理交互呢？

想象一排多米诺骨牌正在连锁倒下，如果我们用视频修复模型把中间几块骨牌移除，现有方法会让后面的骨牌继续倒下，但这在物理上是不可能的，因为没有骨牌去推它们了；再比如，一个人正在用手转陀螺，如果我们移除这双手，陀螺应该继续自行旋转，而不是突然消失或停止。

这些场景要求模型具备因果推理能力：不仅要 " 移除 " 物体，还要推演 " 如果这个物体从未存在过，整个场景会如何发展 "。这正是当前视频编辑模型普遍欠缺的能力。

在这项工作中，Netflix（网飞）团队及其合作者提出了 " 视频目标与交互删除 "（Video Object and Interaction Deletion，VOID）框架。

论文链接：https://arxiv.org/pdf/2604.02296

VOID 不仅移除目标物体，还能对其移除后引发的物理连锁反应进行合理建模。该框架包含三个核心创新：基于物理仿真引擎的反事实数据集构建、交互感知的 " 四值掩码 "（quadmask）条件化策略，以及利用视觉 - 语言模型（VLM）在推理时自动识别受影响区域。

值得一提的是，VOID 基于智谱的视频生成模型 CogVideoX 构建，并针对具备交互感知掩码条件的视频修复任务进行了微调。

研究结果显示，VOID 在人类偏好评估中被选为 SOTA 结果的比例达到 64.8%，远超第二名 Runway 的 18.4%。

同时，VOID 也展现出了对训练数据中未出现过的物理效果的泛化能力，比如 " 移除拿气球的熊后气球会飘走 "，" 移除按搅拌机按钮的人后搅拌机不会启动 "，这说明 VOID 并非简单记忆训练样本，而是学会了利用底层模型的物理直觉进行推理。

整体上，这项工作为视频编辑模型迈向 " 世界模拟器 " 提供了重要参考。

更懂物理的 " 视频移除 "

VOID 构建在 CogVideoX DiT 骨架之上，并从 Generative Omnimatte 的预训练权重初始化，继承其层级物体 - 效果解耦能力。

在此基础上，研究团队使用反事实数据对和四值掩码进行微调，让模型学会在移除物体后生成物理合理的新运动轨迹。

VOID 的整体流程如下：用户提供一段视频并指定要移除的物体，系统自动推理哪些区域会因该物体的消失而发生变化，然后生成一段物理上合理的反事实视频。

图｜VOID 示意图

1. VLM 引导的推理时四值掩码生成

在推理时，用户只需简单点击目标物体。系统使用视觉 - 语言模型（VLM）分析场景，自动推理哪些物体会受到影响、它们在反事实场景中会出现在什么位置。具体流程为：

1）VLM 接收视频和物体掩码，输出受影响物体的描述列表；

2）使用 SAM 3 对受影响物体进行分割，获取其原始位置掩码；

3）在视频上叠加空间网格，VLM 预测这些物体在反事实场景中的新位置；

4）合并两组掩码，生成最终的四值掩码。

2. 两阶段推理

基于生成的四值掩码，VOID 通过两阶段推理生成最终结果。

第一阶段：反事实轨迹合成。模型根据输入视频和四值掩码，生成初步的反事实预测。这一阶段能捕捉大方向上正确的运动假设，例如失去支撑的物体开始自由落体。但由于视频扩散模型在生成复杂运动时容易出现物体变形等问题，需要进一步优化。

第二阶段：光流引导的噪声稳定。受 Go-with-the-Flow 方法启发，VOID 从第一阶段输出中提取光流场，用其生成时序相关的扭曲噪声，然后作为第二阶段的输入。这使得扩散模型沿正确轨迹进行一致性去噪，显著减少物体变形。VLM 会自动判断是否需要触发第二阶段（仅在检测到大幅动态变化时启用）。

研究结果

在真实数据与合成数据上的实验均表明，与现有视频对象移除方法相比，该方法在对象移除后能更好地保持场景动态的一致性。

1. 真实世界视频评估

由于真实世界视频没有 " 标准答案 "，研究团队采用了多种评估方式。

人类偏好研究：25 名参与者各评估 5 个场景，从 7 个模型的输出中选择最佳结果。结果显示，VOID 以 64.8% 的胜率取得了 SOTA 结果，即使 Runway 额外接受了描述预期场景变化的文本指令。

VLM 裁判评估：研究团队使用 Gemini 3 Pro、GPT-5.2 和 Qwen 3.5-32B 三个 VLM 作为自动裁判，从交互物理、物体移除、时序一致性、场景保留等维度进行评分。在所有三个裁判的评估中，VOID 均获得 SOTA 总分。其中 " 交互物理 " 维度的优势更为明显，在 Gemini 3 Pro 评估中，VOID 得分 3.66，而第二名 Runway 仅 2.61。

定性对比：在多个真实场景中，基线方法出现了各种失败：碰撞场景中未正确移除物体、枕头在移除重物后仍然凹陷、移除油漆滚筒后墙上仍出现新油漆等。而 VOID 在所有案例中均表现出正确的物理推理。

对未见效果的泛化：在泛化性方面，VOID 成功处理了训练数据中从未出现过的多种交互类型。如下图：移除拿气球的卡通熊后，气球向上飘走；移除按搅拌机按钮的孩子后，搅拌机不再启动；移除正在咬棍子的狗后，棍子自然掉落；移除橡皮鸭障碍物后，球改变滚动轨迹等。

2. 合成数据集评估

在包含 10 个经典影子 / 倒影移除案例和 30 个动态交互案例的合成基准上，VOID 也展现出了 SOTA 能力。

例如，VOID 在除 LPIPS 外的所有指标上均为最佳。值得注意的是，LPIPS 对局部位移敏感——如果模型正确模拟了物体掉落但速度略有偏差，反而可能比直接删除物体的模型得分更低。在视频级指标 FVD 和 VLM 裁判分数上，VOID 与基线的差距最为显著，有力证明了其在物理合理性和语义一致性方面的优势。

此外，在 75 个真实世界测试用例上进行的消融研究表明，混合两个数据集的多样性（即使总量不变）优于单一数据源；精细的四值掩码配合 VLM 引导的掩码生成流程，显著优于粗糙的全局掩码策略。

不足与未来展望

尽管 VOID 展现出了强大的泛化能力，但这项研究也存在一些局限性。如下：

域差距问题：当测试视频的相机角度异常或过于靠近物体时，性能会下降。

数据来源局限：目前训练数据全部来自渲染引擎，未来可以探索更多样化的数据获取方式。

视频长度和分辨率：生成的视频仍限制在几秒钟的长度，分辨率也有提升空间。

研究团队表示，随着更强的视频生成模型和 VLM 的出现，该框架的性能有望进一步提升。更重要的是，这项工作揭示了一个有趣且尚未充分探索的方向，即如何将强大的世界建模能力迁移到视频编辑领域。

宙世代

一起剪

相关标签