生成分钟级的长视频,只需要和短视频相当的成本?
字节 Seed 与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低 85%。
而且质量不减,还能够保持人物和场景的连贯性。
请看 VCR:
团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务。
为此,团队提出了一种新的稀疏注意力机制—— Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。
低成本生成分钟级视频
先来看用这项技术生成的长视频效果。
首先是写实场景,这段视频长度 56 秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。
从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。
换成卡通场景,也能在长达一分半的时间之内保持前后一致性。
关键是,生成这样长时间一致的视频成本,被 MoC 打下了一个数量级。
使用 MoC 机制生成一分钟的 480P 视频,仅需消耗 2.32 × 10 ¹² FLOPs 的计算量,而基线模型需要 1.66 × 10 ¹³ FLOPs,MoC 将计算量削减了 85%。
对于短片来说,MoC 也同样能实现降本效果。
多镜头 64 秒(8 × 8 秒)的 480P 视频中,基线为 1.7 × 10 ¹³ FLOPs,而 MoC 只用 2.3 × 10 ¹² FLOPs,同样节省约 86%。
并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。
单镜头 8 秒的 320 × 192 短片测试里,基线 1.9 × 10 ¹ ⁰ FLOPs,MoC 为 4.1 × 10 ⁹ FLOPs,计算量减少约 78%。
那么,MoC 方法是如何实现的呢?
将长视频生成重构为信息检索
作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为 Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索。
而 MoC 的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询 token 只与最相关的少数块建立注意力连接。
这一系列操作不改变扩散 Transformer 主干,仅以稀疏检索的方式把计算集中在真正重要的历史。
" 可训练稀疏路由 "
MoC 的第一步是 " 内容对齐分块 " ——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。
因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。
随后进入 " 动态 top-k 路由 ",对于每个查询 qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的 k 个块参与注意力,再把必选锚点加入掩码中。
这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的 " 均值 +top-k" 训练成高表达力的检索器。
为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:
其一是 " 跨模态 " 链接,保证所有视觉 token 始终可访问完整文本提示,维系主题一致且强化可编辑性;
其二是 " 镜头内 " 链接,使每个 token 至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。
另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为 DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。
除了机制本身,在工程实现方面,MoC 回把选中的键值一次性打包进 FlashAttention 可变长核,实现对数千万 token 的线性伸缩且访存连续,在 GPU 上可充分并行。
论文地址:
https://arxiv.org/abs/2508.21058
项目主页:
https://primecai.github.io/moc/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦