用短视频成本生成长视频，字节Seed新注意力机制让计算量降低85%

生成分钟级的长视频，只需要和短视频相当的成本？

字节 Seed 与斯坦福等机构的研究人员一起推出的新模型，能让长视频生成的计算量降低 85%。

而且质量不减，还能够保持人物和场景的连贯性。

请看 VCR：

团队认为，长视频生成本质上是一个长上下文记忆问题，将视频生成重新定义成了上下文检索任务。

为此，团队提出了一种新的稀疏注意力机制—— Mixture of Contexts（MoC）——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景，这段视频长度 56 秒，展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出，两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致，桌子上的咖啡也是如此。

换成卡通场景，也能在长达一分半的时间之内保持前后一致性。

关键是，生成这样长时间一致的视频成本，被 MoC 打下了一个数量级。

使用 MoC 机制生成一分钟的 480P 视频，仅需消耗 2.32 × 10 ¹² FLOPs 的计算量，而基线模型需要 1.66 × 10 ¹³ FLOPs，MoC 将计算量削减了 85%。

对于短片来说，MoC 也同样能实现降本效果。

多镜头 64 秒（8 × 8 秒）的 480P 视频中，基线为 1.7 × 10 ¹³ FLOPs，而 MoC 只用 2.3 × 10 ¹² FLOPs，同样节省约 86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头 8 秒的 320 × 192 短片测试里，基线 1.9 × 10 ¹ ⁰ FLOPs，MoC 为 4.1 × 10 ⁹ FLOPs，计算量减少约 78%。

那么，MoC 方法是如何实现的呢？

将长视频生成重构为信息检索

作者认为，长视频生成主要是受制于跨时域记忆的高效调取，为突破这一瓶颈，他们提出了名为 Mixture of Contexts（MoC）的稀疏上下文检索层，将生成过程重构为一次内部信息检索。

而 MoC 的核心机制，是，具体来说，先把跨模态序列切成语义同质的内容块，然后让每个查询 token 只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散 Transformer 主干，仅以稀疏检索的方式把计算集中在真正重要的历史。

" 可训练稀疏路由 "

MoC 的第一步是 " 内容对齐分块 " ——论文指出视频序列在三维时空上高度非均匀，如果简单按固定长度滑窗切片，会把远隔的场景混入同一窗口，导致均值池化后的块描述符失去判别力。

因此，作者依据帧、镜头、模态边界动态切块，让每个块在三维位置上局部且语义一致，从源头上提高了检索精度，也避免了无谓的计算浪费。

随后进入 " 动态 top-k 路由 "，对于每个查询 qi，模型用均值池化得到的块描述符计算点积相似度，只保留得分最高的 k 个块参与注意力，再把必选锚点加入掩码中。

这一步完全无参数，却在反向传播中通过梯度调节投影矩阵，使查询与块描述符不断自适应，最终把简单的 " 均值 +top-k" 训练成高表达力的检索器。

为了防止提示漂移和局部模糊，作者在路由前硬性加入两类强制边：

其一是 " 跨模态 " 链接，保证所有视觉 token 始终可访问完整文本提示，维系主题一致且强化可编辑性；

其二是 " 镜头内 " 链接，使每个 token 至少关注自身镜头范围内的块，既为稀疏图提供稳定下界，又让稀疏预算真正用于跨镜头长依赖。

另外，稀疏图本身易形成闭环，造成信息滞留。作者通过在路由阶段加入严格时间掩码，禁止任何查询访问自己或之后的块，把整个图约束为 DAG，从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身，在工程实现方面，MoC 回把选中的键值一次性打包进 FlashAttention 可变长核，实现对数千万 token 的线性伸缩且访存连续，在 GPU 上可充分并行。

论文地址：

https://arxiv.org/abs/2508.21058

项目主页：

https://primecai.github.io/moc/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签