量子位 9小时前
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

生成分钟级的长视频,只需要和短视频相当的成本?

字节 Seed 与斯坦福等机构的研究人员一起推出的新模型,能让长视频生成的计算量降低 85%。

而且质量不减,还能够保持人物和场景的连贯性。

请看 VCR:

团队认为,长视频生成本质上是一个长上下文记忆问题,将视频生成重新定义成了上下文检索任务。

为此,团队提出了一种新的稀疏注意力机制—— Mixture of Contexts(MoC)——作为有效的长期记忆检索引擎。

低成本生成分钟级视频

先来看用这项技术生成的长视频效果。

首先是写实场景,这段视频长度 56 秒,展示的是一老一少两个男人坐在咖啡馆中交谈的场景。

从中可以看出,两个人的外貌和衣着特征在经过多次视角切换之后依然保持一致,桌子上的咖啡也是如此。

换成卡通场景,也能在长达一分半的时间之内保持前后一致性。

关键是,生成这样长时间一致的视频成本,被 MoC 打下了一个数量级。

使用 MoC 机制生成一分钟的 480P 视频,仅需消耗 2.32 × 10 ¹² FLOPs 的计算量,而基线模型需要 1.66 × 10 ¹³ FLOPs,MoC 将计算量削减了 85%。

对于短片来说,MoC 也同样能实现降本效果。

多镜头 64 秒(8 × 8 秒)的 480P 视频中,基线为 1.7 × 10 ¹³ FLOPs,而 MoC 只用 2.3 × 10 ¹² FLOPs,同样节省约 86%。

并且主题一致性、背景一致性、动作连贯性、图像质量等性能指标全都优于基线模型。

单镜头 8 秒的 320 × 192 短片测试里,基线 1.9 × 10 ¹ ⁰ FLOPs,MoC 为 4.1 × 10 ⁹ FLOPs,计算量减少约 78%。

那么,MoC 方法是如何实现的呢?

将长视频生成重构为信息检索

作者认为,长视频生成主要是受制于跨时域记忆的高效调取,为突破这一瓶颈,他们提出了名为 Mixture of Contexts(MoC)的稀疏上下文检索层,将生成过程重构为一次内部信息检索。

而 MoC 的核心机制,是,具体来说,先把跨模态序列切成语义同质的内容块,然后让每个查询 token 只与最相关的少数块建立注意力连接。

这一系列操作不改变扩散 Transformer 主干,仅以稀疏检索的方式把计算集中在真正重要的历史。

" 可训练稀疏路由 "

MoC 的第一步是 " 内容对齐分块 " ——论文指出视频序列在三维时空上高度非均匀,如果简单按固定长度滑窗切片,会把远隔的场景混入同一窗口,导致均值池化后的块描述符失去判别力。

因此,作者依据帧、镜头、模态边界动态切块,让每个块在三维位置上局部且语义一致,从源头上提高了检索精度,也避免了无谓的计算浪费。

随后进入 " 动态 top-k 路由 ",对于每个查询 qi,模型用均值池化得到的块描述符计算点积相似度,只保留得分最高的 k 个块参与注意力,再把必选锚点加入掩码中。

这一步完全无参数,却在反向传播中通过梯度调节投影矩阵,使查询与块描述符不断自适应,最终把简单的 " 均值 +top-k" 训练成高表达力的检索器。

为了防止提示漂移和局部模糊,作者在路由前硬性加入两类强制边:

其一是 " 跨模态 " 链接,保证所有视觉 token 始终可访问完整文本提示,维系主题一致且强化可编辑性;

其二是 " 镜头内 " 链接,使每个 token 至少关注自身镜头范围内的块,既为稀疏图提供稳定下界,又让稀疏预算真正用于跨镜头长依赖。

另外,稀疏图本身易形成闭环,造成信息滞留。作者通过在路由阶段加入严格时间掩码,禁止任何查询访问自己或之后的块,把整个图约束为 DAG,从结构上杜绝循环并显著提升长程动态平滑性与训练稳定性。

除了机制本身,在工程实现方面,MoC 回把选中的键值一次性打包进 FlashAttention 可变长核,实现对数千万 token 的线性伸缩且访存连续,在 GPU 上可充分并行。

论文地址:

https://arxiv.org/abs/2508.21058

项目主页:

https://primecai.github.io/moc/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

短视频 效果 斯坦福
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论