量子位 07-17
500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

你可能听说过 OpenAI 的 Sora,用数百万视频、千万美元训练出的 AI 视频模型。

但你能想象,有团队只用3860 段视频、不到 500 美元成本,也能在关键任务上做到 SOTA?

比如这个图生视频:攀岩者在小行星攀岩,人体运动与太空光影完美仿真。

视频扩展也是不在话下,给定起始帧或结束帧,让存钱罐小猪直接在大溪地的冲浪圣地上冲浪。

这些精美的视频就来自于香港城市大学等团队最新联合发布的图像 - 视频生成模型—— Pusa V1.0(菩萨 1.0)。

Pusa V1.0 在基础大模型 Wan2.1-T2V-14B 的基础上引入向量时间步适应(vectorized timestep adaptation,VTA )机制,仅使用3860对视频 - 文字数据、约500美元成本进行微调,就在在图像转视频 ( I2V ) 超越了 Wan-I2V-14B,实现了 SOTA,并解锁了诸多零样本任务能力。

500 美元实现 SOTA

如上文所说,Pusa V1.0 文本到视频(T2V)模型 Wan-T2V-14B 微调而来,用于图像到视频生成(I2V)。

与其他会破坏基础模型架构的微调模型不同,Pusa 采用 VTA 机制,从而实现最小、非破坏性的优化,将时间步长从标量扩大到矢量。它完全保留了基础模型的预训练先验,并实现了更有效的时间学习。

全面的任务支持

凭借其灵活的矢量化时间步适应策略,Pusa 仅需10个推理步骤就能够执行多种视频生成任务。

这些能力都是其 " 涌现属性 ",能够以零样本方式(无需任何任务特定的训练)扩展到:图像到视频、开始 - 结束帧、视频扩展、文字转视频、视频转场等任务中。

例如,以 9 个起始帧(左视频)和 12 个结束帧(右视频)作为条件,让模型生成中间的 60 帧画面。

或者,直接输入文字,让模型把一辆汽车从金色变成白色。

VTA 如何让视频生成更自然?

由于视频本质上是按固定帧率(如电影的每秒 24 帧)连续播放的一系列图片。在视频扩散模型(VDM)中,模型通常将整段视频拆解为逐帧图像进行建模。

在传统的做法中,所有帧共享一个标量时间步长变量,模型对所有帧同步进行相同程度的降噪。不过,这就意味着让所有帧在降噪过程中步调一致,同时演化。

由此,后面的画面无法获得前一帧画面的约束信息,从而使 I2V(image-to-video)的效果过于僵硬。

此外,由于图像输入不同于模糊抽象的文本输入,其作为刚性条件,对 " 视频生成起点 " 限制非常严格。模型在保持原图约束的同时,必须自己 " 猜 " 这个图像之后会怎么动。

因此,为了生成连贯动态的视频,不同帧之间应该以不同速度 / 时间状态进行演化,从而让后续帧的去噪过程能尽可能的收到前一帧先验的控制。

由此,研究提出 VTA,为每一帧引入一个独立的时间编码。这样就允许模型能对每帧的去噪进度和时间位置进行精细控制,从而更好地模拟现实中帧的时序演化,使生成的视频在动态表现上更连贯、自然。

具体而言,VTA 通过帧感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一帧能够独立演化,同时赋予模型对同步与异步时间结构的建模能力。最终,它通过向 DiT 注入自定义的时间嵌入,实现了高效、统一、非破坏性的多任务视频生成。

在训练层面,Pusa 采用了帧感知的流匹配(FAFM)目标函数,模拟每一帧在时间轴上独立演化的理想速度。此外,为了始终保持起始图像作为条件约束,其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上,VTA 则将这一目标通过向量时间步嵌入落实到 DiT 框架中,实现推理阶段的帧级动态控制。

在推理时,Pusa 允许为每一帧指定不同时间步长,从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种 " 从目标到机制 " 的结合,是 Pusa 不仅生成自然,更易泛化的关键。

Pusa V1.0 使用 LORA+DeepSpeed Zero2 在 8 张 80GB 内存的 GPU 上进行微调。实验表明,Pusa V1.0 超越了同样基于 Wan-I2V-14B 微调而来的 Wan-I2V,实现了 SOTA。

与此同时,Pusa V1.0 所需的参数更新数比 Wan-I2V 少 10 倍以上,这表明 Pusa 仅仅关注与时间相关的模块,从而保留了基础模型的先验知识。与之相对的,Wan-12V 则表现出对基础模型先验知识的破坏。

可以说,Pusa V1.0 以极致轻量化的训练成本为之后的视频生成建立了可扩展且多功能的范例。

模型目前已开源,详情可参考文末链接。

One More Thing

根据 Pusa 的介绍文档,模型的名称源于中文中的菩萨(" 千手观音 ")。

观音菩萨多手的图案象征着她无边的慈悲和无量的能力。

团队采用这个名称是为了表明模型使用多个时间步长变量来实现丰富的视频生成功能。

模型更小,意味着它能更快地进入每个人的电脑,而只有当技术真正服务于每一个创作者的时候,它才成为了真正的 " 菩萨 "。

参考链接:

[ 1 ] 项目主页:https://yaofang-liu.github.io/Pusa_Web/

[ 2 ] huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[ 3 ] arxiv:https://arxiv.org/abs/2410.03160

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

攀岩 效果 美的
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论