智东西
编译 | 李水青
编辑 | 漠影
智东西 7 月 19 日报道,昨日,以色列 AI 创企 Decart 推出首个直播扩散 AI 视频模型—— MirageLSD。不同于 Veo 等市面上时长有限、存在延时的视频生成模型,Mirage 可以实时转换无限长的视频流,响应时间小于 40 毫秒。
前特斯拉 AI 总监、OpenAI 创始团队成员 Andrej Karpathy 在社交平台 X 上称:"Veo 等视频扩散模型很神奇,但它们需要花费数秒 / 数分钟才能生成,MirageLSD 是实时的魔法。" 他认为这将是一项通用和强大的技术,有望改变游戏、直播、视频通话、影视、会议、AR/VR 等多种领域。
Decart 创立于 2023 年,由 Andrej Karpathy 参与投资,Mirage 是 Decart 继 "AI 版我的世界 " Oasis 之后推出的第二个模型。目前,由 MirageLSD 模型驱动的 Mirage 平台已上线,iOS、Android 版本预计下周上线。
体验地址:https://mirage.decart.ai/
一、Andrej Karpathy 强推:实时的魔法,改变游戏直播行业
在社交平台 X 中,AI 大神 Andrej Karpathy 激动地称:" 扩散视频模型现在支持实时生成了!"
Andrej Karpathy 谈道,此前,简单的视频滤镜支持实时生成,但大多只能进行基本的重新着色和样式设置。市面上已有的 Veo 等视频扩散模型很神奇,但它们需要花费数秒甚至数分钟才能生成。MirageLSD 就是实时魔法。与简单的视频滤镜不同,扩散模型实际上理解它们正在查看的内容,因此它们可以智能地设置视频源所有部分的样式,例如将帽子戴在头上,或将光剑戴在手上等。
Andrej Karpathy 还称,该模型可以任意操控,例如通过文本提示来进行操控。可定制的智能视频滤镜会随着时间的推移解锁许多酷炫的想法:
- 将摄像头画面转化为虚拟实景;
摄像机拍摄画面实时生成视频(源自:Decart 官网)
- 执导并拍摄自己的电影,使用道具演绎场景,实时拍摄且即时回看;
实景道具演绎视频实时变 3D 卡通动画(源自:Decart 官网)
- 围绕简单的球体或方块生成有氛围的代码游戏,然后借助实时扩散模型为游戏添加纹理,使其变得精美;
生成游戏画面(源自:Decart 官网)
- 对任意视频流进行风格化处理和自定义:游戏、视频 …… 比如,《上古卷轴 5:天际》想更 " 史诗感爆棚 "?《毁灭战士 2》仅用一个提示词就能达到现代虚幻引擎的画质?恐怖片想变成 " 只有可爱元素、粉色调与小兔子 " 的风格?这谁知道呢!
生成游戏画面(源自:Decart 官网)
-Zoom 通话背景实时虚拟更换。
- 眼镜:例如,实时卡通化你的视觉?
- 现在我们可以打造哈利 · 波特的厄里斯魔镜,在镜子里展现你的 " 原始画面 ",但会增强你内心最深处的渴望(由 AI 推断)。
Andrej Karpathy 称,可以设想的应用场景太多了,他可能错过了最重要的一点。并且声明:" 我是 Decart 的小额天使投资人,我很兴奋,因为在我看来,这项技术会很快变得非常好,感觉它很通用、很强大,但技术难度也很高。祝贺团队发布成功!"
二、破解视频生成 "30 秒瓶颈 ",生成速度提升 16 倍
MirageLSD 是首个实现无限实时零延迟视频生成的系统。它基于名为 " 实时流扩散 (LSD)" 的定制模型构建,该模型能够逐帧生成视频,同时保持时间连贯性。
与以往的方法不同,LSD 支持完全交互式的视频合成——允许在视频生成过程中持续进行提示、转换和编辑。
当前的视频模型无法生成超过 30 秒的视频生成,否则会因错误累积而导致质量严重下降。它们通常需要几分钟的处理时间才能输出几分钟的视频。即使是当今最快的实时系统,通常也会分块生成视频,从而带来不可避免的延迟,影响交互使用。
为了实时生成视频,LSD 必须以因果关系的方式运行——仅基于前一帧生成每一帧。这种自回归结构确保了连续性,但也带来了一个严重的缺陷:误差累积。每一帧都会继承上一帧的缺陷。微小的误差累积起来,会导致质量迅速下降,直到帧变得不连贯。
启用 LSD 需要解决两个以前从未在单个系统中同时解决的挑战。
1、基于扩散强制技术,实现无限生成
为了实现无限的自回归生成,Mirage 研究人员以扩散强制技术为基础,进行逐帧去噪;引入了历史增强功能,使模型能够针对损坏的输入历史帧进行微调。这教会模型预测并纠正输入伪影,使其能够抵御自回归生成中常见的漂移。
这些操作使得 MirageLSD 成为第一个能够无限生成视频而不会崩溃的模型——稳定、可提示,并且与场景和用户输入保持一致。
2、速度提高 16 倍,实时生成视频
响应度被定义为最坏情况的响应延迟,即使是以前的自回归模型的响应速度也比 MirageLSD 慢 16 倍以上,从而无法实现实时交互。
实时生成要求每帧生成时间不超过 40 毫秒,以免人眼察觉。Mirage 研究人员通过以下方式实现这一目标:
设计定制的 CUDA 巨型内核,以最小化开销并最大化吞吐量;基于快捷蒸馏和模型修剪,减少每帧所需的计算量;优化模型架构以与 GPU 硬件保持一致,从而实现峰值效率。
总之,这些技术使响应速度比之前的模型提高了 16 倍,能够以 24 FPS 的速度生成实时视频。
三、与 Veo 走差异化路线,首个实时无限视频生成模型
当下,AI 视频生成方面模型已提高了生成视觉质量和时长,但大多数系统仍然缺少交互性、低延迟和时间稳定性。
MovieGen、WAN 和 Veo 等固定长度模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并阻止实时交互或超出预定义长度的扩展。
CausVid、LTX 和 Seeweed-APT 等自回归模型通过对先前的输出进行条件化来生成更长的序列,虽然这提高了可扩展性,但分块推理仍然限制了响应速度,并容易出现错误累积,限制了生成长度,并最终导致无法进行真正的交互。
可控生成方法,包括 ControlNet 和基于 LoRA 的适配器,可以实现有针对性的编辑和风格转换,但需要离线微调,不适合实时逐帧提示。
Mirage 自身之前的系统 Oasis 首次在受限域内实现了实时因果生成。MirageLSD 则将其扩展到开放域、可提示的视频,具有零延迟、实时速度和无限稳定性——这是先前研究无法实现的组合。
结语:实时无限生成视频,精确控制仍然有限
MirageLSD 虽然实现了实时、可提示且稳定的视频生成,但仍面临一些挑战。首先,该系统目前依赖于有限的过去帧窗口。引入长期记忆机制可以提高扩展序列的连贯性,从而实现更一致的角色身份、场景布局和长期动作。
此外,虽然 MirageLSD 支持文本引导的转换,但对特定对象、空间区域或运动的精确控制仍然有限。集成结构化控制信号(例如关键点或场景注释)或许可以在实时场景中实现更精细的用户控制编辑。
Mirage 提出,团队需要进一步研究来提升语义和几何一致性,尤其是在极端风格转换的情况下的表现。解决这个问题需要在提示驱动的指导下建立更强大的内容保存机制。
登录后才可以发布评论哦
打开小程序可以发布评论哦