钛媒体 04-15
免费AI“神器”系列第14弹:Sora竞品可生成2分钟视频;谷歌Vlogger能让图像说话
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近期,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。

今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第十四弹,共五款,其中不少产品再一次拓宽了我们对 AI 的想象力。

120 秒超长 AI 视频模型—— StreamingT2

即插即用的视频转视频框架—— AnyV2V

谷歌图生视频模型—— Vlogger

文本转视频模型—— Hotshot ACT-1

AI 视频生成模型—— Motion-I2V

1、120 秒超长 AI 视频模型—— StreamingT2

产品信息:StreamingT2 是由 Picsart AI Research、UT Austin 和 Shi Labs 的研究团队共同开发的一款文生视频模型,该模型突破了以往 AI 视频长度限制,可生成长达 2 分钟的长视频。StreamingT2 的发布将视频生成技术推向了新高度,也被称为 Sora 的强劲对手。

产品功能: StreamingT2V 可以根据用户的文字提示生成长达 120 秒的长视频,同时,StreamingT2V 将条件注意力模块(CAM)和外观保持模块 ( APM ) 核心构架结合,使得生成的视频与文本描述紧密相关且动态连续,展现高动态效果和时间一致性。

此外,StreamingT2V 的实现方法分为初始化、Streaming T2V 生成和 Streaming Refinement 三个阶段,保证了视频生成的高质量和高分辨率,并且 StreamingT2V 的高效能并不局限于特定的模型,这意味着随着技术的进步,视频质量还有进一步提升的空间。

项目及演示:https://streamingt2v.github.io

论文地址:https://arxiv.org/abs/2403.14773

2、即插即用的视频转视频框架—— AnyV2V

产品信息:AnyV2V 是一款无需训练,即插即用的 AI 视频编辑框架,该框架由滑铁卢大学、Vector Institute 和 Harmony.AI 团队共同开发,旨在帮助用户简化视频创作流程,提高视频制作效率。

产品功能:AnyV2V 不仅支持对源视频进行深度编辑与修改,还能按照输入文本提示,主题或风格等,生成对应新视频。

具体来看,AnyV2V 将视频编辑简化为了两个主要步骤:首先,AnyV2V 可以插入任何现有的图像编辑工具,从而支持多个视频编辑任务。其次,AnyV2V 可以插入任何现有的图像视频模型,执行 DDIM 反转和中间特征注入,从而保持与源视频的外观和运动一致性。

此外, AnyV2V 还可以支持视频编辑任务,包括基于参考的风格转换、主题驱动编辑和身份处理。

项目地址:https://tiger-ai-lab.github.io/AnyV2V/

论文地址:https://huggingface.co/papers/2403.14468

3、谷歌图生视频模型—— Vlogger

产品信息:Vlogger 是谷歌推出的一款图生视频技术框架,该框架是基于 MENTOR 数据库训练而来,数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,使得 VLOGGER 可以生成不同种族、不同年龄、不同穿着、不同姿势的人物视频。

产品功能:用户只需上传一张人物图片+音频文件,就能实现让人物开口说话,生成一段人像与音频完美贴合且流畅的视频,并能做到视频中人物面部表情及肢体动作都相当自然且生动。

团队成员表示,和业内此前的同类方法相比,VLOGGER 最大的优势体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪,并且生成的视频很完整(既包括面部和唇部,也包括肢体动作)等等。此外,Vlogger 还具有视频编辑和翻译等应用,能够让人物闭嘴、闭眼,甚至进行视频翻译。

项目地址:https://enriccorona.github.io/vlogger

4、文本转视频模型—— Hotshot ACT-1

产品信息:Hotshot - ACT 1 是一款由 Hotshot Research 开发的文本生成视频模型,该模型基于大规模高分辨率文本视频语料库训练,注重空间对齐、时间对齐和审美质量,旨在为视频创作者提供高质量的视频创作体验。

产品功能:用户只需输入文本描述,即可生成动画风格的视频。同时可以根据自身需求选择不同的宽高比和分辨率输出,定制化自己的视频内容。

体验地址:https://hotshot.co/act-one

5、AI 视频生成模型—— Motion-I2V

产品信息: Motion-I2V 是一款 AI 视频生成模型,能够根据一张静态图片生成连贯且可控制的视频。

产品功能:能实现图像到视频的自动转换,能够将静态图像自动转换成连贯的动态视频,通过模拟图像中对象的自然运动,使静态图像动起来。同时支持用户精确控制视频中的运动轨迹和运动区域,使得生成的视频不仅流畅连贯,而且用户可以通过简单的操作控制视频内容。

此外,基于其先进的运动增强和时间注意力技术,无需额外的训练样本,Motion-I2V 就能实现视频风格转换,比如从现实风格转换成漫画风格。

项目主页:https://xiaoyushi97.github.io/Motion-I2V/

论文地址:https://huggingface.co/papers/2401.15977

(本文首发于钛媒体 APP,作者 | 章橙,编辑 | 林志佳)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 谷歌 钛媒体 人工智能 滑铁卢大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论