卫夕指北 07-03
我用一款新的国产视频生成模型开了2个小脑洞
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

然而对图片生成、视频生成这两类产品的使用频次却不是很高——

一方面我自己的确没有这方面的直接需求,另一方面,几乎没有受过什么专业美术训练的我,对自己的审美多少还是有一点自知之明。

因此,对于多模态生成模型层面,我大部分时候都是一个内容的消费者而非生产者。

然而有时候看得多了,有时候还是会有天然的动手冲动。

前两天,一个视频模型的产研团队联系我说,可以试一试我们这个新的模型,于是我终于动手开始实践在我脑海里拖延了很久的一些小脑洞。

我先不透露这个视频模型的具体名字,咱们先看效果——

脑洞一:让那些伟大的摄影作品鲜活起来

世界上第一张照片诞生于 1826 年,从摄影技术诞生到今天的 199 年里,诞生了无数伟大经典的照片,这些照片是历史的缩影,而今天的 AI 则可以让这些静态的照片 " 活 " 过来。

1.摩天楼顶上的午餐(1932 年)

这张拍摄于 1932 年大萧条时期的照片,记录了 11 名建筑工人在纽约洛克菲勒中心 RCA 大楼(现为 GE 大楼)69 层高的钢梁上悠然吃午餐的瞬间。

高空惊心动魄的场景与工人们轻松、若无其事的姿态形成强烈对比,创造出超现实的戏剧张力,反映了在大萧条背景下,人们面对困境的乐观与坚韧。

当这张静态的照片变成视频后,是下面的效果——

可以看到,在生成 5 秒的动态视频画面里,工人们 " 活 " 了。

他们细微的动作赋予了场景独特的真实感:有的自然地晃动双腿,有的相互传递点燃香烟的火柴,有滴在轻松地交谈。

远处,纽约城和中央公园隐约可见,直接将我们直接拉回 1932 年的高空。

有意思的是,拉远的镜头还在很大程度上还原了拍照真实的场景:很显然工人们的脚下不可能直接是 250 米的高空。

而更合理的是,可能是几米的作业平台,而这丝毫不影响这张 " 活 " 照片的张力。

2. 胜利之吻(1945 年)

《V-J Day in Times Square》是二战结束时最具标志性的影像之一,它定格了日本投降消息传来后,纽约时代广场上一名水兵和一名护士的激情一吻。

这一吻超越了个人情感,成为时代的象征:它代表了战争终结的狂喜和如释重负,而水兵与护士的身份也概括了奔赴前线的将士与坚守后方的民众,历史在这里定格。

而当静态的照片流动起来,那个瞬间感觉有了呼吸。

我们看清了水兵和护士充满狂喜笑容的脸,背景里的人群也开始鼓掌、欢呼,无声的画面开始鼎沸人声。

视频的意义在于,它可以这个自发的瞬间短暂重演,让照片穿越时空的感染力具象化。

3." 希望工程 " 大眼睛女孩 ( 1991 )

这张由摄影师解海龙于 1991 年拍摄的照片,定格了安徽金寨女孩苏明娟手握铅笔、抬头凝视的瞬间,那双渴望的大眼睛,直击人心 .

这张照片真实地展现了这些孩子的困境与期盼,成为了 " 希望工程 " 的符号照片,唤起了社会广泛的同情与关注,无数失学儿童得以重返校园,改变了很多个 " 苏明娟 " 的命运。

今天的苏明娟早已从大学毕业,回到家乡,成为了工行安徽分行团委副书记、人力资源部总经理助理。

而在生成视频中,那双熟悉 " 大眼睛 " 开始眨动,露出真诚、鲜活的微笑,最后对着镜头轻轻地点了一个赞,仿佛在回应世界的善意。

那一刻,确实感觉很奇妙,很想把视频发给当初的摄影师解海龙。

脑洞二:给我女儿重制民国语文课本

前些天看到了一本民国语文课本——开明国语课本,叶圣陶先生创作的课文、丰子恺先生创作的插画,前者深厚的造诣和后者传神简洁的审美相得益彰。

不过,当时的繁体字并不适合我 8 岁的闺女阅读,而当时简明的插图也可以更加立体,于是我决定重制一份当时的语文课本。

以下是三个 case ——

第一课:" 天初晚,月光明,窗前远望,月在东方 "

简单有节奏的聊聊四句,描绘了一个深远的意境,但画面由于年代久远和时代限制,的确有些模糊了。

于是我花了不少精力仔细琢磨了提示词,用Midjourney 生成了如下画面——

接着用模型将静止的画面变成了5 秒视频——

可以看到,随着镜头的推进,画中女孩灵动起来,望向窗外,静谧而优雅。

第二课:" 万年桥边小池塘,红白荷花开满塘,上桥去,看荷花,一阵风来一阵香 ".

简洁、隽永、朗朗上口,我同样生成了如下画面——

接下来,让静止的画面和人物动起来——

可以看到,镜头拉远,桥上的古典女孩开始缓慢走动,微风吹动荷叶,恬静、淡雅。

第三课:" 这是我的家,我们都爱它,池里养着鱼,园里种着花,四面有田地,种豆又种瓜 ".

这段通俗、韵脚严格的课本描绘了一个原生态田园生活的场景,有" 向往的生活 " 里的意象,画面感极强,Midjourney 生成的画面是这样的——

这时候无人机可以上场了,来,拉一个远景——

可以看到,尽管由于时间仓促以及我贫瘠的美术素养,三张图风格没有做到统一,整体还达不到最理想的状态。

但我闺女非常喜欢,尤其对两段有古典女孩的视频赞不绝口。

老父亲一上午没白忙。

OK,以上就是我用视频模型开的两个脑洞,不知道大家感受如何?

我反正在过程中非常愉悦,无论是看到老照片动起来还是老课本活过来,经历了好几次 " 啊哈 " 时刻。

现在可以说我用的模型了——上面的 case 都是我用百度商业研发团队昨天在 AI Day 上发布的视频模型 MuseSteamer 生成的。

下面我就从我使用体验以及和产研团队交流之后的四点感受——

1.MuseSteamer 在很多场景表现出高可用性

视频生成的效果有时候是很微妙的,特别是人像、运动相关的场景,能用和好用之间的差异一眼就能感知到。

从 MuseSteamer 的实际体验看,其生成的很多场景在细腻程度上非常出色,比如上边希望工程大眼睛女孩的微笑:自然、鲜活、让人动容,直观的表现就是 " 没有 AI 味 "。

我自己也试了一些不同的 case,说实话,很多都是超出我预期的。

比如下方狼的肌肉步伐控制、女孩的走路节奏,倒影和阴影的处理,都非常自然,完全没有穿帮、出戏的感觉。

从 5 月 17 日,海外权威视频生成评测榜单 VBench Leaderboard 更新了最新一期图生视频榜单,MuseSteamer 以总分 89.38% 的成绩,登上 VBench-I2V 图生视频榜榜首,这个成绩在一定程度上也可以反映出 MuseSteamer 的实力。

2. 音视频生成可能是未来视频模型竞争的一个重点

音频和视频的同步生成让视频 UGC 作品在表现力层面上了一个大台阶。

从行业的创作者的实际体感来看,从无声视频到有声视频的确是质的飞跃,AI 视频内容生态也爆发出了一波创作热潮——比如 SALM、比如动物运动会、再比如穿越到古代直播等。

确实,传统 AIGC 视频创作实践中,往往是先生成视频,再进行配音和配音效。

这种割裂的创作在消耗大量时间的同时也会影响作品的完整性,而 MuseSteamer 支持一体化生成带有音效和人物台词的视频。

这背后是 MuseSteamer 多模态规划、多音轨协同的能力,它使模型可以音视频一体化端到端生成,在生成高质画面同时,具备更逼真的音效。

从官方放出来的 case 看,无论是场景的环境音效,还是人声,MuseSteamer 都做到了很高的完成度,这无疑增加了视频创作者们进行一体化创作的实用性。

在现场,百度也发布了基于 MuseSteamer 全新的 AI 创作平台——绘想平台。

公测版首先提供 MuseSteamer Turbo 版,而后续会在 8 月陆续上线主打快速、低成本的 Lite 版以及主打画质的 pro 版,届时也会支持所有版本的 10 秒生成和音频同步生成。

值得注意的一点,绘想在公测期间完全免费,想要尝鲜薅羊毛的同学可以行动了。指路:https://huixiang.baidu.com

3.MuseSteamer 在创作层面提供了很多的可能性

在发布会现场,百度商业研发总经理刘林提到了一个词—— " 镜头平权 "。

的确,当视频工具的能力在大幅提升之后,影视级创作的门槛大幅降低了。

以前,创作出一个好作品,需要同时具备创作才华和专业设备,但今天,某种意义上,只需要创意和才华。

在 AI Day 现场,MuseSteamer 展示了一个名为《沙漠追逐》的短片,这个影视级的短片的起点仅仅是 18 张分镜图片。

而经过 MuseSteamer 魔法般生成之后,一个有节奏、有感染力的片子就以极低的生产成本诞生了。

这在很大程度上得益于 MuseSteamer 预置了 " 拉近、拉远、向左、向右、向上、向下 " 的丰富运镜。

通过排列组合,只要有真正的才华,每个人都可以是塔可夫斯基、希区柯克," 镜头平权 " 不再是梦想。

所以,从我个人的角度,我是乐于看到国内的视频生成模型 " 卷 " 起来的。

这种 " 卷 " 产生的产品和技术升级意味着创作者可以获得质量更高、成本更低的创作工具。

事实上,国内的创作者用 AIGC 视频作品无论是在 Twitter 上还是 Instagram、Tik Tok 上,都有着很高的热度,我想这其实和国内创作工具的丰富性是有高度相关关系的。

4. 从需求出发的 MuseSteamer 有很强的抓重点能力

和 MuseSteamer 的产研同学交流之后发现,这个产品居然是今年春节才立项的,它的起点在于——商业广告主本身就有很多视频生成的需求。

百度的商业研发团队之前就上线了专门为广告主服务的 AIGC 广告创意平台——擎舵。

因此,团队对广告主的需求非常敏感,而随着短剧、小说等投放行业对视频需求的增加,平台必须满足其在营销层面的视频生成需求,于是就有了 MuseSteamer。

而 MuseSteamer 在一开始之所以选择 " 图生视频 ",核心原因在于:相比于 " 文生视频 "," 图生视频 " 在可控性、一致性上有这个更高的确定性和实用性。

事实上,业界专业级的视频项目,其标准生产模式,也是先生成满意的图,然后将图转化成视频,生图:某种意义上就是一个写剧本的过程。

所以团队也并不避讳甚至欢迎用户到其他平台(如 Midjourney)生成图片,然后用 MuseSteamer 进行视频化创作,这本身就是一个取各家所长的创作策略。

作为一个只有 50 人左右的团队,MuseSteamer 在决定从 " 图生视频 " 切入、决定做音视频一体、决定重点优化人物场景及运镜,这其实在很大程度上反映了团队非常善于抓重点,深刻理解目标用户要的是什么、什么是影响视频产出的关键。

从这个意义上,MuseSteamer 后续的产出和产品升级值得期待。

结语

1903 年一个叫 Julius Neubronner 的法国人突发奇想,把小型相机装到了鸽子的身上,结果拍到了让人惊叹的城市照片。

今天的视频生成模型其实也是一只装了相机的鸽子,它可以让我们从完全不同的维度重构创作。

的确,每一种创作技术的革新,都会诞生新的艺术流派。

奔跑吧,新一代创作者!

—— End ——

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

张力 ai 纽约 效果 二战
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论