然而对图片生成、视频生成这两类产品的使用频次却不是很高——
一方面我自己的确没有这方面的直接需求,另一方面,几乎没有受过什么专业美术训练的我,对自己的审美多少还是有一点自知之明。
因此,对于多模态生成模型层面,我大部分时候都是一个内容的消费者而非生产者。
然而有时候看得多了,有时候还是会有天然的动手冲动。
前两天,一个视频模型的产研团队联系我说,可以试一试我们这个新的模型,于是我终于动手开始实践在我脑海里拖延了很久的一些小脑洞。
我先不透露这个视频模型的具体名字,咱们先看效果——
脑洞一:让那些伟大的摄影作品鲜活起来
世界上第一张照片诞生于 1826 年,从摄影技术诞生到今天的 199 年里,诞生了无数伟大经典的照片,这些照片是历史的缩影,而今天的 AI 则可以让这些静态的照片 " 活 " 过来。
1.摩天楼顶上的午餐(1932 年)
这张拍摄于 1932 年大萧条时期的照片,记录了 11 名建筑工人在纽约洛克菲勒中心 RCA 大楼(现为 GE 大楼)69 层高的钢梁上悠然吃午餐的瞬间。
高空惊心动魄的场景与工人们轻松、若无其事的姿态形成强烈对比,创造出超现实的戏剧张力,反映了在大萧条背景下,人们面对困境的乐观与坚韧。
当这张静态的照片变成视频后,是下面的效果——
可以看到,在生成 5 秒的动态视频画面里,工人们 " 活 " 了。
他们细微的动作赋予了场景独特的真实感:有的自然地晃动双腿,有的相互传递点燃香烟的火柴,有滴在轻松地交谈。
远处,纽约城和中央公园隐约可见,直接将我们直接拉回 1932 年的高空。
有意思的是,拉远的镜头还在很大程度上还原了拍照真实的场景:很显然工人们的脚下不可能直接是 250 米的高空。
而更合理的是,可能是几米的作业平台,而这丝毫不影响这张 " 活 " 照片的张力。
2. 胜利之吻(1945 年)
《V-J Day in Times Square》是二战结束时最具标志性的影像之一,它定格了日本投降消息传来后,纽约时代广场上一名水兵和一名护士的激情一吻。
这一吻超越了个人情感,成为时代的象征:它代表了战争终结的狂喜和如释重负,而水兵与护士的身份也概括了奔赴前线的将士与坚守后方的民众,历史在这里定格。
而当静态的照片流动起来,那个瞬间感觉有了呼吸。
我们看清了水兵和护士充满狂喜笑容的脸,背景里的人群也开始鼓掌、欢呼,无声的画面开始鼎沸人声。
视频的意义在于,它可以这个自发的瞬间短暂重演,让照片穿越时空的感染力具象化。
3." 希望工程 " 大眼睛女孩 ( 1991 )
这张由摄影师解海龙于 1991 年拍摄的照片,定格了安徽金寨女孩苏明娟手握铅笔、抬头凝视的瞬间,那双渴望的大眼睛,直击人心 .
这张照片真实地展现了这些孩子的困境与期盼,成为了 " 希望工程 " 的符号照片,唤起了社会广泛的同情与关注,无数失学儿童得以重返校园,改变了很多个 " 苏明娟 " 的命运。
今天的苏明娟早已从大学毕业,回到家乡,成为了工行安徽分行团委副书记、人力资源部总经理助理。
而在生成视频中,那双熟悉 " 大眼睛 " 开始眨动,露出真诚、鲜活的微笑,最后对着镜头轻轻地点了一个赞,仿佛在回应世界的善意。
那一刻,确实感觉很奇妙,很想把视频发给当初的摄影师解海龙。
脑洞二:给我女儿重制民国语文课本
前些天看到了一本民国语文课本——开明国语课本,叶圣陶先生创作的课文、丰子恺先生创作的插画,前者深厚的造诣和后者传神简洁的审美相得益彰。
不过,当时的繁体字并不适合我 8 岁的闺女阅读,而当时简明的插图也可以更加立体,于是我决定重制一份当时的语文课本。
以下是三个 case ——
第一课:" 天初晚,月光明,窗前远望,月在东方 "
简单有节奏的聊聊四句,描绘了一个深远的意境,但画面由于年代久远和时代限制,的确有些模糊了。
于是我花了不少精力仔细琢磨了提示词,用Midjourney 生成了如下画面——
接着用模型将静止的画面变成了5 秒视频——
可以看到,随着镜头的推进,画中女孩灵动起来,望向窗外,静谧而优雅。
第二课:" 万年桥边小池塘,红白荷花开满塘,上桥去,看荷花,一阵风来一阵香 ".
简洁、隽永、朗朗上口,我同样生成了如下画面——
接下来,让静止的画面和人物动起来——
可以看到,镜头拉远,桥上的古典女孩开始缓慢走动,微风吹动荷叶,恬静、淡雅。
第三课:" 这是我的家,我们都爱它,池里养着鱼,园里种着花,四面有田地,种豆又种瓜 ".
这段通俗、韵脚严格的课本描绘了一个原生态田园生活的场景,有" 向往的生活 " 里的意象,画面感极强,Midjourney 生成的画面是这样的——
这时候无人机可以上场了,来,拉一个远景——
可以看到,尽管由于时间仓促以及我贫瘠的美术素养,三张图风格没有做到统一,整体还达不到最理想的状态。
但我闺女非常喜欢,尤其对两段有古典女孩的视频赞不绝口。
老父亲一上午没白忙。
OK,以上就是我用视频模型开的两个脑洞,不知道大家感受如何?
我反正在过程中非常愉悦,无论是看到老照片动起来还是老课本活过来,经历了好几次 " 啊哈 " 时刻。
现在可以说我用的模型了——上面的 case 都是我用百度商业研发团队昨天在 AI Day 上发布的视频模型 MuseSteamer 生成的。
下面我就从我使用体验以及和产研团队交流之后的四点感受——
1.MuseSteamer 在很多场景表现出高可用性
视频生成的效果有时候是很微妙的,特别是人像、运动相关的场景,能用和好用之间的差异一眼就能感知到。
从 MuseSteamer 的实际体验看,其生成的很多场景在细腻程度上非常出色,比如上边希望工程大眼睛女孩的微笑:自然、鲜活、让人动容,直观的表现就是 " 没有 AI 味 "。
我自己也试了一些不同的 case,说实话,很多都是超出我预期的。
比如下方狼的肌肉步伐控制、女孩的走路节奏,倒影和阴影的处理,都非常自然,完全没有穿帮、出戏的感觉。
从 5 月 17 日,海外权威视频生成评测榜单 VBench Leaderboard 更新了最新一期图生视频榜单,MuseSteamer 以总分 89.38% 的成绩,登上 VBench-I2V 图生视频榜榜首,这个成绩在一定程度上也可以反映出 MuseSteamer 的实力。
2. 音视频生成可能是未来视频模型竞争的一个重点
音频和视频的同步生成让视频 UGC 作品在表现力层面上了一个大台阶。
从行业的创作者的实际体感来看,从无声视频到有声视频的确是质的飞跃,AI 视频内容生态也爆发出了一波创作热潮——比如 SALM、比如动物运动会、再比如穿越到古代直播等。
确实,传统 AIGC 视频创作实践中,往往是先生成视频,再进行配音和配音效。
这种割裂的创作在消耗大量时间的同时也会影响作品的完整性,而 MuseSteamer 支持一体化生成带有音效和人物台词的视频。
这背后是 MuseSteamer 多模态规划、多音轨协同的能力,它使模型可以音视频一体化端到端生成,在生成高质画面同时,具备更逼真的音效。
从官方放出来的 case 看,无论是场景的环境音效,还是人声,MuseSteamer 都做到了很高的完成度,这无疑增加了视频创作者们进行一体化创作的实用性。
在现场,百度也发布了基于 MuseSteamer 全新的 AI 创作平台——绘想平台。
公测版首先提供 MuseSteamer Turbo 版,而后续会在 8 月陆续上线主打快速、低成本的 Lite 版以及主打画质的 pro 版,届时也会支持所有版本的 10 秒生成和音频同步生成。
值得注意的一点,绘想在公测期间完全免费,想要尝鲜薅羊毛的同学可以行动了。指路:https://huixiang.baidu.com
3.MuseSteamer 在创作层面提供了很多的可能性
在发布会现场,百度商业研发总经理刘林提到了一个词—— " 镜头平权 "。
的确,当视频工具的能力在大幅提升之后,影视级创作的门槛大幅降低了。
以前,创作出一个好作品,需要同时具备创作才华和专业设备,但今天,某种意义上,只需要创意和才华。
在 AI Day 现场,MuseSteamer 展示了一个名为《沙漠追逐》的短片,这个影视级的短片的起点仅仅是 18 张分镜图片。
而经过 MuseSteamer 魔法般生成之后,一个有节奏、有感染力的片子就以极低的生产成本诞生了。
这在很大程度上得益于 MuseSteamer 预置了 " 拉近、拉远、向左、向右、向上、向下 " 的丰富运镜。
通过排列组合,只要有真正的才华,每个人都可以是塔可夫斯基、希区柯克," 镜头平权 " 不再是梦想。
所以,从我个人的角度,我是乐于看到国内的视频生成模型 " 卷 " 起来的。
这种 " 卷 " 产生的产品和技术升级意味着创作者可以获得质量更高、成本更低的创作工具。
事实上,国内的创作者用 AIGC 视频作品无论是在 Twitter 上还是 Instagram、Tik Tok 上,都有着很高的热度,我想这其实和国内创作工具的丰富性是有高度相关关系的。
4. 从需求出发的 MuseSteamer 有很强的抓重点能力
和 MuseSteamer 的产研同学交流之后发现,这个产品居然是今年春节才立项的,它的起点在于——商业广告主本身就有很多视频生成的需求。
百度的商业研发团队之前就上线了专门为广告主服务的 AIGC 广告创意平台——擎舵。
因此,团队对广告主的需求非常敏感,而随着短剧、小说等投放行业对视频需求的增加,平台必须满足其在营销层面的视频生成需求,于是就有了 MuseSteamer。
而 MuseSteamer 在一开始之所以选择 " 图生视频 ",核心原因在于:相比于 " 文生视频 "," 图生视频 " 在可控性、一致性上有这个更高的确定性和实用性。
事实上,业界专业级的视频项目,其标准生产模式,也是先生成满意的图,然后将图转化成视频,生图:某种意义上就是一个写剧本的过程。
所以团队也并不避讳甚至欢迎用户到其他平台(如 Midjourney)生成图片,然后用 MuseSteamer 进行视频化创作,这本身就是一个取各家所长的创作策略。
作为一个只有 50 人左右的团队,MuseSteamer 在决定从 " 图生视频 " 切入、决定做音视频一体、决定重点优化人物场景及运镜,这其实在很大程度上反映了团队非常善于抓重点,深刻理解目标用户要的是什么、什么是影响视频产出的关键。
从这个意义上,MuseSteamer 后续的产出和产品升级值得期待。
结语
1903 年一个叫 Julius Neubronner 的法国人突发奇想,把小型相机装到了鸽子的身上,结果拍到了让人惊叹的城市照片。
今天的视频生成模型其实也是一只装了相机的鸽子,它可以让我们从完全不同的维度重构创作。
的确,每一种创作技术的革新,都会诞生新的艺术流派。
奔跑吧,新一代创作者!
—— End ——
登录后才可以发布评论哦
打开小程序可以发布评论哦