传媒1号 02-20
面对刷屏的AI视频模型,「熊出没」们的机会来了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

互动话题:

你看好 AI 视频模型吗?

作者|卢枫

一夜刷屏的「现实不存在了」,让一些与 Sora 发布同时发生的事情被忽略了。

比如:2 月 16 日,OpenAI 在发布其首个 AI 文生视频模型 Sora 时,渠道仅是通过 CEO 山姆 · 奥特曼在社交媒体 X 上的一则推文,和官网上一篇缺少众多详细参数的介绍。这是否算是一个「还未完全准备好」的项目进行的一次「仓促」发布?

图片来源:X 截图

就在 Sora 发布前几个小时,谷歌宣布推出「下一代 AI 模型」Gemini 1.5 和其中首个登场的多模态通用模型 Gemini 1.5 Pro,把稳定处理上下文的上限扩大至 100 万 tokens。这里的「上下文」已超越文字、代码、图片、语音和视频等任何单一模态的限制。有了配有足够长度的「上下文」处理能力,模态转换将变得得心应手。

图片来源:The Keyword

换言之,此时发布 Sora 是 OpenAI 一次「抢头条」的行为。议程设置的商业策略背后也显示出,视频等多模态模型,正在 2024 年创造新的商机。

再如:在 Sora 全网刷屏之时,国内热度最高的话题之一,是打破票房纪录的春节档电影。电视动画起家的 IP「熊出没」在其跨越至大电影的第十年,稳坐票房前三。如今,「熊出没」系列电影已有了自己的故事世界,仅保留动画剧集中「光头强、熊大、熊二」的角色外形和部分性格属性,实现了从「跨媒介改编」到「跨媒介叙事」的上升。而文生视频模型,以及更广泛的生成式 AI,与内容行业最相关的,恰恰在于「跨媒介」。

这意味着,开发 IP 宇宙或将变得更具市场竞争力。AI 将更有想象力,人类会,也不应因此失去创造力。

图片来源:豆瓣

Sora 冲击了什么?

文生视频模型并非 OpenAI 首创。

2023 年 6 月,帮助谷歌开发了 AI 绘画工具 Stable Diffusion 的初创公司 Runway 发布 Gen-2 模型,支持利用纯文本、单张图像或文字配图生成几秒长的电影级视频。发布后,Gen-2 经历多次更新:视频长度提升至 18 秒,支持生成 4K 清晰度,可以控制「镜头」位置和移动速度,可以调节视频中的动作幅度,可以通过画笔功能强化局部编辑,等等。

2023 年 11 月,国内外 AI 视频生成迎来一波高潮:11 月 16 日,Meta 基于 Emu Edit 高精度图像编辑工具发布 Emu Video,支持从文字生成图像进而生成视频;11 月 18 日,字节跳动公布 PixelDance 模型,通过「文本指导 + 首尾帧图片指导」的视频生成方法,支持生成场景和动作更加复杂的视频;11 月 21 日,Stability AI 推出 Stable Video Diffusion,支持通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸;11 月 29 日,由两位华人女性创立的 AI 公司 Pika labs 发布首个产品 Pika 1.0,支持生成和编辑长度在 3 秒的 3D 视频,普通用户也可对其进行加工。此外,也是在 11 月,Adobe 宣布收购 AI 视频生成创业公司 Rephrase.ai,后者主要通过 AI 将文本转换为虚拟形象视频。

有统计显示,公开市面上已有超过 20 种视频生成产品,其中不乏「走入寻常百姓家」的应用。例如,今年 1 月,阿里云通义千问 App 中上线免费功能「全民舞王」,借助其内置的 12 种舞蹈模版,仅需上传一张图片就可以生成一段视频。

2023 年面市的视频生成产品。图片来源:a16z

和以往视频模型相比,Sora 为什么能够引起如此规模的轰动?

Sora 为 AI 视频模型的技术革新带来了新可能:从「动图」升级到「短片」, 从一维拓展至二维,视频生成质量和连贯性较以往明显增强,最长生成视频长度达到 1 分钟。1 分钟的时长,意味着这直接迈过了市面上所有短视频的时长要求。

通过公布的一些案例可见,Sora 既可以在单个视频、保持对象始终不变的情况下实现一镜到底,或者创建多角度镜头切换;也可以依靠对语言的深入理解准确地解释提示词(prompt),在物理还原之外直接生成 3D 风格动画。关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。目前,在视觉层面上,Sora 的「真实性」基本是可以过关的。

图片来源:OpenAI

同时,Sora 首次展现了扩散模型与大模型能力的融合。Sora 采用了 OpenAI 的 Dalle-3 图像生成器所使用的扩散模型的一个版本,和大语言模型(LLM)GPT-4 的基于自回归模型 Transformer 的引擎。简单来理解,大模型负责 AI 视频剧本的预测和推理,扩散模型用于效果生成,这样一来,Sora 既可以从现有获取的静态图像中生成视频,还能扩展现有视频或填充缺失的画面帧。这也就是所谓「理解物体在物理世界中的存在方式」。

现阶段:渲染气氛 vs. 强调现实

以「世界」为参照,不断被提及。

在 Sora 技术报告的结尾,OpenAI 引用了《我的世界》(Minecraft)的游戏视频,写道:「Sora 可以通过基本策略同时控制《我的世界》中的玩家,同时高保真地渲染世界及其动态。」当 Sora 既能控制游戏角色、同时能渲染游戏环境,这意味着,Sora 已经具备了模拟 1 分钟世界的能力,同时可以创造出稳定的角色。

OpenAI 提出「世界模拟器」(World Simulator)的概念,认为「扩展视频生成模型是构建物理世界通用模拟器的一条可行之路」,「Sora 为能够理解和模拟真实世界的模型奠定了基础,这将是实现 AGI(通用人工智能 / 通用大模型)的一个重要里程碑」。

由此可知,虽然目前 Sora 在展示其视频生成的能力,但鉴于 OpenAI 沿用了训练大语言模型的思路、用大规模的视觉数据来训练 Sora,Sora 实际上是通过海量的视频数据,去探索、靠近人们想要生成的视频是什么样的。语言模型不断训练的参照物是人的智能,那么具有普遍规律的物理世界,就成了视频模型不断训练的终极目标。

从文字的 ChatGPT 到图像的 DALL · E,再到这次视频的 Sora,OpenAI 在一步步地试图通过各种媒介形态,从目前的「部分实现」到追求「彻底打破」虚拟和现实的边界,在二者之间建立起链接,这也就回到了全网刷屏的那一句「现实不存在了」,更准确来讲,是「眼见不一定为实」。

360 创始人周鸿祎对 Sora 给予了极高的评价,他认为,Sora 的诞生意味着 AGI 的实现可能从 10 年缩短至一两年。但也出现了一些不同观点,倒不是质疑 Sora 会像 ChatGPT 一样飞速进化,而是警告有相当复杂的伦理准则、适用场景、法律风险等待规范和确认。

当安全性没有解决,何谈通用模型。目前,OpenAI 没有透露训练视频的大小、来源,只声称训练的是公开有版权的视频。但有法律人士表示,「目前没有任何有效的防护措施来阻止侵权内容的输出」。关于「安全」,Sora 现有处理方式更多是「防御」:设置「过滤器」,阻止暴力、色情、仇恨,以及特定人物的视频输出;同时,嵌入一种类似内容水印的 C2PA 技术标准,以鉴别是否为 AI 深度伪造视频。

OpenAI 不回避「仓促」发布的 Sora 当前存在的弱点,指出它可能难以准确模拟复杂场景的物理原理,以及可能无法理解因果关系。例如,「五只小狼在碎石路上嬉戏追逐」,但狼的数量会变化,一些凭空出现或消失。Sara 还可能混淆提示的空间细节,或者可能难以精确描述随着时间推移发生的事件。例如,生成「在跑步机上倒着跑步」;或者提示词「篮球穿过篮筐然后爆炸」中,篮球没有正确被篮筐阻挡。此外,Sora 现阶段无法生成音频,官网释出的所有视频都是无声的。

比起强调现实,现阶段的 Sora 依旧是强烈依赖人工干预的工具。以最强调「真实」的纪录片为例,Sora 可以胜任部分 B-roll 操作(即空镜头等没有现实指向性的画面),或者一些动画制作,但历史、真人等纪录片的基础元素都还不在 Sora 的范畴内。即便 Sora 已经可以去生成「历史画面」,但从职业伦理上看,那也不应被称作「纪录片」。

新型叙事策略:

从塑造「故事」到建构「故事世界」

目前获得 Sara 访问权限的群体,主要是视觉艺术家、设计师和电影制作人。美国媒体认为,数字娱乐市场将会是率先受到 Sora 影响的领域之一,因为新的个性化内容将在各个渠道上传播。因此,Sora 所带来的冲击,除了视频太逼真,还有一些行业可能将会被取代,传统视频制作、特效制作、内容制作者该何去何从。人们已经看到,在降本增效的大趋势下,未来 AI 视频有望成为真正的生产力。

对 C 端来说,虽然互联网上无论何时都将充斥着快餐内容,但当「追热点」的速度怎么努力也赶不上 AI 时,专业、垂类、「内容调性」就成了关键。不少乐观声音认为,当一个人可以很便捷产出一条短片,对独立创作者无疑是利好的。加之,在一些国家,向 AI 企业征税以应对 AI 大规模应用可能引发的失业问题等讨论,已开始出现。焦虑「刷屏」的下一步,是措施稳步细化实施的迫在眉睫。

至于 B 端,也不能不说是危中有机。ChatGPT 火了后,做大语言模型的公司遍地开花;同样的道理放在 Sora 上可能也会适用,OpenAI 证明了用大模型做视频的可行性,面对目前存在技术代差的国内环境,可能也会出现更多类似的大模型。甚至,凭借具有竞争力的性价比,中国 AI 厂商可能会延续此前趋势,加大海外市场的开拓。

关键在于,当回到内容视角,不论视频是如何生成的,判断内容产品吸引力的核心从来都是叙事的策略。

Sora 所定位的「世界模拟器」,很容易让人联想到,Meta 副总裁兼首席科学家、图灵奖获得者杨立昆(Yann LeCun)2022 年提出的「世界模型」(World Model)。预测,而非生成,是杨立昆设想中「世界模型」的核心。他多次批评大语言模型对世界理解之肤浅,其本质只是基于统计规律的自回归生成。他也不认为存在所谓的「通用智能」,AI 的发展目标是创造出人类水平的 AI。

在 Sora 发布的同一天,Meta 发布了无监督「视频预测模型」V-JEPA,号称能够以「人类的理解方式」看世界,通过抽象性的高效预测,生成被遮挡的部分。比如,翻看笔记本的视频被遮挡了一部分,V-JEPA 便能够对笔记本上的内容做出不同预测。JEPA 指「联合嵌入预测架构」;V,代表视频,现阶段指分析和感知视频的「视觉元素」。

图片来源:Google Image

在此做一个大胆的类比:如果容纳 V-JEPA 所关注的情境理解力的「情境」,或者 Sora 想要去经过训练并生成的「世界」足够大,那么是不是类似国外的漫威,或者国内的「熊出没」这样的 IP 宇宙呢?除了去「预测」前传、后传,还可以去为不同的媒介平台分别设计独特的内容,换言之,那将是一个「跨媒介叙事」的世界,技术在赋能过程中和人的创意实现「双向奔赴」。

图片来源:XboxEra

美国玛丽 - 劳尔 · 瑞安曾提出,「故事世界是叙事的中心」,因为读者或观众是通过进入这个虚拟的现实来理解和体验故事的。也就是说,之后的 IP 运营要带着品牌搭建、建构世界的角度去进行。就像漫威的「多元宇宙」可以为了方便随时安排角色「死亡」、光头强在今年《熊出没 · 逆转时空》中可以借助「时间碎片」的概念重启人生那样,技术是帮助叙事和制作的工具。

这意味着,基于哲学探讨能力的丰富想象力,再次成了关键。

1 号结语

看似一个无厘头的标题,实际上是想建立起近期接二连三的技术动态与当下的联系。至少到目前,没有什么是不可解释的。很多人认为,想象力要凌驾于科学性之上;但科技并非科幻,「人机对立」伦理主题的永恒追问背后,映照着所有入局者对现实的关注。

参考文献

Sora 来袭:AI 技术会改变纪录片吗?

https://mp.weixin.qq.com/s/sDTbrkznVkahbCTB2gk1CQ

没想到第一个成 " 中国漫威 " 的是《熊出没》

https://mp.weixin.qq.com/s/ml-Yd18tuIe-ufZbHjWRMw

详解 Sora,为什么是 AGI 的又一个里程碑时刻?

https://36kr.com/p/2653908207877249?channel=wechat

《传媒 1 号》原班打造视频评论新号:

《主编浅度》

" 视频号同步上线,敬请关注

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 熊出没 谷歌 指导 the
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论