面对刷屏的AI视频模型，「熊出没」们的机会来了？

互动话题：

你看好 AI 视频模型吗？

作者｜卢枫

一夜刷屏的「现实不存在了」，让一些与 Sora 发布同时发生的事情被忽略了。

比如：2 月 16 日，OpenAI 在发布其首个 AI 文生视频模型 Sora 时，渠道仅是通过 CEO 山姆 · 奥特曼在社交媒体 X 上的一则推文，和官网上一篇缺少众多详细参数的介绍。这是否算是一个「还未完全准备好」的项目进行的一次「仓促」发布？

图片来源：X 截图

就在 Sora 发布前几个小时，谷歌宣布推出「下一代 AI 模型」Gemini 1.5 和其中首个登场的多模态通用模型 Gemini 1.5 Pro，把稳定处理上下文的上限扩大至 100 万 tokens。这里的「上下文」已超越文字、代码、图片、语音和视频等任何单一模态的限制。有了配有足够长度的「上下文」处理能力，模态转换将变得得心应手。

图片来源：The Keyword

换言之，此时发布 Sora 是 OpenAI 一次「抢头条」的行为。议程设置的商业策略背后也显示出，视频等多模态模型，正在 2024 年创造新的商机。

再如：在 Sora 全网刷屏之时，国内热度最高的话题之一，是打破票房纪录的春节档电影。电视动画起家的 IP「熊出没」在其跨越至大电影的第十年，稳坐票房前三。如今，「熊出没」系列电影已有了自己的故事世界，仅保留动画剧集中「光头强、熊大、熊二」的角色外形和部分性格属性，实现了从「跨媒介改编」到「跨媒介叙事」的上升。而文生视频模型，以及更广泛的生成式 AI，与内容行业最相关的，恰恰在于「跨媒介」。

这意味着，开发 IP 宇宙或将变得更具市场竞争力。AI 将更有想象力，人类会，也不应因此失去创造力。

图片来源：豆瓣

Sora 冲击了什么？

文生视频模型并非 OpenAI 首创。

2023 年 6 月，帮助谷歌开发了 AI 绘画工具 Stable Diffusion 的初创公司 Runway 发布 Gen-2 模型，支持利用纯文本、单张图像或文字配图生成几秒长的电影级视频。发布后，Gen-2 经历多次更新：视频长度提升至 18 秒，支持生成 4K 清晰度，可以控制「镜头」位置和移动速度，可以调节视频中的动作幅度，可以通过画笔功能强化局部编辑，等等。

2023 年 11 月，国内外 AI 视频生成迎来一波高潮：11 月 16 日，Meta 基于 Emu Edit 高精度图像编辑工具发布 Emu Video，支持从文字生成图像进而生成视频；11 月 18 日，字节跳动公布 PixelDance 模型，通过「文本指导 + 首尾帧图片指导」的视频生成方法，支持生成场景和动作更加复杂的视频；11 月 21 日，Stability AI 推出 Stable Video Diffusion，支持通过现有图片生成视频，是基于之前发布的 Stable Diffusion 文本转图片模型的延伸；11 月 29 日，由两位华人女性创立的 AI 公司 Pika labs 发布首个产品 Pika 1.0，支持生成和编辑长度在 3 秒的 3D 视频，普通用户也可对其进行加工。此外，也是在 11 月，Adobe 宣布收购 AI 视频生成创业公司 Rephrase.ai，后者主要通过 AI 将文本转换为虚拟形象视频。

有统计显示，公开市面上已有超过 20 种视频生成产品，其中不乏「走入寻常百姓家」的应用。例如，今年 1 月，阿里云通义千问 App 中上线免费功能「全民舞王」，借助其内置的 12 种舞蹈模版，仅需上传一张图片就可以生成一段视频。

2023 年面市的视频生成产品。图片来源：a16z

和以往视频模型相比，Sora 为什么能够引起如此规模的轰动？

Sora 为 AI 视频模型的技术革新带来了新可能：从「动图」升级到「短片」，从一维拓展至二维，视频生成质量和连贯性较以往明显增强，最长生成视频长度达到 1 分钟。1 分钟的时长，意味着这直接迈过了市面上所有短视频的时长要求。

通过公布的一些案例可见，Sora 既可以在单个视频、保持对象始终不变的情况下实现一镜到底，或者创建多角度镜头切换；也可以依靠对语言的深入理解准确地解释提示词（prompt），在物理还原之外直接生成 3D 风格动画。关键之处在于一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。目前，在视觉层面上，Sora 的「真实性」基本是可以过关的。

图片来源：OpenAI

同时，Sora 首次展现了扩散模型与大模型能力的融合。Sora 采用了 OpenAI 的 Dalle-3 图像生成器所使用的扩散模型的一个版本，和大语言模型（LLM）GPT-4 的基于自回归模型 Transformer 的引擎。简单来理解，大模型负责 AI 视频剧本的预测和推理，扩散模型用于效果生成，这样一来，Sora 既可以从现有获取的静态图像中生成视频，还能扩展现有视频或填充缺失的画面帧。这也就是所谓「理解物体在物理世界中的存在方式」。

现阶段：渲染气氛 vs. 强调现实

以「世界」为参照，不断被提及。

在 Sora 技术报告的结尾，OpenAI 引用了《我的世界》（Minecraft）的游戏视频，写道：「Sora 可以通过基本策略同时控制《我的世界》中的玩家，同时高保真地渲染世界及其动态。」当 Sora 既能控制游戏角色、同时能渲染游戏环境，这意味着，Sora 已经具备了模拟 1 分钟世界的能力，同时可以创造出稳定的角色。

OpenAI 提出「世界模拟器」（World Simulator）的概念，认为「扩展视频生成模型是构建物理世界通用模拟器的一条可行之路」，「Sora 为能够理解和模拟真实世界的模型奠定了基础，这将是实现 AGI（通用人工智能 / 通用大模型）的一个重要里程碑」。

由此可知，虽然目前 Sora 在展示其视频生成的能力，但鉴于 OpenAI 沿用了训练大语言模型的思路、用大规模的视觉数据来训练 Sora，Sora 实际上是通过海量的视频数据，去探索、靠近人们想要生成的视频是什么样的。语言模型不断训练的参照物是人的智能，那么具有普遍规律的物理世界，就成了视频模型不断训练的终极目标。

从文字的 ChatGPT 到图像的 DALL · E，再到这次视频的 Sora，OpenAI 在一步步地试图通过各种媒介形态，从目前的「部分实现」到追求「彻底打破」虚拟和现实的边界，在二者之间建立起链接，这也就回到了全网刷屏的那一句「现实不存在了」，更准确来讲，是「眼见不一定为实」。

360 创始人周鸿祎对 Sora 给予了极高的评价，他认为，Sora 的诞生意味着 AGI 的实现可能从 10 年缩短至一两年。但也出现了一些不同观点，倒不是质疑 Sora 会像 ChatGPT 一样飞速进化，而是警告有相当复杂的伦理准则、适用场景、法律风险等待规范和确认。

当安全性没有解决，何谈通用模型。目前，OpenAI 没有透露训练视频的大小、来源，只声称训练的是公开有版权的视频。但有法律人士表示，「目前没有任何有效的防护措施来阻止侵权内容的输出」。关于「安全」，Sora 现有处理方式更多是「防御」：设置「过滤器」，阻止暴力、色情、仇恨，以及特定人物的视频输出；同时，嵌入一种类似内容水印的 C2PA 技术标准，以鉴别是否为 AI 深度伪造视频。

OpenAI 不回避「仓促」发布的 Sora 当前存在的弱点，指出它可能难以准确模拟复杂场景的物理原理，以及可能无法理解因果关系。例如，「五只小狼在碎石路上嬉戏追逐」，但狼的数量会变化，一些凭空出现或消失。Sara 还可能混淆提示的空间细节，或者可能难以精确描述随着时间推移发生的事件。例如，生成「在跑步机上倒着跑步」；或者提示词「篮球穿过篮筐然后爆炸」中，篮球没有正确被篮筐阻挡。此外，Sora 现阶段无法生成音频，官网释出的所有视频都是无声的。

比起强调现实，现阶段的 Sora 依旧是强烈依赖人工干预的工具。以最强调「真实」的纪录片为例，Sora 可以胜任部分 B-roll 操作（即空镜头等没有现实指向性的画面），或者一些动画制作，但历史、真人等纪录片的基础元素都还不在 Sora 的范畴内。即便 Sora 已经可以去生成「历史画面」，但从职业伦理上看，那也不应被称作「纪录片」。

新型叙事策略：

从塑造「故事」到建构「故事世界」

目前获得 Sara 访问权限的群体，主要是视觉艺术家、设计师和电影制作人。美国媒体认为，数字娱乐市场将会是率先受到 Sora 影响的领域之一，因为新的个性化内容将在各个渠道上传播。因此，Sora 所带来的冲击，除了视频太逼真，还有一些行业可能将会被取代，传统视频制作、特效制作、内容制作者该何去何从。人们已经看到，在降本增效的大趋势下，未来 AI 视频有望成为真正的生产力。

对 C 端来说，虽然互联网上无论何时都将充斥着快餐内容，但当「追热点」的速度怎么努力也赶不上 AI 时，专业、垂类、「内容调性」就成了关键。不少乐观声音认为，当一个人可以很便捷产出一条短片，对独立创作者无疑是利好的。加之，在一些国家，向 AI 企业征税以应对 AI 大规模应用可能引发的失业问题等讨论，已开始出现。焦虑「刷屏」的下一步，是措施稳步细化实施的迫在眉睫。

至于 B 端，也不能不说是危中有机。ChatGPT 火了后，做大语言模型的公司遍地开花；同样的道理放在 Sora 上可能也会适用，OpenAI 证明了用大模型做视频的可行性，面对目前存在技术代差的国内环境，可能也会出现更多类似的大模型。甚至，凭借具有竞争力的性价比，中国 AI 厂商可能会延续此前趋势，加大海外市场的开拓。

关键在于，当回到内容视角，不论视频是如何生成的，判断内容产品吸引力的核心从来都是叙事的策略。

Sora 所定位的「世界模拟器」，很容易让人联想到，Meta 副总裁兼首席科学家、图灵奖获得者杨立昆（Yann LeCun）2022 年提出的「世界模型」（World Model）。预测，而非生成，是杨立昆设想中「世界模型」的核心。他多次批评大语言模型对世界理解之肤浅，其本质只是基于统计规律的自回归生成。他也不认为存在所谓的「通用智能」，AI 的发展目标是创造出人类水平的 AI。

在 Sora 发布的同一天，Meta 发布了无监督「视频预测模型」V-JEPA，号称能够以「人类的理解方式」看世界，通过抽象性的高效预测，生成被遮挡的部分。比如，翻看笔记本的视频被遮挡了一部分，V-JEPA 便能够对笔记本上的内容做出不同预测。JEPA 指「联合嵌入预测架构」；V，代表视频，现阶段指分析和感知视频的「视觉元素」。

图片来源：Google Image

在此做一个大胆的类比：如果容纳 V-JEPA 所关注的情境理解力的「情境」，或者 Sora 想要去经过训练并生成的「世界」足够大，那么是不是类似国外的漫威，或者国内的「熊出没」这样的 IP 宇宙呢？除了去「预测」前传、后传，还可以去为不同的媒介平台分别设计独特的内容，换言之，那将是一个「跨媒介叙事」的世界，技术在赋能过程中和人的创意实现「双向奔赴」。

图片来源：XboxEra

美国玛丽 - 劳尔 · 瑞安曾提出，「故事世界是叙事的中心」，因为读者或观众是通过进入这个虚拟的现实来理解和体验故事的。也就是说，之后的 IP 运营要带着品牌搭建、建构世界的角度去进行。就像漫威的「多元宇宙」可以为了方便随时安排角色「死亡」、光头强在今年《熊出没 · 逆转时空》中可以借助「时间碎片」的概念重启人生那样，技术是帮助叙事和制作的工具。

这意味着，基于哲学探讨能力的丰富想象力，再次成了关键。

1 号结语

看似一个无厘头的标题，实际上是想建立起近期接二连三的技术动态与当下的联系。至少到目前，没有什么是不可解释的。很多人认为，想象力要凌驾于科学性之上；但科技并非科幻，「人机对立」伦理主题的永恒追问背后，映照着所有入局者对现实的关注。

参考文献

Sora 来袭：AI 技术会改变纪录片吗？

https://mp.weixin.qq.com/s/sDTbrkznVkahbCTB2gk1CQ

没想到第一个成 " 中国漫威 " 的是《熊出没》

https://mp.weixin.qq.com/s/ml-Yd18tuIe-ufZbHjWRMw

详解 Sora，为什么是 AGI 的又一个里程碑时刻？

https://36kr.com/p/2653908207877249?channel=wechat

《传媒 1 号》原班打造视频评论新号：

《主编浅度》

" 视频号同步上线，敬请关注

宙世代

智慧云

相关标签