快手对可灵的真正野心，是造出个世界模型

12 月 1 日，可灵正式发布了新模型——可灵 O1，并连续发布了可图 O1、音画同出模型可灵 2.6、可灵数字人 2.0、可灵 O1 主体库 & 对比模版共五个更新。

最核心的是两个 O 系列的生成模型，与 GPT 的 o 系列一样，"O" 代表着 Omni（all，一切），意味着模型不再局限于单一模态的输入。

正因如此，O1 也被视为视频生成界的 "Nano Banana" 。它们的相似点在于，都是多模态整合，都具有强可控性和多轮编辑能力。

看起来很酷，但可灵的目标并不止于 " 又一个视频模型 "。

如果梳理近一年可灵的各种动作，你就会发现，O 系列或许只是一个序幕，接下来，可灵的方向是要做出自己的世界模型。

"Video World Model 是未来！"

事实上，可灵想做世界模型的这份野心，从来没有隐藏过。

第一个火爆的视频生成模型 Sora，在发布之初就宣称自己是 " 世界模拟器 "。22 个月过去，越来越多的视频生成模型都在宣传或研究上，或多或少地朝 " 世界模型 " 靠近，可灵也不例外。

各种论文在提供着清晰线索。

早在 2024 年 12 月，Sora 公开上线的同月，快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文，提出了 Omni World Model（Owl-1），用于产生长期连贯且全面的条件，实现持续的长视频生成，预测未来动态 [ 1 ] 。

从论文来看，这是他们长达一年的技术演进的梳理。进入 2025 年，快手的可灵团队就开始逐渐密集地发布世界模型相关研究。

在其中，你甚至可以找到各种当下火爆的路线方向。

2025 年 8 月 Google 发了实时交互的 Genie3，快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究，论文获得了 ICCV 2025 Highlight。

2025 年 11 月李飞飞正式发布的 3D " 世界模型 "，快手也有一个对应的模型 Terra。

这些名气很大的关键节点，快手的策略是紧跟不缺席。

不过，随着 " 世界模型 " 的概念被炒热，这也存在一个争议点——视频生成模型，到底是不是世界模型？图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为，" 视频生成并不等于世界模型 "，单纯预测下一个像素点，只是对画面的模仿，并非对物理世界的真正理解。

然后快手可灵团队在 2025 年 11 月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》，里面给出了回应：视频生成模型也可以学习物理规律，像素只是模型渲染给人类看的结果，不代表模型中间没有计算和推理。

这篇论文可以看作是快手自己为 " 视频生成模型如何通往世界模型 " 画出的路线图，在文中，快手明确将 Kling 1.0 归类于第一代世界模型，Kling2.1 Master 归类于第二代世界模型。

在他们看来，现代视频模型并非直接预测像素，而是存在一个隐式世界模型作为 " 大脑 "，负责在肉眼不可见的高维潜在空间（Latent Space）中进行推演，这和 LeCun 的潜在空间推理同理，它接收当前的各种状态输入，基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态 [ 3 ] 。

快手专家研究员王鑫涛也直接在知乎上写下判断：" 我相信，Video World Model 是未来 "。

可灵最近研究都围绕世界模型展开

继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看，快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往 " 世界模型 " 之路中。

Roadmap 里的一个核心是，团队认为 " 视频生成 " 走向 " 世界模型 " 的一个关键点是Navigation Mode（导航模式）。

快手认为，真正的世界模型不能只靠 " 空间条件 "（如布局、草图、深度图）来描摹画面、进行像素级或有限的控制；它必须能听懂 " 导航条件 " ——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令（如 " 向左转 "、" 推拉镜头 "）。

也正是因此，团队有关 " 导航条件 " 的研究格外多。

镜头运动就是一种导航条件，ICCV 高分论文 RecamMaster，提出了一种由摄像机控制的生成视频重渲染框架，能够在新的摄像机轨迹下再现输入视频的动态场景 [ 4 ] ；SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成，确保不同视角间的内容一致性 [ 5 ] ；而 AdaViewPlanner 则让 AI 变成了摄影指导，能自主规划最佳观察路径 [ 6 ] 。这一系列研究，本质上都是在提升模型对 3D、4D 空间的动态感知。

这些研究，也反映在了此次的 O 系列里。

从目前可灵 O 系列的案例中也能看出，例如，可灵 O1 针对一张侧面的车内驾驶视频，生成一张后座视角的车内驾驶视频；可图 O1 将一张二维的房间设计图，转化为 3 维空间的设计图等等。

按照快手 Roadmap 的定义，我们可以将可灵 O1 划分在世界模型第二代到第三代之间。

在快手的定义中，第二代的主要特征就是交互性，" 导航模式 " 赋予了模型灵活的控制力，使其能遵循预定义轨迹执行长动作序列，而第三代模型则更进一步，核心在于 " 规划能力 "（Planning）与 " 实时交互 "，进一步强化了导航模式，模型不仅能 " 听指令走路 "，还要能基于内在的物理知识，自主推演并生成无限长的视频序列。

也就是说，仅仅会 " 运镜 " 是不够的，模型还必须懂物理、能思考。因此在导航类论文之外，快手还构建了物理、推理方向的研究。

比如，快手推出的 Monet 训练框架，通过让多模态大语言模型 ( MLLMs ) 直接在连续的潜在视觉空间中进行推理，增强视觉推理能力 [ 7 ] ；

还有 PhysMaster，作为一种模型外挂，通过注入物理知识来增强视频生成模型的物理感知能力，使其能够生成更符合物理规律的视频。 [ 8 ] 。

随着研究碎片们不断补齐，O 系列，会是可灵打开新 " 世界 " 的大门吗？

在 " 赚钱工具 " 与 " 世界模拟器 " 的夹缝中

如果快手想要继续向世界模型前进，实时性就是一个关键的卡点。

尽管 O1 模型在空间逻辑、指令遵循上有进步，但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种 " 高延迟 " 并非 O1 独有的问题，回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹，团队显然采取了一种 " 画质优先，速度让位 " 的策略。

但对于一个旨在模拟世界的系统而言，如果无法做到实时响应，那么它更像是一个精美的 " 离线渲染器 "，而非真正意义上可交互的 " 世界模型 "。如何在保持高保真画质的同时，将分钟级的生成时间压缩至秒级、毫秒级，是一个难题。

不过，在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中，团队也埋下了一个伏笔：随着 " 上下文压缩 " 技术的改进，视频生成时间有望降低。

这一切也形成了一个非常有意思的 " 错位 "：当年第一个喊出 " 世界模拟器 " 口号的 Sora，如今反而越来越像个产品经理，忙着搞 AI 视频版的 TikTok，开发 Cameo 这种娱乐玩法，一门心思往应用层钻，而快手尽管攒了一系列的研究，但偏偏对外的产品公布里，就不提世界模型。

" 技术向左，产品向右 " 的矛盾背后，是商业盘算。

在 11 月 19 日的 Q3 财报会上，程一笑提到，视频模型与大语言模型本质上均朝着世界模型方向演进，且视频模型有望成为世界模型的核心技术支撑，但可灵现阶段仍将 "AI 影视创作场景 " 作为核心目标。

某种程度上，可灵的产品和模型是分离的。模型在水下，可灵平台作为一个产品才是对外输出的核心。据快手 Q1 的财报会披露，可灵 AI 营业收入主要由 P 端付费用户（指专业的自媒体、视频创作者和广告营销从业者等）以及为企业客户提供 API 服务构成，而其中近 70% 由 P 端付费用户贡献。

这群 " 金主 " 不在乎你是不是 " 世界模拟器 "，也没那么在乎实时性，他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型，似乎除了被挑剔，也没有额外的增益。

但情况迟早要转变。

单纯作为 " 影视创作工具 " 的商业天花板是肉眼可见的，根据此前和 11 月 19 日披露的 Q3 数据，可灵 AI 今年第一季度、第二季度、第三季度的收入分别超过 1.5 亿元、2.5 亿元、3 亿元，全年预计收入 1.4 亿美元，但增速逐渐放缓。

无论是谷歌 Veo3 被用于机器人领域，还是特斯拉利用生成式视频训练自动驾驶，亦或是游戏行业对 AI 引擎的渴求，具身智能、自动驾驶、游戏引擎等领域，才是视频生成模型真正的星辰大海，对模型的物理一致性和实时交互能力也提出了极高的要求。

所以，哪怕对于视频生成模型来说，想要不再只是一个昂贵的玩具或是一个辅助的创作工具，做成 " 世界模型 " 是一件生死攸关的大事。因为只有模拟真实，才能挖动和物理世界交互的金矿。

在今天的 O 系列之后，看起来我们可以期待快手接下来的 "W" 模型了。

参考资料：

[ 1 ] Owl-1: Omni World Model for Consistent Long Video Generation

[ 2 ] A Survey of Interactive Generative Video

[ 3 ] Simulating the Visual World with Artificial Intelligence: A Roadmap

[ 4 ] ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[ 5 ] SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[ 6 ] AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[ 7 ] Monet: Reasoning in Latent Visual Space Beyond Images and Language

[ 8 ] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning