12 月 1 日,可灵正式发布了新模型——可灵 O1,并连续发布了可图 O1、音画同出模型可灵 2.6、可灵数字人 2.0、可灵 O1 主体库 & 对比模版共五个更新。
最核心的是两个 O 系列的生成模型,与 GPT 的 o 系列一样,"O" 代表着 Omni(all,一切),意味着模型不再局限于单一模态的输入。
正因如此,O1 也被视为视频生成界的 "Nano Banana" 。它们的相似点在于,都是多模态整合,都具有强可控性和多轮编辑能力。
看起来很酷,但可灵的目标并不止于 " 又一个视频模型 "。
如果梳理近一年可灵的各种动作,你就会发现,O 系列或许只是一个序幕,接下来,可灵的方向是要做出自己的世界模型。
"Video World Model 是未来!"
事实上,可灵想做世界模型的这份野心,从来没有隐藏过。
第一个火爆的视频生成模型 Sora,在发布之初就宣称自己是 " 世界模拟器 "。22 个月过去,越来越多的视频生成模型都在宣传或研究上,或多或少地朝 " 世界模型 " 靠近,可灵也不例外。
各种论文在提供着清晰线索。
早在 2024 年 12 月,Sora 公开上线的同月,快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文,提出了 Omni World Model(Owl-1),用于产生长期连贯且全面的条件,实现持续的长视频生成,预测未来动态 [ 1 ] 。
从论文来看,这是他们长达一年的技术演进的梳理。进入 2025 年,快手的可灵团队就开始逐渐密集地发布世界模型相关研究。

在其中,你甚至可以找到各种当下火爆的路线方向。
2025 年 8 月 Google 发了实时交互的 Genie3,快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究,论文获得了 ICCV 2025 Highlight。

2025 年 11 月李飞飞正式发布的 3D " 世界模型 ",快手也有一个对应的模型 Terra。

这些名气很大的关键节点,快手的策略是紧跟不缺席。
不过,随着 " 世界模型 " 的概念被炒热,这也存在一个争议点——视频生成模型,到底是不是世界模型?图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为," 视频生成并不等于世界模型 ",单纯预测下一个像素点,只是对画面的模仿,并非对物理世界的真正理解。
然后快手可灵团队在 2025 年 11 月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面给出了回应:视频生成模型也可以学习物理规律,像素只是模型渲染给人类看的结果,不代表模型中间没有计算和推理。
这篇论文可以看作是快手自己为 " 视频生成模型如何通往世界模型 " 画出的路线图,在文中,快手明确将 Kling 1.0 归类于第一代世界模型,Kling2.1 Master 归类于第二代世界模型。
在他们看来,现代视频模型并非直接预测像素,而是存在一个隐式世界模型作为 " 大脑 ",负责在肉眼不可见的高维潜在空间(Latent Space)中进行推演,这和 LeCun 的潜在空间推理同理,它接收当前的各种状态输入,基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态 [ 3 ] 。
快手专家研究员王鑫涛也直接在知乎上写下判断:" 我相信,Video World Model 是未来 "。
可灵最近研究都围绕世界模型展开
继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看,快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往 " 世界模型 " 之路中。
Roadmap 里的一个核心是,团队认为 " 视频生成 " 走向 " 世界模型 " 的一个关键点是Navigation Mode(导航模式)。

快手认为,真正的世界模型不能只靠 " 空间条件 "(如布局、草图、深度图)来描摹画面、进行像素级或有限的控制;它必须能听懂 " 导航条件 " ——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令(如 " 向左转 "、" 推拉镜头 ")。

也正是因此,团队有关 " 导航条件 " 的研究格外多。
镜头运动就是一种导航条件,ICCV 高分论文 RecamMaster,提出了一种由摄像机控制的生成视频重渲染框架,能够在新的摄像机轨迹下再现输入视频的动态场景 [ 4 ] ;SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成,确保不同视角间的内容一致性 [ 5 ] ;而 AdaViewPlanner 则让 AI 变成了摄影指导,能自主规划最佳观察路径 [ 6 ] 。这一系列研究,本质上都是在提升模型对 3D、4D 空间的动态感知。
这些研究,也反映在了此次的 O 系列里。
从目前可灵 O 系列的案例中也能看出,例如,可灵 O1 针对一张侧面的车内驾驶视频,生成一张后座视角的车内驾驶视频;可图 O1 将一张二维的房间设计图,转化为 3 维空间的设计图等等。

按照快手 Roadmap 的定义,我们可以将可灵 O1 划分在世界模型第二代到第三代之间。
在快手的定义中, 第二代的主要特征就是交互性," 导航模式 " 赋予了模型灵活的控制力,使其能遵循预定义轨迹执行长动作序列,而第三代模型则更进一步,核心在于 " 规划能力 "(Planning)与 " 实时交互 ", 进一步强化了导航模式,模型不仅能 " 听指令走路 ",还要能基于内在的物理知识,自主推演并生成无限长的视频序列。
也就是说,仅仅会 " 运镜 " 是不够的,模型还必须懂物理、能思考。因此在导航类论文之外,快手还构建了物理、推理方向的研究。
比如,快手推出的 Monet 训练框架,通过让多模态大语言模型 ( MLLMs ) 直接在连续的潜在视觉空间中进行推理,增强视觉推理能力 [ 7 ] ;
还有 PhysMaster,作为一种模型外挂,通过注入物理知识来增强视频生成模型的物理感知能力,使其能够生成更符合物理规律的视频。 [ 8 ] 。
随着研究碎片们不断补齐,O 系列,会是可灵打开新 " 世界 " 的大门吗?
在 " 赚钱工具 " 与 " 世界模拟器 " 的夹缝中
如果快手想要继续向世界模型前进,实时性就是一个关键的卡点。
尽管 O1 模型在空间逻辑、指令遵循上有进步,但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种 " 高延迟 " 并非 O1 独有的问题,回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹,团队显然采取了一种 " 画质优先,速度让位 " 的策略。

但对于一个旨在模拟世界的系统而言,如果无法做到实时响应,那么它更像是一个精美的 " 离线渲染器 ",而非真正意义上可交互的 " 世界模型 "。如何在保持高保真画质的同时,将分钟级的生成时间压缩至秒级、毫秒级,是一个难题。
不过,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中,团队也埋下了一个伏笔:随着 " 上下文压缩 " 技术的改进,视频生成时间有望降低。
这一切也形成了一个非常有意思的 " 错位 ":当年第一个喊出 " 世界模拟器 " 口号的 Sora,如今反而越来越像个产品经理,忙着搞 AI 视频版的 TikTok,开发 Cameo 这种娱乐玩法,一门心思往应用层钻,而快手尽管攒了一系列的研究,但偏偏对外的产品公布里,就不提世界模型。
" 技术向左,产品向右 " 的矛盾背后,是商业盘算。
在 11 月 19 日的 Q3 财报会上,程一笑提到,视频模型与大语言模型本质上均朝着世界模型方向演进,且视频模型有望成为世界模型的核心技术支撑,但可灵现阶段仍将 "AI 影视创作场景 " 作为核心目标。
某种程度上,可灵的产品和模型是分离的。模型在水下,可灵平台作为一个产品才是对外输出的核心。据快手 Q1 的财报会披露,可灵 AI 营业收入主要由 P 端付费用户(指专业的自媒体、视频创作者和广告营销从业者等)以及为企业客户提供 API 服务构成,而其中近 70% 由 P 端付费用户贡献。
这群 " 金主 " 不在乎你是不是 " 世界模拟器 ",也没那么在乎实时性,他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型,似乎除了被挑剔,也没有额外的增益。
但情况迟早要转变。
单纯作为 " 影视创作工具 " 的商业天花板是肉眼可见的,根据此前和 11 月 19 日披露的 Q3 数据,可灵 AI 今年第一季度、第二季度、第三季度的收入分别超过 1.5 亿元、2.5 亿元、3 亿元,全年预计收入 1.4 亿美元,但增速逐渐放缓。
无论是谷歌 Veo3 被用于机器人领域,还是特斯拉利用生成式视频训练自动驾驶,亦或是游戏行业对 AI 引擎的渴求,具身智能、自动驾驶、游戏引擎等领域,才是视频生成模型真正的星辰大海,对模型的物理一致性和实时交互能力也提出了极高的要求。
所以,哪怕对于视频生成模型来说,想要不再只是一个昂贵的玩具或是一个辅助的创作工具,做成 " 世界模型 " 是一件生死攸关的大事。因为只有模拟真实,才能挖动和物理世界交互的金矿。
在今天的 O 系列之后,看起来我们可以期待快手接下来的 "W" 模型了。
参考资料:
[ 1 ] Owl-1: Omni World Model for Consistent Long Video Generation
[ 2 ] A Survey of Interactive Generative Video
[ 3 ] Simulating the Visual World with Artificial Intelligence: A Roadmap
[ 4 ] ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
[ 5 ] SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
[ 6 ] AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
[ 7 ] Monet: Reasoning in Latent Visual Space Beyond Images and Language
[ 8 ] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning



