硅星人 8小时前
快手对可灵的真正野心,是造出个世界模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

12 月 1 日,可灵正式发布了新模型——可灵 O1,并连续发布了可图 O1、音画同出模型可灵 2.6、可灵数字人 2.0、可灵 O1 主体库 & 对比模版共五个更新。

最核心的是两个 O 系列的生成模型,与 GPT 的 o 系列一样,"O" 代表着 Omni(all,一切),意味着模型不再局限于单一模态的输入。

正因如此,O1 也被视为视频生成界的 "Nano Banana" 。它们的相似点在于,都是多模态整合,都具有强可控性多轮编辑能力

看起来很酷,但可灵的目标并不止于 " 又一个视频模型 "。

如果梳理近一年可灵的各种动作,你就会发现,O 系列或许只是一个序幕,接下来,可灵的方向是要做出自己的世界模型。

"Video World Model 是未来!"

事实上,可灵想做世界模型的这份野心,从来没有隐藏过。

第一个火爆的视频生成模型 Sora,在发布之初就宣称自己是 " 世界模拟器 "。22 个月过去,越来越多的视频生成模型都在宣传或研究上,或多或少地朝 " 世界模型 " 靠近,可灵也不例外。

各种论文在提供着清晰线索。

早在 2024 年 12 月,Sora 公开上线的同月,快手就发布过一篇名为《Owl-1: Omni World Model for Consistent Long Video Generation》的论文,提出了 Omni World Model(Owl-1),用于产生长期连贯且全面的条件,实现持续的长视频生成,预测未来动态 [ 1 ] 。

从论文来看,这是他们长达一年的技术演进的梳理。进入 2025 年,快手的可灵团队就开始逐渐密集地发布世界模型相关研究。

在其中,你甚至可以找到各种当下火爆的路线方向。

2025 年 8 月 Google 发了实时交互的 Genie3,快手则对它对应的这种生成式交互视频在游戏领域的应用做了研究,论文获得了 ICCV 2025 Highlight。

2025 年 11 月李飞飞正式发布的 3D " 世界模型 ",快手也有一个对应的模型 Terra。

这些名气很大的关键节点,快手的策略是紧跟不缺席。

不过,随着 " 世界模型 " 的概念被炒热,这也存在一个争议点——视频生成模型,到底是不是世界模型?图灵奖得主 Yann LeCun 曾为此泼过一盆冷水。他认为," 视频生成并不等于世界模型 ",单纯预测下一个像素点,只是对画面的模仿,并非对物理世界的真正理解。

然后快手可灵团队在 2025 年 11 月也发布了一篇论文《Simulating the Visual World with Artificial Intelligence: A Roadmap》,里面给出了回应:视频生成模型也可以学习物理规律,像素只是模型渲染给人类看的结果,不代表模型中间没有计算和推理。

这篇论文可以看作是快手自己为 " 视频生成模型如何通往世界模型 " 画出的路线图,在文中,快手明确将 Kling 1.0 归类于第一代世界模型,Kling2.1 Master 归类于第二代世界模型。

在他们看来,现代视频模型并非直接预测像素,而是存在一个隐式世界模型作为 " 大脑 ",负责在肉眼不可见的高维潜在空间(Latent Space)中进行推演,这和 LeCun 的潜在空间推理同理,它接收当前的各种状态输入,基于推理能力和内化的物理法则——如重力、流体动力学、物体恒常性——计算出下一时刻的世界状态 [ 3 ] 。

快手专家研究员王鑫涛也直接在知乎上写下判断:" 我相信,Video World Model 是未来 "。

可灵最近研究都围绕世界模型展开

继续沿着《Simulating the Visual World with Artificial Intelligence: A Roadmap》这篇回看,快手那些看似碎片化的研究——从物理准确性到镜头运动控制——其实都能被串联进这条通往 " 世界模型 " 之路中。

Roadmap 里的一个核心是,团队认为 " 视频生成 " 走向 " 世界模型 " 的一个关键点是Navigation Mode(导航模式)。

快手认为,真正的世界模型不能只靠 " 空间条件 "(如布局、草图、深度图)来描摹画面、进行像素级或有限的控制;它必须能听懂 " 导航条件 " ——即那些脱离了画面依然成立的、具有时序的、具有空间推理的交互指令(如 " 向左转 "、" 推拉镜头 ")。

也正是因此,团队有关 " 导航条件 " 的研究格外多。

镜头运动就是一种导航条件,ICCV 高分论文 RecamMaster,提出了一种由摄像机控制的生成视频重渲染框架,能够在新的摄像机轨迹下再现输入视频的动态场景 [ 4 ] ;SynCamMaster 则进一步让模型在同一时间轴上实现多摄像机视频生成,确保不同视角间的内容一致性 [ 5 ] ;而 AdaViewPlanner 则让 AI 变成了摄影指导,能自主规划最佳观察路径 [ 6 ] 。这一系列研究,本质上都是在提升模型对 3D、4D 空间的动态感知。

这些研究,也反映在了此次的 O 系列里。

从目前可灵 O 系列的案例中也能看出,例如,可灵 O1 针对一张侧面的车内驾驶视频,生成一张后座视角的车内驾驶视频;可图 O1 将一张二维的房间设计图,转化为 3 维空间的设计图等等。

按照快手 Roadmap 的定义,我们可以将可灵 O1 划分在世界模型第二代到第三代之间。

在快手的定义中, 第二代的主要特征就是交互性," 导航模式 " 赋予了模型灵活的控制力,使其能遵循预定义轨迹执行长动作序列,而第三代模型则更进一步,核心在于 " 规划能力 "(Planning)与 " 实时交互 ", 进一步强化了导航模式,模型不仅能 " 听指令走路 ",还要能基于内在的物理知识,自主推演并生成无限长的视频序列。

也就是说,仅仅会 " 运镜 " 是不够的,模型还必须懂物理、能思考。因此在导航类论文之外,快手还构建了物理、推理方向的研究。

比如,快手推出的 Monet 训练框架,通过让多模态大语言模型 ( MLLMs ) 直接在连续的潜在视觉空间中进行推理,增强视觉推理能力 [ 7 ] ;

还有 PhysMaster,作为一种模型外挂,通过注入物理知识来增强视频生成模型的物理感知能力,使其能够生成更符合物理规律的视频。 [ 8 ] 。

随着研究碎片们不断补齐,O 系列,会是可灵打开新 " 世界 " 的大门吗?

在 " 赚钱工具 " 与 " 世界模拟器 " 的夹缝中

如果快手想要继续向世界模型前进,实时性就是一个关键的卡点。

尽管 O1 模型在空间逻辑、指令遵循上有进步,但生成一段 5 秒的视频目前仍需耗时约 2 分钟。这种 " 高延迟 " 并非 O1 独有的问题,回看从可灵 1.0 到可灵 2.1 Master 的整个迭代轨迹,团队显然采取了一种 " 画质优先,速度让位 " 的策略。

但对于一个旨在模拟世界的系统而言,如果无法做到实时响应,那么它更像是一个精美的 " 离线渲染器 ",而非真正意义上可交互的 " 世界模型 "。如何在保持高保真画质的同时,将分钟级的生成时间压缩至秒级、毫秒级,是一个难题。

不过,在一篇《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》的论文中,团队也埋下了一个伏笔:随着 " 上下文压缩 " 技术的改进,视频生成时间有望降低。

这一切也形成了一个非常有意思的 " 错位 ":当年第一个喊出 " 世界模拟器 " 口号的 Sora,如今反而越来越像个产品经理,忙着搞 AI 视频版的 TikTok,开发 Cameo 这种娱乐玩法,一门心思往应用层钻,而快手尽管攒了一系列的研究,但偏偏对外的产品公布里,就不提世界模型。

" 技术向左,产品向右 " 的矛盾背后,是商业盘算。

在 11 月 19 日的 Q3 财报会上,程一笑提到,视频模型与大语言模型本质上均朝着世界模型方向演进,且视频模型有望成为世界模型的核心技术支撑,但可灵现阶段仍将 "AI 影视创作场景 " 作为核心目标。

某种程度上,可灵的产品和模型是分离的。模型在水下,可灵平台作为一个产品才是对外输出的核心。据快手 Q1 的财报会披露,可灵 AI 营业收入主要由 P 端付费用户(指专业的自媒体、视频创作者和广告营销从业者等)以及为企业客户提供 API 服务构成,而其中近 70% 由 P 端付费用户贡献。

这群 " 金主 " 不在乎你是不是 " 世界模拟器 ",也没那么在乎实时性,他们只在乎能不能稳定出片、能不能赚钱。因此可灵外宣称自己是世界模型,似乎除了被挑剔,也没有额外的增益。

但情况迟早要转变。

单纯作为 " 影视创作工具 " 的商业天花板是肉眼可见的,根据此前和 11 月 19 日披露的 Q3 数据,可灵 AI 今年第一季度、第二季度、第三季度的收入分别超过 1.5 亿元、2.5 亿元、3 亿元,全年预计收入 1.4 亿美元,但增速逐渐放缓。

无论是谷歌 Veo3 被用于机器人领域,还是特斯拉利用生成式视频训练自动驾驶,亦或是游戏行业对 AI 引擎的渴求,具身智能、自动驾驶、游戏引擎等领域,才是视频生成模型真正的星辰大海,对模型的物理一致性和实时交互能力也提出了极高的要求。

所以,哪怕对于视频生成模型来说,想要不再只是一个昂贵的玩具或是一个辅助的创作工具,做成 " 世界模型 " 是一件生死攸关的大事。因为只有模拟真实,才能挖动和物理世界交互的金矿。

在今天的 O 系列之后,看起来我们可以期待快手接下来的 "W" 模型了。

参考资料:

[ 1 ] Owl-1: Omni World Model for Consistent Long Video Generation

[ 2 ] A Survey of Interactive Generative Video

[ 3 ] Simulating the Visual World with Artificial Intelligence: A Roadmap

[ 4 ] ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

[ 5 ] SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

[ 6 ] AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

[ 7 ] Monet: Reasoning in Latent Visual Space Beyond Images and Language

[ 8 ] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

快手 nano 物理 李飞飞
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论