作者 | 陈骏达
编辑 | 心缘
智东西 4 月 15 日报道,就在刚刚,可灵 AI 面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型,继续大幅领先业内前沿模型。可灵 2.0 在文生视频领域较 OpenAI Sora 实现 367% 的胜负比,在图生视频领域较谷歌 Veo2 实现了 182% 的胜负比。
与可灵 1.6 相比,可灵 2.0 模型在动态质量、语义响应、画面美学等维度有明显进步。在下方案例中,可灵 2.0 准确呈现了日光从清晨到正午再到傍晚的变化,还使用了延时摄影的风格。
▲右侧为可灵 2.0
可图 2.0 模型在指令遵循、电影质感及艺术风格表现等方面显著提升,色彩和光影更为高级,情绪表达更具感染力,并新增了 60 余种风格化效果。
在本次 2.0 模型迭代中,可灵 AI 还正式发布 AI 视频生成的全新交互理念 Multi-modal Visual Language(MVL),让用户能够利用图像参考、视频片段等多模态信息,将脑海中的复杂创意直接高效地传达给 AI,或是对视频、图像等多模内容进行编辑。
用户可以将视频、图片等作为元素上传,并直接将其嵌入至提示词中。这些元素能在画面内以合乎逻辑的方式组合,进一步提升画面的可控性。
可灵 2.0 系列模型发布即上线,用户现在已经可以在可灵 AI 官网和 App 内免费体验其生成效果。
一、告别慢动作画面,可灵 2.0 语义响应、动态质量与美学全面升级
快手高级副总裁、社区科学线负责人盖坤介绍,自去年 6 月发布以来,可灵 AI 已累计完成超 20 次迭代。截至目前,可灵 AI 全球用户规模突破 2200 万,过去的 10 个月里,其月活用户量增长 25 倍,累计生成超过 1.68 亿个视频及 3.44 亿张图片。
然而,现有的视频生成模型仍存在语义遵循能力差、动态质量不佳等问题,妨碍了创作者表达、控制生成结果的能力。可灵 AI 全系模型进行的本次升级,正是为了解决这些问题。
据快手副总裁、可灵 AI 负责人张迪介绍,可灵 2.0 的升级主要有三方面:语义响应、动态质量与画面美学。
升级后的可灵 2.0 可以更准确地反映人物表情、动作的变化,动作的丰富度、真实性有明显提升。在下方案例中,可灵 2.0 为准确描绘了提示词中 " 手锤桌子起身 " 的效果,而可灵 1.6 并没有完全还原。
可灵 2.0 也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中,可灵 2.0 的生成结果不再是慢动作,镜头表现更加真实。可灵团队还对其生成画面的复杂动作、动作幅度进行优化。
生成大片感的画面对可灵 2.0 来说也不是问题。下方这一画面中,无论是人物奔跑的动作,还是后方爆炸的效果,都十分逼真,角色演绎生动。
可灵 2.0 对时间的理解能力提升,能帮助创作者生成更连贯、更具有故事性、延续性的画面。
图像生成模型可图 2.0 的升级同样是在指令遵循方面。下方这一案例的提示词中具有 " 伺服电机 "、" 机械女神 "、" 壁画 "、" 拉斐尔《雅典学院》的古典平衡感 " 等诸多要素,可图 2.0 的生成结果很好地还原了相关要素,
可图 2.0 能更好地展现提示词中对于色彩、光影的表述,对人物情绪的呈现更具感染力。下方 4 张图片均为可图 2.0 的生成结果,若未经提示,或许许多人都会认为这是某部电影的截图。
二、打造人与 AI 交互全新语言,画面元素定制化更容易了
张迪在发布会现场分享了可灵 2.0 和可图 2.0 能力升级背后的技术创新。
可灵团队为可灵 2.0 采用了全新设计的 DiT 架构,这提升了其视觉、文本模态的信息融合能力。全新设计的 VAE 架构则使复杂动态场景下画面的过度更顺畅,质感更自然。同时,可灵团队还首次系统性研究了视频生成 DiT 架构的 Scaling Law 特性。
在模型训练、推理策略方面,可灵 2.0 在后训练阶段利用了强化学习技术,这提升了其对复杂运动场景、主体交互的生成能力,也强化对运镜语言、构图术语等专业表达的理解与响应能力。
张迪透露,目前可灵平台上高达 85% 的视频生成任务为图生视频任务。由此看来,更强的生图能力也成为创作者所需工具。
此次可图 2.0 的技术创新包括全新升级的文本表征处理链路、全面升级的数据体系和多样性以及全新的提示词工程和去噪策略。
升级后的可图 2.0 会深度思考用户的提示词,其逐步自适应的 Diffusion 去噪策略,可以优化出图细节,提升图像质量。
面向视觉创作者,可灵还推出了视频、图像多模态编辑能力,这些能力基于可灵提出的视觉生成交互理念 Multi-modal Visual Language(MVL)。
盖坤介绍,可灵团队发现,文字不足以向模型准确描述复杂动作、复杂表情等内容,可灵希望定义一种人与 AI 交互的全新语言,让模型能更好地理解人的想象力。
利用 MVL 技术,创作者可以利用视频、图像、文字等多模态信息,定义画面内人物的长相、着装、表情以及画面背景等。
在这一过程中,文本扮演了语义骨架的作用,多模态描述子(MMW)能嵌入这一骨架,扩展描述的完备性、准确性。未来,可灵还计划支持文本 +MMW 动作描述文件,画面角色的运动轨迹也能完全可控。
结语:基础大模型 + 创作工具全栈升级,快手要打造全球第一 AI 视频应用
本次可灵 AI 2.0 的升级,不仅包括基础大模型的能力提升,还有面向创作者日常生产流程的全栈工具优化,盖坤称,可灵 AI 的愿景是 " 让每个人都能用 AI 讲出好故事 "。
日前,在快手 2025 财年电话会议上,快手集团高管也分享了类似的观点,快手认为 AI 对其发展至关重要,将给予坚定、长期的投入,可灵会在技术升级的同时,进行全球市场和品牌运营活动。快手的目标是,将可灵打造为营收规模世界第一的 AI 视频应用。
登录后才可以发布评论哦
打开小程序可以发布评论哦