12 月伊始,可灵 AI 接连放出大招。
全球首个统一的多模态视频及图片创作工具" 可灵 O1"、具备 " 音画同出 " 能力的可灵 2.6 模型、可灵数字人 2.0 功能……
5 天内 5 次 " 上新 ",直接让生成式 AI 领域的竞争 " 卷 " 出新高度。
可灵 O1,从图片到视频,带来更强的 " 可控性 "
可灵 2.0 发布的时候,就创新性地提出过一个全新交互理念—— Multimodal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给 AI。
基于 MVL 理念,在最新的一次迭代中,可灵 O1 将所有生成和编辑任务融合于一个全能引擎之中,为用户搭建全新的多模态创作流,实现从灵感到成品的一站式闭环。
就像 a16z 投资合伙人 Justine Moore 在产品发布后第一时间点评的那样:
我们终于迎来了视频界的 Nano Banana。

以可灵视频 O1 模型为例,它打破了传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于同一个全能引擎之中,使得用户无需在多个模型及工具间跳转,即可一站式完成从生成到修改的全部创作流程。
就像下面这个视频里你能看到的,无论是创作者们 " 头疼 " 已久的主体一致性难题,还是视频画面的可控性问题,都在这次模型迭代里找到了相对完美的解决方案。
在图片生成这件事上,可灵 AI 也创新性地完成了迭代。
最新上线的图像 O1 模型,可以实现从基础图像生成到高阶细节编辑全链路无缝衔接,对用户来说,既可通过纯文本生成图像,也可上传最多 10 张参考图进行融合再创作。
" 音画同出 " 能力也有了!可灵 2.6 模型完成里程碑式迭代
众所周知,可灵拥有一大批忠实的 " 发烧友 "。他们既是产品的深度使用者,也能从功能层面提出自己的见解。
O1 发布之后,就有不少网友排队 " 许愿 " 产品功能,排名靠前的,几乎都在关心可灵什么时候会推出伴随视频画面的语音及音效直出功能。
答案很快就揭晓了。
12 月 3 日夜晚,可灵 AI 接着 " 放大招 ",正式推出2.6 模型。
这次更新中,可灵 AI 上线里程碑式的" 音画同出 "能力,彻底改变了传统 AI 视频生成模型 " 先无声画面、后人工配音 " 的工作流程。
它能够在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,重构了 AI 视频创作工作流,极大提升创作效率。
可灵 AI 海外超级创作者、AI 电影导演 Simon Meyer 制作的这支宣传片,生动诠释了这次可灵 2.6 的能力创新之处:
对于创作者来说,输入文本或是输入图片结合提示词文本,均可直接生成带有语音、音效及环境音的视频。
语音部分,可灵目前支持生成中文以及英文,生成视频长度最长支持 10 秒(据说,更多样的语言体系以及固定声线等功能正在研发中)。
通过对物理世界声音与动态画面的深度语义对齐,可灵 2.6 模型在音画协同、音频质量和语义理解上表现亮眼。
对 " 音画同出 " 能力感兴趣的朋友,可以赶快试试,说不定你会和 Simon Meyer 一样产生强烈共鸣。

密集更新背后,可灵 AI 在下一盘怎样的大棋?
除了全新推出的可灵 O1 及 2.6 模型这两大重磅更新,可灵还在上周相继推出了数字人 2.0、可灵 O1 主体库 & 对比模板等功能,从 AI 内容生成的实际流程出发,带来更加便捷的操作体验。
5 天内 5 次 " 上新 ",功能层面的精进背后,是可灵对于生成式 AI 技术的极致追求。
比如 12 月 1 日推出的视频 O1 模型,就打破了视频模型在生成、编辑与理解上的功能割裂,构建了全新的生成式底座。
融合多模态理解的 Multimodal Transformer 和多模态长上下文(Multimodal Long Context),实现了多任务的深度融合与统一。
根据可灵 AI 团队的内部测评,在 " 图片参考 " 任务上,可灵 AI 对 Google Veo 3.1 的整体效果胜负比为247%;在 " 指令变换 " 任务上,与 Runway Aleph 对比的整体效果胜负比达到230%。

尤为难得的是,作为国产视频生成大模型领域的代表,从 2024 年 6 月正式推出以来,可灵 AI 的每一次迭代几乎都能让业界迎来一次 " 集体兴奋 "。
从早期人们津津乐道的吃面条的案例,到特斯拉创始人马斯克的点赞,再到可灵 AI 这一波 " 批量上新 " 操作,视觉生成技术逐步走向成熟的过程里,可灵 AI 无疑是那个常常唤起共鸣的关键角色。
△X 网友 Min Choi 发布的文章,对比了不同技术能力之下 " 威尔 · 史密斯吃意大利面 " 的经典场景。后者使用可灵 2.6 模型生成,这一次,除了相当出色的视频画面呈现,吃面条时的环境音也能直出了。
在持续引发讨论的同时,能否推进技术的广泛应用落地,也是生成式 AI 平台不得不面对的问题。
数据显示,可灵 AI 目前覆盖的企业用户数超过 2 万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等等诸多领域。
多元的行业客户构成,意味着可灵 AI 必须持续打破技术应用的上限。
就像这次升级的可灵 2.6 模型,可以支持包括说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成,能够广泛地应用于各行各业的实际创作场景中,极大提升创作效率;
再比如数字人 2.0 功能的迭代,对于创作者而言,只需要上传角色图,添加配音内容并描述角色表现,就可以得到表现力生动的 " 自定义数字人 ",更令人兴奋的是,视频内容最长可达5 分钟。
快手高级副总裁、可灵 AI 事业部负责人兼社区科学线负责人盖坤曾在不同场合表示:
我们的初心,是让每个人都能用 AI 讲出好的故事,我们也真切地希望这一天更快到来。
在可灵 AI 年末的这一系列更新中,我们感受到,这一天更近了。
* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见



登录后才可以发布评论哦
打开小程序可以发布评论哦