时代周报 07-26
智谱入局AI生成视频:30秒生成高清视频,瞄准TO C应用市场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来源:时代周报 作者:梁春富

继快手宣布上线自研的视觉生成大模型产品可灵 AI 后,大模型企业智谱 AI 也展示了其在多模态生成式 AI 模型上的研发实力。

7 月 26 日,智谱 AI CEO 张鹏在智谱 Open Day 上宣布,AI 生成视频模型清影(Ying)正式上线。即日起所有 C 端用户,都能通过清影(Ying)体验到 AI 文生视频、图生视频能力。

据其介绍,在输入一段文字后(俗称 Prompt),用户可以选择自己想要生成的风格,包括卡通 3D、油画、电影感等,再配上清影自带的音乐,就可以生成充满 AI 想象力的视频片段。

除了文本生成视频,也可以到清影上图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的照片动起来小程序也会同步上线,只需一步上传照片,AI 就能让凝练在旧时光中的照片灵动起来。

" 本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。在后续版本中,将推出更高分辨率、更长时长的生成视频功能。" 张鹏称。

在生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。" 我们积极在模型层面探索更高效的 scaling 方式。" 张鹏表示:" 随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。"

相较于 OpenAI 早前发布的 SORA,智谱的清影已完全面向 C 端,并提供免费版和付费版两种选择。会上,张鹏表示," 为什么要做多模态这件事,视频生成要放到整个技术和产品发展路线当中来看,我们认为它是 AGI 必须走的路径。"

今年年初时,张鹏曾表示,不止 ToB,C 端智谱也会去做,但目的比较明确,把闭环做起来,给未来也留下一个可能性。他判断,TO C 应用可能未来也是一个要爆发的点。

清影是继智谱清言 APP 上线后的又一大 To C 应用,也意味着智谱正式切入 AI 视频生成市场。

此前张鹏接受时代周报记者采访时曾提到 Sora 的技术力,他指出,Sora 的主要技术思路是用视觉块编码(Visual Patch)的方式,把不同格式的视频进行统 一编码,然后用 Transformer 架构进行训练,并引入类似 Diffusion 的 Unet 方式做在降维和升维的过程中做加噪和去噪。之前的基于 Diffusion 的模型,特别是把 Stable Diffusion 微调成视频生成的模型,基本上都有着 " 闪烁 "(帧间细节跳变)的问题,张鹏称,"Sora 细节设计很合理,解决了这个问题。"

张鹏表示,Sora 另一个特点是高分辨率:视频常见的一个问题是 H*W*T 长度太长,导致分辨率不够高或者需要分层,Sora 直接生成了高分辨率(1080p)的图像。 Sora 可以生成语义丰富的长达 60s 的视频,这说明训练的序列也比较长,训练时候的窗口至少也得有 5s+。从展示出的较短样例分析,可能训练的长度为 7-8s。另外,OpenAI 还使用了基于重要性采样的生成式训练以及虚幻引擎生成一些特定的数据来补充一些 OOD 的情况,例如长程关联等。

智谱 AI 一直在多模态领域大力投入,有长期的技术积累,从 2021 年开始,先后研发了 CogView(NeurIPS ’ 21)、CogView2(NeurIPS ’ 22)、CogVideo(ICLR ’ 23)、Relay Diffusion(ICLR ’ 24)和 CogView3(2024)。

" 实现全系列产品矩阵对标 Open AI 是我们大模型系列产品布局的一贯目标,多模态模型在其中扮演着重要角色,也始终是我们的研究重点。" 张鹏称。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 快手 小程序 分辨率 短视频
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论