智东西 08-11
猫咪也能“123上链接”!超强数字人模型SkyReels-A3来了,人人皆可零帧起手玩转直播带货
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 漠影

智东西 8 月 11 日报道,昆仑万维 SkyWork AI 技术发布周今日正式启动。在持续 5 天的活动中,昆仑万维将每天发布一款新模型,音频驱动视频生成数字人模型 SkyReels-A3 作为 " 第一弹 " 率先亮相,后续还将发布世界模型、生图一体化模型、智能体(Agent)模型及 AI 音乐创作模型。

当下市面上的数字人层出不穷,但因机械感、AI 味儿重等问题广受诟病。SkyReels-A3 直击数字人行业痛点,生成的视频 " 真人感 " 肉眼可见,几乎看不出来 AI 痕迹,支持多种精细动作及运镜方式,而且生成时长 " 感人 ",超 60 秒保持完全顺畅一致。

比如,下面这个视频,你能看出完全是我们用 SkyReels-A3 在几分钟之内一次生成的吗?

基于 SkyReels-A3 生成的小猫带货视频(源自:智东西)

在昆仑万维公布的初步人工测试中,Skyreels-A3 对于面部和主体的稳定性、口型同步、动作自然性等方面都取得了最好的效果,堪称 " 五边形战士 " ——这些能力满足时下热门的数字人直播的业务需求,人人 0 门槛自创数字人开直播的时代真的来临了!

在定量评估中,Skyreels-A3 在不同的音频驱动场景的大多数指标上,超越了先进的开源模型 omniavatar 和闭源模型 omnihuman 等方法,达到该赛道多项测评的 SOTA(行业最佳)的水准。

当下,SkyReels-A3 已经面向所有人开放可用,智东西第一时间进行了实测。

在试用体验后,智东西的真实感受是:这款模型堪称 " 魔法 " 级别,准确和自然度、画质及动感、时长都让人眼前一亮。而且,从输入所需的图片、文案、音频到最终生成的视频,智东西基本都采用昆仑万维的大模型及 Skywork Super Agent 来生成,从而体验到了 " 从 0 到 1" 的创作快感。

不得不说,今天的生成式 AI 已经是 Next Level 了。

一、不止于 " 对嘴型 ",表情动作达 " 真人级 "

昆仑万维的团队观察到,当下音频驱动的人像视频生成技术已经显著进步,但在自然的环境互动、长时间高质量生成以及执行精准复杂指令等方面,仍难以胜任。

为此,其最新模型 SkyReels-A3 针对这些问题进行了优化。

用户输入一张照片、一条音频以及一句提示词,SkyReels-A3 就能输出如以下视频中的真人级的直播卖货视频。视频中,金发碧眼的女主播在讲解手中的防晒霜,防晒霜自然地晃动,背后艳阳高照、泳池水光波动,真实感很强。

基于 SkyReels-A3 生成的主播卖货视频(源自:昆仑万维)

实测效果如何?智东西从多语种口型同步、手部动作自然度、表情动作与场景贴合度、动态运镜控制、长视频稳定性、多风格多主体等方面,对 SkyReels-A3 的视频生成效果进行了实际体验。

如果我不说,相信大多数人看到下面的视频后都会惊讶:这些视频都是 AI 生成的?没错,从文案、角色、声音到最终视频,都是 AI。

实测 1:多语种口型同步。智东西输入了中文、中文方言粤语、英文 3 种语言的音频片段(各 30 秒),以及三张不同肖像图,生成了三个数字人视频,合而为一呈现。可以看到,视频中的人物的表情稳定,不同语种发音的嘴部运动自然连贯,口型与语音精准匹配。

基于 SkyReels-A3 生成的女性宣言视频(源自:智东西)

实测 2:手部动作自然度。开篇智东西展示了生成的猫咪卖货视频,现在当我把输入的照片换成 AI 生成的人物肖像,只见视频生成也十分声脸贴合。更重要的是,手指生成正常且动作流畅,没有出现 " 六个手指 " 这样的恐怖谷效应以及重影现象。

基于 SkyReels-A3 生成的男子带货视频(源自:智东西)

此前 7 月,多家媒体报道,从 Grok4 到 OpenAI o3 等顶尖 AI 都数不清六根手指,引发人们关注。SkyReels-A3 则在本次实测生成的多个视频中都避开了这个 bug。这种能力对广告主播等业务场景非常重要,因为他们经常需要手部和物品交互来达成商品成交。

实测 3:表情动作与场景贴合度。首先是一个演讲场景的案例,当我输入一个演讲场景的图片和对应音频,SkyReels-A3 似乎理解了这一场景的设定,生成视频中的女孩自信地进行演讲,并时不时向左下角看稿子,符合场景设定。

基于 SkyReels-A3 生成的演讲场景视频(源自:智东西)

下面这一视频设定的场景为演唱会 MV,可以看到生成视频中小姐姐专注演唱,状态 " 女团 " 活力十足,作为虚拟偶像立马出道也不为过。而这一视频生成仅仅花了 1 分钟不到,加上照片和歌曲生成前后也不到 10 分钟。

基于 SkyReels-A3 生成的 MV 场景视频(源自:智东西)

实测 4:动态运镜控制体验。首先看一个昆仑万维的官方 Demo,镜头呈现了下降的动态运作,让旷野中的男士逐渐逼近,展现出磅礴的大片感。

基于 SkyReels-A3 生成的下降镜头视频截取 gif 片段(源自:昆仑万维)

智东西对案例难度进行了升级,输入一张带有两个人的照片,并输入了一小段音乐音频,以及 "push in,女孩看向前方唱歌,男孩开心地看向女孩 " 文字指令,SkyReels-A3 为我生成了一段采用了运镜技巧的视频。

基于 SkyReels-A3 生成的拉近镜头视频(源自:智东西)

从视频效果来看,镜头的推进比较平滑,视角变化符合指令。不过,两个人的嘴型隐约看到都在跟着动,与只要求女孩唱歌的提示指令略有出入。

据悉,昆仑万维研发团队目前预设了 8 种常见的运镜参数,包含 : 固定镜头(static ) 、推镜 (push in)、拉镜 (push out)、左摇(pan left)、右摇(pan right)、抬升(crane up)、下降(crane down)和手持镜头(swing),用户可以根据需要选择相应运镜,并且每个运镜的强度可 0 – 100% 连续调节。

实测 5:长视频稳定性效果。下面这是一段围绕 "《悉达多》与内卷还是躺平 " 主题生成的长视频,时长接近 1 分钟,画面没有出现崩坏、闪烁或人物变形,动作、表情也比较连贯。

基于 SkyReels-A3 生成的长视频镜头视频(源自:智东西)

当前市面上的模型主要专注于生成 3-5 秒的短视频,但这对于广告、直播带货等实际应用场景还不够,1 分钟以上长视频稳定生成解决了市场的需求痛点。虽然 SkyReels-A3 视频生成长度仍然有限,但已经超出大多竞品,通过多段视频组合的方式,可以在保证时长的同时实现更精准控制。

实测 6:多风格多主体效果。为了体验不同风格生成,下面这是智东西用 SkyReels-A3 生成的一段 3D 卡通动漫视频,画面中的小松鼠声情并茂地在讲述它的经历,活泼而富有童真,这或许在儿童教育场景有可观的商用价值。

基于 SkyReels-A3 生成的多风格主体视频(源自:智东西)

基于上述体验和案例鉴赏,我们认为音频驱动数字人可想象的落地场景大大扩展了,包括虚拟偶像、虚拟人直播、线上教师、面试官数字人、游戏助手等,SkyReels-A3 生成的数字人都将能够胜任。

在体验的过程中,最令我震撼的还是从文案、音频、图案到视频的全链条 AI 生成。每一步都只需要一个头脑中的点子以及鼠标键盘简单操作,到最后一步视频生成 " 集大成 ",或许只要几分钟,而且免费。这不禁让人赞叹:内容生产者的 " 创造力爆发 " 时代真的要来了。

二、横扫开闭源 SOTA,人工测评 " 五边形战士 "

魔法般的生成效果背后,是昆仑万维 AI 视频大模型技术的又一次迭代。

目前,Skyreels-A3 的性能通过广泛的实验进行了验证,包括现有最先进模型(开源和闭源)的定量和定性比较,多项指标实现了 SOTA(行业表现最佳)。

据悉,在定量评估中,Skyreels-A3 在不同的音频驱动场景的大多数指标上,超越了先进的开源模型 omniavatar 和闭源模型 omnihuman 等方法。

Skyreels-A3 定量测评情况

其尤其是在唇形同步(sync-c)方面表现出卓越的性能。同时,研发团队引入了 step 蒸馏,采用了更少的步数 (40 步减少为 4 步),效果几乎没有损失。

在人工测试中,Skyreels-A3 对于面部和主体的稳定性,动作自然性都取得了最好的效果,同时在口型同步和人脸取得最好比较接近的结果,可以说是一个 " 五边形战士 "。

Skyreels-A3 人工测试情况

右图则是对于 retalking 进行了评测,结果显示音画同步和视频质量都有明显的优势。

在定性分析中,Skyreels-A3 模型在不同的应用场景中与 OmniHuman、OmniAvatar、HunyuanAvatar 等主流模型对比,都取得了不错的生成效果。

据悉,Skyreels-A3 生成的视频,视觉伪影(手部和动作扭曲)比较少,整体视觉质量更高,画面更加自然。同时,对于半身复杂交互场景表现也更加优秀。

三、基于 DiT 视频扩散模型,破解累计误差痛点

当前数字人生成技术尚未达到市场要求的精准度。 以直播带货为例,大量数字人主播在讲解口红时,口型难精准匹配,拿起口红时手部动作僵硬或 " 穿模 ",运镜呆板使得展示效果大打折扣,也难以长时间不卡顿跳帧 ……

市场迫切需要更精准的 AI 视频生成能力——能实现跨场景精准口型同步、稳定长时输出、更自然的交互生成和增强艺术化的运镜控制。 昆仑万维的 Skyreels-A3 正是瞄准这些核心痛点。

自 2024 年起昆仑万维就推出 AI 视频模型 SkyReels,而后瞄准电商直播等典型落地方向迭代模型。其本次推出的 Skyreels-A3 模型基于 DiT(Diffusion Transformer)视频扩散架构,架构能有效建模长时序依赖关系,擅长处理时间很长、前后关联紧密的视频内容,让生成的视频前后画面连贯、有逻辑;

同时 Skyreels-A3 引入 3D 变分自编码器(3D-VAE)进行隐空间表征学习,在此空间内完成生成任务。这相当于把视频压缩成一个更小、更精炼的 " 核心版本 ",就像把一部电影压缩成一个很小的精华文件;然后在这个压缩后的 " 核心空间 " 里进行主要的视频生成工作,从而显著降低扩散模型计算复杂度,同时确保关键视觉特征的完整性。

Skyreels-A3 模型采用 DiT 架构

如何生成高一致性的长视频?传统的延展方法由于生成误差的累计,容易造成画面逐渐崩坏。这就如同 " 走钢丝 ":依赖逐帧生成时,每一帧的微小误差持续累积,导致画面从细节失真逐步演变为全面崩坏——就像反复复印的图纸,最终模糊成一团墨迹。

昆仑万维研发团队采用全新的对齐训练策略来进行视频延展。通过历史帧提供连续信息和参考图提供画面一致信息,如同架起一座稳固的桥梁支柱,来减少误差累计,从而消除画面崩坏,持续地生成连续且画面不崩坏的分钟级别的长视频。

Skyreels-A3 基于插帧模型来进行视频延展

在手与物品的交互方面,研发团队针对手部动作自然度和清晰度,构造了针对线上直播等场景的数据,并采用了不同 seed 和训练过程 checkpoints 来生成大量候选,从而让手上动作更自然和符合物理规律。

此外值得一提的是,为了让镜头语言更加灵动,研发团队构造了一种基于 ControlNet 结构的镜头控制模块,通过精细化镜头参数的输入,实现帧级别精准运镜控制。

具体来说,这就好比给数字人所在场景做一个 "3D 深度扫描 ",镜头控制模块提取参考图的深度信息,配合相机参数,渲染目标运镜轨迹的参考视频。而后 AI 就能生成运镜示范视频当模板,让数字人视频逐帧复刻电影级丝滑的运镜效果。

结语:AI 视频生成走向精细化竞赛,加速产业落地步伐

当下,AI 视频生成正深入表情与物理交互的微观战场,昆仑万维 SkyReels-A3 以唇动毫米级同步、符合动力学的肢体交互、长视频零崩坏等优势突破精准卡位,推动视频生成大模型迅速走向产业化。

昆仑万维在 AI 生成视频领域的积累由来已久。早在 2024 年其就开始布局,而后相继开源中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及全球首个无限时长视频生成模型 SkyReels-V2。

此次推出的 Skyreels-A3 则聚焦数字人赛道,展现了 " 技术到生产力 " 的强大穿透力,有助于视频生成模型应用到直播、电商、教育、广告等多个领域。

作为昆仑万维技术周首发成果,SkyReels-A3 不仅为数字人领域立标,更预告着 AI 视频生成将引爆内容产业效能革命,才刚刚开始。昆仑万维技术周还有更多更新,我们将持续关注。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论