极客公园 昨天
人人都能当电影导演?万相 2.6 杀疯了:角色扮演、分镜控制,硬刚 Sora2
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者|Cynthia

编辑| 郑玄

还记得国庆期间朋友圈被 Sora 2 APP 支配的恐惧吗?

那时候,一定没人想到,这个出场即炸场的产品,同样出道即巅峰。

向来以天为单位不断刷新 sota 表现的大模型市场,唯独在视频生成上,此后足足两个多月,无论是谷歌 veo3.1 还是 Runway 推出的模型,都没能再现 Sora 2 在多人物不崩脸这个小细节上的稳定表现。

直到 12 月 16 日阿里万相 2.6 正式发布。在追齐 Sora 2 体验,并且推出独有的音频驱动生视频能力之外;万相 2.6 的这次升级更是将视角对准了多模态内容创作中多镜头切换、内容一致性的各种真实痛点,做到了让专业创作的乙方少加几次班,普通的 C 端内容创作爱好者 0 成本上手。

那么万相 2.6 体验究竟如何?它能否和 Sora2 一战?一定程度上,回答了这些问题,也就回答了未来多模态大模型究竟去往何方的核心命题。

01

万相 2.6 究竟做对了什么?

12 月 16 日,阿里旗下万相 2.6 正式发布,我们第一时间拿到了内测资格。

我们发现,这个涵盖文生视频、图生视频和角色扮演功能,图像生成和文生图共 5 款模型的组合拳产品,从功能亮点和功能丰富度角度来看,万相 2.6 已经是当之无愧国内的佼佼者 , 根据权 威大模型评测集 LMArena 的测试数据显示,万相图生视频位居国内第一 。

因为相比老对手 Sora 通过写实生成效果引发全球轰动的野心;万相这次 2.6 版本的能力升级其实主打就一个词,实用,并且把所有升级点砸向了影视制作、广告设计、短视频创作的真实痛点。

内容创作圈最头疼的,莫过于一致性崩塌。在传统动画行业,吉卜力工作室为了保证角色形象不跑偏、风格一致,会为了一部电影,几百位画师耗时两年画十几万张画稿,4 秒镜头能磨 1 年。而 AI 生成的噩梦,恰恰是前一秒主角还是圆脸,下一秒变成锥子脸,说话时嘴型和台词完全脱节。

针对这个痛点,万相 2.6 这次升级直接把声画一致性拉满,成为国内首个支持角色定制 + 音色同步的模型 :用户输入一段视频,AI 就能精准复刻角色的五官、动作甚至说话语气,就算是双人合拍,也不会出现脸飘到别人头上、镜头切换主角直接变脸的乌龙。

解决了一致性,下一个拦路虎是复杂场景的多角色呈现。

目前 Sora 2 与万相 2.6,是全球唯二实现该功能的模型。并且,万相 2.6 还能结合刚才提到的角色、声音一致性能力,让 AI 真正具备了一定的复杂画面生成能力。

而建立在一致性、多角色的基础之上,镜头调度和灯光审美往往是人类高质量视频内容的灵魂。

被奉为经典的宫廷剧《金枝欲孽》片头,导演通过一段不到 5 秒的镜头切换里,以及演员站位的变化,就说明了五个主要人物之间的关系与感情纠葛,二十多年过去,至今仍被奉为神级镜头调度。

王家卫电影的氛围感与幽微的人物情绪流动,也有一半功劳要归给灯光师的精准控光。

但以前 AI 生成视频,要么镜头衔接生硬,要么角色突然瞬移,上一镜在左边,下一镜直接出现在右边,更不用提各种精美的打光,以及氛围的塑造。

万相 2.6 的「智能分镜调度」很好地解决了以上问题,通过支持「总体描述 + 镜头序号 + 时间戳 + 分镜内容」的公式化输入,比如「第 1 镜 [ 0-3 秒 ] 远景推近,第 2 镜 [ 3-5 秒 ] 特写」,AI 不仅能严格执行,还能保证跨镜的场景、角色、氛围统一,再也不会出现「上一镜穿红衣,下一镜变蓝裙」的低级错误。

其实,万相早从 2.2 版本起,就已经能通过精细的灯光控制、环境细节呈现,支持日光、月光、硬光、柔光等精细调节,让 AI 生成的内容从「能看」升级到有「审美」,具备专业级内容生成能力。

光说不练假把式,我们带着挑刺的心态实测了整整三天,从角色定制到多镜叙事,从视频生成到图片创作,摸清了它「让人人皆可做导演」的真实水平,以及 技术 demo 与生产级工具之间的差距。

02

视频能力实测:

人人都能生成神级镜头

过去很多行业测试,为了保证效果,经常会让 AI 生成一些无声视频,或者画面简单的动画风素材,再或者干脆就是一个几乎静止的背景中,只有一个小幅度动作的简单运动主体(甚至都不敢把主体设置为人或者动物这样有复杂肌理和动作的形象)。

这次对万相 2.6 的测试,我们不搞虚的,把一致性、多镜头、音画同步、长视频、审美,这些真实行业痛点、难点全都测一遍。

测试一:多镜头叙事

一直以来,多镜头叙事都是电影高级感的核心来源之一。这里我参考《哪吒》的画风,给了一段复杂场景、多主体的多镜头切换的提示词:

镜头一:低角度远景,镜头快速推进 3s

画面内容:仙境般的云端建筑群在云雾中若隐若现,一群白鹤自左向右舒展翅膀,掠过层层楼阁的屋檐

视觉效果:叠加中强度动态模糊,伴随轻微追焦微颤,焦点锁定鹤群与建筑轮廓

镜头二:中近景中速推进 + 追焦微颤 3s

画面内容:近距离捕捉白鹤羽翼贴近檐角的流畅轨迹,镜头紧跟鹤群运动方向。视觉效果的动态模糊逐渐减弱,追焦微颤幅度保持轻微,强化画面衔接感

镜头三:无缝转场,特写,镜头恒定不动 0.3s

画面内容:白鹤羽翼擦过最外侧屋檐翘角的瞬间,以檐角硬轮廓完全遮挡画面。无额外特效,保留自然光影,确保转场干净利落

镜头四:主体聚焦,从近景→特写,镜头缓慢推近 3s

画面内容:转场后聚焦檐角顶端,橘猫端坐舔爪(近景),随后推至特写,呈现舔爪细腻动作与毛发质感。画面清晰,焦点全程锁定橘猫

镜头五:特写变中近景中速推进 + 追焦微颤 4s

画面内容:橘猫被打扰,停止舔毛,看了一眼镜头后,跳下屋檐,动作轻巧,追焦微颤幅度保持轻微,强化画面衔接感。

这里的难点在于:首先是画面足够复杂,画面中主体来回切换,从飞翔的白鹤到舔毛的橘猫,再到跳下屋檐的橘猫,而伴随主体的动作变化,镜头也在同步于远景 - 中景 - 特写 - 中景中来回切换。

可以看到,生成的视频里,生成的视频里,《哪吒》式的东方写意美学被精准落地:云雾是渐变的水墨质感,云端建筑的飞檐翘角带着古风的韵味。白鹤运动的镜头即使高速推进没有丝毫卡顿,动态模糊恰好放大了闯入仙境的沉浸感;后续橘猫舔爪的毛发细节栩栩如生,镜头也会随着橘猫的眼神变化而出现画面的移动。

最难能可贵的是,三次大的镜头切换(白鹤→舔爪橘猫→跳檐橘猫)没有出现任何突兀感:鹤群的飞行轨迹是天然的视觉引导线,檐角转场是承上启下的视觉桥梁,橘猫的动作变化则成为镜头运动的点睛之笔。整体完全复刻电影级无缝衔接,没有任何卡顿或脱节。

测试二:长视频 + 审美

一直以来,AI 生成视频都不难,但生成稳定、漂亮、可用的长视频却一直是困扰依旧的痛点。

万相 2.6 支持最长 15 秒生成(角色扮演功能 10 秒),这个时长看似不长,但刚好戳中核心场景:短视频场景,15 秒是黄金时长、广告片场景,30 秒广告可拆成 2 个 15 秒片段、而在短剧片段,10-15 秒就能完成男主歪嘴一笑、龙王归位,一众吃瓜群众从白眼鄙视瞬间切换惊恐讨好的爽剧经典套路。

这里我们测试一个专业服装拍摄的商用级场景,提示词如下:

镜头一:0-3 秒,中景→近景。林间光斑透过树叶洒落,美女身着米白色棉麻长裙,缓步走在铺满落叶的小径,裙摆随步伐轻晃 暖调柔光,画面静谧,聚焦棉麻面料的垂坠感,轻柔风声、树叶沙沙声

镜头二:3-7 秒,特写→中近景。风拂过,特写衣角翻飞的弧度,棉麻纹理清晰可见;镜头拉回,松鼠蹲在她脚边啄食。自然光影,无多余特效,突出面料透气飘逸。风声渐柔,加入轻微呼吸声

镜头三:7-12 秒,近景→特写。美女抬手轻拂额前碎发,笑容舒展,小鹿从林间探出头,与她对视;镜头聚焦面料贴肤的舒适状态画面柔和,焦点在面料与人物神态之间切换 , 背景音渐弱,预留口号空间

镜头四:12-15 秒,中景定格。美女站在林间转身,裙摆随风轻扬,小动物环绕身旁,画面定格在面料飘动的瞬间 暖光渐变柔和,画面干净治愈。背景音清晰女声:「好面料,会呼吸」。

这里的难点在于,除了美之外,棉麻质感难还原纤维肌理,还要考虑自然垂坠与光影通透感,否则容易显塑料感,此外,画面中的小动物互动增加了整体画面复杂度,而森林光影也需要在光斑、光线折射等细节做到真实且有美感。

行业人都懂,过去这种级别的画面,以前要找外景、模特、灯光师,拍摄 + 后期至少 3 天,现在用万相 2.6,输入提示词几分钟生成,直接能当成片交付。

此外,值得一提的是,万相 2.6 除了生成的视频质感高,操作门槛还极低。写出以上专业级分镜脚本,其实只要按照官方给出的【总体描述 + 镜头序号 + 时间戳 + 分镜内容提示词】指令指引,就能实现智能分镜调度功能。而这种能精准控制每个角色的动作顺序和画面镜头调配的能力,在短视频剧情创作、IP 衍生内容生产中简直是降维打击。

测试三:基于参考视频的人物,搞定人物一致性 + 音画同步。

这里我选用的输入素材是一段林黛玉的特写,以及模版中已有的关羽形象,来一段名著大乱炖。

提示词如下: 暮春清晨,隆中茅庐外竹林青翠,薄雾如纱,屋内隐约传来抚琴之声。镜头先以全景定格——诸葛亮身着月白道袍,临窗而坐,指尖拨弄琴弦,琴声悠扬;

镜头突然切换为快速跟拍,@ 关羽走进柴门,镜头推进至中近景,大步流星到诸葛亮面前,,说「我回来了了」

镜头随着诸葛亮的眼光移动横切,@ 林黛玉 中近景缓缓入画。特写中眼眸流转着几分嗔怨与疏离:「早知他来,我便不来了。」

最终镜头切回诸葛亮收尾。

这里的难点在于:我给出了两个需要参考的主角,以及一个没有任何参考只有文字描述构建的诸葛亮形象,并且每个主角都多次引用在提示词不同位置,需要 AI 保持一致的情况下,精准控制主角行为。

可以看到,借助模态联合建模能力,万相 2.6 生成的视频里,时序动态(比如关羽的走路姿势)、情绪变化(比如林黛玉嗔怪的神情)全都和参考视频几乎一致,最惊艳的是:人物的嘴型和台词严丝合缝,声音质感没有半点 AI 塑料感。

另外,相同的人物角色,我又尝试直接给 AI 一段参考的黛玉的声音,让它自主生成视频,可以看到,我把背景音乐以及黛玉的语气改变之后,她整个人的神态也会随之变得生动活泼,并且口型与声音完全匹配。

而这段视频里,对比 Sora2,万相 2.6 的差异化优势也很明显:前者虽然支持长视频,但缺乏音频驱动生视频的功能,你没法让 Sora2 参考一段人声,生成对应角色的说话视频。而万相 2.6 直接把声音 + 画面绑定的能力,对于广告片、短剧、虚拟人直播等商用场景来说,实用性直接拉满。

03

图像能力实测:

设计圈的效率革命来了

如果说万相 2.6 的视频功能已经有了初步踏足专业影视圈的能力,那其图像能力可以说已经足以精准拿捏设计圈。

图像层面,万相 2.6 的核心升级,都围绕商用级展开:解决企业用户最关心的图文一体化排版、多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制等细节。

我们用两个真实商业场景做了实测,结果发现:以前需要设计师、插画师、排版师协作一周的活儿,现在一个人用万相 2.6 输入指令,几小时甚至几分钟就能搞定,而且细节精准到可以直接商业交付。

测试一:基于多张图片的图文混排

过去,内容创作圈的三重折磨在于:写文案的不懂设计,做设计的不懂文案,排版的夹在中间反复拉扯。比如出版社做绘本,要找作家写故事、插画师画配图、排版师调格式,三者风格要统一、内容要契合,光沟通修改就要耗半个月。

现在用万相 2.6,只要写这样一段提示词:

创作一本关于环保的儿童绘本,插画风格为治愈系水彩风,色彩以蓝白为主,每页插画要和文字内容精准对应,整体风格统一。故事内容:1、在遥远的北极,小北极熊乐乐发现冰面越来越小;2、乐乐遇见了迷路的鲸鱼,鲸鱼告诉它「人类在保护地球」;3、乐乐决定到处走走看;4、一年后,乐乐回到家乡,冰面变宽了,还多了很多小伙伴。

提示词背后的难点在于考验 AI 的逻辑理解 + 设计统筹能力:①要先拆解长文本的叙事结构,4 个段落之间剧情不能张冠李戴;②要保持插画风格、色彩、角色形象的高度统一,不能第一页是圆耳朵,第三页变成尖耳朵。

可以看到,生成的绘本不仅风格、色彩、角色完全一致,就连提示词中没有写到的文字意境也做了精准表达,比如第一页的小北极熊站在破碎的冰面上,眼神迷茫;第四页的冰面宽阔,小伙伴一起玩耍,氛围温暖。

而这也意味着,不管是绘本创作、公众号推文还是知识付费课件,后续都能实现文案输入→成品输出的一步到位,省去了找图 + 修图 + 排版的全流程,效率提升至少 10 倍。

测试二:商用级一致性 + 多图创意融合

过去,品牌方的物料噩梦在于,真人拍摄,经常因为各种情况耽误拍摄进度,需要场地加钱、模特加钱、各种设备重新报批申请;而用 AI 批量生成宣传图,AI 又像在开盲盒,只是想把产品图、背景图、参考风格图融合成一张海报,也会出现产品比例失调,背景和风格割裂,严重影响品牌识别度的问题。

针对这些,我们设计一段针对性测试。提示词: 生成美妆品牌宣传图,要求:①核心产品为上传的口红(参考图 1),保持产品外观、logo、包装细节完全一致;②融合上传的花的照片(参考图 2),背景为花瓣飘落的场景;③产品垂直摆放在画面中央,周围散落 3-5 朵花,花瓣纹理清晰;④色调光影有大片质感。

生成一张之后,我们再要求其搭配一个模特,试用产品。

提示词背后的难点在于,让 AI 同时实现精准控制 + 创意融合的双重考验:既要要确保产品的外观、logo、包装细节在两张图里分毫不差(这里我专门选择了 YSL 这样的复杂 logo,并且 YSL 的口红膏体为相对少见的方形,其他 AI 在生成时,很容易把膏体变成常见的圆形);还要保证多图融合难在要把产品图、背景图、风格图有机结合,不能让产品像贴在背景上。

可以看到,生成的两张宣传图直接达到商用级标准。不仅所有要素之间也融合自然,并且做到了花朵背景和大片风格完美衔接完全不抢戏,主体产品突出,甚至金属包装会反射花瓣的光影这样的细节都做到了完美还原,毫无 AI 的痕迹。

这对品牌方来说,这意味着「一次设定,无限复用」,不仅可以做无限的创意搭配,还能保证品牌形象的统一性,效率革命近在眼前。

04

尾声

当然,万相 2.6 不是完美的。我们实测中发现几个小问题:比如视频最长只能 15 秒,对于需要长叙事的场景还是不够;非常复杂动作,比如翻跟头 + 复杂舞蹈动作,偶尔会出现肢体变形。但这几乎也是全行业目前亟需解决的问题。

但万相 2.6 乃至 Sora2 们微小的不足,掩盖不了一个行业真相:AI 视频生成正在从技术炫技进入落地加速阶段。AI 带来的,本质上是对内容创作生产关系的重构:不仅有大量专业影视制作平台在用 AI 制作漫剧、短剧,社交平台更是涌现了一批博主用 AI 制作的小猫打架、小说动画小短片在各种平台爆火。

基于万相 2.6 模型核心能力,千问 APP 上线「AI 小剧场」玩法,国内首次实现「角色合拍」能力,用户可与朋友或名人轻松同框出演 AI 短片。

而在这一过程中,人类只需保留想象力、审美以及创意,而剩余的执行细节,可以全部交给 AI。

这一次,有创意,就能人人当导演的时代真的来了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 阿里 谷歌 一战
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论