
智东西
作者 | 陈骏达
编辑 | 李水青
智东西 2 月 11 日报道,今天,陆续有不少用户发现,字节跳动已在旗下 AI 助手 App 豆包内开启视频生成模型 Seedance 2.0 的灰度测试。
用户只需打开豆包,点击下方的创作按钮,进入视频生成功能后,已被纳入灰度测试的用户就可看到模型 2.0(Seedance 2.0)的选项。
自 2 月 7 日在即梦等平台灰度上线以来,Seedance 2.0 就让整个 AI 视频圈炸了锅。
《黑神话 · 悟空》背后的游戏科学创始人兼 CEO、制作人冯骥在体验后 Seedance2.0 后,盛赞该模型为 " 地表最强 ",并判断道:"AIGC 的童年时代,结束了。"a16z 的合伙人 Justine Moore 则感叹道:"AI 视频模型的图灵测试已经被攻克了。" 一位学习了 7 年数字电影制作的网友在体验后说,这个模型让他感到害怕,他所学习到的 90% 技能,Seedance2.0 都能实现。
过去,往往是国内用户费尽心思去体验国外的 AI 工具,而这次,Seedance 2.0 作反而成为海外网友 " 争相体验 " 的对象。
由于该模型在部分国家和地区尚未开放,不少海外网友在社交平台频频 " 催上线 "、询问开放时间;还有人专门制作了详细教程,分享如何通过中国手机号完成注册,并一步步体验 Seedance 2.0 的完整流程。

Seedance 2.0 上线豆包 App 后,智东西也第一时间进行了体验。我们尝试了从日常场景到超现实场景的多种创作,发现模型对复杂提示词的理解能力明显增强,同时音画同步和视觉效果的呈现也更自然,较字节的上一代视频生成模型,实现了可感知的大幅提升。
一、实测长提示词指令遵循,高难度乐器演奏、超现实场景也能还原
据字节官方技术文档,Seedance 2.0 在物理规律、动作表现、指令遵循等领域均有明显提升,还支持了图像、视频、音频、文本四种模态输入,这意味着用户能以更多的方式控制模型的输出,满足创作需求。
不过,目前在豆包 App 中,Seedance 2.0 暂时仅支持文本和图像两个模态的输入。每个用户每天可以获得 200 视频生成积分,而用 Seedance 2.0 生成一个 10 秒的视频,需要耗费 20 积分,也就是说每个人可以体验 10 次。
我们的首个测试案例是长文本提示词输入,下方提示词精确定义了画面里的主体、动作以及音效,看看 Seedance 2.0 能否准确还原。
提示词:突然,前方街角的阴影里,一只漆黑的猫像一道闪电般窜出,身形轻盈而敏捷。女孩被吓得微微后退一步,雨水顺着帽沿落在她的肩膀上,溅起一圈细小水花。镜头侧面缓缓跟随,捕捉她的手伸出,试图轻轻触碰黑猫。猫的耳朵微微竖起,眼睛在昏黄路灯下闪着绿光,它轻巧地一跃,仿佛带着夜色消失在湿漉漉的街道深处。
女孩愣了一秒,低头看着自己微湿的手指,嘴角悄悄上扬,露出一丝忍俊不禁的笑意。她轻轻摇摇头,雨伞下的脸被灯光映出温暖的光晕。随后,她重新调整步伐,撑开雨伞,加快了前行的脚步,雨水拍打伞面的声音伴随着她鞋底溅起的水花,融入夜晚街道的喧嚣中。
音效提示词:猫叫声轻响,随即消失;雨点拍打伞面滴答作响;远处偶尔传来汽车轰鸣声和脚步声,街道弥漫湿润气息。
在大约等待了 30 秒后,豆包向我们发送了生成结果。提示词中描述的几个关键动作都在视频中得到了呈现,同时,画面中人物的衣着、样貌在不同的镜头中都保持了一致,视觉效果比较稳定。
音效方面,Seedance 2.0 的配音与画面内容调性一致,而像是猫叫声、脚步声这些声音则与画面内容匹配,基本实现了音画同步。
美中不足的是,对于 " 雨水顺着帽沿落在她的肩膀上 " 这部分的描述,Seedance 2.0 未能还原。平心而论,液体的渲染对大多数视觉生成模型来说还是较为困难的。
紧接着,我们又尝试了一个涉及音画同步的高难度场景:乐器演奏。此前,在我们的体验中,大部分视频模型都无法准确地将音乐与画面的演奏动作同步,要么节奏对不上,要么手指动作与音符不符,要么整体演奏显得生硬、不自然。
Seedance 2.0 拿到的提示词如下:
街头音乐表演,鼓手敲击节奏、吉他手弹奏旋律,观众随节奏轻拍手,音乐是拉美风格。
Seedance 2.0 的生成结果可以说是较为惊艳的,在音乐风格上,它满足了我们的 " 拉美风格 " 限定词,背景中的人物、建筑风格也符合拉美风的要求。
乐器演奏方面,鼓手的桶鼓轮奏动作与音乐的鼓点,基本达到了 8 成的契合度,这要比我们之前测试的字节视频生成模型好得多。
而在吉他手的演奏中,画面中手部按压的和弦和视频里模型生成的音乐也是基本契合的,左右手的手法都是自然、连贯且细节丰富,琴弦拨动与音符节奏高度对应。
细看还可以注意到,背景中观众拍手的动作和视频里的声音是精准卡点的。
我们的最后一个纯文本提示词考察的是一个超现实场景,这种场景在模型训练数据里可能分布较少,考察的是对罕见视觉元素、超现实组合和非日常场景的生成能力。
画面开场是一座夜晚的城市,全景俯拍,城市灯光闪烁,街道像河流般流动。随后,镜头慢慢拉近,出现几栋建筑缓缓离地漂浮,建筑底部闪烁着微光能量。空中漂浮的汽车像鱼群般游动,偶尔从建筑间穿梭而过。主角是一位身穿银色风衣的少年,脚下踩着悬浮板,从高楼之间穿行而过。
镜头切换至近景,少年伸手触碰漂浮的建筑,触碰瞬间建筑表面出现液态光纹,建筑缓缓旋转、折叠,随后化作光粒飞向夜空。背景出现巨大月亮,月亮上投射出城市倒影,光线折射在漂浮建筑和人物身上。
Seedance 2.0 遵循了我们的镜头提示词 " 全景俯拍 ",而提示词中相对少见的 " 悬浮板 "、" 漂浮汽车 " 这些元素,模型也能做到合理、真实地呈现。
而在最后一个动作中,像是 " 液态光纹 "、" 化作光粒飞向夜空 " 这些复杂的画面要求,Seedance 2.0 也能准确还原。
二、图生视频出现物理 Bug,结合豆包模板后玩法更多
在日常使用中,还有一大需求就是输入图像,生成视频。相比纯文本生成,图生视频往往对模型的结构理解能力、主体一致性保持能力以及动作补全能力提出更高要求。
模型不仅要 " 看懂 " 图像中的人物、环境和构图关系,还要在此基础上合理延展动作与镜头。同时,如何在生成过程中保持人物样貌、服饰细节与整体风格不发生偏移,也是衡量图生视频能力的重要标准。
我们首先上传了一个沙滩场景和一位小男孩的肖像,要求 Seedance 2.0 生成图中男孩在沙滩上奔跑的画面。上传图片作为输入后,可以明显感觉到模型的生成速度变慢了一些。

其实,这轮对话中 Seedance 2.0 的生成效果并没有此前那么超乎预期。在没有明确要求的情况下,模型生成的画面是慢动作的,这是不少 AI 视频生成模型的常见问题。
从画面内容来看,我们上传的沙滩、男孩的特征基本都得到了保留,不过从物理准确性上来看,男孩在跑过沙滩的时候并没有留下脚印,有点穿帮了。
并且,在上传图片后,豆包会提示无法自定义模型比例,它将根据参考图自行选择比例。在这次案例中,它默认选择了男孩肖像图的竖版比例,其实并不符合我们的需求。
于是,我们更换了提示词的顺序,把沙滩这一背景前置了。不过,最后模型还是选择了竖版的视频比例,而且,第二次生成的画面出现了更为严重的物理规律 Bug:男孩踢球的力道明显不足以让足球在天空中飞那么久。
上线豆包后,Seedance 2.0 还可以与豆包原有的多种视频生成玩法结合,提供新的体验。

比如,我们试着体验了由 Seedance 2.0 驱动的 AI 采访玩法,这一玩法支持上传人物图像,或者选择已经保存好的 " 分身 " 出镜。

一开始,我们想试着让 Seedance 2.0 生成马斯克与阿尔特曼这两位 AI 圈顶流争论的画面,但是或许是由于触及模型的安全机制,这类需求被模型直接拒绝了。

于是,我们换了一位相对没有那么知名的人物,上传了其照片。拿到生成结果后,可以明显感觉到这一模板是偏恶搞向的,画面左侧的受访者突然蹲下,头部被夸张地 " 拉长 ",随后又像弹簧一样猛地 " 弹 " 回原位。这样的变形效果虽然充满戏剧性,但突兀而荒诞,观感上多少有些 " 掉 San 值 "。
之后,我们又上传了扎克伯格的画面,并采用官方的全息投影模板。画面中,扎克伯格带上了一个类似苹果 Vision Pro 的 VR 头显,随后整个人物逐渐转为半透明质感,背景中浮现出粒子光效,整体呈现出明显的 " 全息投影 " 视觉风格。
我们又尝试了另一个模板 " 游戏追逐 ",这个模板会生成一则猛兽追逐画面中主角的视频,我们上传了一只小狗的画面作为参考图。
不过,可能由于这一模板是针对人类的,对动物作为主角的画面并不适配,小狗跑起来的样子不太符合生物规律。
结语:视频制作工作流,或将被 AI 重塑
整体体验下来,Seedance 2.0 的表现确实有明显提升。无论是长文本指令的理解与还原、复杂音画同步场景的精准匹配,还是超现实画面的稳定生成,它都展现出了明显强于以往模型的综合能力。
当然,它仍存在一些可以改进的地方,其中物理细节还有明显的优化空间。但在动作连贯性、人物一致性与镜头语言执行力上,Seedance 2.0 已经开始接近成为可商用的创作工具。
随着 Seedance 2.0 开始进入豆包这样的大众产品,普通用户也开始能低成本、高频率地尝试视频创作。未来,视频的生产方式、创作门槛乃至内容形态,都可能被重新定义。


登录后才可以发布评论哦
打开小程序可以发布评论哦