Seedance 2.0火出圈，意味着AGI又近了一步

" 目前暂不支持输入真人素材作为主体参考。我们深知创意的边界是尊重。"

这是打开即梦 web 平台时用户看到的提示。就在前一天，Seedance 2.0 因真人肖像生成能力引发争议，字节跳动紧急下线了真人人脸素材参考功能。

引发禁令的是影视飓风 Tim 在凌晨发布的一条视频，他说 Seedance 2.0 是 " 改变视频行业的 AI"，可他的语气并不是赞叹，而是一种警醒。

原因是他发现，仅上传自己的人脸照片，模型就能自动生成与他本人高度相似的声音，甚至精准匹配语气特质。真实地让人感到害怕。

但在功能下线之前，Seedance 2.0 已经完成了一次现象级的出圈。《黑神话 · 悟空》制作人冯骥在微博上称其为 " 当前地表最强的视频生成模型 "，并警告 " 逼真的视频将变得毫无门槛 "。

印象中在此之前，冯骥给予这么高评价的，也就是 DeepSeek。

自字节跳动开启 Seedance 2.0 开始灰度测试，不到 48 小时，X、抖音等社交平台充满了铺天盖地各种基于该模型的 AI 视频。

《火影忍者》、《咒术回战》、《奥特曼》…… 基本上你能想到的作品全都有。

海外反应同样炸裂。X 平台上，一位学习 7 年数字电影制作的用户发帖：" 这是唯一让我感到害怕的模型，90% 我学到的技能它都能实现。"

AIGC 圈大佬，Sensive 和 KidsHackClub 的联合创始人莱纳斯 · 埃肯斯塔姆（Linus Ekenstam）直接回复这条 X 说：" 它会让互联网崩溃，百分之百。"Hacker News 上，更是有人直言 " 这是 2026 年最好的视频模型，超越 Sora 2"。

超越 Sora 尚在其次，更重要的是，物理世界的准确建模被视为通用 AGI 的关键能力之一，而 Seedance 2.0 让业内人士看到了实现这一点的可能性。

2 月 9 日，A 股的传媒、短剧、AI 应用板块也随着 Seedance 2.0 的爆火而集体大涨。上海电影、完美世界等公司单日涨幅达 10%，分析师预期该模型将大幅降低制作成本、加速内容生产周期。

爆火背后，问题同样尖锐。

Sora 2 可以说是前车之鉴。刚推出时，Sora 2 好评如潮，然而仅仅过去两个月，留存率就无限接近于零。除此之外，版权风险、数字授权等问题，也已经在 Sora 2 上面暴露过一次了。

字节会带着 Seedance 2.0，找到另一条出路吗？

什么是 Seedance 2.0

在了解 Seedance 2.0 火爆之前，不妨让我们先来认识一下它。

Seedance 2.0 支持文本、图片（最多 9 张）、视频（最多 3 段，总长 ≤15 秒）、音频（最多 3 段，总长 ≤15 秒）同时输入，混合上限 12 个文件。

用户可用图片定义构图和角色、视频指定动作和镜头运动、音频驱动节奏。

相比之下，Sora 2 的 Cameo 功能仅支持单张照片植入，Veo 3 和 Kling 2.6 主要依赖文本加单图输入。

这种多模态能力不是简单的素材叠加。字节引入了 @提及系统，这样就能明确控制每个资源。

在提示词中，用户可以写 " @Image1 作为第一帧，参考 @Video1 的运镜，使用 @Audio1 作为背景音乐节奏 "。

其最大的好处就是，改变了以往 " 扔一堆素材给 AI，然后碰运气 " 的创作模式。

模型采用 "Seedance V2 运动合成 " 技术，在重力、动量、碰撞、流体等物理现象的模拟上有明显改进。

实测显示，布料飘动、液体飞溅、肢体运动的轨迹更接近真实物理规律，减少了 " 漂浮感 " 和物体穿模等常见伪影。

Seedance 2.0 还有一个很重要的能力就是精准首尾帧。

用户上传起始帧与结束帧图像后，模型智能推演中间动态过程，确保转场自然、节奏稳定。这对广告定格动画、剧情衔接等强控制需求场景特别有用。

分镜驱动视频生成支持按分镜脚本逐镜生成，跨镜头维持角色外观、光影逻辑与美术风格一致性。有用户用 Lovart 的 Skill 生成分镜故事板，直接复制到 Seedance 2.0 中，生成的视频比用 ComfyUI 手工调参做的还细致。

这说明模型不仅理解单个画面，还理解镜头之间的叙事逻辑。

Seedance 2.0 的编辑能力也得到了增强，支持对已有视频进行角色更替、删减、增加。用户可以直接在生成结果中编辑局部画面，而不是推倒重来。这大幅提升了成片率，也让创作流程更接近传统视频编辑的体验。

从单一提示词可生成包含多个镜头切换的完整片段。

模型能自动规划分镜、执行运镜（如渐进、环绕、跟随）、添加剪辑效果（如慢动作、镜头抖动）。多镜头间保持角色面部特征、服装细节、场景光照、叙事基调的一致性，过渡较为自然。

最后就是视听联合生成方面，音频与视觉在创作过程中相互影响。

支持 8 种以上语言的音素级口型同步，环境音效与视觉事件实时对应。脚步声匹配角色移动，玻璃破碎伴随清脆音效。上传音频可驱动视频生成，BGM 节拍对应镜头切换。

通过火山引擎 RayFlow 优化，生成速度比 1.0 版本提升约 30%。10 秒 1080p 带音频视频约需 2-5 分钟。Pro 版本支持原生 2K 分辨率，视频可延长至 2 分钟，相比 Sora 2 的 15 秒上限和 Kling 2.6 的 10 秒限制有明显优势。

角色一致性机制引入增强版 " 身份持久性 " 注意力机制，在不同镜头、角度、光照条件下保持角色特征稳定。面部轮廓、发型、服装纹理等细节在镜头切换时漂移较少。

出圈竟是因为 AGI？

在 X、抖音等社交媒体上，Seedance 2.0 最受关注的内容集中在热门 IP 角色的格斗与动作视频：真人版七龙珠战斗、奥特曼对决、运动广告。

这类内容的点赞数普遍在数十万级别。

从视频的观感来讲，动作场景对物理模拟精度要求极高，任何失真都会破坏可信度。

拳击手出拳时的重心转移、击中目标的形变反馈、被击者后退距离需符合力学规律。AIGC 艺术家 DynamicWang 用 Seedance 2.0 制作的 Nike 风广告中，四位女性的肌肉线条、动作幅度与其运动项目（体操、拳击、跑步、游泳）高度匹配。

体操翻转、武术连续踢腿、跑酷墙面反弹等动作链条中，任何一帧的速度、角度、加速度偏差都会产生 " 机械感 "。Seedance 2.0 通过时序一致性建模，使动作流畅度接近实拍效果。

格斗时的扬尘、武器破风声、衣袂翻飞的褶皱等二次物理效应增强了场景真实感。

物理世界的准确建模被视为通用 AGI 的关键能力之一。

" 物体如何运动 "" 力如何传递 "" 因果如何发生 "，虽然这些事情对我们早已司空见惯了，但是对于 AI 这还是新鲜事。

当 AI 模型能准确预测拳头击中目标后的形变、水花溅起的轨迹、布料随风飘动的形态，意味着它不再是简单的 " 像素生成器 "，而是建立了对真实世界运作机制的内部表征。

杨立昆曾多次强调，AGI 必须具备对物理世界的常识性理解。

Seedance 2.0 在物理模拟上的提升，本质上是其世界模型能力的增强，模型开始理解物体之间的关系、动作的因果链条、环境对物体的约束。

传统生成模型依赖 " 数据中出现过什么，就生成什么 " 的统计规律，然而真实世界遵循因果逻辑，推倒多米诺骨牌，后续骨牌必然倒下；拳头击中脸部，头部必然后仰。

Seedance 2.0 能够生成符合物理规律的格斗视频，说明模型内部已经形成了某种因果推理能力。

它不是记住了 " 拳击的样子 "，而是理解了 " 力的作用必然产生反作用 " 这一底层逻辑。这种能力是从 " 模式识别 " 向 " 概念推理 " 的跨越。

传统 AI 是停留在统计层面的拟合，只有当 AI 理解了物理世界，才能真正与现实交互。

这也是为什么之前各大厂一直强调多模态。

因为咱们人类的大脑理解物理世界，本质上就是多模态。我们通过视觉看到物体运动，通过听觉感知碰撞声响，通过触觉理解材质硬度，这些感官信息在大脑中融合形成统一的世界理解。

前文提到的 Seedance 2.0 视听联合生成架构，在某种程度上就是模拟了这种多模态融合机制。

当模型能够理解 " 重物落地应该发出低沉声音 "" 玻璃破碎应该伴随清脆音效 " 时，它已经在建立跨模态的因果关联。这种能力远超单纯的文本生成或图像生成，已经预示着模型正朝着 AGI 靠拢了。

还有一点，当前 AI 研究的共识是，AGI 最终需要体现在具身智能上。

原因很简单，一个能够在物理世界中行动的智能体，无论是机器人还是自动驾驶，都要求 AI 准确预测物理世界的动态变化。

Seedance 2.0 虽然是视频生成模型，但它对物理规律的理解能力（重力、动量、碰撞、流体力学）与具身智能所需的能力高度重合。

可以说，视频生成是具身智能的 " 沙盒 "。

模型在虚拟世界中学会了物理规律，未来可以迁移到真实世界的机器人控制中。而基于 Seedance 2.0 的那些格斗视频，刚好集中体现了模型对力学、运动学、时序因果的综合理解，这些都是具身智能的核心能力。

GPT、Claude 等大语言模型虽然强大，但它们对物理世界的理解是间接的、基于文本描述的。它们可以告诉你 " 苹果会掉下来 "，但无法真正 " 看到 " 重力如何作用。

Seedance 2.0 的突破在于，它通过视频生成这一任务，被迫学习物理世界的直接表征。

这使得它在通往 AGI 的路径上比纯语言或静态图像模型走得更远，所以它的运行逻辑更接近人类 " 看到 - 理解 - 预测 " 的认知闭环。

如果说语言模型是 AGI 的 " 左脑 "（逻辑与符号），那么物理世界模型就是 AGI 的 " 右脑 "（空间与直觉）。

Sora 2 在静态场景和慢节奏叙事上表现较好，但在快速动作场景存在明显短板。篮球弹跳轨迹、水流形态、布料飘动呈现 " 梦幻感 " 而非 " 真实感 "，慢镜头下尤为明显。

角色快速位移（冲刺、跳跃、挥拳）时容易产生运动模糊过度或肢体变形，源于扩散模型处理时序剧烈变化的局限。

Sora 2 要生成单镜头，用户拼接多个动作片段时，角色动作衔接、速度一致性难以保证。

格斗视频需要 " 出招 - 闪避 - 反击 " 的多回合结构，这是 Sora 2 的弱项。社交媒体上 Sora 2 生成的同类内容常因 " 动作僵硬 "" 物理违和 " 被用户批评。

字节在短视频领域的数据积累可能是优势来源。

抖音每日处理数十亿条视频，这些数据帮助模型理解 " 什么样的运动吸引眼球 "" 哪种节奏让人持续观看 "。模型训练可能使用了大量真实武术、体育、舞蹈视频作监督信号。

字节能从 Sora 2 上吸取教训吗？

OpenAI 将 Sora 2 定位为 "AI 版抖音 "。首日 10 万安装（邀请制 iOS）、4 天登顶美国 App Store 总榜、5 天破 100 万下载（快于 ChatGPT）。

但 Appfigures 数据显示，Sora 2 在 60 天内的下载量出现断崖式下滑。12 月环比下降 32%，1 月环比大幅下降 45%，降至约 120 万次。

截至发稿，Sora 2 目前已跌出美国 App Store 免费应用总榜前 100 名。

Sora 2 最大的战略失误是试图复制抖音那套社区文化。

AI 生成内容天然缺乏真实人际关系，这是社交网络的核心之一。用户在抖音上刷到的是真实的人、真实的生活片段、真实的情感连接。而 Sora 2 生成的视频，无论多么精美，本质上都是算法的产物，缺乏社交网络赖以生存的人际纽带。

Seedance 2.0 目前的做法更务实，嵌入剪映、即梦等成熟创作工具，作为 " 功能模块 " 而非 " 独立 App"。

将自己定位为创作者工具箱的一部分。用户不是来 " 刷 AI 视频 "，而是来 " 用 AI 做视频 "。这个定位差异，决定了产品的生命周期。

Sora 2 在版权上的摇摆暴露了西方监管环境的困境。

上线初期，因缺乏严格管控，用户曾可生成海绵宝宝、皮卡丘等知名 IP 角色的视频，这虽在一定程度上有助于早期推广，但引发了版权方的强烈反对。

面对压力，OpenAI 将版权使用规则从 " 默认可选 " 改为 " 需明确授权 "，也正是因为这种版权内容的变更，导致 Sora 2 失去了最初病毒式传播的动力源泉。

目前来看，Seedance 2.0 另一大爆火的原因，是创作者利用 AI 生成了奥特曼、七龙珠等大量知名角色，但同样存在版权风险，比如下图中就是赵本山和詹姆斯。

该图片疑似 AI 生成

字节因真人素材参考能力引发争议后，已紧急下线该功能。这说明字节在版权问题上采取了更谨慎的态度，试图在技术能力与合规风险之间找到平衡点。

但最重要的是，当任何人都能在几分钟内生成一段精美视频，内容本身就失去了稀缺性。用户真正需要的不是 " 更多视频 "，而是 " 更有意义的表达 "。

技术再强，如果不能回答 " 用户为什么需要这个 " 的问题，最终都会沦为玩具。

AI 生成的视频虽然精美，但往往缺乏核心的情感内核与持续的叙事价值。许多用户在社交平台上反馈，在最初的新鲜感褪去后，Sora 2 生成的内容逐渐趋同且无趣。

Seedance 2.0 若想长期存活，需要回答一个问题：在 AI 让视频生成成本趋近于零的时代，你为用户创造的核心价值是什么？是节省时间？是实现创意？还是建立身份认同？

从目前的产品策略来看，字节选择了 " 工具 " 而非 " 平台 " 的路线。

但工具路线也有自己的挑战。当可灵、Sora、Veo 都在提供类似能力时，用户凭什么选择 Seedance 2.0？答案可能不在技术本身，而在生态整合的深度。

字节拥有抖音、剪映、即梦的完整创作生态，Seedance 2.0 如果能与这些产品深度打通，形成从灵感到发布的闭环，就能建立起其他竞争对手难以复制的护城河。

不过归根结底，版权问题是永远不会消失的，技术能力的边界也会不断被竞争对手追平。真正决定 Seedance 2.0 命运的，是字节能否在爆火的窗口期内，将流量转化为用户习惯，将技术优势转化为生态壁垒。

答案可能决定了它是成为字节的下一个抖音，还是下一个 Sora 2。

宙世代

一起剪

相关标签