字节快手，AI视频“狭路又相逢”

文｜周鑫雨 ‍‍

编辑｜苏建勋

2025 年 4 月中旬，快手和字节这两个老对手，在 AI 视频生成领域，再次狭路相逢。

先是 4 月 14 日，字节跳动的视频生成基础模型 Seaweed，低调上线了官网，还释出了技术报告。

△ Seaweed 生成的视频。图源：Seaweed 官网

" 四两拨千斤 "，是字节这次在视频领域，想要达到的效果。首发的模型 Seaweed-7B，不仅用 70 亿的参数，实现了超越 140 亿参数同类模型的效果，训练效率也相当高：同类模型的训练普遍要百万 GPU 小时，Seaweed-7B 只用了 66.5 万 H100 GPU 小时。

Seaweed-7B 训练效率。

相比字节的低调，快手想在视频生成领域营造的声势，要浩大的多。

4 月 15 日，在发布会上，快手高级副总裁、主站业务与社区科学线负责人盖坤，对着到场的几百人，用极高的评价为快手在视频生成领域的成绩定调：

" ‘可灵’吹响了整个视频生成赛道的挑战哨。"" 在我们之后，各个厂商都开始发视频生成模型。"

的确，快手在 2024 年 6 月 6 日的视频生成模型 " 可灵 "，在一众 "Sora 期货 " 中，靠着大方的免费试用，创造了上线三个月服务超 260 万用户的记录。

这也是字节和快手在视频领域的首次交手。" 可灵 " 的发布，一度将字节置于追赶者的位置。直到 2024 年 11 月 8 日，字节才回到视频领域第一梯队：Seaweed 和 PixelDance 上线了视频生成平台即梦 AI。

不少业内人给出的评价是：2024 年，在视频性能上，奋起猛追的字节，最后与快手基本打平。

一年后的这次同台较量，快手显然也不肯让出技术第一的位置。

" 全球大幅领先。"" 持续领先。"" 请允许我把这两句话再重复一遍。"

交出新答卷时，盖坤的几句话再次炒热了场子。他宣布了快手在多模态领域的最新探索成果：图像生成基座模型 " 可图 2.0"，视频生成基座模型 " 可灵 2.0"，以及多模态编辑功能 MVL。

△ " 可灵 2.0" 生成的视频。图源：快手

在视频生成能力上，" 可灵 2.0" 的文生视频和图生视频能力，均超过了谷歌的视频模型 Veo2。在和老对手 Sora 的较量中，" 可灵 2.0" 文生视频模型的胜负比甚至达到了 367%。

" 可灵 2.0" 能力。

DeepSeek 的掀桌，已经让行业意识到，模型决定了 AI 产品的上限。2025 年，不少厂商的动作都是：回归模型。

字节和快手，当下对 AI 视频生成产品的野望并不相同。据了解，字节对 " 即梦 " 的期望，是 AI 时代的抖音，一个未来更 ToC 的产品。而快手，则将商业化的希望，主要押注在 B 端。

即便如此，2025 年，两家厂商的共识依然是：打磨视频基座模型，抢滩第一梯队。

据《晚点》报道，字节图像视频创作平台 " 即梦 " 负责人张楠的 2025 年 OKR，其中一条为重点打磨模型效果。2025 年 " 可灵 " 团队的目标，也浓缩在盖坤说出的 4 个字中：" 持续领先 "。

对于字节和快手而言，至少在技术层面，视频生成领域的战火只会愈燃愈旺。

拼性能，更拼落地

4 月的这次 " 交手 "，对字节快手来说，绝不仅仅是一次视频模型性能的比拼。

视频模型落地难，已经是老生常谈的困境。除了模型效果不及预期外，贵，是视频模型的通病。一个典型的案例是，为了覆盖高昂的推理成本，OpenAI Sora 推出的订阅费，高达 200 美元。

可见的是，相较于 " 炫技 " 的 2024 年，2025 年的视频模型竞技场，更突出一个实用和实惠。

比如，字节的 Seaweed-7B 虽然在性能上略逊于快手的上一代模型 " 可灵 1.6"，但胜在部署成本相当低：仅 40GB 显存的单 GPU，就能实现高分辨率（1280x720）视频的生成。

这意味着，中小团队和个人创作者，也能负担得起 AI 视频创作。

在实用性上，字节和快手的共识是：只有一个视频生成模型，目前是无法满足用户的创作需求的。

" 可灵 2.0" 的发布会上，快手同时发布了图像生成模型 " 可图 2.0"。这个增强了指令遵循能力和审美能力的模型，在竞技场上超越了 Midjourney v7、Rave 和 FLUX1.1 pro 三个主流模型。

△ " 可图 2.0" 生成的图片，Prompt：摆满了白色桌子的宴会厅，周围坐着的人在享用一顿美餐。图源：快手

在快手技术副总裁、可灵 AI 负责人张迪看来，图像能力，是视频模型落地中不可缺少的一步。

他举了一组数据：用 " 可灵 " 生成的视频中，图生视频占到了 85%。图生视频的高比例说明，在视频创作的实际过程中，更多的用户青睐于用图片确定风格、添加关键帧，以获取更为稳定的视频生成效果。

" 可灵 " 这次发布的 " 多模态编辑 MVL 功能 "，据工作人员介绍，也是为了满足创作者的实时视频编辑需求。

多模态编辑 MVL 功能。

多模态编辑 MVL 功能支持的不仅仅是文字 Prompt，还支持图像和视频模态的动作描述文件。比如，用户可以通过上传一段新视频，将新视频中的人物，添加到原有视频上。

快手注重图像，字节则发挥了文本处理上的优势。Seaweed-7B 结合了字节的 " 长上下文调优技术 " 和长叙述视频生成技术 "VideoAuteur"，让生成的视频可以基于用户的全局文本描述和分镜描述，保持一致性。

" 全村的希望 " 和 " 一个都不能落下 "

字节和快手，在视频领域登顶的野望相同，但其折射出的业务处境，却是不同的。

大众耳熟能详的 " 精兵作战 " 的故事之外，" 可灵 " 从诞生到出圈，在快手的业务发展轨迹中，带有一定的偶然性。

据《智能涌现》了解，直到 2024 年初，文生视频的一项关键技术，才被可灵团队攻破。2024 年 3 月，盖坤才第一次见到 " 可灵 " 的 demo。

公司对 AI 的商业化预期，本来也并不高。《智能涌现》获悉，快手商业化业务负责人王剑伟（Thomas）在 2024 年 Q4 的 OKR 中，"AI 商业化 " 并非 "O（Objectives，目标）"，仅仅是 " 增长 " 下的一个 "kr（ Key Results，关键成果）"。

快手已经很久没有新故事了。作为同样靠短视频业务成长起来的互联网公司，快手的业务版图，相较于不断开疆拓土的字节，并不广阔。直到 2023 年，快手营收的核心，还是围绕短视频平台的线上营销、直播和电商。

但 " 可灵 " 的出现，让快手看到了短视频之外的新增长曲线。

快手财报显示，从 2024 年 9 月开放 API 服务，到 2025 年 2 月，可灵 AI 的累计营收已经超过 1 亿元。在用户层面，盖坤在这次发布会上透露，目前 " 可灵 " 已经拥有 2223 万用户，月活用户增长了 25 倍，全球的企业和开发者客户数量，也已经超过了 15 万。

不仅自己造血，" 可灵 " 也在撬动快手的其他业务。快手商业化营销服务平台 " 磁力引擎 " 的一名员工曾对《智能涌现》表示，" 可灵 " 给快手的广告业务带来了明显的增长：

" 大客户每个月花十几万做投流，广告物料就可以用 AI 生成。一个剪辑师一天最多剪 10 条广告物料，但是可灵可以生成几千条，我们一天内就能把几千条广告物料，用算法分发到用户的推荐流里。"

" 可灵 2.0" 的发布，对快手来说，是 " 全村希望 " 的延续。

比起单点奇袭的快手，字节在视频生成赛道，有着更重的好学生包袱。

两年来，从人、算力，到金钱，字节在 AI 领域的重兵投入有目共睹。但文本模型领域有 DeepSeek，视频模型领域有可灵，语音模型和 MiniMax 的海螺 AI 打得难舍难分——字节什么都抓了，但好像什么也没抓牢。

痛定思痛，2025 年开春以来，字节内部已经掀起了一场改革。2025 年 3 月，AI 部门 "Seed" 的新帅、原 Google Fellow 吴永辉在部门全员会上提到，要进一步加强组织文化，打造开放、包容、自信的团队研究氛围；要提高技术开放程度。

Seaweed-7B 的发布，是字节 AI 改革后的一个注脚。

继 3 月豆包首次公开文生图技术报告后，Seaweed 也成了字节在视频领域首个公开技术报告的模型。值得注意的是，曾被字节视作机密的研究团队，蒋路、冯佳时、杨振恒、杨建超，这次也以技术报告署名的形式，首次集体走到台前。

重振旗鼓后，双方的较量，才刚刚开始。

宙世代

一起剪

相关标签