36氪 04-18
字节快手,AI视频“狭路又相逢”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|周鑫雨 ‍‍

编辑|苏建勋

2025 年 4 月中旬,快手和字节这两个老对手,在 AI 视频生成领域,再次狭路相逢。

先是 4 月 14 日,字节跳动的视频生成基础模型 Seaweed,低调上线了官网,还释出了技术报告。

△ Seaweed 生成的视频。图源:Seaweed 官网

" 四两拨千斤 ",是字节这次在视频领域,想要达到的效果。首发的模型 Seaweed-7B,不仅用 70 亿的参数,实现了超越 140 亿参数同类模型的效果,训练效率也相当高:同类模型的训练普遍要百万 GPU 小时,Seaweed-7B 只用了 66.5 万 H100 GPU 小时。

Seaweed-7B 训练效率。

相比字节的低调,快手想在视频生成领域营造的声势,要浩大的多。

4 月 15 日,在发布会上,快手高级副总裁、主站业务与社区科学线负责人盖坤,对着到场的几百人,用极高的评价为快手在视频生成领域的成绩定调:

" ‘可灵’吹响了整个视频生成赛道的挑战哨。"" 在我们之后,各个厂商都开始发视频生成模型。"

的确,快手在 2024 年 6 月 6 日的视频生成模型 " 可灵 ",在一众 "Sora 期货 " 中,靠着大方的免费试用,创造了上线三个月服务超 260 万用户的记录。

这也是字节和快手在视频领域的首次交手。" 可灵 " 的发布,一度将字节置于追赶者的位置。直到 2024 年 11 月 8 日,字节才回到视频领域第一梯队:Seaweed 和 PixelDance 上线了视频生成平台即梦 AI。

不少业内人给出的评价是:2024 年,在视频性能上,奋起猛追的字节,最后与快手基本打平。

一年后的这次同台较量,快手显然也不肯让出技术第一的位置。

" 全球大幅领先。"" 持续领先。"" 请允许我把这两句话再重复一遍。"

交出新答卷时,盖坤的几句话再次炒热了场子。他宣布了快手在多模态领域的最新探索成果:图像生成基座模型 " 可图 2.0",视频生成基座模型 " 可灵 2.0",以及多模态编辑功能 MVL。

△ " 可灵 2.0" 生成的视频。图源:快手

在视频生成能力上," 可灵 2.0" 的文生视频和图生视频能力,均超过了谷歌的视频模型 Veo2。在和老对手 Sora 的较量中," 可灵 2.0" 文生视频模型的胜负比甚至达到了 367%。

" 可灵 2.0" 能力。

DeepSeek 的掀桌,已经让行业意识到,模型决定了 AI 产品的上限。2025 年,不少厂商的动作都是:回归模型。

字节和快手,当下对 AI 视频生成产品的野望并不相同。据了解,字节对 " 即梦 " 的期望,是 AI 时代的抖音,一个未来更 ToC 的产品。而快手,则将商业化的希望,主要押注在 B 端。

即便如此,2025 年,两家厂商的共识依然是:打磨视频基座模型,抢滩第一梯队。

据《晚点》报道,字节图像视频创作平台 " 即梦 " 负责人张楠的 2025 年 OKR,其中一条为重点打磨模型效果。2025 年 " 可灵 " 团队的目标,也浓缩在盖坤说出的 4 个字中:" 持续领先 "。

对于字节和快手而言,至少在技术层面,视频生成领域的战火只会愈燃愈旺。

拼性能,更拼落地

4 月的这次 " 交手 ",对字节快手来说,绝不仅仅是一次视频模型性能的比拼。

视频模型落地难,已经是老生常谈的困境。除了模型效果不及预期外,贵,是视频模型的通病。一个典型的案例是,为了覆盖高昂的推理成本,OpenAI Sora 推出的订阅费,高达 200 美元。

可见的是,相较于 " 炫技 " 的 2024 年,2025 年的视频模型竞技场,更突出一个实用和实惠。

比如,字节的 Seaweed-7B 虽然在性能上略逊于快手的上一代模型 " 可灵 1.6",但胜在部署成本相当低:仅 40GB 显存的单 GPU,就能实现高分辨率(1280x720)视频的生成。

这意味着,中小团队和个人创作者,也能负担得起 AI 视频创作。

在实用性上,字节和快手的共识是:只有一个视频生成模型,目前是无法满足用户的创作需求的。

" 可灵 2.0" 的发布会上,快手同时发布了图像生成模型 " 可图 2.0"。这个增强了指令遵循能力和审美能力的模型,在竞技场上超越了 Midjourney v7、Rave 和 FLUX1.1 pro 三个主流模型。

△ " 可图 2.0" 生成的图片,Prompt:摆满了白色桌子的宴会厅,周围坐着的人在享用一顿美餐。图源:快手

在快手技术副总裁、可灵 AI 负责人张迪看来,图像能力,是视频模型落地中不可缺少的一步。

他举了一组数据:用 " 可灵 " 生成的视频中,图生视频占到了 85%。图生视频的高比例说明,在视频创作的实际过程中,更多的用户青睐于用图片确定风格、添加关键帧,以获取更为稳定的视频生成效果。

" 可灵 " 这次发布的 " 多模态编辑 MVL 功能 ",据工作人员介绍,也是为了满足创作者的实时视频编辑需求。

多模态编辑 MVL 功能。

多模态编辑 MVL 功能支持的不仅仅是文字 Prompt,还支持图像和视频模态的动作描述文件。比如,用户可以通过上传一段新视频,将新视频中的人物,添加到原有视频上。

快手注重图像,字节则发挥了文本处理上的优势。Seaweed-7B 结合了字节的 " 长上下文调优技术 " 和长叙述视频生成技术 "VideoAuteur",让生成的视频可以基于用户的全局文本描述和分镜描述,保持一致性。

" 全村的希望 " 和 " 一个都不能落下 "

字节和快手,在视频领域登顶的野望相同,但其折射出的业务处境,却是不同的。

大众耳熟能详的 " 精兵作战 " 的故事之外," 可灵 " 从诞生到出圈,在快手的业务发展轨迹中,带有一定的偶然性。

据《智能涌现》了解,直到 2024 年初,文生视频的一项关键技术,才被可灵团队攻破。2024 年 3 月,盖坤才第一次见到 " 可灵 " 的 demo。

公司对 AI 的商业化预期,本来也并不高。《智能涌现》获悉,快手商业化业务负责人王剑伟(Thomas)在 2024 年 Q4 的 OKR 中,"AI 商业化 " 并非 "O(Objectives,目标)",仅仅是 " 增长 " 下的一个 "kr( Key Results,关键成果)"。

快手已经很久没有新故事了。作为同样靠短视频业务成长起来的互联网公司,快手的业务版图,相较于不断开疆拓土的字节,并不广阔。直到 2023 年,快手营收的核心,还是围绕短视频平台的线上营销、直播和电商。

但 " 可灵 " 的出现,让快手看到了短视频之外的新增长曲线。

快手财报显示,从 2024 年 9 月开放 API 服务,到 2025 年 2 月,可灵 AI 的累计营收已经超过 1 亿元。在用户层面,盖坤在这次发布会上透露,目前 " 可灵 " 已经拥有 2223 万用户,月活用户增长了 25 倍,全球的企业和开发者客户数量,也已经超过了 15 万。

不仅自己造血," 可灵 " 也在撬动快手的其他业务。快手商业化营销服务平台 " 磁力引擎 " 的一名员工曾对《智能涌现》表示," 可灵 " 给快手的广告业务带来了明显的增长:

" 大客户每个月花十几万做投流,广告物料就可以用 AI 生成。一个剪辑师一天最多剪 10 条广告物料,但是可灵可以生成几千条,我们一天内就能把几千条广告物料,用算法分发到用户的推荐流里。"

" 可灵 2.0" 的发布,对快手来说,是 " 全村希望 " 的延续。

比起单点奇袭的快手,字节在视频生成赛道,有着更重的好学生包袱。

两年来,从人、算力,到金钱,字节在 AI 领域的重兵投入有目共睹。但文本模型领域有 DeepSeek,视频模型领域有可灵,语音模型和 MiniMax 的海螺 AI 打得难舍难分——字节什么都抓了,但好像什么也没抓牢。

痛定思痛,2025 年开春以来,字节内部已经掀起了一场改革。2025 年 3 月,AI 部门 "Seed" 的新帅、原 Google Fellow 吴永辉在部门全员会上提到,要进一步加强组织文化,打造开放、包容、自信的团队研究氛围;要提高技术开放程度。

Seaweed-7B 的发布,是字节 AI 改革后的一个注脚。

继 3 月豆包首次公开文生图技术报告后,Seaweed 也成了字节在视频领域首个公开技术报告的模型。值得注意的是,曾被字节视作机密的研究团队,蒋路、冯佳时、杨振恒、杨建超,这次也以技术报告署名的形式,首次集体走到台前。

重振旗鼓后,双方的较量,才刚刚开始。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

快手 ai 效果 字节跳动 抖音
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论