娱乐资本论 03-23
价格战开打!AI视频的“DeepSeek时刻”还远吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 |James

在今年春节期间 DeepSeek 带来的狂飙突进之后,全世界都在寻找下一个 DeepSeek。

2 月底,阿里通义万相 Wanx 2.1 模型开源,仅 6 天后就反超 DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单。此后,腾讯混元、阶跃星辰、昆仑万维等新的开源视频生成大模型陆续有来。

" 下一个 DeepSeek",会诞生在 AI 视频这个领域吗?

不仅是专业 AI 视频创作者,也包括传统影视工业,短剧产业链,以及网文平台等 IP 所有者,都对此高度关注。

所谓 " 下一个 DeepSeek" 可以简单理解为" 模型效果位于第一梯队 + 开源 "。最核心的问题在于,一个足够优秀的开源视频大模型,会不会让现在的视频生成头部平台大幅度让利,让视频生成变成 " 白菜价 "?

而果真如此,之后又会有什么连锁反应?

开源凶猛

事情首先要从 X(推特)上面突然多出来的一大堆 AI 美女视频说起。

阿里巴巴于 2 月 25 日宣布开源通义万相2.1 视频生成模型,不仅巩固了中国在全球 AI 开源领域的领先地位,更是引爆了技术爱好者的激情。

据介绍,该模型支持文生视频、图生视频任务,通过低显存需求降低技术门槛,并支持无限长 1080P 视频编解码,14B 版本在权威评测 Vbench 中超越 Sora、Luma 等海外知名模型。

但是更重要的是,Wanx 2.1 模型不仅在开源许可方式上极为宽松,模型本身也有很多能力是之前的开源,乃至很多闭源模型难以做到的。   

它是 " 全球首个支持中文文字特效生成 " 的视频模型,能深度理解 " 中国风 " 指令(如生成水墨晕染的 " 福 " 字视频)。它可以精准模拟物理规律(如雨滴溅落的动态效果)。

而经过 X 的网友实测,它对于一些特定指令,在模型层并没有屏蔽太多的关键词,所以生成的内容也更为开放和多元,驱动了大量的 " 自来水 " 传播。

万相 2.1 开源后 6 天内即登顶 Hugging Face 趋势榜,也就是 DeepSeek 在爆火出圈之前已经在的那个榜单。它与此后开源的文本大模型 QWQ-32B 先后霸榜,阿里也被一些开发者称为 " 源神 "。

开源鲶鱼搅动市场,国内其它一些重要的开源视频大模型也在这几个月内密集发布:

腾讯混元 HunyuanVideo-I2V 已开源推理代码和权重,有 130 亿参数,支持 5 秒短视频生成,新增对口型、舞蹈动作驱动功能,支持中英文生成,宣称在文本一致性、运动质量等维度表现领先。   

阶跃星辰 Step-Video-T2V 开源模型支持复杂场景生成,实测中在人物动作和物理规律方面,如芭蕾舞动作的生成等表现较优。

相应地,闭源的视频大模型也不甘落后。1 月底,生数科技公布 Vidu 2.0 版本,生成速度最快不到 10 秒,单秒视频成本仅需 "4 分钱 ";官网同时推出错峰模式(低峰时段不限量生成,且不扣积分)。

生数近日动作频频,先是老总唐家渝挖来原字节火山引擎 AI 解决方案负责人骆怡航加盟,并出任新的 CEO;然后又入住联想小天,走向 PC 预装的拉新之路,还跟两位好莱坞导演组建的一个新动画工作室联手,打算合拍一些 AI 动画大片。

字节除了主打即梦品牌之外,去年底开始也在大力地推的 " 豆包 " 客户端试水视频生成入口,并在今年春节前后全量上线。豆包的视频生成功能免费,但每天限制 10 次;跟即梦相比,在清晰度和能力上也有一些限制。

价格战前夜?

DeepSeek 通过技术优化,将原本高高在上的推理模型全面普及,且成本大为压缩,API 定价仅为 OpenAI 同类模型的 3%。

这迫使国内外闭源大模型厂商紧急调整。OpenAI 紧急将 GPT-4.5、深度研究等功能从 200 美元一个月的最高档会员下放,o1 也释放了思维链供用户参考。百度原本收费 50 元一个月的文心一言会员 4 月 1 日起全面免费。阿里通义、腾讯混元大模型 API 价格下调至每百万 tokens 0.1 元区间。

目前,作为国内视频生成领域两大 " 扛把子 ",可灵和即梦这两个平台的会员定价非常坚挺,分别是 66 元 / 月和 69 元 / 月。虽然包年略便宜,有时也会有折扣,但总体上单次生成的费用在约 0.6 元 / 秒。

由于缺乏局部修改功能,创作者需依赖随机生成后 " 抽卡 " 完成内容制作,单个镜头动不动就要反复生成几十次。   

由传统广告公司转型 AI 短剧的夫子 AI 团队介绍,他们开通了可灵和即梦的包年会员,两家年费合计 5594 元(平均每月约 466 元)。他们制作的 AI 短剧《我在阴间送外卖》,单个镜头需「抽卡」30 次以上,每次花费约 3.5 元,单镜头成本超 100 元,整部短剧制作成本约 5000 元,最终播放量超 90 万,尽管没有直接收入,但也吸引了商业客户询单。

由广告人转型 AI 科幻短片的希希叔叔,选择制作非系列化的单集短片如《失败者宇宙》,降低对画面一致性的高要求。他每月花费约 200 元开通可灵 + 即梦会员,单部短片成本控制在 2000 元以内。作为个人创作者,他通过会员积分和「闲时折扣」压缩成本,一部短片的制作周期约 7 天。

由 UI 设计师转型 AI 短剧的丹尼,主要依赖本职工资支撑创作。他制作的《白骨精前传》抽卡花费约 5000-6000 元,平均每月投入超 1000 元。丹尼尝试过海外服务,但 Runway 的价格是可灵的 10 倍(约 1 美元 /5 秒视频),因此坚持使用国内平台。

对比海外定价,国外平台费用平均约为国内 5-6 倍(就像是国内 1 元 = 国外 1 美元)。至于谷歌最新发布的 Veo 2 视频生成模型,每秒 0.5 美元的定价更为离谱,4 秒钟就 15 块钱了。

参照 DeepSeek 引发的 " 按厘计价 " 风潮,一个足够普及的视频生成大模型,有望逼迫头部闭源模型的 API 价格下降到原本的 1/10;企业服务则可能从万元级的项目制,转向百元级的订阅制就能满足," 大模型施工队 " 二次失业在即。   

若开源视频大模型复刻 DeepSeek 路径,当前可灵、即梦等,乃至 Sora、Veo 等海外模型的商业模式就都有可能面临巨大的挑战。

视频的特殊性和普遍性

万相 2.1 虽好,但还真的没到 DeepSeek 那种连友商都要接入的程度,所以暂时价格战还没有打起来。实际上,现在市面上任何一个 AI 视频大模型,其效果都还没到能完全顶替真人实拍的程度,其中 " 油性 " 或者说 "AI 味儿 " 还是相当重的,就更不用说乱码和鬼画符的幻觉问题了

即使有商业化的心思,人们也不敢贸然给 AI 短片配上跟人工短片一样的价格。湖南台风芒 App 播出的《兴安岭诡事》的制作成本 60 万,全集解锁只需要 5.9 元,跟真人微短剧显然不在一个档次。该剧最终播放量锁定在 5000 万次的量级。

有人乐观地将万相 2.1 比作 DeepSeek 的 V3 或者 V2 时刻,期待着一个视频版 "R1" 会驾着七彩祥云从天而降,带来业界期盼已久的冲击。

不过,实际情况可能无法如此简单类比。

目前国内 AI 视频创作者主要使用的平台,实际上各有特色。可灵的核心优势在于真实的人类动作与高清晰度。可口可乐广告团队认为可灵生成的人类动作更自然,且画面清晰度领先于其他工具(如 Leonardo、Runway)。

娱乐资本论此前的报道中,创作者董嘉琦提到可灵对文本的语义理解能力更强,模型迭代快,能快速响应复杂需求;擅长生成符合东方审美的场景和人物,适合广告、短剧等需要真实感和高完成度的场景。

创作者朱旭评价,即梦对物理世界的运动逻辑(如物体碰撞、光影变化)模拟更精准,适合现实类短片、纪录片风格内容。即梦也较早推出首尾帧控制功能。

生数 Vidu在动漫风格化、多主体参考功能上表现突出(如生成多角色互动镜头)。正如它在《毒液:最后一舞》的水墨宣传片体现的,生成的镜头运镜更具创意,适合抽象或艺术化表达。因此它受到二次元动画、艺术实验短片作者的欢迎。

Runway、Luma等国外工具则常被用于欧美风格的创作。

所以,专业视频团队的工作流很难完全脱离对定价很贵的 " 两巨头 " 的惯性使用,正如在作图领域有豆包的替代,但 MidJourney 或 Recraft 的特定风格依然有一定依赖性一样。   

现在开源视频模型的发展还不到 DeepSeek 那个程度,但视频生成领域的一场价格战,可能已经箭在弦上。

同属闭源模型的生数科技 Vidu,在推出 2.0 版以后也上线全新的收费套餐,直接将每秒单价成本降至最低 4 分钱。以各家 720P 每秒单价计算,Vidu 2.0 为 0.258 元 / 秒,是行业平均价格的不到一半;而且官网 " 错峰模式 " 在半夜抽卡,甚至是全免费。

去年底,生数科技投融资负责人樊家睿对娱乐资本论表示,今年 Vidu 预计在生成速度、多元一致性和多模态真正融合方面会有重大突破。" 生成速度方面,Vidu 将进一步 " 逼近极限 "。把速度提上来,意味着把性价比提上来,AI 视频生成会更普及、更高效。"

全网都在考虑 " 你们大模型全开源了,那到底咋挣钱啊 " 的问题。不过就算没有开源震撼弹,闭源厂商一样会卷价格,因为视频大模型背后没有秘密。

正如Manus 联合创始人张涛此前所言,光鲜亮丽的 Sora 背后也是 " 大算力出奇迹 " 的常规路线,是算力、算法、数据堆叠而成的结果。各家闭源厂商用常规的步伐,已经可以快速走量,压低价格。

年初震撼业界的 Sora 最后是 " 起个大早,赶个晚集 "。在国内视频生成模型的军备竞赛中,效果迅速到达世界领先水平,得到了全球客户的认可。去年圣诞节可口可乐的广告使用了可灵作为主力工具。

根据AI 产品榜统计的 2 月份应用(不含网站端,下同)数据,可灵海外版在全球认知更高,占到出海总榜的第 12 位,海外版的月活环比增幅也达到 90.55%。相比之下,曾经的当红炸子鸡 Luma 月活下降了 31%,是 2 月份统计中降速最大的应用。

现在的问题显然是,这个赛道里的参与者还不够多。

API 和本地部署问题

影响定价的另一个变量是,如果云计算平台放开了部署一些视频大模型的 API,或者用户在自己的电脑上装稍微小一点的模型,使得普通视频的制作成本降低,会不会牵动头部模型降价?

DeepSeek 官网和官方 API 在春节期间被突然涌入的流量冲击到瘫痪,但所谓 " 一鲸落,万物生 ",云计算提供商早一天部署 R1,用量早一天暴涨。   

微软、腾讯、百度均一反常态,第一时间在云服务和 C 端产品两方面接入 DeepSeek。硅基流动的日均调用量突破千亿 token,较半年前增长十倍,从名不见经传的小型云一下变得路人皆知。

现在来看视频生成模型方面。近期比较出名的开源模型,都已经在 HuggingFace 和魔搭等地开放使用。如果厂商有自己的云,也会第一时间上线部署。

作为不自带云的小厂,阶跃的模型和 Vidu 等类似,都是优先服务于自家官网平台,目前首要任务还是获得更多人的接触和使用。

不过,所有这些服务都没有出现那种 " 国运级别 " 的用量暴涨。

当然,中小型云服务商很乐意接入尽可能全面的开源模型,以便将用户锁定在自己的服务内。去年 11 月,硅基流动上线了由 Lightricks 开源的视频生成模型 LTX-Video,这是一个基于 DiT 架构的 2B 参数模型,能够在 832*480 分辨率下生成 24 FPS 的视频。

但另一个现实问题是,对视频生成模型 API 的调用,目前还缺乏一个普遍的方案。Chatbox、Cherry Studio 等网页 UI 或客户端,都只覆盖了文字对话或者文生图界面,对视频生成的界面、参数等尚未统一。

而且,从文本、图片到视频,其 token 的消耗和浪费程度是倍数上升,相对的用户用量也逐级下降。   

视频还有一个额外问题,只要预览每次 " 抽卡 " 成果,都可能带来很大的服务器负担。娱乐资本论之前探讨为什么国内视频网站的画面都是 " 糊的 ",曾经提到了平台出于服务器成本压力,不得不降低码率,用锐化等方法蒙混过关的苦衷。

云服务商自己也需要做一些性能调优,例如硅基流动的 OneDiff 加速库,据说可以使 Stable Diffusion 出图效率提升 3 倍。不过如何将类似经验迁移到视频上,真正做到给普通用户省钱,形成对商用模型的竞争态势,现在还没个谱。

至于本地部署——在自己的电脑放一个模型,当然是免费不限量的,但之前的问题是要么笨,要么慢。

DeepSeek-V3 和 R1 有大量社区用户结合 llama、qwen 进行蒸馏,使其有机会运行在 PC、Mac 甚至手机上面。这是两年多以来,用户终于可以断网运行一个基本可用的模型,本地大模型不再是 " 样子货 "。

但是在图片和视频生成方面,还没有迎来这样的时刻,目前本地小模型依然处于用起来很困难的状态。用户可以在本地部署 Stable Diffusion 已经有很长时间了,但 Midjourney 一直也没有因此而降价。

通义万相 2.1 小型的 1.3B 版本可在消费级显卡(如 RTX4090)运行,生成 480P 视频仅需 4 分钟——但没有人向你保证本机生成 480P 视频可以解决画质、一致性、细节和幻觉问题。

总之,视频和图片一样,如果一次生成不可局部修改,必须 " 抽卡 " 的局面不改变,那么现有模型仅凭画风及连续性上的细微区别,就会一直维持各自的江湖地位。

AI 视频创作彻底下沉

根据 AI 产品榜 2 月份应用数据,国内总榜中即梦排行第 9,月活环比增加 106%;Minimax 的海螺第 19(不过这是分拆改名之前的数据),环比月活也增加 10%,同时海螺以日均使用时长 6.63 分钟排在国内时长榜的第 2 位;可灵独立客户端第 23,月活环比增加 113%。

这意味着过去一个月,一些头部视频生成大模型的 C 端使用都有了大幅度增长。App 的增速上升,无疑也意味着视频制作的下沉,因为专业创作者更喜欢用 Web 端来生成。

AI 作图   by 娱乐资本论

随着豆包和元宝这两个通用 AI 客户端都加入了视频创作功能,更多下沉用户认知到 AI 视频,并且在日常生活中尝试,只是时间问题。   

在娱乐资本论 · 视智未来的《对话 AI 创业者》节目中,闪剪智能的创始人严华培提到,由于算法优化和技术更新,数字人的制作定价从最初的一个 8000 元,降至去年 8 月时的 300 多元。通过订阅制,会员可以付费后多次修改数字人形象。

但如果是以大模型路线,而不是传统数字人路线来做,那么数字人可能就会低至几块钱甚至免费了,它可能会从大厂和媒体,降到网店老板之后,进一步下沉到菜市场的摊主。

回想 DeepSeek 发布之后,似乎有很多人的 " 任督二脉 " 突然被打通。它触达了以前可能从未接触过、也从未想象过的圈层。   

父母辈使用 DeepSeek 询问子女的婚姻解法,年轻人则为自己算命、购买开运宝石,或是通过联网搜索充当购物导购。也有越来越多 AI 网文充斥各大平台,使人类作者和编辑感到痛苦。

在抖音快手等将拍短视频的自由下放给所有人之后,视频大模型的快速普及将是 " 技术民主化 " 的又一次飞跃。

事实证明,一项技术不是要等到发展成熟了才向下推广。当前的视频生成还存在清晰度、幻觉等严重的问题,但这可能并不是海量普通人在使用时会考虑的问题。

近期一些典型的 "AI 造谣 " 案件,不论是地震中小孩子的假图片,还是娱乐资本论曾经揭露的 " 江西帮 "炮制所谓 " 西安爆炸 " 假新闻,无一例外,并没有尝试做得特别逼真,只是用了最简单的,甚至是两三年前的过期 AI 技术。

当 " 抽卡自由 " 彻底释放人类的表达欲,视频内容将会汇入文本和图片的洪流,它们早已跟 AI 难解难分。我们和我们的后代所处的世界,将被生成式内容共同塑造和改变。

话题互动:

你愿意为制作 AI 视频花多少钱

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 ai 腾讯 阿里 昆仑万维
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论