

马年春晚,《贺花神》美轮美奂的画面刷屏全网。紧随其后,支撑这场视觉奇观的 Seedance 2.0 模型开放 API 调用,价格一秒一块钱。
时间倒回两年前,AI 视频生成还是一个被认为 " 中国完全做不出来 " 的赛道。OpenAI 的 Sora 在 2024 年初横空出世,一支 " 女生走在东京街头 " 的 60 秒视频,画面逼真程度堪比实拍,而彼时的国产视频模型,大多只能生成 5 — 12 秒的画面,表情僵硬、手指穿模、物理穿帮都是常态,效果一眼假。

Sora 如同一记耳光,把中国 AI 行业抽懵了。面对技术威慑,中国 AI 产业不能坐以待毙,开始像小说《三体》中人类面对智子的技术封锁一样,进入各显神通的 " 面壁计划 ",最终完成了从 Sora 惊恐到即梦反杀的逆袭,把画面质量卷上天际,生成价格卷到地板。这段历史,值得在当下 AI 视频生成全面爆发的时间节点回顾一下。

2024 年初 Sora 的出现,直接让中国 AI 行业陷入了至暗时刻。那段时间,我的朋友圈里满是对中国视频生成技术技不如人的吐槽。
大家的恨铁不成钢,既来自肉眼可见的技术鸿沟,也有脑补的灾难想象。
视频生成比文本生成要复杂得多,需要同时解决空间维度的物体形态一致性、时间维度的运动连贯性、物理规律的准确模拟,还有音画同步等一系列难题。与 Sora 一对比,国产模型输得毫无还手之力。

比落后更可怕的,是这一技术壁垒看似无法逾越。
彼时全球主流的视频生成模型,是 MidJourney、Runway、DALL · E 这些海外产品。国内既没有 Sora 的 DiT 架构那样的核心技术壁垒,也没有充足的英伟达顶级显卡。行业于是悲观地推演:中国与海外的技术代差根本无法追赶,中国做不出自己的视频大模型。
总结一下 Sora 对中国 AI 带来的冲击,是多方面的。此前,国内 AI 产业的发展多依托应用层创新,而视频生成属于硬核技术赛道,没有应用层的捷径可走,一下子让行业的短板被无限放大。
而且,算力卡脖子、高质量视频训练数据匮乏等先天条件的差距,也让行业产生了追赶无望的情绪。国内从业者陷入了一场关于 " 要不要追赶 Sora" 的路线之争,多数企业不愿意第一个吃螃蟹,更让逆袭显得遥遥无期。
幸好,人类面对外部威胁,从来不会坐以待毙。中国 AI 产学各界很快行动起来,化身破解 Sora 危机的面壁者。

在 Sora 的技术威慑下,学术界、大厂、垂类企业,走出了三条不同的突围路径,逐步缩小与 Sora 的差距。
首先出发的是学术派。
一个极具反差的现象是:类 ChatGPT 的国产大语言模型破局,由百度、阿里等企业引领,而类 Sora 的国产视频生成模型突破,最先动起来的却是学术界。
Sora 发布的次日,清华大学就火速申请了文生视频相关专利,率先完成技术卡位。此后,清华联合生数科技,研发出原创的 Diffusion 与 Transformer 融合架构,一举打造出中国首个长时长、高一致性、高动态性的视频大模型,成为国内视频生成技术的开山之作。

学术界面对 Sora 威胁的积极主动对标态度,并非偶然。
一方面,类 Sora 模型的核心在于架构创新,高校和科研机构没有企业的商业包袱,能够聚焦底层技术,进行原创性的探索。此外,视频生成模型的研发是算力吞金兽,单靠企业的投入难以支撑长期的试错,而学术界能依托政策倾斜、政府算力补贴和科研基金,进行高风险、高投入的硬核研发。2024 年底,我造访长春人工智能算力中心,该中心总规模 300P 的智能算力,其中 200 多 P 都被北京某高校的 Sora 对标项目占用,来自全栈国产化的算力支持、长春市的算力补贴政策,让科研团队有了复现 Sora 的底气。
紧接着出击的,是大厂中的数据派,快手可灵、字节即梦相继上线。
2024 年 3 月,即梦 AI 依托字节跳动自研 Seedream 和 Seedance 模型,开启内测。2024 年 6 月,快手自主研发的视频生成大模型可灵上线,技术路线对标 Sora,支持生成 1080p 分辨率、最长 2 分钟的视频。
很多人会疑惑,为什么是即梦和可灵?答案是它们背靠头部视频内容平台,手握数十亿级涵盖生活、电商、剧情等各类场景的短视频语料,为模型研发提供了高质量的数据基础。模型推出后,还能借助视频内容生态启动数据飞轮,快速迭代。比如可灵在快影 App 开放测试入口,吸引平台内数百万创作者参与使用,这些源于真实创作场景的用户生成内容,又反哺模型迭代。

数据派大厂,走出了一条高效的技术追赶之路,那其他企业呢?
并非所有企业都选择全面对标 Sora,昆仑万维、阿里等企业走出了第三条路:聚焦垂类场景,打造差异化优势。
Sora 的通用型视频生成能力固然强大,但在实际使用中,用户的需求更多是精准解决某一领域的问题。于是,这些企业放弃了对通用型模型的盲目追赶,转而针对具体的业务场景,解决用户的实际痛点。
比如昆仑万维的天工大模型,将目光锁定在 AI 短剧制作场景。短剧制作对角色表情、道具还原、剧情连贯性要求极高,而此前的通用模型往往存在表情僵硬、道具失真的问题。天工大模型针对性地攻克了这些痛点,在角色表情生成、道具一致性、视频生成时长和控制性上做出优化,更适配短剧、电商广告等创作者的需求。

阿里则将重心放在生态构建与技术开源上,背靠阿里研究院和阿里云的算力支持,打造出通义万相、Qwen-Image-2.0 等视频生成模型,并选择将核心技术开源。开源不仅吸引了海量开发者参与模型的优化,更让阿里的 AI 视频能力快速嵌入到钉钉等 SaaS 工具、淘宝等电商服务中。
三支大军的并行探索,最终彻底扭转了外界对中国 AI 视频生成的悲观预期。然而,比技术更大的挑战,才刚刚到来。

技术搞定了,还得算经济账。与 Sora、runway 这类海外视频模型不同,中国 AI 视频生成的商业化探索,从一开始就面临着更严峻的挑战。
一方面,类 Sora 模型没有成熟的商业模式可借鉴,海外市场仅能依靠售卖 API、按 token 计费的单一方式变现;另一方面,国内用户的付费习惯尚未完全养成,企业用户和个人用户的付费意愿都低于海外。也就是说,前面打造出来的那些视频生成模型,每一分投入都是在超前烧钱。
在这样的背景下,倒逼中国企业探索 AI 视频生成技术的低成本落地办法。
算力,是 AI 视频生成的核心成本,也是此前中国企业的最大痛点。面临显卡供应限制,国内企业不得不另辟蹊径,从模型架构和硬件适配两个维度进行双重优化。
生数科技的 Vidu 模型打造了原创的 U-ViT 端到端高效生成架构,结合国产芯片的特性进行优化,用更少的算卡达到海外模型的同等效果。

商汤的 Seko 2.0 完成多款国产芯片适配后,单集短剧的算力成本直接减半。原本生成一条 AI 广告需要 500 元的算力消耗,适配国产芯片后,几十块钱就能搞定。
如果说算力优化是节流,商业模式的创新就是开源。
面对国内用户 " 免费一停,感情归零 " 的现状,中国企业在海外的订阅费、token 包等模式之外,还探索出了诸如平台与商家按广告收益分成、与创作者按内容播放量分账、为企业提供定制化的视频生成服务等新的变现模式。
比如创作者用快手可灵生成电商广告短视频,挂载平台内商家的商品链接,平台会根据视频的播放量、商品点击转化率,与创作者进行广告收益分成;红果短剧与制作商合作,利用 seedance 模型来降低制作成本,再根据 AI 漫剧的播放量与制作商进行分账。

可以说,中国电商、短剧、直播等丰富的互联网场景,是 AI 视频生成技术走出商业迷雾的关键。通过把技术价值与商业收益相绑定,让国产 AI 视频生成模型摆脱了只烧钱、难盈利的困境,在算力消耗与商业回报的极限拉扯中,逐步探索着可持续的商业化路径。

2025 年,是中国 AI 视频生成的破圈元年,广泛走进了大众生活。
曾经需要下载专门 APP、访问网页、输入复杂指令 prompt 才能使用的 AI 视频工具,在抖音、剪映等国民级应用中,实现了 " 拍同款 " 式的傻瓜操作。春节期间,个性化的 AI 拜年视频,成了潮流人士新年祝福的新方式。马年春晚,则是 AI 视频破圈的最高潮,字节跳动的 Seedance 2.0 模型参与《贺花神》等舞台视觉,让亿万观众直观感受到了中国 AI 视频生成的效果。

但吸引全民玩起来的同时,一系列 AI 视频生成的暗面,也随之浮现。
普通用户最大的烦恼,就是排队。春节高峰期,生成一个 10 秒的 AI 视频,最长需要等待 12 小时。如今恢复到日常使用,生成一段短视频的排队时间也需要 4 小时以上。这糟糕的使用体验,让很多用户不得不为爱充值,成为模型的付费用户,但即使花了钱,排队问题也并没有得到彻底解决。
用户苦于排队的现象背后,是仍然未解的商业魔咒。
随着 AI 视频生成技术的破圈,大量新用户涌入,平台的资源消耗也指数级增加。而 AI 视频生成的算力成本,远高于普通互联网产品,所以无法像以前支撑免费社交、免费视频那样,长期承担免费用户的算力成本。而这些新进入的免费用户,到底是爽一把就走,还是能转化为长期付费用户,还是未知数。没有确定性的商业回报,AI 视频平台也就没有动力划拨更多算力资源,而糟糕的排队等待体验,又会进一步劝退用户的付费意愿。

何时能打破这个 C 端的商业化僵局,犹未可知,B 端的问题就迎面而来。
春节过后,一些回归横店的演员们发现,曾经忙碌的片场冷冷清清,未来两个月都没有新剧开拍。
一问才知道,在短剧领域,大制作公司纷纷成立 AI 组,将核心制作环节交给 AI,小公司则直接全面转成 AI 制作,不再招聘真人演员。春晚上的技术欢呼声尚未散去,AI 对影视行业的绞杀已经开始。
以前,短剧平台会为中小承制方提供剧本库、给予保底激励,但年后,这些平台开始 AI 化转型,不再提供新的剧本资源,并加大对 AI 短剧制作的投入。红果平台还推出了针对性的补偿与激励政策,对选择使用 AI 技术进行短剧制作的合作方,按 AI 剧本等级给予不同额度的保底补偿,其中 S+ 档 AI 剧本保底可达 8 万元。
AI 吞噬短剧,证明了国产视频生成模型的能力之强,不再需要低效抽卡,对于群演、基础剪辑、简单文案撰写等重复性工作,已经可以靠 AI 进入工业化流水线式生产,显著提效。但这些岗位往往也吸纳了大量的就业人口。一旦从业者不能与行业一起转型,就会产生对 AI 技术的不满与抵触。
全民当导演是技术破圈的起点,但商业化瓶颈仍然存在,社会层面的连锁反应才刚刚拉开序幕。这些都是中国 AI 视频生成领域将长期面临的课题。

回头看从 Sora 惊恐到即梦反杀的历程,中国 AI 产学各界的从业者,在技术封锁、算力卡脖子、商业模式空白的多重困境中,各显神通,打破小院高墙。
当然,这条路远没有走到终点。排队的问题需要解决,模型的 BUG 需要修复,AI 与真人演员的共存需要探索,商业化模式需要完善……

但正如《三体》中所说:" 给岁月以文明,而不是给文明以岁月。" 科技的发展,本就是在解决问题中前进的过程。而中国科技最擅长的,就是在困境中突围,在解决问题中成长。
有理由相信,那些曾经困扰、如今仍在考验中国 AI 视频生成技术的难题,终将被逐一破解,正如我们经历过的每一次危机时刻那样。



