从Sora惊恐到即梦反杀，中国的AI视频生成之路

马年春晚，《贺花神》美轮美奂的画面刷屏全网。紧随其后，支撑这场视觉奇观的 Seedance 2.0 模型开放 API 调用，价格一秒一块钱。

时间倒回两年前，AI 视频生成还是一个被认为 " 中国完全做不出来 " 的赛道。OpenAI 的 Sora 在 2024 年初横空出世，一支 " 女生走在东京街头 " 的 60 秒视频，画面逼真程度堪比实拍，而彼时的国产视频模型，大多只能生成 5 — 12 秒的画面，表情僵硬、手指穿模、物理穿帮都是常态，效果一眼假。

Sora 如同一记耳光，把中国 AI 行业抽懵了。面对技术威慑，中国 AI 产业不能坐以待毙，开始像小说《三体》中人类面对智子的技术封锁一样，进入各显神通的 " 面壁计划 "，最终完成了从 Sora 惊恐到即梦反杀的逆袭，把画面质量卷上天际，生成价格卷到地板。这段历史，值得在当下 AI 视频生成全面爆发的时间节点回顾一下。

2024 年初 Sora 的出现，直接让中国 AI 行业陷入了至暗时刻。那段时间，我的朋友圈里满是对中国视频生成技术技不如人的吐槽。

大家的恨铁不成钢，既来自肉眼可见的技术鸿沟，也有脑补的灾难想象。

视频生成比文本生成要复杂得多，需要同时解决空间维度的物体形态一致性、时间维度的运动连贯性、物理规律的准确模拟，还有音画同步等一系列难题。与 Sora 一对比，国产模型输得毫无还手之力。

比落后更可怕的，是这一技术壁垒看似无法逾越。

彼时全球主流的视频生成模型，是 MidJourney、Runway、DALL · E 这些海外产品。国内既没有 Sora 的 DiT 架构那样的核心技术壁垒，也没有充足的英伟达顶级显卡。行业于是悲观地推演：中国与海外的技术代差根本无法追赶，中国做不出自己的视频大模型。

总结一下 Sora 对中国 AI 带来的冲击，是多方面的。此前，国内 AI 产业的发展多依托应用层创新，而视频生成属于硬核技术赛道，没有应用层的捷径可走，一下子让行业的短板被无限放大。

而且，算力卡脖子、高质量视频训练数据匮乏等先天条件的差距，也让行业产生了追赶无望的情绪。国内从业者陷入了一场关于 " 要不要追赶 Sora" 的路线之争，多数企业不愿意第一个吃螃蟹，更让逆袭显得遥遥无期。

幸好，人类面对外部威胁，从来不会坐以待毙。中国 AI 产学各界很快行动起来，化身破解 Sora 危机的面壁者。

在 Sora 的技术威慑下，学术界、大厂、垂类企业，走出了三条不同的突围路径，逐步缩小与 Sora 的差距。

首先出发的是学术派。

一个极具反差的现象是：类 ChatGPT 的国产大语言模型破局，由百度、阿里等企业引领，而类 Sora 的国产视频生成模型突破，最先动起来的却是学术界。

Sora 发布的次日，清华大学就火速申请了文生视频相关专利，率先完成技术卡位。此后，清华联合生数科技，研发出原创的 Diffusion 与 Transformer 融合架构，一举打造出中国首个长时长、高一致性、高动态性的视频大模型，成为国内视频生成技术的开山之作。

学术界面对 Sora 威胁的积极主动对标态度，并非偶然。

一方面，类 Sora 模型的核心在于架构创新，高校和科研机构没有企业的商业包袱，能够聚焦底层技术，进行原创性的探索。此外，视频生成模型的研发是算力吞金兽，单靠企业的投入难以支撑长期的试错，而学术界能依托政策倾斜、政府算力补贴和科研基金，进行高风险、高投入的硬核研发。2024 年底，我造访长春人工智能算力中心，该中心总规模 300P 的智能算力，其中 200 多 P 都被北京某高校的 Sora 对标项目占用，来自全栈国产化的算力支持、长春市的算力补贴政策，让科研团队有了复现 Sora 的底气。

紧接着出击的，是大厂中的数据派，快手可灵、字节即梦相继上线。

2024 年 3 月，即梦 AI 依托字节跳动自研 Seedream 和 Seedance 模型，开启内测。2024 年 6 月，快手自主研发的视频生成大模型可灵上线，技术路线对标 Sora，支持生成 1080p 分辨率、最长 2 分钟的视频。

很多人会疑惑，为什么是即梦和可灵？答案是它们背靠头部视频内容平台，手握数十亿级涵盖生活、电商、剧情等各类场景的短视频语料，为模型研发提供了高质量的数据基础。模型推出后，还能借助视频内容生态启动数据飞轮，快速迭代。比如可灵在快影 App 开放测试入口，吸引平台内数百万创作者参与使用，这些源于真实创作场景的用户生成内容，又反哺模型迭代。

数据派大厂，走出了一条高效的技术追赶之路，那其他企业呢？

并非所有企业都选择全面对标 Sora，昆仑万维、阿里等企业走出了第三条路：聚焦垂类场景，打造差异化优势。

Sora 的通用型视频生成能力固然强大，但在实际使用中，用户的需求更多是精准解决某一领域的问题。于是，这些企业放弃了对通用型模型的盲目追赶，转而针对具体的业务场景，解决用户的实际痛点。

比如昆仑万维的天工大模型，将目光锁定在 AI 短剧制作场景。短剧制作对角色表情、道具还原、剧情连贯性要求极高，而此前的通用模型往往存在表情僵硬、道具失真的问题。天工大模型针对性地攻克了这些痛点，在角色表情生成、道具一致性、视频生成时长和控制性上做出优化，更适配短剧、电商广告等创作者的需求。

阿里则将重心放在生态构建与技术开源上，背靠阿里研究院和阿里云的算力支持，打造出通义万相、Qwen-Image-2.0 等视频生成模型，并选择将核心技术开源。开源不仅吸引了海量开发者参与模型的优化，更让阿里的 AI 视频能力快速嵌入到钉钉等 SaaS 工具、淘宝等电商服务中。

三支大军的并行探索，最终彻底扭转了外界对中国 AI 视频生成的悲观预期。然而，比技术更大的挑战，才刚刚到来。

技术搞定了，还得算经济账。与 Sora、runway 这类海外视频模型不同，中国 AI 视频生成的商业化探索，从一开始就面临着更严峻的挑战。

一方面，类 Sora 模型没有成熟的商业模式可借鉴，海外市场仅能依靠售卖 API、按 token 计费的单一方式变现；另一方面，国内用户的付费习惯尚未完全养成，企业用户和个人用户的付费意愿都低于海外。也就是说，前面打造出来的那些视频生成模型，每一分投入都是在超前烧钱。

在这样的背景下，倒逼中国企业探索 AI 视频生成技术的低成本落地办法。

算力，是 AI 视频生成的核心成本，也是此前中国企业的最大痛点。面临显卡供应限制，国内企业不得不另辟蹊径，从模型架构和硬件适配两个维度进行双重优化。

生数科技的 Vidu 模型打造了原创的 U-ViT 端到端高效生成架构，结合国产芯片的特性进行优化，用更少的算卡达到海外模型的同等效果。

商汤的 Seko 2.0 完成多款国产芯片适配后，单集短剧的算力成本直接减半。原本生成一条 AI 广告需要 500 元的算力消耗，适配国产芯片后，几十块钱就能搞定。

如果说算力优化是节流，商业模式的创新就是开源。

面对国内用户 " 免费一停，感情归零 " 的现状，中国企业在海外的订阅费、token 包等模式之外，还探索出了诸如平台与商家按广告收益分成、与创作者按内容播放量分账、为企业提供定制化的视频生成服务等新的变现模式。

比如创作者用快手可灵生成电商广告短视频，挂载平台内商家的商品链接，平台会根据视频的播放量、商品点击转化率，与创作者进行广告收益分成；红果短剧与制作商合作，利用 seedance 模型来降低制作成本，再根据 AI 漫剧的播放量与制作商进行分账。

可以说，中国电商、短剧、直播等丰富的互联网场景，是 AI 视频生成技术走出商业迷雾的关键。通过把技术价值与商业收益相绑定，让国产 AI 视频生成模型摆脱了只烧钱、难盈利的困境，在算力消耗与商业回报的极限拉扯中，逐步探索着可持续的商业化路径。

2025 年，是中国 AI 视频生成的破圈元年，广泛走进了大众生活。

曾经需要下载专门 APP、访问网页、输入复杂指令 prompt 才能使用的 AI 视频工具，在抖音、剪映等国民级应用中，实现了 " 拍同款 " 式的傻瓜操作。春节期间，个性化的 AI 拜年视频，成了潮流人士新年祝福的新方式。马年春晚，则是 AI 视频破圈的最高潮，字节跳动的 Seedance 2.0 模型参与《贺花神》等舞台视觉，让亿万观众直观感受到了中国 AI 视频生成的效果。

但吸引全民玩起来的同时，一系列 AI 视频生成的暗面，也随之浮现。

普通用户最大的烦恼，就是排队。春节高峰期，生成一个 10 秒的 AI 视频，最长需要等待 12 小时。如今恢复到日常使用，生成一段短视频的排队时间也需要 4 小时以上。这糟糕的使用体验，让很多用户不得不为爱充值，成为模型的付费用户，但即使花了钱，排队问题也并没有得到彻底解决。

用户苦于排队的现象背后，是仍然未解的商业魔咒。

随着 AI 视频生成技术的破圈，大量新用户涌入，平台的资源消耗也指数级增加。而 AI 视频生成的算力成本，远高于普通互联网产品，所以无法像以前支撑免费社交、免费视频那样，长期承担免费用户的算力成本。而这些新进入的免费用户，到底是爽一把就走，还是能转化为长期付费用户，还是未知数。没有确定性的商业回报，AI 视频平台也就没有动力划拨更多算力资源，而糟糕的排队等待体验，又会进一步劝退用户的付费意愿。

何时能打破这个 C 端的商业化僵局，犹未可知，B 端的问题就迎面而来。

春节过后，一些回归横店的演员们发现，曾经忙碌的片场冷冷清清，未来两个月都没有新剧开拍。

一问才知道，在短剧领域，大制作公司纷纷成立 AI 组，将核心制作环节交给 AI，小公司则直接全面转成 AI 制作，不再招聘真人演员。春晚上的技术欢呼声尚未散去，AI 对影视行业的绞杀已经开始。

以前，短剧平台会为中小承制方提供剧本库、给予保底激励，但年后，这些平台开始 AI 化转型，不再提供新的剧本资源，并加大对 AI 短剧制作的投入。红果平台还推出了针对性的补偿与激励政策，对选择使用 AI 技术进行短剧制作的合作方，按 AI 剧本等级给予不同额度的保底补偿，其中 S+ 档 AI 剧本保底可达 8 万元。

AI 吞噬短剧，证明了国产视频生成模型的能力之强，不再需要低效抽卡，对于群演、基础剪辑、简单文案撰写等重复性工作，已经可以靠 AI 进入工业化流水线式生产，显著提效。但这些岗位往往也吸纳了大量的就业人口。一旦从业者不能与行业一起转型，就会产生对 AI 技术的不满与抵触。

全民当导演是技术破圈的起点，但商业化瓶颈仍然存在，社会层面的连锁反应才刚刚拉开序幕。这些都是中国 AI 视频生成领域将长期面临的课题。

回头看从 Sora 惊恐到即梦反杀的历程，中国 AI 产学各界的从业者，在技术封锁、算力卡脖子、商业模式空白的多重困境中，各显神通，打破小院高墙。

当然，这条路远没有走到终点。排队的问题需要解决，模型的 BUG 需要修复，AI 与真人演员的共存需要探索，商业化模式需要完善……

但正如《三体》中所说：" 给岁月以文明，而不是给文明以岁月。" 科技的发展，本就是在解决问题中前进的过程。而中国科技最擅长的，就是在困境中突围，在解决问题中成长。

有理由相信，那些曾经困扰、如今仍在考验中国 AI 视频生成技术的难题，终将被逐一破解，正如我们经历过的每一次危机时刻那样。