
新的 10 亿美金公司仍会产生,对于创业公司来说只有变化是不变的
出品|虎嗅科技组
作者|SnowyM
编辑|陈伊凡
头图|AI 生成
"AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「53」篇文章。
2021 年初,两个年轻人花了两天时间做了一个自动字幕 App。上线没几天,它就冲上了 App Store 排行榜榜首。
听起来是个好的开始。但这两个人觉得字幕工具太 " 小 " 了,不够性感,于是转头去做了一个照片分享应用,想抓住 Instagram 从照片转向视频时留下的空白。照片 App 确实拿到了五六万日活用户,也顺利完成了 A 轮融资。
而那个字幕 App 被他们扔在了付费墙后面,停了维护,停了更新,彻底遗忘了。创始人 Gaurav Misra 的个人苹果账户里堆了几千封用户客服邮件,一封都没读。
一年半之后,他们偶然打开后台,发现了一件离谱的事:这个没人管的 App,自己长到了 50 万用户,赚了 50 万美元。
这个被遗忘又被捡回来的产品,就是今天刚刚拿到 General Catalyst 7500 万美元、估值 5 亿美元、累计融资 1.75 亿美元的 AI 视频平台 Mirage 的前身 Captions。
在 AI 视频赛道竞争最激烈的 2026 年,Mirage 走了一条很特别的路。它既没有像 Runway 那样瞄准电影级的视频生成,也没有像 Synthesia 那样全力押注企业数字人培训。它死磕的是一件更大众的事:让普通人和小团队也能快速做出好看的短视频。
带着 a16z、红杉、Kleiner Perkins、Index Ventures 这些顶级机构给的钱,和超过 2000 万全球用户,这家公司正试图证明,AI 视频赛道里最大的机会,可能藏在最日常的场景里。
Mirage 的转型,是 AI 时代,AI 视频公司一个非常典型的样本。L2F 光源创业者基金投资总监 Lela 一直在一线密集看许多 AI 视频的项目,她告诉虎嗅,视频模型群雄逐鹿,国内外均有几十亿美金的创业公司,大模型公司和大厂也均有布局,应用公司的突围方式更多要回归创作本身。
在前几年,创业公司会更多聚焦在单点功能和交互方式的创新上,比如 captions 的字幕,对口型,虚拟形象;还有 typenow 主推的画布交互,出发的基点都是创作者在 ai 时代与 agent 产生的新交互。随着模型能力的提升,模型端到端完成任务的能力趋强,创作者的心智也在改变,交互将会变得更为简单,底层的工程框架和创作者 knowhow/skill 的积累会成为新一代视频 agent 的核心资产,市场会一直处于红海状态,新的 10 亿美金公司仍会产生,对于创业公司来说只有变化是不变的。
Lela 的话,也指出了 Mirage 这家公司未来的挑战,他们正是从 Captions 起家,迅速跑起来,然后再 Pivot(转型)最后成为一个让 AI 端到端完成从素材到成片的工作流的平台。

从一个字幕工具到 AI 视频全栈平台
Captions 最早能跑起来,靠的是一个特别朴素的洞察:人们越来越多地在无声状态下刷短视频。
地铁上、办公室里、深夜躺在床上,手机静音是常态。TikTok、Instagram Reels、YouTube Shorts 上的内容,有很大比例是在没有声音的情况下被消费的。a16z 在投资 Captions 时就专门提到了这一点:无声观看让字幕和文字覆盖变成了短视频的刚需,而当时市面上的字幕工具要么太粗糙,要么太贵。
Captions 做的事情很简单:给视频自动加字幕,支持 100 多种语言,还能自定义字体、颜色、动画效果。就这么一个看起来不起眼的功能,上线 6 个月就做到了 10 万日活用户。
但字幕只是起点。
2023 年开始,Captions 进入了功能爆发期。它推出了 AI 口型同步配音(Lipdub),能把视频里的语音翻译成 28 种语言,同时让说话人的嘴型和翻译后的语音匹配上。2025 年的新版音频模型甚至能保留说话者原本的口音特征,这在行业里很领先。
紧接着是 AI 虚拟形象(AI Creator),号称全球第一个专为内容创作设计的 3D 数字人,用户不用真人出镜就能生成逼真的视频。然后是 AI 一键编辑,系统自动给视频加转场、插入 B-roll 素材、配音乐和音效,提供 21 种以上的预设风格。还有 AI 眼神矫正,让说话的人看起来始终在直视镜头。

这些功能单拎出来看都挺厉害,但 Captions 把它们全部塞进了同一个 App 里。一个从没剪过视频的普通人,打开 Captions,录一段话,点几下,就能拿到一条看起来像专业团队产出的短视频。
2025 年 9 月,公司做了一件引起行业关注的事:从 Captions 更名为 Mirage。
这次改名背后有很明确的信号。创始人 Gaurav Misra 在官方声明里说:「在我们看来,AI 视频的真正竞赛还没有开始。Mirage 这个名字代表了我们更大的愿景——通过前沿 AI 研究和模型,从短视频开始,重新定义视频这个品类。」
改名之后的架构是这样的:Mirage 作为母公司品牌,旗下保留 Captions(消费者创作应用)和新开辟的 Mirage Studio(面向品牌和营销团队的企业平台)。更核心的变化在技术层。公司从头训练了自己的基础模型,包括 Mirage Video(音频到视频的生成模型)和 Mirage Audio(可控的表现力音频生成模型)。
这两个模型的特别之处在于,它们是专门为短视频场景设计的。传统的 AI 视频模型追求的是通用的画面生成能力,但 Mirage 的模型关注的是短视频里最核心的三个变量:节奏、构图和注意力动态。
简单说,就是什么时候切画面、画面怎么摆、怎么在前几秒抓住观众的注意力。这些东西对专业剪辑师来说是直觉,Mirage 要做的是把这种直觉变成模型能力,让 AI 替你做出这些判断。
Mirage 官方把这种方法叫做 "Assembly Intelligence(组装智能)",核心思路是把多个专门的 AI 模型组合在一起,分别负责节奏、构图、注意力和音频,最后输出一条完整的视频。
在赚钱这件事上,Mirage 用的是订阅制加积分制的组合。免费版提供基础功能,Pro 版每月 9.99 美元(200 积分),Max 版 24.99 美元(500 积分),Scale 版 69.99 美元(1400 积分),企业版定制价格。AI 功能按积分消耗,比如用 AI 生成视频按秒计费,用对话式编辑按消息计费。这种模式的好处是,把后台的 AI 算力成本透明化了,用户用多少付多少。
另一个让人意外的数字是,Captions 在 2023 年 B 轮融资时就已经实现了正现金流,这在 AI 创业公司里几乎没人做到过。根据 AppFigures 的数据,过去 12 个月 Captions 的应用内收入约为 2840 万美元,其中 75% 来自美国以外的市场,全球化能力很突出。
融资路径也非常清晰。种子轮和 A 轮由红杉和 a16z 联合领投,2023 年 B 轮 2500 万美元由 Kleiner Perkins 领投,2024 年 C 轮 6000 万美元由 Index Ventures 领投,估值达到 5 亿美元。2026 年 3 月,公司又拿到了 General Catalyst 旗下 Customer Value Fund 的 7500 万美元增长融资,累计融资超过 1.75 亿美元。
General Catalyst 给这轮钱用的是一种特殊的 " 非稀释性资本 " 结构,之前只有 Stripe 和 Gusto 拿过类似的钱。General Catalyst 常务董事 Pranav Singhvi 对 Mirage 的评价是:Mirage 的商业方程式非常成熟。他们清楚知道怎么花每一美元,并且产生很强的投资回报。如果你想想他们面对的市场,这在某种意义上是一个无限大的可寻址市场。

一个 Snap 设计主管和一个高盛产品经理
Mirage 的两位创始人背景差异很大,但刚好拼成了一块完整的拼图。
Gaurav Misra,CEO,出生在波士顿,4 岁搬回印度新德里长大。在印度,计算机科学从小学就开始教,Misra 8 到 10 岁就跟哥哥一起编程做游戏了。后来他去波士顿大学读了计算机科学,在学校里学了机器学习的课程。
毕业后他先后在微软 Azure 团队和几家创业公司干过,2016 年加入 Snap,一待就是 5 年。他在 Snap 做到了设计工程负责人(Head of Design Engineering),这是一个融合设计和工程的混合角色,专门负责创新和新产品方向。Snap Map、Spotlight(Snap 对标 TikTok 的短视频产品),他都参与了。
在 Snap 的这 5 年里,Misra 亲眼看到了短视频从一种内容形式变成了全球最主流的表达方式。 TikTok 爆发、Reels 跟进、Shorts 入场,短视频吞噬了几乎所有人的注意力。但他同时也发现,绝大多数想做短视频的人根本不会剪辑。拍摄多次、剪辑门槛高、配音和字幕费时费力,这些摩擦拦住了大量潜在的创作者。
另一位创始人 Dwight Churchill,COO,走的是完全不同的路线。他在高盛做过消费金融平台 Marcus 的产品开发,是 Marcus 团队的早期成员。在高盛之前,他还在 Taboola 做过开发,后来转型成了产品经理。增长和商业化是他的强项,他很清楚怎么把一个产品变成一门生意。
两个人最早在一家叫 Localytics 的移动分析公司认识,当时在不同团队工作,但都留意到了同一件事:短视频平台正在疯狂增长,可是做视频的门槛完全没有降下来。
2021 年初,两人先后离开大公司,凑在一起,花了两天时间做出了第一个产品原型。这就是前面提到的字幕 App。上线几天冲到 App Store 榜首,但每个月自费超过 1 万美元维护服务器,两个人扛不住成本压力,决定先转向做照片社交。
后面的事情我们已经知道了。照片 App 拿到了融资和日活,但被遗忘的字幕 App 在没有任何推广和维护的情况下自己增长到了 50 万用户、50 万美元收入。
这个数据说明了一件事:市场在用钱投票。
Misra 和 Churchill 反复讨论之后,做了一个让投资人和团队都有点紧张的决定:砍掉照片分享 App,所有资源转向 AI 视频。用 Misra 后来的话说,这是他职业生涯中机器学习、设计和快速产品原型制作完美交汇的时刻。
从管理风格来看,Misra 很推崇速度和取舍。他有几个被团队反复引用的原则:「每个工程师每周都应该发布一个可以推向市场的东西」,如果时间不够,就 「砍范围,砍到再砍就没用了为止」,以及 **「作为初创公司,你的工作就是承担技术债务」**。
公司内部有两套产品路线图:一套基于用户需求,对外公开;另一套充满实验性的创新想法,只在内部流通。Misra 认为,最大的胜利往往来自那些没人预见到的东西。
在招人上,Mirage 的标准卡得很死。Churchill 曾经在 LinkedIn 上发布了一个帖子,2025 年,公司工程岗的候选人录取率只有 0.05%。做个对比,Ramp 是 0.23%,Y Combinator 是 1%,哈佛大学本科录取率是 2.58%。

一个极度拥挤的赛道和 Mirage 的生存逻辑
先看看 Mirage 正在进入的这个市场有多大。
AI 视频编辑工具市场 2024 年规模约 16 亿美元,到 2030 年预计将达到 93 亿美元,复合年增长率超过 42%。如果把视野放得更宽,整个 AI 视频市场(包括生成、编辑、分发)在 2024 年就已经是 112 亿美元 的体量,到 2034 年预计膨胀到 2460 亿美元。

但数字再大,也需要有人买单。买单的人是谁?是全球超过 2 亿的内容创作者。
高盛估算,创作者经济在 2024 年的规模大约是 2500 亿美元,预计到 2027 年将逼近 5000 亿美元。这些创作者中,84% 已经在使用 AI 工具。但同时,超过一半的创作者年收入不到 1.5 万美元,这意味着他们对工具价格非常敏感。任何想在这个市场里站住脚的产品,都必须足够便宜,或者足够让人觉得 " 值 "。
市场够大,但竞争也够残酷。
大厂们早就动手了。 CapCut(字节跳动旗下)是 Mirage 在消费级市场遇到的最大对手。2025 年,根据 breakevenpointcalculator 统计,CapCut 的收入达到 8.15 亿美元,是全球收入最高的照片和视频应用。月活用户超过 3 亿,Android 端下载量超 10 亿次,在移动视频编辑领域占据 81% 的市场份额。更关键的是,CapCut 基本免费,背后还有 TikTok 的巨大分发渠道。
Adobe 在把 AI 全面嵌入 Premiere Pro 和 After Effects,Firefly Video Model 已经进入公测,还支持第三方模型接入。Google 通过 Veo 模型和 YouTube Shorts 生态切入。Meta 也推出了免费的 Edits 视频编辑应用,直接对接 Instagram 和 Facebook 的分发体系。
对用户来说,这些功能几乎是 " 顺手就能用 " 的体验,不用额外安装,不用学习成本,也不用额外花钱。
创业公司这边,竞争同样激烈。
Runway 是 AI 视频生成领域的标杆,累计融了 5.44 亿美元,最新估值 30 亿美元,年化收入约 9000 万美元。
Synthesia 是企业级 AI 视频的头部,它的数字人平台提供 230 多个虚拟形象,支持 140 多种语言,超过 90% 的财富 100 强企业是它的客户。2025 年,Synthesia 甚至拒绝了 Adobe 一笔 30 亿美元的收购要约。
HeyGen 的客户年增长率超过 1000%,Descript 年化收入接近 1 亿美元,Opus Clip 拿了超过 6000 万美元融资做 AI 视频裁剪。光是 2025 年 1 月以来,AI 视频领域的创业公司就总共筹集了超过 5 亿美元的新资金。
这里有一个更深层的问题:AI 视频功能正在快速商品化。 以前需要几个月才能做出来的功能,现在几周就能复制。a16z 合伙人 Justine Moore 说得很直接:下一阶段的差异化不在生成层,而在 " 编辑层 "。谁能把 AI 变成一个隐形的后期制作团队,谁就能赢。
这也是 Mirage 从 Captions 改名背后更深的逻辑。它不想只做一个 App,它想做一个平台,一个让 AI 端到端完成从素材到成片的工作流的平台。CEO Misra 在 2026 年的融资公告里说了一句很有意思的话:在 AI 时代,光有好产品不够。赢在获客效率和增长速度。
这句话可以理解为,Mirage 已经意识到,在一个功能趋同、竞争越来越激烈的市场里,技术优势的保质期越来越短。真正的护城河,可能是分发效率和资本效率的组合。
Gaurav Misra 说过一句话,被反复引用:AI 视频的真正竞赛还没有开始。
放在 2026 年的语境下看,这句话有两层意思。一层是乐观的:AI 视频的市场还远远没有到天花板,机会依然巨大。另一层更冷静:目前的格局随时可能被推翻,谁也不知道最终赢家是谁。
回看 Mirage 这 5 年的路,从两天做出的字幕原型,到被遗忘一年半后自己长出来的产品,再到砍掉照片 App 全力转向 AI 视频,它的每一次关键转折都来自于对市场信号的敏感捕捉。用户用脚投票说字幕是刚需,他们就回头做字幕。短视频创作者需要更低门槛的生产工具,他们就把所有 AI 功能塞进一个 App。后来发现企业也需要批量生成短视频广告,他们又开了 Mirage Studio。
这家公司最特别的地方可能就在这里:它从来没有什么宏大的起点,一直是被市场推着走的,但每一步都踩对了。
在 AI 视频这个赛道里,大厂有钱有渠道,创业公司有速度有创意。Mirage 的赌注是,在这两者之间存在一个精确的生态位:用自研模型的技术壁垒加上全球化分发的效率,在短视频这个最大众、最高频的场景里跑出来。
这个赌注能不能赢,取决于三件事:自研模型能不能持续领先、企业客户能不能真正跑起来、全球监管收紧的环境下能不能守住合规底线。
但至少有一件事是确定的:当一个没人管的 App 自己长出了 50 万用户和 50 万美元收入的时候,它背后代表的那个需求,是真实的。


登录后才可以发布评论哦
打开小程序可以发布评论哦