融了2000万美金，这家2000万美金ARR的AI公司，推出“视频版Photoshop”「Buzzy」

文｜周鑫雨

编辑｜杨轩

一句话介绍

Buzzy（https://www.buzzy.now/）是 AI 内容创作公司 " 感知阶跃 " 旗下的视频编辑 Agent 平台，主要面向 C 端内容创作者和中小型商家。

好比 " 视频版的 PhotoShop"，用户只需下达自然语言指令，就能驱动 Agent 对视频进行背景去除、光线修正、产品替换、背景 / 视角更改等编辑操作。

团队介绍

" 感知阶跃 " 创始人兼 CEO Ella Zhang（张诗莹），曾在苹果、Oculus VR、Google 负责核心产品。

在苹果期间，她曾为 AirPods 产品线创始团队核心成员，负责产品的系统集成和全周期设计落地，包括音频产品的架构设计、元器件选型、原理图绘制、版图设计、验证以及大规模生产。

此后，张诗莹又在 Google 担任 AR 产品的系统架构师，负责 Glass、Reflector 等产品的算法和架构研发。

" 感知阶跃 " 其余核心成员，来自 Adobe、小米、商汤等公司。

融资进展

近期，" 感知阶跃 " 完成了新一轮融资，金额超过 2000 万美元，领投方为 Redpoint（红点创投）。深渡资本担任本轮独家财务顾问。

产品及业务

在张诗莹看来，随着视频生成模型性能的发展，生成类的工具赛道，已经逐渐 " 红海 "。她将市面上的视频创作工具，大致分成了两类：

一类是 " 画布型 " 产品，优点在于可以通过手动控制，保证生成结果的质量，但缺点是对大多数用户而言，使用门槛高；另一类则是向用户提供预制的 workflow 和模板，劣势在于不够灵活，同时，idea 不够创新。

" 用户更倾向于一次性生成整段视频，并通过不断迭代修改的方法来修到完美方案。所以一个指哪打哪的视频编辑器就变成了刚需。"

当下，由于视频的连贯性以及模型理解能力的局限性，用户很难通过 Chat 的方式，对视频进行换背景、换人物、消除某元素的 " 局部精修 "。大多 AI 编辑器会改变整个画面，接近于重新生成。

近期，" 感知阶跃 " 上线的新产品 Buzzy，就是一款 AI 视频编辑器，让用户可以像 P 图一样便捷地 "P 视频 "。

只需要通过 Chat，Buzzy 就可以对视频完成去除背景路人、修正光线、替换产品、合拍、更改背景与视角等操作，真正实现局部精修。

△背景路人去除。左：去除后；右：去除前。图源：受访者供图

△改变光线。上：改变前；下：改变后。图源：受访者供图

△拍摄角度改变。左：改变后；右：改变前。图源：受访者供图

做到对视频的局部编辑、维持其余部分，技术门槛并不低。张诗莹告诉我们，局部编辑要求视频模型有更高的视频和语言理解能力，" 首先它要识别修改的部分到底是什么、在哪里出现，其次它还要准确理解用户的意图，比如 prompt 中的梗。"

为此，" 感知阶跃 " 基于 RLHF（人类反馈强化学习），训练了一个小模型，来增强 Buzzy 对视频编辑的理解。

与此同时，Buzzy 也被设计为一个能够自主学习用户审美和品味的 Agent。

Buzzy 上线了一个 " 类 OpenClaw" 的 Bot。用户可以通过扫码，直接将 Bot 接入 Telegram 和 WhatsApp 中。

通过向 Bot 分享 TikTok、YouTube 上的视频链接，Bot 会自动分析用户的视频偏好和品味，基于该视频风格 24*7 自动全网搜索灵感素材，并将该风格沉淀为 Skill。

风格沉淀。图源：受访者供图

此前，自 2021 年成立以来，" 感知阶跃 " 经历了两次内容创作产品迭代：

在 Midjourney、Stable Diffusion 等文生图产品爆发之前，" 感知阶跃 " 就基于 GAN（生成对抗网络），开发出了第一款面向国内 B 端电商客户的 AI 模特图生成平台 ZMO.ai，并在后续将落地场景扩展到商品图设计、编辑等场景。

ZMO. 图源：受访者供图

占据先发优势的 ZMO.ai，MAU 一度达到了 700 万。

2024 年起，视频生成赛道随着 Sora 的发布，迎来了一个小爆发。在风口中，" 感知阶跃 " 叫停了 ZMO.ai，并在 2024 年 4 月上线了涵盖图片、视频的内容创作平台 Creati。

相较于聚焦电商、广告图片生成和编辑的 ZMO.ai，Creati 将内容创作扩展到了视频领域，包括文生视频、基于视频模板二创等功能。

与此同时，它为用户提供了移动端产品。不少非专业内容生产者，就可以直接用手机拍摄素材后，直接在 App 端完成内容的创作、编辑和发布，而非辗转导入电脑。

" 用户对 AI 生视频的需求，比图片更刚一些。" 张诗莹提到，" 在传播效果上，无论在社媒端，还是广告端，视频都比图片更能吸引注意力。与此同时，用户拍视频的难度，比做图片高很多。"

Creati。图源：受访者供图

同样转变的还有目标用户。ZMO.ai 的主要客户，是国内 B 端的电商、广告商。但很快，张诗莹发现，即便 ZMO.ai 用户增长很快，但流量并没有转化为实际的付费。

核心原因在于，其一，" 大 B" 客户的结款周期过长；其二，图片的创作成本比视频更低，因此用户对图片的付费意愿不够高。

Creati 则是一款面向 " 大 C 小 B" 的产品：C 端内容创作者，以及中小商户。张诗莹告诉《智能涌现》，" 大 C 小 B" 是付费意愿最高的人群，" 更大的 B 端企业倾向于自研工作流 "。

上线一年，Creati 的全球用户量就突破了千万级别。产品 ARR（年度经常性收入），一度达到了 2000 万美金。

商业模式

靠用户订阅，覆盖 Token 消耗成本，是目前 AI 软件的主流商业模式。但张诗莹认为，订阅是 SaaS 时代的商业模式，Agent 时代的商业模式应该为效果付费，而不应该为成本付费。

她告诉《智能涌现》，现阶段，用户依然将 Agent 视作工具，而非创造价值的人。

当 Agent 可以覆盖内容生成、发布、投放、A/B Test、效果分析、二创等创作全流程，Agent 的商业模式，应该与人类 Agency 越来越相似，" 收费模式不会是订阅，而更多会采用分佣的形式。"

Founder 思考

大多数非专业用户的内容创作场景，主要在 Mobile 端，而非 PC 端。

不少商家、非专业内容创作者，习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是，创作工具往往集中在 PC 端。这就会导致内容创作链路的断裂。

因此，无论 Creati，还是 Buzzy，我们都向用户提供了 MobileApp 产品，让素材的获取、内容创作和编辑、发布，都可以在手机上完成。

当 AI 生成视频技术足够成熟，应用层能做的事只有两块：内容生成之前，以及内容生成之后。

内容生成之前，应用层解决的是产生创意的问题；内容生成之后，需要解决的是 " 怎么改 " 的问题。

应用层不应该去做模型层的事，因为模型一定会变得足够好。

当下有很多 " 套壳 " 视频模型能力的产品，无论是 " 画布 "，还是 workflow，解决的都是模型能力不够强的问题，比如 " 抽卡 "、视频生成长度有限。

但未来，模型层一定会解决生成质量和长度的问题。应用层的机会，就在于解决生成环节之外的问题。

未来，Skill 会成为可以交易的资产。

Skill 本质上是用户沉淀下的品味、认知，以及工作流。就创作领域而言，人的审美和品味，以及掌握找素材的技能，都是有价值的。

因此未来，卖 Skill 可能会成为一种商业模式。

新的时代，应该独立开发新的产品，而不是在旧产品上加上一个新入口。

Buzzy 和 Creati 是两代完全不同的产品。Creati 聚焦生成，Buzzy 聚焦生成后的编辑。不同代的产品，会形成不同的用户心智。

所有的 Go Viral（走红）都很偶然，产品不应该过分追求 Go Viral。

很多用户刚需，其实不具备在社媒上 Go Viral 的潜质，比如 PDF Editor，但它们的用户量非常大。

根据我们的经验，能够 Go Viral 的产品有几个特点：第一，产品形态、设计比较创新；第二，实用，只有解决了用户的痛点，他们才愿意自发传播；第三，降低用户生产有趣内容的门槛。

欢迎交流！

宙世代

一起剪

相关标签