文 | 光锥智能,作者|魏琳华,编辑|王一粟
"90% 的 Agent 会被大模型吃掉。"
7 月 15 日,金沙江创投主管合伙人朱啸虎一如既往地语出惊人,这次炮轰的是近一年 AI 圈最炙手可热的 Agent。
在 "Agent 之年 " 进程过半的时候,最近传来的似乎却多是悲观的判断和信息。就在上周,Manus 总部迁移至新加坡、国内裁员 80 人以及放弃国内版本上线的一系列动态,也让大众开始讨论起,Manus 到底怎么了?
背后有身为美元基金的 BenchMark 领投、底层模型包含 Gemini、Claude 等一系列海外模型,加之曾陷入缺算力资源的传闻,Manus 的出走,已经印证为形势所迫的转移和调整,而非经营失败导致的撤退。
但围绕以 Manus 为首的通用 Agent,它们头顶的乌云尚未散去:一边是 Manus、Genspark 们收入变现的下滑,另一边是用户活跃度的下跌。
这种局面,揭示了当下通用 Agent 赛道的核心问题:在技术热潮和资本狂欢过后,产品尚未找到能让广大 C 端用户持续 " 忠诚 " 并为之付费的杀手级应用场景,只能被偶尔拿来做个半成品 PPT、找几份报告。
通用 Agent 市场,正在被模型能力的溢出蚕食,也被垂类 Agent 抢走份额。
转战海外,Manus 们怎么了?
通用 Agent,陷入了一个尴尬的境地。
在几个月的时间里,通用 Agent 诞生时的惊艳不复存在:放在企业里,它无法和垂类 Agent 的精准比肩;拿到个人手上,它又没有找到更戳中用户需求的场景。
模型能力的提升,先对 Agent 们 " 砍了一刀 "。
随着大模型能力的飞速发展,模型本身正在变得越来越 "Agent 化 ",随着模型性能的溢出,用户可以直接调用模型来完成任务。
以目前进展更快的 AI 代码为例,Anthropic 的 Claude、谷歌的 Gemini 系列模型,模型本身的编码能力就在随着更新提升,其自研的编码工具(如 Claude Code)不仅能给实现自主编程,优化种种产品体验之外,它的 Max 会员模式还支持用户随意调用自家模型,即使是每百万输出 tokens 收费 75 美元的 Opus 4,单月 200 美元同样支持不限量使用。
对比 Manus 最贵的 Pro 会员每月 199 美元的付费模式,价格虽然接近,但 Manus 的最高档会员依旧是以积分制消费,Pro 会员单月能获得每日赠送的积分 + 单月 19900 积分 + 限时 19900 积分,靠任务消耗积分制来服务。按照单个任务 100 积分估算,一天使用次数也就在 10 次左右。
制约 Manus 的成本问题,转嫁到用户身上,就是不可消除的高订阅价。
当模型本身就能提供接近 Agent 的体验时,用户会自然倾向于直接使用更便宜、更便捷的模型 API 或对话界面,而非额外付费使用一个功能重叠的通用 Agent 产品。这导致一部分市场份额被能力日益强大的基础模型直接 " 吃掉 "。
面向用户来说,对比垂类 Agent,通用 Agent 在企业端的应用效果不佳,从效率 / 成果衡量,都无法达到 " 数字员工 " 的高度。
朱啸虎说 "90% 的 Agent 市场会被吃掉 ",但他所在的金沙江创投也参与了 AI Agent 项目融资,只是相比于通用 Agent,他更看好能真正跑出效率和实际落地的产品。
金沙江投资的 Head AI(原 Aha Lab),就是一家靠 AI Agent 做自动化营销的公司,现在升级为 AI 营销产品。用创始人的话来说,只需告诉 Head 你的预算和网站,它就能自动搞定达人营销、联盟营销和 Cold Email ——一个人解决一个市场部。
对于企业用户而言,准确度和成本是核心诉求。但通用 Agent 目前还无法与针对特定场景优化的垂类 Agent 相提并论。
如果把一样的任务交给通用 Agent 和企业内部的垂类 Agent 去做,前者只能靠搜索引擎结合需求给出结果,而后者则会连接到企业内部搭建好的知识库,根据内部信息贴合需求输出,相当于后者身上 " 绑 " 了个更充足的资料库,结果不言而喻。
企业在引入新技术时,对成本和风险的控制要求极高。通用 Agent 通常基于庞大而复杂的 " 黑盒 " 模型,其决策过程不透明,且输出结果存在一定的随机性(即 " 幻觉 " 问题)。对准确度要求更高的企业,显然无法接受通用 Agent 不稳定的输出质量。
一位 Agent 开发者告诉光锥智能,企业通常需要将 Agent 与内部知识库、业务流程系统深度集成,部分简单的工作则会通过工作流来确保任务准确执行。
夹在大模型和垂类 Agent 之间,通用 Agent 被两者各自瓜分走了一大块蛋糕。
没场景、待进化,Agent 才走了个开头
在 " 用不起来 " 的情况下,用户对通用 Agent 热情也不复当初。
这也导致,以 Manus 们为代表的 C 端通用 Agent 正在面临增长放缓、甚至倒退的困境。
虽然从商业化上来说,通用 Agent 确实展现了足够吸金的一面。以 Manus、Genspark 等通用 Agent 为代表,近几个月的变现成绩证明了这个赛道的潜力:非凡产研数据显示,今年 5 月,Manus 已经达到 936 万美元 ARR(年化收入),Genspark 更是在发布 45 天的情况下,达到 3600 万美元 ARR。
但在短期的流量上涨过后,通用 Agent 产品们或多或少地出现了访问量和收入下降的情况。
6 月,Manus 访问量为 1781 万,和 3 月发布即登顶的访问量 2376 万相比,已经下跌 25%;Genspark 的访问量也处在来回浮动的状态,6 月访问量为 842 万次,下降 8%,昆仑万维天工超级智能体下降 3.7%。
同样是在 6 月,两个商业化表现突出的产品 Manus 和 Genspark 出现不同程度的收入下跌。据非凡产研数据,Manus 当月 MRR(月度收入)为 254 万美金,环比下跌超过 50%;Genspark 当月 MRR 为 295 万美金,环比下跌 13.58%。
上述数据说明,在一时的热度过后 ,通用 Agent 类产品的使用体验并没有能让用户持续付费的吸引力。同时,用户体验的频次也在减弱。
究其原因,还是因为 Manus 们没有找到足够让用户为之持续付费的 Killer(杀手级)场景。
目前,市场上多数通用 Agent 都在卷几个固定的方向:做 PPT、多模态能力、写报告(Deep Research),多聚焦于和办公强相关的场景。但对于用户来说,这些定位还难以让用户持续付费。
在没有找到确切的应用方向前,通用 Agent 赛道已经有一批公司先靠产品下水测试,意图先抢占市场。
变现和流量不稳定的情况下,大厂对自研 Agent 的精力投入有限,一般还是采取 " 两手抓 " 的模式,在开发自家 Agent 产品之外,目前更多地在推广自家 Agent 开发平台。比如阿里、字节和百度,推广平台的同时发福利、组织 Agent 开发比赛,聚焦开发者生态搭建。
市场似乎已经默认,通用 Agent 是小厂玩不起的生意。
可以看到,在国内市场,除去 Manus 和 GensPark 零星几家创业公司,多数通用 Agent 的开发公司都是手握自研大模型的公司:
其中,大厂不仅有模型,背后还有自家云做支援。通用 Agent 既是产品,也是他们作为 B 端平台,通过 C 端产品展示能力的一面镜子,以此招徕更多开发者。
大模型创业公司则本着 " 模型即 Agent" 的思路,更多在模型层就针对 Agent 对 RL(强化学习)、长文本等需求钻研模型,才有了通用 Agent 产品。
国内通用 Agent 玩家的收费模式,也比出海的方式更卷。以百度、字节为代表的大厂有能力公开测试,免费提供服务。如 MiniMax、天工智能体等则以限量使用或是购买积分使用的方式开放。和大厂免费不限量的手段相比,国内通用 Agent 赛道注定会越来越卷,商业化变现是一条看不到收益的路。
从场景来看,DeepResearch 式的深度研究功能是更多产品选择主攻的方向,对于文档类 Agent 来说,调用工具的复杂程度相对较低,且文本生成的成本更低,算是一个更有性价比的方向。
在开发深度研究功能的基础上,各家 Agent 开始在多模态能力和应用场景上发力。一方面,在生成的文档中插入图片、视频等多模态能力,另一方面,把目前和 Agent 契合的场景植入到通用 Agent 中,比如做 PPT,几乎成了办公 Agent 的标配。
但无论是拿来做报告,再用图文锦上添花,还是用 Agent 做 PPT,背后都无法解决 Agent 输出效果一般的问题。比如一份深度研究报告,Agent 最容易出现的是对事实信息检索的错漏,比如无法厘清 Agent 概念从而推荐大模型产品。
进一步的问题是输出的信息价值不高。一份报告,零星只有 3-4 个信源,更多内容从网络筛选得来,往往只能得到模棱两可的 " 废话 "。比如要它介绍大模型公司的生存挑战,它把开公司可能存在的问题都列个遍,既没有针对性,也不具备有价值的增量信息。
于是,企业开始探索更多 Agent 能匹配的场景,试图吸引更多用户参与。Agent 也难免后续变成自家公司产品的 " 集合入口 ",被公司用各种方式把自家产品能力整合进去,比如 MiniMax 融入了海螺生视频的能力,百度心响在场景中接入了原有的智能体对话等。
除了找不到贴合场景,当前 Agent 能力有限,效果不一,也难以让用户为之买单。
通用 Agent 执行任务一般是拆解任务,再按照步骤执行。越复杂的任务,就意味着 Agent 执行的过程更多,其中只要有任何一个步骤跑出的结果有问题,就会导致整体输出结果质量不佳。所以,对于复杂任务来说,当前 Agent 执行的稳定性不足。
比如,输出对一家公司的分析,就要从财报信息抓取、公司网页介绍到各大信源的分析点评,其中有任何一个环节结果出错,整体报告的分析质量就会大打折扣。
当下,一些 Agent 开发者正试图通过技术创新来突破这些瓶颈。
比如 MiniMax 把年初发布的新的线性注意力机制用到了新模型 M1 中,其智能体产品以 M1 模型为基座模型。这样的好处是大幅扩展了智能体能够承载的文本量,支持 100 万的上下文输入,针对法律文书这类需要大量文本分析的场景效果更好。
月之暗面则强调 " 模型即 Agent",其基座模型是月之暗面基于端到端自主强化学习技术训练的新一代 Agent 模型。其中,RL(强化学习)成为这个深度研究 Agent 的亮点。
多数业内人曾在和光锥智能交流中肯定 RL 之于 Agent 的重要性。相比传统的监督学习或预训练模型在特定任务上表现出色,但其泛化能力往往受限于训练数据的分布。当 Agent 需要处理的任务场景多样化、环境动态变化时,预设规则或仅依赖一次性推理的 Agent 难以适应。
比如,在处理一些需要多个流程完成的任务中,传统模式可能在任一个环节中出现推测问题,进而影响到最终结果,但 RL 则是靠大量试错和奖励机制来提升泛化能力,对于需要多个步骤处理的复杂任务,表现效果更好。
Kimi-Researcher 主动针对矛盾信息的处理
可以说,RL 能够大幅提升 Agent 的能力上限。
Kimi-Researcher 研究员冯一尘分享,在 Humanity's Last Exam(HLE,人类的最后一场考试,衡量 AI 在各学科难题上的测试)榜单上,=gent 模型得分从最初的 8.6% 跃升至 26.9%,相比 OpenAI Deep Research 团队在相关工作上从 20 分左右(o3)提升到 26.6 分的成果,进一步证明了强化学习在 Agent 训练上的巨大价值。
在技术的天花板还够高的情况下,后来者正在拔高 Agent 的能力标准。今日(7 月 18 日),OpenAI 发布的通用 Agent 产品 ChatGPT Agent 跑出了一个漂亮的效果,在 HLE 测试表现上,取得了 41.6% 的新 SOTA 成绩。
通过强化学习,Agent 有望从简单的 " 工具调用器 " 进化为真正具备 " 自主学习 " 和 " 环境适应 " 能力的智能体。届时,通用 Agent 或许才能真正找到杀手级场景,并让用户心甘情愿地为其买单。
Agent 的路还很长,只有靠技术突破和场景深耕,才能成为真正帮得上忙的 AI 助手。
登录后才可以发布评论哦
打开小程序可以发布评论哦