未央网 昨天
2025上半年,AI Agent领域有什么变化和机会?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2025 年上半年,AI Agent(AI 智能体)迅猛发展,点燃了 " 万物皆可 Agent" 的热潮。

这股热潮首先体现在技术底层——模型领域的激烈 " 军备竞赛 " 上。年初 DeepSeek 打破了推理模型赛道 OpenAI 一家独大的局面,震撼业界。随后 OpenAI、Anthropic、Google 等头部厂商轮番上阵,相继推出 o3 Pro、Claude 4 系列和 Gemini 2.5 Pro 等重磅模型。

模型能力的跃升,直接推动了应用层面的爆发。随着 OpenAI 发布 Operator(上网执行任务)与 Deep Research(深度研究)这两款产品,AI Agent 赛道的竞争骤然加剧,新产品不断涌现。

大厂们纷纷押注 Agent 赛道:Google 预计今年发布能够操作浏览器和其他软件的 Project Mariner,百度推出定位于通用超级智能体的 " 心响 "APP,阿里的 " 心流 " 项目则深入探索 Agent 的人机协同效率。然而,PMF(产品市场匹配度)、商业化落地路径和产品核心壁垒等问题仍等关键问题,仍有待行业进一步探索。

AI Agent 是继提示词(prompt)、工作流(workflow)之后,AI 应用发展的第三阶段。AI Agent 的核心价值在于其感知环境、自主决策及工具使用(Tool Use)能力。我们认为,要实现真正的突破和解决前述挑战,强化学习驱动的持续迭代将是 Agent 发展的关键路径。

上周日,围绕 2025 年上半年 AI Agent 的创业热潮、技术突破和发展趋势,峰瑞资本执行董事刘鹏琦和峰瑞资本副总裁颜黔杭在一场直播中进行了深入探讨。他们讨论的问题包括但不限于:

如何理解 AI Agent 这个概念?在这一赛道上,行业有哪些共识和分歧?

AI 应用究竟发生了哪些技术突破?为何业界普遍看好强化学习驱动的 Agent?

"AI 圣经 "《苦涩的教训》(The Bitter Lesson)中有哪些核心观点?这些观点对 AI Agent 的发展又有哪些启示?

Agent 该如何实现落地?在这个过程中,有哪些创新机会?未来的长期壁垒又会是什么?

我们编辑了直播的部分内容,希望能带来新的思考角度。

这半年,AI 领域有哪些超预期事件?

颜黔杭:从年初 DeepSeek 爆火到如今 Agent 应用涌现,这半年 AI 领域有哪些超预期事件?

刘鹏琦:今年上半年,自 DeepSeek 发布后,整个 AI 赛道明显加速,模型侧与应用侧均迎来关键变化。

一,在模型侧,以 DeepSeek 为代表的推理模型迅速打开市场,推动各大厂商加速入局,行业开启 " 军备竞赛 " 状态。DeepSeek 更深远的意义在于,基于强化学习的推理模型由此进入公众视野,正式开辟了大模型新赛道。

除了产品层面的突破,模型迭代速度也远超预期:OpenAI 推出 o3 Pro、Anthropic 发布 Claude 4 系列、Google 发布 Gemini 2.5 Pro。头部厂商轮番 " 打榜 ",彻底打破了此前关于 " 模型迭代放缓 " 的预测。与此同时,部分公司正在重整旗鼓,比如 Meta 近期宣布投资数据标签初创公司 Scale AI 150 亿美元,并重组 AI 部门。

值得关注的是,DeepSeek 证明了国内外大模型技术并未有显著差距。大厂也加紧模型层面的布局,比如阿里发布通义千问 3.0、字节发布豆包 1.6 版本;中国 "AI 六小龙 " 公司(智谱、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物)虽有部分企业稍显滞后,但头部产品迭代速度仍然迅猛。

二,应用侧的标志性事件,是今年年初 OpenAI 相继发布 Operator(执行简单任务的 Agent)与 Deep Research(进行深度研究的 Agent)这两款产品。2025 由此被业界认为是 "AI Agent 元年 "。

在 AI Agent 这波创业热潮中,中国团队身影频现:Manus、Genspark 等 Agent 产品引起广泛热议和关注;Minimax、月之暗面等大模型厂商也加入战局,发布自有 Agent 产品。

三,AI 编程赛道验证了 PMF,即产品与用户需求实现契合。火爆出圈的工具 Cursor、Windsurf 被 OpenAI 收购,Lovable、Replit、Bolt 等企业的快速发展,均成为行业热议事件。

基于这些可以看到,在 AI 领域,整个市场和赛道都处在热潮之中。

颜黔杭:模型推理能力的突破是上半年的另一大看点。行业关注的焦点正从 " 预训练 " 的 Scaling Law(数据规模效应)转向 " 后训练 " 的 Scaling Law。

预训练是指通过参数、数据和算力提升模型基础能力。后训练则是通过强化学习、人类反馈等技术手段优化模型性能。此前,Scaling Law 效果, 主要指持续投入参数、数据和算力,以获得越来越强大的模型。

转折点出现在 DeepSeek 团队推出 R1 模型,在模型后训练阶段大规模应用强化学习技术,即使标注数据极少,也能提升模型推理能力、进而实现推理性能的 Scaling Law。

应用方面有一个有意思的现象,OpenAI、Google 以及微软等巨头纷纷入局 Agent 领域,甚至有观点认为,OpenAI 本质上可视为 " 语言模型驱动的 AI Agent 公司 "。

此前,我们认为,AI 应用需要与模型厂商保持一定距离,否则在模型边界不明确时,应用可能被快速迭代淹没。但在今年这波 Agent 浪潮中,部分主做模型的企业,因在用户体验交付上表现出色,反而在应用市场占据一席之地。

当前市场中兴起了 " 万物皆可 Agent" 的热潮,大厂介入将模型侧推向 " 全民军备竞赛 ",Gemini 2.5 提出 AIOS 概念(大模型智能体操作系统,即将大型语言模型嵌入操作系统 OS 作为大脑),国内 " 六小龙 " 与大厂间的竞争进入白热化;应用侧则以 Cursor 等企业为代表,在现有场景中推进 Agent 的推广与验证。

刘鹏琦:这场战争远远没有结束。大模型厂商在做自己的应用和 Agent 产品,也有很多创业公司在做,模型和应用的边界变得越来越模糊,未来谁更有可能长期跑赢也有待观察。

回顾这上半年,可能每天都有新的事情发生,很多结论被快速证伪。当下我们的很多观点也不一定正确,这是一个保持开放、不断学习的过程。

AI 应用的三次进化,Agent 范式从何而来 ?

颜黔杭:"AI Agent" 的具体定义是什么?不同应用之间的本质区别又在哪里?

刘鹏琦:自 2022 年底 OpenAI 发布 ChatGPT,助推 AI 应用进入新赛道以来,AI 应用大致有三种任务处理方式:

第一阶段是 prompt(提示词,即对话交互)形式,用户输入 Prompt、提出需求,大模型直接输出答案。这是最基础也是普遍的 AI 应用形态。

第二阶段是 AI Workflow(工作流)形式,大模型外部接入数据源,通过人工预先定义的节点与路径,多步骤地完成任务需求。

与第一阶段相比,Workflow 增加了数据读取与处理环节,但仍依赖专家预设的固定流程,虽然过程可控,但灵活性、通用性不足。当前落地及商业化较好的应用多是基于这一形态,比如 Dify(提供低代码开发平台,支持快速构建营销文案、用户画像分析)、Coze(智能客服、语音助手)和 LangFlow(低代码、可视化的 AI 应用构建工具)。

随着 OpenAI 发布 Operator 与 Deep Research,AI 应用迈入第三阶段—— AI Agent(智能体),其广义定义是 " 能够自主感知环境、自主决策、执行任务并达成目标的智能系统 "。这可以逐一拆解关键词来理解:

" 感知环境 ",可以让 AI 更全面理解用户的需求、指令和所处上下文的信息,甚至包括长期记忆;同时,AI 还可以进一步改变环境,这就要依靠在 " 执行任务 " 过程中 Tool Use(工具使用)能力上的关键突破。

" 自主决策与规划 ",与 Workflow 依赖专家预设的固定流程不同,Agent 能够自主决策任务步骤。尽管 Workflow 在可控性方面具有优势,但在灵活性、通用性与泛化能力上存在局限;而具备自主决策能力的 Agent,虽然目前在任务执行成功率上仍有挑战,却展现出了远超预期的潜力。这些特性的叠加,推动第三阶段的 Agent 应用形态走向大众视野。

Tool Use 和强化学习,如何赋能 Agent?

颜黔杭:结合鹏琦提到,Agent 核心特征在于感知环境、自主决策、Tool Use 能力,那么相较于以 ChatGPT 为代表的 AI 应用,Agent 的核心优势究竟体现在哪些方面?当前哪些具体赛道更适合落地应用,又存在哪些挑战?

刘鹏琦:今年 Agent 的核心变化在于,Tool Use 能力取得了突破。

具体来看,从编程到 browser-use(Agent 模拟用户在浏览器中的操作),再到 computer-use(Agent 操控计算机系统),以及随着 MCP 通用接口(Model Context Protocol,模型上下文协议,即通过制定统一规范、实现 AI 模型与外部资源的无缝对接)普及率的提升,Agent 的 Tool Use 能力得到增强,能够更高效地从外部获取信息。

此前大模型对于世界知识的核心局限在于,训练数据仅包含截止到某日的公开数据,缺乏时效性数据以及私有领域数据注入。具备 Tool Use 能力后,AI 能自主检索信息、与外部世界交互,信息获取能力较此前版本实现了数量级上的提升。

如今,Agent 已在开发与编程赛道上验证了 PMF。以 Cursor 为代表的工具证明,编程领域的部分闭环操作完全可以交由 Agent 完成。更关键的是,今年大模型借助强化学习的技术突破,显著提升了推理能力,进一步增强了 Agent 的实用性。

颜黔杭:我来补充一下为什么 Agent 能够率先在 AI 编程赛道上跑通。编程本质上是 " 文字 + 语言数据 " 的结合,其训练数据高度结构化,因此 ChatGPT 刚问世时便展现出较强的代码生成能力,不过早期的代码常常出现幻觉问题,无法直接对接到编译器运行验证。

通过整合过去二三十年来成熟的软件开发工具链,AI 编程可以在代码编写、调试到编译输出等环节中形成完整的闭环系统,在虚拟计算机的环境下独立运行,从而为 Agent 的高效迭代和实验验证提供有力支持。

相比之下,具身智能场景的落地难度更高。其核心难点在于,机器人需要与物理世界直接交互,从代码指令到实际执行之间存在显著鸿沟,仅靠模型层面的迭代难以让 Agent 在具身智能领域快速突破。

Tool Use 助力了 Agent,那么,强化学习又会让 Agent 获得怎样的发展?

刘鹏琦:这一轮 Agent 的落地起点确实是 Tool Use 能力的提升,但未来仍要依赖强化学习从而进一步发展。在我看来,基于强化学习迭代的 Agent,才是未来 AI 应用走向 " 终极智能 " 的路径。

事实上,"Agent" 概念最早便源于强化学习领域。经典教材《Reinforcement Learning: An Introduction》中对 Agent 的定义是 " 在环境中执行动作,并根据环境反馈调整行为,以实现长期目标 ",这与当下 AI 应用讨论的 Agent 概念高度契合。

" 强化学习 " 最早起源于计算机科学,后与认知科学、心理学、神经科学等学科相互促进,不仅代表了计算机科学领域迭代、演进的路径,更是普世进化的规律之一。

包括强化学习在内,大模型的演进也分为三个阶段。举个生活化例子,学生上学读书、听课类似大模型的 " 自监督模仿学习 "(基于大量公开无标注数据的预训练阶段);老师讲解例题是 " 监督微调 "(基于特定标注数据的监督训练);通过写作业、考试获得反馈并真正掌握知识,则是典型的 " 强化学习 "(使用奖励模型来指导训练基础模型)。这一规律同样适用于生物进化,比如每个物种的基因组合就是不同环境的 Agent,同样需要通过适者生存的进化过程变得更强。

编程领域之所以能快速验证 Agent 价值,在于其具备清晰的数据反馈闭环环境,代码正确与否都很好验证,有非常明确的奖励信号,Agent 能力得以快速迭代。

未来,若想让 Agent 超越竞争对手甚至人类智能,必须让它进入强化学习的闭环,自主探索学习方法,而非依赖人类指导。

颜黔杭:过去强化学习已在机器人、游戏 AI 等领域有诸多探索,已经成为推动 AI 发展的基础方法之一。

OpenAI 早期便通过强化学习开发机器人及游戏 AI 应用。当大语言模型的基础性能足够强大后,我们会发现强化学习对提升模型的能力上限起到了关键作用。换言之,强化学习需在基础模型具备一定能力后,才能释放其最大价值。

以网球运动来类比,必须先由教练教会基础挥拍动作,能通过练习持续优化迭代;如果基础动作未掌握或存在错误,大量强化训练反而可能固化错误、影响性能、限制上限。因此,模型的最终能力上限,既由基础模型性能决定,也由强化学习能力决定。

因此,在强化学习用于发展 Agent 之前,研发者需要考虑两个问题,其一,Agent 是否符合 " 先具备良好基础性能,再通过强化学习提升上限 " 的规律?其二,行业何时会进入 " 强化学习对 Agent 带来巨幅提升 " 的关键阶段?

刘鹏琦:从当前观察看,尽管多家厂商发布了自有 Agent,但细究技术文档会发现,大家的路径差异显著,可大致分为两种形态:

第一种是完全端到端(end to end)、基于强化学习训练的 Agent,以 OpenAI 的 Deep Research、Kimi 发布的 Researcher 为代表,Manus 就是其中的典型代表,目前看起来更适合广度优先的通用泛化型任务。" 端到端 " 指模型的上下文理解、工具调用、多步骤思维链等全流程在一个整体框架下完成,目前仅模型厂商具备此类能力。

第二种是模块化拆分的 Agent,即在工程框架下将不同能力拆解给不同模型或 Agent 来共同完成一个任务。这种模块化的方式目前看起来更适合广度优先的通用泛化型任务。在这个框架下,比如决策推理的部分可以使用类似 DeepSeek R1 的模型,而编程的部分可以使用 Claude 模型。强化学习主要作用于各模块单点能力提升,最后再通过外部工程连接,以实现更强的整体性能。

颜黔杭:目前,强化学习对单点能力的提升已见成效,但要实现端到端的强化学习仍需突破。这类似模型的 " 后训练 "(Post-training,指通过数据驱动和算法干预,增强大模型在专业技术领域的适应能力),既需要对大模型后训练的深刻理解,也需要产品化能力。目前来看,仅有少数模型厂商,以及兼具 " 模型 + 产品 " 的创业团队具备这样的综合能力。

"AI 圣经 " 如何影响 Agent 的发展?

颜黔杭:当前 Agent 领域的一个争议焦点在于技术路线的选择——到底是选择 Workflow 型 Agent 还是基于强化学习的 Agent?

具体来看,Workflow 型 Agent 强调可视化、可解释性和可控性,具备较高的透明度和稳定性,因此在短期内更适合作为商业化落地的技术路径。而基于强化学习的 Agent 虽然理论上具有更高的性能上限,但因其行为难以预测、可控性较差,仍面临较大的技术与应用挑战,因此被视为一个更具探索性、面向长期发展的方向。

机器学习先驱 Rich Sutton 在 2019 年的一篇经典文章《苦涩的教训》(The Bitter Lesson)提出,过度依赖人类先验知识和特征工程提升模型性能的方法,其效果不如算力与数据利用率的提升方法。这一预言精准指向了大语言模型的发展路线。以 OpenAI 为例,它采用的 Decode-only 架构在算力与数据规模化利用上具有优势,现在已是大语言模型的主流架构。

那么,《苦涩的教训》的核心观点是否也适用于 AI Agent 领域?

刘鹏琦:强化学习驱动的 Agent 非常符合《苦涩的教训》的结论,强化学习本质上就是不需要教模型太多东西,只给它先验能力,未来怎么迭代、怎么提高要靠 Agent 自己。

具体来看,想要实现 Agent 自主学习这一目标需要做好两个方面。

其一,需要一定的先验能力。对 " 小白 " 水平的 Agent 而言,搜索路径可能过多,难以找到最优解。因此,Agent 需要借助先验能力来提升自己,既包括模型本身的能力,也涵盖垂直领域积累的 knowhow。

其二,构建相对好的环境。业界对于怎么构建环境现在有些争议。目前市面上的通用 Agent 大多在追求通过对话聊天框理解用户需求,交付结果。但语言作为信息的压缩形式,在复杂场景中难以详细描述需求或结果。因此,多模态信息也很重要。

比如图形界面的交互,设计绘图有时候需要对图片进行圈选和修改,这类操作无法仅通过语言完成,这就需要更复杂的交互工具,让用户参与到整个流程。用户的反馈信号能进一步帮助 Agent 去迭代能力。

所以第二点很重要,产品需在模型与用户间构建丰富的上下文环境与反馈闭环。比如,Cursor 在早期坚持使用 IDE(集成开发环境),正是为了借助与用户的深度交互,采集更多反馈信号。

总结一下,想要让 Agent 有自我迭代的可能性,一方面需要基于行业和垂直领域 knowhow 的先验能力让产品先实现 PMF,另一方面还要搭建有充分反馈和上下文的人机交互环境用以实现长期的自我学习和迭代。

Agent 将如何落地?有哪些创新机会?

颜黔杭:我们回顾了 AI Agent 这类应用的发展以及未来预期,回到创业投资上,目前 AI agent 落地的痛点和瓶颈是什么?有哪些共识和争议?

刘鹏琦:2025 年上半年,有很多 Agent 应用落地,这些应用在使用工具和推理能力上都有了长足的进步,但大家对 Agent 的评价还是褒贬不一。

Agent 仍然面临很多技术层面的挑战,比如能抓取的上下文是否足够长、如何管理记忆机制,以及针对多数主观问题和随机结果如何推理。

在使用工具层面,Agent 在浏览器访问搜索等工具的能力已经很强,但想要和真实物理环境、企业内部的复杂软件系统进行交互,还有很长的路要走。在这几点没有充分发展前,Agent 的发展上限仍然比较低。

第二个很难回答的问题是,未来 Agent 应用的壁垒是什么?如果借鉴上一代互联网应用的评价标准之一——规模效应,那对于 Agent 应用而言,可能其壁垒在于,能不能通过更多用户和使用,提升产品体验和模型能力。目前的 Agent 产品或许还没到这一步,需要继续观察。

第三个问题是,Agent 的商业模式会如何演化?现在 Agent 主要是订阅模式,等到未来有更多垂类 Agent 出现,订阅模式是否能长期可持续?

一个猜想是,Agent 可能会转向另外一种模式,按 token 使用量付费,这也是目前 ToB 服务的主要模式。但这种模式对于 C 端可能存在局限性,因为用户很少有按成本付费的习惯和意识。还有一种模式是让用户为结果付费,但结果的价值高低也是主观性的判断。另外,如果未来实现了多 Agent 协同,通用型与垂直型 Agent 之间的结算方式,依然是商业层面的挑战。

目前 Agent 领域还有很多变量,业界没有形成完全的共识。AI 最初兴起的时候大家认为它改变了生产力,现在看来也改变了很多生产关系,人和 Agent 之间如何协作管理,是很有意思的议题。

颜黔杭:在 Agent 领域,你关注哪些创新机会?未来一、两年内的投资更看好什么样的 Agent?

刘鹏琦:从投资人的角度,我们可能会更看重垂直领域的 Agent 机会,因为垂类 Agent 具备行业和细分领域的先验知识,和用户的关系相对更近,也不需要完全拘泥于 Agent 的形态。

现在的局面是,大多数应用还是基于 Prompt,一部分已经做成了 Workflow(工作流),只有少数开始尝试 Agent。在应用寻找 PMF 的过程中,Workflow 已经发挥了很大的作用。随着模型能力的提升,Workflow 会慢慢进化成 Agentic Workflow(智能体工作流),最终走向完全由 Agent 托管的形态,这样的发展路径是值得期待的。

现在整个行业的竞争非常激烈,大家都在争做 " 全球第一 XXX",而且可能离一个创业者就把公司做成独角兽的状态也不远了。在创业者选方向的时候,我们会建议基于原有经验和积累,尽可能延长产品服务的链条,覆盖工具、服务和交付结果。

颜黔杭:我补充一些对 ToC 方向应用的看法。大家往往会误解 ToC 产品一定要做通用,但有很多小众化的需求,其实也有比较大的市场。所以,我们也会关注在 C 端环境下,深挖 AI 产品在垂直场景下的价值。

当前 ToC 领域的 AI 探索,比如基于大模型的文字生成、对话交互等短链条、文字生成交互场景的产品,已经被月之暗面、OpenAI 等玩家占据市场。真正的机会可能藏在 C 端的长链条任务规划和工具类内容生成中,比如像 Deep Research 这样交付输出长链条结果,或者结合 AI 做硬件产品。

为什么说通用且垂直的 ToC 产品有价值?

我们可以从过去十年智能硬件的发展中找到答案。早期智能硬件的诞生与蓬勃发展大多是在垂直场景中,因为 C 端本身体量较大,垂直场景的产品做大后,有很多机会把原有的小蛋糕做成大蛋糕,甚至创造新品类。我们很期待能出现将 AI 与 C 端需求结合的新产品。

我们期待 AI 应用和 AI Agent 将迎来爆发的机会,也非常看好 ToC 和 ToB 方向各类垂直领域的 AI 应用将进一步发展。

即使今天我们聊了这么多观点,但可能半年后很多观点就会被推翻。我们期待与创业者进一步交流。在一个技术与认知不断迭代的时代,保持开放的心态、持续的学习与同行间的深入交流,是我们应对不确定性的关键。

本文系未央网专栏作者 :峰瑞资本 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 峰瑞资本 google 百度 执行董事
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论