数字力场 08-19
从大模型到Agent:百度GenFlow2.0,定义新赛点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

「最炫 Agent 风」正刮,谁能成为御风者?

文 | 佘宗明

PC 互联网时代的技术主要呈现界面是 Web(网页),移动互联网时代的是 App(客户端),那 AI 时代的呢?

比尔 · 盖茨两年前的预言,就给出了答案:AI Agent 将是 AI 最大的赛道,「Agent(智能体)不仅将改变人们与计算机的互动方式,还将颠覆软件行业,引发自键入命令到点击图标以来计算机领域最大的革命。」

如果说彼时他的这番断言还有些超前,那如今「AI Agent 时代已来」渐成共识的现实,就跟他打了个响指。

3 个月前,微软 CEO 纳德拉就在微软 2025 年 Build 大会上表示:「我们已经进入了 AI Agent 时代,正在见证 AI 系统如何以全新方式帮助我们解决问题。」

有意思的是,当时还跟纳德拉进行了连线的马斯克,旗下 AI 公司 xAI 前不久还准备筹建名字内涵微软(Microsoft)的子公司巨硬(MacroHard),定位于打造 AI Agent 生态。

在硅谷掀起「最炫 Agent 风」之际,大洋彼岸的中国科技企业也正以前瞻的技术布局与独特的技术路径,在这场决定未来若干年 AI 应用生态格局的赛道上积极卡位,努力将身位从追赶者变为领跑者。

01  

回顾现代技术演进史,技术发展总是遵循着「技术突破 - 产业聚焦 - 场景落地」的路径,AI 也不例外。

2023 年初,ChatGPT 出圈揭开了 AI 大模型军备竞赛的序幕,两年多过去了,在「Agent 元年」说法的掩映下,全球科技巨头竞争焦点正从大模型参数转向 Agent。

原因很简单:随着大模型参数规模扩大带来的边际效益递减,如何让 AI 从被动响应工具」变成「主动规划执行者」,已成行业新命题。而 Agent 就是 AI 从「感知智能」迈向「认知智能」的关键载体,也是连接大模型技术与真实场景的核心桥梁。

作为能自主理解任务、规划步骤、调用工具的 AI 应用形态,Agent 可以让 AI 不再是孤立的技术模块,而是能深度嵌入企业运营系统的「生产力单元」,解决传统 AI 应用场景碎片化、投入产出比低等问题,推动 AI 技术在产业侧的应用落地。

在硅谷,OpenAI 在 GPT-4 之后,迅速推出 GPT-4o Agent,试图通过连接代码解释器、网页浏览器等工具,打破大模型「只能对话不能行动」的局限;微软则将 Copilot 深度集成于 Windows 系统与 Office 全家桶,提出「Agent for Everyone」战略;谷歌则押注「多智能体协作」,发布了 Gemini Agent Suite。

▲国内外科技巨头们都在发力 AI Agent。

在国内,科技企业也在加码发力。动作最大的,当数百度:从 2024 年发布文心智能体平台 AgentBuilder,到今年 4 月推出全球首个内容操作系统「沧舟 OS」、先发在行业内率先实现全场景满足、全链路覆盖的 AI Agent GenFlow1.0、上线通用超级智能体 App 心响,百度在 Agent 赛道的深耕轨迹清晰可见。

8 月 18 日的百度 AIDAY 上,百度文库与百度网盘又联合发布了全球首个全端通用 AI Agent   GenFlow2.0,以「全端通用」「并行任务」「记忆可溯」等突破性进展,为国产 AI 在全球 Agent 领域的竞争注入了强劲动力。

这极具默契的转向背后,是 AI 产业对 AI 价值的认知再校准:AI 的价值不在于炫技,而在于应用。AI 时代,企业需要的是能自动生成财报、拆解项目计划的 AI 助手,个人需要的是能同步处理邮件、整理资料的 AI 助力,这些都在倒逼 AI 从「能说会道」向「能做会干」进化。

02  

尽管被寄予厚望之下,AI Agent 迎来了爆发之势,但不得不说,当前行业仍面临着理想与现实的鸿沟:市面上多数 Agent 产品还停留在单轮对话 + 插件阶段并没迈过从实验室玩具到生产力工具的那道门槛。

今年 4 月,Gartner 就发布报告称,市场上正充斥着所谓的「智能体洗牌」现象,即厂商将普通 AI 助手或 ChatBot 重新包装为「智能体」,但这些产品实际缺乏真正的自主智能能力。

揆诸现实,当下很多 Agent 跟用户现实期待仍有不小差距,这具体反映在几个方面:

1,任务拆解能力不足。许多 Agent 在处理复杂任务时,会出现逻辑断裂。

你让它「生成新能源汽车市场季度分析报告,需包含政策分析、竞品数据和趋势预测」,它可能要么遗漏「政策分析」等关键模块,要么将「竞品数据」局限于单一品牌,最终产出的结果经常需要人工大幅修改。

这是因为当前很多 Agent 的任务规划算法仍依赖简单的规则匹配,缺乏对复杂需求的深度理解与动态调整能力,无法像人那样将复杂目标拆解为「数据采集—分析建模—内容生成—格式转换」等有序子任务。

2,结果质量不可控。不少 Agent 生成的内容,动辄存在低级错误。

我曾用某教育类 Agent 帮我生成讲座课件,结果 PPT 中出现了「媒介即讯息是尼尔 · 波兹曼提出」的结论。

根源在于,这些 Agent 缺乏专业知识库,无法安全访问私域资源(导致内容片面),只能依赖自身大模型训练数据(导致信息滞后)。

3,效率与协作存在瓶颈。有些 Agent 处理跨领域复杂任务,非但耗时久还易卡壳,有些还无法与用户现有工具(如文档、云盘、专业软件)无缝对接,俨然成了信息孤岛。

说白了,是因为这些 Agent 太依赖单个模型能力和串行工作模式,难以应对多任务并行、动态调整等需求。

▲市面上的大多数 Agent 还存在诸多能力的不足。

理论上讲,Agent 应该像拥有超能力的 AI 管家,接到任务后会先画思维导图(规划),再检查步骤对不对(验证),然后有条不紊地执行。它长着数字眼睛,能「认路避障」(环境感知),带着 AI 大脑,能权衡利弊(自主决策),揣着工具百宝箱,能「订票叫车」(工具调用),还能有始有终(完成任务闭环)。

可太多 Agent 不是视障就是智障,可用性、稳定性都不如人意。这就导致,企业将核心业务、重要任务交给 Agent 处理的意愿不足。

诸如此类的痛点,对应的其实是行业的机会窗口。在 Agent 竞速进入深水区的背景下,谁能率先解决可用性、稳定性、资源整合等问题,谁就能在 Agent 时代建立起技术与生态的双重壁垒,掌握定义行业标准的主动权。GenFlow2.0的解决痛点导向,就来得很明晰。

03  

跟时下那些只能跑在网页或客户端上,还得有邀请码或内测资格才能用的 Agent 有别,百度文库 GenFlow2.0 有两个典型特征:一是全端通用;二是现货可用

目前它已同步上线百度文库网页端、百度文库 APP,用户无需排队等待,就能开箱即用。

我在移动端试用时,发现它还有个很人性化的地方——将传统「瀑布流」任务展示改为「并列式」进度可视化,我下达指令后,能直观看到每个 Agent 的分工(如 A Agent 负责数据搜索、B Agent 负责 PPT 生成)。

我体验完后的内心 os 是:百度该给产品经理加鸡腿了。比起滚动条没完没了地下拉,这样操作才更切合普通用户日常习惯吧?

值得注意的是,全球「首个全端通用 Agent」并非GenFlow2.0的唯一优点——它直接来了几个行业首发,包括并行模式、记忆模式和全程可干预模式。

▲我使用 GenFlow 分析 2024 年至 2025 年 Agent 市场格局演变的全过程,期间因我中途暂停提出新要求,拖长了其完成任务的时间,但最终交付结果堪称惊艳。

先说并行模式。我让 GenFlow2.0 分析 2025 年 Agent 市场格局,生成对比表格并制作竞品分析 PPT,它会自动调度「市场分析 Agent」「数据可视化 Agent」「PPT 生成 Agent」「网盘检索 Agent」等多个专家级 Agent 并行工作,而非逐一处理。

据了解,GenFlow2.0 依托百度文库、网盘自研的 Multi-Agent 基础架构,可开启「100+ 专家 Agent 并行处理」式的多智能体协同作战,让 AI 执行任务从得慢慢等变成立等可取,实现了分钟级交付(多项复杂任务 3 分钟就可完成),提升了效率天花板。

再说记忆模式。我前几天就让 GenFlow2.0 帮我生成过 Agent 技术发展路径分析,今天又要求它「分析 2025 年 Agent 市场格局情况」,它会自动调用历史数据,无需再次阐述问题背景,避免重复劳动。

这背后是 GenFlow2.0 首创了「长 - 短 - 临」三级记忆中枢,可在多轮任务中记住用户对话、操作偏好、文件交互记录、修改痕迹等,实现「越用越懂你」。

接着说全程可干预模式。我在 GenFlow2.0 生成内容时,中途提出「加入 2024 年 Agent 市场格局情况」,它会立即调整,把我说的「听」进去。

这也是 GenFlow2.0 跟其他 Agent 的区别所在:一般 Agent 都是「写 Prompt(提示词)→漫长等待→发现不对→重写 Prompt →新一轮等待」,它是「说一句→看着它干→随时改→立等可取」,其实时干预功能允许用户在任务流任何节点暂停、回退、补充指令或追加文件。

这些突破,显然不只是单点技术升级。

04  

AI 技术进步固然不是线性化的,而是指数级的,但绝不会是平地起高楼。

GenFlow2.0 能揽下 Agent 领域的很多「首个」,离不开「专项积累 + 生态协同 + 全栈布局」三个维度的支撑。

从专项积累看,百度对 Agent 的探索早已形成累进式突破。

百度文库中 PPT、绘本、生图、研究报告等单一 Agent 在垂直场景的成功,为沧舟 OS 和 GenFlow1.0 首次实现多 Agent 基础调度做了铺垫,也让 GenFlow2.0 实现「从可用到好用」的跨越有了支点。

可以说,GenFlow2.0   的发布并非「从   0   到   1」,而是「从   100   到   1」——把上百个经过市场验证的成熟   Agent   装进同一个「航母战斗群」,「专项突破—系统整合—体验升级」的路径也由此成型。

从生态协同看,GenFlow2.0 构建起「百度自有生态 + 第三方合作生态」的双循环。

在百度体系内,它跟文库网盘的「三库(文库公域专业资料库 + 经用户授权的网盘私域数据库 + 用户记忆库)一平台(百度学术平台)三器(阅读器、编辑器、播放器)」充分打通,跟萝卜快跑(智能出行)、数字人直播(内容创作)、秒哒(无代码开发)等产品深度联动。

▲ FenFlow2.0 离不开百度 AI 全栈布局的支撑,又跟百度其他 AI 产品形成了联动。

你让它生成「十一假期出游计划」,系统可自动调用百度地图生成可交互的行程 H5,同步通过萝卜快跑预约接送机服务。

在外部生态上,GenFlow2.0 兼容 MCP 协议,荣耀   MagicOS   已原生接入,用户可在手机负一屏一键调用其能力,实现「手机端生成 PPT —平板端编辑—电脑端演示」的全场景流转;WPS、钉钉、飞书也在灰度测试。

MCP 协议的开放性,让   GenFlow2.0   能像乐高积木那样被嵌入任何应用,让其多重能力不再局限于单一应用,而是渗透到用户的生活与工作全场景中。

从全栈布局看,百度的全栈 AI 能力为 GenFlow2.0 提供了底部支撑。

从芯片层的昆仑芯(能提供算力支持),到框架层的飞桨(保障多 Agent 调度效率),再到模型层的文心大模型(有混合专家模型架构、有多模态理解能力),百度是全球少数实现 AI 全栈自研的企业。全栈技术沉淀,托起了「端到端优化」的闭环。

05  

历史不会重复,但总会押韵。二十多年前,Windows 把 DOS 从命令行变成图标;十多年前,iOS/Android 把键盘变成触控;而在今天,Agent 又带来了新人机交互方式与任务执行模式。

接下来,谁能用兼具可用性、稳定性的 Agent 产品更好地解决用户需求、占领用户心智,谁就能拿到下个十年的门票。

而今,GenFlow2.0 就有了 Android 昔日的模样:Android 早些年就把硬件、应用、服务统一在 Linux 内核之上,形成了深厚生态壁垒,GenFlow2.0 现在则是把算力、模型、数据、Agent、人统一在自然语言这个最朴素接口之上。

对用户而言,当办成很多任务只用一句语音而非复杂操作,那 AI 的实用价值也就能得到最大化发掘。这里的实用性,本是立足于对用户需求的深刻洞悉,最终会落脚于对用户体验的深层革新。

▲ AI Agent,最重要的是实用好用。

这类革新,既会形塑用户对 Agent 的新期待,也会重塑中国在 Agent 领域的竞争力。

全球 Agent 竞争已陷入白热化境地,硅谷巨头们就在试图将 PC、移动互联网时代的卡位优势复制到 Agent 中。

在此形势下,GenFlow2.0 多重突破的价值已超出技术升级本身,为国产 AI 在 Agent 领域实现能力赶超、标准引领提供了参照系,也积攒了筹码。

跟 OpenAI 的 Agent 生态侧重于通用能力、微软的侧重于办公体系不同,百度 GenFlow2.0 全端通用带来的多场景无缝切换便利 + 公私域知识融合带来的数据安全可控特点 + 并行处理、记忆可溯、全程可干预带来的效率提升效果,证明了国产 Agent 可以有自己的创新引领点和差异化优势,具备变成跟 OpenAI、微软和谷歌们抗衡的全球生产力平台。

可以预见,在不久的将来,超级好用的 Agent 在改变那块名叫「AI 应用」的大洋地壳弹性后,AI 的潮汐会以新节奏漫过每一道我们习以为常的堤岸。让我们且看,且期待。

✎作者 | 佘宗明

✎运营 | 李玩

欢迎分享到朋友圈

或手机号:18810070968

  往期精彩回顾

 ©

敬请关注

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 微软 御风 谷歌 计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论