乱翻书 前天
AI如何重塑大厂成熟业务?百度文库GenFlow打了个样
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大厂如何 " 唤醒沉睡资源 "、以 Al 重塑成熟业务,是很多人关心的话题。

百度文库可能是一个代表。我跟文库团队一直有沟通,对文库 AI 转型的故事很有兴趣,正好他们新上线的智能体 GenFlow2.0 口碑不错,所以最近聊了一次。

这是一个借助技术革命重新找准生态位、甚至走向舞台中央的故事。

具体来看,百度文库的 AI 转型体现在三个维度:

第一,是产品定位的根本重构——从工具升级为平台。过去用户使用文库,主要是单向获取资料,如今 AI 让它成为一个可创作、可交互、可输出的生产力环境。比如其推出的智能 PPT、AI 绘本生成等垂类应用,精准切入职场与教育两大高频场景,把静态知识库变为动态的 " 解决方案生成器 "。

第二,是对用户需求的深度挖掘与响应。文库没有停留在 " 更快的文档检索 ",而是围绕 " 用户为什么要用文档 " 这一根本诉求,把产品重心从 " 获取 " 推向 " 创作 ",帮助用户降低从灵感 - 素材 - 成品的全过程门槛。这正是 AI 时代优秀产品的共性——不再拼功能堆积,而是拼是否成为用户工作流中不可或缺的环节。

第三,尤其值得关注的是,百度通过技术整合激活了多个存量业务之间的协同价值。最典型的是以最新升级的 GenFlow2.0,打通了文库与百度网盘——原本文库是 " 内容场 ",网盘是 " 存储场 ",彼此孤立;而现在,网盘开始支持内容的智能整理、消费与再生产,文库则从终点站变为创作起点。这种跨业务的数据流动与功能耦合,不仅提升了用户体验,也重新定义了产品边界,使原本孤立的业务模块组合成更具黏性的生态。

可以说,百度文库的转型,不仅是一个技术升级案例,更是一次成功的用户心智重塑。它向我们证明,哪怕是非核心业务,只要精准捕捉技术变革窗口、坚决推进产品重构,就有机会实现价值重生。

我们找到了百度文库的产品负责人钟昊和技术负责人杨在申,一起来聊 GenFlow 和百度文库转型的故事。

一、从智能 PPT 到通用智能体 GenFlow, 文库的 AI 重构历程

从边缘到中心:文库的 AI 重构历程

潘乱:今天我们聊大厂如何通过 AI 重构已有的成熟业务。百度文库可能是这波 AI 生产力工具里月活和营收同时都最高的产品,也是百度迄今为止 AI 重构最彻底的产品。更有意思的是,两三年前文库在百度其实并不算核心业务,这是一个罕见的大厂非核心业务抓住 AI 浪潮走到舞台中央的故事。

从 2023 年到现在,文库在 AI 这个方向上都打过哪些胜仗?

钟昊:我们第一个胜仗是做 PPT 编辑器,这算是第一个胜仗。当时这是一个非常艰难的决策,我们人数极少。当时文库做 AI 的产品经理可能只有 1/3 到 1/4 投入进来,研发也是同等比例,所以在人数极少的情况下,我们要做一个方向,而且要做出业绩来证明文库真的有机会做 AI。

编辑器这个事特重、特难。一般公司做编辑器都是千人级别打底的投入,时间以五年为单位来看。当时有内外部质疑声音说 " 你这个太难了,何必要干这个?"

当时 2023 年初,所有人都在做 prompt 工程,都在测哪个模型好,都在找 " 魔法 prompt"。谁去搞编辑器?但是一场仗能不能打赢,其实在开战前就已经决定了一大半。

我们当时有几个判断都被证明是对的:

Prompt 这件事会打平,不会再成为稀奇的事情

做单模态生文字很快就会被拉平,最后大家会卷超长上下文输入输出和多模态

一定是刚需场景可以先实现闭环,不是聊天、游戏、AI 陪伴那些,一定是刚需的东西才能被验证

市面上大家都不做,一定有很难的技术卡点,那个技术卡点我们一定要攻破

杨在申:从必要性来说,AIGC 出现后,降低了内容生产壁垒。之前文库和传统编辑工具各司其职,用户从文库拿到素材后,还需要到桌面用 office 等工具二次加工。微软发布 copilot 代表了一种趋势,很多工具厂商可以低成本追赶内容生产短板,做出端到端的产品。

从可行性来说,文库做了十多年文档,我们懂文档。我们锚定用户高频使用的头部编辑功能,80% 的长尾功能普通用户并不会调用。另外我们从 AIGC 视角出发,把端的能力跟云的能力做融合。

钟昊:我们让所有人都相信这件事必须这么做能成,必须走这条路才能达到目的。虽然很难走,但我们每个人都充分论证和自我说服了,已经没有更好走的路。

我们一天天开日会,关在小黑屋里没日没夜干这件事。最后我们成为第一个能够实现用户上传自己的文档生成 PPT,上传自己的模板、logo 能加入到 PPT 里的产品。这些都因为我们有编辑器,没有编辑器根本做不到。

这让我们在整个智能 PPT 市场上拉开了很大身位,一直到今天这么多人做,但我们基于任意模板做 PPT 这件事还依然在行业里独步。

20 人团队如何啃下编辑器这块硬骨头

潘乱:你们有多少人来干自由画布编辑器这个事情?

杨在申:一共 20 人,勉强够 20 人。

潘乱:不到 20 人,对做编辑器来说可以认为是杯水车薪了。怎么只用 WPS 不到 1/10 的人力,就把编辑器给啃下来?

杨在申:我们锚定用户高频使用的头部编辑功能,80% 的长尾功能并不会被普通用户调用。另外我们从 AIGC 视角出发,更多把端的能力跟云的能力做融合,所以起步并不是想象中那么困难。

我们做了一段时间编辑器建设后,更好地把上下游能力做有机整合。比如初始排版动作可以在云端通过 AI 实现,不需要实时在网页上重新做。借助大模型可以更准确理解自然语言甚至语音指令,大幅降低前端菜单和操作按钮的复杂度。

从 PPT 到长文:突破模型边界的技术攻坚

钟昊:做完 PPT 编辑器后,我们沿着那个思路继续。我们觉得短文是没有壁垒的,短文加 prompt 没有壁垒,所以一定要搞长文。

当时模型上下文容量特别有限,大概 8000 TOKEN 左右,输入加输出。纯输入输出可能就 4000 多个,归到汉字可能就 1000 多个字,完全不够用。

我们不是做模型的,也不可能自己干大模型。在模型容量天然有限的情况下,我们怎么解这个超长上下文的题?我们调了算法同学一起详细调研各种技术路线。

有的技术路线说能让你理解 100 个文件,但要给 3 个小时时间。有的说能做出 5000 字文章,但前后逻辑不顺,车轱辘话反复说。我们怎么把优势发挥出来,把牺牲互相弥补,足足干了三四个月才有质的突破。

我们跟 Kimi 前后脚推出超长上下文理解。如果没记错,Kimi 第一版是 50 个文件每个 100 兆,我们第一版是 100 个文件每个 200 兆,而且是全模态的,大概三四十种格式都可以解析。输出能力是第一个达到 10 万字一次性输出的长文能力。

更重要的是沉淀下来一套让我们绕过或突破大模型边界的方法论和信念。模型并不是我们的边界。很多通用 agent 离了 Claude 就什么都不是,但我们完全自研框架,可以离开任何一个大模型,想办法取长补短,底层都是 MoE 的,可以随时插拔。

自由画布:GenFlow 的实验田

潘乱: 去年你们做的自由画布,感觉是今天 GenFlow 的实验田。在自由画布这个产品里面,你们验证了哪些关键理念?

我们也用它激活了文库和网盘很多存量数据。 比如在网盘上上线的 AI 学习笔记,很多用户过去在网盘看学习视频,但用纸笔记笔记,或者另外拿个 iPad 记笔记。AI 完全可以半自动甚至全自动去总结和记录相关关键帧,把学习视频脉络做成思维导图。

为什么之前没有这样的产品?就是因为编辑器融合如果不提前做的话,这种场景就很难做。 我们让用户能在看视频的同时,右边有一个编辑器,来记录自己想法,跟 AI 交互。整个过程就是把自由画布的融合编辑器底座迁移到新场景里快速复用。

当时我们在自由画布上,第一个觉得跟 chatbot 这种串行交互方式并不友好,很多时候我们需要并行处理很多文件和对话。 自由画布就是一个并行框架,可以同时并发处理非常多任务,这就变成了今天 GenFlow 的并行模式,GenFlow 能够并行调度 N 个 AI 专家来帮你同时干活。

GenFlow:让 100 个 AI 专家并行干活

潘乱:GenFlow 号称可以调动 100 多个 agent 工具矩阵并行干活,还能随时干预,这是怎么实现的?

钟昊:GenFlow 调用的每一个子能力都可以让子任务完成得更好。比如用户传了 PPT 模板想用这个模板生成 PPT,模板的还原就要通过编辑器。首先要让模板每个元素都能在线上精准还原,然后才能让 AI 学会,这个还原过程就是靠编辑器。

通过融合编辑器基座,能让 GenFlow 的干预模式变得更丝滑。现在不管生成绘本、研报、PPT,过程中都会先生成大纲,用户确认后再生成。大纲是可编辑的,用户可以随意添加文字或文件,大纲本身就是一个编辑器。

很多时候需要让不同模块自由转换,比如上传资料生成思维导图,需要在同一个交互界面让 GenFlow 完成跨模态任务。可能输入是文字、资料、图片、视频,输出可能是思维导图、PPT 或其他东西,需要在同一个界面,不能让它跳来跳去,这还是靠整个 AI 编辑器才能实现。

二、GenFlow 如何让文库、网盘都 " 活 " 过来

潘乱:为什么产品选型时选择对话式交互,而不是画布式交互?

钟昊:画布式交互对专业选手来说很爽,很干净、很自由。但对很多大众用户来说过于自由了,不知道该从何下手。所以 GenFlow 回归到更大家熟悉的 LUI 加 GUI 的对话加轻操作方式,对大多数用户接受度更高。但背后的理念、基建、能力依然是这套,而且 GenFlow 的 AI 智能程度和协作深度比自由画布有了大大提升。

并行与干预:重新定义 AI 协作体验

潘乱:并行和干预这两个能力对用户体验的改变有多大?

钟昊:并行给用户最直接的感觉是 " 这就是我要的一个团队为我工作 "。AI 在数字世界,既然在数字世界,为什么不能是 100 个 AI、1000 个 AI 同时为我干活呢?

干预给用户更多的是掌控感。不用再让团队干了一个星期,最后发现不 OK。你让你的下属干活,过程中发现他思考有偏差,但只能干瞪眼等他干完再重来,这很痛苦。

我对人是可以打断的,可以告诉你要考虑这个问题,要用上那个素材,这里想错了。我对 AI 为什么不行?所以 GenFlow 有暂停 button,用户可以随时打断 AI,告诉它应该怎样思考,甚至补充 " 我上周在网盘存了资料,你把那份资料也用起来 "。这更接近跟人的交互,增强了用户掌控感。

潘乱: 从技术角度上,你们这个 GenFlow 产品用下来也比其他产品更快一点,在申你要解的题是什么? 

杨在申: 现在底座模型的思考时间比之前更长了,因为算力消耗更多,解决的问题也更复杂。我们的优化点主要在业务层,两方面:

第一是任务分解时的并行优化。 假如一个复杂任务需要四步处理,前两步互相没依赖,和三四步也没依赖,虽然和三四步是串行,但前两步本身可以并行。在任务拆解环节就有压缩耗时的空间,可以并行的任务单元我们可以单拎出来做。

第二是状态管理。 一旦执行并行,任务肯定有快有慢,怎么及时捕获每一个任务运行状态,然后把接下来要可以挂接的下一个任务及时调度起来。需要有比较精密的状态管理,或者信号传递、信号共享系统。

垂类深耕 vs 通用路线:先练 72 绝技再练易筋经

潘乱:现在 AI 圈更习惯模型能力越强做什么都能做,大部分团队追求通用性,试图用一套框架解决所有问题。但你们选择先在垂直领域深耕再整合,这个路径的核心逻辑是什么?

钟昊:我们的目的从一开始就不是造一把举世无双的锤子,而是这个场景里天然就有很多用户需求等着我去解。

文库现在新用户 42%-45% 都是大学生,30% 左右是老师和医生。他们天天在这里下 PPT 模板、找 PPT 模板,但 PPT 模板不是终极需求,PPT 才是。所以我先把智能 PPT 做出来。

后来发现用户不光要 PPT,还有教务需求,医生要写报告、思想汇报,护士要写月度工作总结。我看到这些需求就想 AI 怎么去满足他,就把那些垂类工具造出来。

更接近于先把罗汉拳、虎鹤拳这些招式一招一式扎扎实实练出来,练出来后再看能不能有易筋经让它融会贯通。

我们有很好的习武场,有很好的用户群,有很乐意跟我们一路陪伴磨练这些 AI agent 的用户,把这些东西锻炼出来后自然发展。每一个东西都不是现在凭空造的,都在过去需求场景解决方案中埋下了伏笔。

相比其他 agent 产品,GenFlow 更接近垂类工具打磨到比较深后,尝试做各种其他领域的事。用深度思考加代码框架解一切,牺牲的是每个任务都要重新规划、反思,重新写代码框架,调用高成本虚拟机。这一个是慢,第二个成本重,第三个效果还不好。

我们是真的一招一招都练出来了,练出来后再学易筋经打通经脉。我们让 GenFlow 学会通过意图理解在什么场景和用户需求下调什么工具,让这些工具完成任务就 OK 了。

GenFlow 命名的寓意

潘乱:产品为什么叫 GenFlow?这名字的由来什么意思?

钟昊:这个也很有意思,这个是我们一位产品经理起的名字,起的时候首先第一印象就是比较顺口,第二背后的寓意是大家之前一直在聊一个事,叫 WorkFlow。

WorkFlow 我们想去做这件事情,是希望能让我们的 AI,它既然能够无所不能,那我们是希望这个 WorkFlow 不是一个写死的状态,而是首先它是可以 Generate 出来的,让 AI 来帮它调度,怎么样去更好地完成一个工作,有的时候 AI 想的甚至比我们自己还要清楚,这是 GenFlow 的由来之一。

另外我们还希望它是很聪明的,就是这个 WorkFlow,它不光是它能自己 Generate,而且它很聪明,那就是 Genius,所以这刚好前三个字母都是 GEN,最后我们就叫了 GenFlow。今天的 GenFlow 也是在往这样的一个方向去发展。

为什么大多数 Agent 产品难以成功? 

潘乱:今年 Agent 的确非常热,各种创业公司,各种 AI 产品都说自己是 Agent,或者在做 Agent 各类的东西,但很多通用 Agent 他们的任务完成率很低,DAU 超过 10 万的屈指可数,都很罕见,用户留存也非常惨淡,这是为什么?以及你们为什么有信心可以把这个天花板往上去捅一捅呢?

钟昊:回归原点,你要让一个 AI 能力,它有生命力。不管是文库最早做的智能 PPT,还是像我们接手网盘后的学习笔记,我觉得还是回归原点,就是扎扎实实的真的去解决一些用户他在这个场景下他就会碰到的一些问题,然后你解决的就是比原来他的这个场景拿到的解决方案要更好,也比他出去找别的工具解决得更好。

比如说看起来都在做智能 PPT,但是这个智能 PPT 我们的采纳率是 90%,市面上平均采纳率 50%~60%。那你生成一个东西,你生成 10 次有 9 次能用,还是说你生成 10 个你只有一半能用?你这个用户他到底能不能实现口碑上的人传人能不能实现这种来了还想再来?对于一个工具性产品来说,这就是致命的问题。你看起来好像都给了,我都端给了你一个 PPT 都端出去了。但是你不是做给投资人的,你是做给用户的,那用户能用不能用?他用了就知道了。

那像我们对各种垂类行业的 PPT 做了特殊的训练,然后我们的整个 PPT 后置的编辑器也是能够去还原很多他自己上传的模板。那这些都是细节,这些都是我们在这些场景里面去打破场景天花板的一些细节。你看上去我都是在做同样的 AI 能力,但是能不能传出去?能不能让用过的用户留下来?能不能让原来的这个场景长出第二条曲线?原来是个下模板的场景,现在变成一个做 PPT 的场景。

我们做 PPT 也是最早推出来说能允许用户自己上传模板,能允许用户上传自己的公司 Logo 贴在每个 PPT 里面,我生成时候给他带上,能让用户上传一个数据,然后这个数据就做成表出现在 PPT 里面,能在这个 PPT 里面去生成这种公司的组织架构框架图,能生成这种不一样的专业的布局。

那这些其实都叫 PPT,那我生成的跟别人就不一样,就是你每一个细节最后都能决定你到底做 AI 产品能不能成功。

三、文库网盘做了件了不起的事:从微笑曲线最底端往上走

从数据仓库到 Agent 工厂

潘乱:网盘你们想往什么方向改变?大部分人用网盘只是数据仓库,普通用户存的都是手机备份的视频图片,很少主动打开。

钟昊:网盘用 GenFlow 想象力更大,超出我们预期。有几个场景都是我没想到的。

第一个很基础的场景是资料整理。GenFlow 上到网盘后在资料管理层面有很大效率提升。用户同步到网盘都是瞎同步,没有整理,文件名千奇百怪。因为 GenFlow 有多模态读取能力,能基于内容聚类文件,不管是图片、视频还是 word。GenFlow 能帮他统一重命名,把符号去掉后按统一规则重新命名每个文件。

还有找资料的场景。我们经常碰到 " 明明记得信息在什么文件里,但想不起文件叫什么名字 "。这时关键词检索失效,但如果提问给 GenFlow,内容只要用户授权过、做过预向量化处理,哪怕是视频内容也能找出来。

在这基础层之上是功能层。很多用户拿网盘看学习资料,一边看一边在本子上或 Pad 上记笔记。我们做了 AI 学习笔记让 AI 帮他自动记,而且不是简单总结,用了思维导图工具、截屏工具,能具体定位到笔记记在哪一帧。

还有全自动化的 AI 再生产能力。很多网盘用户存的都是自己的素材,有过往知识沉淀、摘录信息。这些素材有两个层面:第一可以形成用户专属个人记忆,让 GenFlow 更懂他;第二,哪怕不涉及用户记忆,明确让用户说 " 你把我这些素材做成什么东西 "。

网盘的个人知识库属性加上 GenFlow 后能得到极大发挥。

从微笑曲线底端往上走

潘乱:怎么把一个原本只是中间环节、价值并没有那么高的产品,活生生从边缘地带推到中心?

钟昊:其实 AI 帮我们打破了边界。过去你想延伸,没有大的技术革命时很难的。

AI 既是燃料,同时也是催化剂。很多产品更多把 AI 理解为燃料,让 AI 帮我生成。但 AI 可以是很好的催化剂,做环节上下游的粘合、缝合和延伸。

网盘也一样,过去看了资料就结束了。但今天有了 AI,它能帮我更高效地找,能理解我的意图帮我定位素材。AI 帮他把上下游充分延展、催化和打通了。

既然文库和网盘都在往上下游走,为什么不让它完整串起来?它们刚好负责不同环节,也在延伸不同的上下游场景,但最终都围绕内容生成和消费主线。通过 AI、通过 GenFlow,背后蕴藏文库和网盘的知识和个人资料,最后把整个大的内容加 AI 战场给盘活了。

潘乱:网盘这个东西之前真的只是备份,今天感觉更像是把原本存储功能往上做了填充,最基础就是把同步数据仓库能力变成了有点像智能云相册的感觉。

钟昊:不只是相册。今天大家听到的百度网盘或百度文库,都早已不是十几年前的那个产品了。

潘乱:但这个名字让我听起来想不起有什么新东西。

钟昊:所以有用户开玩笑说百度文库、百度网盘可能是被名字耽误的最好用的 AI。映射到物理世界的话,百度网盘和百度文库更像是对公有或私有仓库,而有了 AI 之后,你是有了分拣、甚至现场搭建再生产小工厂的能力。你给仓库加了智能分拣,加了生产链,甚至加了销售渠道。加了这些东西之后,仓库早就不只是仓库了。

你存的可能还是往仓库里存的存货,但有了 AI 就像有了分拣装置、小工厂、生产链、销售渠道一样,我完全已经不是那个东西了,我就是一个超级工厂。

小团队如何连打胜仗

潘乱: 你们一开始团队规模并不大,技术研发团队两只手数得过来,怎么在这种人员规模不大的情况下,同时还打了好几场仗?在大厂里面成熟业务通过 AI 重构来上一个新台阶的,你们是非常罕见的存在。怎么能够同时打赢这种多场硬仗?

钟昊: 一方面是我们的战略其实非常的清晰和坚定。 像我们的副总裁 Avery 经常跟我们去对齐我们的战略主线,就像刚才提到的文库和网盘从一个单环节处理平台,到一个全环节的全链路的打通。

某种程度上是先让大家打胜仗,打胜仗的团队是靠一个个小胜仗积累起来的大胜仗。 先让大家能把小的饼一口吃圆了,然后大家愿意跟着卯足劲去吃那个更大的饼。

团队的战斗力,还真不完全在于规模和数量,很多时候就在于你的心气和你的人均效能。 前段时间我们还在内部盘我们研发的人均代码数,是一个非常夸张的数字。大家拿着这个心气去干正确的事情。

不光是我看得到,杨在申看得到,团队的每个同学也看得到。大家在这样心气上爆发出来这种战斗力,不是一般的拼凑起来的,或者大家是一种领导派来的任务这样状态下能够拥有的团队战斗力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百度文库 核心业务 百度 职场
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论