新立场Pro 4小时前
错过Manus后,字节AnyGen追求的是“大象无形”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

Agent 向左,Skill 向右垂直深耕与 " 上下文 " 战争。

2024 年,新加坡。一支名为 Butterfly Effect 的创业团队收到了来自字节跳动的收购邀约。字节开价 3000 万美元,意图将这支团队整合进 Doubao 体系,补齐其当时在通用 Agent 领域的短板。不过这笔交易最终未能达成,创始团队拒绝了被 " 吞并 " 的命运,理由是估值偏低,更关键的是,他们不愿过早失去独立性。

这次分道扬镳,成为了两条平行线的分野。

仅仅一年后,创始团队的赌注就收到了回报。3 月,Butterfly Effect 孵化的 Manus 凭借一段演示视频在 AI 圈内激起涟漪,其展现出的 " 自主规划、全自动执行 " 能力,被视为 Agent(智能体)雏形的最佳代表。这种狂热在年底达到顶峰,Meta 以高溢价将 Manus 收入囊中,作为其制衡硅谷企业级 AI 生态的关键筹码。

而就在大洋彼岸为 Manus 的造富神话欢呼时,字节跳动却在沉默中完成了另一种转身。

其内部一支秘密团队加速走到了台前,没有铺天盖地的宣发,也没有晦涩难懂的技术白皮书,名为 AnyGen 的工作流平台悄无声息地在海外上线。它支持 Google、Apple 和 Lark 登录,并直接沿用了最顺手的策略——免费。

在收购往事的影响下,主流风向倾向于将 AnyGen 视作 Manus 的 " 影子 "。但如果将视线从表面的功能清单移开,会发现字节想要的并不止于此。

Manus 的多 Agent 协作架构能够将任务分解给规划、执行、验证等不同模块的 Agent,甚至支持一次调度上百个智能体并行处理研究任务。而 AnyGen 的野心则在于将语音交互、多模态理解、结构化引导和实时协作编辑深度整合到一个流畅的工作流中,即在最耗时的 " 反复返工 " 环节中,插入一层极度稳定的加工与交付能力。

在深度体验并拆解了 AnyGen 的产品逻辑后,《新立场》发现:字节其实是试图在 Microsoft 365、Google Workspace 严防死守的办公领地里,用一种 " 反 Agent" 的逻辑,通过产品端创新与价格策略 " 突围 " 下一代工作流的操作系统。

回顾过去,Office 套件的护城河在于 " 格式垄断 ",而 AnyGen 试图建立的新秩序在于 " 流程重塑 "。AnyGen 去支持 Lark 的登录,去兼容 PPT 的原生格式。因为只有解决了交付的确定性,AI 才能真正从 " 玩具 " 变成 " 工具 "。

在大象转身的时刻,AnyGen 成为了那只试图隐入无形的先遣队。

人们热衷于拿 AnyGen 和 Manus 做对比,无非是因为市场喜欢 " 大卫挑战歌利亚 " 的叙事,或者巨头之间的镜像战争。但从 AI 架构的角度推演,这两款产品虽然同属生产力工具范畴,却明显是光谱的两极。

Manus 代表的是硅谷当前最火热的叙事——通用智能体。它的核心逻辑是 " 全自动代理 "。用户只需给出一个高层次的指令,例如 " 帮我规划去日本的旅行并预定酒店,顺便做一份预算表 "。Manus 便会接管你的浏览器和操作系统。通过多模态模型感知识别屏幕,规划步骤,点击鼠标,输入文字,甚至在网页崩溃时像人一样尝试刷新或切换路径。

Manus 的目标是让你 " 躺平 "。它像一个独立的数字员工,强调自治性。但在企业级应用中,Manus 所代表的 " 长链路全自动 Agent" 在当前模型能力下面临着一个数学上的死结—— " 误差级联 "。

简单来讲,假设一个 Agent 完成任务需要连续执行 10 个步骤(规划 - 搜索 - 阅读 - 筛选 - 决策),即使每一步的模型准确率高达 95%(这在复杂推理中已是极高标准),最终任务成功的概率也只有 59%。这意味着,完全放任 Agent 自主执行,会导致近一半的任务失败。

Manus 试图通过并发调度 " 上百个智能体 " 来解决这个问题,这在本质上类似于 OpenAI 在 o1 模型中使用的 " 思维链 " 与 " 自我博弈 " 技术:通过增加推理侧的计算量来换取准确度。

但 Manus 的激进在于,它试图在开放的互联网环境中进行这种博弈,环境的不可控性(网页变动、验证码、非结构化数据)会让模型的规划树(Tree of Thoughts)迅速发散,导致计算成本指数级上升而效果收敛缓慢。

AnyGen 则完全不同,它内置的技能(Skills)并非完全自主的 Agent,而是经过封装的、高稳定性的系统提示词与工具链。它的定位直指 "Notion 的协作能力 + Google NotebookLM 的知识总结力 + Manus 的任务执行力 " 的三位一体。

AnyGen 的高效运作依赖于一套精密编排的 Agent 协作机制。这种机制将模糊的自然语言需求转化为精确的执行指令,并通过多阶段流转来确保结果的准确性。在这一流程中,系统能够自动识别任务间的依赖关系。例如,在撰写舆情周报时,针对不同媒体渠道(微博、微信、外媒)的信息搜集任务可以同时启动,显著提升数据获取速度。 而当某一路径(如特定网页无法访问)受阻时,Agent 不会直接报错终止,而是会尝试替代方案(如使用搜索引擎快照、查找其他信源),或者在最终报告中明确标注缺失部分,交由人工接管。

字节看得很清楚:在当下的技术周期里,完全自动化的 Agent 依然面临信任壁垒,在严肃的办公场景中,用户需要的是一个能深度增强人类能力的副手。

这种区别在社区内被称为 "Agent 派 " 与 "Skill 派 " 的分野。Manus 希望你 " 放手 ",它负责搞定一切,风险在于过程的不可控。AnyGen 希望你 " 共创 ",它负责搞定那些繁琐、重复、易出错的中间环节,核心决策权始终在人手中。因此,Manus 和 AnyGen 的竞争关系很弱,更多的是生态位的互补。

《新立场》认为,现有最高效的方案是构建一个混合工作流,以小驭大:将长链路、复杂自动化任务委托给 Manus 执行,而在最终交付物的专业润色、可编辑呈现和视觉优化(如报告或 PPT)阶段,转向 AnyGen 进行打磨。

调研阶段: 派 Manus 去全网搜集全球最成功的 10 个同类 App 的功能点和定价策略(利用其广度搜索和自主规划能力)。

内化阶段: 将资料喂给 NotebookLM,通过对话理清思路,生成一份产品功能清单。

交付阶段: 将清单拷贝到 AnyGen,生成一份产品路演 PPT 或 UI 设计说明文档,并在 AnyGen 里微调视觉细节,直到可以发给团队。

在 " 反复返工 " 中寻找确定性

办公赛道从来不缺玩家,但却是最难被 " 跑通 " 的领域。

微软的 Microsoft 365 生态坐拥十亿用户,但其本质是在旧时代的庞大躯体上嫁接 AI,Word 还是那个 Word,Excel 还是那个 Excel。AI 生成的每一段文字,都需要用户在繁杂的菜单栏里进行二次加工。Notion AI 足够灵活,但在深度数据处理和多模态整合上始终隔着一层窗户纸。

现实中,大多数 AI 办公工具的崩溃时刻往往发生在生成之后:文档出来了,打工人得面对高昂的修正成本;PPT 生成了,还得处理格式走样、模板崩坏的 " 返工地狱 "。AnyGen 试图切入的,就是这个 " 反复返工 " 的痛点。

《新立场》在实测中,发现 AnyGen 展现出了一种有别于竞品的 " 确定性 "。

以 " 数据调研报告 " 为例。当输入 " 分析过去 30 天 Twitter 上关于 Gemini 的讨论声量 " 时,AnyGen 并不是简单地调用大模型生成一段似是而非的评论,而是内置了一个类似爬虫的 Agent 去实时抓取数据。

它直接扒取了 Twitter 的公开数据,生成了一份包含可视化图表、分析文本、明细表格的完整报告。更关键的是,报告的颗粒度虽然尚不及专业分析师,但报告的格式是结构化的,可以直接导出,直接汇报。

再看 PPT 场景,AnyGen 接收到指令 " 把链接里的播客变成 PPT" 时,会收集用户的演示偏好(目标受众、字体风格)生成原生 ".pptx" 文件。虽然内容还是图片,但是已经可以用幻灯片的方式来播放。

传统的 LLM 是基于概率预测下一个 token,这天生是发散的。但 AnyGen 显然在模型后端加了一层强约束,当用户要求生成 PPT 时,模型不再是生成 " 文本 ",而是生成一段可被执行的 Python 代码或 JSON 结构,并在内置的沙盒环境中试运行。

《新立场》认为,这很好地反映了字节 AI 产品的思路—— " 代码即策略 ",模型不直接画图,而是编写一段调用 PowerPoint API 的代码。代码要么运行成功,要么报错重试,不存在 " 画歪了 " 这种中间状态。

这种将非结构化的自然语言转化为确定性的形式语言的能力,也是 AnyGen 敢于承诺 " 零返工 " 的底气所在。

AnyGen 目前仅面向海外,但将其置于全球竞争的棋盘上,我们能更清晰地看到字节的处境。在海外,工具链极其破碎。Slack 沟通,Notion 记笔记,Zoom 开会,Google Docs 协作。这种碎片化给了 AnyGen 巨大的机会,它可以用 "All-in-One" 的工作空间故事,去整合这些零散的需求。

但如果 AnyGen 未来回归国内市场,它第一步要做的不是横向对比功能,而是找准自己的生态位。在国内,它将遭遇两股更强势的竞争力量。

第一类是办公套件内生的 AI,以金山 WPS 和微软 Office 为代表。这类竞品的最大优势在于它们本身就是 " 交付现场 "。模板、字体、版式规范、协作审阅,这一切都发生在同一个系统内。套件型 AI 默认解决了所有新工具都绕不开的死穴:迁移成本。当用户在 WPS 里生成 PPT 时,不需要搬运数据,也不需要担心导出走样。

第二类是超级入口的轻量化打击,以夸克、百度文库为代表。夸克的逻辑是将 PPT 生产从沉重的办公套件中剥离,变成一种高频、移动端、随手可得的轻量消费能力。这种入口位置带来的分发效应极其恐怖。

面对 Office 的深厚积淀与 Manus 的前沿探索,AnyGen 选择了一条更为务实的兼容之路。它试图在经典的交付标准与新兴的智能体验之间,架起一座通行的桥梁。在这家巨头看来,进入生产力场景不只是为了占领地盘,更是为了在 AI 时代,为用户提供一种确定性的工作方式。

为什么是现在?为什么是办公场景?

一个明显的趋势是大模型作为底层基座的战争已经结束,应用层的战争才刚刚开始。而跑出来的产品,大多不是 " 什么都能做 " 的通用工具,而是 " 把一件事做透 " 的垂直应用。例如写作的星月写作,语音博客的 Listenhub,以及图像设计领域的 Lovart。

这种风向的转变,在刚刚落幕的 CES 2026 上得到了最直观的印证。

相比于两年前 CES 2024 对 AI 无限期待的 " 野心 ",今年的拉斯维加斯少了几分关于通用模型的宏大叙事。相比于那些试图在云端回答一切的大模型,市场将更多的聚光灯打向了 " 第二大脑 " 类的应用载体。从 Plaud 的录音贴片到 Vocci 的指环,参展商们不再执着于展示模型参数的大小,而是竞相展示如何更精准地捕捉会议记录、如何更高效地整理个人数据。

在《新立场》看来,其传递了一个清晰的信号:AI 的战场已经从 " 定义物理边界 ",转移到了 " 争夺数据上下文 "。 无论是美国的科技巨头还是出海的中国企业,大家都在寻找具体的支点。毕竟只有当 AI 开始处理具体的会议摘要、整理具体的待办事项时,它才算真正从表演性质的 "Show" 变成了能干实事的 "Work"。

而细分来看,AI 应用们在垂直场景的深度,比通用能力的广度更重要。Manus 试图做通用 Agent,什么都能干,但往往什么都不够深。AnyGen 聚焦在 " 办公交付 " 这一个场景,反而更容易做出差异化。

这背后的核心逻辑在于 "Context"(上下文 / 语境)。

程序员为什么是最先享受到 AI 红利的人群?因为 Github Copilot 拥有代码库这个最完美的 Context。AI 知道你的函数怎么写,知道你的变量怎么定义,它不需要揣摩你的意图。

但在通用的办公场景中,AI 往往是 " 盲 " 的。它不知道你公司的 PPT 模板是什么,不知道你的汇报对象喜欢什么风格,不知道你上周的会议纪要是怎么写的。那些 AI 不知道的痛点,才是做 AI 产品最应该知道的 Context。

对于办公用户,让他们去构建工作 Agent、去写 System Prompt、去调试 API 是不现实的。AnyGen 试图解决的,就是这种办公场景的 Context。

这也是字节最擅长的环节:将隐性的用户需求显性化。当年做头条,把 " 信息分发 " 的逻辑变成了算法;做抖音,把 " 娱乐消遣 " 的逻辑变成了短视频流。如今做 AnyGen,字节也在试图把 " 办公协作 " 的隐性流程,变成企业级 AI 生态的显性技能。

不同于多数 AI 工具采用分层订阅或按功能付费,AnyGen 从一开始即提供完全免费的体验版本,甚至允许企业用户通过邀请码直接试用。

在 SaaS 普遍追求订阅付费、Token 成本依然高昂的当下,字节意图通过免费策略,构建一个覆盖全球的 " 过程奖励模型 "(Process Reward Model, PRM)训练场。

在大模型训练的 scaling laws 中,最稀缺的资源已从原始静态的文本数据,过渡到人类在复杂任务中的 " 过程反馈 "。当用户在 AnyGen 里手动修正了 AI 生成的周报摘要,或者调整了 PPT 的一张配图,这个 " 修改 " 动作本身,就是一个价值连城的梯度下降信号。

它教会模型的也不仅仅是 " 结果是什么 ",还有 " 如何到达结果 "。

在昂贵的 Token 成本面前,字节表现出的这种 " 松弛 ",如果不被解读为一场针对存量市场的降维围猎,似乎很难从商业逻辑上自洽。 显然,比起账户里即刻到账的现金流,这家巨头更在意的是如何将用户的使用习惯留在自己的生态之内。

写在最后

计算机先驱约瑟夫 · 利克莱德在 1960 年提出了 " 人机共生 " 的概念。他设想,人类设定目标、构建假设、确定标准,而计算机负责那些可程序化的、繁琐的计算工作。

六十多年过去了,Manus 和 AnyGen 的出现,似乎正在逼近这个愿景的两个侧面。Manus 向左,试图让机器更像人,拥有完全的自主权;AnyGen 向右,试图让人更像神,拥有无所不能的工具箱。

这也给所有的 AI 创业者提了个醒:AI 生产力软件加速普及的同时,在大厂和独立开发者的夹缝中,初创 AI 公司生存空间正在被压缩。AI 时代创业需要想清楚,如何在大厂和独立开发者的夹缝中,找到一个可以快速积累产生数据壁垒的发展区。

既摒弃了大厂的各种合规和流程,又逃开了独立开发者的 Vibe Coding。

对于字节跳动而言,AnyGen 显然是其在 AI 时代的一次重要落子——试图将触角伸向更严肃、更底层的生产力领域。

飞书(Lark)作为字节的办公套件,在国内有着极高的口碑,但在海外市场,面对 Slack 和 Teams 的围剿,Lark 的压力一直不小。但如果 AnyGen 能把语音记录和多模态输入转成结构化文档与演示材料,并进一步在飞书里完成分发、协作修改、评论审阅与版本管理,它就有机会绕开迁移成本。

这就解释了为什么 AnyGen 强调 " 协作 " 而非 " 全自动 "。因为只有协作,才能让人留在 Lark 的生态里;只有留在生态里,才能产生粘性。

当 Agent 隐入工作流,字节这头庞大的大象,或许离真正地 " 隐入无形 " 也就不远了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai google 神话 apple 字节跳动
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论