错过Manus后，字节AnyGen追求的是“大象无形”

Agent 向左，Skill 向右垂直深耕与 " 上下文 " 战争。

2024 年，新加坡。一支名为 Butterfly Effect 的创业团队收到了来自字节跳动的收购邀约。字节开价 3000 万美元，意图将这支团队整合进 Doubao 体系，补齐其当时在通用 Agent 领域的短板。不过这笔交易最终未能达成，创始团队拒绝了被 " 吞并 " 的命运，理由是估值偏低，更关键的是，他们不愿过早失去独立性。

这次分道扬镳，成为了两条平行线的分野。

仅仅一年后，创始团队的赌注就收到了回报。3 月，Butterfly Effect 孵化的 Manus 凭借一段演示视频在 AI 圈内激起涟漪，其展现出的 " 自主规划、全自动执行 " 能力，被视为 Agent（智能体）雏形的最佳代表。这种狂热在年底达到顶峰，Meta 以高溢价将 Manus 收入囊中，作为其制衡硅谷企业级 AI 生态的关键筹码。

而就在大洋彼岸为 Manus 的造富神话欢呼时，字节跳动却在沉默中完成了另一种转身。

其内部一支秘密团队加速走到了台前，没有铺天盖地的宣发，也没有晦涩难懂的技术白皮书，名为 AnyGen 的工作流平台悄无声息地在海外上线。它支持 Google、Apple 和 Lark 登录，并直接沿用了最顺手的策略——免费。

在收购往事的影响下，主流风向倾向于将 AnyGen 视作 Manus 的 " 影子 "。但如果将视线从表面的功能清单移开，会发现字节想要的并不止于此。

Manus 的多 Agent 协作架构能够将任务分解给规划、执行、验证等不同模块的 Agent，甚至支持一次调度上百个智能体并行处理研究任务。而 AnyGen 的野心则在于将语音交互、多模态理解、结构化引导和实时协作编辑深度整合到一个流畅的工作流中，即在最耗时的 " 反复返工 " 环节中，插入一层极度稳定的加工与交付能力。

在深度体验并拆解了 AnyGen 的产品逻辑后，《新立场》发现：字节其实是试图在 Microsoft 365、Google Workspace 严防死守的办公领地里，用一种 " 反 Agent" 的逻辑，通过产品端创新与价格策略 " 突围 " 下一代工作流的操作系统。

回顾过去，Office 套件的护城河在于 " 格式垄断 "，而 AnyGen 试图建立的新秩序在于 " 流程重塑 "。AnyGen 去支持 Lark 的登录，去兼容 PPT 的原生格式。因为只有解决了交付的确定性，AI 才能真正从 " 玩具 " 变成 " 工具 "。

在大象转身的时刻，AnyGen 成为了那只试图隐入无形的先遣队。

人们热衷于拿 AnyGen 和 Manus 做对比，无非是因为市场喜欢 " 大卫挑战歌利亚 " 的叙事，或者巨头之间的镜像战争。但从 AI 架构的角度推演，这两款产品虽然同属生产力工具范畴，却明显是光谱的两极。

Manus 代表的是硅谷当前最火热的叙事——通用智能体。它的核心逻辑是 " 全自动代理 "。用户只需给出一个高层次的指令，例如 " 帮我规划去日本的旅行并预定酒店，顺便做一份预算表 "。Manus 便会接管你的浏览器和操作系统。通过多模态模型感知识别屏幕，规划步骤，点击鼠标，输入文字，甚至在网页崩溃时像人一样尝试刷新或切换路径。

Manus 的目标是让你 " 躺平 "。它像一个独立的数字员工，强调自治性。但在企业级应用中，Manus 所代表的 " 长链路全自动 Agent" 在当前模型能力下面临着一个数学上的死结—— " 误差级联 "。

简单来讲，假设一个 Agent 完成任务需要连续执行 10 个步骤（规划 - 搜索 - 阅读 - 筛选 - 决策），即使每一步的模型准确率高达 95%（这在复杂推理中已是极高标准），最终任务成功的概率也只有 59%。这意味着，完全放任 Agent 自主执行，会导致近一半的任务失败。

Manus 试图通过并发调度 " 上百个智能体 " 来解决这个问题，这在本质上类似于 OpenAI 在 o1 模型中使用的 " 思维链 " 与 " 自我博弈 " 技术：通过增加推理侧的计算量来换取准确度。

但 Manus 的激进在于，它试图在开放的互联网环境中进行这种博弈，环境的不可控性（网页变动、验证码、非结构化数据）会让模型的规划树（Tree of Thoughts）迅速发散，导致计算成本指数级上升而效果收敛缓慢。

AnyGen 则完全不同，它内置的技能（Skills）并非完全自主的 Agent，而是经过封装的、高稳定性的系统提示词与工具链。它的定位直指 "Notion 的协作能力 + Google NotebookLM 的知识总结力 + Manus 的任务执行力 " 的三位一体。

AnyGen 的高效运作依赖于一套精密编排的 Agent 协作机制。这种机制将模糊的自然语言需求转化为精确的执行指令，并通过多阶段流转来确保结果的准确性。在这一流程中，系统能够自动识别任务间的依赖关系。例如，在撰写舆情周报时，针对不同媒体渠道（微博、微信、外媒）的信息搜集任务可以同时启动，显著提升数据获取速度。而当某一路径（如特定网页无法访问）受阻时，Agent 不会直接报错终止，而是会尝试替代方案（如使用搜索引擎快照、查找其他信源），或者在最终报告中明确标注缺失部分，交由人工接管。

字节看得很清楚：在当下的技术周期里，完全自动化的 Agent 依然面临信任壁垒，在严肃的办公场景中，用户需要的是一个能深度增强人类能力的副手。

这种区别在社区内被称为 "Agent 派 " 与 "Skill 派 " 的分野。Manus 希望你 " 放手 "，它负责搞定一切，风险在于过程的不可控。AnyGen 希望你 " 共创 "，它负责搞定那些繁琐、重复、易出错的中间环节，核心决策权始终在人手中。因此，Manus 和 AnyGen 的竞争关系很弱，更多的是生态位的互补。

《新立场》认为，现有最高效的方案是构建一个混合工作流，以小驭大：将长链路、复杂自动化任务委托给 Manus 执行，而在最终交付物的专业润色、可编辑呈现和视觉优化（如报告或 PPT）阶段，转向 AnyGen 进行打磨。

调研阶段：派 Manus 去全网搜集全球最成功的 10 个同类 App 的功能点和定价策略（利用其广度搜索和自主规划能力）。

内化阶段：将资料喂给 NotebookLM，通过对话理清思路，生成一份产品功能清单。

交付阶段：将清单拷贝到 AnyGen，生成一份产品路演 PPT 或 UI 设计说明文档，并在 AnyGen 里微调视觉细节，直到可以发给团队。

在 " 反复返工 " 中寻找确定性

办公赛道从来不缺玩家，但却是最难被 " 跑通 " 的领域。

微软的 Microsoft 365 生态坐拥十亿用户，但其本质是在旧时代的庞大躯体上嫁接 AI，Word 还是那个 Word，Excel 还是那个 Excel。AI 生成的每一段文字，都需要用户在繁杂的菜单栏里进行二次加工。Notion AI 足够灵活，但在深度数据处理和多模态整合上始终隔着一层窗户纸。

现实中，大多数 AI 办公工具的崩溃时刻往往发生在生成之后：文档出来了，打工人得面对高昂的修正成本；PPT 生成了，还得处理格式走样、模板崩坏的 " 返工地狱 "。AnyGen 试图切入的，就是这个 " 反复返工 " 的痛点。

《新立场》在实测中，发现 AnyGen 展现出了一种有别于竞品的 " 确定性 "。

以 " 数据调研报告 " 为例。当输入 " 分析过去 30 天 Twitter 上关于 Gemini 的讨论声量 " 时，AnyGen 并不是简单地调用大模型生成一段似是而非的评论，而是内置了一个类似爬虫的 Agent 去实时抓取数据。

它直接扒取了 Twitter 的公开数据，生成了一份包含可视化图表、分析文本、明细表格的完整报告。更关键的是，报告的颗粒度虽然尚不及专业分析师，但报告的格式是结构化的，可以直接导出，直接汇报。

再看 PPT 场景，AnyGen 接收到指令 " 把链接里的播客变成 PPT" 时，会收集用户的演示偏好（目标受众、字体风格）生成原生 ".pptx" 文件。虽然内容还是图片，但是已经可以用幻灯片的方式来播放。

传统的 LLM 是基于概率预测下一个 token，这天生是发散的。但 AnyGen 显然在模型后端加了一层强约束，当用户要求生成 PPT 时，模型不再是生成 " 文本 "，而是生成一段可被执行的 Python 代码或 JSON 结构，并在内置的沙盒环境中试运行。

《新立场》认为，这很好地反映了字节 AI 产品的思路—— " 代码即策略 "，模型不直接画图，而是编写一段调用 PowerPoint API 的代码。代码要么运行成功，要么报错重试，不存在 " 画歪了 " 这种中间状态。

这种将非结构化的自然语言转化为确定性的形式语言的能力，也是 AnyGen 敢于承诺 " 零返工 " 的底气所在。

AnyGen 目前仅面向海外，但将其置于全球竞争的棋盘上，我们能更清晰地看到字节的处境。在海外，工具链极其破碎。Slack 沟通，Notion 记笔记，Zoom 开会，Google Docs 协作。这种碎片化给了 AnyGen 巨大的机会，它可以用 "All-in-One" 的工作空间故事，去整合这些零散的需求。

但如果 AnyGen 未来回归国内市场，它第一步要做的不是横向对比功能，而是找准自己的生态位。在国内，它将遭遇两股更强势的竞争力量。

第一类是办公套件内生的 AI，以金山 WPS 和微软 Office 为代表。这类竞品的最大优势在于它们本身就是 " 交付现场 "。模板、字体、版式规范、协作审阅，这一切都发生在同一个系统内。套件型 AI 默认解决了所有新工具都绕不开的死穴：迁移成本。当用户在 WPS 里生成 PPT 时，不需要搬运数据，也不需要担心导出走样。

第二类是超级入口的轻量化打击，以夸克、百度文库为代表。夸克的逻辑是将 PPT 生产从沉重的办公套件中剥离，变成一种高频、移动端、随手可得的轻量消费能力。这种入口位置带来的分发效应极其恐怖。

面对 Office 的深厚积淀与 Manus 的前沿探索，AnyGen 选择了一条更为务实的兼容之路。它试图在经典的交付标准与新兴的智能体验之间，架起一座通行的桥梁。在这家巨头看来，进入生产力场景不只是为了占领地盘，更是为了在 AI 时代，为用户提供一种确定性的工作方式。

为什么是现在？为什么是办公场景？

一个明显的趋势是大模型作为底层基座的战争已经结束，应用层的战争才刚刚开始。而跑出来的产品，大多不是 " 什么都能做 " 的通用工具，而是 " 把一件事做透 " 的垂直应用。例如写作的星月写作，语音博客的 Listenhub，以及图像设计领域的 Lovart。

这种风向的转变，在刚刚落幕的 CES 2026 上得到了最直观的印证。

相比于两年前 CES 2024 对 AI 无限期待的 " 野心 "，今年的拉斯维加斯少了几分关于通用模型的宏大叙事。相比于那些试图在云端回答一切的大模型，市场将更多的聚光灯打向了 " 第二大脑 " 类的应用载体。从 Plaud 的录音贴片到 Vocci 的指环，参展商们不再执着于展示模型参数的大小，而是竞相展示如何更精准地捕捉会议记录、如何更高效地整理个人数据。

在《新立场》看来，其传递了一个清晰的信号：AI 的战场已经从 " 定义物理边界 "，转移到了 " 争夺数据上下文 "。无论是美国的科技巨头还是出海的中国企业，大家都在寻找具体的支点。毕竟只有当 AI 开始处理具体的会议摘要、整理具体的待办事项时，它才算真正从表演性质的 "Show" 变成了能干实事的 "Work"。

而细分来看，AI 应用们在垂直场景的深度，比通用能力的广度更重要。Manus 试图做通用 Agent，什么都能干，但往往什么都不够深。AnyGen 聚焦在 " 办公交付 " 这一个场景，反而更容易做出差异化。

这背后的核心逻辑在于 "Context"（上下文 / 语境）。

程序员为什么是最先享受到 AI 红利的人群？因为 Github Copilot 拥有代码库这个最完美的 Context。AI 知道你的函数怎么写，知道你的变量怎么定义，它不需要揣摩你的意图。

但在通用的办公场景中，AI 往往是 " 盲 " 的。它不知道你公司的 PPT 模板是什么，不知道你的汇报对象喜欢什么风格，不知道你上周的会议纪要是怎么写的。那些 AI 不知道的痛点，才是做 AI 产品最应该知道的 Context。

对于办公用户，让他们去构建工作 Agent、去写 System Prompt、去调试 API 是不现实的。AnyGen 试图解决的，就是这种办公场景的 Context。

这也是字节最擅长的环节：将隐性的用户需求显性化。当年做头条，把 " 信息分发 " 的逻辑变成了算法；做抖音，把 " 娱乐消遣 " 的逻辑变成了短视频流。如今做 AnyGen，字节也在试图把 " 办公协作 " 的隐性流程，变成企业级 AI 生态的显性技能。

不同于多数 AI 工具采用分层订阅或按功能付费，AnyGen 从一开始即提供完全免费的体验版本，甚至允许企业用户通过邀请码直接试用。

在 SaaS 普遍追求订阅付费、Token 成本依然高昂的当下，字节意图通过免费策略，构建一个覆盖全球的 " 过程奖励模型 "（Process Reward Model, PRM）训练场。

在大模型训练的 scaling laws 中，最稀缺的资源已从原始静态的文本数据，过渡到人类在复杂任务中的 " 过程反馈 "。当用户在 AnyGen 里手动修正了 AI 生成的周报摘要，或者调整了 PPT 的一张配图，这个 " 修改 " 动作本身，就是一个价值连城的梯度下降信号。

它教会模型的也不仅仅是 " 结果是什么 "，还有 " 如何到达结果 "。

在昂贵的 Token 成本面前，字节表现出的这种 " 松弛 "，如果不被解读为一场针对存量市场的降维围猎，似乎很难从商业逻辑上自洽。显然，比起账户里即刻到账的现金流，这家巨头更在意的是如何将用户的使用习惯留在自己的生态之内。

写在最后

计算机先驱约瑟夫 · 利克莱德在 1960 年提出了 " 人机共生 " 的概念。他设想，人类设定目标、构建假设、确定标准，而计算机负责那些可程序化的、繁琐的计算工作。

六十多年过去了，Manus 和 AnyGen 的出现，似乎正在逼近这个愿景的两个侧面。Manus 向左，试图让机器更像人，拥有完全的自主权；AnyGen 向右，试图让人更像神，拥有无所不能的工具箱。

这也给所有的 AI 创业者提了个醒：AI 生产力软件加速普及的同时，在大厂和独立开发者的夹缝中，初创 AI 公司生存空间正在被压缩。AI 时代创业需要想清楚，如何在大厂和独立开发者的夹缝中，找到一个可以快速积累产生数据壁垒的发展区。

既摒弃了大厂的各种合规和流程，又逃开了独立开发者的 Vibe Coding。

对于字节跳动而言，AnyGen 显然是其在 AI 时代的一次重要落子——试图将触角伸向更严肃、更底层的生产力领域。

飞书（Lark）作为字节的办公套件，在国内有着极高的口碑，但在海外市场，面对 Slack 和 Teams 的围剿，Lark 的压力一直不小。但如果 AnyGen 能把语音记录和多模态输入转成结构化文档与演示材料，并进一步在飞书里完成分发、协作修改、评论审阅与版本管理，它就有机会绕开迁移成本。

这就解释了为什么 AnyGen 强调 " 协作 " 而非 " 全自动 "。因为只有协作，才能让人留在 Lark 的生态里；只有留在生态里，才能产生粘性。

当 Agent 隐入工作流，字节这头庞大的大象，或许离真正地 " 隐入无形 " 也就不远了。

宙世代

一起剪

相关标签