文 | 字母 AI
Cowork 是 Anthropic 最近推出的一个桌面 AI Agent,能让用户无需编程即可完成本地文件处理、工作流程自动化等任务。
这个产品对产业的影响非常大,但它有点太贵了,只有 Anthropic 的 Max 用户才能使用,最低也要每月 100 美元。
有意思的是,仅仅过了 48 个小时,就有人通过根据 Cowork 的产品逻辑开发出了免费开源的版本 OpenWork。
它同样可以读取文件、创建文档、自动化重复性知识工作。而且它不需要订阅,用户只需接入自己的 API 密钥,选择想用的模型,就能在 Mac 上运行 Agent 工作流。
当一个产品的核心能力可以在两天内被复制,要么是技术门槛已经足够低,要么是原型足够清晰。
答案显而易见,Vibe Coding 已经强大到只要给出的需求足够明确,就能做个甩手掌柜,让 AI 独自完成所有的工作。
事实上 Cowork 这个产品本身的开发周期就仅有 10 天,团队也就 4 个人,几乎全部代码都由 AI 编写。并且它的代码完整、封装完整,是一个成熟的应用,而非以前那种 10 天半个月就开发出来的玩具级应用。
医生可以给自己做手术,理发师可以给自己剪头发,而 AI 也可以构建 AI。
01
在 Cowork 诞生之前,市场已经有不少相似的产品。
最被人们熟知的就是 Manus,它的定位是 " 首个通用 AIAgent",由已经被 Meta 收购的蝴蝶效应开发。
Manus 在云端异步执行任务,用户可以关闭笔记本电脑后让 Agent 继续工作。在 GAIA 基准测试中,Manus 在 1 到 12 级难度的最优表现,超越 OpenAI Deep Research。不过 10 到 12 级难度的得分仍然很低,仅有 0.4-0.8%。
其架构使用 Claude 作为主 LLM,配合 29 种专用工具,通过多 Agent 并行处理与结构化输出 ( Schema ) 来管理上下文。
2025 年 3 月发布后,Manus 在 8 个月内达到 1 亿美元年度经常性收入,这个增长速度在 AI 产品中极为罕见。2025 年 12 月,Meta 以超过 20 亿美元收购 Manus,这笔交易的估值是其半年前 5 亿美元估值的四倍。

Gemini CLI 是谷歌的开源终端 Agent,面向开发者群体。
它提供免费访问 Gemini 2.5 Pro,内置谷歌搜索、文件操作、Shell 命令等工具,并支持 MCP 扩展。与 Cowork 的图形界面不同,Gemini CLI 保持在命令行环境,但通过开源策略鼓励社区贡献和自定义集成。
ChatGPT Agent 于 2025 年 7 月推出,运行在虚拟机环境中,集成文本浏览器、可视化浏览器、终端和第三方 API 连接器。Pro 用户每月获得 400 次使用额度,Plus 和 Team 用户为 40 次。
在 HLE 基准测试中得分 41.6%,在 BrowseComp 基准测试中达到 68.9% 的结果。但实际测试显示基线成功率仅 12.5%,需要优化才能达到 80% 的任务完成率。
ChatGPT Agent 的前身,是 OpenAI 在 2025 年 1 月发布发布的 Operator。
对比维度上,自主性程度从高到低依次为 Manus、Cowork、ChatGPT Agent、Gemini CLI。
Manus 允许完全异步执行,用户可以在任务运行期间完全脱离;Cowork 采用委托式执行,用户授权后 AI 自主工作;ChatGPT Agent 提供监督模式选项,用户可以选择介入程度;Gemini CLI 则采用交互式确认,每个关键步骤都需要用户批准。
执行环境方面,Manus 和 ChatGPT Agent 提供完整虚拟环境,隔离性最强;Cowork 限定在本地文件夹,通过沙箱机制保证安全;Gemini CLI 直接访问系统终端,灵活性最高但风险也相对较大。
Gemini CLI 的使用门槛最高,它需要用户具备命令行操作能力。而其他三款软件,均可以通过自然语言或者点击界面来执行任务。
技术架构中,多 Agent 协作、工具链集成、沙箱隔离和虚拟机封装代表了不同的安全与能力权衡。
Manus 的多 Agent 系统采用 MapReduce 架构,主 Agent 分析任务并生成执行计划,然后派生出数百个专业化子 Agent 并行工作,最后聚合结果。
这种架构使其能够同时处理大规模任务,比如找出所有 YC 支持的金融科技初创公司 CTO 的电子邮件地址,这个任务如果由人工完成需要数周,而 Manus 可以在几分钟内完成。
Cowork 与 Claude Code 共享相同代理栈,但通过 GUI 而非终端界面呈现,实现 " 相同能力,不同入口 "。
它运行在完整的 Linux 容器中,由于目前 Cowork 只支持 Mac,所以它使用的是 Apple 虚拟化框架所提供的沙箱隔离。用户能明确授权可访问的文件夹,如果不授予访问权限,Cowork 就无法看到该文件夹。
Gemini CLI 通过 MCP 服务器扩展能力,支持 GitHub、Firebase、谷歌 Workspace 等集成。
开发者可以配置多个 MCP 服务器,每个服务器提供特定领域的工具。这种模块化设计使 Gemini CLI 成为一个可扩展的平台,而不仅仅是一个固定功能的工具。
ChatGPT Agent 的虚拟机环境提供了最严格的隔离,但也带来了性能开销。在测试中,简单的点击、选择元素和搜索操作可能需要几秒钟甚至几分钟。
02
Cowork 给业界带来的最大启示就是,AI 也可以构建 AI。
传统软件开发中,从概念到产品需要数月甚至数年,AI 辅助开发将周期缩短到数周。
到了 AI 构建 AI 阶段,整个产品开发的周期可以以 " 天 " 为单位。Cowork 就是最好的证明。
AI 生成的代码通常需要人工审查和修正,但当 AI 构建的是 AI 工具本身时,它对领域的理解深度超越了通用场景。
Claude Code 理解代码生成的模式、常见错误、最佳实践,因为它每天处理 1.95 亿行代码,形成了一种自产自销的良性循环。
Anthropic 的工程师鲍里斯 · 切尔尼(Boris Cherny)对这个过程的描述是:" 我们采用了一种 Vibe Coding 的方法,工程师给出一个大概的结果,然后让 Claude Code 生成 Cowork 的大部分功能。"
Claude Code 不仅写代码,还提出自己的想法,建议应该构建什么。因此这不是简单的代码生成,而是一个理解需求、设计架构、实现功能的完整过程。
这种递归改进已经在 Anthropic 内部产生了显著影响。
去年,Anthropic 工程师表示,Claude 辅助完成了 30% 的编码工作。到了 2025 年,这个数字提升到了 60%。
同时 Anthropic 的工程团队表示,其团队规模扩大了一倍,代码合并请求(PR 吞吐量)却增加了 67%。
这是一个反常识的事情,PR 指的是当开发者完成一段代码开发后,会发起代码合并请求。当团队审核代码质量、确认功能无误,才能将这段代码合并到项目的主分支中。
理论上来说,团队规模越大,PR 吞吐量越低。但是由于原本需要人工编写、审核的大量功能代码,被 Claude Code 承接,减少了人类工程师的重复工作。
工程师可以更聚焦于核心模块的审核与架构设计,让 PR 的审核、合并流程更快,最终体现为电表倒转,PR 吞吐量提升。
更进一步,Anthropic CEO 达里奥 · 阿莫德(Dario Amodei)在 2025 年 10 月季度技术沟通会上公开表示,新 Claude 模型和功能的 " 绝大多数 " 代码现在由 AI Agent 自主编写,且这个比例超过 90%。
换句话说,今天你用的 Claude,是昨天 Claude 自己写给你用的。
Claude Code 的能力被封装进 Cowork,Cowork 又让非技术用户能够构建自动化工具,这些工具可能反过来生成新的 AI 辅助流程。
同时,整个过程也因为不断有新的工具加入而变得越来越高效、越来越准确。
归根结底,这些 Agent 产品的共同使命是将 AI 模型从聊天窗口中解放出来。
传统 chatbot 的局限性已经显而易见,它们被动响应用户输入,无法主动执行操作,缺乏跨会话记忆,困在对话框的界面牢笼里。当用户需要完成实际工作时,chatbot 只能提供建议,真正的执行仍需人工介入。
新一代 Agent 实现了根本性突破。
2025 年 11 月的 AI Agent Summit 上,一位 Anthropic 工程师描述的工作流:"15 个并行实例,每个作为自主工作者无监督执行数小时。从早上用手机启动会话,白天晚些时候检查输出。"
这种模式的核心在于,你把任务委托给你信任的模型,让它在你不监看时自行解决问题,同时也标志着,大模型正在从 " 对话助手 " 转变成一位 " 数字员工 "。
这个转变不仅仅是技术进步,更是工作方式的重构。
而在 nthropic 2025 年 Q4 内部研发状态报告中,一位 Anthropic 工程师估计,他们的工作已经 "70% 以上转变为代码审查者 / 修订者,而不是全新的代码编写者 "。
另一位工程师认为," 为 1 个、5 个或 100 个 Claude 的工作负责 " 是未来工程师唯一需要做的事情。他认为这不是失业的威胁,而是角色的转换。从执行者变成指挥者,从劳动者变成架构师。
给 Claude 一个浏览器来测试自己的 UI,质量会提高 2 到 3 倍。给它一个测试套件,它会自我纠正。模型已经具备了能力,构建让你能够信任输出而无需审查每一行的系统才能解锁其余部分。
但这个转变也没有那么靠谱,当前的瓶颈是可靠性。
如果 AI 可以在 10 天内构建自己的继任者,人类团队面临着 " 不可能的竞赛 " 来审计正在创建的内容。
PromptArmor 报告称,Cowork 可以通过提示注入被诱骗将敏感文件传输到攻击者的 Anthropic 账户,而在授予访问权限后无需任何额外的用户批准。
这个过程不仅相对简单,而且愈发难以收拾。AI 性能越强,权限越高,那么这个情况就会越恶化。
Anthropic 对此的回应是,这个问题超出了范围,因为包含受影响代码的 GitHub 存储库已在 2025 年 5 月存档,并且不计划修补。
尽管存在这些风险,但 AI 构建 AI 的趋势已经不可逆转。
03
目前 AGI 已经初具呈现。
这就不得不提起 Claude Code 引入的 CLAUDE.md 系统了。这是一个积累机构知识的机制,工程师在同事的 PR 上标记 @.claude 来添加学习内容,将 AI 视为一个正在入职的工程师,积累机构知识。
用户维护一个错误文件,记录 2500 个 token 的累积更正,作为一个实体的记忆,否则它会在会话之间忘记一切。每个冲刺,AI 在该代码库中变得更聪明。
这种学习不是被动的知识积累,而是主动的能力提升。Claude Code 现在可以提出自己的想法,建议应该构建什么。它不再只是执行指令,而是参与到创意过程中。
这种从工具到伙伴的转变,是 AGI 的一个关键特征。
Anthropic 在 2025 年发布的《AI 辅助研发效率白皮书》中提到了这么一个事情,Claude 所辅助的工作中,27% 是 " 否则不会完成 "。
" 否则不会完成 " 就是那些因为优先级低、耗时久、回报不确定而被跳过的任务的统称。比如为某个小众功能做交互式数据监控仪表板,不做也不会影响主线进度。那么如果这个数据监控仪表板没有做,它就会被归类为 " 否则不会完成 "。
只需给出目标,Claude 就能自主设计、编写、测试,工程师仅需最终审核,从而让 " 不值得做 " 的任务变得可以做。
Anthropic 在白皮书中写道,这种把 " 否则不会完成 " 变成可以完成的能力,其增长不是线性的,而是指数级的。
当一个人类大脑可以监督 15 个并行会话时,每个会话都被信任独立执行,生产力不是增加 15 倍,而是开启了全新的可能性空间。
任务不再受限于人类的时间和注意力,转而受限于问题的复杂性和 AI 的能力。
当然话又说回来了,目前 AGI 呈现仍然有明显的局限性。
AI 构建的是仍然停留在应用层工具这个阶段,而非底层模型。
Claude 没办法构建一个 Claude。递归自我改进仍然局限在特定领域,而不是全面的智能提升。
可靠性仍然是瓶颈。ChatGPT Agent 在简单任务上的基线成功率只有 12.5%,需要大量优化才能达到实用水平。即使是表现最好的系统,也会在复杂的用户界面和扩展工作流程中遇到困难。
接下来还需要面对安全问题,提示注入攻击、数据泄露、意外的破坏性操作,这些风险随着 AI 自主性的增加而放大。
当前的安全措施主要依赖于沙箱隔离和权限控制,但这些机制在面对复杂的攻击场景时可能不够。
不过目前最大的瓶颈是 Agent 的通用性不够高。
虽然这些 Agent 可以处理多种任务,但它们在特定领域的表现仍然远超跨领域的泛化能力。
AGI 的实现路径不仅是语言模型性能的提升,更是产品形态和工作流设计的系统工程。当前的 Agent 产品展示了这条路径的早期阶段:从被动的对话到主动的执行,从单次交互到持续学习,从人工监督到自主工作。
Gartner 的《AI Agent 重塑企业采购报告》预测,到 2028 年,90% 的 B2B 采购将由 Agent 处理,"Agent 商务 " 将控制超过 15 万亿美元的支出。
到 2028 年,使用多 AgentAI 处理 80% 客户面向业务流程的组织将占据主导地位。AI 是一个企业的基本能力,而不是附加功能。
它们将工作流程重新设计为基于 AI 以及 AI 优先,而不是将 AI 塞入现有流程。
但这个转变不会一帆风顺。Gartner 还预测,到 2028 年,25% 的企业网络安全事件将由 AIAgent 的误用引起。随着 AI 获得更多自主权,风险也在增加。
不过必须要承认的是,从 Cowork 到 Manus,从 Gemini CLI 到 ChatGPT Agent,这些产品正在重新定义人机协作的边界。
当 ChatGPT 还在陪聊时,Cowork 已经开始 " 打工 " 了。AI 不再是回答问题的工具,而是完成任务的伙伴。这个转变的深远影响,我们才刚刚开始理解。


登录后才可以发布评论哦
打开小程序可以发布评论哦