文 | 字母 AI
过去两个月,OpenClaw 火得一塌糊涂。它让 AI 开始像一个真正能替人跑流程、调工具、接任务的数字执行者。
现如今,谷歌也准备分一杯羹,外媒爆料称,谷歌正在开发一款叫做 Smith 的 agent,不仅比 OpenClaw 更能干活,还完美融入谷歌全家桶。
Smith 这个名字显然是来自《黑客帝国》这个电影里的史密斯特工(Agent Smith)。
它最可怕的地方,是它会复制自己,会渗透环境,会借宿主扩散,也会在你不注意的时候接管局面。
它不是一个 " 角色 ",更像一种无处不在的执行机制。
外媒援引知情人士的说法,这个 Smith 建立在谷歌既有的 Agentic Coding 平台 Antigravity 之上,能够调用多种内部工具,异步执行任务,甚至在员工不守着电脑时继续在后台工作,员工还能通过手机查看进展、补充指令。
谷歌官方没有正面确认,只是给出了一句很标准的回应。
" 公司一直在尝试构建能解决现实问题的 Agent,但目前没有更多可分享的内容。"
爆料进一步指出,这已经不是一个停留在概念验证阶段的实验品,而是谷歌开发的一种进入真实生产流程的内部工具。
那么问题来了,Smith 到底是什么,它能做什么,又预示着谷歌接下来会把 AI 推向什么方向 ?
01 Agent Smith 到底是什么
Smith 不是普通意义上的内部原型。因为原型往往停留在演示环境里,功能有限,使用人数也有限。
Smith 不是这样。
按照爆料的描述,它已经进入真实工作流,而且在谷歌内部的热度很高,高到一度需要限制访问。
这其实是一件非常重要的事情,相当于变相告诉你,Smith 这件事已经越过了概念验证的阶段。
谷歌员工没有把它当成技术展示,而是当成一件可以直接拿来干活的工具在用。
内部产品一旦进入这个阶段,关注点就不再是 " 它能不能做了 ",而是 " 它能做什么 "、" 它能否稳定接入流程 "、" 它能否持续节省时间 "。
从现有信息看,Smith 应该是一个后台执行型 agent。
报道称它能够异步运行。员工不需要一直守在电脑前,哪怕笔记本处在不活跃状态,Smith 也可以在后台继续处理任务。
员工还能用手机查看进展,或者追加指令。
一切的一切,就跟 OpenClaw 一样。
Smith 是建立在谷歌的 AI 编程平台 Antigravity 之上。这一点和 Anthropic 的 Claude Code 以及 OpenAI 的 Codex 逻辑一样。
这种 AI 编程平台的性能比较全面,Smith 可以借助 Antigravity 来调工具、读上下文、融入工作流。
顺着这个逻辑看,Smith 这个产品已经有了清晰的轮廓。
第一层当然是编码和工程协助,这是爆料最直接的一部分。它可以承担软件工程任务,帮助员工推进开发工作。
第二层是工具调用能力。它可以接进谷歌内部环境的 Agent,能够借助系统去做事。
第三层是权限和上下文能力。
报道提到,它可以依据员工资料去访问文档和信息,这说明它并不是在一个抽象的、脱离身份的环境中运行,而是具备某种与权限体系绑定的工作能力。
第四层则是协作嵌入能力。它可以出现在谷歌内部聊天工具里,被直接调用。
虽然说过去大家谈 agent,往往容易把重点放在模型是否更聪明,是否能完成更复杂的推理,是否能用更长的上下文。
就比如 OpenClaw,它的执行逻辑和人类一样,从外部打开某一个程序,然后模仿人类执行任务。
但一旦进入企业环境,问题就会变成另一套。
它能不能接系统,能不能拿到该拿的资料,能不能知道自己在替谁工作,能不能在工作完成后把结果交回去,能不能让人追溯中间过程。
Smith 所呈现出的,恰恰就是这种务实的能力结构。
从这个角度再回头看 Smith 在谷歌内部的走红,就不难理解了。
谷歌这两年持续强化 AI 使用,提高效率,推动各个团队把 AI 纳入工作流程。这样的背景下,一个能够异步执行、跨工具调用、带着权限和上下文去做事的 agent,其吸引力肯定比 OpenClaw 要高。
OpenClaw 开了一个好头。但是它最大的问题就是不够原生,比如让它打开个网页,它就只能一步一步地选择浏览器、输入网页、跳转。
这是 Smith 的优势,原生接入谷歌全家桶,只要是这个工作流围绕谷歌的体系,那么它的效率就会远超 OpenClaw。
Smith 被限流,也是因为它切中了企业内部最现实的需求。
02 根据谷歌自己的路线规划,Agent Smith 最可能是什么样
如果只看爆料,Smith 像是一个有些神秘的内部工具。
但把它放回谷歌过去一年多的公开路线里,这件事就没有那么突然了。
谷歌其实已经沿着多条线在推进企业的 agent 化。
Jules 展示的是异步编码 Agent,能够在云端环境中读取代码仓库,制定计划,修改代码,补测试,再把结果交还给开发者。
Project Mariner 展示的是网页和浏览器层面的行动能力,让模型不止停留在理解页面,而是能在页面里执行步骤。
Project Astra 强调的是持续上下文、实时多模态以及对外部世界的感知能力。
Google Cloud 这边又在推 ADK、Agent Engine 和 A2A 协议,为 Agent 的构建、编排和协作提供底座。
把这些线索并排看,Smith 更像是谷歌把几条公开路线先在内部合流之后形成的一种工作系统。
所以我感觉 Smith 大概率不是一个凭空出现的新物种,它应该是谷歌已有能力的一次组织化整合。
用流行语来说,Smith,就像是把上述的这些能力在内部场景里进行一次线束(harness)。
谷歌员工看 Smith,它是一个能用谷歌全家桶编排你任务的 agent。
可对谷歌来说,Smith 是统一入口,把模型、工具、权限、环境和工作流绑在一起,让员工不必分别面对一堆零散产品。
顺着这个判断往下推,Smith 最可能具备的,不是单一模型式能力,而是一套分层结构。
最底层是推理和规划,用来理解目标、拆解任务、排序步骤、选择策略。这是所有执行型 Agent 的起点。
再往上一层,是工具和权限系统,也就是把模型接到代码库、文档库、内部平台、聊天软件和其他业务系统上。没有这一层,Agent 只会停留在建议层面。
最上面则是编排和反馈层,负责把多个步骤串起来,在执行过程中做检查、做修正、做汇报。这一层决定它能不能在复杂任务中持续工作,而不是做一步停一步。
我说白了,Smith 就是 OpenClaw Pro。
Smith 最特别的地方,一定是比 OpenClaw 这样的外部产品更懂谷歌。
外部通用 agent 最大的障碍通常不是语言能力,而是做不了多少事,你让它用某种工具,它会消耗大量的 token 来研究 " 我该怎么用这个工具才好 "。
Smith 刚好反过来,它知道的知识肯定不如通用 agent,但它知道自己替谁工作,知道自己能访问什么,知道如何访问,知道内部文档在哪里,知道哪些系统可以调用,知道结果应该提交到哪里。
这种能力并不华丽,因为这些能力来自于工程能力,却极其关键。
因为无论是我还是其他人,我们真正需要的,就是这么一个能在具体组织中稳定运转的执行单元。
编码是谷歌最容易先跑通的一块,研发任务天然数字化,接口明确,结果也容易验证。
可一旦这个架构成立,它向外扩展几乎是顺理成章的事。内部文档检索和汇总,跨系统找资料,自动整理工单,推进流程节点,回答组织内部常见问题,做销售或运维支持,这些都属于相同的问题类型。
任务目标由人给出,中间步骤由 agent 执行,最后结果再交回人类审核。
谷歌近一年来在 Gemini 里强化 Agent Mode,在 Search 里强化 " 帮你完成事务 " 的能力,在 Cloud 侧强化多 Agent 编排,本质上都在往这个方向靠。
Smith 很可能是这些路线在谷歌内部最直接的落地形式。
2026 年 3 月 21 日,谷歌发布了一篇文章叫做《Agentic AI and the next intelligence explosion》(代理 AI 与下一次智能大爆炸)。
那篇论文并没有直接提到 Smith,但它提出的核心判断我认为是在给 Smith 进行预热。
谷歌认为,未来的智能跃迁,不太像一个单一超级大脑的继续放大,反而更可能来自多个视角、多个角色、多个代理之间的互动、争辩和校验。
他们用了 "societies of thought" 这样的说法,把多主体协作放在了智能演化的中心位置。这个思路和传统的 " 一个模型越做越大 " 不太一样。它更强调分工,强调并行,强调内部对抗和互相修正。
员工表面上在和 Smith 打交道,但底层未必只有一个连续的主体。
正如我刚才说的,Smith 是一个统一接口,背后有多个更专门的子 agent 在并行工作。
有人负责检索文档,有人负责写代码,有人负责调用工具,有人负责检查结果,最后再由一个总控层把这些过程组织起来。
当然,需要分清事实和推断。
爆料并没有公开 Smith 的详细架构,也没有说明它到底调动了多少模块,都是我基于谷歌已公开的信息进行的猜测。
谷歌这几年做产品,越来越少把模型能力孤立出来讲,而更倾向于把模型、工具、环境、终端和工作流放在一起讨论。
Smith 如果真的存在,它最可能也会遵循同样的思路。
03 通过 Agent Smith 看谷歌未来的路线
把视角再往上拉一点,谷歌把 Smith 放到了一个怎样的位置上?
过去两年,全世界都在讲 agent,但大多数时候,agent 还是被当成模型能力的一个延伸,或者产品里一个更主动的功能层。
谷歌的动作则越来越像是在做另一件事。它不是只想给现有产品加上 agent,而是想把 agent 变成一层新的基础设施。
谷歌想围绕 AI Infra 这件事讲一个新故事,Smith 刚好是谷歌的第一个成型样板。
过去谷歌最强的能力,是组织信息。
搜索时代,它做的是把全网信息抓出来、排出来、送到用户眼前。移动时代,谷歌要解决的问题又变成了如何把服务嵌入终端和生态,进入安卓、浏览器、地图、邮箱和各种应用之中。
到了今天,agent 时代的核心竞争,很可能正在从 " 组织信息 " 转向 " 组织行动 "。
谁能理解目标,拆解任务,调动工具,完成步骤,反馈结果,谁就更接近下一代计算平台的入口。
从这个意义上说,Smith 非常重要,它的成败决定了谷歌的下一步。
谷歌的优势在于它拥有做这件事所需的完整拼图。
它有模型,有搜索,有浏览器,有安卓,有 Workspace,有云平台,还有硬件和潜在的眼镜终端。
单独看每一条线,都像是在补一块能力。
连起来看,就会发现谷歌想搭的并不是某一个爆款 agent,而是一张能够覆盖消费端和企业端、前台入口和后台执行、个人终端和组织系统的 agent 网络。
这和 OpenClaw 有本质区别,它是想先做个超级助手出来,然后再考虑这个超级助手怎么融合到已有的业务。
Smith 是先把已有的业务给归纳起来,再围绕这些业务做个超级助手。
谷歌则更像是在铺设一层系统。它既要入口,也要协议,既要模型,也要环境,既要个人终端,也要企业底座。
按谷歌一贯的产品推进方式,许多能力都会先在内部环境里验证,再逐步向外抽象。
今天 Smith 服务的是谷歌员工,明天它的某些能力很可能拆开进入 Gemini、Workspace、Search 甚至安卓。
也就是说,Smith 不只是工具,它还是谷歌用来验证未来工作流的一块实验田。哪些任务可以交给 agent,哪些权限应该开放,哪些步骤必须留给人审,哪些场景能形成稳定回报,这些问题都更适合先在谷歌内部试,而不是直接拿到公开市场上赌。
这背后还有一个更现实的原因,这点跟 SaaS 一样。
真正决定企业 agent 能不能落地的,从来不只是模型能力,还包括权限控制、结果审计、责任归属和流程改造。
一个 agent 如果只能展示聪明,它未必有商业价值。只有当它能接系统,同时又能被管理、被追责、被限制,它才可能成为企业基础设施的一部分。
Smith 已经进入真实生产流程,这一点非常重要。
因为下一轮竞争,拼的不是谁的模型再多答对几道题,应该是谁能最早把 agent 做成稳定、可规模化、可审计的生产网络。
所以,当你通过 Smith 去看谷歌,你看到的并不是一条零散的新产品线,你看到的是一种相当清晰的战略推进方式。
Smith 只是这条路线上的一个小窗口,但窗口背后,已经能看见谷歌下一阶段的大致轮廓。


