微信让路，但不让权

手机厂商想成为用户的新管家，但这个管家真正要办事时，钥匙还在微信手里。

作者 | 彻诺

来源 | 盒饭财经（ID：daxiongfan）

头图及封面来源 | 2019 年微信公开课

腾讯像在盯着 AI Agent 赶进度。

6 月 7 日，据钛媒体报道，京东与腾讯已于近期联手，将围绕 AI Agent 展开合作。京东的商品供应链与履约服务体系，将与腾讯的入口资源进行对接。此外，消息称京东 AI Agent 与华为、OPPO、荣耀等多家主流终端厂商已进行对接。

依据该消息推测，合作的框架依旧在原先确定的 A2A（Agent to Agent）范畴内。

该消息报出的 3 天前，6 月 4 日，多家媒体报道称，微信正在与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A 助手能力。典型场景包括通过手机语音助手发送微信消息、发起微信语音或视频通话。

但，"AI 办事 " 已不是稀缺叙事，大众对 "AI 操作手机 " 的阈值也早已提高。

2024 年，荣耀 YOYO 就已经把 " 一句话点咖啡 "" 取消自动续费 "" 跨应用填表 " 放进发布会；今年的春节，千问点奶茶的营销也让大众对 "AI 帮我办事 " 有了第一层印象。再往前看，GUI Agent 早就在证明一件事：只要模型能看懂屏幕，它就可以像人一样点击、输入、滑动、下单。

荣耀 YOYO，来源：荣耀官网截图

这次并不是微信全面开放生态，更像是让了条路。

腾讯客服对媒体表示，该功能基于 A2A 协作机制，并通过双重授权机制保障数据安全与隐私。也就是说，这次微信 A2A 不是手机助手终于能发微信，而是微信把过去外部 Agent 对 APP 的 " 硬闯式操作 "，变成了 " 协议化、授权化、可审计的调用 "。

微信让路，是承认手机系统级 Agent 会成为新入口，但它并不让权。

京东的这次合作也能看到大致的脉络。钛媒体消息称，通过 A2A 合作，用户可直接在各终端原生智能体的京东 AI Agent 内提出购物需求、获取商品信息，并依托京东的履约与服务体系承接，形成从意图识别到服务保障的完整体验闭环。

在这一体系内，谁是用户本人，谁是好友，哪条消息能发，哪次调用需要确认，异常行为如何风控，支付和小程序能不能被进一步调动，这些都不是手机助手能单方面能决定的。

这种框架内，注定是现阶段的临时最优解。微信承认了新入口，但也保留了控制权：手机厂商想成为用户的新管家，但这个管家真正要办事时，钥匙还在微信手里。

给手机 Agent 开门，微信的两难

微信和手机厂商的关系，一直有种微妙的错位。

手机厂商掌握硬件、系统、语音入口、通知栏、负一屏和默认助手，而微信掌握好友关系、群聊、支付、小程序、内容和私域商业。前者离用户的设备更近，后者离用户的社会关系更近。

过去十多年，微信更像中国移动互联网的 " 应用内操作系统 "，而手机厂商则大多在系统层做提醒、搜索和设置。

双方过去也有权限、通知、分发层面的摩擦，但还没有像 Agent 这样直接碰到 " 谁代表用户行动 " 的核心地带。但，AI Agent 成为这个局面的松动点。

荣耀的 YOYO 从语音助手升级为系统级智能体，华为小艺背后是鸿蒙的系统权限，小米讲的是人车家，OPPO 小布和 vivo 蓝心小 V 也都在强调端侧模型、跨应用理解和个人记忆。手机厂商们共同想证明一件事：手机助手不只回答问题，还能跨 APP 办事。

小米 " 人车家 "，来源：网络

而涉及跨 APP 办事，对微信这样的社交 APP 来说，影响的不只是多一个调用场景，它让用户的使用路径前移。

回忆一下，现在我们使用微信的步骤。打开 APP，然后根据需求进入页面，比如聊天、群、小程序、公众号或者支付等等。但未来的某天，如果大家习惯了手机 Agent，那路径可能就会变成这样：先对 YOYO、小艺、小爱同学说一句话，然后再由手机助手把任务拆给不同应用。

结果上来看，微信仍然完成发送、通话或支付。但执行过程中，曾经与用户紧贴在一起的微信，默默后撤了半步，它从用户主动进入的目的地，变成了被手机助手调用的后台能力。

这对微信来说是两难。开放留路的话，一个纯 C 端的超级 APP，在失去第一触点后，可能慢慢变成了 " 超级服务者 "。如果不留路呢？

大趋势下，哪怕微信不开放，手机厂商和大模型公司更会不断尝试。它们未必需要微信配合，也能在某些场景里完成操作微信的用户需求。比如通过 GUI Agent，手机 Agent 就能完成看屏、识别按钮、模拟点击等动作。

过去一年，不少手机 Agent 演示都在证明这条路线的可行性：AI 通过截图理解界面，通过坐标点击按钮，通过输入框写入文字，再根据页面反馈继续下一步。腾讯自己的 AppAgent、POINTS-GUI-G 等研究，也说明 GUI 操作已经是一个可被系统化训练和评测的技术方向。

但这种方式对微信来说是不可控的。

它很难判断这是用户本人、脚本、外挂，还是另一个平台的代理人。更麻烦的是，GUI Agent 不只 " 帮用户点按钮 "，它还可能看到聊天记录、通讯录、支付页、群消息和各种弹窗。

对普通工具类 APP 来说这是体验稳定性问题，但对微信来说，这是隐私、风控和治理问题。

而 A2A 便是中间解法。

A2A 这种模式下，微信让手机厂商 " 调用 "，而不是让手机厂商 " 接管 "。手机助手可以站在前台听用户说话，微信则保留微信内部动作的执行权。它用官方通道替代野生操作，用授权机制替代屏幕硬闯，用回执结果替代不可追踪的模拟点击。

从 GUI 到 A2A，比的是代用户行动的权限

手机助手们想要完成跨 APP 办事，微信是绕不开的。

作为一款国民级的社交 APP，微信早就不是单一的聊天工具。对大部分用户而言，它是熟人通讯录、群聊协作空间、支付账户；对生态从业来说，它是小程序服务入口、公众号内容池、视频号内容场，是无数商家经营私域的基础设施。

一个手机 Agent 可以阅读屏幕、整理文件、修图、设置闹钟，但如果不能稳定处理微信相关的任务，就很难真正进入中国用户的生活流。相关的真实任务中，可能大量是 " 告诉某个人 "" 问一下群里 "" 用微信付了 "" 从小程序下单 "" 把结果发给客户 " 这样设计微信的事件。

这也是手机厂商近期集体焦虑的重要来源。

今年以来，各大手机厂商都试着将原先单纯 AI 助手变为一种系统能力。

荣耀继续把 YOYO 包装成能理解意图、拆解任务、调度应用的智能体；华为在鸿蒙生态里强调小艺、元服务和系统级协同；小米的超级小爱和人车家叙事，需要把手机、汽车、IoT 设备和常用服务连在一起；OPPO、vivo 则不断强调端侧模型、记忆、看屏和跨应用执行。

它们面对同一个问题：只有当手机助手能替用户调动微信、支付、出行、购物、办公这些高频服务，AI 手机才可能从营销概念变成换机理由。

可以实现这个目标的技术有多个可选项，比如 A2A、GUI、MCP 等等。

Google 推热了 A2A 这个概念。

2025 年 4 月，Google 推出 Agent2Agent 协议，用于解决多 Agent 协作问题。微信这次的 A2A 与其理念相似，但是否采用同一套开放协议，尚无公开证据。

2025 年 4 月，谷歌推出了 Agent2Agent（A2A）协议，目的就是为了解决多 Agent 协作的问题。Google 的 A2A 思路，是让不同厂商、不同框架、不同系统里的 Agent 可以发现彼此能力、委托任务、跟踪状态并返回结果。

但从目前公开信息来看，微信的 A2A 与 Google A2A 在理念相似，都是 " 一个 Agent 把任务交给另一个 Agent"。但具体协议、能力发现、认证方式、Agent Card 机制和安全模型，尚未看到微信官方公开披露。

微信 A2A 的关键，不是开放更多数据，而是开放一种更可治理的协作方式。

但用 A2A 模式跨 APP 办事，并不是最高效的解决办法。

就好像你想写一个调研报告，因为权限问题你没办法直接上手，只能将任务分发给其他人。但接受任务的人，可能是专业对口的专家，也可能是刚刚毕业的实习生，对方调用的大模型能力成为任务完成度的限制点。同时，这种分发和传递，每多一个节点，就有可能出现不同的理解和消息递减，影响最终结果。

过去很长一段时间，GUI Agent 是大部分企业的选择，包括腾讯自己。

GUI Agent 像是你请了一个代办员，他拿着你的手机，在大厅里自己找窗口、排队、填表、按按钮。它的优势是通用，不需要应用专门配合。而 A2A 则更像 Agent 把任务交给另一个 Agent 协作的通信框架。

更早之前，腾讯相关研究人员也曾参与的 GUI 的研究。在名为《AppAgent: Multimodal Agents as Smartphone Users》的论文中，就把多模态智能体描述成 " 智能手机用户 "：它观察截图，思考下一步，在闹钟、电商、邮件、视频评论等应用里执行点击、输入、滑动。

《AppAgent: Multimodal Agents as Smartphone Users》论文截图

2026 年 2 月 6 日，微信 AI 团队就发表过一篇名为《POINTS-GUI-G: GUI-Grounding Journey》的研究论文。

在这里，它们将 GUI grounding 做成基础能力，让模型更准确定位界面里的文字、图标和按钮，并在 ScreenSpot-Pro、OSWorld-G 等评测上给出结果。GUI 的价值是真实的，它让 AI 可以在没有接口的地方先动起来。

《POINTS-GUI-G: GUI-Grounding Journey》论文截图

但 GUI Agent 的问题也同样真实。

界面一改，它可能点错；弹窗一变，它可能失效；遇到聊天记录、支付页面、通讯录，它可能看得太多。

对普通应用来说，这是体验问题；对微信来说，这是治理问题。

微信承载熟人关系、群聊、支付和商业服务，接受 GUI Agent 意味着就要接受外部智能体长期通过 " 看屏幕、模拟手指 " 的方式进入核心动作。手机一直被代办员拿着操作，隐私、数据和安全问题则变得突出。

MCP 是另一种方式。

它更像给 AI 代办员一本统一的工具目录，告诉它有哪些工具、需要什么上下文、怎么调用、返回什么结果。相关研究论文中把 MCP 概括为基于 JSON-RPC 的客户端 - 服务器接口，核心是安全地调用工具和交换结构化数据。换句话说，MCP 主要解决 "Agent 怎么接工具 "。

理解以上技术路径，再来看微信为什么要选择 A2A，答案就很清楚了。

手机厂商的 AI 助手不是接管微信大厅，而是获得了向微信正式窗口递交少数请求的资格。外部 Agent 可以说 " 用户想给张三发消息 "，但张三是谁、能不能发、是否要二次确认、失败如何返回、调用记录如何风控，都仍由微信处理。

暂时的 " 停火 "

微信这次让路，换来的不是永久同盟，而是一次暂时停火：手机厂商拿到有限操作权，而微信守住了身份、关系链、支付和规则权。

这次博弈，和过去电视机厂商与机顶盒、流媒体、电视台的商业交锋有相似之处。

电视机厂商、手机厂商们卖的是如电视机、手机这样的物理硬件。它们想的是在电视系统里塞进自己的系统桌面、自己的视频聚合器、自己的会员。而微信就像是过去机顶盒、电视台、流媒体。用户买电视，本质上也是为了看里面的内容。

微信并不是第一次开门让路。

公众号时代，它让内容生产者进入社交关系链，但订阅关系、分发秩序和封禁规则仍在微信手里。它也曾将微信支付和红包把钱带进聊天场景，又把支付能力开放给商户，但账户、风控和交易闭环仍由微信控制。2017 年小程序上线，张小龙的 " 用完即走 " 让应用能力进入微信，但入口、跳转、分享、支付和审核规则仍归微信。

微信擅长的就是在可控范围内的开放。但 Agent 时代，来自外部和技术的压力比小程序时代更强。

第一层压力来自手机厂商。

作为手机厂商，荣耀、OPPO、vivo、小米天然会做利于自身的选择，而把系统助手变成总入口就是其中这一。比如小米有 " 人车家 "，华为有更强的系统主权。尤其是鸿蒙 NEXT，它的意义不只是多一个手机系统，而是华为试图在自己的 OS 里重新定义应用、元服务、系统助手和权限边界。如果小艺在鸿蒙生态里拥有更完整的系统主权，微信即使仍是高频应用，也将会面对一个更强势的系统层调度者。

第二层压力来自苹果。

Apple Intelligence 的关键不只是模型，还有 Siri、App Intents、个人上下文和私有云计算形成的系统级框架。苹果一旦在 iPhone 上强化 " 系统理解用户意图、调用 App 动作 " 的能力，微信在 iOS 上的谈判空间会比在国产安卓阵营小得多。国产手机厂商之间可以相互制衡，苹果却是单一平台主权。微信在安卓侧可以用 A2A 设计边界，在 iOS 侧更多要适配苹果的 App Intents 和系统规则。

第三层压力来自竞争对手。

腾讯的对手们，独立原生 AI 模型的背后都有一片可承载的生态。字节的豆包手机助手路线，有机会从系统层接住用户意图，直接代用户操作 App。阿里的千问不只是聊天助手，它背后有淘宝、饿了么、高德、飞猪等交易履约网络，点奶茶、购物、出行都能变成 AI 办事。Google Gemini 和 A2A 则说明，全球范围内都在把 Agent 互操作做成下一代基础设施。

还有一层压力来自技术本身。

围绕 Google A2A 的安全研究中，研究者强调 A2A 部署要处理 Agent Card 管理、任务执行完整性、认证方式等问题。换成微信语境，就是谁能声明自己有什么能力、谁能发起任务、任务有没有被篡改、用户授权是否真实、失败责任如何归属。

这些问题不解决，A2A 越开放，风险越大。

微信的旧厂改造

6 月 5 日，2026 腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生，与腾讯首席 AI 科学家、混元大模型及 AI Infra 负责人姚顺雨同台对谈。

腾讯 AI 是不是慢了？

对于外界抛出问题，他们很直接。姚顺雨的回应是，AI 是长期游戏，下半场才刚刚开始。他还提出，下半场已经从 " 寻找方法 " 转向 " 寻找问题 "。换句话说，模型能力本身不是终点，找到真实场景、真实问题、真实闭环，才是下半场。

这个判断放回微信 A2A，恰好能解释腾讯为什么不会只押注一个元宝，也不会把微信改造成另一个 ChatGPT。腾讯真正的优势不是模型声量，也不是开源心智，而是它拥有大量旧厂：微信、QQ、游戏、广告、云、会议、文档、企业微信、开发工具。

但这些旧厂每天都在运转，有用户、有交易、有组织、有商家、有内容，也有不能轻易出错的秩序。

互联网浪潮涌向制造业时，业内大致出现了两种升级改造，分别是旧厂改造和建新厂。而现在，需要面对这一选择的主体，轮到互联网了。

建新厂的好处是没有历史包袱。OpenAI 做 ChatGPT、DeepSeek 做开源模型、Perplexity 做 AI 搜索，都更像在空地上盖一座 AI 原生工厂：组织、产品、交互和商业模式可以围绕 AI 重新设计。

劣势也明显，它们需要重新寻找用户场景、服务接口、支付关系和商业闭环。

旧厂改造则相反。

腾讯、阿里、百度、苹果、Google 都拥有仍在高速运转的旧厂。阿里有淘宝、支付宝、高德、飞猪和云；百度有搜索、地图、文库、自动驾驶和车载空间；苹果有 iOS、Siri、App Store 和硬件系统；腾讯有微信、企业微信、游戏、广告和云。

旧厂的优势是场景、数据、账户、交易和用户习惯都在，劣势是不能停产改造。你不能为了 AI 把微信聊天体验打乱，也不能为了让 Agent 更聪明，就牺牲支付安全和熟人关系。

腾讯在 AI 上的胜负，不取决于元宝单独能不能打赢豆包，而取决于微信生态和企业、开发者工具能不能被 AI 重新组织成任务入口。

但微信入口太过克制。

张小龙时代的微信，反复强调过 " 用完即走 "、低打扰、不要过度诱导、不要为了增长破坏用户关系。对于纠结 " 一种生活方式 " 还是 " 一个生活方式 " 的微信来说，这样产品文化让微信避免了很多平台常见的噪音，同时也让它很难像豆包、千问那样把 AI 助手包装成一个强前台。

AI 如果融得太浅，用户感受不到效率；融得太深，又可能破坏微信最敏感的东西，比如熟人关系、聊天边界、支付安全和使用秩序。

克制一直是微信的产品美德，这也注定微信的 AI 进程很难太激进。

参考资料：

1.《消息称京东、腾讯联手，将围绕 AI Agent 展开合作》，IT 之家

2.《POINTS-GUI-G: GUI-Grounding Journey》

3.《AppAgent: Multimodal Agents as Smartphone Users》

4.《Building A Secure Agentic AI Application Leveraging Google ’ s A2A Protocol》

5.《A SURVEY OF AGENT INTEROPERABILITY PROTOCOLS: MODEL CONTEXT PROTOCOL ( MCP ) , AGENT COMMUNICATION PROTOCOL ( ACP ) , AGENT-TO-AGENT PROTOCOL ( A2A ) , AND AGENT NETWORK PROTOCOL ( ANP ) 》

6.《汤道生 x 姚顺雨：腾讯 AI 下半场》，腾讯官方公众号

宙世代

一起剪