
手机厂商想成为用户的新管家,但这个管家真正要办事时,钥匙还在微信手里。
作者 | 彻诺
来源 | 盒饭财经(ID:daxiongfan)
头图及封面来源 | 2019 年微信公开课
腾讯像在盯着 AI Agent 赶进度。
6 月 7 日,据钛媒体报道,京东与腾讯已于近期联手,将围绕 AI Agent 展开合作。京东的商品供应链与履约服务体系,将与腾讯的入口资源进行对接。此外,消息称京东 AI Agent 与华为、OPPO、荣耀等多家主流终端厂商已进行对接。
依据该消息推测,合作的框架依旧在原先确定的 A2A(Agent to Agent)范畴内。
该消息报出的 3 天前,6 月 4 日,多家媒体报道称,微信正在与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A 助手能力。典型场景包括通过手机语音助手发送微信消息、发起微信语音或视频通话。
但,"AI 办事 " 已不是稀缺叙事,大众对 "AI 操作手机 " 的阈值也早已提高。
2024 年,荣耀 YOYO 就已经把 " 一句话点咖啡 "" 取消自动续费 "" 跨应用填表 " 放进发布会;今年的春节,千问点奶茶的营销也让大众对 "AI 帮我办事 " 有了第一层印象。再往前看,GUI Agent 早就在证明一件事:只要模型能看懂屏幕,它就可以像人一样点击、输入、滑动、下单。

荣耀 YOYO,来源:荣耀官网截图
这次并不是微信全面开放生态,更像是让了条路。
腾讯客服对媒体表示,该功能基于 A2A 协作机制,并通过双重授权机制保障数据安全与隐私。也就是说,这次微信 A2A 不是手机助手终于能发微信,而是微信把过去外部 Agent 对 APP 的 " 硬闯式操作 ",变成了 " 协议化、授权化、可审计的调用 "。
微信让路,是承认手机系统级 Agent 会成为新入口,但它并不让权。
京东的这次合作也能看到大致的脉络。钛媒体消息称,通过 A2A 合作,用户可直接在各终端原生智能体的京东 AI Agent 内提出购物需求、获取商品信息,并依托京东的履约与服务体系承接,形成从意图识别到服务保障的完整体验闭环。
在这一体系内,谁是用户本人,谁是好友,哪条消息能发,哪次调用需要确认,异常行为如何风控,支付和小程序能不能被进一步调动,这些都不是手机助手能单方面能决定的。
这种框架内,注定是现阶段的临时最优解。微信承认了新入口,但也保留了控制权:手机厂商想成为用户的新管家,但这个管家真正要办事时,钥匙还在微信手里。

微信和手机厂商的关系,一直有种微妙的错位。
手机厂商掌握硬件、系统、语音入口、通知栏、负一屏和默认助手,而微信掌握好友关系、群聊、支付、小程序、内容和私域商业。前者离用户的设备更近,后者离用户的社会关系更近。
过去十多年,微信更像中国移动互联网的 " 应用内操作系统 ",而手机厂商则大多在系统层做提醒、搜索和设置。
双方过去也有权限、通知、分发层面的摩擦,但还没有像 Agent 这样直接碰到 " 谁代表用户行动 " 的核心地带。但,AI Agent 成为这个局面的松动点。
荣耀的 YOYO 从语音助手升级为系统级智能体,华为小艺背后是鸿蒙的系统权限,小米讲的是人车家,OPPO 小布和 vivo 蓝心小 V 也都在强调端侧模型、跨应用理解和个人记忆。手机厂商们共同想证明一件事:手机助手不只回答问题,还能跨 APP 办事。

小米 " 人车家 ",来源:网络
而涉及跨 APP 办事,对微信这样的社交 APP 来说,影响的不只是多一个调用场景,它让用户的使用路径前移。
回忆一下,现在我们使用微信的步骤。打开 APP,然后根据需求进入页面,比如聊天、群、小程序、公众号或者支付等等。但未来的某天,如果大家习惯了手机 Agent,那路径可能就会变成这样:先对 YOYO、小艺、小爱同学说一句话,然后再由手机助手把任务拆给不同应用。
结果上来看,微信仍然完成发送、通话或支付。但执行过程中,曾经与用户紧贴在一起的微信,默默后撤了半步,它从用户主动进入的目的地,变成了被手机助手调用的后台能力。
这对微信来说是两难。开放留路的话,一个纯 C 端的超级 APP,在失去第一触点后,可能慢慢变成了 " 超级服务者 "。如果不留路呢?
大趋势下,哪怕微信不开放,手机厂商和大模型公司更会不断尝试。它们未必需要微信配合,也能在某些场景里完成操作微信的用户需求。比如通过 GUI Agent,手机 Agent 就能完成看屏、识别按钮、模拟点击等动作。
过去一年,不少手机 Agent 演示都在证明这条路线的可行性:AI 通过截图理解界面,通过坐标点击按钮,通过输入框写入文字,再根据页面反馈继续下一步。腾讯自己的 AppAgent、POINTS-GUI-G 等研究,也说明 GUI 操作已经是一个可被系统化训练和评测的技术方向。
但这种方式对微信来说是不可控的。
它很难判断这是用户本人、脚本、外挂,还是另一个平台的代理人。更麻烦的是,GUI Agent 不只 " 帮用户点按钮 ",它还可能看到聊天记录、通讯录、支付页、群消息和各种弹窗。
对普通工具类 APP 来说这是体验稳定性问题,但对微信来说,这是隐私、风控和治理问题。
而 A2A 便是中间解法。
A2A 这种模式下,微信让手机厂商 " 调用 ",而不是让手机厂商 " 接管 "。手机助手可以站在前台听用户说话,微信则保留微信内部动作的执行权。它用官方通道替代野生操作,用授权机制替代屏幕硬闯,用回执结果替代不可追踪的模拟点击。

手机助手们想要完成跨 APP 办事,微信是绕不开的。
作为一款国民级的社交 APP,微信早就不是单一的聊天工具。对大部分用户而言,它是熟人通讯录、群聊协作空间、支付账户;对生态从业来说,它是小程序服务入口、公众号内容池、视频号内容场,是无数商家经营私域的基础设施。
一个手机 Agent 可以阅读屏幕、整理文件、修图、设置闹钟,但如果不能稳定处理微信相关的任务,就很难真正进入中国用户的生活流。相关的真实任务中,可能大量是 " 告诉某个人 "" 问一下群里 "" 用微信付了 "" 从小程序下单 "" 把结果发给客户 " 这样设计微信的事件。
这也是手机厂商近期集体焦虑的重要来源。
今年以来,各大手机厂商都试着将原先单纯 AI 助手变为一种系统能力。
荣耀继续把 YOYO 包装成能理解意图、拆解任务、调度应用的智能体;华为在鸿蒙生态里强调小艺、元服务和系统级协同;小米的超级小爱和人车家叙事,需要把手机、汽车、IoT 设备和常用服务连在一起;OPPO、vivo 则不断强调端侧模型、记忆、看屏和跨应用执行。
它们面对同一个问题:只有当手机助手能替用户调动微信、支付、出行、购物、办公这些高频服务,AI 手机才可能从营销概念变成换机理由。
可以实现这个目标的技术有多个可选项,比如 A2A、GUI、MCP 等等。
Google 推热了 A2A 这个概念。
2025 年 4 月,Google 推出 Agent2Agent 协议,用于解决多 Agent 协作问题。微信这次的 A2A 与其理念相似,但是否采用同一套开放协议,尚无公开证据。
2025 年 4 月,谷歌推出了 Agent2Agent(A2A)协议,目的就是为了解决多 Agent 协作的问题。Google 的 A2A 思路,是让不同厂商、不同框架、不同系统里的 Agent 可以发现彼此能力、委托任务、跟踪状态并返回结果。
但从目前公开信息来看,微信的 A2A 与 Google A2A 在理念相似,都是 " 一个 Agent 把任务交给另一个 Agent"。但具体协议、能力发现、认证方式、Agent Card 机制和安全模型,尚未看到微信官方公开披露。
微信 A2A 的关键,不是开放更多数据,而是开放一种更可治理的协作方式。
但用 A2A 模式跨 APP 办事,并不是最高效的解决办法。
就好像你想写一个调研报告,因为权限问题你没办法直接上手,只能将任务分发给其他人。但接受任务的人,可能是专业对口的专家,也可能是刚刚毕业的实习生,对方调用的大模型能力成为任务完成度的限制点。同时,这种分发和传递,每多一个节点,就有可能出现不同的理解和消息递减,影响最终结果。
过去很长一段时间,GUI Agent 是大部分企业的选择,包括腾讯自己。
GUI Agent 像是你请了一个代办员,他拿着你的手机,在大厅里自己找窗口、排队、填表、按按钮。它的优势是通用,不需要应用专门配合。而 A2A 则更像 Agent 把任务交给另一个 Agent 协作的通信框架。
更早之前,腾讯相关研究人员也曾参与的 GUI 的研究。在名为《AppAgent: Multimodal Agents as Smartphone Users》的论文中,就把多模态智能体描述成 " 智能手机用户 ":它观察截图,思考下一步,在闹钟、电商、邮件、视频评论等应用里执行点击、输入、滑动。

《AppAgent: Multimodal Agents as Smartphone Users》论文截图
2026 年 2 月 6 日,微信 AI 团队就发表过一篇名为《POINTS-GUI-G: GUI-Grounding Journey》的研究论文。
在这里,它们将 GUI grounding 做成基础能力,让模型更准确定位界面里的文字、图标和按钮,并在 ScreenSpot-Pro、OSWorld-G 等评测上给出结果。GUI 的价值是真实的,它让 AI 可以在没有接口的地方先动起来。

《POINTS-GUI-G: GUI-Grounding Journey》论文截图
但 GUI Agent 的问题也同样真实。
界面一改,它可能点错;弹窗一变,它可能失效;遇到聊天记录、支付页面、通讯录,它可能看得太多。
对普通应用来说,这是体验问题;对微信来说,这是治理问题。
微信承载熟人关系、群聊、支付和商业服务,接受 GUI Agent 意味着就要接受外部智能体长期通过 " 看屏幕、模拟手指 " 的方式进入核心动作。手机一直被代办员拿着操作,隐私、数据和安全问题则变得突出。
MCP 是另一种方式。
它更像给 AI 代办员一本统一的工具目录,告诉它有哪些工具、需要什么上下文、怎么调用、返回什么结果。相关研究论文中把 MCP 概括为基于 JSON-RPC 的客户端 - 服务器接口,核心是安全地调用工具和交换结构化数据。换句话说,MCP 主要解决 "Agent 怎么接工具 "。
理解以上技术路径,再来看微信为什么要选择 A2A,答案就很清楚了。
手机厂商的 AI 助手不是接管微信大厅,而是获得了向微信正式窗口递交少数请求的资格。外部 Agent 可以说 " 用户想给张三发消息 ",但张三是谁、能不能发、是否要二次确认、失败如何返回、调用记录如何风控,都仍由微信处理。
微信这次让路,换来的不是永久同盟,而是一次暂时停火:手机厂商拿到有限操作权,而微信守住了身份、关系链、支付和规则权。
这次博弈,和过去电视机厂商与机顶盒、流媒体、电视台的商业交锋有相似之处。
电视机厂商、手机厂商们卖的是如电视机、手机这样的物理硬件。它们想的是在电视系统里塞进自己的系统桌面、自己的视频聚合器、自己的会员。而微信就像是过去机顶盒、电视台、流媒体。用户买电视,本质上也是为了看里面的内容。
微信并不是第一次开门让路。
公众号时代,它让内容生产者进入社交关系链,但订阅关系、分发秩序和封禁规则仍在微信手里。它也曾将微信支付和红包把钱带进聊天场景,又把支付能力开放给商户,但账户、风控和交易闭环仍由微信控制。2017 年小程序上线,张小龙的 " 用完即走 " 让应用能力进入微信,但入口、跳转、分享、支付和审核规则仍归微信。
微信擅长的就是在可控范围内的开放。但 Agent 时代,来自外部和技术的压力比小程序时代更强。
第一层压力来自手机厂商。
作为手机厂商,荣耀、OPPO、vivo、小米天然会做利于自身的选择,而把系统助手变成总入口就是其中这一。比如小米有 " 人车家 ",华为有更强的系统主权。尤其是鸿蒙 NEXT,它的意义不只是多一个手机系统,而是华为试图在自己的 OS 里重新定义应用、元服务、系统助手和权限边界。如果小艺在鸿蒙生态里拥有更完整的系统主权,微信即使仍是高频应用,也将会面对一个更强势的系统层调度者。
第二层压力来自苹果。
Apple Intelligence 的关键不只是模型,还有 Siri、App Intents、个人上下文和私有云计算形成的系统级框架。苹果一旦在 iPhone 上强化 " 系统理解用户意图、调用 App 动作 " 的能力,微信在 iOS 上的谈判空间会比在国产安卓阵营小得多。国产手机厂商之间可以相互制衡,苹果却是单一平台主权。微信在安卓侧可以用 A2A 设计边界,在 iOS 侧更多要适配苹果的 App Intents 和系统规则。

第三层压力来自竞争对手。
腾讯的对手们,独立原生 AI 模型的背后都有一片可承载的生态。字节的豆包手机助手路线,有机会从系统层接住用户意图,直接代用户操作 App。阿里的千问不只是聊天助手,它背后有淘宝、饿了么、高德、飞猪等交易履约网络,点奶茶、购物、出行都能变成 AI 办事。Google Gemini 和 A2A 则说明,全球范围内都在把 Agent 互操作做成下一代基础设施。
还有一层压力来自技术本身。
围绕 Google A2A 的安全研究中,研究者强调 A2A 部署要处理 Agent Card 管理、任务执行完整性、认证方式等问题。换成微信语境,就是谁能声明自己有什么能力、谁能发起任务、任务有没有被篡改、用户授权是否真实、失败责任如何归属。
这些问题不解决,A2A 越开放,风险越大。
6 月 5 日,2026 腾讯云 AI 产业应用大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生,与腾讯首席 AI 科学家、混元大模型及 AI Infra 负责人姚顺雨同台对谈。
腾讯 AI 是不是慢了?
对于外界抛出问题,他们很直接。姚顺雨的回应是,AI 是长期游戏,下半场才刚刚开始。他还提出,下半场已经从 " 寻找方法 " 转向 " 寻找问题 "。换句话说,模型能力本身不是终点,找到真实场景、真实问题、真实闭环,才是下半场。

这个判断放回微信 A2A,恰好能解释腾讯为什么不会只押注一个元宝,也不会把微信改造成另一个 ChatGPT。腾讯真正的优势不是模型声量,也不是开源心智,而是它拥有大量旧厂:微信、QQ、游戏、广告、云、会议、文档、企业微信、开发工具。
但这些旧厂每天都在运转,有用户、有交易、有组织、有商家、有内容,也有不能轻易出错的秩序。
互联网浪潮涌向制造业时,业内大致出现了两种升级改造,分别是旧厂改造和建新厂。而现在,需要面对这一选择的主体,轮到互联网了。
建新厂的好处是没有历史包袱。OpenAI 做 ChatGPT、DeepSeek 做开源模型、Perplexity 做 AI 搜索,都更像在空地上盖一座 AI 原生工厂:组织、产品、交互和商业模式可以围绕 AI 重新设计。
劣势也明显,它们需要重新寻找用户场景、服务接口、支付关系和商业闭环。
旧厂改造则相反。
腾讯、阿里、百度、苹果、Google 都拥有仍在高速运转的旧厂。阿里有淘宝、支付宝、高德、飞猪和云;百度有搜索、地图、文库、自动驾驶和车载空间;苹果有 iOS、Siri、App Store 和硬件系统;腾讯有微信、企业微信、游戏、广告和云。
旧厂的优势是场景、数据、账户、交易和用户习惯都在,劣势是不能停产改造。你不能为了 AI 把微信聊天体验打乱,也不能为了让 Agent 更聪明,就牺牲支付安全和熟人关系。
腾讯在 AI 上的胜负,不取决于元宝单独能不能打赢豆包,而取决于微信生态和企业、开发者工具能不能被 AI 重新组织成任务入口。
但微信入口太过克制。
张小龙时代的微信,反复强调过 " 用完即走 "、低打扰、不要过度诱导、不要为了增长破坏用户关系。对于纠结 " 一种生活方式 " 还是 " 一个生活方式 " 的微信来说,这样产品文化让微信避免了很多平台常见的噪音,同时也让它很难像豆包、千问那样把 AI 助手包装成一个强前台。
AI 如果融得太浅,用户感受不到效率;融得太深,又可能破坏微信最敏感的东西,比如熟人关系、聊天边界、支付安全和使用秩序。
克制一直是微信的产品美德,这也注定微信的 AI 进程很难太激进。
参考资料:
1.《消息称京东、腾讯联手,将围绕 AI Agent 展开合作》,IT 之家
2.《POINTS-GUI-G: GUI-Grounding Journey》
3.《AppAgent: Multimodal Agents as Smartphone Users》
4.《Building A Secure Agentic AI Application Leveraging Google ’ s A2A Protocol》
5.《A SURVEY OF AGENT INTEROPERABILITY PROTOCOLS: MODEL CONTEXT PROTOCOL ( MCP ) , AGENT COMMUNICATION PROTOCOL ( ACP ) , AGENT-TO-AGENT PROTOCOL ( A2A ) , AND AGENT NETWORK PROTOCOL ( ANP ) 》
6.《汤道生 x 姚顺雨:腾讯 AI 下半场》,腾讯官方公众号




登录后才可以发布评论哦
打开小程序可以发布评论哦