微信agent发出“英雄令”,互联网半壁江山响应

微信 Agent 真的要来了。

微信开放平台发布了这样一条关于微信 AI 开发者指引的内容。

指引称，为给用户提供更智能的交互体验，帮助用户更敏捷地发现并使用小程序服务，微信开放平台在充分尊重开发者权益和自主选择的基础上，为开发者提供便捷接入微信 AI 生态的能力。

接入后，小程序将有机会被微信 AI 推荐和调用。未完成接入的小程序，将无法被微信 AI 调用。

平台提供了两种接入模式。自动模式，授权平台提审时读取小程序源码，无需投入额外开发。开发模式，开发者可基于小程序业务特性，自主个性化开发。

同一天，美团官宣率先接入微信 AI 生态。作为首批内测团队，美团此前已与微信团队联合开发并测试接入。未来，用户可通过微信 AI 调用美团外卖等本地生活服务。

携程、同程等生活服务平台也先后宣布接入微信。

早在几天前，腾讯客服就表示，微信正在与华为、小米、荣耀、OPPO、vivo 等手机厂商合作推出 A2A 助手能力，目前已有多家厂商完成接入。

用户可以通过对应手机系统的 AI 助手发起微信音视频通话或向指定好友发送消息。

这其实不是第一次有关微信 AI 的消息了。早在今年 3 月，就有外媒表示，腾讯在微信内部推进一项高度保密的 AI Agent 项目。

6 月 2 日，外媒发布消息称，腾讯正在测试微信内置 AI Agent 原型，最快将于本月启动合规审批流程。报道发布当天，腾讯股价收盘上涨 10.5%，单日市值增加超过 3000 亿港元，创下自 2021 年 1 月以来最大单日涨幅。

微信 AI，或许就是腾讯 AI 下半场的终极答案。

微信 AI 的轮廓

看过早期演示的人士透露，用户可以在微信主界面向右滑动，调出 AI Agent 的对话窗口。用户输入指令后，Agent 会自动调用微信生态里的小程序，完成筛选、下单、预订这类任务。

比如你说 " 帮我点一杯 30 元以内、不太甜、附近能自取的咖啡 "，Agent 就会自动调用微信里的小程序，帮你筛选咖啡店、匹配口味和价格，甚至完成下单流程。

光听描述，它和豆包、千问这些 AI 聊天机器人没什么区别。

但这里面特殊的地方在于，微信 AI 拥有整个微信生态的调度权。

腾讯在 2025 年年报中明确提到，目标是在微信生态内建设下一代 Agentic services，把小程序、内容、社交和支付能力连接起来。截至 2026 年 3 月 31 日，微信及 WeChat 合并月活达 14.32 亿。

也就是说，微信 AI 一旦上线，不管是好是坏，它都注定是一个超级应用。

微信里有数百万个小程序，覆盖打车、外卖、订票、买菜等日常生活场景。国内头部互联网服务几乎都在这一生态中设有小程序入口。

微信 AI 的核心能力，就是让 AI 能够调用这些小程序里的服务和交易能力，完成从认知到决策再到执行的完整闭环。

那它要怎么做呢？

首先是理解用户意图。用户说 " 帮我订个餐厅 "，在家庭群里说和在工作群里说，意思完全不同。

谁在参与、谁能拍板、预算多少、有什么忌口、任务进行到了哪一步，这些都是 Agent 需要理解的上下文。难点在于微信里的任务天然跨越时间，家庭群讨论暑假的对话可能断断续续持续好几天。

然后是调用工具。

Agent 需要动手，用搜一搜查信息，用小程序完成查询和比价，用微信支付完成交易，用服务通知把结果反馈给用户。

根据 QuestMobile《2026 全景生态流量春季报告》，小程序日活已超过 9 亿，覆盖几百个细分领域。

现在工具箱足够大了，问题是微信 AI 用得明白吗？

腾讯在 3 月 18 日发布的论文中透露了一些技术细节。微信团队开发了 UI-Oceanus，这是一个专门为小程序生态设计的世界模型。它的作用是预测操作结果。Agent 找到了按钮，但点下去会发生什么？页面会跳转到哪里？会弹出什么窗口？支付流程会不会启动？

人类操作 APP 的时候对这些有直觉，Agent 没有这种直觉，所以它必须得从数据里学。

游戏 AI 学的是 " 按下这个键角色会怎么动 "，小程序的世界模型学的是 " 点这个按钮页面会怎么变 "。

直接在真实小程序环境里训练太慢、太不稳定，所以 UI-Oceanus 自动模拟操作和页面变化，生成了 500 万样本。这让 Agent 可以在虚拟环境里学会操作小程序，然后再迁移到真实场景。

还有成本问题。14 亿月活的入口如果每个场景都触发推理，成本是天文数字。腾讯需要在基础任务用小模型，复杂任务调用强模型之间做平衡。这种多模型调度的能力，既要保证效果，又要控制成本。

最后是生态协调。

微信里的小程序太多了，服务质量、接口稳定性、商家配合度、支付流程、推荐排序、利益分配，每一项单拎出来都可以讲很久。

AI Agent 要替用户办事，就得真的办成，不能嘴上答应得特别丝滑，结果点单点到半路开始迷路。

所以微信 AI 其实是一个非常复杂的工程，它要面对各种各样的复杂场景。它还需要理解自然语言，需要调用小程序，需要处理支付，需要管理上下文，需要协调生态。

微信 AI 的轮廓清晰，只不过这个产品会比我们想象中要大得多。

为什么微信最适合承接这个 Agent

上下文越丰富，AI 就越能理解你的真实意图，做出的决策也就越准确。

而微信刚好是腾讯最大的上下文容器。

微信有关系链，14 亿用户在微信里的社交关系、聊天记录、群组对话，这些都是上下文。微信有小程序，数百万个小程序覆盖的服务场景，这些也是上下文。

微信有支付，用户的消费习惯、支付记录、交易偏好，这些还是上下文。

微信有内容，公众号、视频号、朋友圈里的信息流，这些同样是上下文。

前一阵，腾讯推出了很多 AI 产品，比如元宝、ima、WorkBuddy、Marvis，他们看似相互独立。实际上，它们都是在为微信 AI 积累能力。

这背后是腾讯内部一套叫做 Co-Design 的机制。

简单来说，Co-Design 就是产品团队和模型团队一起设计、一起优化。

传统做法是，模型团队先把模型训练好，然后扔给产品团队去用。产品团队发现问题了，再反馈回来，模型团队再调整。

这个过程很慢，而且经常出现 " 模型很强但产品不好用 " 的情况。

Co-Design 的做法不一样。元宝团队会告诉混元团队，用户在真实场景里到底怎么提问、会遇到什么问题。混元团队会根据这些真实反馈，专门优化模型的某些能力。

优化完了，元宝团队马上拿去测试，发现新问题，再继续调整。

这个过程是双向并且同步的。产品给模型提供真实数据和反馈，模型给产品提供更强的能力。

为什么这么做有用？因为 LLM 时代和过去的 AI 最本质的区别就是泛化性。

在 LLM 之前，做翻译产品只需要把翻译数据做好，做围棋程序只需要把围棋数据准备好。

但今天情况不一样了，哪怕你只是想做一个 Coding Agent，你也得要模型有聊天能力、搜索能力、指令遵循能力、推理能力。所以最终，它就变成了一个非常复杂的交叉学科问题。

腾讯和元宝的 Co-Design，就是为了让混元模型产生很强的聊天和搜索能力。这样的能力又可以被迁移到 ima、WorkBuddy 等其他产品。一个产品训练出来的能力，可以让其他产品也变得更好用。

具体来说，元宝处理的是真实世界的 Prompt distribution。用户在元宝里问的问题都是比较模糊的，可能就一两句话，会不停追问。

这些场景训练出来的多轮对话能力、意图理解能力，可以直接迁移到微信 AI 处理群聊任务时的上下文理解。

WorkBuddy 积累的是办公协作场景的数据。

它理解文档结构、会议纪要、任务分配这些企业场景的语义。这些能力可以让微信 AI 在处理任务时，知道如何提取关键信息、识别决策节点。

ima 沉淀的是搜索能力。它训练模型如何把模糊的查询意图转化为精确的搜索策略，如何从海量的结果当中，去筛选有效的信息。这些能力可以让微信 AI 在调用小程序前，先做一轮信息筛选和意图澄清，这样微信 AI 在调用的时候，就不会把可能的小程序都调用一遍进而浪费时间和 token，而是会只调用少数用得上的小程序。

Marvis 训练的是任务拆解和工具调度能力。

Marvis 把用户的指令，拆解成多个子任务，调度不同的 Agent 去操控文件、系统、应用。这套任务编排和多 Agent 协同的能力，可以让微信 AI 在面对 " 帮我订咖啡然后通知同事 " 这类跨场景任务时，知道如何串联小程序调用、支付流程和消息通知。

这些产品提供不同的数据，但这些数据之间可以相互扩散、相互迁移，形成一个像网络一样的体系。一个产品训练出来的数据，可以通过预训练和后训练的泛化机制，提升另一个产品的表现。

微信 AI 现在正在一个 AI 的网络中心。

它不需要从零开始，它可以直接调用这些已经被验证过的能力。

更重要的是，微信本身就是一个完整的生态。有关系链、有小程序、有微信支付的交易闭环、还有公众号和视频号的内容生态。这些都是其他 Agent 产品没有的。

微信 AI 的舞台有多大？

这一切的一切，目前都由 A2A 来实现。

A2A 全称是 Agent-to-Agent，中文叫 " 智能体到智能体 "。

它是一个开放协议，规定不同厂商的 AI 智能体之间如何通信、如何调用能力、如何保障安全。与之对应的是 GUIAgent 路线，也就是让 AI 像人一样通过 " 读屏 " 来识别界面，再通过 " 模拟点击 " 去操作微信。

腾讯选择 A2A，而不是 GUI，这个决策背后其实是有深度考量的。

5 月的腾讯 Q1 财报电话会上，有分析师问腾讯总裁刘炽平，" 如何看待来自操作系统层面智能体的长期潜力或潜在颠覆，包括来自 iOS、Android 或手机厂商的智能体 "。

刘炽平回答说，" 从操作系统的角度来看，这里面混了几种不同的东西。有真正的操作系统，如 iOS 和 Android，然后还有那些试图假装自己是操作系统的应用程序。如果你是 iOS 或 Android 这样的操作系统，你希望确保生态系统得到良好保护和精心策划，并给予应用程序合理的权限，你可以拥有一个试图为用户提供服务的智能体，但你需要获得不同应用程序的许可。否则，作为操作系统，你本质上是在掠夺不同的应用程序，这不是管理操作系统的最佳方式。"

刘炽平的意思是，用操作系统的 Agent 来操控应用是可以的，但不能不获得应用程序的授权，否则就是对应用的掠夺。

用更直白一点的话来说，腾讯不接受 GUI agent，只接受 A2A。

过去两年，手机厂商曾尝试用 GUI 来从外部打通微信。

荣耀 YOYO 宣传过 " 一句话发微信红包 "，小米智能家居产品的卖点是 " 小爱自动打通微信电话 "。当你对手机说 " 给 XX 发个 10 块钱红包 " 时，AI 助手在后台执行的是：解锁、点击微信图标、搜索 XX、点击加号、点击红包、输入 10、调起支付。

这一行为很快被微信封杀。

2025 年 4 月，微信安全中心发布公告，禁止第三方工具绕过微信安全技术措施，违法违规获取或利用微信终端用户数据。

字节的豆包手机也遭遇同样命运。

2025 年 12 月，豆包手机助手技术预览版发布，核心卖点是 "AI 直接跨应用操作 "。很快，大量用户反馈微信账号被强制下线，系统提示登录环境异常。腾讯方面表示，这触发了微信既有的安全风控策略。

在微信 AI 上，荣耀是第一个完成微信 A2A 适配的品牌。目前荣耀部分机型已经支持该功能，用户可以唤醒 YOYO 直接语音下达指令，比如语音发微信消息、拨打微信语音、视频通话。

一位腾讯内部人士评价称，任何手机 agent，如果不能调用微信，就不算一个真正的系统级 Agent。腾讯这个口子一定会开，只是时间问题。

微信愿意通过 A2A 这类受控协议，让手机厂商 Agent 有限调用微信能力，但不会放任外部 Agent 靠读屏、模拟点击进入微信。

这说明归根结底，腾讯还是要掌握微信生态的调用权和规则制定权。

说到豆包，这里就引出了另一个问题，微信 AI 会收费吗？

豆包月活 3.45 亿，最近都传出要开始对一些功能进行收费，微信 14 亿月活，压力只会更大。

更何况，微信 AI 要面对这么多人，每个场景都触发推理，成本一定是天文数字。

此前腾讯拟投资 DeepSeek 的这 100 亿，就可以解释为模型供给和成本底座。

腾讯自研的混元大模型需要技术盟友，微信生态更需要低成本推理能力。DeepSeek 的低成本训练路线，恰好符合微信 AI 这种海量用户场景的需求。

6 月 2 日，腾讯还宣布，腾讯云平台上的 DeepSeek-V4 系列调用价格全面持平 DeepSeek 官方售价，用户无需承担任何云平台溢价。

这一切线索都在暗示，腾讯要和 DeepSeek 深度绑定，而微信 Agent，很可能就是绑定后的第一份答案。

基础任务用小模型，成本低、速度快。复杂任务调用强模型，效果好、准确率高。这种多模型调度的能力，既要保证效果，又要控制成本。

作为一名微信的用户，如果微信 AI 能够真正做到一次把任务做成，我是愿意为这个能力付费的。

比如帮我订一张机票，帮我找一家餐厅，以及帮我想起这个在我朋友圈列表里躺了好久，我还和他没有任何聊天记录的人是谁。我觉得这些功能都很有价值。

更重要的是，微信 AI 面对的不只是个人用户，还有企业用户。企业自动化、智能客服、智能营销，这些场景对 AI 的需求更强，付费意愿也更高。

微信 AI 的舞台其实很大。具体有多大呢？答案是，微信生态有多大，微信 AI 的舞台就有多大。

腾讯首席 AI 科学家、混元大模型负责人姚顺雨在 6 月 5 日的腾讯云 AI 产业应用大会上，给出了一个更长远的判断。

他认为，AI 是一个长期游戏，而非短期窗口。他批评了硅谷部分从业者 " 赶快赚两年钱退休 " 的心态，强调当前就像 "70 年代的 PC"，未来将不断涌现新的产品机会。

这个判断，恰恰解释了腾讯为什么愿意在微信 AI 上投入如此大的成本。姚顺雨特别强调，" 实用性价值大于刷榜价值 "。他认为，AI 方法论已经高度成熟，真正的难点在于寻找 " 好问题 " 去解决，而不是追求排行榜上的数字。

微信 AI 要解决的，正是这样的 " 好问题 "。

如何让这 14 亿的用户，在日常生活中感受到 AI 带来的价值。？

这里没有炫技，更没有刷榜，只有解决了这个好问题，腾讯才算真正进入了 AI 的下半场。

宙世代

一起剪