AI手机的终局，“读屏”还是“对话”？

最近科技圈的两场 "AI 秀 " 先后刷屏。

在大洋彼岸，当地时间 1 月 12 日，苹果和谷歌宣布合作，要给 Siri 用上谷歌的 Gemini。但苹果的做法，不是直接让 Gemini 操作手机上的 App，而是用户说什么，Siri 先理解意图，然后去调用相应的应用。换句话说，AI 只是个 " 调度员 "。这套操作，很苹果。

另一边，国内的情况就热闹得多。字节跳动的豆包 AI 手机一度刷屏，AI 可以帮你打车、购物、订票，就像一个真正的 " 万能助理 "。这套打法，很互联网。

你看，同样是 AI 手机，实现的方式完全不同。这背后，其实是两条技术路线：

一条路线，是让 AI 和 App 学会 " 对话 "，通过标准接口直接调用应用能力，被称为 A2A（Agent-to-Agent）。这条路需要所有人坐下来一起制定规则，走得慢，但更稳妥。

另一条路线，是给 AI 一把 " 万能钥匙 "，通过系统权限 " 读屏 " 并模拟操作 APP，被称为 GUI（图形用户界面）。这条路简单直接，走得快，但可能存在风险。

这背后不只是技术选择，本质上，是不同公司基于自身利益与生态位，对未来主导权的一次押注。谁的模式能赢得用户，很可能将决定：下一个十年，我们如何与手中的设备共处。

两种解法，两种逻辑

要看懂这场牌局，我们先得看清这两条路线背后的逻辑。

GUI 路线，主打一个 " 快 " 字。

它的实现方式，最初是 AI 助手借助安卓系统中一个名为 " 无障碍服务 " 的功能。这项权限最初是为有视力障碍的人士设计的，好让他们能通过语音指令来操作手机。现在，AI 通过这项权限可以 " 读懂 " 屏幕上的文字和图标，然后模拟人的手指去点击、滑动，从而操作各种 App。之后不久，市场上出现了比调用无障碍权限更 " 领先 " 的路线，也就是 AI 助手拿到了手机厂商给自己的系统签名权限，从而通过进程注入，更丝滑、无感地模拟操作。

这样做的好处显而易见——它绕开了所有 App 厂商，直接把 AI 能力覆盖到了现有的应用生态中。对于急于在 AI 浪潮中抢占身位的厂商来说，这是最快的验证路径。

"当用户习惯了通过一个 AI 助手来操作所有 App 时，这个助手就成了新的流量入口，这背后的商业价值，相当有吸引力。" 关注互联网公司的投资人林亮表示。

不过，对于用户来说，体验现阶段的 GUI 可能 " 时灵时不灵 "。

"GUI 很依赖应用界面的稳定性 "，应用开发者陈刚表示，" 如果 App 更新了界面设计，比如一个按钮的位置变了，都可能让 AI ‘点错’位置，整个任务流程就会卡住。"

陈刚指出，当任务链路变长时，这种不稳定性会被放大。有数据显示，一个包含 5 个步骤的操作，即便每一步的成功率都高达 90%，整个任务的最终成功率也可能骤降至 59%。

图源 / pexels

除了体验上的不确定性，很多用户担心的是安全和隐私风险。GUI 模式下，AI 需要通过 " 读屏 " 来理解屏幕内容，进而决定下一步操作，就意味着，它需要实时获取屏幕信息。尽管厂商们承诺数据会加密或不上传，但用户心中难免会有疑虑：用户的数据在什么情况下被收集、如何被使用、谁来负责？

A2A 则是完全不同的思路。它不让 AI" 看 " 屏幕，而是为 AI 和各个应用建立一套通用的 " 对话语言 " ——也就是标准的 API 接口。

这听起来有点抽象，你可以想象这样的场景：你对手机说 " 帮我打车去机场 "，系统 Agent 理解后，直接告诉相应的 Agent：" 用户要去机场，请提供打车服务。" 出行 App 的 Agent 收到请求后，在自己的权限范围内完成任务。

A2A 的核心，是 " 合作 "。这一路线中有个关键设计叫" 双重授权 "：同时获得用户和应用方的授权。

这样一来，权责变得清晰了。用户可以对不同的 App 设置不同的权限等级。比如，允许 AI 读取外卖 App 来比价，但禁止读取银行 App；对于转账这样的高风险操作，每次执行都需要你的额外确认。由于数据流动是通过明确的接口进行的，是有据可查的，即便出了问题也可以追溯。

那为什么不是所有厂商都选择 A2A 呢？

因为协调成本很高。A2A 需要操作系统厂商、应用开发者共同推进一套标准化的协议。没有足够多的应用支持，A2A 的价值就显现不出来；没有明确的价值，开发者就缺乏适配的动力。

所以，A2A 路线注定是一场 " 持久战 "，它 " 慢 " 在生态共识的达成与基础设施的建设。

现在，两条路线的逻辑就清楚了：GUI 虽有一定风险但高效，能让厂商用最小代价快速验证 AI 手机的可能性。A2A 稳妥但缓慢，需要更多协调和投入，不过一旦成功，就能建立一套更安全的体系。

有人可能会问，GUI 路线就不能通过技术手段实现分级授权吗？理论上可以，但这样做也就失去了相对于 A2A 的 " 快速部署 " 优势，同时还要承受更高的技术成本。

目前行业内相对公认的路径是，GUI 探路尚可，因为它会把智能体的便利和风险都充分呈现出来，最终还是要看 A2A，因为只有满足了安全和便利两个条件，才能走得远。如果跳出中国市场，全球的科技巨头们是如何选择的呢？

不同路线背后，巨头们的算盘

在手机端，海外巨头几乎都选了 A2A，推动 API（接口）集成。

苹果最直接。它升级了 "App Intents" 框架，要求所有想接入 AI 功能的应用，都必须按照苹果制定的标准提供 API 接口。

谷歌的路更复杂。它一边推 "AppFunctions API" 来统一智能体交互标准，一边大力推广各类应用适配，这是个缓慢的过程。

微软自研了 "AutoGen" 这样的多智能体对话框架，探索不同 AI 智能体怎样更好地协同。

OpenAI 和 Anthropic 虽然不直接做手机，但它们推动的 " 函数调用 " 和 " 工具使用 " 功能，实际上就是 A2A 的技术前身。根据 Anthropic 公布的数据，从 2025 年 3 月的 2000 多个活跃 MCP 服务，到 12 月已经超过 1 万个——这个增速相当惊人。

为什么无论是苹果、谷歌这样的操作系统霸主，还是微软、OpenAI 这样的 AI 领头羊，都选了缓慢的接口路线？

因为它们是现有秩序的建立者和最大受益者。

苹果、谷歌的核心利益是维护平台、稳定开发者。未经三方授权就简单使用 GUI，这种 " 外挂式 " 的路线，本质上是在挑战它们的统治地位。所以它们必然会选 A2A 这种 " 可控 " 的方案，把 AI 能力牢牢掌握在自己手中，作为强化生态控制力的新工具。

微软手握 Windows 和 Office 两大王牌，其 AI 战略的核心是提升生产力，服务企业客户。对于这些客户来说，安全和稳定是第一需求，无法接受 GUI 的不确定性和安全风险。

OpenAI 作为 AI 技术的 " 军火商 "，目标是让自己的模型被尽可能多的应用 " 调用 "。所以它必须提供稳定、可靠的 API 接口，而不是无法确保结果的 GUI 工具。

海外巨头是不是完全放弃 GUI 了？并非如此。

谷歌的 Gemini 和微软的 Copilot，在手机上推出了 " 屏幕共享 " 功能——让用户可以把屏幕分享给 AI，AI 可以 " 看 " 并回答问题，但本身不会去操作。

海外巨头的 GUI 尝试，主要在 PC 端，而且，严格限制在受控环境（如浏览器、沙盒、虚拟机）内。

OpenAI 把具备 GUI 操作能力的 Agent 限定在 Atlas 浏览器内，明确禁止它运行代码、下载文件或访问本地应用。Anthropic 在 2024 年底就发布了 Computer Use API，但相关功能至今仅供开发者在虚拟环境中测试。

微软的做法最具代表性。在其 Recall 功能因高频截屏引发隐私争议后，它直接把 " 看 " 和 " 做 " 两个动作拆分了—— Copilot Vision 只能 " 看 " 用户共享的应用并提供建议，不能操作；有操作能力的 Copilot Actions 必须在单独的沙盒桌面中进行。

所以，海外巨头出于 " 维护现有秩序 " 的考虑，坚定地走 A2A 路线，GUI 尝试只停留在 " 测试版 "，并未向普通用户大规模推广。

相比之下，国内市场格局更复杂，巨头中既有 " 挑战者 " 也有 " 守成者 "，选择也因此更多样。

字节跳动走的是高权限 GUI 路线。它通过豆包大模型与中兴努比亚深度合作，推出集成系统级 AI 助手的 "AI 手机 "，希望绕开现有的生态壁垒，争夺下一代流量入口。

阿里、华为、OPPO，都布局了 A2A 路线。

阿里的动作很直接，就是通过自建的、可控的 API 体系，将 " 通义千问 " 这个超级大脑，深度集成到淘宝、支付宝、高德等核心业务中。

华为则在 2025 年底发布的 HarmonyOS 6 中，通过 " 意图框架 "，实现了 " 小艺 " 智能体与十余款鸿蒙原生应用的 A2A 协作。

OPPO 也联合了支付宝等头部应用，共同探索 A2A 的行业标准。

但这些看似相同的选择背后，是各自的商业考量。

对阿里来说，这套打法 " 攻守兼备 "。一方面，作为中国头部电商平台，核心利益是用可控的 API 保护庞大的交易生态。但另一方面，它又不止于防守，而是通过通义千问打造一个入口，让用户在阿里生态内完成更多交易和服务。

华为和 OPPO 当然不想只做硬件制造商，容易被 " 管道化 "，所以，在 A2A 路线之上，它们还在走一条以自家操作系统或 AI 大模型为核心的 " 混合生态 " 的路线。在这套体系里，既有标准的 API 调用，也有更底层的系统级智能体，最终目的都是为了掌握生态主导权，从一个 " 设备提供商 "，升级为未来生态的 " 规则制定者 " 之一。

简言之，国内外厂商多数都选了 A2A。只是区别在于，海外巨头用它来强化现有控制；国内厂商则用它来争取话语权，一边参与 A2A 的标准制定，一边通过自身的 OS、大模型或生态优势，建立以自己为核心的混合生态。

为什么主流厂商更倾向 A2A？

选择背后，是不同玩家在牌桌上的位置使然。不过，从这些主流厂商的选择中，我们可以得出一个结论：GUI 路线虽然能快速验证 AI 手机的可能性，但 A2A 正获得越来越多主流厂商的青睐。

是因为 A2A 更安全、更稳定吗？不全是。它之所以被看作是未来，可以从技术演进、监管合规和商业成本三个维度来看。

从技术角度看，A2A 更符合 AI 分工协作的本质。

GUI 路线要求大模型同时承担 " 感知屏幕（眼）、规划任务（脑）、模拟操作（手）" 的工作，负担重、效率低且易出错。A2A 路线，则是让 AI 回归到它最擅长的 " 大脑 " 角色，专注于理解与任务调度，具体的执行交给各垂直领域优化的应用智能体。这种 " 各司其职 " 的模式，不仅更高效可靠，也为未来更复杂的智能体协作打下了基础。

从监管角度看，A2A 是更安全、更合规的选择。

GUI 的 " 读屏 " 行为在全球范围内都面临越来越严格的隐私监管。2025 年 12 月，美国德州起诉了包括三星在内的多家智能电视制造商，指控它们通过高频截屏非法收集用户数据。这为所有采用类似技术的厂商敲响了警钟。

图源 / pexels

而 A2A 由于数据流动通过明确的接口进行，并且有 " 双重授权 " 机制保障，为厂商建立了一道合规 " 防火墙 "。

最后，也是最关键的，从商业成本角度看，A2A 是更经济的选择。GUI 方案看似 " 快 "，但长期运营成本高。

陈刚做了个类比：

GUI 模式就像雇了一个需要 24 小时盯着监控屏幕的保安，要不断地看、不断地分析图像。这消耗的是大量的 " 脑力 "（云端计算资源）。

A2A 模式是建立了一个高效的内部通讯系统。当需要某个部门配合时，发送一条结构化的简单指令即可。这消耗的只是 " 通讯费 "（API 调用费用）。

对于手机厂商来说，如果几亿用户每天都在用 AI 读屏，算力与带宽开支将是一笔巨大的开支。这种商业模式，在规模化商用的前景下，几乎是不可持续的。

所以无论从技术、监管还是商业成本来看，A2A 都是更优的选择。更重要的是，一旦这个生态建立起来，它将带来全新的商业机会。这也是最让行业人士兴奋的原因。

首先，协议层与中间件将成为核心。PC 时代有 Windows，移动互联网时代有 iOS 和安卓。在 AI 时代，A2A、MCP 等协议标准，就像是新时代的 " 操作系统 " 和 " 开发语言 "。谁能掌握标准，谁就可能成为下一个平台级的巨头。

其次，" 智能体工厂 " 与垂直 Agent 服务商将迎来爆发。基于标准协议，为金融、医疗、物流等特定行业开发专属智能体，将成为一个巨大的市场。未来，可能会有专门的 " 智能体商店 "，你可以像下载 App 一样，为你的手机雇佣一个 " 私人理财顾问 " 或 " 专属旅行规划师 "。这为无数中小开发者，提供了全新的创业机会。

最后，现有公司也将在新生态中重新找到自己的位置。云厂商将成为智能体的 " 训练场 "，手机厂商则成为智能体的承载终端。它们都将获得新的增长。

对于中国的科技公司而言，这是一个在底层协议和基础设施上，与全球巨头同台竞技的绝佳机会。

结语

聊了这么多技术和商业，我们不妨回到一个最根本的问题：AI，到底应该如何服务于人？

AI 手机的发展，正从功能炫技的 " 概念期 "，进入生态构建期。GUI 和 A2A，从不同维度给出了各自的回答。

GUI 用一种最直观的方式，完成了初步的市场启蒙。它让我们提前看到了 AI 手机未来的样子——一个能听懂、会操作的伙伴。这种 " 快 " 的优势，帮助厂商们快速验证了 AI 手机的可能性。但安全性存疑、经济性不高，决定了它更可能是一种过渡方案。

A2A 路线尽管起步缓慢、协调艰难，但它在做一件更基础的事——为 AI 和应用之间建立一套清晰的 " 规则 "。这些规则看起来很复杂，但本质上是在回答一个问题：AI 应该在哪些地方有权力，在哪些地方没有。一旦这套规则被广泛接受和应用，就能形成一个更稳定、更可控的生态。这必然是一场持久战。

这场路线之争，往深了想，其实是我们希望与机器建立何种关系的思考。

AI 手机的未来，或许并不在于让手机变得无所不能，去替代我们做所有事。而在于，它能否成为一个更聪明的 " 副驾驶 "，在我们做决策时，提供更精准的信息、更周全的建议，最终把选择权交还给我们自己。说到底，技术终究是为人服务的。