Siri们加速Agent化，未来人类可能会忘记“点击App”这事儿

谷歌在今年的 Android Show（I/O 版）上，说了一句听起来有点夸张的话，Android 正从一个 operating system，转变为一个 intelligence system。

（图源：Google）

或许，以后我们再也不需要 App 图标了。

这句话翻译成人话，就是手机不再只是被动等你点开 App 的工具，它开始主动帮你把事情做完。谷歌给的例子很具体：你把一份购物清单记在备忘录里，Gemini 可以读出来，再去购物 App 里一项项加进购物车；你让它从 Gmail 里翻出某本教材的信息，它能找到之后直接帮你下单；你给它一张照片，它能在旅行平台上替你搜对应的行程。

（图源：雷科技制图）

不仅仅是手机，按照谷歌的计划，这项能力最早在三星 Galaxy 和 Pixel 上布局，随后到手表、汽车、眼镜和笔记本上。

但问题来了，当手机开始替我们「干活」而不只是回应，App 那套我们用了十几年的逻辑会被改写吗？以下是雷科技的看法。

Siri 们长出「手」后，一切都将改变

过去的语音助手，用起来的感觉就是它只是一个会回应你的小伙伴。比如你对着手机说「把我备忘录里的购物清单加进购物车」，过去的 Google Assistant 会怎么做？大概率是把这句话当成一个搜索词，打开浏览器，给你返回几条相关链接，然后任务就结束了。

但在用户的角度，肯定还是希望它能够打开备忘录、记住清单、切换到购物 App、一项项搜索、一项项加入，完全解放双手。尴尬就在于，它听懂了你的话，却干不了你的事。

（图源：Google）

本质上的原因在于，过去的助手只有「眼睛」和「嘴」，没有「手」。它能识别语音、能朗读结果、能打开某个固定的功能，比如设个闹钟、打个电话、查个天气这些，一旦任务需要跨越多个 App、需要中间步骤、需要根据上一步的结果决定下一步，它就抓瞎了。

Android 开发者社区里有人复盘过谷歌早年的两次尝试，一个叫 Direct Actions API，要求 App 必须在前台运行助手才能操作，等于助手没法自己后台干活；另一个叫 Assist API，给了系统「看屏幕」的眼睛，却没给它「理解该怎么操作」的脑子，两条路子都不太行。也就是说，其实大家对于语音助手只能回答不能干活这件事，早就有怨言。

Gemini Intelligence 想补上的，正是「手」和「脑」这两块。谷歌把这套能力叫做 Task Automation（任务自动化），它能在用户授权下，跨多个被选中的 App 完成多步骤任务，并且全程保留透明度和用户控制权。换句话说，你说一句话，它会读清单、调 App、加购物车，每到关键的、不可逆的环节，比如真要付钱了，再停下来等你点头确认。

值得注意的是，谷歌这次开放这个能力也是相对小心翼翼的，它配了一个叫 Android Halo 的东西，在你屏幕顶部用很轻的方式显示「智能体现在正在干什么、进度到哪了」，让你随时能看见、随时能叫停。其实谷歌也很清楚，「替你操作手机」是一件信任成本极高的事，它不敢全部大包大揽。

（图源：Google）

但坦白讲，这一版能做的事，目前还相当克制。任务自动化首批只覆盖被精选过的少数 App，能力范围也有限。而且 Gemini Intelligence 对手机硬件的要求还很高，连不是所有机型都能跑得动。从目前来看，它更像是一个方向明确、但还在小步快跑的早期形态。

我认为，过去十几年，我们和手机的关系是「打开 App，再找功能」，而 Gemini Intelligence 想把它改成「提出需求，系统替你调用 App」。这个转向如果成立，影响的就不只是一个助手好不好用，而是整套移动端的交互逻辑。假如一句话就能干活，那 App 的图标还有存在的意义吗？

Google AppFunctions 要做移动端的 MCP？

这次 I/O 上，谷歌同时面向开发者推出了 AppFunctions，并且直接给了它一个副标题：Android MCP。谷歌官方的描述是，AppFunctions 是一套 Android 平台 API，配套一个 Jetpack 库，让你的应用能像一台「端侧 MCP server」一样运作，把自己的工具、服务和数据开放给系统和智能体调用。

MCP 这套协议，过去主要解决的是云端的事，就是让 AI 智能体能标准化地连接到服务器侧的各种工具。而 AppFunctions 做的，是把同样的机制搬到了手机本地。

开发者只要把「创建备忘录」「发送消息」「搜索邮件」「添加购物清单」这些能力，写成一段段自带自然语言描述的函数，注册到 Android 系统内置的「能力清单」里，Gemini 这样的智能体就能发现它们、调用它们。更关键的是，整个过程在设备本地执行，延迟更低、也更利于隐私。

（图源：Google）

过去智能体想替你操作一个 App，靠的是一套很笨拙的办法，先截屏、OCR 识别文字、再找到按钮的位置、模拟点击、等页面变化、出错了再重试。这套流程又慢又脆，App 改个界面就可能全部失灵。AppFunctions 把它换成了，App 主动声明「我能做什么」，智能体带着授权直接调用这些能力，系统负责管权限、管调用边界、管安全约束。

谷歌对未来手机系统的设想就是，未来的软件会越来越像「一组能力」，而非单纯「一组界面」。也就是，App 的图标可能会消失，转而变成一些核心的能力留在用户手机里，用户也不需要记得这些 app 分别是干嘛的，只需要说自己的需求。

当然，AppFunctions 目前的状态还非常早期，对于那些还没接入的 App，谷歌的兜底方案是另一套「UI 自动化」框架，也就是让 Gemini 退回到模拟点击的老路子上去临时顶一下。这就不得不提到豆包手机助手，它本质上还是 GUI Agent 那套「看懂屏幕、模拟点击」的逻辑，只是权限拉满，才实现各种跨应用的功能。

无论是哪种方案，趋势已经很清楚，App 不会消失，可 App 图标、首页、传统菜单这些「入口」的权重，可能会慢慢下降，用户越来越不在意 App 本身，而是愈发看重 App 的核心能力。

动动嘴让 AI 干活这事儿，会消灭手机 app 吗？

过去十几年，App 之间打的是一场「入口争夺战」，争的是什么？是桌面第一屏的位置，所有的产品设计、所有的 push 通知、所有的红点，本质上都是在抢用户的关注度。

可一旦 AI 成了新的系统级入口，战场就变了。未来 App 要抢的，是智能体的「调用次数」。当用户不再亲手打开 App，而是把需求抛给 Gemini，那么「Gemini 决定去调哪个 App」这件事，就成了新的兵家必争之地。你想想，用户说「帮我订杯咖啡」，系统调的是瑞幸还是星巴克的 App 动作？或者说，订个酒店、买张机票，系统会推荐哪个 App 呢？

（图源：Google）

也正因为利益这么大，谷歌在这条路上跑得这么急，就显得格外耐人寻味，因为它的老对手苹果，在同一件事上摔了个大跟头。

早在 2024 年的 WWDC，它就高调演示过一个全新的 Siri，靠 App Intents 框架实现跨 App 操作，经典的演示场景是：「找出上个月 Sarah 生日的照片，把最好的一张去掉背景，发到她的 Instagram。」一句话，Siri 在多个 App 之间穿梭着把活干完。这套愿景，和今天 Gemini Intelligence 讲的几乎一模一样。

（图源：Apple）

但后面的故事大家也清楚了，这套个性化 Siri 原本计划 2025 年上线，先是被推迟到 2026，又一路从 iOS 26.4 延到 26.5，这不马上 iOS 27 都要来了，这能力也没点头绪。

苹果高管 Craig Federighi 的解释是，原本那套功能建在「V1」架构上，能跑，但质量不达标，必须重新建在新的「V2」架构上。苹果软件工程负责人和营销负责人在采访里被追问具体日期，只含糊地说 2026 会上，那大概率就是 WWDC27 公开了。

其实呢，倒也不能完全怪苹果。跨 App 自动化和生成一段文字完全是两码事，它要在意图模糊、App 状态在变、还涉及真实权限的情况下，精准地执行正确动作，可靠性、准确性，还有敏感内容的问题，都是一道道坎。

所以，在「让 AI 接管手机操作」这件事上，靠着 AppFunctions 这套开放给开发者的底层设计，加上三星、谷歌两家硬件先行铺货，更有可能率先跑出一个能用的「Agent OS」雏形。

（图源：Google）

当然，目前 Android 这条路最大的风险，恰恰是它的开放，支持海量的机型和 App 服务，注定了它必须谨慎对待每一个能力和环节，也注定了它很难完全放开能力给用户。

那么回到最开始的问题，App 图标真的会因此消失吗？雷科技（ID：leitech）的判断是，图标不会消失，但它的权重会慢慢降低，直到用户已经不那么在意 " 自己该在什么时候去点击哪个熟悉的图标执行什么任务 " 这件事。

它未必能在一两年内就改变所有人的习惯，毕竟手机这东西，承载了我们太多年的肌肉记忆。但至少在方向上，谷歌已经替整个行业把「下一代手机长什么样」这道题的答案写在了考卷上。

宙世代

一起剪

相关标签