雷科技 5小时前
豆包手机助手掀翻科技圈!权限争议下,AI手机等待一个最优解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

一夜间,豆包手机助手变成「豆包手机,住手!」

前段时间,字节跳动豆包团队和中兴合作,发布了搭载豆包手机助手技术预览版的手机——努比亚 M153。在 M153 上,豆包团队基于其 GUI-Agent 的能力,打造了一系列「替用户操作手机」的功能,让我们有机会在 2025 年一览未来 AI 手机应该有的样子。

图片来源:豆包手机助手

但很快,问题就出现了。有用户反馈称,豆包手机助手在某些金融 App 里会触发风险提示,指出手机当前开启了「屏幕共享」「无障碍」等服务,要求用户注意资金安全;部分 App 更是因触发风控直接停用了相关服务。

随后,微信确认了这一点,表示没有对豆包做任何特殊拦截,用户遇到的情况更像是触发了既有的通用风控策略。豆包方面随即下线了相关场景的操作能力,并对受影响用户开启解封流程,同时进一步公开说明其权限调用方式、数据处理方式和安全边界,重申不存在任何黑客行为或隐私侵入。

至于外界争议最多的 INJECT_EVENTS 权限,豆包也给出了正面回应:

INJECT_EVENTS 确实是系统级权限,技术实现依赖 Android 系统级权限,有更严格的使用限制。拥有该权限许可,相关产品才能跨屏、跨应用来模拟点击事件,完成用户操作手机的任务需求。

豆包手机助手需要用户主动授权,才可以调用该权限,使用操作手机功能。该权限的使用,我们也在权限清单中进行了明确的披露。据我们了解,目前行业的 AI 助手,均需要使用该权限(或与其类似的无障碍权限)才能提供操作手机的服务。

从雷科技的角度看,豆包这一解释确实合情合理;这种不避讳关键争议的做法,也值得肯定。但在雷科技看来,这场关于 AI 手机助手权限的讨论,虽然由风控误伤引发,但也是 AI 手机行业发展必将面临的问题;处于风暴中心的豆包,也只是把这个需要行业共同打磨的细节,提前带到了公众面前。

要理解这场争议背后的行业背景,我们必须先理解 AI 是怎么「用」手机 App 的。从技术的角度看,「AI 操作 App」可以拆解成两个步骤:

1. 让 AI 看懂 App;

2. 让 AI 操作 App。

但问题是,Android 系统原本从未设想过让「一个智能体来控制另一个 App」。为了让 AI 能从系统(而不是 App)的层面控制其他 App,手机行业提出了三种不同的「AI 操作」路线。

第一条路线是基于 App 无障碍标签和 Android 系统无障碍服务,打造的「模拟用户」操作路线。我们知道,现代智能手机都有无障碍服务,比如为视障群体准备的文字标签服务:开发者在开发 App 时,会为每一个按钮添加「无障碍标签」;手机开启无障碍读屏功能后,手机系统会读取「无障碍标签」并朗读对应内容,让视障用户知道当前选中的按钮的作用。

图片来源:smartisan.com

AI Agent 只要读取 App 内部的标签结构,就能理解软件界面元素、知道每个按钮的作用;看懂 App 后,AI Agent 再利用无障碍服务的模拟触控功能(手机键精灵的同款原理),就能自主操作 App。

但我们知道,国内移动互联网发展日新月异,主流 App 每隔几周就要上线一个新功能,而无障碍标签往往是开发流程里最容易被忽略的步骤——很残酷的现实是,无障碍群体在互联网几乎没有声量。这导致某些页面、按钮可能根本没有标签,或是只有「按钮」「窗口」这种几乎没有意义的字样。面对这样的标签,即使再聪明的 AI 也无能为力。

既然糟糕的无障碍支持让 AI 搞不懂 App 结构,那为什么不让 AI 像人一样「直接看屏幕」呢?这也引出了 AI 交互的第二条路线:AI 通过系统提供的屏幕捕捉能力,实时获取手机屏幕当前的画面,然后用视觉大模型去理解画面中每个元素的功能含义。

理解当前屏幕内容后,AI Agent 会利用无障碍(模拟点击)或 INJECT_EVENTS (应用注入触发)来操作 App,把 AI 链路跑通。豆包手机助手此次引起的争议也在这个「INJECT_EVENTS」上。

刚刚提到,无障碍的点击本质是「AI 代点」,但无障碍并不能稳定覆盖所有交互方式,很多界面仍需要更底层的事件注入。在这一场景下,INJECT_EVENTS 不是「破解 App」,而是用一种更底层、更原生的交互模拟方式,让 AI 能在任何 App 上执行更完整的操作。就目前 Android 系统本身的发展情况来说,「豆包路线」也是现阶段 Android 体系里唯一能让 AI 真正操作 App 的路线。

但归根结底,刚刚提到的两条技术路线,本质仍是让 AI 模拟人的操作;而真正的 AI 手机,应该去掉低效的图形界面(GUI)中间层,让 AI 直接调用 App 的功能组件。在这种理念下,第三条路线—— MCP 路线诞生了。

不了解 AI 的朋友对 MCP(Model Context Protocol,模型上下文协议)可能比较陌生。简单来说,MCP 是一种标准化的能力协议,它能「对齐」App 与 App 之间的功能,让 App 功能(组件)变成可被 AI 跨应用调用的模块。

图片来源:modelcontextprotocol.io

举个例子,如果我们把点餐功能封装成「能力组件」,叫外卖时 AI 就不再需要靠图形或文字去理解商家菜单里的选项,可以直接从组件后台中找到「隆江猪脚饭」的选项并添加到购物车里,再调用支付的 MCP 模块直接完成支付。

事实上,在雷科技看来,豆包选择的「GUI-Agent + INJECT_EVENTS」方案,确实也是现阶段 AI Agent 体验最好、最完善的技术路径。不同于读取无障碍标签的「路线一」,GUI-Agent 能充分发挥大模型在多模态方面的优势,吃到国内 AI 模型飞速迭代的技术红利。

和 MCP 路线相比,「豆包路线」也不需要苦等第三方 App 的 MCP 支持:要知道 MCP 允许 AI 绕过 App 的图形界面,意义等同于让 App 放弃自己的流量入口。即使我们都知道 MCP 方案必然成为主流,但 GUI 到 MCP 的转化注定是一个漫长的过程。可以肯定的是,大量 App 会在相当长的一段时间内维持传统形态,GUI-Agent 仍无法取代。

除此之外,豆包的 GUI-Agent 虽然被视为「过渡方案」,但它也提前为 MCP 时代打好地基。无论未来标准协议多么成熟,AI 想要可靠地完成任务,都必须先学会在真实 App 环境中运行,而其中的操作路径和数据传递算法只能从 GUI 操作里优化出来,而不是从 API 文档里学出来。

可以说,豆包通过 GUI-Agent 大规模积累的经验,必将成为豆包在 MCP 时代领先的关键。

当然了,就像刚刚提到的那样,尽管现阶段 MCP 生态的发展还处于初期阶段,GUI-Agent 依旧是 AI 手机的主流方案;但就像触屏手机用更丰富的交互方式取代按键手机、更通用的 USB-C 统一多种结构那样,可以肯定的是,体验更好、潜力更大的 MCP 方案,未来必然会取代 GUI-Agent 方案,成为 AI 时代的「默认路线」。

而随着「MCP 时代」的到来,AI 手机与 App 的线性关系也将发生改变:App 将直接向 AI 暴露结构化的能力组件,系统也能对每一次调用进行统一的权限管理,其安全性反而比现在的「屏幕捕捉 +GUI Agent+ 替代点击」还要高。

与此同时,MCP 的开放性也让跨 App AI 协作成为可能。现阶段不同 App 之间的联动还离不开链接跳转、剪贴板数据寄存等「歪门邪道」,而在 MCP 时代,AI 可以在同一上下文窗口中调用不同 App 的能力,实现真正意义的「流程化」。

12 月 4 日,罗永浩在微博指出「技术革命是谁都拦不住的」,同时也对字节在 GUI-Agent 路线迈出的这一步点赞:「AI 助手一定会遍地开花,我们的生活也会完全离不开它,将来的人们会记住这历史性的一天。」

图片来源:微博

就目前的情况来看,豆包手机助手已经让我们「预览」了未来 AI 手机的样子;而即将到来的 2026 年,AI 手机行业必然会加大在 GUI-Agent 赛道的投入,用实打实的市场需求推动 App 生态的 MCP 转型进程。

从这个角度来看,豆包手机助手,才是开启 AI 手机黄金时代的钥匙。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai android 努比亚 字节跳动 黑客
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论