AI 手机的技术路线已形成鲜明分野。
12 月 19 日,字节跳动在联合中兴努比亚推出 " 豆包手机 "nubia M153 后再传扩围动作——正与 vivo、联想、传音等厂商推进 AI 手机合作。
以 " 豆包手机 " 为代表的阵营,凭借读屏、模拟点击等 GUI(图形用户界面)技术,试图让 AI 助手突破应用壁垒完成复杂任务,却引发主流 App 集体 " 自卫 "。
反观海外,苹果、谷歌主导的阵营,则坚持 API(应用程序接口)标准化路线,虽稳健却进展迟缓。

两种技术路线的博弈,是移动互联网十余年商业逻辑与利益格局的剧烈碰撞。流量入口迁移的序幕已然拉开,手机厂商、应用开发者与用户的关系正被深度改写。
GUI 接管屏幕:豆包撕开系统级权限口子,智谱开源补位
这场路线之争的导火索,是 12 月初字节跳动联合中兴努比亚发布的 " 豆包手机 "nubia M153。这款手机凭借跨应用 AI 操作能力搅动行业:用户只需发出语音指令,AI 便能完成订外卖、发微信、比价购物等一系列跨 App 任务,其技术核心是 GUI(图形用户界面)多模态大模型与系统级权限的深度绑定。

豆包手机 图片来源:中兴商城
前小米 OS AI 产品专家、现出海 AI 应用公司 ExcelMaster.ai 创始人张和告诉《每日经济新闻》记者(以下称每经记者),通过与手机厂商(如中兴)达成操作系统层面的深度合作,让 AI 助手获得凌驾于所有 App 之上的系统级操作权限。其技术逻辑是模拟人类的点击、滑动等操作,贯通全手机应用,实现跨 App 的任务执行。
但 AI 助手直接 " 接管 " 屏幕,很快引发主流 App 的 " 自卫反击 ":微信提示环境异常甚至封号,淘宝频繁弹出人机验证,各大银行 App 则直接拒绝在录屏状态下运行。
12 月 9 日,智谱 AI 宣布开源自主任务模型 AutoGLM,为 GUI 路线提供了另一种可能性。
AutoGLM 同样基于 GUI 范式,通过视觉大模型实现手机自动化操作,但此前因未获厂商系统级权限支持,只能依赖安卓无障碍模式运行。
张和指出,无障碍模式存在明显短板:"AI 操作时会完全占据前台窗口,比如操作淘宝一分钟内,用户无法刷微博、聊天。" 但他强调,豆包与智谱 AutoGLM 本质同源,都是大模型厂商视角的探索,仅开源与否的差异。" 只要手机厂商配合,智谱 AutoGLM 也能实现后台静默操作,核心症结始终是系统权限。"
获得中兴努比亚手机的系统级权限,是豆包率先做出 AI 手机的核心原因之一。
但张和指出,这类合作的主动权掌握在手机厂商手里——并非厂商不具备同等技术研发能力,而是 " 要不要做(AI 手机)" 的战略考量。
厂商的顾虑主要有两点:首先是用户对隐私泄露的普遍担忧,贸然开放权限可能严重影响手机品牌的用户口碑和形象;其次,手机厂商希望将系统级 AI 入口牢牢掌握在自己手中,而非沦为 AI 公司的技术通道。
" 这也解释了为何豆包的首个合作伙伴是中兴努比亚,而非头部厂商。" 张和补充道。
苹果、谷歌 " 慢半拍 ":API 路线的保守布局
豆包手机的出现,也引发了全球范围内关于 AI 手机两条技术路线—— GUI 范式与 API(应用程序接口)范式——的对比和讨论。
豆包和智谱的 GUI,如同一个 "AI 保姆 ",它像人一样看着手机屏幕,帮用户操作手机。苹果和谷歌的 API 路线,则像给 App 们发了一套 " 手册 ",让它们自己把功能开放出来给系统调用。
两者的优劣对比十分鲜明:GUI 不依赖 App 开发者配合,通过视觉大模型 " 读取 " 屏幕、模拟人类点击实现操作,优点是通用性强,理论上人能使用的 App 它都能驾驭;但缺点同样突出,一是隐私保护压力大,二是效率较低,需逐步骤操作且易出错。
以苹果 Apple Intelligence 为代表的 API 范式,不是通过模拟,而是构建底层框架与标准化接口,让 AI 通过规范 " 调用能力 " 完成任务。这种模式的优点是稳定、保障隐私且效率高,缺点则是需要 App 开发者主动配合,生态构建周期更长。


iPhone 17 搭载 Apple Intelligence 图片来源:苹果官网
张和评价苹果是 " 最保守的大玩家 "。
2022 年,苹果推出 Apps Intent 框架,鼓励开发者向系统声明功能供 Siri 调用,但坚决不开放读屏绕开应用的能力;即便未落地的 " 屏幕感知 " 功能,也选择通过 API 向 Siri 提供屏幕内容,而非直接操控界面。
当前,苹果 Apple Intelligence 集成了 OpenAI 的 ChatGPT。而据媒体报道,苹果正计划采用谷歌的 Gemini 模型,为 Siri 语音助手升级提供技术支撑。苹果希望将该技术作为临时解决方案,直到自家模型足够强大。

Pixel 10 搭载 Gemini 大模型 图片来源:谷歌官网
谷歌则走端云协同路线,且优先布局电脑端。旗下 Gemini 大模型具备强大端云协同能力,但手机端未采用 GUI 多模态操作;推出的 AppFunctions API,旨在解决生态内的碎片化问题,实现系统对应用能力的统一发现与索引。
谷歌和苹果均倾向于推动应用开发者主动接入标准化接口,实现 AI 助手跨应用协作。
张和透露,目前两家公司尚未在手机上推出 GUI 多模态操作相关功能,仍处于技术储备阶段。" 谷歌一方面需要协调安卓生态的手机厂商,另一方面也在观望市场反馈和技术成熟度。"
AI 生态洗牌:手机厂商、超级 App 与长尾应用的利益重构
市场调查机构 Canalys 报告显示,得益于芯片技术的快速发展和消费者对 AI 功能日益增长的需求,全球 AI 手机出货占比将从 2024 年的 16% 升至 2028 年的 54%。该机构预计,2023 年至 2028 年的年复合增长率将达到 63%,三星和苹果等主要玩家将推动这一增长。
技术路线的抉择,最终将指向移动互联网利益格局的深度重构。
" 靠 AI 助手去购物,相当于直接介入交易,互联网大厂自然担心商业模式受影响。" 张和点出了超级 App 集体 " 自卫 " 的核心焦虑。
API 类似手机厂商向各家互联网大厂商议,让后者开发接入手机智能助手的 API 接口,在限定范围内向 AI 开放部分功能。这一模式下,主动权掌握在互联网大厂手中,是否开放 API 接口、对谁开放、开放多少功能,都是未来提供议价权的筹码。
而 GUI Agent 可以通过 " 看屏幕、点按钮 " 的方式来操作 App,相当于绕过了 App 对 AI 许可授权的过程。
更关键的是,GUI Agent 将用户操作截留在了手机系统层面:用户无需打开 App,就能使用其核心功能。这意味着,App 上的广告投放将失去核心价值——而广告收入正是互联网行业的重要营收来源。
张和认为,未来 AI 手机的生态将呈现 " 分层治理 " 格局,不同体量玩家命运迥异。
对于微信、淘宝等超级 App 而言,短期可以通过技术手段抵制外部 AI 读屏,保护商业数据与用户隐私。长期最优解是自研 AI Agent,形成 Agent to Agent(A2A)协作模式:系统级 AI 将用户意图传递给应用 Agent,后者在权限内完成操作。这种模式既保护超级 App" 领地 ",又能融入 AI 手机生态。
对于数以百万计的中长尾 App 来说,处境则将完全不同。
张和认为,长尾 App 因缺乏自研 Agent 的技术与商业话语权,大概率将 " 被系统级 AI 直接控制 "。对它们而言,与其投入资源拉新获客,不如接受系统级级 AI 操作,换取新生态的流量分发。手机厂商或会制定标准化利益分配条款,让长尾应用 " 搭上生态红利 "。
" 这就像自动驾驶,是不可逆转的历史趋势。" 张和总结道。以用户需求为核心的变革,将推动生态从 " 流量争夺 " 走向 " 价值共创 ",最终形成手机厂商主导,超级 App、长尾应用和大模型厂商各司其职的全新格局。
每日经济新闻


登录后才可以发布评论哦
打开小程序可以发布评论哦