每日经济新闻 07-26
手机Agent竞赛升级:荣耀发布多模态感知大模型MagicGUI,从单智能体任务执行到多智能体协同
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI(人工智能)时代的手机,不应满足于依靠大模型的能力仅实现一些诸如翻译、文档处理、你问我答之类的简单功能,AI 的 " 智慧 " 和手机的便捷特性理应有更广阔的想象空间。

7 月 26 日,在 "2025 世界人工智能大会暨人工智能全球治理高级别会议 "(WAIC2025)期间,荣耀发布 MagicGUI 大模型并开源。该模型也是其 " 阿尔法战略 " 的重要成果,参数规模为 70 亿。相较于传统语音助手多数还停留在机械式对话的初级阶段,MagicGUI 的角色更接近于一位 " 数字助理 ",它不仅可以理解复杂需求,更能跨应用协同完成任务。以打车场景为例,荣耀智能体 YOYO 可在滴滴、高德等出行 App 中实现打开应用、选择地址、确认车型并下单等多步流程。这背后是 AI 智能体(Agent)多模态感知、UI 理解和自动执行规划等能力在终端的加速落地。

事实上,自 2023 年 OpenAI 引爆大模型热潮以来,主流手机厂商已逐渐形成共识:语音助手的 " 鸡肋时代 " 将走向终结,AI 助手不再是 " 聊天机器人 " 或被动响应,而是具备感知、推理、决策、操作能力的 " 轻量级智能体 "。在这一趋势下,vivo、OPPO、小米等厂商也已在 2024 年密集推出具备类似复杂任务执行能力的智能体方案。但如今,基于 MagicGUI 大模型,荣耀的 YOYO 已经从单智能体任务执行进化为多智能体协同。

从单智能体任务执行到多智能体协同

回望 2011 年,苹果首次在 iPhone 上引入语音助手 Siri,为全球用户打开了人机语音交互的大门。但十余年过去,Siri 的功能更新有限,人们多数时候只会用 Siri 来设置闹钟或播放歌曲,而不是将其看作一个真正的数字助手。

在苹果 2025 年全球开发者大会(WWDC)上,苹果没有展示任何关于 Siri 的新功能,这意味着 AI 版 Siri 继续 " 跳票 "。甚至直到现在,国行 iPhone 15Pro 系列 /iPhone 16 系列的用户仍无法体验苹果的 AI 功能。

即便用户提出诸如 " 嗨,Siri,帮我在美团 App 上点一杯咖啡 " 这类请求,Siri 至今也只能打开 App,无法进一步解析页面并完成后续动作。

反观安卓阵营,近年来,在 AI 助手实用性和系统集成度方面的进展普遍优于苹果。从荣耀的 "YOYO"、vivo 的 " 蓝心小 V" 到小米的 " 超级小爱 ",纷纷从传统语音助手进化为 " 任务型智能体 ",能够完成点咖啡、订餐厅、发红包、拨打微信电话等任务。

其中,基于 MagicGUI 大模型,荣耀智能体还实现了从单智能体任务执行到多智能体协同的升级。比如 " 一语打车 "" 一语 PPT",YOYO 智能体可同时调度多个专项智能体(如设计、排版、支付模块),完成操作流程。借助 MagicGUI 大模型赋予的感知、推理、规划、反思、执行任务的全链路能力,YOYO 能够像人类助理般拆解复杂任务、调度跨应用资源等。而单智能体在处理复杂任务时会显露出局限性,比如缺乏长期规划能力,通常处理单一、特定的任务等。

从 App 主导到 Agent 主导

移动手机时代,用户与设备交互的主体是一个个 App,用户通过点击、输入,在各个应用之间来回切换完成任务,而在 AI 驱动的终端智能体框架中,主导权正由 App 转向 Agent,即 " 能理解屏幕、规划步骤、自动执行 " 的 AI 助手。

这种变化背后,是各大厂商对 GUI Agent(图形用户界面智能体)技术的持续投入。作为一种多模态视觉模型驱动的系统,GUI Agent 可以通过观察手机界面(如截图或 UI 结构)感知手机状态,并生成相应的动作(如点击、输入、滑动等)来实现任务自动化。荣耀的 MagicGUI 大模型,即是该技术方向在终端的一次系统落地。

然而,手机 GUI 智能体在实际部署场景中常常面临重大挑战。比如,移动应用和用户界面的多样性创造了许多长尾场景,截至 2025 年仅 Google Play 上就有 168 万个应用,现有智能体在长尾场景中难以有效执行任务;智能手机上的各类 App 的内容变动频繁,操作不确定性强。

为此,荣耀方面介绍,其算法团队为 MagicGUI 模型设计了一个两阶段的训练范式,包括继续预训练(CPT)与强化微调(RFT),前者通过大规模注入 GUI 相关知识,提升模型的屏幕感知与定位能力;后者引入了空间增强的复合奖励函数与 DF-GRPO 算法,通过强化学习激发模型知识表达,进一步提升模型的效果和泛化能力。

经过训练的 MagicGUI 大模型使得 YOYO 能根据屏幕视觉信息边思考边行动,依据页面反馈推理下一步操作,更智能高效。如果遇到用户指令有误、操作无法完成等突发情况,它也能主动停止。

开源方面,荣耀 MagicOS 副总裁孙建发表示:" 目前荣耀 MagicGUI 大模型报告已登陆 GitHub 平台(软件项目托管平台),模型与相关测试数据将于近期上线相关开源平台。"

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

荣耀 siri ai 语音助手 iphone
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论