量子位 9小时前
阿里开源AI手机的“灵魂”,GUI智能体2B到235B四个版本全,端云协同成功率暴涨33%
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 手机的 " 灵魂 "GUI 智能体,就这么全套开源了。

来自阿里通义实验室的 MAI-UI:论文、代码、模型全都有,从 2B 的端侧小模型到 235B 的云端大模型,一口气发布四个尺寸版本,覆盖全场景部署需求。

这套系统不只是能帮你点点屏幕,它能主动追问你没说清楚的需求,能直接调用外部 API 绕过繁琐的界面操作。

甚至还搞了一套端云协同系统,隐私敏感的操作留在本地跑,复杂任务交给云端处理。

论文给出几个典型案例:

用户收到中介发来的两套房源地址,想比较哪套离公司更近,然后把更近那套的地址发给朋友。

传统做法需要在短信和地图 APP 之间反复切换,复制粘贴地址,分别搜索路线。但有了 MCP 工具调用,智能体可以直接用高德地图的 API 查询两条路线的驾车距离,一次性拿到结构化结果,大幅压缩操作步骤。

另一个案例更有难度:

用户想查看某个 GitHub 仓库最近三次提交的作者和信息,然后发邮件。这种操作在手机上本来很难完成,因为移动端浏览代码仓库体验很差。

但通过 MCP 调用 GitHub 的 API,智能体直接获取提交记录的结构化数据,提取需要的字段,再切换到邮件 APP 发送。相当于把原本只能在桌面端做的工作流搬到了手机上。

主动询问需求方面,论文展示了一个文件分享任务:

用户让智能体把下载文件夹里最近一个月的简历发给 HR 同事,但没说收件人邮箱,也没说邮件正文要写什么。智能体检测到关键信息缺失后,暂停执行,主动向用户询问,拿到回复后再继续完成任务。

四大痛点,一个方案

团队在论文开头就直接点明了当前 GUI 智能体落地的四个核心问题。

第一个是交互缺失。

现有系统基本都是端到端执行,默认用户指令清晰完整,但现实中用户经常说一半留一半。

比如「帮我订个机票」,去哪儿?什么时候?几个人?全没说,智能体如果不能主动追问,要么猜错要么卡死。

第二个是纯 UI 操作的局限性。

完全依赖界面点击会导致两个麻烦:操作步骤一多,中间任何一步出错就会导致整个任务失败;而且有些功能在手机界面上根本做不了,比如想让手机帮你查 GitHub 的提交记录,光靠点屏幕是搞不定的。

第三个是端云割裂。

目前的 GUI 智能体要么是轻量级的端侧模型,能力有限;要么是大模型只能跑在云端,隐私风险高、成本也高。两者之间没有原生的协作机制。

第四个是动态环境下的脆弱性。

用静态数据训练出来的模型,遇到真实世界里千变万化的界面布局、突然弹出的权限请求、不同版本的 APP 就容易翻车。

MAI-UI 的解决方案:

一条能自动生成用户交互和 MCP 工具调用数据的自演化数据管线。

一套根据任务状态和数据敏感度动态切换端云执行的协同系统。

再加上一套支持 500 多个并行环境、最长 50 步交互的在线强化学习框架。

端云协同与隐私保护

端云协同系统是这次工作的一大重点。

整个系统由三部分组成:一个运行在手机本地的轻量级智能体,既负责执行 GUI 操作,也负责监控轨迹是否偏离用户意图;

一个部署在云端的大容量智能体,用于处理复杂任务;以及一个本地统一轨迹记忆模块,保证端云之间的信息一致。

工作流程是这样的:

用户下达指令后,本地智能体开始执行。每隔几步,本地监控模块会检查当前轨迹是否还在正确方向上。

如果发现偏离且不涉及敏感数据,就把任务交给云端模型接手完成。交接时还会生成一份错误摘要,帮助云端模型理解问题出在哪里并快速恢复。

相比纯端侧执行,端云协同让 2B 模型的成功率提升了 33%;相比纯云端执行,云端调用次数减少了 40% 以上,超过 40% 的任务完全在本地完成。

论文还给出了一个隐私保护的案例。在一个需要输入密码的任务中,本地模型一开始执行出错(反复点击登录按钮却没输入密码),监控模块检测到偏离后准备切换到云端。

但隐私检测模块发现当前界面涉及敏感凭证,于是阻止了云端切换,让任务继续在本地执行。最终本地模型自己纠正了错误并完成了任务,全程没有任何敏感信息传到云端。

性能屠榜,多项 SOTA

在 GUI 元素定位任务上,MAI-UI-32B 在 ScreenSpot-Pro 上达到 73.5% 准确率,超过了 Gemini-3-Pro 和 Seed1.8。

在 UI-Vision 上拿到 49.2%,比之前最强的 UI-Venus-72B 高出 12.4 个百分点。

在 MMBench GUI L2 上更是达到 91.3%,刷新了纪录。

在手机导航任务上,MAI-UI-235B-A22B 在 AndroidWorld 上取得 76.7% 的成功率,超过了 UI-Tars-2 的 73.3% 和 Gemini-2.5-Pro 的 69.7%。

即便是最小的 2B 模型,也达到了 49.1% 的成功率,比之前最强的端侧模型 Ferret-UI Lite 高出 21 个百分点,相对提升 75.4%。

在更接近真实场景的 MobileWorld 测试集上,MAI-UI-235B-A22B 整体成功率 41.7%,比其他端到端模型高出 20.8 个百分点。在需要主动询问用户的任务上成功率 37.5%,在需要调用 MCP 工具的任务上成功率 51.1%,分别比之前最好的成绩高出 32.1 和 18.7 个百分点。

论文地址:

https://arxiv.org/abs/2512.22047

GitHub:

https://github.com/Tongyi-MAI/MAI-UI

—  欢迎 AI 产品从业者共建  

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 点亮星标

科技前沿进展每日见

评论
大家都在看