手机中国 昨天
苹果新AI模型实现端侧GUI智能 性能超大型模型24倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【CNMO 科技消息】近日,据外媒报道,苹果研究人员已成功开发出一款名为 Ferret-UI Lite 的全新设备端人工智能代理。这款轻量级模型能够直接在设备上运行,并根据用户的指令自主与各类应用程序的图形界面进行交互。

据 CNMO 了解,这项研究是苹果对多模态大语言模型,特别是其 Ferret 系列模型的持续探索。早在 2023 年底,苹果就推出了名为 "FERRET" 的基础模型,旨在让 AI 理解图像中的特定部分。此后,苹果陆续发布了针对移动用户界面(UI)理解的 Ferret-UI 及其增强版 Ferret-UI 2。这些早期模型虽然功能强大,但模型参数较大,更侧重于在服务器端运行。

此次发布的 Ferret-UI Lite 则代表了不同的研究方向——高效与轻量化。它是一个仅有 30 亿参数的变体,其核心目标是在资源有限的设备上(如手机)实现强大的 GUI(图形用户界面)代理功能。

研究人员指出,当前大多数 GUI 代理都依赖大型基础模型,这些模型虽然推理和规划能力强,但体积庞大、计算需求高,难以在设备端流畅运行。为了解决这一矛盾,Ferret-UI Lite 通过一系列创新技术,实现了性能与体积的平衡。它采用了实时裁剪与放大技术:模型在初步分析屏幕后,会对其关注的区域进行动态裁剪和放大,再进行二次判断。这有效弥补了小模型处理大量图像信息的局限性。

研究结果显示,尽管体积小巧,Ferret-UI Lite 在多个基准测试中的表现,足以匹敌甚至超越参数规模高达其 24 倍的竞品模型。它尤其擅长处理短期、低层次的操作任务。虽然在涉及多个步骤的复杂交互上表现尚有不足,但作为一款完全运行在设备端的 AI 代理,它提供了显著优势:所有数据处理都在本地完成,无需上传至云端,极大地提升了用户隐私和数据安全性。

据悉,与之前主要使用 iPhone 截图进行测试的版本不同,Ferret-UI Lite 的训练和评估主要在 Android、网页及桌面 GUI 环境中进行。这或许反映了当前大规模 GUI 代理测试平台的可获取性现状,但也展示了该模型跨平台应用的潜力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai android 人工智能 iphone 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论