学术头条 3小时前
把电脑交给AI Agent!清华、智谱、国科大团队打造ComputerRL
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

你或许也有过这样的体验:坐在电脑前,不停地点击鼠标、切换窗口,把同样的动作机械地重复一遍又一遍。

如果有一天,这些枯燥的任务都能交给   AI Agent,只需一句 " 帮我搞定 ",它就能像你本人一样,在电脑桌面环境中高效、熟练地完成所有步骤——那会是多么令人期待的场景?

然而,这个看似简单的愿景背后,却隐藏着巨大的技术挑战。AI Agent   不仅要读懂你的意图,还必须像你一样,在复杂多变的电脑界面中灵活应对各种挑战。

为此,来自清华大学、智谱和中国科学院大学的研究团队提出了一个自主桌面智能框架—— ComputerRL,旨在让 AI Agent 真正具备理解并操作电脑的能力。

论文链接:https://arxiv.org/abs/2508.14040

这项技术的出现,或许将彻底改变人类与电脑的协作方式。未来的电脑桌面,不再只是被动的工具,而将进化为与你并肩协作的智能伙伴。

大语言模型(LLM)在很大程度上提升了 AI 的系统能力,推动了人们对机器智能的进一步理解。在众多应用场景中,基于 LLM 的 GUI Agent 正成为研究热点。

这些 Agent 能够自主感知、推理,并在用户设备上执行复杂任务。由于桌面依然是智能密集型任务的核心 " 场地 ",开发高效的 Computer Use Agent 对于根本转变人机交互方式,并将 AI 系统能力提升到新水平至关重要。

不过,要让它们在真实世界场景中长时间自主运行,仍然面临诸多挑战。首先,GUI 本身是为人类交互设计的,这使得 Agent 模拟人类行为的过程格外复杂。其次,目前主流的行为克隆(BC)方法,如人工标注和模型蒸馏,在可扩展性和有效性上都存在局限。最后,尽管强化学习(RL)在桌面自动化任务中显示出潜力,但受制于计算开销和方法复杂性,落地仍然艰难。

尽管采用多样化的 API 控制方式,能够为 Agent 提供更高效且更具适应性的操作途径。但这种方法也带来了 API 实现的复杂性,以及 Agent 适应性和灵活性方面的挑战。此外,出于安全考虑,许多应用程序还会限制命令行接口(CLI)的使用。

在这项工作中,研究团队提出了一种创新的 API-GUI 范式,将编程 API 调用与直接的 GUI 交互结合,从而解决机器 Agent 和以人为中心的桌面环境之间的固有不匹配问题。

图|ComputerRL 框架

同时,他们还开发了一个用于桌面应用 API 开发的自动化工作流。通过利用 LLM,这一框架能够自动完成需求分析、API 实现与基础测试用例生成,显著降低了为各种应用创建 API 的门槛,加快了开发与部署的速度。

在基础设施层面,他们搭建了一个稳定且高度可扩展的 Ubuntu 环境,用于构建行为克隆数据集并支撑大规模 RL 训练。他们进一步开发了强大且可大规模并行化的 OSWorld 基础设施,并在设计上进行了多项创新。

为了提升训练效率,他们还提出了   AgentRL   框架。与传统的同步范式不同,AgentRL 支持完全异步的训练流程,使 rollout 收集与参数更新能够并行进行,从而显著提升大规模 RL 训练的效率。

图|ComputerRL 训练

此外,他们还提出了   Entropulse   方法,这是一种新颖的训练方式。它通过 RL 和 SFT 阶段的战略性交替,系统地解决了扩展 RL 训练中的熵崩溃和 KL 散度积累问题,从而实现了持续的性能提升。基于该算法和框架,研究团队构建了 AutoGLM。

图|Entropulse 方法能够获得更高的平均训练奖励,并比传统方法更有效地提升学习效率和最终性能。

在 OSWorld 基准测试中,基于 GLM-4-9B-0414 的 AutoGLM-OS-9B 实现了 48.1% 的 SOTA 准确率,在多个领域中超越了现有的多个模型,展现了通用 Agent 在桌面自动化任务中的提升。

图|在 OSWorld 基准测试中,使用 ComputerRL 训练的 AutoGLM-OS 在性能上取得了 SOTA。

通过采用 API-GUI 策略,AutoGLM-OS 能够以最多三分之一的步骤完成任务,从而大幅提升执行效率。

这些结果共同展示了 ComputerRL 在推动自动化任务完成方面的巨大潜力,尤其是在异构应用环境中的突破性进展。

研究团队认为,这项工作只是人机交互根本性变革的基础。要释放自主 Agent 在桌面领域的全部潜力,必须从多个维度重新审视和构建长期以来的基本范式。

现实世界的数字环境不断变化,具有高度的异质性,涵盖了许多不熟悉的应用程序、新兴的工作流,以及现有数据集无法覆盖的稀有边界情况。因此,下一代 Agent 需要能够动态适应变化的 GUI、不可预测的弹出窗口和全新的界面。

为此,他们正在重新架构数据管道,以指数级扩展训练多样性,并打造基础设施,从大规模的真实世界用户交互中持续提取知识。

此外,集成先进的多模态感知将使 Agent 能够深入理解视觉和上下文信息,从而实现与人类类似的无缝适应。

他们还表示,将自主桌面助手设想为一个始终可用的认知协作伙伴,需要掌握持续的、长期的工作流程。他们的目标是赋予 Agent 层级规划能力,使其能够在任意长的任务序列中动态推理、学习并调整策略。

这一愿景的实现将带来范式转变:不仅实现离散操作的自动化,更是端到端自动化整个工作流和创作过程,从根本上重塑云原生时代的生产力格局。

此外,自主控制桌面平台可能引发关于安全性、可信度和用户自主权等问题。特别是,当 Agent 被赋予修改文件、访问敏感数据或执行无限制操作的权限时,容错空间将变得极为狭窄。

为了解决这些风险,他们提出了一种严格的安全行为和对齐方法。具体来说,他们的路线图包括构建细粒度的权限框架和多阶段审批协议。

最终,他们的目标是建立一套安全标准和操作规范,不仅为 Agent 提供基础设施,还将推动智能数字协作生态系统的未来发展。

整理:小羊

如需转载或投稿,请直接在公众号内留言

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 中国科学院大学 abs 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论