智东西
编译 | 程茜
编辑 | 云鹏
智东西 8 月 14 日消息,本周二,一篇来自香港大学 XLANG Lab 、月之暗面等多家机构联合署名的论文在 arXiv 发表,提出了一个用于构建和扩展的 CUA(计算机使用 Agent)开源框架 OpenCUA,这一框架开源意味着用户可以高效、低门槛开发自主操作电脑的 Agent。
香港大学计算机科学助理教授 Tao Yu(余涛)为项目负责人,月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与,月之暗面创始人、CEO 杨植麟在作者名单之列。
研究人员开源 OpenCUA 的原因是,目前 CUA 系统的关键细节仍然处于闭源状态,为了扩展其辅助用户执行相应决策的应用能力,研究人员需要访问开源 CUA 框架来研究其能力、局限性和风险。
在此基础上,研究人员提出了这一用于扩展 CUA 数据和基础模型的综合开源框架。
该框架包括:无缝捕获人类计算机使用演示的注释基础设施;第一个跨越 3 个操作系统以及超 200 个应用程序和网站的大规模计算机使用任务数据集 AgentNet;一个可扩展的、能将演示转换为具有反思性长思维链推理 " 状态 - 动作 " 对的工作流程。
该模型是基于 Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 进行监督微调(SFT),获得了 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-2.5-32B。
其中旗舰模型 OpenCUA-32B 在 CUA 基准测试 OSWorld-Verified 上的平均成功率达到 34.8%,达到开源模型新的 SOTA,甚至超越了 OpenAI CUA(GPT-4o)。
论文地址:
https://arxiv.org/pdf/2508.09123
OpenCUA 主页(工具、模型、数据集):https://opencua.xlang.ai
一、查天气、做 PPT 任务轨迹清晰明了,表现超 OpenAI、Kimi、Qwen 多个模型
研究人员在项目主页展示了 OpenCUA 使用计算机执行的任务轨迹。
在 VScode 中安装扩展的任务轨迹:
查询英国曼彻斯特天气预报的任务轨迹:
制作 PPT 的任务轨迹:
在基础测试验证上,CUA 基准测试 OSWorld-Verify 中,OpenCUA-32B 的表现优于 Qwen、Kimi、OpenAI、Claude 等开源及闭源模型,在部分任务表现上,获得的分数低于 Claude 3.7 Sonnet、Claude 4 Sonnet。
在离线部署方面,研究人员构建了计算机离线使用的 Agent 评估基准 AgentNetBench,由从 AgentNet 数据集中选出的 100 个代表性任务组成,涵盖 Windows 和 macOS 平台以及不同的领域。
其中每项任务都经过研究人员手动审查,以细化目标并删除多余作,且由于计算机使用任务中有效作固有的多样性,研究人员在每个步骤中都手动提供了多个有效操作选项。
OpenCUA-7B、OpenCUA-32B 的平均分数均优于 OpenAI、Qwen 等模型。
GUI 定位能力也就是模型面对图形化界面(GUI),去识别按钮、菜单、输入框等视觉元素的能力。其中研究人员采用了 OSWorld-G、Screenspot-V2、Screenspot-Pro 三个基准,OpenCUA-2.5-72B 的每个测试表现都远超其他模型。
二、简化数据收集流程,发布 22.5K 计算机使用任务数据集
对于该框架的具体实现方面,包含了如何收集高质量计算机使用 Agent 数据、形成数据集、高效扩展等。
首先,高效、准确的注释对于收集高质量的计算机使用 Agent 数据至关重要,但现有的工具不支持非技术用户自然、跨平台的任务记录,因此研究人员开发了用户友好的注释工具 AgentNet Tool,该工具可以简化计算机使用演示的收集和验证,在注释者的个人计算机上运行并在后台记录演示。
AgentNet Tool 可捕获跨 Windows、macOS 和 Ubuntu 三大操作系统的用户交互,能记录屏幕视频、鼠标、键盘事件和元数据,从而扩展收集真实世界的计算机使用演示。
其次,AgentNet Method 可以将原始的用户演示处理成干净的、可学习的状态 - 动作轨迹,由此产生的轨迹包括内心独白式的思想和行动历史,使其适合视觉语言模型训练。
这些处理后的数据被整理到 AgentNet 数据集和 AgentNetBench 中。该数据集涵盖了 100 多个应用程序和 200 多个网站的各种开放领域任务。该基准测试提供任务指令、步骤历史记录和每个步骤的多个黄金标准作,以实现高效离线评估。
该数据集包含 22.5K 人工标注的计算机使用任务,包括 Windows 的 12K、macOS 的 5K 和 Ubuntu 系统的 5K。这些任务涵盖 140 多个应用程序和 190 个网站,通常涉及多应用程序工作流程、专业工具和不常见的功能。
其研究论文提到,与以往的 GUI 数据集相比,AgentNet 是第一个真实、复杂、多样、多模态的桌面轨迹级数据集。
OpenCUA 的基本框架
最后,OpenCUA 能使用反思性思维链推理、多图像历史和混合域数据在数据集上进行训练,它们可以在跨作系统的真实桌面环境中执行,以执行计算机使用任务。
值得一提的是,高 Pass@N 性能也表明 OpenCUA-7B 具有强大的测试时间扩展潜力。Pass@N 是评估生成式模型在代码生成、程序合成、推理任务中性能的重要指标,用于衡量模型在多次尝试内生成正确结果的概率。
OpenCUA 的 Pass@N 性能
结语:OpenCUA 为计算机使用 Agent 规模化铺路
计算机使用 Agent 是一种能够通过与计算机图形用户界面(GUI)交互来自动执行数字任务的智能体,但由于数据稀缺、人工采集成高、难以私有化部署等痛点,使得其走向规模化应用落地有诸多瓶颈。
此次,OpenCUA 在开源模型基础上进行监督微调获得模型变体,降低了计算机使用 Agent 的数据获取成本,并形成了跨三个操作系统、上百个应用和网页的数据集,对于其进一步调用多种工具、理解用户需求、高效任务执行等方面将提供助力。
智东西
编译 | 程茜
编辑 | 云鹏
智东西 8 月 14 日消息,本周二,一篇来自香港大学 XLANG Lab 、月之暗面等多家机构联合署名的论文在 arXiv 发表,提出了一个用于构建和扩展的 CUA(计算机使用 Agent)开源框架 OpenCUA,这一框架开源意味着用户可以高效、低门槛开发自主操作电脑的 Agent。
香港大学计算机科学助理教授 Tao Yu(余涛)为项目负责人,月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与,月之暗面创始人、CEO 杨植麟在作者名单之列。
研究人员开源 OpenCUA 的原因是,目前 CUA 系统的关键细节仍然处于闭源状态,为了扩展其辅助用户执行相应决策的应用能力,研究人员需要访问开源 CUA 框架来研究其能力、局限性和风险。
在此基础上,研究人员提出了这一用于扩展 CUA 数据和基础模型的综合开源框架。
该框架包括:无缝捕获人类计算机使用演示的注释基础设施;第一个跨越 3 个操作系统以及超 200 个应用程序和网站的大规模计算机使用任务数据集 AgentNet;一个可扩展的、能将演示转换为具有反思性长思维链推理 " 状态 - 动作 " 对的工作流程。
该模型是基于 Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 进行监督微调(SFT),获得了 OpenCUA 模型变体:OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B 和 OpenCUA-2.5-32B。
其中旗舰模型 OpenCUA-32B 在 CUA 基准测试 OSWorld-Verified 上的平均成功率达到 34.8%,达到开源模型新的 SOTA,甚至超越了 OpenAI CUA(GPT-4o)。
论文地址:
https://arxiv.org/pdf/2508.09123
OpenCUA 主页(工具、模型、数据集):https://opencua.xlang.ai
一、查天气、做 PPT 任务轨迹清晰明了,表现超 OpenAI、Kimi、Qwen 多个模型
研究人员在项目主页展示了 OpenCUA 使用计算机执行的任务轨迹。
在 VScode 中安装扩展的任务轨迹:
查询英国曼彻斯特天气预报的任务轨迹:
制作 PPT 的任务轨迹:
在基础测试验证上,CUA 基准测试 OSWorld-Verify 中,OpenCUA-32B 的表现优于 Qwen、Kimi、OpenAI、Claude 等开源及闭源模型,在部分任务表现上,获得的分数低于 Claude 3.7 Sonnet、Claude 4 Sonnet。
在离线部署方面,研究人员构建了计算机离线使用的 Agent 评估基准 AgentNetBench,由从 AgentNet 数据集中选出的 100 个代表性任务组成,涵盖 Windows 和 macOS 平台以及不同的领域。
其中每项任务都经过研究人员手动审查,以细化目标并删除多余作,且由于计算机使用任务中有效作固有的多样性,研究人员在每个步骤中都手动提供了多个有效操作选项。
OpenCUA-7B、OpenCUA-32B 的平均分数均优于 OpenAI、Qwen 等模型。
GUI 定位能力也就是模型面对图形化界面(GUI),去识别按钮、菜单、输入框等视觉元素的能力。其中研究人员采用了 OSWorld-G、Screenspot-V2、Screenspot-Pro 三个基准,OpenCUA-2.5-72B 的每个测试表现都远超其他模型。
二、简化数据收集流程,发布 22.5K 计算机使用任务数据集
对于该框架的具体实现方面,包含了如何收集高质量计算机使用 Agent 数据、形成数据集、高效扩展等。
首先,高效、准确的注释对于收集高质量的计算机使用 Agent 数据至关重要,但现有的工具不支持非技术用户自然、跨平台的任务记录,因此研究人员开发了用户友好的注释工具 AgentNet Tool,该工具可以简化计算机使用演示的收集和验证,在注释者的个人计算机上运行并在后台记录演示。
AgentNet Tool 可捕获跨 Windows、macOS 和 Ubuntu 三大操作系统的用户交互,能记录屏幕视频、鼠标、键盘事件和元数据,从而扩展收集真实世界的计算机使用演示。
其次,AgentNet Method 可以将原始的用户演示处理成干净的、可学习的状态 - 动作轨迹,由此产生的轨迹包括内心独白式的思想和行动历史,使其适合视觉语言模型训练。
这些处理后的数据被整理到 AgentNet 数据集和 AgentNetBench 中。该数据集涵盖了 100 多个应用程序和 200 多个网站的各种开放领域任务。该基准测试提供任务指令、步骤历史记录和每个步骤的多个黄金标准作,以实现高效离线评估。
该数据集包含 22.5K 人工标注的计算机使用任务,包括 Windows 的 12K、macOS 的 5K 和 Ubuntu 系统的 5K。这些任务涵盖 140 多个应用程序和 190 个网站,通常涉及多应用程序工作流程、专业工具和不常见的功能。
其研究论文提到,与以往的 GUI 数据集相比,AgentNet 是第一个真实、复杂、多样、多模态的桌面轨迹级数据集。
OpenCUA 的基本框架
最后,OpenCUA 能使用反思性思维链推理、多图像历史和混合域数据在数据集上进行训练,它们可以在跨作系统的真实桌面环境中执行,以执行计算机使用任务。
值得一提的是,高 Pass@N 性能也表明 OpenCUA-7B 具有强大的测试时间扩展潜力。Pass@N 是评估生成式模型在代码生成、程序合成、推理任务中性能的重要指标,用于衡量模型在多次尝试内生成正确结果的概率。
OpenCUA 的 Pass@N 性能
结语:OpenCUA 为计算机使用 Agent 规模化铺路
计算机使用 Agent 是一种能够通过与计算机图形用户界面(GUI)交互来自动执行数字任务的智能体,但由于数据稀缺、人工采集成高、难以私有化部署等痛点,使得其走向规模化应用落地有诸多瓶颈。
此次,OpenCUA 在开源模型基础上进行监督微调获得模型变体,降低了计算机使用 Agent 的数据获取成本,并形成了跨三个操作系统、上百个应用和网页的数据集,对于其进一步调用多种工具、理解用户需求、高效任务执行等方面将提供助力。
登录后才可以发布评论哦
打开小程序可以发布评论哦