字节多模态Agent又进化！多项性能超OpenAI，玩游戏赶上人类水平

一键完成新闻搜索与网页部署，还能帮老师备课。

编译 | 程茜

编辑 | 云鹏

智东西 9 月 8 日消息，9 月 4 日，字节 Seed 发布了原生 GUI 智能体 UI-TARS-2，其可以自主操作电脑、手机完成搜索、创建网页、搜集新闻、创建查询工具、玩小游戏等诸多任务，相关论文在 9 月 2 日发表于 arXiv 预印本平台。

在 GUI 基准测试中，UI-TARS-2

字节跳动放出的 Demo 中，UI-TARS-2 一口子完成了搜索字节跳动 Seed 1.6 新闻并部署网页的任务。这一提示词是 " 搜索关于字节跳动 Seed1.6 模型的新闻，然后以现代风格编写一个网页并部署 "。

UI-TARS-2 会先分解这一需求，包括搜索模型相关新闻、编写现代风格网页、部署网页三个任务。首先其通过 LinkReader 搜索了新闻，了解模型的核心特征，然后为网页创建项目目录、选择合适的设计方法、规划网页结构，创建成功后还会自主检查各项功能是否可以运行。

在技术报告中，研究人员提到针对 GUI 智能体在数据可扩展性、多轮强化学习（RL）、仅 GUI 操作的局限性以及环境稳定性方面的挑战，其提出了系统化训练方法：包含用于可扩展数据生成的数据飞轮、稳定的多轮 RL 框架、集成文件系统和终端的混合 GUI 环境、用于大规模部署的统一沙盒平台。

论文地址：

https://arxiv.org/abs/2509.02544

Demo 地址：

https://seed-tars.com/showcase/ui-tars-2/

01.

拆解需求、使用搜索

创建网页，都能一气呵成

字节放出的几个 Demo 中，包含了 UI-TARS-2 创建重量单位转换查询工具、创建字符计数工具、为音乐老师创建演示网页、比较数字大小等任务。

首先是实现重量单位转换查询。

提示词：编写一个能够将重量从一种单位转换为另一种单位的函数。若原始单位是千克、目标单位是克，且待转换的数值为玛蒂尔德 · 塞尼耶（Mathilde Seigner）获得凯撒奖（César Award）提名的次数加 1，那么最终结果会是多少？

同样，UI-TARS-2 会先分解需求，找到玛蒂尔德 · 塞尼耶获得凯撒奖提名的次数，其通过多渠道验证确认有 3 次，然后开始创建包含用于转换重量单位函数的 Python 文件。

其次是 Hugging Face 数据集字符计数。

提示词：请在 Hugging Face 上搜索热门数据集，下载排名第一的数据集，并计算整个数据集中的字符总数。

拆解完任务后，UI-TARS-2 会打开谷歌浏览器，然后搜索查找热门数据集。

第三个提示词是 " 我是一名高中音乐理论教师，正在准备一门关于基础音乐理论的课程，用于解释音乐名称、音阶名称、大调音阶、八度分布和物理频率等知识。请帮助我收集足够的信息，设计出充实且权威的课程内容，并配上演示动画，最后将它们输出为网页 "。

UI-TARS-2 会使用搜索工具查找这些需要解释的知识，然后为网页规划目录、创建。

第四个是使用 Jupyter 比较数字。

提示词：使用 Jupyter 计算 9.11 和 9.9 哪个更大？

拆解任务后，UI-TARS-2 会创建用于比较两个数字的 Python 脚本，然后使用 Jupyter 来运行它，最后给出了 9.9 比 9.11 大的正确答案。

02.

玩游戏水平达到人类 60%

多项测试超 OpenAI、Claude

实证评估表明，UI-TARS-2 相较于其上一代智能体 UI-TARS-1.5，在基于 GUI 的交互和游戏环境中均表现出色。

在 GUI 基准测试中，该模型在真实网站上进行通用 Web 智能体的在线推理与评估测试集 Online-Mind2Web 上达到 88.2 分，在真实计算机环境中对多模态智能体进行开放式任务评测的可扩展基准平台 OSWorld 上达到 47.5 分，在面向 Windows 的可复现、可扩展的多模态计算机智能体基准平台 WindowsAgentArena 上达到 50.6 分，在面向移动设备的可扩展、可复现的自主智能体评测基准 AndroidWorld 上达到 73.3 分，并在多项测试中超越了 Claude 和 OpenAI Agent 等。

在游戏环境中，UI-TARS-2 在 15 款游戏套件中的平均归一化得分为 59.8 分，约相当于人类水平的 60%，分别比 OpenAI CUA 和 Claude Computer Use 等智能体高出 2.4 倍和 2.8 倍。

在开源游戏基准 LMGame-Bench 上，UI-TARS-2 展现了其在长时程游戏推理方面的鲁棒性。

此外，研究人员通过 GUI-SDK 扩展了智能体功能，使其能够与终端和外部工具等系统级资源集成。

通过这一扩展，UI-TARS-2 在长时程信息搜索基准测试中表现出色，并在软件工程任务 Terminal Bench 上达到 45.3 分。

这些结果表明，研究人员为 GUI Agent 开发的训练方法，包括多轮强化学习优化和可扩展的 Rollout 基础设施，能够有效地迁移到其他交互领域，从而扩展 Agent 的适用性。

03.

针对 GUI 智能体痛点

提出四大支柱系统方法论

GUI 智能体的传统方法通常采用模块化管道，分别设计感知、规划、记忆和行动等组件，但其严重依赖专家启发式方法和任务特定规则，导致系统脆弱且难以扩展。

在此基础上，字节 Seed 团队提出了一种基于四大支柱的系统方法论：

首先，为缓解数据稀缺问题，研究人员设计了一个可扩展的数据飞轮，通过持续预训练、监督微调、拒绝采样和多轮强化学习协同进化模型及其训练语料库。该框架提供持续流入的多样化、高质量轨迹，并确保模型和数据在自我强化的循环中迭代改进。

其次，为克服可扩展多轮强化学习的困难，研究人员设计了一个训练框架，在长时程环境下稳定优化，这包括具有状态环境的状态异步展开以保留上下文、流式更新以避免长尾轨迹造成的瓶颈，以及增强型近端策略优化，结合奖励塑形、自适应优势估计和值预训练。

第三，为了超越纯 GUI 交互的限制，研究人员构建了一个以 GUI 为中心的混合环境，通过增加屏幕操作与文件系统、终端和其他外部工具等互补资源的访问，使智能体能够解决更广泛的实际工作流程。

第四，为了支持大规模训练和评估，研究人员建立了一个统一的沙盒平台，从用于 GUI 交互的云虚拟机到基于浏览器的游戏沙盒能够协调异构环境，使其在一致的 API 下运行。该平台经过设计以确保可重复性、稳定性和高吞吐量，使其能够可靠地运行数百万次交互式部署。

04.

结语：UI-TARS-2 实现多场景均衡性能

UI-TARS-2 通过结合多轮强化学习、监督微调、拒绝采样和持续预训练的迭代流程进行训练，从而实现在异构领域持续改进。研究人员在论文中提到，他们的实验表明，虽然领域特定的变体可以在单个基准测试中取得峰值分数，但 UI-TARS-2 在单一统一系统中实现了跨 GUI、浏览器、移动和游戏任务的平衡且具有竞争力的性能。

除了基准测试结果外，他们还针对训练动态和交互扩展进行了分析，为多轮智能体强化学习提供思路，证明模型在多样化环境中进行训练能够促进参数共享和能力迁移，从而产生融合图形交互与更复杂推理和决策能力的混合技能。他们认为，UI-TARS-2 代表了对更强大、可靠和多功能计算机使用 Agent 的迈进。

宙世代

一起剪

相关标签