钛媒体 23小时前
OpenAI发布ChatGPT Agent:AI"代理人"已至,人类准备好交出操作权了吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 大模型之家

北京时间 7 月 18 日凌晨,OpenAI 如约发布了其最新力作—— ChatGPT Agent。

根据 CEO Sam Altman 和四位 OpenAI 研究员介绍,ChatGPT Agent 是一个具备自主执行复杂任务能力的 AI Agent,它不再仅仅 " 对话 ",而是可以打开虚拟机,完成搜索、筛选、判断、执行等一整套流程,最终输出可交付的结果。

ChatGPT Agent 的定位非常 " 简单直接 ":一个拥有终端、图形浏览器、文本浏览器的多工具整合智能体系统。功能上,几乎等于一个受控的远程虚拟操作系统。

值得注意的是,ChatGPT Agent 可以说是 OpenAI 自今年以来推出产品的一次阶段性整合与释放:Operator 和 Deep Research,一个偏执行,一个偏思考,如今彻底融合。

AI 真正开始 " 动手 ":ChatGPT Agent 的能力边界

与如今大火的 " 智能体 " 赛道的产品类似,ChatGPT Agent 的最大变化,是让 AI 真正获得了对数字世界的 " 动手 " 能力。Agent 模式下,用户不再是通过提示词一步步引导 ChatGPT 生成答案,而是描述一个需求后,模型启动虚拟机,自主规划任务、调度工具、完成执行。

在演示中,OpenAI 展现了其三大基础能力组件:文本浏览器、可视化浏览器和终端。

文本浏览器的职责是爬梳大量信息,完成阅读和筛选。它适合处理长文内容、查找具体数据或者跟踪文献,是 Deep Research 的延续;可视化浏览器则具备界面识别与交互能力,比如可以点击网页按钮、识别图像、进行鼠标操作等;终端部分支持代码执行、API 调用和复杂文件生成——如 PPT、Excel、数据分析脚本等。

这些能力的协同,使 Agent 具备了完整的 " 感知 - 决策 - 执行 " 链路。比如在一次旅行安排任务中,它先用文本浏览器分析网页信息、提取天气与礼仪信息,再切换至可视化浏览器挑选合适礼服,最后生成整合报告。整个任务历时仅十分钟,远远快于人类的处理效率。

更复杂的场景中,Agent 还能够自动调用图像生成 API 设计贴纸,然后在网站上上传图像、填写参数、放入购物车,最后请用户确认是否付款。在另一个演示中,Agent 还连接了 Google Drive,提取文档并自动生成 PPT;或将日程数据汇总为带地图的电子表格行程表。

这些能力让 Agent 不仅适用于内容生成,更适用于事务型任务处理,意味着它从 " 信息辅助 " 跨越到 " 决策 + 执行 "。在办公场景中,Agent 可以完成会议安排、报告撰写、差旅预订等一系列中层管理事务。在生活场景中,它能规划婚礼、生成资料、预约专家等个性化需求。用一个略显理想主义但已逐步接近现实的说法:ChatGPT Agent,是人人都可以拥有的 " 高效执行助理 "。

基准测试成绩:Agent 能力更接近人类水平

与以往 OpenAI 擅长的语言能力不同,Agent 的测试指标更偏向执行能力和任务完成度。在这方面,ChatGPT Agent 通过了多个广受认可的专业评测,其结果呈现出一次系统性的跃迁。

在 " 人类的最后一场大考 "(Humanities Last Exam)中,ChatGPT Agent 获得了 41.6% 的成绩,几乎是不带工具模型的两倍。这项测试不仅包含复杂的推理与信息调度任务,还考察模型的工具调度能力。在使用终端、浏览器等资源的前提下,Agent 表现出对任务流程的高度掌控。

在 WebArena 这个网页交互能力评测中,Agent 的得分已经接近人类水平。而在 SpreadsheetBench,即电子表格操作能力的标准测评中,其分数达到 45.5%,较 GPT-4o 提升一倍。

尤其值得一提的是 DSBench 测试,它用于衡量数据分析与建模任务的能力。Agent 在这一测试中超过了所有此前的 SOTA(state-of-the-art)模型,明确表明其在面对现实数据分析任务中,不仅可用,而且强大。

这些数字背后,是 OpenAI 在工具调度、任务分解、推理执行上的系统性优化。可以说,ChatGPT Agent 已不再局限于 " 语言智能 ",而是进入 " 操作智能 " 的新阶段。

Operator 和 Deep Research 子产品的融合

在大模型之家看来,ChatGPT Agent 并不是从零起步的 " 创新 ":其核心其实是 Operator 和 Deep Research 两个子产品的融合。

Operator 是今年初推出的图形界面 Agent 工具,支持鼠标模拟点击、滚动等界面操作;Deep Research 则是一个偏内容分析和信息整合的工具,擅长处理复杂文字材料并输出结构化结果。两者原本分别服务不同需求,但用户使用行为暴露出两者之间的边界并不清晰。

许多 Operator 用户在提示词中描述的任务,其实更像是深度调研;而 Deep Research 的高阶用户,又频繁表达对图形交互的诉求。

这使 OpenAI 做出顺理成章的决策:合并两个工具,并在一个统一的模型训练框架下,用强化学习方法教会模型如何调度工具。具体方法是模型从 " 笨拙地 " 乱用工具开始,通过奖励高效行为逐渐掌握何时使用哪个工具、在哪一步执行操作。

这个过程类似于 AI 界所熟知的 Curriculum Learning(课程学习)策略,从简入繁,在逐步暴露复杂问题之前先引导其掌握基础逻辑。强化学习在这里的作用不仅仅是让模型 " 能用 " 工具,而是 " 用得巧 ",用得灵活。

这种组合式的工程化思维并不新鲜,但放在 OpenAI 此时此刻的体系中,它是一种极高效的资源整合,既降低开发风险,又释放实际能力,是对 "AI 工具生态 " 合理性的回应。

Agent 不是终点,而是通往应用未来的桥梁

ChatGPT Agent 的诞生,不只是对工具融合的一次技术实现,更是对 " 大模型如何走进现实 " 的阶段性回答。从 ChatGPT 的出现开始,逐渐理解语言模型的强大;从 GPT-4o 开始看见多模态推理的边界;而现在,Agent 将 " 思考 " 与 " 动手 " 统一,标志着 AI 真正有可能完成从 " 助手 " 向 " 代理人 " 角色的转变。

从开放的任务执行结构来看,Agent 模式更像是未来操作系统的一种雏形:具备动态调度资源、主动规划流程、与人类深度交互的能力。它并不重定义 AI 模型本身,而是重塑了人与 AI 协作的界面与方法。

OpenAI 将这套能力下放到 Plus、Team 乃至企业级服务中,也意味着 Agent 从不再是 " 高级用户 " 的特权,同时借助 Agent 热潮吸引更多用户,扩大自己在大模型赛道的话语权。

未来,ChatGPT Agent 是否能像操作系统那样拥有开放插件生态?Agent 是否能承接 SaaS 级别复杂度的任务?企业的专属工作流是否可以嵌入 Agent?这些问题都已开始具象化地浮出水面。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

deep 数据分析 阅读 界面 google
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论