【CNMO 科技消息】7 月 18 日,Open AI 首席执行官 Sam Altman 和四位研究员在直播中正式发布了 ChatGPT Agent ——一款通用型 AI 智能体。CNMO 获悉,在 HLE 测试中,ChatGPT agent 拿下了 41.6% 高分,并在数学 FrontierMath 基准上刷新了 SOTA,碾压 o4-mini 和 o3 模型。
Sam Altman(最右)及他的团队
ChatGPT Agent 融合了 Operator、Deep Research 和 ChatGPT 三大模块优势,能够自主完成网页浏览、数据分析、PPT 制作等复杂任务。
ChatGPT Agent 在 HLE 测试中获得 41.6% 的高分,采用并行八路推理并选取置信度最高答案后可提升到 44.4%。在数学基准测试 FrontierMath 中,以 27.4% 的准确率刷新了纪录。
在 Excel 编辑能力的 SpreadsheetBench 测试中,ChatGPT agent 的表现同样远超现有模型。当获得直接编辑权限时,以 45.5% 的得分显著超越 Excel Copilot 的 20.0%。此外,它还在 BrowseComp、WebArena 等浏览评测里均刷新了 SOTA。
据悉,该产品已面向 Pro、Plus 和 Team 用户开放。Pro 用户可以马上使用,Plus 与 Team 用户将在数日内陆续开通,Enterprise 与 Education 版本将于数周后接入。
登录后才可以发布评论哦
打开小程序可以发布评论哦