ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

【CNMO 科技消息】7 月 18 日，Open AI 首席执行官 Sam Altman 和四位研究员在直播中正式发布了 ChatGPT Agent ——一款通用型 AI 智能体。CNMO 获悉，在 HLE 测试中，ChatGPT agent 拿下了 41.6% 高分，并在数学 FrontierMath 基准上刷新了 SOTA，碾压 o4-mini 和 o3 模型。

Sam Altman（最右）及他的团队

ChatGPT Agent 融合了 Operator、Deep Research 和 ChatGPT 三大模块优势，能够自主完成网页浏览、数据分析、PPT 制作等复杂任务。

ChatGPT Agent 在 HLE 测试中获得 41.6% 的高分，采用并行八路推理并选取置信度最高答案后可提升到 44.4%。在数学基准测试 FrontierMath 中，以 27.4% 的准确率刷新了纪录。

在 Excel 编辑能力的 SpreadsheetBench 测试中，ChatGPT agent 的表现同样远超现有模型。当获得直接编辑权限时，以 45.5% 的得分显著超越 Excel Copilot 的 20.0%。此外，它还在 BrowseComp、WebArena 等浏览评测里均刷新了 SOTA。

据悉，该产品已面向 Pro、Plus 和 Team 用户开放。Pro 用户可以马上使用，Plus 与 Team 用户将在数日内陆续开通，Enterprise 与 Education 版本将于数周后接入。

宙世代

一起剪

相关标签