手机中国 07-18
ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【CNMO 科技消息】7 月 18 日,Open AI 首席执行官 Sam Altman 和四位研究员在直播中正式发布了 ChatGPT Agent ——一款通用型 AI 智能体。CNMO 获悉,在 HLE 测试中,ChatGPT agent 拿下了 41.6% 高分,并在数学 FrontierMath 基准上刷新了 SOTA,碾压 o4-mini 和 o3 模型。

Sam Altman(最右)及他的团队

ChatGPT Agent 融合了 Operator、Deep Research 和 ChatGPT 三大模块优势,能够自主完成网页浏览、数据分析、PPT 制作等复杂任务。

ChatGPT Agent 在 HLE 测试中获得 41.6% 的高分,采用并行八路推理并选取置信度最高答案后可提升到 44.4%。在数学基准测试 FrontierMath 中,以 27.4% 的准确率刷新了纪录。

在 Excel 编辑能力的 SpreadsheetBench 测试中,ChatGPT agent 的表现同样远超现有模型。当获得直接编辑权限时,以 45.5% 的得分显著超越 Excel Copilot 的 20.0%。此外,它还在 BrowseComp、WebArena 等浏览评测里均刷新了 SOTA。

据悉,该产品已面向 Pro、Plus 和 Team 用户开放。Pro 用户可以马上使用,Plus 与 Team 用户将在数日内陆续开通,Enterprise 与 Education 版本将于数周后接入。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数学 deep 首席执行官 数据分析
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论