三易生活 04-03
日前OpenAI推出并开源全新AI Agent评测基准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当地时间 4 月 2 日,OpenAI 方面宣布推出并开源一个全新的、名为 PaperBench 的 AI 智能体(AI Agent)评测基准。据了解,PaperBench 是一个用以评估 AI 智能体复现前沿 AI 研究能力的评测基准,其要求 AI 智能体从零开始复现 20 篇覆盖 12 个主题的 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库并成功执行实验。

为确保 PaperBench 能够客观进行评估,OpenAI 方面与相关论文的原作者共同制定了详细的评分标准,并将每个复现任务分层分解为具有明确评分标准的较小子任务。总的来说,PaperBench 共包含 8316 个可单独评分的任务,而且为了实现可扩展的评估,OpenAI 还开发了一个基于大模型、能够根据评分标准自动对 AI 智能体复现尝试进行评分的评判员,并通过为评判员创建单独的基准来评估评判员的表现。

据 OpenAI 方面透露,其基于 PaperBench 对 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和 Gemini 2.0 Flash 等 6 款大模型进行了测试。其中,Claude 3.5 Sonnet(New)表现最出色、得分达到 21.0%, o1 表现次之、得分为 13.2%,其他模型的得分则均低于 10%。

同时 OpenAI 方面指出,其还招募了顶尖机器学习博士尝试部分 PaperBench 测试集,最终发现参与测试的相关大模型表现尚未超越人类基线。

据了解,这并非 OpenAI 方面推出的首个 AI 智能体评测基准,此前在 2024 年,OpenAI 便曾推出用以测试 AI 智能体机器学习代码工程能力的评测基准 MLE-Bnch。

值得一提的是,不久前 OpenAI CEO Sam Altman 曾宣布,计划在未来几个月内发布自 GPT-2 以来的首个 " 开源 " 语言模型。对此他表示," 接下来几个月里 OpenAI 将发布一个强大的、具有推理能力的新开源模型。我们已经考虑这个问题很久了,但之前一直有更重要的事情要做,现在,我觉得做这件事非常重要 "。

此外近期有消息源透露,目前 OpenAI 旗下生成式 AI 聊天机器人 ChatGPT 的付费用户数已超过 2000 万,相比 2024 年年底的 1550 万大幅增长。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

flash 开源 机器学习 聊天机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论