当地时间 4 月 2 日,OpenAI 方面宣布推出并开源一个全新的、名为 PaperBench 的 AI 智能体(AI Agent)评测基准。据了解,PaperBench 是一个用以评估 AI 智能体复现前沿 AI 研究能力的评测基准,其要求 AI 智能体从零开始复现 20 篇覆盖 12 个主题的 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库并成功执行实验。
为确保 PaperBench 能够客观进行评估,OpenAI 方面与相关论文的原作者共同制定了详细的评分标准,并将每个复现任务分层分解为具有明确评分标准的较小子任务。总的来说,PaperBench 共包含 8316 个可单独评分的任务,而且为了实现可扩展的评估,OpenAI 还开发了一个基于大模型、能够根据评分标准自动对 AI 智能体复现尝试进行评分的评判员,并通过为评判员创建单独的基准来评估评判员的表现。
据 OpenAI 方面透露,其基于 PaperBench 对 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和 Gemini 2.0 Flash 等 6 款大模型进行了测试。其中,Claude 3.5 Sonnet(New)表现最出色、得分达到 21.0%, o1 表现次之、得分为 13.2%,其他模型的得分则均低于 10%。
同时 OpenAI 方面指出,其还招募了顶尖机器学习博士尝试部分 PaperBench 测试集,最终发现参与测试的相关大模型表现尚未超越人类基线。
据了解,这并非 OpenAI 方面推出的首个 AI 智能体评测基准,此前在 2024 年,OpenAI 便曾推出用以测试 AI 智能体机器学习代码工程能力的评测基准 MLE-Bnch。
值得一提的是,不久前 OpenAI CEO Sam Altman 曾宣布,计划在未来几个月内发布自 GPT-2 以来的首个 " 开源 " 语言模型。对此他表示," 接下来几个月里 OpenAI 将发布一个强大的、具有推理能力的新开源模型。我们已经考虑这个问题很久了,但之前一直有更重要的事情要做,现在,我觉得做这件事非常重要 "。
此外近期有消息源透露,目前 OpenAI 旗下生成式 AI 聊天机器人 ChatGPT 的付费用户数已超过 2000 万,相比 2024 年年底的 1550 万大幅增长。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦