36氪 20小时前
OpenAI宣布推出AI Agent评测基准PaperBench
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当地时间 4 月 2 日,美国开放人工智能研究中心(OpenAI)宣布推出 PaperBench ——一个评估 AI 智能体复现前沿 AI 研究能力的基准。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在 PaperBench 上测试多个前沿模型后发现,表现最佳的智能体 Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为 21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。(界面)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美国 机器学习 人工智能 ai 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论