财联社 4 月 21 日讯(编辑 刘蕊)北京时间 4 月 17 日凌晨,OpenAI 的多模态推理大模型 o3 与 o4-mini 重磅上线,这一大模型号称是 OpenAI 迄今最强、最智能的模型。
然而,研究机构很快发现,o3 人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。
OpenAI 测试作弊了?
去年 12 月,OpenAI 在预发布 o3 时,就强调了该模型在解决困难问题上的能力大幅提升。当时 OpenAI 声称,该模型可以回答 FrontierMath(一组具有挑战性的数学问题)中超过 25% 的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约 2% 的 FrontierMath 问题。
OpenAI 首席研究官 Mark Chen 当时在直播中表示:
" 今天,所有大模型产品(能解决的 FrontierMath 问题的数量)的比例都不到 2% …我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过 25% 的解题率。"
但第三方测试证明,这个 25% 的数字很可能并不准确。
美东时间上周五(4 月 18 日),开发 "FrontierMath" 的研究机构 "Epoch AI" 公布了 "o3" 的独立基准测试结果。Epoch 发现,o3 的得分约为 10%,远低于 OpenAI 声称的最高得分 25%。
当然,这并不意味着 OpenAI 一定在撒谎。该公司去年 12 月发布的基准测试结果显示,其得分的下限与 Epoch AI 观察到的得分相当。Epoch AI 还指出,他们的测试设置可能与 OpenAI 不同,即他们使用了 FrontierMath 的更新版本进行评估。
Epoch AI 写道:" 我们的结果与 OpenAI 之间的差异可能是由于 OpenAI 使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在 FrontierMath 的不同子集上(FrontierMath -2024-11-26 中的 180 个问题 vs FrontierMath -2025-02-28-private 中的 290 个问题)。"
根据 ARC Prize Foundation(一个测试过 o3 预发布版本的组织)在 X 上的一篇文章,公开发布的 o3 模型和预发布版本 " 是一个不同的模型……针对聊天 / 产品使用进行了调优 ",这证实了 Epoch AI 的报告。
" 所有正式发布的 o3 计算层都比我们(之前基准测试)的版本小,"ARC Prize 写道,一般来说,计算层越大,获得的基准测试分数也会越高。
基准测试争议已成广泛问题
随着 AI 模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试 " 争议 " 正在成为一种常见现象,
比如最近,埃隆 · 马斯克的 xAI 被指控,其最新人工智能模型 Grok 3 的基准测试图表具有误导性。
本月早些时候,Meta 的新一代开源大模型 Llama 4 也遭遇了作弊质疑,而 Meta 公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。
登录后才可以发布评论哦
打开小程序可以发布评论哦