IT 之家 9 月 27 日消息,科技媒体 ZDNet 昨日(9 月 26 日)发布博文,报道称 OpenAI 推出名为 GDPval 的全新 AI 评估基准,旨在衡量前沿模型在真实经济价值任务中的表现,以弥补学术测试与实际应用间的差距。
尽管当前大量 AI 工具涌入市场并承诺提升生产力,但其在企业中的实际应用效果却参差不齐。为解决 AI 模型在学术基准测试与真实世界表现之间的脱节问题,OpenAI 于周四发布了一套名为 GDPval 的全新评估体系,其核心目标是 " 衡量 AI 在具有经济价值的真实世界任务中的表现 ",从而为行业提供一个更贴近实践的评判标准。
GDPval 的设计深度模拟了真实工作场景。它覆盖了对美国 GDP 贡献最高的九大行业中的 44 个职业,共计 1320 项具体任务。这些任务由平均拥有 14 年相关领域经验的专业人士创建,确保了其真实性和复杂性。
IT 之家援引博文介绍,与传统依赖文本提示的评测不同,GDPval 要求 AI 模型处理文件、生成幻灯片和格式化文档等多模态交付物,以此更真实地检验模型在实际工作环境中的综合能力。
在首轮测试中,OpenAI 邀请行业专家对多个前沿模型的输出进行盲评,其中包括自家的 GPT-5、GPT-4o,以及 Anthropic 的 Claude Opus 4.1、谷歌的 Gemini 2.5 Pro 等。
评测结果出人意料:Claude Opus 4.1 凭借在文档格式、幻灯片布局等 " 美学 " 方面的出色表现,成为综合性能最佳的模型;而备受关注的 GPT-5 则在特定领域知识的 " 准确性 " 方面拔得头筹。
该研究还揭示了 AI 模型性能的飞速进步与巨大的成本优势。数据显示,从 2024 年春季发布的 GPT-4o 到预计 2025 年夏季发布的 GPT-5,模型性能提升超过一倍。
更引人注目的是,研究发现前沿模型完成 GDPval 任务的速度比行业专家快约 100 倍,成本也仅为后者的百分之一。
不过,OpenAI 强调,这些数据仅反映了纯粹的模型推理成本,并未包含现实工作中必要的人工监督、迭代和集成步骤。
OpenAI 也坦诚 GDPval 目前存在局限性。作为一个初期版本,该基准主要进行一次性任务评估,尚无法衡量模型处理需要多轮修改的复杂项目或应对充满模糊性的现实工作的能力。
例如,它无法评估模型根据客户反馈修改方案或处理数据异常等动态、交互式的任务。OpenAI 表示,未来的迭代将覆盖更多行业和更难自动化的任务,并会发布部分数据集供研究人员使用。
登录后才可以发布评论哦
打开小程序可以发布评论哦