驱动之家 8小时前
11月中文大模型基准测评出炉:GPT 5.1夺冠、DeepSeek开源第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

快科技 11 月 28 日消息,SuperCLUE 公布了 2025 年 11 月中文大模型基准测评结果。

本次测评围绕数学推理、科学推理、代码生成(含 web 开发)、幻觉控制、精确指令遵循五大核心任务展开,题目总量为 822 道新题,最终得分取各任务平均分。

本次共测评 27 个国内外大模型同台竞技,OpenAI 的 GPT 5.1 与国产模型 DeepSeek 分别斩获综合冠军与开源领域第一。

OpenAI 的 GPT-5.1 ( high ) 以 68.11 的总分登顶,成为本月综合表现最佳的大模型。

GPT-5.1 在数学推理(74.07)、代码生成(76.30)等项表现突出,幻觉控制得分 88.80,展现出强稳定性。

Anthropic 的 Claude-Opus-4.5-Reasoning 以 62.57 分紧随其后,其幻觉控制得分高达 90.33,在该项能力上领跑。

而在开源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking 以 53.69 分位列开源阵营第一。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论