快科技 11 月 28 日消息,SuperCLUE 公布了 2025 年 11 月中文大模型基准测评结果。
本次测评围绕数学推理、科学推理、代码生成(含 web 开发)、幻觉控制、精确指令遵循五大核心任务展开,题目总量为 822 道新题,最终得分取各任务平均分。
本次共测评 27 个国内外大模型同台竞技,OpenAI 的 GPT 5.1 与国产模型 DeepSeek 分别斩获综合冠军与开源领域第一。

OpenAI 的 GPT-5.1 ( high ) 以 68.11 的总分登顶,成为本月综合表现最佳的大模型。
GPT-5.1 在数学推理(74.07)、代码生成(76.30)等项表现突出,幻觉控制得分 88.80,展现出强稳定性。
Anthropic 的 Claude-Opus-4.5-Reasoning 以 62.57 分紧随其后,其幻觉控制得分高达 90.33,在该项能力上领跑。
而在开源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking 以 53.69 分位列开源阵营第一。



登录后才可以发布评论哦
打开小程序可以发布评论哦