手机中国 06-25
AI大模型参加高考 GPT-4o文科成绩最好 理科普遍不行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

【CNMO 科技消息】近几天,各省 2024 高考成绩陆续公布,不少高分学霸也开始登上热搜受到网友们膜拜。而有媒体近日举办了一项 " 另类高考 ",让近两年大火的 AI 大模型来模拟考生作答高考试题,看它们的表现究竟如何。

从该媒体公布的最新发布高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分。根据介绍,本次大模型高考评测与河南省考卷完全相同,而河南高考录取分数线显示,文科本科一批录取分数线为 521 分,豆包等三款国产 AI 成功冲上一本线。根据最新河南高考分数段统计数据,GPT-4o 的 562 分在文科考生中排名 8811 名,相当于人类考生的前 2.45%,豆包则处于前 4.27% 的位置。

语文作为文科的重要组成部分,是大模型与人类考生展开激烈竞争的舞台。国产大模型凭借对中文语言的独特理解和处理能力,表现可圈可点。百小应、字节豆包和腾讯元宝占据了前三的位置。英语考试中,大模型在阅读和语言运用等客观题上展现出了较高的水平,GPT-4o、百小应、通义千问等甚至获得了 80 分的满分,豆包和文心 4.0 也接近满分。但在 40 分的写作考试中,最高分仅为 29 分,由 GPT-4o 和百小应获得。

不过在理科方面,大模型的水平相比人类顶尖考生的差距就有点过大了。大模型的理科最高分还不到 480 分,多数大模型的理科总分在 400 分以下。在数学考试中,9 款大模型产品中仅有 GPT-4o、文心一言 4.0 和豆包获得 60 分以上的成绩(满分 150 分)。在化学和物理考试中,情况更为严峻,平均分数分别只有 34 分和 39 分。化学单项最高分 49.5 分由豆包获得,而 GPT-4o 仅有 42 分。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

理科 ai 考生 高考 考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论