ZAKER 科技 6 月 25 日消息,昨日(6 月 24 日)极客公园发布了高考新课标Ⅰ卷大模型评测报告,其中 GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分;文心 4.0 排行第二,总分为 537.5 分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为 521 分,自第四名的百小应大模型起,前四的大模型全部能上河南一本线。
相比之下,理科考试中大模型的成绩不尽人意,和顶尖学生的差距极大。哪怕是 GPT-4o 也无法及格。数学试卷的测试,大模型普遍无法写出答题步骤,只能直接给出答案成为主要扣分点;物理和化学试卷大模型的成绩基本都在 40 分徘徊,根据评测报告,有些送分题大模型也会全军覆没。
登录后才可以发布评论哦
打开小程序可以发布评论哦