驱动之家 06-12
复旦大学高考数学大模型评测:阿里千问、讯飞星火力压GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 6 月 12 日消息,近日,复旦大学 NLP(自然语言处理)实验室 LLMEVAL 团队发布了 2024 年高考数学大模型评测的结果。

在这次评测中,阿里千问和讯飞星火分别获得了 2024 高考数学新 I 卷的第一名和第二名,以及高考数学新 II 卷的第二名和第一名,两份考卷的评测中,GPT-4o 均列第三名。

复旦 NLP 团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新Ⅰ卷中,阿里千问和讯飞星火对 14 道数学客观题的准确率达到 70% 以上,大幅领先 GPT-4o 的 57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过 50%,百度文心一言、腾讯元宝、Kimi 等大模型准确率较低。

而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o 准确率均超过 60%,其他大模型的差距较小,除百川、DeepSeek 和海螺之外,准确率均在 50% 以上。

数学能力是 GPT-4o 一直以来引以为傲的能力模块,OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时,曾重点演示其数学能力。

在现场演示中,GPT-4o 利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过 GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

阿里 复旦大学 数学 讯飞星火 高考
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论