
这场考试里,北京大学的本科生打败了 AI!北大团队打造硬核化学评测题库 SUPERChem,174 名化学学霸与 GPT、Gemini、deeppseek 等顶尖 AI 同场竞技,500 道防作弊高难度化学试题,暴露 AI 科学推理短板。
SUPERChem 的诞生,填补了化学领域多模态深度推理评测的空白。
据悉,团队发布这项成果,并非为了证明 AI 的短板,而是为了推动它走得更远。目前,SUPERChem 项目已全面开源。团队希望这套源自北大的 " 试卷 ",能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI 能交出一份满分的答卷。


登录后才可以发布评论哦
打开小程序可以发布评论哦