量子位 09-24
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从 GPT-4o 到 Nano Banana、Seedream 4.0,今年的大模型想要出圈," 画得好 " 俨然成了必杀技。

不过,在比拼真实感、艺术性方面,生图模型是神仙打架,在 " 做题 " 上,现如今的模型们又到底能力几何?

比如,当指令变成画出 1- 甲基环己烯酸催化水合的反应机理根据给定的边集画出图的最小生成树,模型能否像相关专业的人类考生一样,真正把知识理解、推理和作图结合在一起?

针对这个问题,上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布了首个多学科文生图考试基准 GenExam

这一基准参考人类考试中的作图题,覆盖 10 个学科、1000 个严选好题,用 " 考试思维 " 重新定义文生图模型的能力边界。

实验结果却让人大跌眼镜:即便是 GPT-4o 这样的顶级模型,严格评分下正确率也仅 12.1%,开源模型更是全部接近 0 分

这是怎么一回事?

GenExam:不止是 " 画图 ",更是 " 面向 AGI 的综合测试 "

考试是衡量人类达到专家级智能的重要标准,这在理解任务的 MMMU 等基准上已经很有体现。GenExam 则将文生图也视为 " 人类学科考试 ",和传统文生图基准明显不同。它涵盖数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程 10 个一级学科,每个学科都聚焦 " 绘图类考题 ",题目经过 GPT-5 初筛与人类审核把关,确保严谨性。

类似人类考试,GenExam 的 " 学科绘图题 " 有四大核心特征:

" 题目 "(文生图 prompt)多样、复杂且约束严格,平均长度达到 74.8 个单词,远超普通 T2I prompt,比如 " 用 H2SO4 和 H2O 作为催化剂,画出 1- 甲基环己烯的酸催化水合反应机理,明确反应物、反应条件、主产物,并根据马尔科夫规则标注羟基位置 ";

有明确的 " 参考答案 "(ground truth 图像)提高评测准确性,有 " 评分标准 "(评分点)逐点检查正确性,平均每道题 6.9 个评分点,比如 " 催化剂是否为 H2SO4 和 H2O"、" 反应物是否为 1 号位有甲基、包含双键的六元环 ",每个得分点对应不同权重。

学科知识覆盖深且广,可系统化层级分类,形成严格的 " 四级学科分类体系 "。

需要模型融合理解(读懂考题)、推理(推导过程)、生成(精准绘图)三大能力。

细粒度评测体系

传统文生图评测总纠结 " 像不像 "、" 美不美 ",但学科绘图更在意 " 对不对 " ——化学结构中的一个碳原子 / 物理电路图中的一个箭头画错,整个图就错了。

为此,GenExam 设计了双维度、两标准的评测体系,用 GPT-5 作为 " 自动阅卷老师 ",确保评分客观准确:

两大评测维度

语义正确性:模型画的是不是 " 符合题意 "?基于每道题的评分点,让 GPT-5 做视觉问答(比如 " 分子是否含 8 个碳原子?"),并提供 ground truth 图片作为参考提高评分准确性,将做对的题的分数之和作为语义分数;

视觉合理性:画对了,但 " 卷面 " 好不好?分三项打分。

拼写:公式、标签有没有拼写错;

逻辑一致性:坐标、刻度是不是对应;

可读性:元素有没有遮挡、标签是不是清晰。

严格 / 宽松双标准

严格得分:只有语义全对 + 视觉合理性三项全满分才算正确;

宽松得分:语义(70% 权重)+ 拼写(10%)+ 逻辑(10%)+ 可读性(10%)的加权平均分,给模型 " 部分得分 " 的空间,适合区分模型间的相对差距。

顶尖模型也不及格,开源模型全军覆没

团队测试了 18 个主流模型,包括闭源 " 顶流 "(例如 GPT-Image-1(GPT-4o)、Gemini-2.5-Flash-Image(Nano Banana))、开源专用文生图模型(例如 Qwen-Image、FLUX.1 dev)、理解生成一体化模型(例如 BAGEL、Show-o2),结果让人意外:

闭源模型:即使是表现最好的 GPT-Image-1 严格得分也只有 12.1%。其他闭源模型分数不足 10%。这些模型能画出大致框架(比如苯环的六边形),但细节经常有严重错错误比如少画氢原子、键型标反)。

开源模型:所有模型严格得分均接近 0%,哪怕是表现最好的 Qwen-Image,严格得分也只有 0.3%。统一多模态模型(如 BAGEL、Show-o2)表现还不如专用文生图模型,暴露出 " 整合学科知识到图像生成 " 的能力缺失。

当对比宽松得分时,开源模型(10~30 分)和闭源模型(50~60 分)的差距依然明显,在语义正确性、拼写、逻辑一致性、可读性四个方面中都存在显著差异。

错误案例直击痛点

通过定性分析,论文团队总结了模型的三大典型错误:

知识缺失:比如音乐题中画错半音圈的调号顺序;

推理不足:比如几何题中算错函数交点坐标;

视觉疏漏:比如拼写错误、标签错位(如将 "-1,0" 标在 y 轴上)。

在学科场景中,任何一个小错误都可能导致 " 满盘皆输 " ——这也正是 GenExam 的价值所在:它精准捕捉了文生图模型在 " 专业场景 " 中的核心短板。

通向专家级智能

GenExam 将 " 图像生成 " 转化为 " 考试任务 ",给文生图模型设立了一个新目标:从 " 画得好看 " 走向 " 画得正确 "。

当前,即便是最顶尖的模型,在 GenExam 的考试中也仅处于不及格水平,这既是挑战,也是机遇——它意味着未来的模型需要在知识整合、逻辑推理、精准生成上持续突破,才能真正从 " 通用图像生成工具 " 升级为 " 专业领域助手 "。毕竟未来的 AI 不仅要会 " 创作艺术 ",更要能 " 辅助学习 "、" 助力科研 ",而这些都离不开对学科知识的精准理解与生成。

未来,当模型能轻松通过 GenExam 的多学科考试时,或许我们才能说它们真正迈入了 " 专家级 AGI" 水平。但现在,这场考试才刚刚开始。

GitHub 链接:https://github.com/OpenGVLab/GenExam

论文链接:https://arxiv.org/abs/2509.14232

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

考试 上海 开源 催化剂 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论