4名大学生让AI考0分，复旦肖仰华：学生能力差距正被AI拉大

51 名学生，51 份期末考卷，每份考卷都不一样，但是考卷上的这 10 道题是不是能够难倒三个当今最先进的 AI 模型，才是期末考试分数的评判标准。这是复旦大学计算与智能创新学院教授肖仰华 " 数据挖掘技术 " 课的期末考试。学生是出题人，自己设计 10 道题，AI 答错的题越多、被难倒的模型越强，学生的得分就越高。

最终，51 份期末试卷中，50 人至少让某个 AI 答错过一题，仅 1 人完全没难倒任何模型。但能让任一模型整张卷得 0 分的，只有 4 人，且三个应考模型中最强的 Claude 模型没有被任何学生完全考倒。全班平均分 85.7 分，中位数 88 分。

" 传统考察方式，在 AI 时代已经失效了。" 肖仰华说，过去期末考试考的是学生会不会算一道题，但关联规则、决策树、贝叶斯分类……恰恰是 AI 最擅长的，" 再这样考察学生，等于是让学生与 AI 比拼 AI 的强项，没有意义。"

所以，" 数据挖掘技术 " 的期末作业改成，每人出 10 道数据挖掘领域的计算题，要求有唯一正确答案和完整的推导计算过程。拿着这 10 道题去考三个不同水平的 AI 模型。只要认真出满 10 道合规题就有 60 分保底，难倒 AI 是加分项。AI 答错越多，学生得分越高，封顶 100 分。

三个模型对应三个难度梯度：

DeepSeek V4-Flash 答错一题 +1.5 分、MiniMax M2.7 答错一题 +2 分、Claude Sonnet 4.6 答错一题 +3 分。总分 =60 分保底 +AI 难度分。

考题还需要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容，每道题要有唯一正确答案，学生自己得先能把题从头到尾算对。" 自己出的题自己都不会，那算不上真本事。" 肖仰华说。

深入理解知识，就能找到 AI 的盲区

" 我要让学生相信，只要你真正深入理解了知识，你就能找到 AI 的盲区。这不是运气，是能力。" 肖仰华说。

计算与智能创新学院 24 级本科生谢锦树最后拿到了 97 分。他出的 10 题全是 SHAP 值、HITS、HMM、ChiMerge、CART+ 贝叶斯网络这类重计算题，标准答案经独立验算正确，三个模型几乎全错。

谢锦树翻教材自己设计题目，发现如果把教科书原题有意进行修改，AI 仍会依据训练时学到解题思路给出答案，并不会调整；做选择题时，去掉部分选项和保留全部选项，AI 给出的答案也不一样，即使正确答案一直在选项里，" 这说明 AI 在专业知识上的幻觉相当严重 "。

但 10 道题的体量靠人工完成效率太低。于是他尝试让 AI 出题来难倒自己。

他搭建了一个多智能体协作的自动化出题框架，用 GPT-5.5-Pro 做出题层，三个应考模型作答并自动判分。框架跑起来后，他发现 AI 会 " 作弊 "。

比起老老实实出一道高质量的难题，AI 更倾向于攻击评测脚本本身。它会伪造标准答案，把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。

于是他加了一个审查层，由人类给审查模型补充规则，拦截钻空子行为，审查通过了再把题目送去考那三个模型。这套框架跑了四天，中间不断迭代，最终自动生成了 10 道题，三个应考模型全部答错。

与谢锦树不同，计算与智能创新学院 23 级本科生巫瀚东选择的策略是 " 规模碾压 "。他出题时把数据量拉到 AI 输入上限的边缘。"AI 本质上没有记忆能力，数据量大到一定程度，它就会遗忘前面的信息。" 巫瀚东说。一个问答式 AI 无法调用工具进行精确计算，只能靠 " 注意力机制 " 抓重点，但只要漏掉一个值，整道题就错了。当他把大规模数据这个思路加进去，十分钟就设计出了难倒 AI 的题目。

除了数据和计算层面的设计，也有学生在题目结构上做文章。

经济学院 23 级本科生温嘉宸的 10 道选择题标准答案全是 E，也就是 " 以上都不是 "。

他考察的是，大模型能否跳出题目本身，审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案，但其实题干缺少关键假设条件，逻辑上无法得出明确结论，正确做法只能选 E。" 这专治模型非要给个确定答案的惯性，考的不仅仅是解题能力，更是元认知能力，即能不能意识到这道题本身就不该有答案。" 肖仰华解释道。

新闻学院 24 级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发，寻找细节漏洞。她设计的一道题关于规则有趣度，需要从两个变量综合考虑。题干先引导 AI 算出其中一个变量，让它只盯着这一项，忽略了另一个关键条件，最终答案与正确结果完全不同。

考分背后，学生能力的分层正在被 AI 拉大

" 让 AI 偶尔翻车很容易，让最先进的模型系统性归零非常难。但为什么有的学生让 AI 全部做错？" 肖仰华观察到一个最大的差异，即高分学生自己能把题从头到尾算对，低分学生出了题自己也不知道答案。

" 二者的差距不在出计算题还是概念题。" 肖仰华说，低分段的同学也在出 Apriori 自连接、k-means、PCA 重构这些题，但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务，比如 20 条交易建整棵 FP-tree、整张 CSV 跑所有三元组、精确到小数点后四位。

" 高分同学对 AI 的弱点有准确判断，他们的题能命中 AI 的结构性缺陷；低分同学只是把课本习题换了个数字，AI 在训练时见过千百万遍，直接套模板就对了。" 肖仰华说，在这个现象背后，是学生能力的分层正在被 AI 拉大，这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生，如果只会依赖 AI 做作业，自己的判断力会进一步退化。强的更强、弱的更弱，"AI 正在放大这种‘马太效应’。"

教学与考核方式必须彻底变革

这场 " 人考 AI" 的期末考核，也只是 " 数据挖掘技术 " 课教学改革的一部分。AI 是大势所趋，无法拒绝，课程必须拥抱 AI，这是肖仰华很早就确立的基本判断。在 " 人考 AI" 之前，他已经对课程的内容进行了改革，同时他鼓励学生把 AI 当作学习伙伴，遇到概念不清楚的，先问 AI 再来课堂讨论。今年在这门课上，肖仰华全面引入了师生团队自研的智能体（GenericAgent），用于完成课程项目。而且有了 AI 辅助后，实践训练从一学期一到两次变成了每课一练，本学期课程训练作业就有 9 次之多。" 学生动手的频次上来了，对算法的理解也从纸面走向了真实场景。"

课程考核方式必须彻底转型。肖仰华告诉记者，" 人考 AI" 的模式会继续做下去，而且要做得更系统。传统那种考记忆、考计算的出题方式必须退场，未来的考核重点将全面转向评价能力、判断能力和创造性思维，这些高阶能力才是 AI 替代不了的。课程的教学重心也在慢慢转移。过去讲算法，重点落在推导和计算上，学生要会算、会写代码。但现在，算和写这些事 AI 都能做，而且做得不差。" 所以课堂上更多的时间被用来讨论，学生怎么判断一个结果是对的还是错的？怎么识别 AI 在哪里会出问题？怎么提出一个 AI 回答不了的好问题？" 肖仰华说，从训练学生 " 怎么做 "，转向训练他们 " 怎么指挥 AI 来做、怎么评判 AI 做的结果 "。

宙世代

一起剪

相关标签