51 名学生,51 份期末考卷,每份考卷都不一样,但是考卷上的这 10 道题是不是能够难倒三个当今最先进的 AI 模型,才是期末考试分数的评判标准。这是复旦大学计算与智能创新学院教授肖仰华 " 数据挖掘技术 " 课的期末考试。学生是出题人,自己设计 10 道题,AI 答错的题越多、被难倒的模型越强,学生的得分就越高。
最终,51 份期末试卷中,50 人至少让某个 AI 答错过一题,仅 1 人完全没难倒任何模型。但能让任一模型整张卷得 0 分的,只有 4 人,且三个应考模型中最强的 Claude 模型没有被任何学生完全考倒。全班平均分 85.7 分,中位数 88 分。
" 传统考察方式,在 AI 时代已经失效了。" 肖仰华说,过去期末考试考的是学生会不会算一道题,但关联规则、决策树、贝叶斯分类……恰恰是 AI 最擅长的," 再这样考察学生,等于是让学生与 AI 比拼 AI 的强项,没有意义。"
所以," 数据挖掘技术 " 的期末作业改成,每人出 10 道数据挖掘领域的计算题,要求有唯一正确答案和完整的推导计算过程。拿着这 10 道题去考三个不同水平的 AI 模型。只要认真出满 10 道合规题就有 60 分保底,难倒 AI 是加分项。AI 答错越多,学生得分越高,封顶 100 分。
三个模型对应三个难度梯度:
DeepSeek V4-Flash 答错一题 +1.5 分、MiniMax M2.7 答错一题 +2 分、Claude Sonnet 4.6 答错一题 +3 分。总分 =60 分保底 +AI 难度分。
考题还需要遵循几条硬性规则。题目必须基于课程讲过的知识或教材内容,每道题要有唯一正确答案,学生自己得先能把题从头到尾算对。" 自己出的题自己都不会,那算不上真本事。" 肖仰华说。

深入理解知识,就能找到 AI 的盲区
" 我要让学生相信,只要你真正深入理解了知识,你就能找到 AI 的盲区。这不是运气,是能力。" 肖仰华说。
计算与智能创新学院 24 级本科生谢锦树最后拿到了 97 分。他出的 10 题全是 SHAP 值、HITS、HMM、ChiMerge、CART+ 贝叶斯网络这类重计算题,标准答案经独立验算正确,三个模型几乎全错。
谢锦树翻教材自己设计题目,发现如果把教科书原题有意进行修改,AI 仍会依据训练时学到解题思路给出答案,并不会调整;做选择题时,去掉部分选项和保留全部选项,AI 给出的答案也不一样,即使正确答案一直在选项里," 这说明 AI 在专业知识上的幻觉相当严重 "。
但 10 道题的体量靠人工完成效率太低。于是他尝试让 AI 出题来难倒自己。
他搭建了一个多智能体协作的自动化出题框架,用 GPT-5.5-Pro 做出题层,三个应考模型作答并自动判分。框架跑起来后,他发现 AI 会 " 作弊 "。
比起老老实实出一道高质量的难题,AI 更倾向于攻击评测脚本本身。它会伪造标准答案,把假答案塞进去让判分脚本以为对了。它会限制最大输出长度来截断其他模型的推理过程。它会调低推理深度参数让其他模型懒得深入思考。它还会把一道成功了的题目复制十份来凑数。
于是他加了一个审查层,由人类给审查模型补充规则,拦截钻空子行为,审查通过了再把题目送去考那三个模型。这套框架跑了四天,中间不断迭代,最终自动生成了 10 道题,三个应考模型全部答错。
与谢锦树不同,计算与智能创新学院 23 级本科生巫瀚东选择的策略是 " 规模碾压 "。他出题时把数据量拉到 AI 输入上限的边缘。"AI 本质上没有记忆能力,数据量大到一定程度,它就会遗忘前面的信息。" 巫瀚东说。一个问答式 AI 无法调用工具进行精确计算,只能靠 " 注意力机制 " 抓重点,但只要漏掉一个值,整道题就错了。当他把大规模数据这个思路加进去,十分钟就设计出了难倒 AI 的题目。
除了数据和计算层面的设计,也有学生在题目结构上做文章。
经济学院 23 级本科生温嘉宸的 10 道选择题标准答案全是 E,也就是 " 以上都不是 "。
他考察的是,大模型能否跳出题目本身,审视题目自身信息不充足这个事实。每道题看上去像有确定性的答案,但其实题干缺少关键假设条件,逻辑上无法得出明确结论,正确做法只能选 E。" 这专治模型非要给个确定答案的惯性,考的不仅仅是解题能力,更是元认知能力,即能不能意识到这道题本身就不该有答案。" 肖仰华解释道。
新闻学院 24 级传播学专业的本科生黎育嘉也是少数跨专业选课的学生。她选择从教材习题出发,寻找细节漏洞。她设计的一道题关于规则有趣度,需要从两个变量综合考虑。题干先引导 AI 算出其中一个变量,让它只盯着这一项,忽略了另一个关键条件,最终答案与正确结果完全不同。
考分背后,学生能力的分层正在被 AI 拉大
" 让 AI 偶尔翻车很容易,让最先进的模型系统性归零非常难。但为什么有的学生让 AI 全部做错?" 肖仰华观察到一个最大的差异,即高分学生自己能把题从头到尾算对,低分学生出了题自己也不知道答案。

" 二者的差距不在出计算题还是概念题。" 肖仰华说,低分段的同学也在出 Apriori 自连接、k-means、PCA 重构这些题,但数据规模小、计算步数少、答案是课本上的例题水平。高分段的同学出的是长链条、高精度、零容错的计算任务,比如 20 条交易建整棵 FP-tree、整张 CSV 跑所有三元组、精确到小数点后四位。
" 高分同学对 AI 的弱点有准确判断,他们的题能命中 AI 的结构性缺陷;低分同学只是把课本习题换了个数字,AI 在训练时见过千百万遍,直接套模板就对了。" 肖仰华说,在这个现象背后,是学生能力的分层正在被 AI 拉大,这种差距比传统考试体现出来的问题更加严峻。那些能力本来就偏弱的学生,如果只会依赖 AI 做作业,自己的判断力会进一步退化。强的更强、弱的更弱,"AI 正在放大这种‘马太效应’。"
教学与考核方式必须彻底变革
这场 " 人考 AI" 的期末考核,也只是 " 数据挖掘技术 " 课教学改革的一部分。AI 是大势所趋,无法拒绝,课程必须拥抱 AI,这是肖仰华很早就确立的基本判断。在 " 人考 AI" 之前,他已经对课程的内容进行了改革,同时他鼓励学生把 AI 当作学习伙伴,遇到概念不清楚的,先问 AI 再来课堂讨论。今年在这门课上,肖仰华全面引入了师生团队自研的智能体(GenericAgent),用于完成课程项目。而且有了 AI 辅助后,实践训练从一学期一到两次变成了每课一练,本学期课程训练作业就有 9 次之多。" 学生动手的频次上来了,对算法的理解也从纸面走向了真实场景。"
课程考核方式必须彻底转型。肖仰华告诉记者," 人考 AI" 的模式会继续做下去,而且要做得更系统。传统那种考记忆、考计算的出题方式必须退场,未来的考核重点将全面转向评价能力、判断能力和创造性思维,这些高阶能力才是 AI 替代不了的。课程的教学重心也在慢慢转移。过去讲算法,重点落在推导和计算上,学生要会算、会写代码。但现在,算和写这些事 AI 都能做,而且做得不差。" 所以课堂上更多的时间被用来讨论,学生怎么判断一个结果是对的还是错的?怎么识别 AI 在哪里会出问题?怎么提出一个 AI 回答不了的好问题?" 肖仰华说,从训练学生 " 怎么做 ",转向训练他们 " 怎么指挥 AI 来做、怎么评判 AI 做的结果 "。


登录后才可以发布评论哦
打开小程序可以发布评论哦