多鲸 5小时前
三大国产AI学习助手实测:谁能真正带学生提高一分?
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从今年 11 月下旬开始,国产 AI 助手的节奏明显加快。

11 月 22 日,灵光凭借「一句话生成小应用」的闪应用能力迅速出圈,上线仅四天下载量突破一百万;11 月底,豆包手机助手在工程机上实测亮相,掀起了关于系统级 AI 是否能接管手机操作的讨论;12 月 3 日,千问 App 接入号称「阿里最强学习大模型」的 Qwen3-Learning,公测首周下载量突破一千万,刷新了国内 AI 应用增速纪录。

这三款国产 AI 助手共同展示了一个清晰的趋势:国产 AI 正在从单纯的技术竞争向实际应用场景的快速过渡,尤其是在教育领域。它们不仅在技术上追赶国际前沿,更在实践中探索是否能真正成为学生的「学习助手」。为此,本文将从五个常见的学习场景入手,测评豆包、千问和灵光在课堂上的表现,分析它们各自的功能特性:谁更像一位老师,谁更像工具,谁又能真正成为学生成长路上的学习伙伴。

实测一:讲题——从「会做题」到「讲得明白」

学习的起点是听懂一道题。第一组测试,我们让三款助手面对同一套题:一道六年级数学应用题、一道初中古诗赏析题、一个初中英语句型。

数学题是一道常见的修路问题:第一天修全长的六分之一,第二天修全长的四分之一,两天共修 140 米,问路长多少。给出的指令只有一句话——要像给六年级学生讲解一样,一步步讲清过程,不要直接把答案报出来。

(从左到右依次是豆包、千问、灵光,以下图片保持此顺序)

豆包的讲法最接近「分步板书」。它先带学生回到分数本身:1/6 和 1/4 分别代表什么,再引导算出两天一共修了多少份,接着把这部分和「140 米」对应起来,最后停在「140 除以五分之十二」这一句上,明确点出运算关系,却把计算结果留给学生自己完成。它把过程拆得很细,结构也很清楚,更像一节有节奏的答疑小课。

千问则直接上了代数路线。它把条件转写成方程:设路长为 x,列出「x× ( 1/6+1/4 ) =140」,合并分数、化简方程,顺畅地求出答案。整个过程利落干净,逻辑也完全正确,只是对刚接触应用题的学生来说,少了一些从「文字条件」过渡到「数学表达」的停顿点,更像是给已经具备方程基础的学生看的解析。

灵光站在中间位置。一方面,它会根据条件列出算式与等式,逐步写出每一步的推导;另一方面,在表达上会通过排版和可视化把关键步骤突出出来,最后加上简短的结论和检查,整体呈现最像课堂上的「例题 + 板演」。

第二道语文题换成了李白的《上李邕》。指令要求不仅要回答两道大题,还要告诉学生「怎么抓住这首诗的中心思想」。

豆包按部就班地完成任务:先把修辞和情感问题回答完整,再额外补上一段「如何抓中心思想」的方法,内容齐全,但结构略显「模板化」。千问则是标准答题模式:直接给出两问的规范答案,准确、完整,但不再往外延展。灵光则把答案、解题思路、易错提醒和举一反三全部放进一段连续的话语里,明显带着教辅写作的影子,也更接近一位语文老师的讲评稿。

英语部分,我们用的是一个典型的现在完成时例句「I have lived here for three years.」,要求讲清结构、含义、常见错误和记忆方式。

三款助手都能说清 for 与 since 的区别,也能给出现在完成时的基本结构。豆包按指令完整铺开,千问在准确性和紧凑度上稍有优势,灵光则保持了清晰而不过度展开的风格。就这个单点来看,它们都已经具备「讲清一个句型」的能力。

这一轮下来,三款 AI 在正确性上都没有问题,但气质各不相同:豆包擅长把一题拆成几个明确步骤,让学生跟着走;千问更像一本解析,把最关键的那条路径画得很清楚;灵光则在「讲清楚」之外,又刻意补了一些教学上的设计感。

实测二:错题诊断——谁真的在「理解学生错在哪」

题讲完了,真正拉开差距的往往出现在下一步:学生做错了一道题,AI 能不能看懂「他为什么会错」。

我们给出三个典型错误:

把 1/2 + 1/3 算成 2/5;「通过阅读这本书,使我懂得了很多道理。」这样的病句;以及「He go to school every day.」这种英语语法错误。 统一的指令是:判断错因,推测学生的知识盲点,并说明下一步该怎么教。

在分数加法的错误上,豆包准确指出了「直接把分子分母相加」这个表层问题,也能提到「没有通分」这一关键步骤,只是整体分析停留在规则层面,延展不多。千问的回答多了一层「学生视角」,比如会提到学生可能受到「小数估算」的影响,把 1/2 当成 0.5,1/3 当成 0.33,于是习惯性用「差不多」的心态去拼结果,诊断中带了点同理心,但没有把错因精确地落到某个知识点上。

灵光的视角则更偏教研。它会把这个错误拆成几个可能的薄弱点:没有建立起分数加法必须「分母统一」的概念,对最小公倍数的理解不牢,分数大小比较依然停留在直觉层面,甚至没有形成「单位一致再运算」的常识。之后给出的教学建议也围绕这些薄弱点展开,比如通过不同分母的具体例子强化通分流程。对老师来说,这样的诊断更容易转化为具体的补救设计。

在语病和英语错误部分,三款助手的表现都在线:都能识别「通过」后面缺主语,指出动词形式应该用 goes。但豆包更偏向讲规则,千问会多加一句「这种错误在学生写作中很常见」,灵光则习惯把错误挂在某个清晰的知识标签上,例如「介词结构作状语时,主语必须明确」「第三人称单数需单独强化」等。

这一轮测试的差别,可以概括为:豆包擅长指出「哪一笔写错了」,千问愿意多想一步「学生大概是怎么想的」,灵光则努力把错题放回知识结构里,让后续教学有一个明确的着力点。对真实教学场景来说,三种风格都能用,但适配的对象不太一样。

实测三:出练习题——谁能真正帮老师「出一套题」?

讲题、诊断之后,自然会走到练习题。我们设定了两个场景:一是六年级「异分母分数加减法」,二是初一「一般现在时与一般过去时的对比」。要求三款助手分别生成 6 道题,分成基础与提高两类,遵循对应学段的难度,并尽量贴近真实课堂。

在数学部分,豆包按要求给出了三道计算题和三道简单应用题,题目形式规范,难度也合适,只是看起来更像从题库里抓出来的一组题,和前面的错因分析关系不算紧密。灵光生成的题目同样合格,但整体也偏「完成任务」,不像是围绕某条教学主线精心设计出来的练习。

千问的表现则明显带着「教学工具」的色彩。它不仅会标注每道题的类型,例如「通分基础题」「混合运算题」「生活情境应用题」,还会在部分题目后加上一行简短说明,指出这道题主要训练什么能力,比如「强化分母统一的意识」。最后,它还会自动把这些题整理成一个 Word 文档,方便老师或家长直接下载编辑、打印使用。这种从「出一道题」到「出一份练习」的一体化能力,让它更像是被设计来嵌入教学工作流的产品。

在英语练习生成上,三款助手同样完成了任务,题目基本围绕时态对比展开,也都加入了日常生活情境。差别依然类似:豆包和灵光提供的是「可用的一组题」,千问在题型标记和练习结构上多做了一点「老师视角」的功夫。

从结果来看,目前三款助手在「能不能出题」这一层都已经成熟,真正拉开差距的是「能不能为老师提供一组有教学意图、有使用便利性」的题。就这一点而言,千问在学习大模型加持下,走得稍微更远一些。

学习计划—— AI 能不能排出一周「真能做完」的学习 ?

AI 能不能设计学习路径,是家长和老师关心的另一个问题。我们构造了一个虚拟学生:小学六年级,计算题没问题,但一遇到分数应用题就「脑袋一片空白」,不爱审题,看不出数量关系,对分数本身也不够稳。三款助手的任务,是为这个学生制定一个 7 天的数学提升计划,每天不超过 40 分钟,有明确的小目标、有可以执行的练习,并在每天结尾写一句简短的鼓励话。

豆包给出的计划非常工整,习惯性用表格承载内容,把每天的重点、练习建议和时间分配都列出来,细节比较充分,适合家长快速浏览和打印。千问更注重语言的亲和感和目标的聚焦,比如会在某一天明确写上「今天只做一件事:先把题目读对」,然后围绕这个小目标安排练习,最后的鼓励话术也明显在「对话学生」,而不是只对家长说话。灵光的计划略显紧凑,句子更短、目标更清晰,像是一份训练方案,强调的是每一天要攻克的关键点。

整体来看,这一轮测评并没有出现「谁明显不行」的情况,三款助手都已具备制定短期学习计划的能力。它们之间的差别,更多体现在细节风格上:豆包偏工程化与结构化,千问更像班主任写的学习建议,灵光则有一点「训练营教练」的味道。

实测五:连续对话与陪伴——从「一道题」到「一个小闭环」

单次答疑之外,我们还想看一件事:当学习进入一个小闭环,AI 能不能记住前后逻辑,给出连贯的帮助。

为此,我们用了一个三步连续任务。

第一步,让 AI 分析一条错误解题过程:「5/6−1/4=4/10=2/5」,并判断学生的错因与知识薄弱点;第二步,基于这些薄弱点出 3 道针对性的练习,并标出每道题主要训练哪种能力;第三步,假设学生已经比之前做得好一些,请 AI 写一段 3 – 4 句的学习反馈。

在第一步诊断中,三款助手延续了前面的水准:豆包能准确指出计算规则上的错误,千问会补充学生可能的直觉思维路径,灵光则把问题更系统地归类到通分、单位统一和数量关系理解等环节。

(豆包三步测评)

到了第二步,出练习题的针对性和承接感开始成为分水岭。豆包给出的三道题,难度控制得不错,也大致围绕分数加减展开,但和前一轮诊断提到的薄弱点关联不算非常紧密。灵光会刻意提示「这几道题重点练习通分和单位统一」,但在题目本身的设计上,有时会出现额外的提醒和警示,让练习显得略微「用力过猛」。千问在这一环则做得比较自然:三道题分别对应前面提到的几个弱点,每道题后面都有一句简短说明,例如「这道题主要考你是不是先把分母变成一样的」,既照顾到了逻辑承接,也便于家长理解为什么要做这道题。

(千问三步测评)

第三步的学习反馈,是最贴近真实课堂的部分。豆包的反馈内容完整,会提到学生在哪些地方有进步,也会提醒「下一步可以多练练读题和列式」,整体结构清楚,但有时语气略显「机械」。灵光在这一步的内容相对简短,主要是简要肯定和一句鼓励。千问的表现更接近老师写的评语:先具体肯定改进之处,再指出仍需注意的点,语气自然,不会过度鼓励,也不会给学生压力。

通过这个三步小闭环可以看出,当任务从「一次问答」升级到「一个小周期」,三款助手在连贯性上的差别被放大了。千问在前后承接、逻辑一致性和反馈细腻度上表现最好,豆包在执行指令和保持稳定方面最可靠,灵光则在分析型任务里更有优势,但在连续陪伴的打磨上还有提升空间。

(灵光三步测评)

这五组实测呈现出一个相对清晰的图景:豆包、千问和灵光,都已经可以在学习场景中「帮上忙」,但它们其实在扮演不同的角色。

豆包像一套结构扎实、执行可靠的学习工具。它擅长把过程拆开、把步骤讲清楚,任务给得越具体,它完成得越干净利落。千问更像一位试图理解学生、也在意教学流程的老师:能讲清楚、能看明白错因、能给出一组有教学意图的练习,也能在一两周的学习路径上保持语言和逻辑的连贯。灵光则在诊断和呈现方面有自己的长板,尤其是在把错误放回知识网络、把解析做得更「课堂化」这一点上,展现出明显的专业感。

对教育行业来说,更重要的并不是「谁赢了」,而是这次测评已经足够说明:

我们讨论 AI 学习助手时,焦点正在从「模型能力」转向「教学能力」。下一步的竞争,不再只是比谁答题更快、谁能生成更多内容,而是比谁更尊重学习的节奏、谁更理解教学过程本身、谁能更自然地嵌入真实课堂与家庭学习场景。

评论
大家都在看