注意看,这是一个教育领域的 AI 应用新物种——
咱就是说,这讲课节奏,这语气,这互动,也太自然了。
更重要的是,它不仅能「像老师一样讲课」,还能针对每一位学员进行一对一的个性化教学。
这位 AI 导师,出自一家名为「与爱为舞」的 AI 原生应用企业。自年初上线以来,已累计为百万级用户提供学习陪伴与一对一讲解服务。
教育行业,向来是个「规模、质量、成本」的不可能三角。
既能做到千人千面,又能服务百万名学员,还几乎看不出是 AI ……更是难上加难。
它究竟是怎么做到的?
与爱为舞用来劈开这个不可能三角的,是一把硬核的技术巨剑。
AI 教育,要的不止「答案」
而铸造这把技术巨剑,有三块核心组成部件:「模型 + 语音 + 工程」。
先看模型——
得益于 CoT 的 Scaling,大模型解决复杂问题的能力指数级增长,「做题」水平突飞猛进,甚至能斩获「奥赛金牌」。
摘得奥赛桂冠,AI 只需要给出标准答案。但搞教育不行。
先来看一个简单的英语语法题:
Lily expects _ her grandparents in the countryside next month.
A. visiting|B. to visit|C. to have visited|D. having visited
大模型给出的解答如下:
这道题的正确答案是 B. to visit。
核心考点解析:
动词固定搭配,动词 expect(期望、预料)的常用用法是——
expect to do sth.(期望做某事),后面需要接不定式(to + 动词原形) 作宾语。
B 选项 to visit 是不定式的一般式,用来表示与谓语动词(expect)同时或之后发生的动作,符合 " 下个月看望祖父母 " 的将来时态逻辑。
我可以帮你整理一份常见接不定式作宾语的动词清单,方便你记忆,需要吗?
答案是对了,看起来好像也讲了解题过程,但如果拿这套方法教学员,那肯定是要被家长投诉的啊……
完全没有引导学员思考,一上来就把答案透露了。就像个纯天赋型学霸,风驰电掣做完题,然后猛地丢给你一个结果,问你:「我说的对不对!」随后才给出一串看似头头是道的分析。
不过,硅基大佬,小弟我根本听不明白你在说什么啊!
最后还要给你一份「动词清单」,直接默认教学等于枯燥的背诵,而没去想怎样引导学员的主观能动性。

归根结底,通用大模型的设计初衷就不是教育。它拼尽全力,只想向用户证明一件事——「厉害吧,哥啥都知道!」
古人讲:授人以鱼,不如授人以渔。导师如果光顾着自己拿金牌,这师生关系就乱了套了。
想要成为一名好导师,AI 需要学会放低姿态,真正关心学员的课堂体验。
首先,AI 得明白各学科的核心知识图谱、关键考点和常见解题方法,这些才是学员能服用的,是最基本的「知」。
在此之上,AI 还得学习名师是怎么设计讲解顺序的,并从中总结归纳出一套顶尖教师的授课方法论。这是更高维度的「知」。
陆游讲,「纸上得来终觉浅,绝知此事要躬行。」
「知」总是相对容易的,重点是如何把纸上谈兵那套,搬到现实世界里实践起来。
所幸,「行」方面,与爱为舞有相当充足的弹药。
据悉,他们已积累了约百万小时的音视频互动数据,特别是包含大量业内 TOP 级名师的授课视频。
在此基础上,团队又根据学员的认知水平与学习态度,构建出多类型的「虚拟学员」,让他们与 AI 导师进行「搏击」,每周又能收获数万小时的合成数据。
这些数据在经过筛选与清洗后,会交由专业教研进行把关。
具体而言,教师们会把自己多年的「教学经验」,根据场景具象化为一条条思维链,最终汇集成一本「好老师红宝书」:
每个知识点该如何拆解,与学员互动时如何循循善诱……不止要让 AI 学会怎么讲课,更要明白「为什么要这么讲」。
这种手把手教的方式效果很好,但成本也相当高。
随着方法论逐渐成熟,团队索性将这一环节也自动化,让 AI 模仿专业教研参与数据标注。
备考资料准备就绪,下面就该着手训练了。
第一步,照猫画虎。
那些相对容易标准化的知识,已体现在标注数据之中。AI 需要做的,是通过模仿专业教师的思维链,逐步摸索出每一个教学动作背后的真实意图。
这一微调过程,能大幅降低 AI「自我发挥」带来的的幻觉率,同时培养更稳定的推理能力与泛化能力。
能做到这一点,就算是打牢了基本功。
最基本的教法、节奏和经验都已被「固化」,能以标准化形式面向所有学员输出,教学质量的下限得到保障。
但如果目标只是及格,这件事就没意义了。
师傅能陪伴的路程就到这。接下来,得能靠 AI 自己上路修行。
第二步,终于到了大家喜闻乐见的强化学习环节。
在教育这个场景下,与爱为舞的奖励函数围绕教学路径规划质量、教学有效性与教学灵活性等维度设计,通过 GRPO 给 AI 做强化。
这步结束,AI 彻底出师——不仅能够完成授课任务,还能驾驭课堂节奏,提高趣味性,根据不同学员灵活调整教学策略。
那么接下来,就该真正走进「教师资格证考场」了。
不过,教育不是一个有标准答案的任务,Benchmark 肯定是行不通。笔试应该如何设计?
与爱为舞的做法很简单,甚至有些「粗暴」——笔试啥,直接把 AI 丢到讲台上,看学员的真实反应。
第一步,是在模拟课堂中试水。
这个课堂由多类型的模拟学员组成,团队会按照真实分布规律注入一批线上数据,再由评分模型从多个维度对 AI 导师打分。
模拟课堂如果表现不错,AI 会迎来更严苛的终极试炼场——直连真实教学一线。
AI 能否驾驭高度不确定的真实课堂?是否真的能摆脱照本宣科?答案,只能由学员来评判,再好的数据标注导师也帮不了。

即便成功拿下了「教师资格证」,但教学,依然是个终身学习的过程。
正式上线后,海量的学员数据会被持续建模,AI 导师将基于每一位学员的专属档案库,为其定制个性化课程。
至此,AI 导师才算具备了千人千面的能力。不仅下限有保障,上限也很高。
「真人级」AI 导师
通过「知」与「行」的双重训练,与爱为舞得以将通用大模型,塑造成一个真正懂教学的名师 AI 模型。
然而,再聪明的模型,无法与学员真实互动,最终仍会沦为一颗「缸中之脑」。
AI 导师需要「耳朵」。
作为导师,连学员的问题都听不清楚,最后聊的牛头不对马嘴。不仅显得导师呆若木鸡,学员的积极性也会大打折扣。
但现实是,课堂不是录音棚。真实环境往往充斥着噪音,如果有电视,甚至会出现多个人声掺杂在一块的情况。
即便能输入干净音频,中国有各种各样的方言,不同学员的咬字发音习惯也不同,识别难度相当高。
雪上加霜的是,在传统 ASR 范式下,输入模型的只是一段孤立的语音,基本没什么上下文。一旦放到教学场景下,AI 很容易把同音字混淆。
例如,「极限」和「极线」。
前者是微积分中的核心概念,后者则属于二次曲线相关的几何术语。二者在语义上截然不同,发音却完全一致,如果没有上下文,仅凭语音几乎无法区分。
为解决这个问题,与爱为舞基于其长期积累的教育场景与课堂教学数据,自研了一套多模态语音理解大模型,让语音识别不再只「听声音」,而是能够理解所处的教学上下文。
在此基础上,团队进一步自研了声纹降噪模型,可以将学员和家长说话的声音区分开。
事实证明,凭借「上下文理解 + 声纹降噪」,ASR 识别效果有了质的飞跃:句准确率从行业内开放 API 的 80% 左右的最好效果,大幅度提升至95% 以上,接近真人理解识别水平。
听清楚学员的问题,思考完毕,下面就该导师开口指点迷津了。

目前,行业主流语音合成架构基本都是 LLM 或者 LLM+Flow/Diffusion 的方案。
真用到课堂里,会暴露出三个问题:人机味明显、不像在上课、不支持双向实时交互。
下面看看,与爱为舞是如何迈过这三道坎的。
先来最直观的——人机感。
在底层架构上,团队采用了 LLM+Flow 方案,引入了两类 speech token:一类负责声音本身的细节,一类负责语义和表达节奏。
在此基础上,结合强化学习,可以让 AI 学会正常说话应有的抑扬顿挫。
不过,光会说话可不行,老师上课得有个「老师」的样。
为此,团队拿出了大量真实课堂数据,对不同学科、不同导师的讲课方式进行了建模:有的导师说话像机关枪,有的导师则更慢条斯理。
落地时,团队还会为每位主讲名师单独设计录制脚本。这样,数据收集效率更高,还能最大程度还原名师声线,保证声音的「质感」。
具体效果如何嘛,我们可以一起听听下面这两段音频。
(文本:接下来我们看这个题,图中表示水蒸气直接变成冰的过程)
这是第三方 TTS,不仅表现力较弱,还出现了发音错误,如果是上课很容易出戏。
相比起来,这段是不是「活人感」足了很多?
这正是自研模型的优势,发音更自然,更稳定,情感表现也更好。
至于双向实时交互,AI 导师需要边说话边理解学员是否在主动打断询问导师问题,并且做出及时的响应,这是 AI 导师智能与否最重要的能力之一。
为此,团队研发流式语义 VAD 和打断模型,能够让 AI 导师实时识别学员是否有真实打断意图,识别准确度可以达到 90% 以上。
而为了让 AI 导师真正「站上讲台」,团队还为其配套设计了逼真的数字人形象:口型、面部表情与肢体动作高度同步,且支持实时互动。
这下,AI 导师可算是凑齐了自己的莲藕肉身三件套——「耳朵 + 嘴巴 + 身体」。
当 AI 开始具备人的温度,信任才有可能建立,学员也更不容易分心。
百万 AI 学习原住民
话说回来,即便「大脑、耳朵、嘴巴」全部补齐,我们依然无法解释与爱为舞是如何实现规模化落地的。
毕竟,从语音识别,到模型思考,再到语音合成,最后还要驱动真人级数字人,这条服务链路相当长。
任何一个环节稍有迟滞,都会严重影响学员的课堂体验。
而当用户规模放大,「千人千面」会带来更高频的推理请求,一旦调度或资源分配稍有不慎,服务质量会迅速下滑。
想要实现大规模落地,AI 导师还需要一颗能持续供血、且足够强健的「心脏」。
首先,得把这条冗长的服务链疏通,保证「血管」里不堵。
在《思考,快与慢》中,Daniel Kahneman 提出,大脑为了偷懒,演化出了两套工作模式:靠直觉行事的「系统一」、调用认知资源的「系统二」。
与爱为舞借鉴的,正是这一点。
当学员开口提问时,系统不会一股脑把问题全丢给大模型,而是先做一次判断:
能马上回答的,直接走快速通道;真正需要推理的,再交给大模型慢慢想。
具体而言,简单问题会先由快速回答系统给出反馈;与此同时,大模型已经在后台并行启动。等学员听完前半句,模型的「思考」也完成了一大半。
于是,模型回复的延迟可压缩到100ms以内,整条响应链路稳定在1 – 1.5 秒。
同理,如果学员在导师讲话时突然插话,AI 也不会傻等学员全部说完再思考。而是立刻结合上下文判断学员的意图,提前开始构思。
这样响应时间仍可控制在100 – 200ms,整条链路不超过1.6 秒。
当然,遇到一些开放式问题,确实要多想一会儿。
但即便如此,AI 导师也不会「卡住不动」,而是通过表情变化、过渡性话语告诉学员:我在想,你稍等。而不是空气突然安静,一人一 AI 面面相觑。
血管疏通之后,还可以通过「提前缓存」,让血液循环得更顺畅一些。
在真实教学中,同一堂课的核心知识点其实相对固定。哪怕学员的具体问题不同,总体来看仍有一定规律可循。
先从输入说起。
大模型在生成答案前,要先「读懂问题」(prefill),再「组织回答」(decode)。而前者非常吃算力,并且很耗时间。
团队的做法是,把 Prompt 结构化:在不影响回答质量的前提下,把同一类场景里老是出现的内容集中起来,从而让 AI 少做重复阅读。
再看输出。
学员千差万别,但在具体知识点上,很多人其实都是在同一个地方「栽跟头」。既然如此,AI 导师就没必要每次都从头生成一整套讲解。
因此,团队会以题目、引导方式和学员回答作为索引,把模型的讲解结果先存下来。一旦再次遇到相同情形,直接拿来用就好。
通过这套「链路优化 + 缓存」的组合拳,与爱为舞将整个流程控制在了 1s-1.6s 之间。
筋骨与脉络就位,接下来,该让心脏泵得更有力了,与爱为舞在大规模并发上也做了大量工作。
首先在单机上,为了榨干每一张 GPU,团队在系统设计之初就完成了显存地址的统一规划,全程实现显存共享,尽量避免数据在不同计算与存储介质间反复搬运所带来的性能损耗。
与此同时,在 GPU 算子层面,团队又针对核心计算路径进行了专项加速,使单卡的有效吞吐能力提升约 5 倍,足以支撑起几十路真人级数字人的推理。
其次在集群上,资源的调度能力同样至关重要。团队又从五个层面,对整体系统做了进一步加固:
多数字人统一调度:同一个资源池中不同形象统一调度,从而更好的复用集群资源;
系统抽象:对话轮次化、课节内容组件化、知识点任务化,让复杂流程标准化;
并行计算:尽量不浪费任何空闲算力,AI 导师还在讲上一题时,下一题的计算已经在后台悄然启动;
预留容量:服务支持横向扩容,不同层级配有多种缓存与缓冲机制,一层层削薄高峰流量,避免高并发请求同时压向模型与数据库;
保险机制:整个教学调度过程可恢复,即便遭遇网络中断或客户端异常退出,教学状态也不会丢失。

凭借一台全速运转的AI 发动机,加上一张巨大的工程降落伞,与爱为舞得以把 AI 导师「空投」到全国各地,成为业界首个支持万人并发的真人级 AI 教学系统。
归根结底,与爱为舞从未将 AI 视作一个简单的辅助工具。
在他们看来,比起技术升级,AI 更像一场关于个体工作逻辑与组织管理范式的深层重塑。
回头看今天的企业形态,其实很多都是工业时代的妥协产物:人的精力有限,只能把分工越拆越细,组织层级上层层加码。
一道道庞大的部门墙,虽防止了团队混乱,但也淹没了许多人才的主观能动性。
AI 的出现,第一次让生产力得到完全释放,每个人都能担任「架构师」。
在此背景下,与爱为舞提出「全员皆超级个体」——只要有想法,任何人都可以手握数据与算力这两栋「粮仓」,调度一支由智能体组成的硅基军团,以极低的成本,快速实现抢跑。

而这一理念,也已在产品上得到验证——
至今,「爱学」已服务百万级用户,学员分布于全国 342 个城市:东至佳木斯,西达克孜勒苏,南抵三沙,北至大兴安岭。
关于 AI 原生的企业理念,市场已经给出了自己的判断。
而当 AI 真正开始惠及百万学员,我们或许终于有机会,兑现孔夫子两千多年前所期待的那个美好愿景——「有教无类、因材施教」。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦