MiniMax大模型认不出马嘉祺！官方终于给出原因

快科技 5 月 9 日消息，近期有网友发现一个有趣的现象：MiniMax 模型似乎无法正常识别马嘉祺三个字。

起初大家都以为只是偶然出现的小漏洞，但多方实测后发现情况有些离谱：不管切换不同接口、更换使用平台，该问题都能稳定复现。

翻看网友测试截图以及实际调用返回结果能看出，模型其实可以检索到马嘉祺的相关资料，也能完整准确输出他的个人履历、相关经历等信息。可唯独只要提及本名，模型就会出现文字错乱、随意改写名字的情况。

简单来说，人物背景信息基本无误，对应人物也完全匹配，唯独在识别和输出姓名时频频出错。

那么为什么会出现这种情况呢？

今日，MiniMax 官微发长文回应 M2 系列模型无法说出马嘉祺一事，提供了对 " 嘉祺识别 " 问题的完整排查过程和技术思考。

MiniMax 表示，其从分词器版本对齐、embedding 统计分布、语义近邻检索、预训练与后训练模型的 few-shot 对比实验、后训练数据频次统计以及对全词表 lm_head 变化幅度的排序扫描等多个维度进行了排查。

最终定位到的原因是：嘉祺在分词器中被合并为一个独立 token，但该 token 在后训练数据中出现频次极低，导致模型在后训练中逐渐遗忘了对该 token 的生成能力。

修复方案方面，MiniMax 构造了一份覆盖全词表的合成数据，核心思想是：通过一个简单的复读任务，为全词表建立一个生成频率的 " 下限保障 "，防止任何 token 因为完全缺失而退化。

此外，MiniMax 表示，将 token 覆盖度作为后训练数据质量的一项常规监控指标，可以在早期发现潜在的稀疏 token 退化风险，避免类似问题在线上复现。

宙世代