量子位 昨天
我MiniMax,用实习生处理数据,照样屠榜开源大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

屠榜开源大模型的 MiniMax M2 是怎样炼成的?

为啥 M1 用了 Linear Attention,到了 M2 又换成更传统的 Full Attention 了?

现在的大模型社区,可谓是被 M2 的横空出世搞得好不热闹。

面对现实任务,M2 表现得非常扛打,在香港大学的 AI-Trader 模拟 A 股大赛中拿下了第一名,20 天用 10 万本金赚了将近三千元。

而之所以能够站在聚光灯下,还有一个原因是 M2 身上着实有不少奇招。

除了注意力机制 " 回归传统 ",M2 在数据处理、思考模式上也是另辟蹊径,给开源社区带来了不一样的技术路径。

而且 MiniMax 还公开了这些招数背后的 " 棋谱 ",接连发布三篇技术博客,将 M2 的技术细节娓娓道来。

博客一发布,本已讨论得热火朝天的大模型社区变得更热闹了,不乏有大佬给出自己的分析。

其中也包括质疑的声音,比如 Thinking Machine Lab 技术人员 Songlin Yang 就表示——

MiniMax 团队敢于揭露 Linear Attention 的不足这点值得肯定,但他们的测试有问题,低估了 Linear Attention 的实力。

实际上,注意力机制的选择,也确实是 M2 相关问题当中最热门的一个。

M2 团队选择的理由究竟是什么?三篇技术报告揭开了哪些秘密?

快搬起小板凳,我们一点点往下看。

5202 年了,还有人用 Full Attention?

就从网友们最好奇的 Full Attention 机制开始说起。

毕竟现在算力十分稀缺,MiniMax 却没有选择更省算力的 Linear 和 Hybrid 等机制。

加上 M2 的上一代 M1 用的就是 Linear Attention,这次却换了方案,更是给这个选择添上了几分神秘色彩。

这个问题看似复杂,但 MiniMax 的理由却非常简单有力——试出来的。

M2 团队希望构建的是一个真正可用于商业部署的通用模型,所以稳定性和可靠性就成了优先考量。

一开始,他们确实也试了 Efficient Attention,结果发现,用了这些机制之后的模型,虽然在小任务上表现尚可,但随着上下文长度的拉长,性能就大幅下降了。

一番折腾之后,团队最终决定放弃 Efficient 路径,转而回归稳定可靠的 Full Attention。

而且团队试过的路比想象中多得多,Blog 下方有网友追问,是否尝试更多的 Linear Attention 变体,比如 GDN 或 Mamba2。

而团队成员表示,这些方法也都尝试过,但结果只有一个——这些方法的实际表现都不及 Full Attention。

也就是说,Efficient Attention 看似是命运的馈赠,实际上早已在暗中标好了价格。

M2 的当头一棒,让人们开始意识到,所谓的 " 免费午餐 " 根本就不存在。

比如这位网友过去就认为,Lightning Attention 与 Full Attention 混合起来效果和纯 Full Attention 是一样的,但他现在发现,对于复杂任务而言根本不是这么回事。

不过 MiniMax 也并没有把其他 Attention 一棒子打死,M2 团队探讨了这些 Attention 未来的改进方向。

但问题不是出在 Attention 本身,而是人们缺乏有效的评估系统。

M2 团队指出,现在的模型评测系统不完善,很多常用榜单根本拉不开差距,造成了 Efficient Attention 表现能与 Full Attention 持平的假象。

可只要一遇到多跳推理或长链逻辑过程这种高端局,Efficient Attention 就立马现原形。

推理基础设施也需要进一步提升——如何将理论计算复杂度优势转化为应用层面的速度和价格优势,是目前业界仍在攻克的方向。

总之,要想转化为实际生产力,需要提前构建更丰富的长文数据、更完善的评测体系、更贴近部署场景的实验范式,以及更稳定的训练与推理基建。

但随着 Context Length 越来越长,尤其是在 Pretrain 和 Posttrain 阶段都面临长上下文挑战的背景下,未来某个阶段 GPU 的增长速度可能赶不上数据长度增长带来的压力,那时 Linear 或 Sparse 结构的优势将会逐渐释放。

想让模型做好推理,还得从数据开始

现在骨架(模型)搭好了,该往里面填肉(数据)了,有意思的是,这件事,M2 团队雇了一帮实习生来干,还把这个细节写到了博客里。

网友看了就很纳闷,直言自己 get 不到 M2 团队强调这个细节的目的。

面对这样犀利的提问,作者也是丝毫不卖关子。

之所以强调实习生呢,是想反衬出 M2 用的数据处理流程非常成熟,成熟到让没有经验的人来操作,一样可以达到预期效果。

说到底,M2 团队是咋处理数据的?咱们接着往下看。

他们希望模型能够具有更强的泛化能力,也就是能够适应更多的任务类型。

确定了这个目标之后,筛选数据的标准自然也就有了。

M2 团队把数据质量的衡量标准拆解成了思维链(CoT)和 Response 这两个关键维度。

CoT 部分的标准很容易理解,逻辑完整、表述简洁,就是优质数据,符合我们的常识。

Response 部分就更能体现 M2 团队的巧思了。

前面说过,团队的目的是想让模型适应更多场景,而在他们看来,Response 数据,刚好就是症结所在——

过去的 Response 数据,对榜单格式的依赖已经达到过拟合了,导致换个环境就秒变战五渣。

所以,M2 在数据合成时刻意引入了格式多样性。

当然只靠形式是不够的,数据内容本身,也要尽可能多地涉猎不同领域的任务。

好的数据要广泛吸纳,不好的数据则要及时剔除——

M2 团队发现,模型表现出的所有问题,包括幻觉、指令未遵循等等,几乎都能从数据上找到根源。

所以在处理数据时,他们专门整理了一批典型的 bad case,基于规则和大模型判断,构建了数据清洗流程,从而消灭这些 " 坏数据 "。

数据范围更加广泛,质量也有了保障之后,接下来的事,就是扩大数据规模了。

交叉思考,让模型不再 " 高分低能 "

在 M2 团队的实践过程中,有一个 " 高分低能 " 的问题贯穿始终——模型一考试成绩都很高,但到了真实场景就被虐得渣也不剩。

这个问题在 Agent 场景中也是如此,甚至同一个模型,在不同的 Agent 系统里体验差异也会非常大。

问题出在了哪里呢?M2 团队对 Agent 执行任务的流程进行了拆解。

Agent 在执行任务时,会分析用户的意图,然后做出任务规划,之后付诸执行,中间过程还会涉及外部工具的调用。

在传统的模型当中,Agent 会在规划阶段进行思考,但到了执行环节,就变成了既没有思维也没有感情的机器。

但实际工作并不是能够完全依照原始规划进行的,如果不根据执行过程中遇到的实际情况对规划进行调整,那便是刻舟求剑,任务做不好就不是什么怪事了。

而要想根据每步的执行结果进行动态调整,就需要把原先只在开头进行的思考过程,复制到每一个关键节点。

所以,M2 团队提出了 "Interleaved Thinking"(交错式思维链)的策略。

这种策略让思考在显式推理与工具调用之间交替进行,并把推理结果持续带入后续步骤,这样一来原本冗长、重度依赖工具的任务,就变成了稳定的 " 计划→行动→反思 " 循环。

Interleaved Thinking 保持了思维链的连贯性,使其在多轮交互中不断累积,更加接近人类的任务执行方式,也减少了状态漂移与重复性错误的产生。

实际应用当中效果也是立竿见影,不仅提升了模型在长链任务中的容错率,也显著增强了对环境扰动的适应能力。

除了新的思考模式,泛化也是 M2 团队自始至终在强调的一个关键指标。

他们发现,即便模型的工具调用能力得到大幅提升,但只要换个框架,模型依然容易失控。

怎么办呢?简单说,菜就多练—— M2 团队选择从训练数据下手。

他们设计了一整套覆盖全轨迹扰动的数据链路,在构建训练样本时,他们不仅模拟了工具本身的变化,还覆盖了系统提示语、环境参数变化、用户反复提问、工具返回异常等多种情况。

看上去指标很复杂,但简单概括就是,让这些训练数据尽可能多地去模拟真实使用场景,在训练中就学会如何在不确定性中完成任务。

能实现落地,才是好选择

回看 M2 的结构选择,MiniMax 并不是为了 " 回归传统 " 而选择 Full Attention。

相反,在 Efficient Attention 广受追捧的当下,坚持使用 Full Attention 恰恰体现了团队更偏工程理性的判断——优先考虑模型在真实任务中的稳定性与可用性,而非盲目追求资源的节省。

这并非首次类似决策,例如早在 MoE 架构尚未成为行业主流前,MiniMax 就已投入探索,并取得阶段性成果。

彼时,选择 MoE 的厂商寥寥,MiniMax 却凭借自身理解做出了不同判断,并最终验证了可行性。

可以看出,MiniMax 不仅拥有深刻的技术洞察,更突出以实用性为导向,在 M2 上,这种思路也表现得尤为明确——

它不是一个为参数堆叠而生的 " 炫技模型 ",而是为开发者准备的落地工具,强调解释逻辑、兼顾系统性,并不断通过社区反馈与真实使用场景持续迭代。

在今天这个 " 结构百花齐放 " 的阶段,MiniMax 展示的,不只是模型能力本身,更是一套面向复杂现实问题的思考方式。

比起抢占某个风口,拥有一套稳定可用、被理解并认可的工程体系,也许更具意义。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 a股 香港大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论