文 | 字母 AI
总觉得 MiniMax 才发布 M2.5,如今 M2.7 就上线了。查了一下,真的只隔了一个月(要知道,中间还隔了一个春节)。
MiniMax 在官方微信公众号文章中表示:"MiniMax M2.7 是我们第一个模型深度参与迭代自己的模型。"
这几年,"AI 自我进化 " 几乎已经从一个略带科幻感的说法,变成了行业里默认成立的方向。
谷歌前 CEO 埃里克 · 施密特(Eric Schmidt)更是总结,目前已经形成了一个 " 硅谷共识 ":随着人工智能推理能力和记忆系统的发展,它将重塑人类的运作方式。最终我们将达到所谓的递归式自我改进——届时,系统将以人类无法理解的速度进行学习。
目前,这件事已经被拆解成更具体的工程路径:用模型生成数据、用模型做评测,甚至让模型参与到代码修改和实验流程里。
模型被放进了一个可以不断试错、不断反馈的循环系统里。在这个系统中,模型既是执行者,也是部分决策者,而人更多退到设定目标和边界的位置。
M2.7 这次强调的 Agent Harness,也是把原本需要多人协作完成的一整套研发流程,尽可能压缩进一个可以持续运行的循环里,让模型去承担其中越来越多的环节。
MiniMax 亮出的 Benchmark 成绩也相当亮眼:

这些 benchmark 对应不同的能力维度:SWE Bench 和 VIBE-Pro 更接近真实的软件工程任务,而 Toolathon 和 MM-ClawBench 则强调模型在复杂流程中的执行能力;相比之下,MLE-Bench 等测试则更偏向算法与研究能力。
从结果来看,M2.7 在工程执行类任务中已经进入第一梯队,这一点在几个关键指标上体现得比较明显。
比如在 SWE Bench Pro 上,它的表现已经接近甚至超过部分一线模型,这类测试本质上是在真实代码库中定位问题并完成修复,更接近 " 线上排障 " 的场景;
而在 VIBE-Pro 这种端到端项目任务中,M2.7 同样处在第一梯队,这意味着它不只是会补代码,而是具备从需求到交付完整产出的能力。
另一个比较值得注意的是 MM-ClawBench 这一类 Agent 测试。这里考查的不是单步能力,而是模型在长流程中的稳定执行能力,能不能在多步骤任务中持续调用工具、保持上下文、最终把事情做完。
M2.7 在这一项上已经接近头部模型,说明它在 " 能不能把活干完 " 这件事上,确实已经跨过了一道门槛。
但如果切换到更偏研究和复杂推理的任务,比如 MLE-Bench 这一类测试,M2.7 仍有进步空间。这类任务更接近算法工程或科研场景,要求模型具备更强的抽象能力和系统性建模能力,这一部分目前仍然是头部模型的优势区间。
好了,硬核的信息放在一边,拿到 MiniMax M2.7 内测 API 的那一刻,我们第一反应是:" 能用它整点什么活?"
把它丢进一个真实的场景里,看它能不能满足我的需求,这最直观,也最接地气。
所以我们给 M2.7 设计了四场 " 考试 ",难度从低到高,场景从荒诞到严肃:先让它同时扮演我爸妈和弟弟在微信群里聊天,再搭一个 Agent Harness 框架让它自主编程(做一个霓虹灯数字时钟热热身,再从零写一个贪吃蛇游戏),最后把英伟达的年报甩给它,让它像分析师一样输出研究报告、交互式仪表盘和演示文稿。
玩了一下午,只想说:M2.7,你有点东西。
让 AI 同时扮演我全家人
我们做的第一个测试,灵感来源于每个中国人手机里都有的那个东西——家族微信群。
你知道的,就是那种群名叫 " 相亲相爱一家人 " 的群,里面永远有人在转发养生文章,有人在发语音消息,有人在催你结婚,还有人在打游戏不回消息。
这个场景之所以适合测试 AI,是因为它对 " 角色一致性 " 的要求极高。
群里每个人的说话方式、关注点,甚至打字习惯都完全不同,而且他们之间还会互相接话、抬杠、拌嘴。
我们用 M2.7 搭了一个高仿微信界面的网页应用,连手机外壳、状态栏、绿色气泡都做了出来,力求还原度拉满。一开始我想了很多人设,比如前文提到的爷爷奶奶等。
但是最后我敲定了一家四口,他们分别是:
老李(爸爸),55 岁国企退休干部,性格暴躁但刀子嘴豆腐心,钓鱼狂热爱好者,最恨吃蔬菜尤其是西兰花,说话爱引用名人名言,动不动就 " 我当年…… "
妈妈(王秀英),52 岁社区居委会大妈,超级唠叨但满满都是爱,养生达人兼厨艺高手,打字疯狂用 emoji,喜欢用【】强调重点,三句话之内必催女儿找对象
李小龙(弟弟),24 岁,大学毕业两年了还没找到正经工作,整天在家打原神和王者荣耀,嘴贫爱怼人,满嘴 "yyds"" 绝绝子 ",最怕爸爸说教,一被骂就装可怜或者转移话题,经常找姐姐借钱但从不还。
页面如下:

在我并未详细要求界面具体呈现的情况下,模型返回的设计相当让人满意,于是我开始尝试发送第一句话。

发送失败?显示的是调用 API 失败。于是我让 M2.7 给我检查一下问题所在。

M2.7 很快就发现了 BUG,在修复后终于可以对话了,但是……

设定上作为我的父亲,他却不认识我,很显然,这是一个人物设计上的 BUG。于是我又让 M2.7 重新编排了一下角色身份," 我 " 被设定为家中的长女。

随后,一切正常,这个模拟器终于可以运行了。
虽然没有一上来就梦幻开局,但是 Bug 的发现和修复都非常丝滑。
M2.7 的角色扮演能力很强。但我想强调的是,多角色群聊的难度远不止 " 给每个角色设定不同的语气 " 这么简单。
通过报错的那张图可以看到,对于不同角色,M2.7 会分别调用模型,而不是说一次生成所有的对话。
它要求模型同时维持多个角色的人格状态、理解角色之间的关系(父女、母女、兄妹、夫妻),并且让这些关系在对话中自然地碰撞出火花。
一家四口,三个 AI 角色,每个人都有自己的小心思和说话习惯,还要让他们能和我互动起来。
M2.7 做到了,而且做得相当自然。
一句话,从零造一个霓虹灯时钟
第二场开始,我决定上一点强度。
为了测试 M2.7 的 Agent 能力,我专门搭了一个 Agent Harness 测试框架。界面长得像一个深色主题的 IDE:左边是 agent 的思考轨迹面板,实时显示它每一步在想什么、打算做什么。

右边分成三块——任务配置区、虚拟文件系统(显示它创建了哪些文件)和实时预览窗口(直接渲染它写出来的 HTML)。
这个框架给 M2.7 提供了五个工具:write_file(创建 / 写入文件)、read_file(读取文件)、list_files(列出目录)、execute_js(在沙盒里跑 JavaScript)和 finish(宣布任务完成)。
除此之外,什么都没有。相当于把一个程序员扔进一间空屋子,只给他一台电脑和一个需求。
第一个任务,我让 M2.7 做一个霓虹灯风格的数字时钟。M2.7 需要理解需求、规划方案、写代码、自己检查、最后交付。
点击 " 启动 Agent" 之后,M2.7 的 ReAct 循环开始转了。最后在第 5 轮的时候,M2.7 执行完了命令,实际上第 4 轮就行了,当时我这里出现了一些网络波动,导致 M2.7 调用工具失败。

说实话,这个结果本身并不让我们特别惊讶。
一个数字时钟对于 2026 年的大模型来说确实不算什么。
真正让人感到惊喜的,是整个开发过程非常流畅。
从理解需求到规划方案到写代码到自检到交付,整个 Agent 工作流跑得行云流水,没有一步多余的操作。这说明 M2.7 对 ReAct 框架的适配相当成熟,它知道什么时候该想、什么时候该动手、什么时候该收工。
好,热身结束。接下来,继续上难度。
让 AI 自己写一个贪吃蛇游戏
时钟毕竟太简单了。没有交互逻辑,没有状态管理,没有边界条件。
我需要一个真正能考验 Agent 自主推理和调试能力的任务,比如贪吃蛇。
这回的需求复杂度完全不在一个量级:Canvas 绘制、键盘事件监听、蛇的移动逻辑、食物随机生成、碰撞检测(撞墙和撞自己)、计分系统、游戏结束判定、重新开始功能。
同时我还要求 M2.7 用 Word 记录下来自己的开发过程。

结果如下:
在第 1 轮里,M2.7 没有着急写代码,它是先创建了一个规划。" 我要开发什么什么任务 "," 这个任务需要用到什么工具 " 等等。

第 2 轮,进入正题。M2.7 会创建一个完整的 HTML 文件,包含所有功能,包括画布渲染、键盘控制、随机食物生成、计分、碰撞检测以及开始 / 重新开始功能。

第 3 轮,检查文件有没有被正确创建。

第 4 轮,检查语法,并且检查游戏的完整性。

第 5 轮,检查所有任务是否已经完成。

整个任务只需要 5 轮,共消耗 25882 个 token。

不过也要说说不足。
整个过程并不是一帆风顺的—— Agent 在早期的几轮迭代中,JSON 格式的工具调用偶尔会出错,导致框架解析失败,返回一个红色的错误提示。
M2.7 看到错误后能自我纠正,下一轮就输出了正确格式的 JSON,但这种 " 先犯错再改 " 的模式在需要长时间自主运行的 Agent 场景中是一个隐患——如果连续几轮都格式错误,可能会耗尽最大轮次限制而任务失败。
但总的来说,从时钟的 " 一次过 " 到贪吃蛇的 " 写→查→修→再验证 ",这两个任务放在一起看,恰好展现了 M2.7 作为 Agent 的两面:面对简单任务时的高效利落,和面对复杂任务时的自主调试能力。
这也正是 M2.7 官方最强调的核心能力——Agent Harness 能力,不仅能在给定的工具框架中完成任务,还能主动迭代和自我纠错。
第四场:2159 亿美元的投行级财报分析
前面三个测试,一个考 " 说 ",两个考 " 做 "。
最后一个测试,我们想换个方向。
现在有很多金融行业的人也在使用 Claude Opus 这样的大模型,原因很简单,它们能把复杂的数据制作成直观的图表形式。
我把英伟达 FY2026 的完整财报数据甩给了 M2.7。
然后我给了它一个任务:基于这些数据,生成三个专业交付物。
第一个是深度研究报告,要求投行风格,包含财务全景、五大业务板块分析、FY2027 预测模型、风险评估和估值分析。

第二个是交互式财务仪表盘,要求是蓝绿色风格的深色主题,包含图表、可调动的滑块,以及五个功能标签页。
第三个是 12 页演示文稿,要求投行风格,支持键盘翻页,包含数据可视化图表。
当然,这里必须诚实地说一句,这个测试的 " 含金量 " 需要打个折扣。因为财报数据是我预先搜集好喂给它的,而不是让它自己去搜索和整理的。
M2.7 在这个任务中,尽职扮演了一个 " 拿到所有原材料后进行加工和呈现 " 的分析师,如果我们让它自己搜集数据(这个对现在的模型来说并不难),那它完全可以扮演一个 " 从零开始做调研 " 的研究员。
但即便如此,它对复杂金融数据的理解能力、对多种输出格式的驾驭能力,以及生成专业级可视化内容的能力,都给我们留下了深刻印象。
这个测试直接对应了 M2.7 官方宣传的复杂 Office 自动化能力—— " 支持复杂 Excel/Word/PPT 办公任务及多轮编辑 "。从实测来看,在金融分析这个场景上,M2.7 确实能输出接近专业水准的内容。
写在最后:
还有一点特别想分享,MiniMax 也在做更多有趣的尝试,这一点也令人惊喜。
比如,MiniMax 这次官宣的时候就提到,他们构建了一个 Agent 交互系统 OpenRoom(openroom.ai),它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。有意思的是,原型项目已开源,这里面的代码大部分也是 AI 写的。
在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。MiniMax 希望能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。
这次测下来,我最大的感受其实不是 " 它又变强了 ",而是你开始能明显感觉到,一个模型不再只是等你提问的工具,而是可以被放进一个系统里持续运转的搭档。
我们评测挑选的场景是任何一个普通用户都可以上手用到的,从群聊模拟,到写代码,再到做分析报告,这些任务背后其实是同一件事:模型开始参与到一个完整流程里,而不是只负责某一个瞬间的输出。
当然,这一步还远远没有到终点。你依然能看到它在复杂推理、长流程稳定性上的边界,也能看到一些细节上的不稳定,比如工具调用格式错误、需要多轮修正才能收敛。这些问题在 " 单次对话 " 里可能不明显,但放进 Agent 这种长时间运行的框架里会被放大。
但有一点是比较直观的:当模型开始能在一个任务里自己往前推进、自己发现问题、再自己修正的时候,整个使用体验就变了。模型离 " 你问一句、它答一句 " 的形态越来越远,开始和你一起把一件事做完。
你的下一个生活、工作搭子,何必是人类?


