实测MiniMax M2.7 ：上能拆英伟达，下能演我爸妈

文 | 字母 AI

总觉得 MiniMax 才发布 M2.5，如今 M2.7 就上线了。查了一下，真的只隔了一个月（要知道，中间还隔了一个春节）。

MiniMax 在官方微信公众号文章中表示："MiniMax M2.7 是我们第一个模型深度参与迭代自己的模型。"

这几年，"AI 自我进化 " 几乎已经从一个略带科幻感的说法，变成了行业里默认成立的方向。

谷歌前 CEO 埃里克 · 施密特（Eric Schmidt）更是总结，目前已经形成了一个 " 硅谷共识 "：随着人工智能推理能力和记忆系统的发展，它将重塑人类的运作方式。最终我们将达到所谓的递归式自我改进——届时，系统将以人类无法理解的速度进行学习。

目前，这件事已经被拆解成更具体的工程路径：用模型生成数据、用模型做评测，甚至让模型参与到代码修改和实验流程里。

模型被放进了一个可以不断试错、不断反馈的循环系统里。在这个系统中，模型既是执行者，也是部分决策者，而人更多退到设定目标和边界的位置。

M2.7 这次强调的 Agent Harness，也是把原本需要多人协作完成的一整套研发流程，尽可能压缩进一个可以持续运行的循环里，让模型去承担其中越来越多的环节。

MiniMax 亮出的 Benchmark 成绩也相当亮眼：

这些 benchmark 对应不同的能力维度：SWE Bench 和 VIBE-Pro 更接近真实的软件工程任务，而 Toolathon 和 MM-ClawBench 则强调模型在复杂流程中的执行能力；相比之下，MLE-Bench 等测试则更偏向算法与研究能力。

从结果来看，M2.7 在工程执行类任务中已经进入第一梯队，这一点在几个关键指标上体现得比较明显。

比如在 SWE Bench Pro 上，它的表现已经接近甚至超过部分一线模型，这类测试本质上是在真实代码库中定位问题并完成修复，更接近 " 线上排障 " 的场景；

而在 VIBE-Pro 这种端到端项目任务中，M2.7 同样处在第一梯队，这意味着它不只是会补代码，而是具备从需求到交付完整产出的能力。

另一个比较值得注意的是 MM-ClawBench 这一类 Agent 测试。这里考查的不是单步能力，而是模型在长流程中的稳定执行能力，能不能在多步骤任务中持续调用工具、保持上下文、最终把事情做完。

M2.7 在这一项上已经接近头部模型，说明它在 " 能不能把活干完 " 这件事上，确实已经跨过了一道门槛。

但如果切换到更偏研究和复杂推理的任务，比如 MLE-Bench 这一类测试，M2.7 仍有进步空间。这类任务更接近算法工程或科研场景，要求模型具备更强的抽象能力和系统性建模能力，这一部分目前仍然是头部模型的优势区间。

好了，硬核的信息放在一边，拿到 MiniMax M2.7 内测 API 的那一刻，我们第一反应是：" 能用它整点什么活？"

把它丢进一个真实的场景里，看它能不能满足我的需求，这最直观，也最接地气。

所以我们给 M2.7 设计了四场 " 考试 "，难度从低到高，场景从荒诞到严肃：先让它同时扮演我爸妈和弟弟在微信群里聊天，再搭一个 Agent Harness 框架让它自主编程（做一个霓虹灯数字时钟热热身，再从零写一个贪吃蛇游戏），最后把英伟达的年报甩给它，让它像分析师一样输出研究报告、交互式仪表盘和演示文稿。

玩了一下午，只想说：M2.7，你有点东西。

让 AI 同时扮演我全家人

我们做的第一个测试，灵感来源于每个中国人手机里都有的那个东西——家族微信群。

你知道的，就是那种群名叫 " 相亲相爱一家人 " 的群，里面永远有人在转发养生文章，有人在发语音消息，有人在催你结婚，还有人在打游戏不回消息。

这个场景之所以适合测试 AI，是因为它对 " 角色一致性 " 的要求极高。

群里每个人的说话方式、关注点，甚至打字习惯都完全不同，而且他们之间还会互相接话、抬杠、拌嘴。

我们用 M2.7 搭了一个高仿微信界面的网页应用，连手机外壳、状态栏、绿色气泡都做了出来，力求还原度拉满。一开始我想了很多人设，比如前文提到的爷爷奶奶等。

但是最后我敲定了一家四口，他们分别是：

老李（爸爸），55 岁国企退休干部，性格暴躁但刀子嘴豆腐心，钓鱼狂热爱好者，最恨吃蔬菜尤其是西兰花，说话爱引用名人名言，动不动就 " 我当年…… "

妈妈（王秀英），52 岁社区居委会大妈，超级唠叨但满满都是爱，养生达人兼厨艺高手，打字疯狂用 emoji，喜欢用【】强调重点，三句话之内必催女儿找对象

李小龙（弟弟），24 岁，大学毕业两年了还没找到正经工作，整天在家打原神和王者荣耀，嘴贫爱怼人，满嘴 "yyds"" 绝绝子 "，最怕爸爸说教，一被骂就装可怜或者转移话题，经常找姐姐借钱但从不还。

页面如下：

在我并未详细要求界面具体呈现的情况下，模型返回的设计相当让人满意，于是我开始尝试发送第一句话。

发送失败？显示的是调用 API 失败。于是我让 M2.7 给我检查一下问题所在。

M2.7 很快就发现了 BUG，在修复后终于可以对话了，但是……

设定上作为我的父亲，他却不认识我，很显然，这是一个人物设计上的 BUG。于是我又让 M2.7 重新编排了一下角色身份，" 我 " 被设定为家中的长女。

随后，一切正常，这个模拟器终于可以运行了。

虽然没有一上来就梦幻开局，但是 Bug 的发现和修复都非常丝滑。

M2.7 的角色扮演能力很强。但我想强调的是，多角色群聊的难度远不止 " 给每个角色设定不同的语气 " 这么简单。

通过报错的那张图可以看到，对于不同角色，M2.7 会分别调用模型，而不是说一次生成所有的对话。

它要求模型同时维持多个角色的人格状态、理解角色之间的关系（父女、母女、兄妹、夫妻），并且让这些关系在对话中自然地碰撞出火花。

一家四口，三个 AI 角色，每个人都有自己的小心思和说话习惯，还要让他们能和我互动起来。

M2.7 做到了，而且做得相当自然。

一句话，从零造一个霓虹灯时钟

第二场开始，我决定上一点强度。

为了测试 M2.7 的 Agent 能力，我专门搭了一个 Agent Harness 测试框架。界面长得像一个深色主题的 IDE：左边是 agent 的思考轨迹面板，实时显示它每一步在想什么、打算做什么。

右边分成三块——任务配置区、虚拟文件系统（显示它创建了哪些文件）和实时预览窗口（直接渲染它写出来的 HTML）。

这个框架给 M2.7 提供了五个工具：write_file（创建 / 写入文件）、read_file（读取文件）、list_files（列出目录）、execute_js（在沙盒里跑 JavaScript）和 finish（宣布任务完成）。

除此之外，什么都没有。相当于把一个程序员扔进一间空屋子，只给他一台电脑和一个需求。

第一个任务，我让 M2.7 做一个霓虹灯风格的数字时钟。M2.7 需要理解需求、规划方案、写代码、自己检查、最后交付。

点击 " 启动 Agent" 之后，M2.7 的 ReAct 循环开始转了。最后在第 5 轮的时候，M2.7 执行完了命令，实际上第 4 轮就行了，当时我这里出现了一些网络波动，导致 M2.7 调用工具失败。

说实话，这个结果本身并不让我们特别惊讶。

一个数字时钟对于 2026 年的大模型来说确实不算什么。

真正让人感到惊喜的，是整个开发过程非常流畅。

从理解需求到规划方案到写代码到自检到交付，整个 Agent 工作流跑得行云流水，没有一步多余的操作。这说明 M2.7 对 ReAct 框架的适配相当成熟，它知道什么时候该想、什么时候该动手、什么时候该收工。

好，热身结束。接下来，继续上难度。

让 AI 自己写一个贪吃蛇游戏

时钟毕竟太简单了。没有交互逻辑，没有状态管理，没有边界条件。

我需要一个真正能考验 Agent 自主推理和调试能力的任务，比如贪吃蛇。

这回的需求复杂度完全不在一个量级：Canvas 绘制、键盘事件监听、蛇的移动逻辑、食物随机生成、碰撞检测（撞墙和撞自己）、计分系统、游戏结束判定、重新开始功能。

同时我还要求 M2.7 用 Word 记录下来自己的开发过程。

结果如下：

在第 1 轮里，M2.7 没有着急写代码，它是先创建了一个规划。" 我要开发什么什么任务 "，" 这个任务需要用到什么工具 " 等等。

第 2 轮，进入正题。M2.7 会创建一个完整的 HTML 文件，包含所有功能，包括画布渲染、键盘控制、随机食物生成、计分、碰撞检测以及开始 / 重新开始功能。

第 3 轮，检查文件有没有被正确创建。

第 4 轮，检查语法，并且检查游戏的完整性。

第 5 轮，检查所有任务是否已经完成。

整个任务只需要 5 轮，共消耗 25882 个 token。

不过也要说说不足。

整个过程并不是一帆风顺的—— Agent 在早期的几轮迭代中，JSON 格式的工具调用偶尔会出错，导致框架解析失败，返回一个红色的错误提示。

M2.7 看到错误后能自我纠正，下一轮就输出了正确格式的 JSON，但这种 " 先犯错再改 " 的模式在需要长时间自主运行的 Agent 场景中是一个隐患——如果连续几轮都格式错误，可能会耗尽最大轮次限制而任务失败。

但总的来说，从时钟的 " 一次过 " 到贪吃蛇的 " 写→查→修→再验证 "，这两个任务放在一起看，恰好展现了 M2.7 作为 Agent 的两面：面对简单任务时的高效利落，和面对复杂任务时的自主调试能力。

这也正是 M2.7 官方最强调的核心能力——Agent Harness 能力，不仅能在给定的工具框架中完成任务，还能主动迭代和自我纠错。

第四场：2159 亿美元的投行级财报分析

前面三个测试，一个考 " 说 "，两个考 " 做 "。

最后一个测试，我们想换个方向。

现在有很多金融行业的人也在使用 Claude Opus 这样的大模型，原因很简单，它们能把复杂的数据制作成直观的图表形式。

我把英伟达 FY2026 的完整财报数据甩给了 M2.7。

然后我给了它一个任务：基于这些数据，生成三个专业交付物。

第一个是深度研究报告，要求投行风格，包含财务全景、五大业务板块分析、FY2027 预测模型、风险评估和估值分析。

第二个是交互式财务仪表盘，要求是蓝绿色风格的深色主题，包含图表、可调动的滑块，以及五个功能标签页。

第三个是 12 页演示文稿，要求投行风格，支持键盘翻页，包含数据可视化图表。

当然，这里必须诚实地说一句，这个测试的 " 含金量 " 需要打个折扣。因为财报数据是我预先搜集好喂给它的，而不是让它自己去搜索和整理的。

M2.7 在这个任务中，尽职扮演了一个 " 拿到所有原材料后进行加工和呈现 " 的分析师，如果我们让它自己搜集数据（这个对现在的模型来说并不难），那它完全可以扮演一个 " 从零开始做调研 " 的研究员。

但即便如此，它对复杂金融数据的理解能力、对多种输出格式的驾驭能力，以及生成专业级可视化内容的能力，都给我们留下了深刻印象。

这个测试直接对应了 M2.7 官方宣传的复杂 Office 自动化能力—— " 支持复杂 Excel/Word/PPT 办公任务及多轮编辑 "。从实测来看，在金融分析这个场景上，M2.7 确实能输出接近专业水准的内容。

写在最后：

还有一点特别想分享，MiniMax 也在做更多有趣的尝试，这一点也令人惊喜。

比如，MiniMax 这次官宣的时候就提到，他们构建了一个 Agent 交互系统 OpenRoom（openroom.ai），它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。有意思的是，原型项目已开源，这里面的代码大部分也是 AI 写的。

在这里，对话即驱动，实时产生视觉反馈与场景交互，角色可以主动地与环境交互。MiniMax 希望能够随着模型 Agentic 能力的提升和社区的共建持续进化，探索出更多人与 Agent 之间全新的交互方式。

这次测下来，我最大的感受其实不是 " 它又变强了 "，而是你开始能明显感觉到，一个模型不再只是等你提问的工具，而是可以被放进一个系统里持续运转的搭档。

我们评测挑选的场景是任何一个普通用户都可以上手用到的，从群聊模拟，到写代码，再到做分析报告，这些任务背后其实是同一件事：模型开始参与到一个完整流程里，而不是只负责某一个瞬间的输出。

当然，这一步还远远没有到终点。你依然能看到它在复杂推理、长流程稳定性上的边界，也能看到一些细节上的不稳定，比如工具调用格式错误、需要多轮修正才能收敛。这些问题在 " 单次对话 " 里可能不明显，但放进 Agent 这种长时间运行的框架里会被放大。

但有一点是比较直观的：当模型开始能在一个任务里自己往前推进、自己发现问题、再自己修正的时候，整个使用体验就变了。模型离 " 你问一句、它答一句 " 的形态越来越远，开始和你一起把一件事做完。

你的下一个生活、工作搭子，何必是人类？