MiniMax M3 不是不强，是有点不走寻常路。。。

6 月 1 日儿童节，大伙都收到礼物了没？

如果你没收到，也不必忧伤，不必心急。因为咱们国产模型 MiniMax，今日在官网准备了一份大礼——发布了他们最新的模型，MiniMax M3。

作为国产模型里数得上号的有力竞争者，MiniMax 这一发，多少是让人有点期待的。

关注 AI 圈的差友们应该都感觉到了，咱们国产模型在 5 月份是真卷起来了：先是 DeepSeek V4 直接官宣永久降价，GLM、Qwen 的口碑也是肉眼可见地往上走。

而这么一对比，MiniMax 的用户们，最近可算是爱之深、责之切了：别人都吃上好的了，给我也吃点呗？

这不今天就来了嘛，先来看看跑分。

按官方说法，M3 在软件工程领域，超过了 GPT-5.5 和 Gemini 3.1 Pro，接近 Claude Opus 4.7。架构上，靠自研的 MSA 架构，直接把上下文怼到了 1M，看着 Coding 和 Agent 能力非常强。

顺带，它还是个能看图、看视频的原生多模态模型，甚至能操作电脑桌面。在现在的 Agent 时代，这种能力肯定是越强越好的。

不过，跑分是一回事，实际使用当然还得看实测。

比如世超的同事中，就有一位 MiniMax 忠实粉丝，几个月前就老跟我说，MiniMax 哎呀太好用了，我要付费使用。

结果最近就频繁跟我吐槽，他说他对 M2 系列模型的评价是：神鬼二象性。

" 比如有一次，我让 OpenClaw 帮我找一下附近的麦当劳。

结果 Minimax 发现附近的麦当劳离得太远，然后以 " 快餐 " 为关键词，向我推荐了附近一些同样耗时短、能满足赶时间需求的中式快餐。他能理解到我想吃麦当劳是因为我想赶时间。"

" 但在一些活上就不尽人意了，比如某次询问日程问题时，它把‘前天’理解成了 yesterday，硬生生搞错了时间。"

于是在 M3 发布后，我也第一时间询问了他的意见。

他的评价是，嗯，确实有进步。

具体啥表现，世超也尝试了下。

首先，这个模型的原生多模态能力是实打实的，所以图片、视频，咱都能狠狠往里放。

比如，世超最近 Vibe Coding 了一个视频，这个视频里的元素都是由 AI 写的代码实现的。

于是我把它丢给了 Minimax M3。

它的解读基本上没啥问题，做这个视频的初衷就是把 21 世纪初的一些互联网审美做一个赛博化处理，诶，甚至还认识 " 差评 "，除了艺术字没识别出来，也无伤大雅。

Agent 能力这块，其实也不错，比如我在 Youtube 上随便找了个奥特曼的访谈视频，把网址丢给搭载 MiniMax M3 的龙虾，让它总结了一下。

但它手上也没有现成的 Youtube 转文字工具，只能自己想辙，失败一个换一个。

于是它一条路一条路自己试，先查电脑里装没装视频下载工具，发现没戏。然后想走第三方镜像站，又失败了。接着又现搭了个脚本，也没成。。

直到用上了最后一招，直接怼进了 YouTube App 用的内部接口，把字幕地址抠了出来，下载解析成了人话再发给我。

总结得确实不赖，时间切分得很细，基本上提炼出了所有关键信息。

我也让这只 OpenClaw 在桌面上，给我写了个 iOS 风格的天气卡片，不管是天气动画还是切换动画都还不错。

我也询问了同事这位 MiniMax 爱好者的体验，他也觉得，视频识别这块确实挺厉害的，识别的蛮准确，而且描述的密度也刚刚好。

幻觉的概率下降也很明显，之前处理问题时，顾头不顾尾的问题也没再遇到了。

从这里看，MiniMax 搭配 Agent 完成一点日常任务，其实问题不大。

不过，在测了一点其他问题之后，我体感上感觉有点不大对劲了。这个模型，好像是个 OpenClaw 的特化模型，除了在 OpenClaw 里用着还行，其他场景，偶尔会有点卡手。。。

比方说这个经典色盲问题，我同时询问了 DeepSeek v4 flash，Claude 4.7 Opus 和 MiniMax M3。

结果，回答的最好的居然是 DeepSeek，不仅看出来了，女儿是色盲，还看出来父亲被绿了。。

而 Claude 和 MiniMax 呢，虽然能看出来女儿是色盲，但根本没想到父亲是被绿了。。看来 D 老师还是中文界最高的山啊。

接着我又测了个编程任务，提示词都差不多，写一个单页面 html，一个不论我怎么拧，都会自动复原的四阶魔方。

因为我不会复原，必须让 AI 完成我未完成的愿望。

DeepSeek 的结果真的蛮惊艳的，点一下就能随机打乱，再点一下就能自动复原。

诶，MiniMax 的结果，就有点难绷了，拧着拧着，方块遁入虚空了。。

所以，世超测完还是能给大伙来点建议的。如果你日常用的比较多的是 OpenClaw 这种 Agent，那用 MiniMax M3 作为主力模型，其实是没多大毛病的，体验上来说还算优秀。

但如果日常的任务，是难度比较大的编程或者复杂任务，咱还是推荐咱们的 DeepSeek V4，或者 GPT5.5、Claude 4.8 之类的国外模型。

总的来说，MiniMax 这波更新，不算是惊艳吧，但也算是一次实打实的进步。

它更像是一双挺合脚的跑鞋，在 Agent 这条赛道上跑，是越来越顺的；但别的方面，其实可以有更优秀的模型选择。

不过话说回来，毕竟 Agent 才是接下来的主战场，不管是国内外模型，最近在卷的，也就编程和 Agent 能力了。而且，最近的 DeepSeek 降价、Qwen 崛起，MiniMax 上新，国模的快速进步也是我们看得见的。

至于那些还不够好的地方，也不急。毕竟国产模型进步的速度，肯定是能跟上咱吐槽的速度的。

撰文：不咕

编辑：江江 & 面线

美编：素描

图片、资料来源：

Minimax 官网

宙世代

一起剪