差评 5小时前
MiniMax M3 不是不强,是有点不走寻常路。。。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

6 月 1 日儿童节,大伙都收到礼物了没?

如果你没收到,也不必忧伤,不必心急。因为咱们国产模型 MiniMax,今日在官网准备了一份大礼——发布了他们最新的模型,MiniMax M3。

作为国产模型里数得上号的有力竞争者,MiniMax 这一发,多少是让人有点期待的。

关注 AI 圈的差友们应该都感觉到了,咱们国产模型在 5 月份是真卷起来了:先是 DeepSeek V4 直接官宣永久降价,GLM、Qwen 的口碑也是肉眼可见地往上走。

而这么一对比,MiniMax 的用户们,最近可算是爱之深、责之切了:别人都吃上好的了,给我也吃点呗?

这不今天就来了嘛,先来看看跑分。

按官方说法,M3 在软件工程领域,超过了 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。架构上,靠自研的 MSA 架构,直接把上下文怼到了 1M,看着 Coding 和 Agent 能力非常强。

顺带,它还是个能看图、看视频的原生多模态模型,甚至能操作电脑桌面。在现在的 Agent 时代,这种能力肯定是越强越好的。

不过,跑分是一回事,实际使用当然还得看实测。

比如世超的同事中,就有一位 MiniMax 忠实粉丝,几个月前就老跟我说,MiniMax 哎呀太好用了,我要付费使用。

结果最近就频繁跟我吐槽,他说他对 M2 系列模型的评价是:神鬼二象性。

" 比如有一次,我让 OpenClaw 帮我找一下附近的麦当劳。

结果 Minimax 发现附近的麦当劳离得太远,然后以 " 快餐 " 为关键词,向我推荐了附近一些同样耗时短、能满足赶时间需求的中式快餐。他能理解到我想吃麦当劳是因为我想赶时间。"

" 但在一些活上就不尽人意了,比如某次询问日程问题时,它把‘前天’理解成了 yesterday,硬生生搞错了时间。"

于是在 M3 发布后,我也第一时间询问了他的意见。

他的评价是,嗯,确实有进步。

具体啥表现,世超也尝试了下。

首先,这个模型的原生多模态能力是实打实的,所以图片、视频,咱都能狠狠往里放。

比如,世超最近 Vibe Coding 了一个视频,这个视频里的元素都是由 AI 写的代码实现的。

于是我把它丢给了 Minimax M3。

它的解读基本上没啥问题,做这个视频的初衷就是把 21 世纪初的一些互联网审美做一个赛博化处理,诶,甚至还认识 " 差评 ",除了艺术字没识别出来,也无伤大雅。

Agent 能力这块,其实也不错,比如我在 Youtube 上随便找了个奥特曼的访谈视频,把网址丢给搭载 MiniMax M3 的龙虾,让它总结了一下。

但它手上也没有现成的 Youtube 转文字工具,只能自己想辙,失败一个换一个。

于是它一条路一条路自己试,先查电脑里装没装视频下载工具,发现没戏。然后想走第三方镜像站,又失败了。接着又现搭了个脚本,也没成。。

直到用上了最后一招,直接怼进了 YouTube App 用的内部接口,把字幕地址抠了出来,下载解析成了人话再发给我。

总结得确实不赖,时间切分得很细,基本上提炼出了所有关键信息。

我也让这只 OpenClaw 在桌面上,给我写了个 iOS 风格的天气卡片,不管是天气动画还是切换动画都还不错。

我也询问了同事这位 MiniMax 爱好者的体验,他也觉得,视频识别这块确实挺厉害的,识别的蛮准确,而且描述的密度也刚刚好。

幻觉的概率下降也很明显,之前处理问题时,顾头不顾尾的问题也没再遇到了。

从这里看,MiniMax 搭配 Agent 完成一点日常任务,其实问题不大。

不过,在测了一点其他问题之后,我体感上感觉有点不大对劲了。这个模型,好像是个 OpenClaw 的特化模型,除了在 OpenClaw 里用着还行,其他场景,偶尔会有点卡手。。。

比方说这个经典色盲问题,我同时询问了 DeepSeek v4 flash,Claude 4.7 Opus 和 MiniMax M3。

结果,回答的最好的居然是 DeepSeek,不仅看出来了,女儿是色盲,还看出来父亲被绿了。。

而 Claude 和 MiniMax 呢,虽然能看出来女儿是色盲,但根本没想到父亲是被绿了。。看来 D 老师还是中文界最高的山啊。

接着我又测了个编程任务,提示词都差不多,写一个单页面 html,一个不论我怎么拧,都会自动复原的四阶魔方。

因为我不会复原,必须让 AI 完成我未完成的愿望。

DeepSeek 的结果真的蛮惊艳的,点一下就能随机打乱,再点一下就能自动复原。

诶,MiniMax 的结果,就有点难绷了,拧着拧着,方块遁入虚空了。。

所以,世超测完还是能给大伙来点建议的。如果你日常用的比较多的是 OpenClaw 这种 Agent,那用 MiniMax M3 作为主力模型,其实是没多大毛病的,体验上来说还算优秀。

但如果日常的任务,是难度比较大的编程或者复杂任务,咱还是推荐咱们的 DeepSeek V4,或者 GPT5.5、Claude 4.8 之类的国外模型。

总的来说,MiniMax 这波更新,不算是惊艳吧,但也算是一次实打实的进步。

它更像是一双挺合脚的跑鞋,在 Agent 这条赛道上跑,是越来越顺的;但别的方面,其实可以有更优秀的模型选择。

不过话说回来,毕竟 Agent 才是接下来的主战场,不管是国内外模型,最近在卷的,也就编程和 Agent 能力了。而且,最近的 DeepSeek 降价、Qwen 崛起,MiniMax 上新,国模的快速进步也是我们看得见的。

至于那些还不够好的地方,也不急。毕竟国产模型进步的速度,肯定是能跟上咱吐槽的速度的。

撰文:不咕

编辑:江江 & 面线

美编:素描

图片、资料来源

Minimax 官网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论