
被称为「欧洲版 DeepSeek」的 Mistral AI 在被 OpenAI、Google 和中国开源模型 DeepSeek、Qwen 夹击大半年后,终于坐不住了,正式发布了新一代 Mistral 3 系列模型。
Mistral AI 是一家总部位于法国的大模型公司。据报道,今年 9 月,英伟达第三次出手投资这家初创企业。经此,Mistral 的估值达到约 135 亿美元,成为欧洲 AI 领域最受瞩目的独角兽之一。

这一次,Mistral 居然只盯着中国模型打
Mistral 3 这次带来了旗舰模型 Mistral Large 3,以及三款高性价比的小模型 Ministral ( 3B、8B、14B ) 。
其中 Mistral Large 3 是绝对的主角,总参数量为 675B,其中活跃参数为 41B,这是自 2023 年底至 2024 年初的 Mixtral 8x7B 和 8x22B 以来,Mistral 首个开放权重的混合专家模型。
但最让我感到「不对劲」的是官方的对比策略。
在官方的跑分图里,Mistral 竟然完全无视了 GPT-5.1 或 Gemini 3,而是直接把枪口对准了中国的 DeepSeek-V3.1 和 Kimi-K2。
Mistral 的逻辑很直接:我的参数量只有 Kimi 的一半左右,但我的性能跟你五五开,甚至更强。
官方晒出的成绩单如下:
赢面: 在 MMMLU 和 AMC 上,Mistral Large 3 分别拿到了 85.5 和 52.0 的高分,略微领先 DeepSeek-V3.1。
输面: 在程序员最关心的 LiveCodeBench 和 SimpleQA 上,Mistral Large 3 还是输给了 Kimi-K2。


比 DeepSeek 笨,还贵 3 倍?
虽然 Mistral 试图证明自己是「效率之王」,但在 X 上,科技博主直接泼了一盆冷水,甚至用了「Mistral 正在缓慢死亡 ( slow death ) 」这样严重的词。
他的评价简单粗暴,列出了 Mistral 新模型的三大罪状:
1. 更笨: 脑子不如 DeepSeek 好使。
2. 更贵: 价格却是 DeepSeek 的 3 倍。
3. 更慢: 推理速度甚至比 GPT-5 还慢。

这确实戳到了痛点。在 Artificial Analysis 的最新综合 AI 指数榜单上,Mistral Large 3 的得分只有 38 分。
看看排在前面的谁?Gemini 3 Pro(73 分)、Claude Opus 4.5(70 分)、GPT-5.1(70 分)。Mistral 距离第一梯队的差距,已经不是「追赶」,而是断层了。

在 LMArena 排行榜中,它在开源非推理模型中排第二,总榜第六。成绩尚可,但绝对称不上「屠榜」。

有测试者发现 Mistral Large 3 各个方面都表现不佳:
该模型难以正确执行工具调用,常会输出格式错误或无效的工具调用指令。
在基于图像的基准测试中表现平平。

真正值得冲的,其实是小模型
Ministral 3 是所有开源模型中性价比最高的产品。每种参数规模均提供基础版、指令版和推理版,且均具备图像理解能力,全部基于 Apache 2.0 许可证开源。
这意味着什么?你可以免费商用,随便魔改。
全能: 所有尺寸都支持图像理解,不再是「瞎子」 。
能打: 14B 的推理版在 AIME'25 测试中准确率达到了 85%。

Mistral 3 确实进步了,就像网友说的那样:欧洲仍有一家前沿模型制造商能基本跟上中国开源模型的步伐,尽管 Mistral 尚未推出推理器,其实际性能仍落后于时代。
但在 DeepSeek 把大模型价格打下来的今天,仅仅做到「性能不错」已经不够了。用户要的是极致的聪明,或者极致的便宜。
目前的 Mistral ,似乎卡在了一个尴尬的中间位置。能不能成为「欧洲之光」,可能真得看后续的迭代了。


