华为云联手MiniMax,新模型多模态测试问鼎

6 月 12 日，华为云完成对 MiniMax 原生多模态旗舰模型 M3 的开源首发适配。在昇腾算力底座上，这台能直接 " 看懂 " 图片、视频，甚至操控电脑桌面的新模型，开始稳定输出 Token。华为云 CloudMatrix 智算云服务同步为其护航，确保长上下文推理平稳运行。

M3 背后的技术看点集中在 MiniMax 自研的全新注意力架构 MSA（MiniMax Sparse Attention）。凭借这一架构，M3 把上下文窗口一举拉到 100 万 token 的超长级别，同时保持原生多模态能力——不仅能处理图文，还可直接操作桌面界面，这对需要多步交互的智能体任务尤为关键。

评测成绩也在同一天披露。在主要考察编程能力的 SWE-Bench Pro 上，M3 的得分超越了 GPT-5.5 和 Gemini 3.1 Pro，逼近了 Opus 4.7。衡量 SVG 生成质量的 SVG-Bench 中，M3 直接超过了 Opus 4.7。多模态文档理解测试 OmniDocBench 给出另一组对比：M3 得分高过 Gemini 3.1 Pro。而针对自主 Agent 端到端设计的 Claw-Eval 框架中，M3 拿下了当前最高分，多项基准都指向了同一个事实——这是一款在多模态与智能体方向上同时发力的实战型模型。

华为云在算力层针对 M3 做了精细适配。MSA 的算子通过精确的 KV 分块与连续访存策略，让模型在长上下文场景下依然能充分利用昇腾算力，上下文缩放能力被完整释放。专家混合（MOE）结构也在多卡间实现了均衡优化，各专家模块高效协作，为 M3 大规模推理提供了稳定的性能底座。

从模型架构到算力适配，MiniMax 和华为云这次几乎同步做了端到端的优化。对于关注多模态智能体落地的开发者来说，M3 在昇腾上的实战表现给出了一个明确的信号：原生多模态加超长上下文的组合，正在让模型从 " 看懂 " 走向 " 会干 "。

宙世代

一起剪

相关标签