
智东西
作者 | 李水青
编辑 | 心缘
智东西 2 月 11 日报道,今日,蚂蚁集团开源全模态大模型Ming-flash-omni 2.0。在多项公开基准测试中,该模型的视觉语言理解、语音可控生成、图像生成与编辑等能力表现突出,赶超
Qwen3-Omini-30B-A3B-Instruct 等同类模型。
Ming-flash-omni 2.0 是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成。
与蚂蚁 2025 年 5 月推出的 Ming-flash-omni Preview 相比,Ming-flash-omni 2.0 实现了跨代升级,侧重于优化以下关键领域的功能:
1、专家级多模态认知:它能精准识别动植物以及文化典故,并对文物进行专家级分析。通过将高分辨率视觉捕捉与庞大的知识图谱相结合,该模型实现了 " 视觉到知识 " 的合成,知识理解能力更强。
2、沉浸式可控统一声学合成:它引入统一的端到端声学生成流程,将语音、音频和音乐集成于单一通道中。该模型利用连续自回归算法结合扩散变换器 ( DiT ) 头部,实现了零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围,大幅提高听觉体验。
3、高动态可控图像生成与处理:它采用原生多任务架构,整合了分割、生成和编辑功能,实现了精细的时空语义解耦。它在高动态内容创作方面表现卓越,包括大气重建、无缝场景合成和上下文感知物体移除,且能在复杂的图像处理任务中达到顶尖精度。
目前,Ming-flash-omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布,用户也将可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。
Hugging Face 地址:
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub 地址:
https://github.com/inclusionAI/Ming
魔搭社区地址:
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
体验入口:
https://ling.tbox.cn/chat
一、动植物与知识识别变强,音频三合一生成是特色
首先来看看 Ming-flash-omni 2.0 的实际应用效果。智东西在 Ling Studio 还未收到更新,我们可以先从几组官方公布的案例中来看看 Ming-flash-omni 2.0 能做什么。
在多模态认知方面,Ming-flash-omni 2.0 能较精准识别动植物,如下图所示,当用户上传几张马的图片和植物的图片,Ming-flash-omni 2.0 能够比较准确分辨出马和植物的品种。

再看看 Ming-flash-omni 2.0 侧重提升的文化典故识别能力。当用户让该模型分别介绍一张关于马的文物照片和绘画照片,其能够比较准确的识别出这是 " 马踏飞燕 " 和徐悲鸿的《奔马图》,并且进行了较专业的解读,可以看到内置知识变强及知识理解能力的提升。

Ming-flash-omni 2.0 支持自由多模态切换,用户可以用语音对话,让 Ming-flash-omni 2.0 识别和生成多种模态的内容,这些动作都是交替进行的。
在流媒体对话方面,蚂蚁上传了一个用 Ming-flash-omni 2.0 识别舞龙狮表演的视频,其不仅能够准确识别事物,还能够讲解背后文化知识,延迟较低。不过,其语音听起来仍然没有达到完全的真人感,能听出来是 AI 声音。
在可控统一声学合成方面,两个人声在讲解 Ming-flash-omni 2.0 可以为音频添加背景音乐、音效,而这个音频本身正是 Ming-flash-omni 2.0 生成的。人声之下垫有节奏明快的背景音乐。据悉,其还支持零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围。
在图像生成与处理方面,如下所示,当用户输入一张照片,并输入一段提示词,比如 " 背景换成澳大利亚蓝天,姿势自然一点 "、" 背景换成西湖并改成拍手 " 等,就可以得到所需的照片,能达到较高的修改精度。这一高精度能力在谷歌 Nano Banana 等专用模型那里也仍有难度,Ming-flash-omni 2.0 实际表现如何,能否达到官方案例效果,还有待用户亲自实操后来评判。
二、全模态能力匹敌专业模型,多项能力超 Gemini 2.5 Pro
看完实际应用,再来看看模型测评成绩。
在通用图像理解方面,Ming-flash-omni 2.0 在 HallusionBench、MMvet 测评上超越了 Gemini 2.5 Pro、
Qwen3-Omini-30B-A3B-Instruct 等模型,具有较强的内容理解和知识能力,较少的幻觉情况。
在文档理解方面,Ming-flash-omni 2.0 在 ChartQA、OCRBench 测评上超越了 Gemini 2.5 Pro,在 AI2D 上得分略低于 Gemini 2.5 Pro,但整体得分都在 87 分以上,在处理文档、图表识别等方面表现较好。
在 STEM(科学、技术、工程、数学)方面,Ming-flash-omni 2.0 的测评表现全面超越
Qwen3-Omini-30B-A3B-Instruct,得分接近 Gemini 2.5 Pro。

Ming-flash-omni 2.0 的实测表现
在定位与内部知识方面,其在图像中定位和指定特定对象的能力较强,接近 90 分,内置知识库的准确性和丰富度得分也远高于 Gemini 2.5 Pro、
Qwen3-Omini-30B-A3B-Instruct。
在多图像理解方面,该模型在 MVbench、CharadesSTA 上的得分超过了 Gemini 2.5 Pro、
Qwen3-Omini-30B-A3B-Instruct,在 MLVU 上也表现较好,但略低于 Gemini 2.5 Pro。
在语音方面,作为业界首个全场景音频统一生成模型,其在语音识别(WER 越低越好)和语音生成准确率的表现都非常优异,在多个基准上领先。
在图像生成、编辑和分割方面,其在 DPGBench、Geneval、RefCOCO-val 等测评中都取得了匹敌专用模型的成绩。
三、统一架构,降低多模型串联成本和复杂度
业内普遍认为,多模态大模型最终会走向更统一的架构。但现实是 " 全模态 " 模型往往很难同时做到通用与专精,在特定单项能力上往往不及专用模型。
Ming-omni 系列正是在这一背景下持续演进,早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新 2.0 版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。
2025 年 5 月,蚂蚁开源了 MoE 架构的统一多模态大模型Ming-lite-omni,实现了以单一模型处理包括图像、文本、音频和视频在内的广泛输入类型;2025 年 7 月,蚂蚁集团推出升级的Ming-lite-omni v1.5,在可控图像生成、生成式图像分割、深度及边缘检测三大维度能力上得到提升。
2025 年 10 月,蚂蚁集团进一步开源了Ming-flash-omni-Preview,成为当时首个参数规模达到千亿的开源全模态大模型。当时,Ming-flash-omni-Preview 仍有不完善的地方,包括视觉文本理解能力与顶尖专用 VL 大模型仍存在一定差距,语音多轮对话效果以及高质量的音色克隆仍需优化,在复杂布局文字渲染与编辑、特定 IP 角色的生成方面还有待提升。
此次蚂蚁集团将Ming-flash-omni 2.0在这些方面实现提升,达到了整体跨代的效果。Ming-flash-omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,主要围绕 "看得更准、听得更细、生成更稳" 三大进行了优化。

视觉方面,该模型融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力。
音频方面,其实现了语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力。
图像方面,其增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。
百灵模型负责人周俊谈道,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。
Ming-flash-omni 2.0 模型的开源,意味着其核心能力以 " 可复用底座 " 的形式对外释放,为端到端多模态应用开发提供统一能力入口。
结语:统一架构全模态模型加速发展
随着自回归路线统一了语言模型领域,多模态领域能否出现一个统一的架构路线?国内外多家企业或机构展开了统一多模态学习的训练,打造性能出色的原生多模态大模型,蚂蚁集团在这一领域有颇多尝试。
尽管相比最顶尖的专业模型仍有差距,但以 Ming-flash-omni 2.0 为代表的全模态模型已经逼近专业模型性能。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。


登录后才可以发布评论哦
打开小程序可以发布评论哦