钛媒体 App 2 月 11 日消息,蚂蚁集团开源发布全模态大模型 Ming-flash-omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro。Ming-flash-omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。(广角观察)

钛媒体 App 2 月 11 日消息,蚂蚁集团开源发布全模态大模型 Ming-flash-omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro。Ming-flash-omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。(广角观察)
登录后才可以发布评论哦
打开小程序可以发布评论哦