阿里云日前已开源首个原生端到端全模态AI模型

近日阿里云通义千问方面发布并开源多款全新模型，包括全模态模型 Qwen3-Omni、语音生成模型 Qwen3-TTS，以及图像编辑工具 Qwen-Image-Edit-2509。

其中，Qwen3-Omni 被定位为业界首个原生端到端全模态 AI 模型，可同步处理文本、图像、音频、视频等多种类型输入，并支持文本与自然语音实时流式输出，解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。

据了解，Qwen3-Omni 基于 MoE（专家混合）架构与 " 思考者 - 表达者 " 设计，并结合 AuT 预训练以获得强大的通用表征能力，同时采用多码本设计以将延迟降至最低。该该模型支持 119 种文本语言、19 种语音输入语言及 10 种语音输出语言。在 36 项音视频基准测试中，该模型有 22 项达到全球最新水平，32 项在开源模型中领先，其语音识别与对话能力已可对标 Gemini 2.5 Pro。

值得一提的是，阿里云通义千问方面还开源了通用型、细节丰富、低幻觉率的专用音频描述模型 Qwen3-Omni-30B-A3B-Captioner，以填补开源社区在细节描述与低幻觉率音频生成方面的空白。

而 Qwen3-TTS 支持 17 种音色与 10 种语言，其中含多种中国方言。据悉，Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的表现，超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，特别是在语音稳定性和音色相似度。

Qwen-Image-Edit-2509 则是发布于今年 8 月的 Qwen-Image-Edit 的升级版本，号称直接对标谷歌 Nano Banana。据了解，与 Qwen-Image-Edit 相比，Qwen-Image-Edit-2509 的改进主要包括多图像编辑支持、单图像一致性增强等。

需要注意的是，不久前阿里云方面还开源了全新动作生成模型 Wan2.2-Animate。据了解，该模型基于此前通义万相开源的 Animate Anyone 模型全面升级，在人物一致性、生成质量等指标上大幅提升，还同时支持动作模仿和角色扮演两种模式。该模型支持驱动人物、动漫形象和动物照片，可应用于短视频创作、舞蹈模板生成、动漫制作等领域。

【本文图片来自网络】

宙世代

一起剪

相关标签