阿里发布Qwen3.5-Omni 多模态能力超越Gemini-3.1 Pro

【CNMO 科技消息】近日，阿里发布千问新一代全模态大模型 Qwen3.5-Omni，在音视频理解、识别、交互等 215 项任务中取得 SOTA（性能最佳），超越 Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。它还拥有极强的音视频理解与实时交互能力，能够对音视频内容生成详细且可控的结构化描述，可识别多达 113 种语言和方言。

据 CNMO 了解，Qwen3.5-Omni 采用混合注意力 MoE 架构，在海量文本、视觉以及超过 1 亿小时的音视频数据上进行了原生多模态预训练，可实现图片、视频、语音、文字等全模态内容的输入与输出。其在音视频理解、跨模态推理、Agent 方面实现了性能飞跃，在音视频理解、语音识别、多语种翻译、对话等 215 项第三方性能测试任务中取得 SOTA。比如，在聚焦视听交互能力的 DailyOmni、QualcommInteractive、Omni Cloze 等测试中，Qwen3.5-Omni 得分大幅领先 Gemini-3.1 Pro；在检测嘈杂环境抗干扰能力的 WenetSpeech 测试中，Qwen3.5-Omni 错误率远低于 Gemini，识别准确率极高；在考察多语言语音生成质量的 Multi-Lingual ( 30lang ) 测试中，Qwen3.5-Omni 同样显著优于 Gemini-2.5-Pro-TTS。

目前，阿里云百炼已上新 Qwen3.5-Omni 的 Plus、Flash、Light 三种 API，可广泛应用于短视频 / 直播平台、游戏、自媒体等行业。普通用户也可前往 Qwen Chat 免费体验，开发者和企业可通过阿里云百炼平台调用 Qwen3.5-Omni 模型，每百万 Tokens 输入不到 0.8 元。

宙世代

一起剪

相关标签