狂揽200余项SOTA！阿里发布Qwen3.5-Omni：多模态能力超越Gemini-3.1 Pro

快科技 3 月 30 日消息，阿里今日正式发布千问新一代全模态大模型 Qwen3.5-Omni。

据悉，Qwen3.5-Omni 采用混合注意力 MoE 架构，可实现图片、视频、语音、文字等全模态内容的输入与输出。

在音视频理解、识别、交互等 215 项任务中，Qwen3.5-Omni 取得 SOTA（性能最佳），超越 Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。

例如在聚焦视听交互能力的 DailyOmni、QualcommInteractive、Omni Cloze 等测试中，Qwen3.5-Omni 得分大幅领先 Gemini-3.1 Pro。

在检测嘈杂环境抗干扰能力的 WenetSpeech 测试中，Qwen3.5-Omni 错误率远低于 Gemini，识别准确率极高。

在考察多语言语音生成质量的 Multi-Lingual ( 30lang ) 测试中，Qwen3.5-Omni 同样显著优于 Gemini-2.5-Pro-TTS。

目前，Qwen3.5-Omni 拥有极强的音视频理解与实时交互能力，能够对音视频内容生成详细且可控的结构化描述。

新模型支持 113 种语言及方言的语音识别和 36 种语言及方言的语音生成，就连使用人数不足一百万的毛利语和国内的海南方言，也能精准识别。

同时，基于一系列技术创新，Qwen3.5-Omni 还将 Vibe Coding 能力推入下一阶段。

与纯文本或图片驱动的 Vibe Coding 不同，千问可以实现音视频编程：打开摄像头，用户对着草图口述需求，哪怕是包括复杂产品逻辑的描述，模型也能直接生成带有复杂 UI 的产品原型界面，真正实现 " 动动嘴即可编程 "。

而 Qwen3.5-Omni 顶尖的全模态能力，还能为专业领域带来超级生产力。

新模型可对画面主体、人物关系、对话逻辑、乃至人物情绪起伏进行极细的拆解，并自动完成视频章节切片与时间戳标注，支持超过 10 小时的音频输入。

目前，阿里云百炼已上新 Qwen3.5-Omni 的 Plus、Flash、Light 三种 API，可广泛应用于短视频 / 直播平台、游戏、自媒体等行业。

普通用户可前往 Qwen Chat 免费体验，开发者和企业可通过阿里云百炼平台调用 Qwen3.5-Omni 模型，每百万 Tokens 输入不到 0.8 元，比 Gemini-3.1 Pro 的 1/10 还低。

当前，千问已稳居中国企业级大模型调用市场第一，服务涵盖互联网、金融、消费电子及汽车等重点行业超 100 万家客户。

宙世代