【CNMO 科技消息】近日,阿里发布千问新一代全模态大模型 Qwen3.5-Omni,在音视频理解、识别、交互等 215 项任务中取得 SOTA(性能最佳),超越 Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。它还拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别多达 113 种语言和方言。

据 CNMO 了解,Qwen3.5-Omni 采用混合注意力 MoE 架构,在海量文本、视觉以及超过 1 亿小时的音视频数据上进行了原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。其在音视频理解、跨模态推理、Agent 方面实现了性能飞跃,在音视频理解、语音识别、多语种翻译、对话等 215 项第三方性能测试任务中取得 SOTA。比如,在聚焦视听交互能力的 DailyOmni、QualcommInteractive、Omni Cloze 等测试中,Qwen3.5-Omni 得分大幅领先 Gemini-3.1 Pro;在检测嘈杂环境抗干扰能力的 WenetSpeech 测试中,Qwen3.5-Omni 错误率远低于 Gemini,识别准确率极高;在考察多语言语音生成质量的 Multi-Lingual ( 30lang ) 测试中,Qwen3.5-Omni 同样显著优于 Gemini-2.5-Pro-TTS。

目前,阿里云百炼已上新 Qwen3.5-Omni 的 Plus、Flash、Light 三种 API,可广泛应用于短视频 / 直播平台、游戏、自媒体等行业。普通用户也可前往 Qwen Chat 免费体验,开发者和企业可通过阿里云百炼平台调用 Qwen3.5-Omni 模型,每百万 Tokens 输入不到 0.8 元。


登录后才可以发布评论哦
打开小程序可以发布评论哦