阿里Qwen3.5-Omni发布：音视频交互新突破，全模态能力登顶全球

全球全模态大模型竞赛迎来新变数。

3 月 30 日，阿里巴巴正式推出千问系列新一代全模态大模型 Qwen3.5-Omni。

这款模型在音视频理解、跨模态推理、实时交互等 215 项第三方评测中拿下 SOTA（State of the Art），直接对标并超越了谷歌 Gemini-3.1 Pro 的诸多核心指标。

Qwen3.5-Omni 跑分图

与市面上多数 " 拼接式 " 多模态方案不同，Qwen3.5-Omni 采用混合注意力 MoE 架构，在海量文本、视觉数据及超过 1 亿小时的音视频素材上完成了端到端的原生预训练。

这意味着，Qwen3.5-Omni 并非简单地将语音转文字再处理，而是真正具备对视频画面、人物情绪、对话逻辑的深层次理解能力。

据官方披露，Qwen3.5-Omni 支持 113 种语言及方言的语音识别（包括毛利语、海南方言等小语种），以及 36 种语言的语音合成。在考察抗噪能力的 WenetSpeech 测试中，其错误率远低于 Gemini；而在 Multi-Lingual 30 语言语音生成评测中，表现同样压过 Gemini-2.5-Pro-TTS 一头。

更值得关注的是其实时交互的 " 情商 " —— Qwen3.5-Omni 能精准区分用户的有效指令与随口附和，自主判断是否需要调用工具获取实时信息（如天气查询），对话流畅度已接近真人水平。

如果说年初爆火的 Vibe Coding 还停留在文字 / 图片生成代码阶段，Qwen3.5-Omni 则直接将这一概念推进到了音视频维度。

用户只需打开摄像头，对着草图或实物口述需求，哪怕是包含复杂产品逻辑的描述，模型也能直接输出带 UI 界面的产品原型代码。有意思的是，这一能力并非人工刻意调教的结果，而是模型在扩展原生多模态能力过程中自然涌现的副产品。

这种所见即所得的编程方式，对于产品经理、设计师乃至普通用户而言，意味着从想法到原型的路径被压缩到了分钟级。

除此之外，Qwen3.5-Omni 在专业内容生产领域同样展现出降本增效的潜力。

模型可对视频画面主体、人物关系、情绪起伏进行像素级拆解，自动完成章节切片与时间戳标注，支持超过 10 小时的长音频输入。以往需要数小时的人工后期梳理工作，如今可被缩短至秒级。短视频平台、直播平台、内容审核机构、游戏厂商等内容密集型行业，或将成为首批受益者。

难能可贵的是，阿里在商业化路径上延续了千问系列的高性价比策略。

目前，Qwen3.5-Omni 已通过阿里云百炼平台开放 Plus、Flash、Light 三档 API 接口，普通用户也可在 Qwen Chat 免费体验。定价方面，每百万 Tokens 输入价格不到 0.8 元人民币，不足 Gemini-3.1 Pro 的十分之一。

据第三方数据，千问系列目前稳居中国企业级大模型调用市场头把交椅，覆盖互联网、金融、消费电子及汽车等行业的超 100 万家企业客户。

过去半年，市场注意力被 OpenAI 和谷歌多模态迭代牵引，国内厂商多被质疑为跟随者。但这次，阿里在音视频理解、方言识别和实时交互等细分维度实现了反超，且选择了完全开放的 API 策略。这或许正是中国 AI 企业在全球化竞争中找到的有效路径：不追求在所有榜单上霸榜，但在特定高价值场景建立不可替代性。

如今大模型技术门槛被抹平，剩下的就是执行力的较量了。

宙世代

一起剪

相关标签