全球全模态大模型竞赛迎来新变数。
3 月 30 日,阿里巴巴正式推出千问系列新一代全模态大模型 Qwen3.5-Omni。
这款模型在音视频理解、跨模态推理、实时交互等 215 项第三方评测中拿下 SOTA(State of the Art),直接对标并超越了谷歌 Gemini-3.1 Pro 的诸多核心指标。

Qwen3.5-Omni 跑分图
与市面上多数 " 拼接式 " 多模态方案不同,Qwen3.5-Omni 采用混合注意力 MoE 架构,在海量文本、视觉数据及超过 1 亿小时的音视频素材上完成了端到端的原生预训练。
这意味着,Qwen3.5-Omni 并非简单地将语音转文字再处理,而是真正具备对视频画面、人物情绪、对话逻辑的深层次理解能力。
据官方披露,Qwen3.5-Omni 支持 113 种语言及方言的语音识别(包括毛利语、海南方言等小语种),以及 36 种语言的语音合成。在考察抗噪能力的 WenetSpeech 测试中,其错误率远低于 Gemini;而在 Multi-Lingual 30 语言语音生成评测中,表现同样压过 Gemini-2.5-Pro-TTS 一头。

更值得关注的是其实时交互的 " 情商 " —— Qwen3.5-Omni 能精准区分用户的有效指令与随口附和,自主判断是否需要调用工具获取实时信息(如天气查询),对话流畅度已接近真人水平。
如果说年初爆火的 Vibe Coding 还停留在文字 / 图片生成代码阶段,Qwen3.5-Omni 则直接将这一概念推进到了音视频维度。
用户只需打开摄像头,对着草图或实物口述需求,哪怕是包含复杂产品逻辑的描述,模型也能直接输出带 UI 界面的产品原型代码。有意思的是,这一能力并非人工刻意调教的结果,而是模型在扩展原生多模态能力过程中自然涌现的副产品。
这种所见即所得的编程方式,对于产品经理、设计师乃至普通用户而言,意味着从想法到原型的路径被压缩到了分钟级。
除此之外,Qwen3.5-Omni 在专业内容生产领域同样展现出降本增效的潜力。
模型可对视频画面主体、人物关系、情绪起伏进行像素级拆解,自动完成章节切片与时间戳标注,支持超过 10 小时的长音频输入。以往需要数小时的人工后期梳理工作,如今可被缩短至秒级。短视频平台、直播平台、内容审核机构、游戏厂商等内容密集型行业,或将成为首批受益者。
难能可贵的是,阿里在商业化路径上延续了千问系列的高性价比策略。
目前,Qwen3.5-Omni 已通过阿里云百炼平台开放 Plus、Flash、Light 三档 API 接口,普通用户也可在 Qwen Chat 免费体验。定价方面,每百万 Tokens 输入价格不到 0.8 元人民币,不足 Gemini-3.1 Pro 的十分之一。
据第三方数据,千问系列目前稳居中国企业级大模型调用市场头把交椅,覆盖互联网、金融、消费电子及汽车等行业的超 100 万家企业客户。
过去半年,市场注意力被 OpenAI 和谷歌多模态迭代牵引,国内厂商多被质疑为跟随者。但这次,阿里在音视频理解、方言识别和实时交互等细分维度实现了反超,且选择了完全开放的 API 策略。这或许正是中国 AI 企业在全球化竞争中找到的有效路径:不追求在所有榜单上霸榜,但在特定高价值场景建立不可替代性。
如今大模型技术门槛被抹平,剩下的就是执行力的较量了。


登录后才可以发布评论哦
打开小程序可以发布评论哦