文 | 不慌实验室,作者|钱晶,编辑|陈肖冉
3 月 30 日,阿里云通义实验室正式发布旗舰级原生全模态大模型 Qwen3.5-Omni,为国内火热的大模型赛道再添变量。
部分超越 Gemini-3.1 Pro
作为通义千问系列的全新迭代产品,Qwen3.5-Omni 不同于行业内常见的 " 视觉模型 + 语言模型 + 语音模型 " 的拼接式方案,该模型采用原生端到端架构,基于超 1 亿小时的音视频数据完成预训练,直接打通文本、图像、音频、视频的底层语义逻辑,彻底解决了多模态信息传递中的损耗与延迟问题。
官方数据显示,该模型在音频及音视频分析、推理、对话、翻译等 30 多项国际权威基准测试中,拿下了 215 项 SOTA(最先进水平)成绩,通用音频理解能力全面超越谷歌 Gemini-3.1 Pro,音视频理解能力与之持平,同时文本、视觉能力保持了同尺寸单模态模型的水准,实现了行业长期难以突破的 " 全模态不降智 "。
在核心能力配置上,Qwen3.5-Omni 系列包含 Plus、Flash、Light 三种尺寸的 Instruct 版本,支持 256k 超长上下文,可处理超过 10 小时的音频输入与 400 秒的 720P 音视频输入,原生支持 113 种语种和方言的语音识别、36 种语种的语音生成,同时新增语义打断、音色克隆、复杂工具调用等能力。
更值得关注的是,模型未经专门训练便自然涌现出 Audio-Visual Vibe Coding 能力,可根据音视频指令直接生成可运行的代码,实现了从 " 感知理解 " 到 " 执行落地 " 的能力跨越。
同步上线的还有配套的实时 API 服务,基于 WebSocket 协议实现低延迟流式交互,内置 VAD 语音活动检测功能,可自动识别用户语音的起止节点,为开发者提供了开箱即用的全模态能力接口。
此次发布,也是阿里巴巴集团将 AI 业务升级为集团战略核心、统一 " 千问 " 品牌后的首个旗舰级全模态产品,标志着阿里的全栈 AI 布局进入了技术落地与生态扩张的全新阶段。
核心落子
作为国内云计算与 AI 赛道的头部玩家,阿里云在大模型领域的布局已形成完整的生态闭环,而 Qwen3.5-Omni 的发布,正是其 "AI 驱动云计算 " 战略的核心落子。
市场数据印证了这一战略的成效。根据沙利文发布的报告,2025 年下半年,中国企业级大模型日均调用量飙升至 37.0 万亿 tokens,较上半年增长 263%,其中阿里云千问的市场占比跃升至 32.1%,相较上半年几乎翻倍,稳居国内企业级大模型市场首位。
在商业化层面,阿里 AI 相关产品收入已连续 10 个季度实现三位数同比增长,集团更是明确了 " 未来五年云和 AI 商业化年收入突破 1000 亿美元 " 的战略目标,而以 Qwen 系列为核心的 MaaS(模型即服务)业务,被定位为未来五年云和 AI 营收增长的核心关键。
此次发布进一步完善了阿里大模型的产品矩阵。三种尺寸的版本可灵活适配从企业级复杂场景到端侧轻量化应用的全场景需求,而极具普惠性的定价策略,则成为其抢占市场的核心抓手,模型 API 输入价格每千 Token 仅 0.0016 元;同时为开发者提供了开通后 180 天内各 100 万 Token 的免费额度,大幅降低了全模态能力的应用门槛。
从行业竞争格局来看,中国大模型市场已从早期的 " 百模大战 " 进入头部厂商比拼生态与服务能力的新阶段,阿里云千问与字节豆包、DeepSeek 共同组成了行业第一梯队,竞争焦点也从单一的文本对话能力,全面升级为多模态理解与场景落地能力。
Qwen3.5-Omni 的发布,恰好踩中了全球大模型行业的核心转型拐点。
2026 年,大模型行业的竞争逻辑已发生根本性转变,从过去的 " 参数规模竞赛 " 全面转向 " 模态能力竞赛 " 与 " 场景落地竞赛 ",原生全模态、实时交互、物理世界感知能力,已经成为头部厂商的核心战场,也是行业公认的通往通用人工智能(AGI)的必经之路。
全模态普惠化
对于中国 AI 产业而言,Qwen3.5-Omni 的突破带来了三重核心价值与市场机会。
其一,是国产大模型的进口替代机遇,该模型在核心能力上已经对标甚至超越国际顶尖模型,同时具备极致的性价比与本土化适配优势,将推动国内企业从依赖国外模型转向使用国产自主模型,实现 AI 核心能力的自主可控。
其二,是场景边界的全面打开,原生全模态能力彻底打破了 AI 的应用限制,在智能穿戴领域,搭载该模型的智能眼镜可实现实时路牌翻译、古迹讲解;在企业办公领域,可自动完成 10 小时跨国会议的多语种纪要与关键信息标注;在创意产业,可实现视频内容的结构化解析与自动化剪辑,彻底重构多个行业的生产流程,打开了万亿级的应用市场。
其三,是推动 AI Agent 的规模化落地,全模态感知能力让智能体真正拥有了 " 眼睛 " 和 " 耳朵 ",可以理解物理世界的音视频信息,实现与现实环境的自然交互,推动智能体从虚拟的文本交互场景走向工业、消费、医疗等真实场景,为 AI 产业带来全新的增长曲线。
数据显示,中国 AI 日均 Token 调用量已从 2024 年初的 1000 亿增至 2026 年 3 月的 140 万亿,两年增长超千倍,全模态能力的普及将进一步打开行业的增长天花板。
尽管技术突破亮眼,但 Qwen3.5-Omni 乃至整个全模态大模型赛道,仍面临着多重风险与挑战。
首先是日趋白热化的行业竞争,百度文心一言、腾讯混元、字节豆包等厂商均在全模态赛道持续加码,国际巨头 OpenAI、谷歌也在不断迭代技术。阿里云需要持续保持技术迭代速度,才能在激烈的竞争中守住市场份额。
其次是商业化落地的行业难题。全模态大模型对算力的需求远高于传统文本模型,推理成本更高,如何在保证性能的同时降低运行成本,实现大规模商用,仍是行业需要解决的核心问题。
同时,尽管模型能力全面,但如何找到规模化、可盈利的落地场景,将技术优势转化为可持续的营收,仍是包括阿里云在内的所有大模型厂商需要突破的瓶颈,目前国内大模型行业仍处于 " 技术领先、商业化待验证 " 的阶段。
第三是监管与合规风险。全模态模型涉及音视频、语音等多类型内容,面临更严格的内容合规监管;而音色克隆等功能存在被滥用的风险,可能引发隐私泄露、侵权等法律问题,需要厂商建立完善的合规管控机制,平衡技术创新与风险防控。
此外,端侧部署的技术挑战、美国对华 AI 芯片出口管制收紧带来的供应链风险,也将成为影响模型长期发展的关键变量。
总体而言,Qwen3.5-Omni 的发布,是国产全模态大模型的一次里程碑式突破,它不仅让国产大模型在全模态赛道实现了与国际顶尖厂商的并跑,更通过亲民的定价与开放的 API,推动了全模态 AI 能力的普惠化。
对于阿里云来说,这款模型进一步巩固了其在国内 AI 赛道的头部地位,也为其云计算业务带来了新的增长引擎。
对于整个国内 AI 产业而言,这次突破打破了国际厂商在全模态领域的技术优势,为国产大模型的全球竞争赢得了更多话语权。
未来,随着技术的持续迭代与场景的不断落地,全模态大模型将真正融入千行百业,成为数字经济时代的核心基础设施。
(敬告读者:本文基于公开资料信息或受访者提供的相关内容撰写,《不慌实验室》及文章作者不保证相关信息资料的完整性和准确性。无论何种情况下,本文内容均不构成投资建议。市场有风险,投资需谨慎!未经许可不得转载、抄袭!)


登录后才可以发布评论哦
打开小程序可以发布评论哦