钛媒体 前天
千问3.5以小胜大,阿里巴巴的阳谋藏不住了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型领域的 " 春晚 " 频率,已经快让从业者跟不上节奏了。

2 月 16 日除夕夜,阿里巴巴开源全新一代大模型千问 Qwen3.5-Plus,性能媲美 Gemini 3   Pro,登顶全球最强开源模型,不论从哪个方面,都可以说是给大模型行业的蛇年画上一个句号。

Qwen3.5-Plus 总参数 3970 亿,但实际运行时的激活参数仅为 170 亿,性能就超过了万亿参数的 Qwen3-Max 模型,算力部署成本降低 60%,推理速度提升 8 倍,更别提还是一个原生多模态模型,Agent 能力大幅加强,API 价格每百万 Token 低至 0.8 元。

更好、更快,还更省钱了,这当然不是千问独有的特性,但千问是毫无争议的标准答案,知道怎么做和做出来,是两回事——大模型就是一帮这个星球上最聪明的大脑,在做最复杂的实现。

稍早时间,字节跳动、MiniMax、智谱等国内厂商发布了自己的大模型,GPT-5.3 Codex 与 Opus 4.6 也先后亮相,两种发布风格其实挺有意思。

在硅谷,OpenAI 或 Anthropic 还习惯于扮演科技时代的预言者,他们的每一次更新都透着一种试图定义文明走向的宏大叙事感;而在国内,以阿里 Qwen 为典型代表,更像是一种极其务实且凶猛的工业扩张,满眼都是怎么让 AI 应用到具体场景。

聊到应用,当然就到了中国企业的舒适区,这也是为何春节 AI 大战,众多应用被推到台前,与以往不同的是,过去是有了模型,摸索能做什么应用,现在是应用场景的需求反过来去推动模型的发展。

在 AI 大航海时代,只有那些更聪明的船长,那些能以更低能耗航行更远距离的船只,才能最终抵达前人未至的新大陆。

变 " 小 " 的千问,怎么还变强了?

过去两年,硅谷乃至全球的 AI 共识一直笼罩在 Scaling Law 的既定路基下,更多的算力、更大的参数、更多的数据,等于更好的大模型。

但这种 " 大干快上 " 的扩张正在撞上两堵无形的墙,一堵是 Transformer 架构随序列长度增加而呈平方级爆炸的计算复杂度,另一堵则是让无数企业望而却步的推理成本。

这很容易让人联想到 CPU 时代的安迪 - 比尔定理(Andy and Bill ’   s Law),硬件提升的性能,迅速被更吃资源的软件消耗殆尽,在大模型时代,架构迭代和算法优化释放出的算力红利,被参数量的通胀和上下文长度的堆叠耗殆尽。

如果这件事注定无法避免,那么千问 3.5 就让每一丝算力都能发挥出更大的价值。

传统的 Transformer 架构虽然强大,但它在处理超长文本时极其 " 重 ",每多读一行字,内存和算力的负担就成倍增加。

为了打破这个僵局,业界曾尝试过各种路径,比如稀疏注意力、线性注意力、状态空间模型等,但往往陷入 " 性能提升则精度下降 " 的二律背反,要么保住效率,牺牲精度;要么保住性能,成本依旧高昂;要么提出全新架构,却难以融入现有大模型体系。

千问 3.5 走出了一条 " 大道至简 " 的道路,其性能跃升的背后,是对 Transformer 经典架构的重大创新突破。千问团队自研的门控技术成果,曾斩获全球 AI 顶会 2025 NeurIPS 最佳论文。

这不是一篇理论性质的论文,该前沿技术已融入到千问 3.5 创新的混合架构中去,团队结合线性注意力机制与稀疏混合专家 MoE 模型架构,实现了 397B 总参数激活仅 17B 的极致模型效率。

如果用通俗的话来理解,它并不提前裁剪信息,而是在注意力计算真正发生之前,引入一个可学习的 " 门控 "(Gated Attention),先对信息做一次动态评估,再决定哪些部分用完整算力精算,哪些部分用更低成本处理。

从架构层面看,它还补上了 MoE 长期存在的一块短板。过去的 MoE 虽然已经实现了参数层面的稀疏激活,但注意力计算本身依然是全量执行,真正最重的那部分开销并没有被触动。

Gated Attention 则把 " 是否值得计算 " 这件事直接前移到了注意力内部,让注意力本身也具备了可选择计算路径的能力。这意味着稀疏化第一次不只是发生在前馈网络阶段,而是深入到了 Transformer 最核心的计算单元里。

也正因为如此,它能够同时做到过去行业很难兼得的三件事:推理更快、成本更低,同时性能上限不受损。

原生多模态,牵一发而动全身

在当前的大模型赛道上,多模态已经成为新的焦点,但大多数现有方案仍停留在 " 模态叠罗汉、参数堆积 " 的老路上,试图把图像、文本、视频、表格等各种模态直接拼在一起,再用海量参数去支撑这种叠加,以求在 Benchmark 上刷出亮眼成绩。

然而,这种方式存在明显的局限,智力水平受限,推理效率低下,原因也很简单,每增加一个模态,计算量和内存需求呈指数级上升,模型的大脑被迫同时激活更多部分,但推理能力却没有成比例提升。

千问 3.5 是千问系列首个原生多模态模型,性能超过上一代旗舰模型——万亿参数的 Qwen3-Max,但参数量却不到其 40%,这背后的技术突破,值得深挖。

原生多模态的难点,在于让模型同时理解不同类型信息、建立模态间逻辑,并高效推理。

文字、图像、视频、音频各自的表达方式差异巨大,要在同一空间中理解它们的关系,本身就是技术挑战。更棘手的是跨模态对齐,图像与文字、视频与字幕、图表与说明的逻辑对应,如果处理不好,模型就可能 " 睁眼瞎 "。

数据稀缺和训练成本也是瓶颈。高质量多模态标注难得,训练中,图像编码器、视频序列处理器和跨模态注意力层让算力消耗大,梯度易不稳,推理效率低下。

长上下文、多轮推理等任务,更要求模型动态调度注意力与算力,否则消耗呈指数级增长而理解能力提升有限。总之,简单堆模态或扩参数无法解决这一核心瓶颈。

如前所述,千问 3.5 的技术创新紧密耦合且相互增强,门控注意力让模型在处理长文本和多模态信息时能按需分配算力,保持推理效率与智力上限;线性注意力与稀疏 MoE 架构进一步降低长上下文的计算成本,让超大模型在实际使用中也能高效运行;原生多模态训练则为模型张开 " 眼睛 ",让文字、图像、视频等信息在同一个认知空间里自然融合,同时强化推理、任务规划和空间理解能力。

这些创新并非孤立存在:高效的计算架构保证了多模态训练可行,跨模态能力反过来又推动注意力机制的优化,推理效率和认知能力相辅相成。

正因为如此,千问 3.5 才能在文本理解、视觉分析、视频理解、Agent 执行、代码生成等多维任务中表现均衡而突出,形成一套完整的、可落地的智能体系。

千问 3.5 在 MMLU-Pro 认知能力评测中得分 87.8 分,超越 GPT-5.2;在博士级难题 GPQA 测评中斩获 88.4 分,高于 Claude 4.5;在指令遵循 IFBench 以 76.5 分刷新所有模型纪录;而在通用 Agent 评测 BFCL-V4、搜索 Agent 评测 Browsecomp 等基准中,千问 3.5 表现均超越 Gemini 3 Pro。

原生多模态训练,也带来千问 3.5 的视觉能力飞跃:在多模态推理(MathVison)、通用视觉问答 VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,千问 3.5 均斩获最佳性能。

大模型时代,阿里的阳谋

技术层面的紧耦合,其实是战略意志的体现,阿里巴巴的芯片、大模型,云基础设施等,最终是要为阿里巴巴的未来价值而服务。

就像云计算时代决定格局的不是 CPU 主频,而是虚拟化技术;移动互联网时代决定格局的不是带宽峰值,而是分发效率;到了大模型时代,真正决定应用爆发速度的,也不会是模型规模,更可能是每一次推理被调用的成本。

阿里巴巴比更多人更早更深刻地看到了这一点,自此出发,就能理解阿里巴巴的全盘布局。

在应用层面,1 月 15 日,千问 App 发布全球首个消费级 AI 购物 Agent。春节活动期间,全国超过 1.3 亿人第一次体验 AI 购物,说了 50 亿次 " 千问帮我 ",千问一跃成为国民级 AI 助手。在全球首次实现大规模真实世界任务执行和商业化验证。

作为千问 App 的基座模型,千问 3.5 的 Agent 能力也大幅增强,实现了从 Agent 框架到 Agent 应用的新突破,可自主操作手机与电脑,高效完成日常任务,在移动端支持更多主流 APP 与指令,在 PC 端可处理更复杂的多步骤操作,如跨应用数据整理、自动化流程执行等,显著提升操作效率。

同时,千问团队构建了一个可扩展的 Agent 异步强化学习框架,端到端可加速 3 到 5 倍,并将基于插件的智能体 Agent 支持扩展至百万级规模,将进一步打开大模型在工作和生活中帮人办事的想象空间。

另一方面,阿里不仅持续推出 SOTA 级模型,同时通过开源开放策略,让任何人都能免费使用。这使千问迅速成为全球最受欢迎的开源模型,也为创新提供了肥沃土壤,激发了大量新的应用与创意。

目前,千问模型的开源数量超 400 个,衍生模型数量突破 20 万个,下载量突破 10 亿次,远超美国的 Llama,包括李飞飞团队、爱彼迎等全球公司和机构都在使用千问模型。

规模化必然导致边际成本的降低,这是阿里云基础设施的强项。依托阿里云与平头哥自研芯片的支持,千问的推理效率得以进一步提升,更好满足企业级应用需求。模型、芯片与云端资源的深度耦合,实现了 "1+1+1>3" 的协同效应,不仅充分释放了芯片算力潜力和集群效率,也显著提高了模型训练与推理的整体性能。

例如,真武芯片针对以 Qwen3 为代表的主流 MoE 架构模型做了大量优化,可满足千问大模型对大规模计算的需求。得益于模型、芯片以及云的协同创新,千问 3.5 的价格进一步探底,API 每百万 Token 输入低至 0.8 元,是同等性能 Gemini-3-pro 的 1/18。

这样的策略不仅让千问在企业端备受欢迎,也让阿里云再次进入高速增长期。沙利文数据显示,千问在中国企业级大模型调用市场中位居第一,并成为阿里云新增需求的主要驱动力,带动计算、存储及数据库等基础资源消耗的增长。

根据市场调研机构 Omdia 数据,2025 年第三季度,中国大陆云基础设施服务市场规模达到 134 亿美元,同比增长 24%,市场已连续第二个季度实现 20% 以上的同比增长,阿里云在中国云基础设施服务市场的份额则提升至 36%,AI 相关收入已连续九个季度实现三位数同比增长,继续保持市场领先地位且优势进一步扩大。

千问 3.5 这一轮技术跃迁的价值,更像是阿里巴巴一场早有预期的 " 阳谋 ",不只是把性能做上去,当长上下文、多轮推理、Agent 工作流开始变成默认配置时,模型才会真正变成这个时代的基础设施,技术与商业在这里协同,算力与认知在这里形成闭环。

在大模型时代,阿里玩的是一盘既看得见的技术棋,又布局深远的商业棋。

(作者|张帅,编辑|盖虹达)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里巴巴 ai 开源 字节跳动 中国企业
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论