阿里云峰会的几个隐秘信号

文 | 硅基星芒

还记得五月初，AI 评测里出现了两款神秘国模 A 和 B 吗？

这是开发者 toyama nao 发布的测试结果。这款极限分数超越了 Gemini 3.1 Pro 和 Claude Opus 4.6 的国模 A，一时间众说纷纭。

如今，随着 2026 年阿里云峰会主论坛的开幕，国模 A 的真实身份也得以浮出水面：阿里云正式发布了新一代旗舰模型 Qwen3.7-Max。

不过，这次峰会与以往最大的区别在于，主角不再是参数规模、上下文长度和聊天体验的炫技，而是一个清晰且激进的方向：All in 智能体。

与其称之为一场发布会，不如说这是一场阿里与所有 AI 用户的一次技术探讨。

CTO 李飞飞在主论坛演讲中直言：云的价值，正在从规模化管理和运营算力，进入规模化管理和运营智力。

3 月正式接手林俊旸离职后留下的 Qwen 的周靖人则更加直白：大模型已经从 " 人类价值对齐 " 转向 " 任务对齐 "。

短短的两句话，对应的是长远的目标规划：阿里的 AI 战略正在拆除模型、算力、安全、应用之间的边界，将它们重构为 Agent 体系下的标准化组件。

本文将以一个开发者的视角，来拆解这场峰会透露出来的隐秘信号。

01 一切皆为 Agent 组件

如果说过去两年，大模型公司的竞争焦点是 " 谁的模型更强 "，那么从这次峰会来看，阿里给出的答案是：模型只是起点，而 Agent 只是目前能看到的终点。这不是一句口号，而是实打实地反映在了两个方面。

一方面，模型正在被重新定义：在 Agent 中，模型不能只是大脑，还要成为智能中枢。

Qwen3.7-Max 的定位很清晰，它是面向智能体时代的新一代旗舰模型，官方宣传的核心能力也全部围绕着 Agent 展开：

长周期自主执行：模型在长达 35 小时、超过 1000 次工具调用的内核优化实验中，能够持续推理且保持能力不退化；

跨框架泛化：模型无论部署在 Claude Code、OpenClaw 还是自家的 Qwen Code，性能表现相对稳定；

原生工具调用：模型支持 MCP 集成和多智能体协作，可以直接操控办公软件、云服务甚至更高形态（具身智能）的物理机器人。

这就是新一代模型最大的转变，不再是孤立的 " 大脑 "，而是被设计成 Agent 的中央处理器。这也符合 Agent 设计的核心要求——必须能规划、调用工具、反思、纠错并适应各种运行环境。

从官方公布的评测数据来看，Qwen3.7-Max 的基准测试结果已经接近 Anthropic 的上一代旗舰模型 Claude Opus 4.6 和国内模型顶尖水平。当然，这些多是阿里自报的成绩，且在部分编程基准测试中仍然与 Claude Opus 4.6 存在几个百分点的差距。

结合 Artificial Analysis 的第三方测试结果，Qwen3.7-Max 智能水平位列全球第五，编程能力位列全球第七，二者均为国内第一。代理能力则略逊于小米和智谱，但差距只在毫厘之间。

另一方面，云基础设施正在被重构：从 AI 原生云，演进为 Agent 原生云。

李飞飞在演讲中提出了两个值得行业关注的关键概念：AI Native Cloud（AI 原生云）和 Agent Native Cloud（智能体原生云）。这两个概念之间并非是字面意义上的包含关系：

AI 原生云要做的是生产 token，通过预训练、后训练和推理的全链路优化（比如 KV Cache 命中率超过 90%），让 token 足够便宜和高效。

Agent 原生云要做的是把 token 变成 action，为智能体提供运行时沙箱、编排、治理、安全、记忆、数据平面六个方向的支撑。

这两个概念的提出，间接地否定了以 DAU、token 消耗量、DAA 等诸多中间变量作为衡量 Agent 产出价值唯一标准的观点。与此同时，这也是一个十分务实的想法。毕竟，与其过早地关注如何评判 Agent 的价值，不如先搞清楚 Agent 该如何发挥价值。

更加值得关注的是，李飞飞当场宣布阿里云旗下所有的云产品将在今年完成控制面改造，实现 Agent 应用所需的 "Skill 化 "、"MCP 化 " 和 "CLI 化 "，智能体将会替代人类成为云产品的第一用户。未来企业调用 OSS 存储、PolarDB 数据库和 DataWorks 数据平台这些产品，不再需要人工点击控制台或是编写脚本，而是全部由 Agent 自然语言驱动。

从上述两个方面的变动可以清晰地看出，阿里已经一改往日全面覆盖的策略，转而完全将 Agent 作为设计原点，模型、硬件、安全框架和存储都不再是独立的产品线，而是都将成为 Agent 体系下的插件。

从程序员的角度来看，这完美符合类似操作系统设计开发的哲学：Agent 是应用程序，底层基础设施提供标准化的 API 和运行时。

02 企业级市场明确定为主战场

纵观主论坛的发布内容，尽管没有白纸黑字地写出来，但阿里云的服务中心已经明显偏向企业级客户。若是程序员中的个体户，甚至会在聆听中产生一种陌生感。

这不是个人偏见。李飞飞在峰会上花费大量篇幅讲的 " 六大挑战 "、" 六大解决方案 "，里面涵盖的沙箱隔离、身份认证（Token Vault）到任务级安全管控，无一例外都是企业 IT 部门最关心的非功能性问题。

相比于国内外竞争对手往往在发布会上大多提及个人开发者和小型开发团队的重要性，阿里想要做的是快速凭借已有基础抢占企业市场。深层原因有三个：

一是付费意愿与场景复杂度。

消费级 AI 助手的付费率有限，这在今年二月的 " 下千问喝奶茶 " 的活动中已经得以体现，只有企业才愿意为 " 节省一个开发团队 " 或 " 自动化合规流程 " 支付高额订阅费，哪怕最终落地结果可能与预想存在一定差距。

在周靖人的演讲中，有一个极其容易被忽视的细节：Qwen3.7 深度参与了 35 小时的自主优化芯片内核过程。如果其能力足已取代资深工程师的加班时间，商业价值已经不言而喻。

二是阿里云的既有生态优势。

作为中国最大的云服务商，阿里云已有数百万企业客户作为基础。这些客户数年来持续使用 RDS、OSS、MaxCompute 等产品，数据和使用习惯的积累早已潜移默化地转变为了极高的迁移成本。

从技术角度看，将 Agent 无缝嵌入现有的云产品，也比从零打造一个 B 端 App 更容易形成商业闭环。

三是安全和治理才是定价权的来源。

抛开国外几家顶尖模型不谈，将目光放在国内，AI 能力投影到智能体上逐渐同质化已经是不争的事实。从 OpenRouter 的调用量来看，能够决定个体开发者或小型开发团队选择的唯一因素就是价格，限时免费模型的调用量几乎全部能够霸榜一周甚至更久。

然而对于企业来说，真正影响采购决策的问题在于：是否敢让 Agent 自动操作生产数据库？阿里云推出的 Agent 安全中心、Agent ID Guard、AI 安全护栏 2.0 等产品，直接把安全问题抬到了明面上，本质上就是在给企业级的冒险行为提供保险。换句话说，在安全治理上建立标准，等同于现阶段更高的议价能力。

阿里的战略，其实就是用智能体提升效率，加上用安全体系降低风险。李飞飞口中的 " 六大挑战 "，与其说是技术问题，不如说是企业采购清单上的必选项。

03 Vibe Coding 的演进形态：Vision Coding

从技术本质上说，Vibe Coding 是 Agent 最早期、最初级的一种形态，但历经几个月的发展和尝试，Vibe Coding 成为了最成功、最具备商业化价值也最成熟的形态。

但这种被各大 AI 公司定位为 " 造福全人类 " 的技术，呈现出了极端的两极分化。程序员们和研究者们早已经沉浸于 Vibe Coding 带来的便利，然而真正愿意使用各种 Agent 执行任务的人还是少之又少。一个冰冷的现实就摆在眼前：大部分人与 AI 的交互，仍然是在那个网页的对话框中。

在这次阿里云峰会中，有一个词让人眼前一亮：Vision Coding。

学术界目前没有明确定义，因此用一个现场演示的 demo 来说明更为贴切：用户给 AI 上传了一段视频，画面中是一个白板，用户在上面用马克笔歪七扭八地绘制了几个方框，指着上面的方框说 " 当我点击这里时 "，指着下面的方框说 " 这里应该显示风景图片 "。随后，AI 就生成了布局一致的网页界面。

听上去令人惊奇，然而这并不是这次发布会才刚刚推出的新功能。Demo 中的 AI 主角，是此前阿里在 3 月推出的 Qwen3.5 Omni。或许这不是第一款能够实现上述功能的 AI 产品，但 Vision Coding 这个词是第一次正式出现。

同样是给非专业人士提供的编程技术，Vision Coding 与 Vibe Coding 存在本质上的区别：

Vibe Coding 非常依赖用户用自然语言精准地描述需求。哪怕是迄今为止最强大的模型 Claude Opus 4.7 和 GPT-5.5，也绕不过这一关。如果用户说 " 给我做个酷炫的 3D 效果网页 "，结果往往是不可控的，若是远比网页复杂的项目，更是 " 到处是惊吓 "。表面上说的是 " 零门槛 "，其实门槛在于表达能力。

Vision Coding 允许用户用草图 + 动作指点 + 模糊口语来与 AI 进行交互。在这个交互过程中，用户无需担心自己的表达是否精确，" 这边再大一点 "、" 那个按钮挪到这里 " 这种产品经理提出的、让程序员最头疼的指令，AI 可以照单全收。模型同时理解视觉布局、空间关系和模糊意图，门槛才能降到 " 会说话、会画简笔画，就能开发 "。

从我个人的角度来看，Vision Coding 是 Vibe Coding 一种更高级、更普惠也更具备使用价值的形态。这种真正提升开发效能的演进，背后其实是多模态融合的质变：阿里的视觉 Agent 不仅能 " 看懂界面 "，还能 " 操作界面 "，最后 " 生成界面 "，这种视觉 - 行动闭环在国内处于领先地位，远比基准测试的分数更为宝贵。

当然，盲目的技术乐观主义不可取，Vision Coding 也绝对不会是 " 零门槛开发 "、" 人人都是程序员 " 的最终技术形态。然而，多模态是实现 Agent 的基础功能，这个判断是不会错的。现实世界的信息天然就是高维度、多模态的，财报 = 文本 + 表格，会议 = 语音 +PPT，环境 = 视觉 + 触觉，放弃多模态，Agent 永远只能活在纯文本的虚拟世界之中。

04 结语

最后，作为开源行业的领头羊，阿里仍然在开源生态上投入明显。Qwen3.6 模型开源后下载量已经超过 3000 万次，衍生模型也达到了 1200 个以上。

事实上，百炼平台扮演的角色已经在发生变化：原先，它是模型 API 的网关；如今，它需要成为 Agent 的开发、部署、运行的一体化平台。

这就类似于苹果的 Appstore，模型是 iOS，Skills 是 App，Agent 则是用户场景。阿里云提供了基础设施和安全审核，而第三方开发者可以售卖自己的 Agent 服务。如果这个生态模式能够跑通，阿里也可以顺理成章地从 " 卖算力 " 转向 " 卖 Agent 解决方案 "。然而，商业模式能否彻底升级，极大程度上取决于基础模型的能力。

回顾整场峰会，阿里云释放出了清晰的信号：摆脱单纯的 " 云服务商 + 大模型公司 "，试图成为智能体时代的基础设施构建者。

这并非领先的判断，而是所有国内 AI 公司的共识。想要从国内领先跨越到国际领先，取决于下一代模型是否能够真正缩小与 Claude 和 GPT 的差距，以及 Agent 生态能否吸引到足够多的第三方开发者。要实现这些目标，阿里或许还有很长的路要走。

然而，面对未来 AI 该何去何从，阿里给出的答案值得肯定：以 Agent 为唯一核心、企业市场为先、多模态不可放弃。

AI 不再是云上的一个附加功能，而是云本身正在被 AI 重写。

Agent，就是那个执笔者。这场重写，也才刚刚开始。

宙世代

一起剪

相关标签