阿里Qwen上新多模态旗舰！11小时自动研发App，狂写10000+行代码1000+次调用

带多模态的 Agent 模型，真就了不起。

一句话，十几分钟，仿写一个网页版 MacOS 界面。

每个应用都能点进去，终端输入命令还能返回结果我是最服气的。

这就是阿里上新的 Qwen-3.7 Plus，多模态交互式混合 Agent。

Qwen3.7-Plus 把视觉和语言能力放进同一个底座，同时保留代码、工具使用。这些智能体能力。

它能感知现实场景，读屏并操作 GUI，从视觉参考里写代码，端到端导航 App，还能结合网页知识回答视觉问题。

以前很多模型擅长单点能力，看图归看图，写代码归写代码，浏览网页归浏览网页。

Qwen3.7-Plus 想把它们放进同一个循环。

这也是 "Hybrid"（混合）的含义。

官方展示里，最突出的是一个长程 App 研发任务。

团队基于 Qwen3.7 构建的 Hybrid-Agent 系统，连续稳定运行超过 11 小时，自动完成一个英语词汇学习 App 的完整研发周期。

覆盖需求文档生成、自动编码、安装部署、测试用例创建、GUI 自动化测试、多场景并行测试、产品文档更新，以及自主版本演进。

10000+ 行代码，1000+ 次 Agent 调用。

另一个桌面应用开发案例是复刻了原生 macOS Stocks App。

智能体先和原生应用交互，理解 UI 布局和功能细节，再生成 SwiftUI 源码，接入真实行情 API，自动编译并启动复刻应用。

它还做了 10 项功能验证，包括实时行情加载、股票选择和切换、多周期视图切换、搜索过滤、详细统计面板展示等。

这 10 项都通过了。

Qwen3.7-Plus 的基准测试环境配置有详细披露：

Terminal Bench 2.0 使用 Harbor/Terminus-2 harness，5 小时超时，12 核 CPU/24GB 内存，温度 1.0，最大 token 数 80K，上下文 256K，取 5 次运行均值，每轮开头预置一个 think token 让模型自行决定是否启动深度思考；

Kernel Bench L3 每个测试样本在独立 Docker 容器中运行，配备一块 H100 80GB GPU，限制 500 次工具调用，连续 100 轮无改进则提前停止，并使用 GPT-5.4 检测潜在的作弊行为。

结果如何？

代码任务，各家模型表现已经非常接近，只有长程代码任务还能拉开一点差距。

通用智能体任务，Qwen 3.7 Plus 基本也在第一梯队。

到了多模态任务，就是 Qwen 3.7 Plus 的强项了。

Qwen3.7-Plus 提供 API 调用，支持文本和图像 / 视频混合输入，并提供 "preserve_thinking" 功能，

在多轮对话的消息中保留每一轮的思考内容，官方推荐在智能体任务中开启此功能。

模型兼容 OpenAI 规范的 chat completions 和 responses API。

在跨框架泛化方面，Qwen3.7-Plus 在 Claude Code、OpenClaw、Qwen Code 等不同 Agent 框架中均能稳定运行，无需为特定框架做适配。

不过还是有大量开发者希望能继续像 Qwen 之前的模型一样开放权重，在本地部署。

— 欢迎 AI 产品从业者共建 —

「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签