智东西 6小时前
实测阿里Qwen3.6-Plus:8分钟做了个官网,被北京地铁绕晕
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 心缘

智东西 4 月 2 日报道,今天,阿里推出了新一代大语言模型 Qwen3.6-Plus,这也是 Qwen3.6 系列的首个模型。与上一代模型相比,Qwen3.6-Plus 重点提升了编程 Coding 能力、智能体 Agent 能力和工具调用能力,默认支持 100 万上下文窗口。

这一模型还适配了主流 Agent 框架,也就是各种 " 龙虾 " 和编程工具。官方提到的包括 OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline 和 OpenCode。

在大模型调用平台 OpenRouter 上,免费体验的 Qwen3.6-Plus 预览版调用量排名日榜第二。值得一提的是,前五名的模型中有四个都是国产模型。

在 SWE-bench Verified、Terminal-Bench 2、NL2Repo 等编程基准测试中,Qwen3.6-Plus 取得了超过 GLM-5、Kimi K2.5 的成绩,不过在部分基准测试中的得分仍低于 Claude Opus 4.5。

在 Claw-Eval、QwenClawBench 等真实世界 Agent 能力评测中,Qwen3.6-Plus 的表现同样超过了多款国产模型,与 Claude Opus 4.5 同处一个梯队。

Qwen3.6-Plus 基准测试对比(图源:阿里)

不过,需要注意的是,这张基准测试图的图表纵轴刻度间隔并不一致,在 SWE-bench Verified、MMMU、RealWorldQA、QwenClawBench 等测试中,几个对比模型的实际得分差距并没有特别明显。

智东西立刻上手体验了 Qwen3.6-Plus 的编程能力,让它在 Claude 官方的前端设计 Skill 指导下,打造了一个 AI 眼镜独立站,历经三轮对话,耗时 8 分钟左右,消耗 2.5 万个 token(约等于 0.15 元)。

可以看到在提示词的要求下它打造的网页完成度不错,根据 Skill 的要求避免了一些老掉牙的 AI 味设计风格,不过在字体选择上依然是较为常见的类型。

实测结果:

https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

与上一代模型类似,Qwen3.6-Plus 也是一个原生多模态模型。Qwen3.6-Plus 这次重点提升了多模态推理和指令模式实用性。

官方 Demo 中用北京地铁路径规划的题目考了考 Qwen3.6-Plus,我们同样试了一下,让模型规划出从北京大兴机场到北京首都机场的最快路线,它的方案与高德上的最快路径一致。

将编程能力与多模态能力结合后,Qwen3.6-Plus 还解锁了视觉智能体编程能力,可基于界面截图、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务。

目前,Qwen3.6-Plus 的 API 已经开放调用,用户可在 Qwen Chat 中体验到这一模型。这次阿里还为 API 引入了一项新功能 "preserve_thinking",可保留消息中所有前序轮次的思维内容,该功能推荐用于智能体任务。其 API 的原价为 4 元 / 百万输入 tokens,12 元 / 百万输出 tokens,目前有限时 5 折的优惠。

值得一提的是,阿里在企业级市场的 AI 应用 " 悟空 " 第一时间接入了 Qwen3.6-Plus。

Qwen Chat:

https://chat.qwen.ai/

阿里云百炼:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.6-plus

一、可完成长链路任务与多轮工具调用,token 效率有提升空间

在自然语言能力方面,Qwen3.6-Plus 通过融合推理、记忆与执行能力,在编程智能体、通用智能体和工具调用上实现提升。

具体来看,在编程智能体维度其表现较 Qwen3.5 实现较大幅度的提升,得分略微高于 GLM-5 和 Kimi-K2.5,略低于 Claude Opus 4.5。

在通用智能体方面,其得分在部分基准测试中优于 Claude Opus 4.5。在通用能力中,其得分和 Qwen3.5 基本一致。

在实测中,我们的这一案例融合考察了编程与工具调用能力,要求 Qwen3.6-Plus 统计 A 股目前股价最高的 10 家公司,并生成完整统计网页,带有每家公司的跳转链接。

在任务执行过程中,Qwen3.6-Plus 调用了 7 轮搜索工具,统计了数十个网站的数据,最终交付了如下的结果,耗时大概 7 分钟左右。

Qwen3.6-Plus 生成的排名

Qwen3.6-Plus 选择了权威的数据来源,右侧查看详情链接的跳转正常,排名正确,数据则取的是近似值。在思维链中可以看到它多次在同一个问题上反复思考,搜索多次但获得的内容差不多,在任务执行速度和 token 效率上仍有一定提升空间。

右侧是 Qwen3.6-Plus 的思维链摘要

接下来,我们又要求 Qwen3.6-Plus 生成一个《潜水员戴夫》的同款游戏,不过,Qwen3.6-Plus 先是拒绝了这一要求,称它无法直接生成可执行的游戏文件,但可以为我生成核心概念美术图,并提供一套完整的《潜水员戴夫》风格游戏设计蓝图 + 开发指南 + 基础代码框架,作为开发起点。

再次要求后,Qwen3.6-Plus 开始了开发,但是在写到 200 多行代码时出现了问题,于是停止了开发。

之后我们尝试了通过 API 调用这一模型,完成同一任务。模型认为,打造《潜水员戴夫》同款独立游戏的核心在于复刻其 " 白天探索采集 + 夜晚模拟经营 + 轻叙事驱动 + 循环成长 " 的节奏,而非照搬题材或代码。它决定打造一个白天深入动态雾林采集食材与古物,夜晚经营一家能 " 烹饪记忆 " 的森林酒馆的游戏。

最终 Qwen3.6-Plus 交付的 MVP 版本(最小可用版本)如下,不过我们试玩了一下,这一游戏在可玩性上仍然需要持续迭代。

试玩链接:

https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

二、实测高难度路径规划,被北京地铁转晕

在视觉语言能力方面,Qwen3.6-Plus 的主要围绕着多模态推理、指令模式实用性进行改进,其在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上的得分有所提升。

为考察其视觉推理能力,我们在之前的地铁路径规划任务上加了点难度,假设某一线路遇到了极端天气停运了,看看模型还能不能反应过来。

Qwen3.6-Plus 通过较长时间的思考后,得出了两个结论,第一个结论其实是正确的,但是它判断这条路线有点复杂,于是认为可以在 " 牡丹园站换乘昌平线 ",这样更直接。Qwen3.6-Plus 的最终结论有个 bug,昌平线可能至少要等到 2029 年才能和 19 号线在牡丹园换乘。

在其他多模态能力方面,阿里官方还展示了多个 demo。比如,Qwen3.6-Plus 可以对视频进行分析,并生成图文并茂的讲义。

或是根据界面截图、产品原型、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务。

结语:阿里全面押注原生多模态

随着 Qwen3.6-Plus 的发布,千问团队称,他们近期的工作重心将全面转向 Qwen3.6 系列的整体发布。在未来不久,千问还将开源更小规模的模型版本。同时,性能更强的旗舰模型 Qwen3.6-Max 也将很快亮相。

值得注意的是,自 Qwen3.5 发布后,千问已经全面将其主力模型 Qwen 转向了原生多模态。该团队称,他们希望模型逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 ai 编程 龙虾
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论