智东西 昨天
国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

GLM-4.6 横扫八大榜单,整体性能超越 DeepSeek-V3.2-Exp。

作者 | 李水青

编辑 | 漠影

智东西 9 月 30 日报道,国庆前夕,全球 AI 竞赛迎来一波小高潮,国产大模型纷纷放大招。

今天下午,智谱 AI 正式发布新一代大模型 GLM-4.6,就在昨晚,DeepSeek 也宣布推出 DeepSeek-V3.2-Exp 实验版模型。两家国产大模型领军企业在国庆假期毫不放松,加班加点推进技术迭代。而在大洋彼岸,Claude Sonnet 4.5 同期发布,谷歌 Gemini 3.0 也预计将在 10 月迎战,全球大模型竞争进入白热化阶段。

作为智谱 GLM 系列的最新版本,GLM-4.6 在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升,整体性能超越 DeepSeek-V3.2-Exp。这也是新晋 " 国内最强 Coding 模型 ",据称能使用户仅用 1/7 的价格即享受到接近 Claude Sonnet 4 的代码能力。

智东西第一时间对 GLM-4.6 进行了实测体验,发现其编程能力表现惊艳,在代码质量和实现效果上相比 GLM-4.5 大幅提升,并可与 Claude Sonnet 4.5、GPT-5 媲美;同时在文本理解、逻辑、记忆、检索、智能体调用等方面都有明显体验提升。

目前,GLM-4.6 已上线智谱 MaaS 平台http://bigmodel.cn,即将在 Hugging Face、ModelScope 同步开源。寒武纪、摩尔线程等国产 AI 芯片厂商在第一时间完成适配,标志着国产大模型与国产芯片的协同发展正在加速推进。

体验地址:

https://chat.z.ai

技术报告地址:

https://z.ai/blog/glm-4.6

01.

GLM-4.6 横扫八大权威测评

编程能力创新高,token 消耗节省三成

按照惯例,我们先来看看 GLM-4.6 的测评成绩。

在 AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified 等 8 大权威基准测试中,GLM-4.6 在大部分权威榜单表现赶超了 DeepSeek-V3.2-Exp、Claude Sonnet 4 等顶尖模型,稳居国产模型首位。

这些成绩来之不易。GLM-4.6 的上一代模型 GLM-4.5 最初发布于 7 月 28 日,首次在单个模型中实现将推理、编码和智能体能力原生融合。GLM-4.5 在代码能力上的突出表现,让智谱 MaaS 平台的 API 商业化实现了 10 倍以上增长。

GLM-4.6 在这一基础上实现全面跃升,不仅在代码能力上创新高,在长上下文处理、推理能力、信息检索、文本生成及智能体应用等方面均实现显著升级,整体性能已超越 DeepSeek 昨日发布的 DeepSeek-V3.2-Exp。

这些提升也体现在真实编程评测中,GLM-4.6 同样实现了全面超越。

为了测试模型在实际编程任务中的能力,智谱在 Claude Code 环境下进行了 74 个真实场景编程任务测试。结果显示,GLM-4.6 实测超过 Claude Sonnet 4,也优于其他国产模型。

在平均 token 消耗上,GLM-4.6 比 GLM-4.5 节省 30% 以上,为同类模型最低。

为确保透明性与可信度,智谱已公开全部测试题目与 Agent 轨迹,供业界验证与复现。

链接:

https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

02.

实测编程惊艳,胜任复杂交互任务

媲美 Claude、GPT-5

智东西着重对 GLM-4.6 的编程能力进行了体验,发现其不仅相比 GLM-4.5 大幅提升,能够实现更加复杂的编程任务,完成度更高,且在多个任务中的代码生成质量及预览效果达到与 Claude Sonnet 4.5、GPT-5 媲美的水准。

首先我们还是尝试了 " 旋转六边形弹跳球模拟 "。体验发现,GLM-4.6 能够较准确模拟旋转容器的作用、质量对碰撞的影响、能量守恒现象及动量传递效果,并且提供了调整旋转速度、控制重力和摩擦力等控制选项。

输入:模拟一个旋转六边形内弹跳球,有两个球体积相同,球 a 的质量是球 b 的 2 倍。

GLM-4.6 输出:

当我们将同一提示词发送给 GLM-4.5,输出效果如下,弹球弹出了六边形边界,模拟效果不如 GLM-4.6,且没有更多的控制选项。从这一例子我们可以直观看到 GLM-4.6 相比于 GLM-4.5 的代际提升。

GLM-4.5 输出:

GLM-4.6 与今日最新发布 Claude Sonnet 4.5 相比如何呢?如下图所示,这是 X 平台用户 " 提示词 " 展示的一个让他 " 惊叹 " 的例子——一次性创建交互式太阳系。这位用户称,在 GPT-5 尝试相同的提示没有得到有效代码,GLM-4.6 是否能胜任?

如下图所示,即便输入非常简单的提示词,GLM-4.6 也能理解抽象词 " 交互式 " 和天文概念 " 太阳系 " 的含义,并进行比较准确的模拟。该控制台模拟了太阳系行星的位置和运转,支持拖动查看 3D 模型,并且支持调整运行速度和行星大小等变量,看起来丝毫不逊色于 Claude Sonnet 4.5。

输入:创建一个交互式太阳系的模拟。

GLM-4.6 输出:

GLM-4.6 在 SVG 动画生成的例题中,也实现了超过 GPT-5 的理解和编程能力。如下图所示,一位 X 平台用户用 GPT-5 去生成 " 水豚骑自行车 " 的 SVG 动画,然而动画中却没有准确生成出水豚,令这位用户怀疑:GPT-5 好像只会生成训练数据中出现过的内容,或许因为水豚没出现过所以不能生成。

我们让 GLM-4.6 尝试做了同一道题,发现其快速生成了一个准确逼真的动画——动画版水豚的形态接近真实世界的水豚,且水豚是坐在自行车座位上手扶着车把骑行的,生成较准确。

输入:SVG,水豚骑自行车的动画。

GLM-4.6 输出:

交互式游戏更加考验大模型的编程能力。当我们让 GLM-4.6 生成一个简单的 3D 射击游戏,GLM-4.6 快速生成了一个 736 行代码的程序,预览就是一个具备三维立体感的空间,点击鼠标就可以射击移动物体,并且具有击中奖励效果和计分机制。

输入:用 Three.JS 做一个简单的 3D 射击游戏。

GLM-4.6 输出:

GLM-4.6 在全栈开发方面实现了增强的前端设计、GitHub 集成、更长的上下文等升级,我们也尝试了一下。我们要求 GLM-4.6 生成 " 速度型集群和力量型相互作用演化 " 的模拟,这将考察 GLM-4.6 在前端开发、物理模拟、状态管理、系统架构、抽象建模、简化复杂度、工具链使用等多重能力。

如下图所示,GLM-4.6 完成了一步实现,不仅模拟出速度型种群快速被力量型种群消灭的物理规律,还通过模块化的控制板,给出了模拟控制、参数设置、种群 A 和 B 的动态指标等发展情况,前端视觉效果已经非常美观,可以说 " 内外兼修 "。

输入:有两个种群,种群 a 注重力量的发展,种群 b 注重速度的发展,请模拟一下两个种群之间的相互作用并给出说明。需要以 " 小球 " 的形态模拟出可视化的状态。

GLM-4.6 输出:

除了体验 GLM-4.6 的代码能力,我们还通过 AI PPT 制作这一功能,验证了 GLM-4.6 在文本理解、智能体调用、检索及多模态方面的能力。

通过多轮对话,我们直观感受到 GLM-4.6 的 " 手眼并用 " 能力更灵了。其不仅准确理解了生成需求,并围绕主题进行了准确的检索和信息提炼,文本和图片内容都紧扣主题,同时多轮对话指令遵循准确。

输入:

第一轮:制作一份关于 " 当代年轻人新型社交方式 " 的 PPT。请生成一个 4 页的 PPT 大纲,涵盖 " 搭子社交 "、"MBTI 社交 "、" 全职儿女 " 和 " 追星社交 " 四个话题。

第二轮:全职儿女更偏向家庭关系,请将这一页替换为关于 "City Walk 中的社交属性 " 的内容,并保持与其他页面相同的格式和深度。

第三轮:画面有点单调,增加一些时尚视觉元素。在 4 张 PPT 中分别添加一些相关的配图。

GLM-4.6 输出:

总的来说,我们发现 GLM-4.6 相比于 GLM-4.5 虽然在名称上仅仅迭代了 0.1 代,但实测效果却有非常直观的提升,并且在一些案例中比 GPT-5、Claude Sonnet 4.5 效果更好。国产大模型的迭代速度十分惊人,这与我们昨日实测 DeepSeek 新模型时的感受是一致的。

03.

国产芯片立刻适配

国产之光降价提质,AI 惠及更多人

GLM-4.6 发布的同时,国产 AI 芯片厂商迅速响应。寒武纪与摩尔线程几乎在第一时间完成对 GLM-4.6 的适配,国产大模型与国产芯片协同效率正超出我们的想象。

GLM-4.6 已在寒武纪领先的国产芯片上实现 FP8+Int4 混合量化部署,这是首次在国产芯片投产的 FP8+Int4 模型芯片一体解决方案,在保持精度不变的前提下,大幅降低推理成本,为国产芯片在大模型本地化运行上开创了可行路径。

与此同时,摩尔线程基于 vLLM 推理框架完成了对 GLM-4.6 的适配,新一代 GPU 可在原生 FP8 精度下稳定运行模型,充分验证了 MUSA 架构及全功能 GPU 在生态兼容性和快速适配能力方面的优势。

GLM-4.6 和寒武纪、摩尔线程国产芯片的组合,即将通过智谱 MaaS 平台正式面向大众和企业提供服务。未来,国产原创 GLM 大模型与国产芯片将联合推动在模型训练和推理环节的性能与效率优化。

这一协同效应不仅体现在技术层面,更直接惠及终端用户。

随着 GLM-4.6 发布,智谱同步升级 GLM Coding Plan,推出最低 20 元包月畅玩套餐,让用户以 1/7 价格享受到 Claude 的 9/10 智商。同时其推出 GLM Coding Plan 企业版套餐,为企业级用户提供兼具安全、成本效益与国际顶尖性能的编码解决方案。

此前订阅 GLM Coding Plan 包月套餐的用户自动升级至 GLM-4.6,新增图像识别与搜索能力,支持 Claude Code、Roo Code、Kilo Code、Cline 等 10+ 主流编程工具。智谱还面向高频重度开发者提供 GLM Coding Max,是 Claude Max ( 20x ) plan 三倍用量。

可以看到,国产大模型 " 提质降价 " 趋势更加明显,有望推动大模型技术更快普及,让更多开发者和企业能够以更低成本享受到顶尖的 AI 能力。

04.

结语:模型提质降价背后

架构升级与国产芯协同加速

从 GLM-4.5 到 GLM-4.6,智谱 AI 在短短两个月内实现显著跃进,展现出强劲的技术迭代能力。在模型提质的同时,价格持续下探,让大模型成为广大开发者和企业触手可及的工具。这不仅是单纯的性能提升,更是国产大模型整体技术架构加速升级的缩影。

国产大模型与国产芯片的深度协同正在构建更加自主可控的 AI 技术生态。寒武纪与摩尔线程完成对 GLM-4.6 的适配,以及 DeepSeek 与华为、寒武纪等 AI 芯片的适配,标志着国产 AI 芯片与前沿大模型已具备协同迭代的能力,为构建自主 AI 基础设施奠定坚实基础。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

寒武纪 摩尔 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论