一场关于全球 AI 开源领导权的牌局正在被重塑。就在世界刚刚习惯将中国顶级开源模型的崛起称为新的 "DeepSeek 时刻 " 时,随着近一个月 Kimi K2 与 GLM-4.5 的相继发布,一个由 " 两京两杭 " 四家公司组成的中国 AI 开源力量,正成为牌桌上最不容忽视的玩家。在北京,是智谱 AI 与月之暗面;在杭州,则是阿里巴巴通义实验室与深度求索。而老牌劲旅智谱此次发布的 GLM-4.5,正是这个 " 四杰争雄 " 新时代中,一次关键的技术范式宣言。
这股被全球 AI 领军人物吴恩达(Andrew Ng)称为 " 拥有巨大发展势头 " 的力量,其核心正是这四家公司。吴恩达近期发文明确指出,尽管美国在顶尖闭源模型上保持优势,但在开源领域,中国的 DeepSeek R1、Kimi K2、Qwen3 和 GLM-4.5 等模型已经领先于美国最好的开源产品。
吴恩达的认为,在开源 AI 赛道,中国的 " 四杰 " 已经实现了对美国顶尖选手的反超。
这股力量的背后,出现了一个有趣的对比,当一些海外的头部模型日趋 "Close",中国的 "OpenAI 们 " 却在集体负责 "Open"。这种开放姿态进一步降低了全球开发者的创新门槛,客观上加速了 AI 技术的普及与迭代 。
国际开源社区排前 10 名的模型,9 个来自中国,另外 1 个也是华人团队
硅谷 Benchmark 风投公司合伙人 Bill Gurley 发文表示,中国开放 AI 模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更容易。一位 AI 创业者则评论称,这是一种软实力的新杠杆。这种复杂的情绪,也体现在 OpenAI 于 6 月底一份关于中国 AI 的研究中,其中便点名了智谱。
当然,随之而来的也是挑战。就在中国 " 开源四杰 " 集体发力之时,作为曾经的开源之光,Meta 创始人扎克伯格近期发文宣布,Meta 将不再开源所有 " 超级智能 "AI 模型,理由是 " 超级智能将带来新的安全担忧,我们需要谨慎选择开源什么 "。
这标志着曾经高举开源大旗的 Meta 正式告别全面开源路线。回想去年,扎克伯格还将 Llama 系列开放模型视为对抗 OpenAI 的核心武器,声称 " 开源不会削弱我们的收入、可持续性或研究投资能力 "。如今的转向,恰恰映射出当前全球 AI 发展的分化,硅谷巨头们在竞争压力下重新拥抱封闭模式时,中国的 AI 公司却在集体负责 "Open"。
两种截然不同的战略选择,不仅让人思考在 AI 安全与创新开放之间究竟如何找到最优平衡,更重要的是,未来全球 AI 的话语权,会因为这种路线分化而发生怎样的变化?
在这种路线分化的背景下,回到智谱 GLM-4.5 的发布上,其在技术范式上的价值或许被低估了。官方称这是其首个采用 " 原生智能体 " 架构的基础模型,意味着推理、感知和执行等核心能力被直接构建在模型内部。这种设计的出现,本身就展现了 " 基座模型 " 下一步进化的可能性。为了验证它在真实场景下的表现,我们对其进行了五项深度测试。
为了验证 GLM-4.5 在真实场景下的表现,我们进行了五项深度测试。
实测:5 大场景深度验证
测试 1:一句话生成多功能网站
prompts:" 创建一个在线番茄钟网站,包含倒计时、任务列表、白噪音功能,使用 TailwindCSS 和原生 JS 实现。"
我们先选择了一个难度不是太大的任务生成网页,但同时也留了一些坑,比如只提出了核心功能,如做一个番茄时钟功能,并没有指定番茄时钟计时是 25 分钟;提出要做任务列表功能,但没写清楚任务列表要能增加、删除、完成等。
从实际情况来看,GLM-4.5 不但完成了我们指令中的核心功能,还补全了时间暂停、时间重置、音量调整等,可以说,GLM-4.5展现了对场景细节的深度理解。尤其是白噪音功能,GLM-4.5 自动调用 Web Audio API,并设计了雨声、海浪、森林、篝火 4 种选项。
而且在实际体验过程中,GLM-4.5 从指令接收解析,到完整代码的输出实现,全程顺畅无阻,模型对功能的理解精准无误,完全无需二次沟通确认。页面交互体验更是自然流畅,静态页面设计与动态功能效果无缝衔接,真正做到了一键上线即可供用户正常使用,整个开发过程高效且优质。
项目地址:https://chat.z.ai/s/cea2111d-de9c-40e7-8835-ad4c0cbc4716
测试 2:生成 PPT
prompts:" 为 AI 技术发布会制作 PPT,主题‘ GLM-4.5 开源革命’,包含架构图、性能对比表、应用场景。"
第二个测试,我们选择了比较常见的生成 PPT,PPT 生成虽然简单,但其中会涉及数据来源、数据准确性、风格美观度等等要素。
GLM-4.5 给出了满意的交付,在整体风格上采用了简约现代的风格,紫色作为背景,蓝色白色作为字体颜色,并且还搭配了半透明背景。在排版上,GLM-4.5 并没有在纯文字的排版上 " 屎上雕花 ",而是图文并茂,将内容进行有结构的排版。
比较令人惊喜的是,GLM-4.5 的并不是简单的用关键词生成图片作为装饰,而是实打实生成有内容的图片,如解释什么是混合专家架构用到了架构图。而且 GLM-4.5 还擅长用 " 数据讲故事 ",在对 mox 进行性能对比时,GLM-4.5 用了雷达图、柱状图等,而不是单纯的表格。
在功能性上,GLM-4.5 支持用户修改精准文字,或者对整段文字用 AI 重写,以及一键切换版本。
项目地址:https://chat.z.ai/s/ff4c6c14-539a-43f2-a55e-a2e3d0344680
测试 3:用代码做动画
prompts:" 用代码写一个功能,小球碰到墙壁就会生成一个新的小球,新的小球采用新的颜色 "
用代码做动画考验 GLM-4.5 的逻辑能力,在编程时候很容易出现错误。而 GLM-4.5 顺利完成了球类互动程序的开发。从 " 碰撞检测 " 到 " 新球生成 " 再到 " 颜色切换 ",每个核心逻辑都被精准捕捉,代码实现毫无偏差;交互细节更是处理得极为出色,新球生成的时机恰到好处,颜色差异等动态效果流畅自然,远超基础功能的实现水平。
而且在以往的测试中想要实现类似的效果,prompts 要尽可能写的全面,但 GLM-4.5 只需要根据简单的描述,就能推理出完整的代码逻辑。
项目地址:https://chat.z.ai/s/080d15f3-cbdb-4406-916b-b16cb4548d3c
测试 4:全栈开发制作 GitHub 仓库监控智能体
prompts:" 创建 Agent:监控 GitHub 仓库 Star 数,每日 9 点邮件推送增长趋势。"
这个项目的难点在于将用户的需求拆解用,如何调用工具,比如监控 GitHub 需要 API 接口,发送邮件需要部署 SMPT 等协议。GLM-4.5 可以自主完成需求拆解 → 逻辑设计 → 代码生成 → 工具调用,全程丝滑流畅。
虽然在第一个版本中,项目一直无法添加指定的 GitHub 仓库,用户无需解释处理 bug 的方式,只需描述现象 GLM-4.5 就能解决。
从代码文件夹可以猜测,这是一个基于 Next.js 构建的全栈 Web 项目,采用 TypeScript 提供强类型支持以提升代码质量和可维护性,使用 Tailwind CSS 实现高效的样式开发。项目包含数据库交互功能,还具备 WebSocket 相关的实时交互能力,适合开发需要动态数据更新的场景。服务端逻辑可进行自定义处理,包括接口管理和业务逻辑实现。
项目地址:https://chat.z.ai/s/6a643274-761e-4bb0-bc9c-403830aafcbb
测试 5:双人乒乓球游戏
prompts:" 帮我生成一个双人桌面乒乓球游戏 "
游戏一直是被用来测试大模型能力的常见任务,像贪吃蛇、打字游戏等,但上述游戏都是单人模式,我们来尝试做一个可以双人同时玩的 " 桌面乒乓球 "。由于多了一个玩家,在交互逻辑和代码逻辑上难度增加,但 GLM-4.5 也完成了复杂的逻辑和双人操作规划。
项目地址:https://chat.z.ai/s/efef0a71-0144-4a08-b4db-49cf9182b49c
" 开源四杰 " vs 全球巨头
我们将视线从具体的模型参数和评测榜单上移开,会发现这场竞赛的真正意义,已不再是技术本身的较量,而是各方在用行动回答一个根本性问题:最顶尖的 AI 能力,究竟应该作为少数公司的私有财产被守护,还是作为一种数字时代的基础设施被分享?中国的 " 开源四杰 " 用一场前所未有的开放行动,给出了他们的答案。他们不仅是在发布模型产品,也是在从根本上改变整个产业的成本结构,使竞争的核心从 " 占有 " 技术,转向了如何运用技术。
这一分歧直接改变了全球开发者和企业的处境。最直接的影响是,他们获得了高性价比、可自主定制的替代方案,不必再被少数西方闭源巨头锁定。更深远地看,这也重塑了 AI 行业的商业逻辑。当最强大的 AI 能力不再是昂贵的独门秘籍,而是人人可用的 " 公开图纸 " 时,竞争的重心便不可逆转地从模型本身,转向了应用创新和生态系统的建设。最终的赢家尚难定论,但一个事实已经很清晰,因为这四家公司的存在,全球 AI 技术的商业版图和创新范式,都已被永久性地改写。
登录后才可以发布评论哦
打开小程序可以发布评论哦