商业资讯 02-13
中昊芯英“刹那®”TPU AI芯片Day0适配智谱GLM-5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2 月 12 日,智谱 AI 正式发布并开源全新一代旗舰大模型 GLM-5。作为国内唯一掌握 TPU 架构高性能 AI 芯片核心技术并实现量产的企业,中昊芯英同日完成对 GLM-5 的 Day0 推理适配。

凭借自研 TPU 芯片 " 刹那 ®" 高带宽近存架构与高效张量计算核心的 AI 原生架构优势,GLM-5 已在中昊芯英计算平台上实现高吞吐、低延迟的稳定运行。这不仅是双方生态合作的里程碑,更是专用算力芯片(TPU)在复杂工程化场景(Coding&Agent)中性能优势的集中体现。

GLM-5:Agentic Engineering 时代最好的开源模型

GLM-5 是智谱 AI 推出的全新基座模型,在真实编程场景体感逼近 ClaudeOpus4.5。其参数规模扩展至 744B,首次集成稀疏注意力机制,是目前开源领域最强的 Coding 与 Agent 模型之一。

在全球权威的 ArtificialAnalysis 榜单中,GLM-5 位居全球第四、开源第一。

( GLM-5 在 Artificial Analysis 榜单全球排名第四、开源第一 )

GLM-5 在众多学术基准测试中相比 GLM-4.7 取得了显著提升,并在推理、编码和智能体任务上取得了全球所有开源模型中的最佳性能,缩小了与前沿模型的差距。

( GLM-5 的众多学术基准测试情况)

Day 0 适配之路:TPU 赋能 Coding 与 Agent 规模化落地

" 刹那 ®"TPU 架构高性能 AI 专用算力芯片,由中昊芯英历时近 5 年 100% 自研,拥有完全自主可控的 IP 核、全自研指令集与计算平台。在 AI 大模型计算场景中,算力性能超越海外著名 GPU 产品近 1.5 倍,能耗降低 30%。同时,通过采用 Chiplet 技术与 2.5D 封装,实现了同等制程工艺下的性能跃升,并支持 1024 片芯片片间互联,实现千卡集群线性扩容,支撑超千亿参数大模型运算需求。

(中昊芯英 TPU 架构高性能 AI 专用算力芯片)

中昊芯英对 GLM 全系列模型保持着长期的深度跟踪与适配优化。在此前 GLM-4.5&4.7 的适配过程中,中昊芯英研发团队基于 " 刹那 ®"TPU 的近存架构与高效张量核心,完成了芯片与 GLM 系列模型架构的深度融合,实现了 GLM-4.5&4.7 在 TPU 集群上推理吞吐量的显著提升,更为此次 GLM-5 的 Day0 高效适配积累了丰富的底层算子库与工程经验。

TPU 架构专为 AI/ML 而生,通过优化计算单元的维度和数据传输的路径,在大模型推理 / 训练等特定计算范式下,TPU 比传统 GPU 架构能实现更高的能效比和计算密度。在长期以来与 GLM 系列模型的适配中," 刹那 ®" 芯片的可重构多级存储、近存运算设计以及流水线式的时空映射,有效提升了 GLM 大模型计算速度和精度,为模型在复杂任务中的运行提供了高效支持。

依托自研 GPTPU 软件栈,中昊芯英 " 刹那 ®"TPU 原生适配 PyTorch、vLLM、DeepSpeed、Megatron-LM 及 SGLang 等主流深度学习框架与推理引擎,助力用户实现算法的 " 零成本 " 跨平台迁移。无论是构建支持 1024 片芯片片间互联的 " 泰则 ®" 大规模计算集群,还是部署面向 Coding&Agent 场景的高并发、低延迟在线推理服务,中昊芯英均展现出对标主流专用算力产品的卓越能效与稳定性,旨在为 AIGC 时代筑牢坚实、易用的国产专用算力底座。

(中昊芯英 TPU 芯片 AI 软件栈)

从计算单元到集群:软硬件协同与核心技术突破

GLM-5 拥有高达 744B 的超大规模参数并首次集成稀疏注意力机制,对底层算力的并发性、通信带宽及指令调度提出了极高的要求。中昊芯英从计算、通信、调度三层面的技术突破,系统性构筑了从单芯片到千卡集群的软硬一体高效计算底座:

·算力协同优化:攻克稀疏计算瓶颈

针对 GLM-5 稠密计算与稀疏激活交错并存的 MoE 特性,中昊芯英采用了面向稀疏计算的算力协同优化架构,在提升算力利用率的同时,确保了模型在处理复杂 Coding 任务时的训练吞吐率与收敛效率。

·自适应片上网络:打通大模型负载通信高速路

大模型推理的延迟往往受限于片上通信。中昊芯英通过自适应片上网络通信架构,引入动态低延迟路由算法与网络状态感知机制,有效解决了大模型负载下的通信效率瓶颈。这使得 " 刹那 ®" 芯片在驱动 GLM-5 执行长程 Agent 任务时,能够保持极高的链路利用率与通信稳定性。

·分布式执行环境:实现多级并行的高效调度

为了让 GLM-5 在服务器集群上实现线性扩容,中昊芯英构建了面向 AI 指令体系的分布式编译及执行环境。该技术支持节点间、设备内及指令级的多层次并行调度,通过融合静态图稳定性与动态图灵活性的混合建图策略,为 GLM-5 形成了端到端的高效执行路径,确保了模型在异构平台上的原生高效运行。

GLM-5 擅长处理复杂系统工程与长程 Agent 任务,中昊芯英的 TPU AI 芯片与计算平台为其提供了坚实的算力底座。通过 " 自研 TPU 芯片 + 超算集群 + 顶级大模型 " 的深度融合,双方将共同为客户提供极具竞争力的 AI 软硬件解决方案。

中昊芯英 " 刹那 ®"TPU AI 芯片对 GLM-5 的 Day0 适配,再次印证了 TPU 芯片 "ForAI" 的专用架构在 AIGC 时代的先进性。未来,中昊芯英将继续坚定 TPU 技术路径,聚焦 AI 计算本质,并通过深化与智谱 AI 等顶尖合作伙伴的生态共建,为全球客户提供具备生产力变革能力的 AI 创新方案。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开源 芯片 ai芯片 核心技术
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论