中昊芯英发布新一代TPU芯片“须臾”：单芯片算力达896TFLOPS

快科技 6 月 30 日消息，中昊芯英正式推出新一代全自研高性能 TPU AI 专用算力芯片 " 须臾 "，并同步发布搭载该芯片构建的软硬件一体化智算底座——泰则 2.0 AI 高性能智算平台。

此次升级是继初代 " 刹那 " 芯片及初代泰则服务器后的全面迭代，在底层架构、算力峰值、片上存储、集群互联和计算能效等方面均实现跨越式提升。

作为国内最早专注 TPU 架构 AI 芯片研发的企业之一，中昊芯英于 2023 年成功流片并量产了国内首枚高性能 TPU 芯片 " 刹那 "，积累了三年规模化落地经验。

基于此，新一代 " 须臾 " 芯片针对超大模型、长上下文和海量词元交互场景中的访存延迟、能耗偏高及并行效率不足等痛点，进行了架构革新。

关键性能指标如下：

单芯片混合精度浮点算力达 896 TFLOPS，为上一代 " 刹那 " 的 3 倍；8-bit 推理算力达 1792 TOPS，适配高并发推理需求。

显存容量与片间互联速率大幅提升，支持超长上下文，有效降低多轮对话中的数据搬运开销。

单芯片额定功耗仅 600W，相较同等算力水平的传统芯片功耗降低 50%，更利于绿色低碳智算中心建设。

通过多维张量计算单元与数据复用优化，有效缓解存储墙瓶颈，同等 AI 任务下综合计算效能可达传统 GPU 的数倍，在大模型训练和批量词元生成场景优势显著。

" 须臾 " 延续全自研 TPU 技术路线，涵盖 IP 核、指令集、算子库及整机系统软件，无海外核心技术依赖。公司具备芯片设计、电路开发、编译工具、模型适配的全链条能力，可快速完成新模型的适配部署，满足政务、金融、电网等行业的信息安全合规要求。

平台 " 泰则 2.0"：单机 7.168P 算力，支持千卡集群

同步推出的泰则 2.0 平台，其最小计算单元（单节点）由两路高性能 CPU 与 8 片 " 须臾 "TPU 协同构成，整机混合精度算力达 7.168P，同等任务下整机能耗仅为传统 GPU 服务器的 80%。

在集群层面，泰则 2.0 通过自研低延迟高并行片间通讯协议，单个超节点可支持最多 2048 片 " 须臾 " 芯片直联，能够承载万亿参数大模型分布式训练、多智能体协同运算及海量词元并发推理等重负载任务。平台还提供完整的可视化运维管理系统，集成 BMC 硬件监控、故障预警、算力计费、用户权限及模型市场等功能，实现开箱即用。

软件生态方面，泰则 2.0 兼容 PyTorch、vLLM、SGLang 等主流 AI 框架，并适配 DeepSpeed、Megatron-LM 等分布式训练套件；已完成 Qwen、DeepSeek、GLM、MiniMAX 等数十款大模型深度适配，开发者无需大规模代码改造即可快速完成模型迁移，大幅降低国产算力替代门槛。

紧扣词元经济与 AI 智能体需求，赋能多行业落地

2026 年，AI 产业迈入词元经济落地阶段，从传统算力时租转向以词元计价的 MaaS 服务模式。" 须臾 " 与泰则 2.0 在硬件层面针对词元生成、上下文缓存及批量推理进行专属优化，有效降低单词元推理成本，助力 AI 服务商搭建自主可控的按量计费体系。

产品深度适配开源 AI 智能体框架 OpenClaw，支持本地私有化部署，确保交互词元与业务数据不出域，兼顾数字员工自动化执行与企业隐私安全，可应用于报表自动化、IT 运维、数据分析及个人智能助理等场景。

在商业化层面，泰则 2.0 单位算力建设成本仅为海外高端产品的 60%，低功耗特性有助于降低电费支出与碳排放，契合各地低碳算力园区的政策导向。

规模化应用加速，持续迭代驱动未来

目前，初代 " 刹那 " 芯片已在多个行业实现大规模交付，产品成功部署于深圳联通、天津移动、太极股份、江西上饶等运营商、政府机构及科技企业建设的超大规模智算中心，并在高校科研平台及教学环境中广泛应用，覆盖金融、传媒、教育、医疗等领域。

未来，中昊芯英将依托现有客户基础，持续优化 TPU 芯片算力、能效与存储架构，适配更大规模的大模型与多智能体集群；同时联合主流大模型厂商、云服务商及系统集成商，深化软硬件协同，进一步拓展自主可控算力产业链的落地版图。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：鹿角

宙世代

一起剪

相关标签