近日,中昊芯英 " 刹那 ®"TPU 架构 AI 芯片完成对百度开源多模态混合专家大模型 ERNIE-4.5-VL-28B-A3B 的适配与性能实测。此次适配验证了国产 TPU 架构算力基座对前沿 MoE 模型的高效支撑能力,更开创了 " 国产创新芯片架构 + 国产开源大模型 " 的生态范式。
中昊芯英成立于 2018 年,由前谷歌 TPU 芯片核心研发者杨龚轶凡携一批来自谷歌、微软、三星等海外科技巨头公司的 AI 软硬件设计专家组建。公司核心团队掌握从 28nm 到 7nm 各代制程工艺下大芯片设计与优化完整方法论,全栈式的技术梯队覆盖芯片设计、电路设计、软件栈研发、系统架构、大模型算法等各类技术领域,研发人员占比 70% 以上。
历经近 5 年的研发,中昊芯英推出的 " 刹那 ®"TPU 架构高性能 AI 专用算力芯片,拥有完全自主可控的 IP 核、全自研指令集与计算平台。该芯片采用专为 AI/ML 而生的 TPU 芯片架构,在 AI 大模型计算场景中,算力性能超越海外著名 GPU 产品近 1.5 倍,能耗降低 30% 同时,通过采用 Chiplet 技术与 2.5D 封装,实现了同等制程工艺下的性能跃升,并支持 1024 片芯片片间互联,实现千卡集群线性扩容,支撑超千亿参数大模型运算需求。
此次中昊芯英 " 刹那 ®"TPUAI 芯片适配的百度开源的 ERNIE-4.5-VL-28B-A3B 模型(以下简称 ERNIE-4.5-VL)是百度文心开源大模型 ERNIE-4.5 系列中的一款多模态 MoE 大模型,于 2025 年 6 月 30 日随文心 4.5 系列一同开源。该模型总参数量为 28B,激活参数量为 3B,采用异构混合专家架构(MoE),在跨模态理解与生成、长文本处理等领域表现卓越,适用于智能导览、视觉客服等多种场景。
文心 4.5 系列模型均基于飞桨深度学习框架进行高效训练、推理和部署,在大语言模型的预训练中,模型 FLOPs 利用率(MFU)达到 47%。实验结果显示,该系列模型在多个文本和多模态基准测试中达到 SOTA 水平,在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果尤为突出。
在此次的技术适配方面,中昊芯英凭借 " 刹那 ®"TPU AI 芯片强大的并行处理能力,与 ERNIE-4.5-VL 的架构设计实现了深度融合。芯片的可重构多级存储、近存运算设计以及流水线式的时空映射,有效提升了大模型计算速度和精度,为模型在复杂任务中的运行提供了高效支持。同时,针对 ERNIE-4.5-VL 的多模态特性," 刹那 ®"TPU 芯片在处理视觉、文本等多模态数据时,展现出了出色的兼容性和运算性能。
根据实际运行效果表明,在基于 " 刹那 ®"TPU AI 芯片构建的 " 泰则 ®"AI 服务器上驱动运行 ERNIE-4.5-VL 模型时,性能表现与海外著名 GPU 产品齐平。 这一数据有力地证明," 刹那 ®"TPU AI 芯片不仅在技术架构上具有先进性,在实际应用中同样拥有强大的性能表现和商业价值。
除了性能数据方面,中昊芯英技术团队还成功基于 " 刹那 ®"TPU AI 芯片运行了 ERNIE- 4.5-VL 的多项复杂多模态任务。例如,在古文识别任务中,模型能够精准理解古文字体并给出相应出处典故,整个过程流畅运行,无缝衔接。这进一步佐证了在针对大模型方面,中昊芯英 " 刹那 ®"TPU AI 芯片能够为 ERNIE-4.5-VL 提供稳定且强大的算力基础。无论是大规模的模型训练,还是实时性要求较高的推理任务," 刹那 ®"TPU AI 芯片都能满足需求。此外,通过与百度飞桨框架的紧密配合,进一步优化模型在芯片上的运行性能,可以更好的为开发者提供更加便捷、高效的开发环境,有助于推动大模型技术在更多领域的应用和创新。
中昊芯英创始人及 CEO 杨龚轶凡表示:" 此次适配验证了国产算力与模型协同创新的可行性。" 刹那 ®"TPU AI 芯片作为专为大模型设计的算力引擎,与 ERNIE-4.5-VL 的异构 MoE 架构形成完美互补。接下来我们将持续深化与百度的技术共研,推动从 3B 到 424B 全系列模型的硬件加速方案落地,为产业提供更高效可靠的国产自主 AI 基础设施。"


登录后才可以发布评论哦
打开小程序可以发布评论哦