融资34亿！新晋AI芯片独角兽诞生

前谷歌 TPU 工程师创办，AI 大神卡帕西参投。

作者 | ZeR0

编辑 | 漠影

芯东西 2 月 25 日报道，2 月 24 日，由两位前谷歌工程师创办的美国 AI 芯片创企MatX宣布完成5 亿美元（约合人民币 34 亿元）B 轮融资，其大模型芯片 MatX One 预计一年内完成流片。

据外媒报道，MatX 透露其目前的估值已达数十亿美元，也就是已跻身独角兽行列。

MatX 宣称 MatX One 能实现远超其他芯片的吞吐量，同时延迟也最低。这款芯片基于可分割的脉动阵列，兼具大型脉动阵列出色的能效和面积效率，同时在小型矩阵上也能实现高利用率。

据 MatX 披露，该芯片结合了 SRAM 优先设计的低延迟和 HBM 的长上下文支持。这些特性加上对数值计算的新诠释，使其在大语言模型上的吞吐量高于任何已发布的系统，同时延迟与 SRAM 优先设计相当。

MatX 的测试表明，根据每平方毫米的计算性能指标，其规划芯片的性能可以超越英伟达即将推出的 Rubin Ultra。

2022 年，MatX 由 Reiner Pope 和 Mike Gunter 创办，目标打造一款最适合大语言模型的芯片。

Reiner Pope 曾为谷歌的芯片和 AI 模型开发软件，Mike Gunter 曾是谷歌 TPU 的硬件工程师。

如今，MatX 的团队规模已发展到约100 人。

由前 OpenAI 研究员 Leopold Aschenbrenner 创立的投资公司 Situational Awareness 与 Jane Street 领投了 MatX 的 B 轮融资。

在 Aschenbrenner 看来，MatX 的芯片非常适合处理预训练和强化学习，" 它很有可能成为这一代最重要的 AI 芯片公司。"

前特斯拉 AI 总监、OpenAI 联合创始人 Andrej Karpathy，以及 Alchip、Marvell 等供应链上的投资者也参与了本轮融资。

Andrej Karpathy 在社交平台上分享了他参投 MatX 的想法。

他认为，token 需求激增，为大语言模型的底层内存和计算资源的合理配置提供了绝佳机会。一个根本且不易察觉的限制是，受限于芯片制造工艺，内存池会分为两个完全不同的池（物理实现方式也不同）：1）紧邻计算单元的片上 SRAM，速度极快但容量极低；2）片外 DRAM 容量很大，但内容难获取。

此外，还有许多架构细节（例如脉动阵列）、数值计算等因素需要考虑。如何设计最优的物理基础架构，并在大语言模型的核心工作流程（推理预填充 / 解码、训练 / 微调等）中合理配置内存和计算资源，以实现最佳吞吐量 / 延迟 / 成本比，这或许是当今最具吸引力且回报最高的智力难题之一。

" 这一切都是为了快速、低成本地获取大量 token。可以说，最重要的工作流程（在紧凑的智能体循环中对长 token 上下文进行推理解码）是目前两种阵营（HBM 优先的英伟达阵营和 SRAM 优先的 Cerebras 阵营）最难同时实现的。"Karpathy 写道。

官网显示，对于大型 100 层 MoE 模型，MatX 的 AI 芯片每秒可输出超过 2000 个 token，其横向扩展互连能力可支持包含数十万张芯片的集群。

当前，英伟达和谷歌的 AI 芯片都主要依赖 HBM 来处理训练 AI 模型所需的大量计算。还有一些芯片公司采用静态随机存取存储器（SRAM）来更快地处理单个用的查询，以满足日益增长的推理需求。

" 我们的立场是，实际上可以在同一个产品中同时实现这两点，而且这样会得到一个更好的产品。"MatX 创始人兼 CEO Reiner Pope 谈道。

他在社交平台 X 上回复网友说：" 与其他 HBM 厂商不同，我们拥有足够的 SRAM 和互连带宽，足以支持将权重存储在 SRAM 中。HBM 中的 key 值对不会增加延迟，因为密集读取可以预取，而稀疏读取的数据量很小。除了内存系统之外，我们还拥有最高的 FLOPS/mm2。"

据外媒报道，MatX 预计在今年完成芯片的最终设计，并希望在2027 年开始出货。该公司计划与台积电合作生产该产品。

宙世代