半导体行业观察 5小时前
一家芯片新贵,组团对抗英伟达
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

全球人工智能推理芯片初创公司数量惊人——真的非常惊人,足足有几十家。但只有一家公司获得了三大 HBM 堆叠内存制造商中的两家的投资,并得到了其所在国两家最大电信公司的支持。考虑到能够获得 HBM 配额的公司可以打造数据中心人工智能加速器,尽管韩国初创公司 Rebellions AI 进入这个领域的时间相对较晚,但或许它的时机恰到好处。

鉴于三星和 SK 海力士不仅为 Rebellions 提供 HBM 内存,而且三星还是该公司的代工厂,这些都是 Rebellions 应该能够利用的优势,因为它不仅想在韩国销售其 AI 加速器,还想向全世界销售,而全世界都对矩阵数学非常着迷。

亲眼目睹第一批人工智能初创公司—— Groq、Cerebras Systems、SambaNova Systems、Graphcore、Nervana Systems 和 Habana Labs ——都遇到了自身架构和资金的限制,或者像 Nervana 和 Habana 那样,消失在曾经的巨头英特尔的巨口中,从此销声匿迹,这并没有什么坏处。

" 我经常说——第一只老鼠落入陷阱,第二只老鼠才能吃到奶酪," Rebellions 的首席商务官 Marshall Choy 告诉 The Next Platform。

Choy 曾在 Sun Microsystems 工作十二年,负责技术产品和解决方案工程。2010 年 Sun 被 Oracle 收购后,他又在 Oracle 担任工程系统方面的职务超过八年,因此他对互联网泡沫以及互联网技术回归常态的过程非常了解。Choy 也是 SambaNova 的创始团队成员之一,最初担任产品副总裁,之后担任首席客户官,一个月前离开 SambaNova 加入 Rebellions。

" 说实话,第一代人工智能加速器缺乏灵活性和适应性,所以从未在市场上取得巨大成功,"Choy 继续说道。" 作为第二代加速器,我们是后起之秀,我们一直很有耐心。生态系统已经发展成熟,我们正在战略性地选择进入各个市场的时机,这降低了整体风险。"

Rebellions 于 2020 年 9 月成立,最初的目标是为高频交易公司打造 AI 推理加速芯片。当时,Rebellions 的计划并非与英伟达、AMD 以及众多来自超大规模数据中心、云平台和模型构建商的自研 AI 加速器展开竞争。但话说回来,英伟达最初也是以制造 3D 图形芯片起家,之后才转向更广泛的 AI 市场,并在该领域深耕十余年。计划赶不上变化,有时甚至会远超预期。

晨曦之地

(The Land Of The Morning Calm)

Rebellions 的总部位于首尔,首尔是韩国的首都和最大城市。韩国是工业和金融强国,也是世界第十四大经济体,预计 2025 年国内生产总值将达到 1.86 万亿美元。(美国排名第一,预计为 30.6 万亿美元,其次是中国,为 19.4 万亿美元;欧盟的国内生产总值约为 21.1 万亿美元,但显然它由许多国家组成。)

该公司由四位联合创始人组成,其中朴成铉担任首席执行官。朴成铉在韩国科学技术院获得学士学位,之后在麻省理工学院获得电气工程和计算机科学双硕士学位(辅修金融)。毕业后,朴成铉曾在英特尔担任高级研究科学家两年,并在创立 Rebellions 之前,先后在三星移动担任工程师,在 SpaceX 的星链部门担任 ASIC 设计师,以及在摩根士丹利担任超低延迟股票交易系统设计师。

吴镇旭是公司的联合创始人兼首席技术官。他本科毕业于首尔国立大学电气工程专业,并在韩国科学技术院(KAIST)获得高级学位。KAIST 与韩国科学技术信息研究院(KISTI)在高性能计算(HPC)和人工智能(AI)研究领域有着紧密的合作关系。吴镇旭曾在 KAIST 担任研究员多年,与微软和德州仪器合作,之后加入 IBM 研究院,主要研究方向为近似计算、粗粒度可重构阵列和神经网络加速器。Rebellions 的联合创始人兼首席产品官金孝恩也毕业于 KAIST,获得电气工程学位。他曾在 Maxwave 和三星电子担任工程师,之后加入医疗设备制造商 Lunit 担任首席产品官,并在公司创立之初加入 Rebellions。最后一位联合创始人申成浩也毕业于首尔国立大学,是一位人工智能和算法研究员。

Rebellions 在 2020 年和 2022 年分别完成了 A 轮融资,共筹集了 6100 万美元。2024 年,该公司完成了由 KT Corp(原韩国电信)领投的 B 轮融资,沙特阿美的风险投资部门也参与了投资。C 轮融资则由 Arm Holdings(颇为巧合)领投,三星风投、和硕联合创投、韩国开发银行、Korelya Capital、Kindred Ventures 和 Top Tier Capital 也参与了投资。2024 年 12 月,韩国电信旗下的人工智能初创公司 Sapeon Korea 与 Rebellions 合并,SK Telecom 也因此成为 Rebellions 的投资者。Sapeon Korea 此前曾获得 DRAM 和 HBM 内存制造商 SK 海力士的投资。合并后,Rebellions 成为韩国首家人工智能芯片独角兽企业,估值超过 10 亿美元。其估值可能达到 15 亿美元或更高。

事情是这样的:SK Telecom 和 SK Hynix 都隶属于 SK 集团,SK 集团是韩国第二大财阀。三星集团是韩国最大的财阀。这两家公司都投资了 Rebellions,并为其供应 HBM 内存;三星是 Rebellions 的代工厂合作伙伴。

Rebellions 公司最初采用台积电 7 纳米工艺制造用于高频交易加速的 Ion 芯片,之后在后续的 Atom AI 推理加速器中转向 5 纳米工艺。目前我们关注的 Rebel 系列芯片(因为它们与英伟达和 AMD 的数据中心级 GPU 加速器竞争)采用的是三星 4 纳米工艺——事实上,Rebellions 公司正在推动三星的 4 纳米工艺升级,因为 IBM 在其 Power11 处理器中没有选择 4 纳米工艺,而是坚持使用三星改进的 7 纳米工艺。

近几个月来,Rebellions 与 Arm 达成合作,成为其 Arm Total Design 生态系统的一部分。这将使基于 Neoverse 设计制造 Arm CPU 的公司能够集成 Rebellions 的 Atom 或 Rebel AI 加速器,并利用三星即将推出的 2 纳米工艺创建混合平台。此外,Rebellions 还与 Marvell 合作,利用其信令 SerDes、芯片间互连和先进封装技术,为客户(特别是亚洲、非洲或中东等地区的自主人工智能中心和区域性新云平台)打造定制化的 AI 加速器。这些客户可能需要购买不受美国出口管制限制的 AI 加速器。

而这最终将我们带到了第三代 Rebel AI 推理芯片。

他们发出叛逆的呐喊,

高呼 "Coarse Grained Cores"

在混合专家时代初期,Nvidia GPU、Google TPU 和 AWS Trainium 几乎垄断了 AI 训练,而推理又是人们试图赚钱的领域,因此 Rebellions 将其 Rebel 和未来的芯片重点放在推理上也就不足为奇了。

Rebel 芯片的架构借鉴了其前身 Atom 芯片,具体来说,它采用了 Oh 在微软公司开发的粗粒度可配置阵列(CGRA:coarse grained configurable array)处理单元设计方法,并将其与软件定义片上网络相结合。就像这样:

采用这种方法,Rebellions 称之为 " 神经核心 " 的 Rebel 芯片上任意两个处理单元之间的路由都是可编程的,这种网状互连可以扩展到多个芯片组,从而构建规模越来越大的计算和存储复合体。芯片内部以及芯片组之间的路由和调度可以根据推理任务运行时的流量模式进行自我调整。

但 CGRA 架构最实用的部分或许在于,神经核心上的缓存、加载存储单元、张量单元和向量单元都配备了输入缓冲区(IBUF),这些缓冲区拥有自定义指令集,使其可编程。这意味着,在 LLM 推理的预填充阶段,可以将神经核心阵列编程为类似大型脉动阵列的计算密集型操作,将提示信息分解为键值对;然后在解码阶段,可以将其重新编程为更注重内存带宽的机器,以生成查询的词元响应。如上图所示,还存在一些中间阶段。

简而言之,CGRA 方法利用了 FPGA 的一些可编程性要素,而无需付出 FPGA 完全编程灵活性所带来的效率损失。

与其他人工智能计算引擎一样,Rebel 芯片的神经网络核心也混合使用了多种计算引擎:

目前,Rebel 神经网络核心上每个计算单元的具体细节仍处于保密状态,但我们知道每个核心都配备 4 MB 的 L1 SRAM 内存,该内存连接到一个加载 / 存储单元,该单元又连接到一个张量单元和一个向量单元。这些数学单元支持 FP16、FP8、FP4、NF4 和 MXFP4 精度,这足以满足当今的推理需求。Rebel Single 的神经网络核心在 FP16 精度下拥有 16 万亿次浮点运算 / 秒 ( teraflops ) 的性能,在 FP8 精度下拥有 32 万亿次浮点运算 / 秒 ( teraflops ) 的性能;我们目前尚不清楚神经网络核心每个时钟周期可以执行多少次运算,因此无法确定其时钟频率。但我们预计其时钟频率约为 2 GHz。

为了扩展 Rebel 芯片,八个神经网络核心通过 SRAM 块以网状互连的方式连接在一起,这是 CPU、GPU 和 XPU 架构中的常见特性。两个这样的芯片被放置在一个名为 Rebel Single 的单个芯片组上:

Rebel Single 主板配备一个 PCI-Express 5.0 x16 接口、三个 UCI-Express-A 芯片互连接口以及一个 HBM3E 内存控制器。目前,Rebel Single 使用的是三星的 HBM3E 堆叠式内存,但它完全可以支持 SK 海力士的 HBM 内存,而且完全有理由相信它最终会支持。

HBM3E 端口的读写速度为 1.2 TB/ 秒,PCI-Express 端口的读写速度为 128 GB/ 秒,三个 UCI-Express 端口的读写速度均为 1 TB/ 秒。Rebel Single 拥有 64 个神经网络核心,以及总共 64 MB 的 L1 缓存(由这些核心共享)。网状互连网络为缓存分配了 16 TB/ 秒的带宽,另有 16 TB/ 秒的带宽分配给神经网络核心。

在 Rebel Single 芯片的左上角,您会看到一个独立的电路模块,其中包含 TDMA、CP 和 Sync Man。这些是设计中的重要元素,可以加速 AI 推理工作流程的部分环节:

我们期待能更深入地研究这些内容,但就目前而言,Rebellions 对这些特殊逻辑模块的描述仅限于此。

命令处理器(CP)包含两个四核 Arm Neoverse CPU 模块,配备 4 MB 二级缓存。它的作用是协助其上下两端的同步管理器和任务 DMA 控制器,协调和同步 Rebel 芯片组之间的数据传输,确保计算单元在需要时能够获取所需数据。从概念上讲,我们认为它有点像插槽内 HBM 内存的 NUMA 控制器。

这些神经核心集群相互连接,构成单个插槽中的计算引擎。我们推测,从长远来看,多个插槽将通过基于 UALink 或 ESUN 的可扩展网络互连,甚至可能根据客户需求采用授权的 NVLink Fusion 互连技术。(Rebellions 目前对此保持沉默。)

为了构建更大的计算复合体,可以将四个 Rebel Single 像这样连接起来:

这张示意图展示了一个由四个 Rebel Single 组成的阵列,显然它被称为 Rebel Quad。但正如你所看到的,你可以不断地在顶部和底部堆叠成对的 Rebel Single,从而扩展出一个非常大的互连计算和内存平面。如果你愿意,你可以制作一个非常长的滑橇,其逻辑上相当于一个晶圆级设计,上面悬挂着大量的 HBM 内存,就像圣诞节时卖的那种巨型士力架一样。

但除非有人要求,否则 Rebellions 不会真的这么做。不过,CPU 和 XPU 复合体之间显然有很多连接方式,Oh 和 Choy 也向我们展示了一些可能性:

目前,重点是 Rebel Quad,这是一个我们已经实际拿在手里的 Socket,但他们不让我们把它当作镇纸添加到我们的收藏中:

该芯片复合体采用三星的 ICube-S 中介层和封装技术,与台积电的 CoWoS-S 中介层和封装技术大致类似。该封装包含四组 12 层高的 HBM3E 内存堆叠,总带宽为 4.8 TB/s,两条 PCI-Express 5.0 x16 通道的总带宽为 256 GB/s,可用于芯片的双向数据传输。(可惜的是,这四颗芯片复合体中有两个 PCI-Express 控制器位于中间,无法正常工作。)

以下是 UCI-Express-A 芯片间互连的详细信息:

Rebellions 已从 Alphawave Semi 获得其 UCI-Express-A 控制器的授权,Alphawave Semi 是一家芯片初创公司,刚刚被高通以 24 亿美元收购。

综上所述,Rebel Quad 在 FP16 精度下可提供 1 petaflops 的运算速度,在 FP8 精度下可提供 2 petaflops 的运算速度。目前尚不清楚在各种 FP4 精度下吞吐量是否会翻倍,或者仅仅是因为运算单元后半部分存在大量零值。

Rebel Quad 插槽的功耗为 600 瓦,与 Nvidia 和 AMD 的 GPU 以及性能大致相同的、命运多舛的 Intel Gaudi 3 AI 加速器相比,功耗相当低:

我们注意到,Rebel Quad 没有 OAM 插槽,只有 PCI-Express 卡规格,这一点很有意思。不过,如果客户需要,想必是可以实现的。(这对于液冷服务器配置尤其重要,因为在液冷服务器配置中,为了提高密度,需要将芯片放置在系统主板上,并在多个计算引擎之间铺设铜管。)

就原始性能而言,Rebel Quad 与英伟达的 H200 完全不相上下—— FP16 和 FP8 性能提升了 3.4% ——但每瓦性能却高出 20.7%。英伟达的 B200 GPU 性能是 Rebel Quad 的 2.2 倍,但为此需要高出 1.7 倍的带宽和功耗,性价比相当不错。AMD MI325X 的每瓦性能与 Rebel Quad 大致相同,浮点运算吞吐量高出 28%,但为此需要高出 25% 的内存带宽和功耗。

由于架构差异,实际性能可能会有很大不同,我们期待看到基准测试结果显示这些 GPU 和 Rebel 芯片能够进行真正的推理。

我们目前尚不清楚具体价格,但可以合理推测 Rebellions 公司在定价方面有一定的回旋余地,并且会根据市场价值进行定价,而不是竞相压低价格。目前张量数学和 HBM 的需求远大于供应,只有傻瓜才会发动价格战。

Rebel Single 于 2024 年 11 月完成录制,Rebel Quad 目前正在向部分客户提供样品,以验证概念设计。

在彻底攻克了所有硬件之后,Rebellions 现在需要在其上部署软件。当然,它将使用基于 PyTorch 原生实现的开源技术栈,该技术栈采用 Triton 推理引擎和 vLLM 开源库来管理推理所需的键值缓存。Rebellions 还开发了自己的集体通信库 RBLN CCL,它类似于 Nvidia 的 NCCL 库;两者都源自开源的消息传递接口 ( MPI ) 库,MPI 库在几十年前彻底改变了高性能计算 ( HPC ) 领域,至今仍是人工智能 ( AI ) 的基础。

Rebellions 还有一个名为 Raise 的推理服务层,类似于 Nvidia 的 Dynamo 推理堆栈,并且已经接入了 Ray 分布式推理框架,该框架运行在 Red Hat 的 OpenShift Kubernetes 容器平台及其容器版本的 Red Hat Enterprise Linux 之上,而 Red Hat Enterprise Linux 是多年前 The Next Platform 成立之初收购的 CoreOS 的一部分。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

芯片 英伟达 ai 人工智能 oracle
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论