芯东西 02-11
又一AI芯片独角兽诞生!00后创办,融资15亿元,成立不到2年
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

首批产品最早明年交付。

编译 |  ZeR0

编辑 |  漠影

芯东西 2 月 11 日消息,据外媒今日报道,一家由 00 后创办的神秘英国 AI 芯片创企Olix,已获得2.2 亿美元(约合人民币 15 亿元)融资,估值超过10 亿美元(约合人民币 69 亿元),跻身独角兽企业。

Olix(此前名为 Flux Computing)成立于 2024 年 3 月,总部位于英国伦敦,由 James Dacombe 创办,计划开发比英伟达 GPU 更快、更便宜的 AI 芯片。

James Dacombe 今年 25 岁,同时也是英国脑监测创企 CoMind 的创始人兼 CEO。CoMind 是他 18 岁时创立的,并已融资 1 亿美元(约合人民币 7 亿元)。

▲ James Dacombe

针对 AI 推理需求,Olix 正在打造一种新型 AI 芯片,目标是高吞吐量和高交互性,以应对最苛刻的推理工作负载,并且不受当今 AI 芯片的架构和供应链限制。

Olix 光学张量处理单元(OTPU)是一款采用新型存储器和互连架构的光学数字处理器。

其团队相信,将SRAM 架构光子学相结合,可以在每兆瓦吞吐量和总拥有成本方面超越基于 HBM 的架构,并且在交互性和延迟方面显著优于纯硅 SRAM 架构。

该公司已累计获得 2.5 亿美元(约合人民币 17 亿元)融资。据知情人士透露,Olix 希望最早明年向客户交付首批产品。这家初创公司拒绝就其融资事宜置评。

Vertex Ventures 普通合伙人、前 Facebook 基础设施高管 Jonathan Heiliger 认为,AI 推理需要对芯片的制造方式进行彻底的重新思考,系统级架构的大规模重构极其困难,"James 和他的团队的执行速度比拥有十倍资源的公司还要快。"

目前英国芯片公司的融资规模远远落后于美国。另一家英国 AI 芯片创企 Fractile 昨日宣布,计划在未来三年投资 1 亿英镑(约合人民币 9 亿元),以扩大在其在英国本土的业务。

Olix 在官网分享了其芯片设计思路:

现有 GPU 架构已接近物理极限,当前硬件从根本上来说无法同时为每个用户提供快速推理

这种权衡取舍是自 TPUv2 和 V100 以来所有主流加速器所采用的内存架构固有的——一个大型逻辑芯片放置在中介层上,旁边是堆叠的 HBM 内存。

只有将大量用户的数据批量处理,充分利用计算资源,并将模型权重通过 HBM 传输到大量输出 token 的能耗分摊,才能实现每个 XPU 和每兆瓦的高吞吐量。

大批量处理必然会增加每个用户的延迟,降低交互性,迫使用户做出艰难权衡。

推理性能受限于数据传输。因此,逻辑效率(FLOPs/W)和吞吐量(每个封装的 FLOP)的持续提升带来的收益递减。数据传输时间的缩短受到内存墙以及封装互连边界长度和封装尺寸限制的制约。

虽然从 HBM2 到 HBM4 的过渡在能效和吞吐量密度方面都取得了显著提升,但要再次实现如此巨大的改进需要近十年时间,并且需要更加复杂和昂贵的制造技术

HBM 性能提升带来的能效提升有限,不可避免限制了每个 token 传输 KV cache 所需的 pJ/bit 能量,从而也限制了当前架构中 token 总能耗的下限。

过去十年,这种架构扩展提升了系统的整体性能,但进一步扩展无法同时实现高吞吐量和高交互性。从英伟达 Hopper 到 Rubin Ultra,封装尺寸大约增长了 4 倍。再增长 4 倍将接近晶圆级封装的极限

更大的封装可以缩短数据传输时间并提高交互性,但无法降低固定数据传输延迟。因此,阿姆达尔定律限制了未来通过进一步增大封装尺寸来提升交互性的可能性。

数据从 HBM 经由中介层进入计算单元的物理路径并未发生根本性改变,但随着跨光罩高带宽接口的引入,其复杂性却日益增加。

因此,以每次缓存命中或未命中时间衡量的数据传输延迟已接近或达到极限,并逐渐成为每个 token 延迟中越来越重要的组成部分。

虽然可以通过更大层的张量并行性进一步缩短每层的数据传输时间,但这会增加功耗和互连延迟。

此外,高吞吐量编码方案也会引入编码和解码延迟,进一步提高每个 token 的最低延迟,并限制可实现的交互性。

如果可以通过规模、集成或执行来解决这一权衡问题,那么当今计算生态系统的核心企业将是做这件事的主体。由于预付了数十亿美元以确保获得领先的逻辑节点、HBM 和先进封装能力,这类公司将在软件、系统集成和供应链方面拥有巨大的护城河。

每一代都加倍强化这种方法。系统规模越来越大,集成度越来越高,目标也越来越远大。绝对性能持续提升,但底层限制却始终不变,因此仍然无法同时实现高交互性和高吞吐量

能够同时提供高吞吐量和高交互性的硬件,必须同时解决大规模数据传输效率和延迟问题。任何仅改善其中一个维度的方法都只是改变了权衡的本质。

Olix 团队认为,从供应链和制造角度来看,新的架构必须放弃高密度金属薄膜(HBM)、先进封装或其他任何受现有厂商供应链限制的技术。即便是最大的超大规模数据中心运营商都难以确保产能,初创公司根本无法与之竞争。

从兼容性角度来看,硬件必须支持现有模型。它不应强制要求现有模型具备量子算术能力 / 物理理论能力,也不应要求采用新的热力学神经拟态架构,即使这种架构承诺在理论上有所改进。

从设计角度来看,实现这一目标需要系统级思考,从光罩级和晶圆级设计转向机架级计算和数据传输的协同设计,将其作为一个单一的统一系统。

这个领域不乏资金雄厚的挑战者,但他们都陷入了同样的两种失败模式。

有些芯片仍然采用逻辑芯片 - 中介层 -HBM 架构范式,并且在与新一代 GPU/TPU 竞争时,仍面临同样的交互性 - 吞吐量权衡,而这些 GPU/TPU 采用的是老一代低端 HBM 和逻辑芯片。

另一些则做得不够。他们认识到需要一种新的范式,试图重新塑造交互性的权衡取舍,但无法摆脱这种权衡取舍,仍然受到仅限硅基方法的局限性的制约。

Olix 团队希望摆脱这些限制,创造前沿 AI 的下一个范式。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai芯片 供应链 融资 吞吐量 英国
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论