量子位 07-28
最高能效比!他又死磕“存算一体”2年,拿出全新端边大模型AI芯片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当他再次高调出现在大众面前,已经是时隔两年之久。

他就是后摩智能CEO吴强博士,很多人好奇他和他的团队在这两年时间里都在做什么。

而就在今年 WAIC 期间,吴强终于给出了答案——

发布潜心两年的成果:后摩漫界 ® M50,一款业界能效比最高的存算一体端边大模型 AI 芯片。

后摩智能 CEO 吴强发布后摩漫界 ® M50

M50 拥有160TOPS@INT8的物理算力,100TFLOPS@bFP16的浮点算力,以及高达153.6 GB/s的超高带宽和最大48GB的内存。

更令人侧目的是,实现这一切的典型功耗,仅仅 10W ——相当于一个手机快充的功率。

用吴强的话来说就是:

我们希望让大模型算力像电力一样随处可得、随取随用,真正走进每一条产线、每一台设备、每一个人的指尖。

两年前,后摩智能带着第一代存算一体芯片惊艳亮相 WAIC。

两年后,面对大模型时代带来的全新机遇与挑战,他们依旧稳健,选择继续死磕存算一体这条当时看来颇为 " 冷门 " 的赛道,并再次拿出了业界第一的成绩。

把存算一体推入了第二代

M50 之所以能实现如此惊艳的能效比,其背后实则是后摩智能在存算一体技术上的持续深耕和迭代突破。

因为它所搭载的,正是后摩智能自研的第二代存算一体技术

要理解这一的技术,我们首先要明白什么是 " 存算一体 "。

在传统的计算机架构(冯 · 诺依曼架构)中,计算单元和存储单元是分离的。CPU 或 GPU 要计算数据,需要先从内存中把数据 " 搬运 " 过来,计算完成后再 " 搬运 " 回去。

这个 " 搬运 " 过程,就像快递运输,不仅耗费时间(带宽限制),还消耗大量能量(功耗),形成了所谓的 " 功耗墙 " 和 " 存储墙 ",成为制约芯片性能提升的最大瓶颈。

而存算一体,顾名思义,就是将计算和存储融合在一起,让数据在存储单元内部就近完成计算,从根本上解决了数据来回搬运的问题。这好比将工厂直接建在了仓库里,省去了所有的物流环节,效率自然大大提升。

吴强在创业之初就敏锐地意识到,要想在英伟达这样的国际巨头环伺下实现 " 弯道超车 ",就必须在架构上进行创新。存算一体,便是他认定的那条另辟蹊径的道路。

M50 采用的第二代 SRAM-CIM(基于 SRAM 的存内计算)技术,是真正的 " 存内计算 "。

吴强解释道:

很多朋友问存内和近存有什么区别?如果把 SRAM 的阵列或者结构改变,它就是存内。如果不改变,它只是拿标准的 SRAM,在旁边做计算,那就是近存。

后摩智能选择的是更彻底、更具挑战性的前者——他们把 SRAM 的阵列全部打开,进行了深度的结构性改变。

这一代的存算 IP 实现了 " 双端口加载与计算并行 ",权重加载和矩阵计算可以同时进行,效率倍增。

同时,为了解决量产难题,后摩智能团队自主摸索出了一套针对存算芯片的测试和可靠性保障方案(MBIST 和 CBIST),趟出了一条业内无人走过的路。

有了高效的存算 IP,还需要一个聪明的 " 大脑 " 来调度和使用它。后摩智能为此自研了全新的第二代 IPU(AI 处理器)架构——天璇

天璇架构针对大模型的计算特点,做了大量优化,其中最核心的创新之一,就是弹性计算(Elastic Computing),或者叫自适应计算。

这有点类似于 GPU 的稀疏加速技术。

在 GPU 中,如果权重参数为 "0",计算时就可以跳过,从而实现加速。但这种技术的限制是,权重必须严格为 "0"。而在现实应用中,要让大量权重都恰好为 "0" 是非常困难的,因此 GPU 的稀疏加速效果往往不尽如人意。

而存算一体的特性,给了后摩智能一个绝佳的机会。他们的 SRAM 存算,是按照一个比特(bit)一个比特进行串行计算的。这意味着,他们可以做到更细粒度的优化。

吴强对此解释道:

我们并不需要它(权重)整个是 0,我只要它在 bit 里面有 0,我就可能做弹性加速,我就可能授予这个 0 跳过去 0 的加速。

这个看似微小的区别,带来了本质的不同。

它让加速的机会大大增加,也让量化变得更加灵活,可以实现 7bit、6bit 甚至 5bit 的超低精度量化,从而在不牺牲太多精度的情况下,将性能压榨到极致。根据后摩的数据,天璇架构最高可提供160%的加速效果。

此外,天璇架构还在业内首次实现了在存算架构上直接进行浮点运算,并成功量产。这意味着,开发者可以直接运行开源的 FP16 浮点模型,无需复杂的量化和精度调优,大大降低了应用落地的门槛和开发周期。

再强大的硬件,也需要软件来释放其全部潜能。与 M50 配套的,是后摩智能新一代编译器工具链——后摩大道 ®

这款完全重构的编译器,最大的特点是灵活易用。它支持细颗粒度的算子,能将复杂的算子自动拆分、组合和优化。

开发者不再需要面对几百个优化选项手动 " 炼丹 ",编译器可以自动搜索最优化的策略,大大减轻了适配和部署的负担。

从底层的存算 IP,到上层的 IPU 架构,再到顶层的编译器工具链,后摩智能通过全栈自研,将软硬件深度协同优化,最终打磨出了 M50 这把刺穿端边大模型计算 " 最后一公里 " 的利刃。

衍生出了更多存算一体产品

这颗业界能效比最高的芯片还只是故事的开始。

为了让 M50 的算力能够以最便捷的方式触达不同场景,后摩智能同步推出了一系列硬件产品,构建了覆盖终端与边缘的完整产品矩阵。

终端侧:力擎 TM 系列 M.2 卡

在终端侧,首先是力擎 TMLQ50 M.2 卡

这款产品的大小仅如同一块口香糖,采用标准的 M.2 接口,可以 " 即插即用 " 地为 AI PC、AI Stick、陪伴机器人等移动终端提供强大的本地 AI 能力。

单卡即可支持 7B/8B 模型推理速度超过 25 tokens/s。吴强特别提到,低功耗带来的一个巨大优势是可以使用被动散热,无需风扇,这对于智能语音设备等对噪音敏感的场景至关重要。

其次是力擎 TMLQ50 Duo M.2 卡

在标准 M.2 卡的基础上,它集成了两颗 M50 芯片,算力、带宽、内存全部翻倍,达到 320TOPS 算力,突破了 14B/32B 大模型在端侧部署的瓶颈。

值得一提的是,这两颗芯片并非简单的堆砌,而是通过后摩自研的 C-to-C 互联技术协同工作,实现 1+1>2 的效果。

边缘侧:力谋 ® 系列加速卡及计算盒子

在边缘侧,后摩智能同样发布了一些利产品。

首先是力谋 ® LM5050/LM5070 加速卡

面向对体积不那么敏感,但对算力有更高要求的边缘计算场景,后摩推出了半高半长和全高全长的加速卡,分别集成 2 颗和 4 颗 M50 芯片,最高可提供 640TOPS 的物理算力。

这样的算力足以在边缘端支持 70B 甚至千亿参数级别的大模型。而功耗,相比友商同等算力产品动辄几百瓦的 " 电老虎 ",后摩的加速卡仅为几十瓦,能效优势极为突出。

其次是力谋 ® BX50 智能计算盒

这是一款 All-in-One 的解决方案,在一个紧凑的机身内,集成了强大的 M50 芯片、丰富的 I/O 接口,并支持加密安全功能,可适配边缘场景,支持多达 32 路视频分析与本地大模型的同时运行。

从消费终端的 AI PC、学习机,到智能办公的会议系统,再到智能工业的产线质检,后摩智能的产品矩阵,让离线、安全、低延迟的本地大模型应用成为可能,真正构建起一个 " 低功耗、高安全、好体验 " 的端边智能新生态。

为什么要死磕存算一体?

首先,这是差异化竞争的必然选择

面对英伟达、华为这样 " 大而全 " 的巨头,初创公司如果跟在后面亦步亦趋,很难有出头之日。

正如吴强所述:

如果跟国际巨头竞争,需要一些比较创新的架构才有可能另辟蹊径弯道超车。

存算一体,就是他找到的那个 " 蹊径 "。

其次,这是技术发展的必然趋势

大模型时代,应用对算力和带宽的需求是空前的,而传统架构的瓶颈日益凸显。

吴强和他的团队发现,大模型应用 " 既要算力密集,又要带宽密集 " 的特点,与存算一体技术 " 既能提升算力密度,又能提升带宽 " 的优势完美契合。

" 我们发现这个之后就很兴奋," 吴强说," 我们决定聚焦在端边大模型 AI 计算,让存算和大模型形成共振,释放更大的势能。"

最终,这也是实现普惠 AI 的必经之路

吴强认为,未来 90% 的数据处理都将在端和边完成,只有 10% 的训练和复杂任务在云端进行。要让大模型真正走出云端,赋能千行百业,就必须解决端边设备算力不足、功耗过高的问题。

这份专注与坚持,也为后摩智能赢得了产业和资本的认可。近年来,公司陆续获得了中国移动、北京人工智能基金、亦庄国投等重量级产业方和国有资本的投资,为持续的研发创新提供了坚实的后盾。

从两年前的崭露头角,到如今的厚积薄发,吴强和他的后摩智能,正以一种近乎 " 执拗 " 的坚持,在存算一体这条道路上笃定前行。

M50 的发布,只是他们交出的阶段性答卷。未来,当更强大的 AI 算力以更低的功耗融入我们身边的每一个设备时,我们或许会再次想起这位热爱足球、坚持跑步的技术人,以及他那个 " 让智能无处不在 " 的初心。

Two More Thing:

发布会的最后,吴强还透露了两个有趣的小细节。

一是 M50 的命名,之所以跳过了 M40,这也算是创业公司的生存玄学了,毕竟在芯片行业——跳过 "4",可能就跳过了 " 生死劫 "。

二是他向大家承诺:" 下次不用等 2 年了,明年还会有新品。"

据了解,后摩智能已经启动了下一代DRAM-PIM(基于 DRAM 的存内处理)技术的研发。

这个技术将突破 1TB/s 的片内带宽,能效再提升三倍,旨在推动百亿参数大模型在 PC、平板等终端设备上的普及。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

吴强 ai芯片 芯片 ceo 元和
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论