EEWORLD电子工 3小时前
国产AI芯片,用3D堆叠“弯道超车”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

在半导体行业,"3D+ 混合键合 " 一直是确定的发展方向。而在前阵子," 韬定律 " 又继续引发了人们对于这一路线的关注,其核心观点在于,未来半导体性能提升不仅依赖晶体管几何尺寸微缩,还需要通过时间尺度优化来降低延迟、提升能效。

AI 芯片设计商博通(AVGO)也在近期表示,预计到 2027 年,基于其 3D 堆叠芯片技术的出货量将至少达到 100 万颗。

国内厂商也看到了 3D 堆叠技术在当下 AI 爆火下的机遇。在当下 EUV 被限制,摩尔定律又在放缓的前提下,3D 堆叠成为了一个好路线,一个又一个国内厂商开始公布自己的产品和未来计划。

算苗科技:3D DRAM+ 混合键合 +RISC-V

近期,一家国产 3D 架构 AI 云端大算力芯片公司算苗科技提出 3D TokenPU 概念,即原生面向 Token 处理的新型处理器。EEWorld 获悉,该公司第一代 TokenPU 产品 A4E 已流片,正式进入制造阶段。第二代产品 A4S 也已完成架构定义,预计将在 2027 年 2 月底前后启动流片,形成 " 一代流片、一代定义 " 的迭代节奏。公司选择了全国产化供应链,从设计到 IP 到制造到封装,基于 RISC-V 自研架构和成熟国产工艺。

A4E 通过将 8 层存储晶圆垂直堆叠在计算逻辑晶圆之上,并利用硅通孔(TSV)和凸点(Bump)技术实现微米级互联,大幅缩短数据传输路径。相较于传统芯片间毫米级互连,其传输距离降低两个数量级,带来更高的访存带宽和数据交换效率,为大模型推理提供充足的数据供给,有效破解 " 数据饥饿 " 难题。

" 大模型时代最核心的技术挑战并非计算单元本身,而是内存带宽瓶颈。" 算苗科技创始人 &CEO 汪福全向 EEWorld 表示,随着模型参数规模不断扩大,数据搬运逐渐成为制约系统性能的关键因素。据了解,英伟达 H100 跑 AI 推理时,高达 70% 计算单元在空转,等待数据从内存中搬运过来。过去 20 年,摩尔定律驱动计算能力增长了 60000 倍,而内存带宽仅仅增长了 100 倍。

算苗科技是国内最早布局 3D 混合键合算力芯片的团队之一,为了突破这一瓶颈,算苗团队核心成员从 2019 年开始探索 3D 混合键合技术,并最终通过 3D 堆叠架构实现超高带宽互连。

算苗科技把内存芯片直接盖在了计算核心的楼上(缩短搬运距离),并且修建了数百万部垂直电梯,原材料可以快速搬运到工厂的各个角落,不再受限于大门宽度,从而实现 16~32TB/s 的带宽。同时,算苗科技设计的工厂(计算芯片)是专门用于推理 AI 大模型的(专用芯片),因此可以用更少的设备(12nm 工艺)来实现更高的推理性能。

当下 AI 芯片路线非常多,对于这些芯片来说内存选择至关重要,比如 GPU/NPU 搭载 HBM、LPU 搭载 SRAM、存算一体芯片搭载 RRAM。

相比传统 HBM 方案,3D 混合键合能够通过上百万级互连实现更高的数据传输效率。HBM 本身已经是高带宽存储的重要创新,但其依然受制于标准总线架构,而 3D 混合键合则采用面向特定场景的极致优化思路,从根本上突破传统架构限制。

基于这一判断,算苗科技将技术路线聚焦于 3D DRAM 集成与能效优化。来解决 " 内存墙 " 对于 AI 大模型计算的制约。目前 3D DRAM 的带宽可达到 32TB/s,相当于英伟达 B200 的 4 倍。而算苗科技的研发重点,就是要将高带宽转化为实实在在的推理性能。

汪福全强调,在光计算、存算一体等下一代技术尚未成熟之前,3D 混合键合是当前唯一具备大规模量产能力、能够显著提升 AI 算力效率的现实路径。

目前,公司已累计融资近 10 亿元,其中约三分之一来自国资背景资本,其余主要来自产业资本及金融机构。

快手拆分的凌川科技:3D 近存储架构

快手拆分芯片团队成立的凌川科技下一代芯片已于今年 4 月完成流片,采用全国产 3D 堆叠技术,首创 3D 近存架构,针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。该芯片与当前业界普遍认同的 " 韬定律 " 所倡导的 3D 堆叠、系统协同优化方向一致。

凌川科技前身为快手异构计算与芯片事业部,2024 年 3 月正式独立运营,由北京市人工智能基金与快手集团共同发起设立。6 月 24 日完成数亿元 A+ 轮融资。其首款芯片 SL200 已累计销售近十万颗,部署至快手、阿里云、百度云、B 站等互联网公司,覆盖快手 99.7% 直播转码业务,稳定服务 7 亿用户。

值得注意的是,这家公司也是 RISC-V 赛道的玩家,推出创新性延迟确定性 DiPU(Deterministic Inference PU)架构。

瑞芯微:3D 堆叠封装的 RISC-V+NPU 协处理器

今年 1 月,瑞芯微再次介绍了其业内首款 3D 堆叠封装 AI 芯片—— RK182X 系列 AI 协处理器,并首次公布了两款产品的具体型号:RK1820 和 RK1828。其中,RK1820 配备 2.5GB 存储带宽,提供 20TOPS 算力,RK1828 则提升至 5GB。官方表示,相比明星产品 RK3588,RK182X 系列带宽提升约 30 倍,可显著降低数据传输功耗,同时兼具高性能、低时延、高吞吐和高精度等优势。

RK182X 采用 3D 堆叠封装架构设计,计算层为 2 × 4 多核 Mesh 结构,并叠加 1 至 2 层 DRAM 存储层,层间通过数万个 IO 实现高速互联。芯片支持 W4A16 等大语言模型数据格式,可满足本地部署 3B、7B 等大模型及多模态 AI 应用需求。

根据瑞芯微介绍,3D 堆叠封装把多颗芯片垂直互连,像盖高楼一样 " 叠 " 成一颗,用极短的硅中介孔替代传统走线,可把带宽提升 10 倍、功耗降低 30%、面积缩小 50%,同时实现异构集成(逻辑 + 存储 + 射频 + 感测),在同样封装体积内塞下更多晶体管,为 AI 算力、存储密度和移动终端续航同时 " 加料 " 却不 " 加体积 "。

未来 RK182X 系列将持续围绕四个方向演进:一是增加 DRAM 或其他类型存储,进一步扩展容量;二是升级计算层制程工艺;三是优化芯片间及与主 SoC 之间的高速互联;四是持续提升计算单元效率。

后续,瑞芯微还将推出算力达到 64TOPS 的 RK1860,其将在算力、存储容量、模型支持、视频解码能力以及能效方面全面升级,可支持最高 13B 参数模型,并提供 2.5GB、5GB、10GB 等不同存储版本,同时支持 LPDDR 扩展和多芯片级联运行。更长远来看,瑞芯微路线图中还规划了一款算力高达 250TOPS 的 RK1899,不过具体发布时间尚未公布。

清微智能:3D 可重构 AI 芯片

清微智能作为源自清华大学的全球可重构架构计算领导者,也在布局 3D 芯片。据了解,清微智能在 3D 可重构 AI 架构技术方面布局较早,有充足专利储备,并且正加速整合国内相关产业链。

2019 年,清微智能和清华大学团队就开展了 3D 可重构 AI 架构相关研究,自 2023 年 1 月开始,清微智能在中美进行 3D 芯片相关的大量专利布局。产业层面,清微智能正在与清华大学、智源研究院、智谱等上下游产业链机构共同构建国产 AI 生态。

2024 年计算机体系结构领域顶会 ISCA 上,清华大学集成电路学院团队发表论文,首次通过混合键合技术实现逻辑芯片与 DRAM 的 3D 可重构,构建了具有超高带宽的三维 DRAM 存算一体架构,从而提升 AI 芯片算力能效和面积效率。与最先进的 2D/2.5D AI 加速器相比,新架构的平均能效提升 2.89 倍至 14.28 倍,面积效率提升 2.67 倍至 7.68 倍。引入聚类相似效应(Clustering Similarity Effect)优化后,能效和面积效率的提升分别为 5.69 倍 -28.13 倍,以及 3.82 倍 -10.98 倍。

2026 中关村论坛,清微首次展出第二代 3D 可重构芯片,并宣布该芯片即将流片量产。该芯片创新性采用 3D 存算一体 + 四芯 Chiplet 集成技术,将传统芯片 2D 平面单车道传输模式,升级为 " 算力 4 车道 + 4 层存储高架 " 的立体架构,大幅提升数据吞吐效率与算力密度,在性能、能效、灵活性上形成显著优势。

资本方面,2025 年底清微智能完成 C 轮超 20 亿元融资,2026 年 3 月正式启动 IPO 进程。

光羽芯辰:3D 堆叠近存算 +LPU+RISC-V

光羽芯辰也是最近很火热的一个公司,根据中航证券研究报告,光羽芯辰由兆易创新、燧原科技等企业联合成立,聚焦大模型端侧 AI 芯片研发。公司采用 3D 堆叠技术路线,融合燧原科技在 AI 计算架构方面的技术优势,以及兆易创新在 DRAM 存储领域的积累,致力于打造面向端侧大模型应用的新一代 AI 芯片。

光羽芯辰提出并采用 EdgeAlon 架构(创新的 3D 堆叠和存算一体融合技术),实现逻辑芯片与存储芯片深度耦合,搭配自研高能效端侧 NPU 与 3D SoC 全栈设计,将算力效率提升 10 倍、功耗显著下降,打破算力传输壁垒,运行大模型的速度更可达每秒 200 Token 以上。该方案完美适配端侧大模型本地化运行、实时交互的核心需求,填补了国内高端端侧 AI 芯片的技术空白。

目前,公司首款芯片已成功流片并与多家头部客户深度协同,有望于 2026 年底商业化量产,抢占万亿端侧 AI 市场先机。

这家公司主要有四个关键技术:

第一是 3D 堆叠近存算技术。针对大模型推理面临的带宽瓶颈,光羽芯辰开发了基于 3D DRAM 的近存算架构。通过 3D 堆叠技术,将 NPU 计算核心与 DRAM 存储垂直集成,显著缩短数据传输路径,大幅提升存储带宽利用率。同时,公司结合自研的分布式计算—分布式存储耦合架构、多层片上网络(NoC)和智能数据调度机制,充分利用 3D 堆叠带来的数万级垂直互联通道,使高带宽能够高效转化为计算吞吐,从而提升大模型推理效率。

第二是 SRAM 存算技术。光羽芯辰针对 VLA 模型中计算密集型的矩阵运算,在 NPU 中集成 CIM 加速引擎。基于高密度 SRAM 存算单元实现 " 存中计算 " 能力,大幅降低功耗与延迟,显著提升了端侧 AI 推理计算的能效比。

第三是 LPU 流式处理架构。光羽芯辰早在 2024 年便前瞻性布局并投入研发,目前已在首颗芯片中实现工程化落地。该架构高效支持 FFN(前馈神经网络)运算,为端侧大模型的高效推理提供架构支撑。

第四是 RISC-V AI 软件架构。光羽芯辰基于 RISC-V 开源指令集架构,打造了一套类 CUDA 兼容的可编程计算平台。该架构兼具专用 NPU 的高效性与通用 GPU 的灵活性:RISC-V 核心负责控制流调度与通用计算任务,NPU 专用单元负责矩阵运算等密集型计算,两者通过高速片上总线实现紧耦合通信。这一架构既保留了 RISC-V 开源开放、可扩展性强的优势,又通过专用加速单元确保了大模型推理的高效性。

迈特芯:3D-DRAM 近存算的 3D-LPU

迈特芯的端侧大模型 AI 协处理器芯片走得也是 3D 堆叠路线,其提出了基于 3D DRAM 近存计算的 3D 分布式 TPU(3D-LPU)技术路线,希望从架构层面解决端侧 AI 芯片在功耗、算力、成本以及存储带宽之间的平衡难题。

3D-LPU 采用立方脉动计算(Cubic Systolic)、3D 分布式 IO 直连等关键技术,通过将计算单元与存储进行垂直集成,大幅提升数据传输效率。芯片带宽可达到 600GB/s,带宽利用率约 80%,远高于传统 2D NoC 架构;互连能耗降至 0.8~1.5pJ/bit,整体功耗降低至约 3.8~7.2W,互连时延也缩短至 5ns 以内。

数据显示,该方案平均功耗约 5W,可实现 80~100 tokens/s 的推理速度,词元能效比相比同类产品提升约 10 倍。

产品规划上,迈特芯正按照 " 验证 - 流片 - 量产 - 生态 " 路线推进。公司于 2023 年完成 TPU IP 验证,2024 年完成分布式 LLM-TPU FPGA 验证,2025 年启动首款 3D 分布式 LLM-TPU 流片,2026 年推出 LPU 终端 AIOS MetaClaw。

3D 堆叠,弯道超车的另一条路

总的来说,目前来看,上述的国内厂商基本和韬定律思路一致,通过 3D DRAM 近存技术,解决存储瓶颈问题,减少对于先进制程依赖。这些厂商基本都布局 RISC-V 架构,在架构上进一步自主可控。未来,这些厂商或会进一步扩大至存内计算、存算一体。

国内 AI 芯片的市场是广阔的。弗若斯特沙利文预测,到 2029 年,中国的 AI 芯片市场规模将从 2024 年的 1425.37 亿元激增至 13367.92 亿元,2025 年至 2029 年期间年均复合增长率为 53.7%。

3D 堆叠 AI 芯片更是 " 弯道超车 " 的一条好路。据环洋市场咨询数据,2025 年全球 3D 堆叠逻辑芯片市场规模为 6360 百万美元,预计 2026 年增至 7498 百万美元,2032 年达到 11571 百万美元,2026 至 2032 期间年复合增长率 CAGR 为 7.5%。

来源:电子工程世界(EEWorld)ID:EEWorldbbs

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai ai芯片 芯片 半导体 摩尔定律
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论