国产AI芯片,用3D堆叠“弯道超车”

在半导体行业，"3D+ 混合键合 " 一直是确定的发展方向。而在前阵子，" 韬定律 " 又继续引发了人们对于这一路线的关注，其核心观点在于，未来半导体性能提升不仅依赖晶体管几何尺寸微缩，还需要通过时间尺度优化来降低延迟、提升能效。

AI 芯片设计商博通（AVGO）也在近期表示，预计到 2027 年，基于其 3D 堆叠芯片技术的出货量将至少达到 100 万颗。

国内厂商也看到了 3D 堆叠技术在当下 AI 爆火下的机遇。在当下 EUV 被限制，摩尔定律又在放缓的前提下，3D 堆叠成为了一个好路线，一个又一个国内厂商开始公布自己的产品和未来计划。

算苗科技：3D DRAM+ 混合键合 +RISC-V

近期，一家国产 3D 架构 AI 云端大算力芯片公司算苗科技提出 3D TokenPU 概念，即原生面向 Token 处理的新型处理器。EEWorld 获悉，该公司第一代 TokenPU 产品 A4E 已流片，正式进入制造阶段。第二代产品 A4S 也已完成架构定义，预计将在 2027 年 2 月底前后启动流片，形成 " 一代流片、一代定义 " 的迭代节奏。公司选择了全国产化供应链，从设计到 IP 到制造到封装，基于 RISC-V 自研架构和成熟国产工艺。

A4E 通过将 8 层存储晶圆垂直堆叠在计算逻辑晶圆之上，并利用硅通孔（TSV）和凸点（Bump）技术实现微米级互联，大幅缩短数据传输路径。相较于传统芯片间毫米级互连，其传输距离降低两个数量级，带来更高的访存带宽和数据交换效率，为大模型推理提供充足的数据供给，有效破解 " 数据饥饿 " 难题。

" 大模型时代最核心的技术挑战并非计算单元本身，而是内存带宽瓶颈。" 算苗科技创始人 &CEO 汪福全向 EEWorld 表示，随着模型参数规模不断扩大，数据搬运逐渐成为制约系统性能的关键因素。据了解，英伟达 H100 跑 AI 推理时，高达 70% 计算单元在空转，等待数据从内存中搬运过来。过去 20 年，摩尔定律驱动计算能力增长了 60000 倍，而内存带宽仅仅增长了 100 倍。

算苗科技是国内最早布局 3D 混合键合算力芯片的团队之一，为了突破这一瓶颈，算苗团队核心成员从 2019 年开始探索 3D 混合键合技术，并最终通过 3D 堆叠架构实现超高带宽互连。

算苗科技把内存芯片直接盖在了计算核心的楼上（缩短搬运距离），并且修建了数百万部垂直电梯，原材料可以快速搬运到工厂的各个角落，不再受限于大门宽度，从而实现 16～32TB/s 的带宽。同时，算苗科技设计的工厂（计算芯片）是专门用于推理 AI 大模型的（专用芯片），因此可以用更少的设备（12nm 工艺）来实现更高的推理性能。

当下 AI 芯片路线非常多，对于这些芯片来说内存选择至关重要，比如 GPU/NPU 搭载 HBM、LPU 搭载 SRAM、存算一体芯片搭载 RRAM。

相比传统 HBM 方案，3D 混合键合能够通过上百万级互连实现更高的数据传输效率。HBM 本身已经是高带宽存储的重要创新，但其依然受制于标准总线架构，而 3D 混合键合则采用面向特定场景的极致优化思路，从根本上突破传统架构限制。

基于这一判断，算苗科技将技术路线聚焦于 3D DRAM 集成与能效优化。来解决 " 内存墙 " 对于 AI 大模型计算的制约。目前 3D DRAM 的带宽可达到 32TB/s，相当于英伟达 B200 的 4 倍。而算苗科技的研发重点，就是要将高带宽转化为实实在在的推理性能。

汪福全强调，在光计算、存算一体等下一代技术尚未成熟之前，3D 混合键合是当前唯一具备大规模量产能力、能够显著提升 AI 算力效率的现实路径。

目前，公司已累计融资近 10 亿元，其中约三分之一来自国资背景资本，其余主要来自产业资本及金融机构。

快手拆分的凌川科技：3D 近存储架构

快手拆分芯片团队成立的凌川科技下一代芯片已于今年 4 月完成流片，采用全国产 3D 堆叠技术，首创 3D 近存架构，针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。该芯片与当前业界普遍认同的 " 韬定律 " 所倡导的 3D 堆叠、系统协同优化方向一致。

凌川科技前身为快手异构计算与芯片事业部，2024 年 3 月正式独立运营，由北京市人工智能基金与快手集团共同发起设立。6 月 24 日完成数亿元 A+ 轮融资。其首款芯片 SL200 已累计销售近十万颗，部署至快手、阿里云、百度云、B 站等互联网公司，覆盖快手 99.7% 直播转码业务，稳定服务 7 亿用户。

值得注意的是，这家公司也是 RISC-V 赛道的玩家，推出创新性延迟确定性 DiPU（Deterministic Inference PU）架构。

瑞芯微：3D 堆叠封装的 RISC-V+NPU 协处理器

今年 1 月，瑞芯微再次介绍了其业内首款 3D 堆叠封装 AI 芯片—— RK182X 系列 AI 协处理器，并首次公布了两款产品的具体型号：RK1820 和 RK1828。其中，RK1820 配备 2.5GB 存储带宽，提供 20TOPS 算力，RK1828 则提升至 5GB。官方表示，相比明星产品 RK3588，RK182X 系列带宽提升约 30 倍，可显著降低数据传输功耗，同时兼具高性能、低时延、高吞吐和高精度等优势。

RK182X 采用 3D 堆叠封装架构设计，计算层为 2 × 4 多核 Mesh 结构，并叠加 1 至 2 层 DRAM 存储层，层间通过数万个 IO 实现高速互联。芯片支持 W4A16 等大语言模型数据格式，可满足本地部署 3B、7B 等大模型及多模态 AI 应用需求。

根据瑞芯微介绍，3D 堆叠封装把多颗芯片垂直互连，像盖高楼一样 " 叠 " 成一颗，用极短的硅中介孔替代传统走线，可把带宽提升 10 倍、功耗降低 30%、面积缩小 50%，同时实现异构集成（逻辑 + 存储 + 射频 + 感测），在同样封装体积内塞下更多晶体管，为 AI 算力、存储密度和移动终端续航同时 " 加料 " 却不 " 加体积 "。

未来 RK182X 系列将持续围绕四个方向演进：一是增加 DRAM 或其他类型存储，进一步扩展容量；二是升级计算层制程工艺；三是优化芯片间及与主 SoC 之间的高速互联；四是持续提升计算单元效率。

后续，瑞芯微还将推出算力达到 64TOPS 的 RK1860，其将在算力、存储容量、模型支持、视频解码能力以及能效方面全面升级，可支持最高 13B 参数模型，并提供 2.5GB、5GB、10GB 等不同存储版本，同时支持 LPDDR 扩展和多芯片级联运行。更长远来看，瑞芯微路线图中还规划了一款算力高达 250TOPS 的 RK1899，不过具体发布时间尚未公布。

清微智能：3D 可重构 AI 芯片

清微智能作为源自清华大学的全球可重构架构计算领导者，也在布局 3D 芯片。据了解，清微智能在 3D 可重构 AI 架构技术方面布局较早，有充足专利储备，并且正加速整合国内相关产业链。

2019 年，清微智能和清华大学团队就开展了 3D 可重构 AI 架构相关研究，自 2023 年 1 月开始，清微智能在中美进行 3D 芯片相关的大量专利布局。产业层面，清微智能正在与清华大学、智源研究院、智谱等上下游产业链机构共同构建国产 AI 生态。

2024 年计算机体系结构领域顶会 ISCA 上，清华大学集成电路学院团队发表论文，首次通过混合键合技术实现逻辑芯片与 DRAM 的 3D 可重构，构建了具有超高带宽的三维 DRAM 存算一体架构，从而提升 AI 芯片算力能效和面积效率。与最先进的 2D/2.5D AI 加速器相比，新架构的平均能效提升 2.89 倍至 14.28 倍，面积效率提升 2.67 倍至 7.68 倍。引入聚类相似效应（Clustering Similarity Effect）优化后，能效和面积效率的提升分别为 5.69 倍 -28.13 倍，以及 3.82 倍 -10.98 倍。

2026 中关村论坛，清微首次展出第二代 3D 可重构芯片，并宣布该芯片即将流片量产。该芯片创新性采用 3D 存算一体 + 四芯 Chiplet 集成技术，将传统芯片 2D 平面单车道传输模式，升级为 " 算力 4 车道 + 4 层存储高架 " 的立体架构，大幅提升数据吞吐效率与算力密度，在性能、能效、灵活性上形成显著优势。

资本方面，2025 年底清微智能完成 C 轮超 20 亿元融资，2026 年 3 月正式启动 IPO 进程。

光羽芯辰：3D 堆叠近存算 +LPU+RISC-V

光羽芯辰也是最近很火热的一个公司，根据中航证券研究报告，光羽芯辰由兆易创新、燧原科技等企业联合成立，聚焦大模型端侧 AI 芯片研发。公司采用 3D 堆叠技术路线，融合燧原科技在 AI 计算架构方面的技术优势，以及兆易创新在 DRAM 存储领域的积累，致力于打造面向端侧大模型应用的新一代 AI 芯片。

光羽芯辰提出并采用 EdgeAlon 架构（创新的 3D 堆叠和存算一体融合技术），实现逻辑芯片与存储芯片深度耦合，搭配自研高能效端侧 NPU 与 3D SoC 全栈设计，将算力效率提升 10 倍、功耗显著下降，打破算力传输壁垒，运行大模型的速度更可达每秒 200 Token 以上。该方案完美适配端侧大模型本地化运行、实时交互的核心需求，填补了国内高端端侧 AI 芯片的技术空白。

目前，公司首款芯片已成功流片并与多家头部客户深度协同，有望于 2026 年底商业化量产，抢占万亿端侧 AI 市场先机。

这家公司主要有四个关键技术：

第一是 3D 堆叠近存算技术。针对大模型推理面临的带宽瓶颈，光羽芯辰开发了基于 3D DRAM 的近存算架构。通过 3D 堆叠技术，将 NPU 计算核心与 DRAM 存储垂直集成，显著缩短数据传输路径，大幅提升存储带宽利用率。同时，公司结合自研的分布式计算—分布式存储耦合架构、多层片上网络（NoC）和智能数据调度机制，充分利用 3D 堆叠带来的数万级垂直互联通道，使高带宽能够高效转化为计算吞吐，从而提升大模型推理效率。

第二是 SRAM 存算技术。光羽芯辰针对 VLA 模型中计算密集型的矩阵运算，在 NPU 中集成 CIM 加速引擎。基于高密度 SRAM 存算单元实现 " 存中计算 " 能力，大幅降低功耗与延迟，显著提升了端侧 AI 推理计算的能效比。

第三是 LPU 流式处理架构。光羽芯辰早在 2024 年便前瞻性布局并投入研发，目前已在首颗芯片中实现工程化落地。该架构高效支持 FFN（前馈神经网络）运算，为端侧大模型的高效推理提供架构支撑。

第四是 RISC-V AI 软件架构。光羽芯辰基于 RISC-V 开源指令集架构，打造了一套类 CUDA 兼容的可编程计算平台。该架构兼具专用 NPU 的高效性与通用 GPU 的灵活性：RISC-V 核心负责控制流调度与通用计算任务，NPU 专用单元负责矩阵运算等密集型计算，两者通过高速片上总线实现紧耦合通信。这一架构既保留了 RISC-V 开源开放、可扩展性强的优势，又通过专用加速单元确保了大模型推理的高效性。

迈特芯：3D-DRAM 近存算的 3D-LPU

迈特芯的端侧大模型 AI 协处理器芯片走得也是 3D 堆叠路线，其提出了基于 3D DRAM 近存计算的 3D 分布式 TPU（3D-LPU）技术路线，希望从架构层面解决端侧 AI 芯片在功耗、算力、成本以及存储带宽之间的平衡难题。

3D-LPU 采用立方脉动计算（Cubic Systolic）、3D 分布式 IO 直连等关键技术，通过将计算单元与存储进行垂直集成，大幅提升数据传输效率。芯片带宽可达到 600GB/s，带宽利用率约 80%，远高于传统 2D NoC 架构；互连能耗降至 0.8～1.5pJ/bit，整体功耗降低至约 3.8～7.2W，互连时延也缩短至 5ns 以内。

数据显示，该方案平均功耗约 5W，可实现 80～100 tokens/s 的推理速度，词元能效比相比同类产品提升约 10 倍。

产品规划上，迈特芯正按照 " 验证 - 流片 - 量产 - 生态 " 路线推进。公司于 2023 年完成 TPU IP 验证，2024 年完成分布式 LLM-TPU FPGA 验证，2025 年启动首款 3D 分布式 LLM-TPU 流片，2026 年推出 LPU 终端 AIOS MetaClaw。

3D 堆叠，弯道超车的另一条路

总的来说，目前来看，上述的国内厂商基本和韬定律思路一致，通过 3D DRAM 近存技术，解决存储瓶颈问题，减少对于先进制程依赖。这些厂商基本都布局 RISC-V 架构，在架构上进一步自主可控。未来，这些厂商或会进一步扩大至存内计算、存算一体。

国内 AI 芯片的市场是广阔的。弗若斯特沙利文预测，到 2029 年，中国的 AI 芯片市场规模将从 2024 年的 1425.37 亿元激增至 13367.92 亿元，2025 年至 2029 年期间年均复合增长率为 53.7%。

3D 堆叠 AI 芯片更是 " 弯道超车 " 的一条好路。据环洋市场咨询数据，2025 年全球 3D 堆叠逻辑芯片市场规模为 6360 百万美元，预计 2026 年增至 7498 百万美元，2032 年达到 11571 百万美元，2026 至 2032 期间年复合增长率 CAGR 为 7.5%。

来源：电子工程世界（EEWorld）ID：EEWorldbbs

宙世代

一起剪

相关标签