AI算力竞速（上）：GPU如何从游戏显卡蜕变为AI时代的“新石油”

文 | 钱眼君

来源 | 博望财经

岁末年初，中国资本市场的聚光灯前所未有地聚焦于黄浦江畔。一场声势浩大的 "GPU 旋风 " 正席卷而来：在不到一个月的时间里，沐曦股份、壁仞科技、天数智芯三家扎根上海的 GPU 企业密集登陆资本市场，而与其并称 " 上海 GPU 四小龙 " 的燧原科技，也已完成 IPO 辅导，即将为这场盛宴落下最后一块拼图。

从科创板首日暴涨 692.95% 的造富神话，到港交所超 2300 倍的惊人认购纪录；从百亿级的 IPO 募资规模到千亿市值俱乐部的批量诞生，国产 GPU 企业正以其凌厉的资本攻势，宣告着国产算力产业一个新时代的来临。

这并非偶然的资本狂欢。沐曦股份凭借在手订单 14.3 亿元及 " 千卡集群 " 的商业化落地，上市首日市值即突破 3000 亿元，创下多项纪录；壁仞科技作为 " 港股国产 GPU 第一股 "，获得 23 家基石投资者力挺；天数智芯则以首家实现国产 7nm 训练推理通用 GPU 量产的身份，携覆盖 20 多个行业的业绩登陆港交所。

然而，光环之下亦有隐忧：天数智芯三年半累计亏损超 28 亿元，壁仞科技同期亏损超 63 亿元，揭示出这个高投入、高风险行业在抢占窗口期时的 " 流血冲锋 " 本质。

这是一场关乎智能未来的产业竞速赛：一边是国际巨头以 " 黄氏定律 " 般的速度垒高技术壁垒，一边是中国本土力量在资本与政策的双重加持下集体破局。而要理解这场竞赛的深层逻辑，我们必须回溯 GPU 从游戏配件到算力核心的蜕变之路。

定义核心：从图形助手到算力引擎的蜕变

在探讨这场席卷全球的算力革命之前，我们先来厘清一个核心概念—— GPU。GPU 全称 Graphics Processing Unit，图形处理器。我们常听说的 CPU（Central Processing Unit）是指中央处理器，它与 GPU 的核心差异在于架构设计：CPU 通常拥有少数几个强大的核心，擅长处理复杂的通用串行任务，如同一位能解奥数题的中学生；而 GPU 则集成数千个相对简单的核心，专为处理海量同质化的并行任务而生，好比几百个小学生协作完成数万道加减法。

图：GPU 在计算机中的位置，公开资料整理。

如果说 CPU 是计算机的 " 大脑 "，负责决策与控制，那么 GPU 则是专精于 " 大规模重复劳动 " 的 " 肌肉 "，其并行计算的天性，使其在图形渲染和高效能矩阵运算（人工智能的核心）中的效率远超 CPU。

随着 5G 与人工智能时代的到来，数据中心内机器学习等 AI 计算已占据总计算量的四分之一到三分之一，大数据处理的重任正从 CPU 向算力更强的 GPU 转移。GPU 的应用早已超越传统的个人电脑图形显示，其形态按接入方式可分为独立与集成；其疆域已扩展至移动设备、数据中心服务器与个人电脑等多个场景。尤其在 AI 与云计算浪潮下，GPU 凭借其与生俱来的并行计算优势，成为了数据处理的核心引擎，开辟出一个规模空前的增长市场。尽管 FPGA 和 ASIC 等更为专用的计算芯片也在特定领域崭露头角，但行业共识在于，GPU 凭借其卓越的通用性、成熟的软件生态（尤其是英伟达的 CUDA）及强大的综合算力表现，仍是当前 AI 计算领域无可争议的霸主与主导架构。

这一定位，是理解其万亿级产业价值的逻辑起点。

GPU 从哪来：一部从游戏显卡到 AI 基石的创业史

GPU 产业的崛起，是一部典型的硅谷技术创业史诗，而其主角无疑是英伟达（NVIDIA）。故事的开端可追溯至 1989 年——几位工程师共同勾勒了一款新图形加速器的蓝图。1993 年，英伟达正式成立，开始的创业之路充满坎坷，至 1995 年，公司面临设计出芯片却无资金建厂制造的困境。创始人黄仁勋致信台积电创始人张忠谋求助，并成功获得支持。

这段合作被黄仁勋本人视为关键转折：" 如果当初我自己建厂生产 GPU 芯片，我现在可能就是一个守着几千万美元的公司的安逸的 CEO。" 台积电的代工模式让英伟达得以轻资产运营，聚焦设计与创新，从而快速迭代产品，抢占市场。

1999 年，英伟达做出了两个定义行业的举动：一是彻底转型专注于显卡芯片，二是首次在全球提出 "GPU" 这一革命性概念（但在提出这个概念以后的相当一段时间内，GPU 还仅仅用于图形处理，远不像现在这般如雷贯耳）。同年，公司在纳斯达克上市，市值达 6.26 亿美元，开启了长达二十余年的高速增长传奇。

然而，硬件性能的领先并非其构筑护城河的终极武器。真正的 " 神来之笔 " 发生在 2006 年，英伟达在推出新一代 GPU 的同时，发布了具有划时代意义的 CUDA 计算平台。CUDA 即 Compute Unified Device Architecture，统一计算架构，本质上是一套软件工具，它让开发者能够以前所未有的便捷性，调用 GPU 的强大算力进行通用计算（GPGPU），这为后来深度学习的爆发埋下了伏笔。

起初，CUDA 的商业价值并未被市场立刻接受。但英伟达展现出了惊人的战略耐心与远见：向全球高校和研究所免费开放并设立研发中心；以资金扶持创业公司使用；持续开源核心软件库；甚至确保廉价的消费级游戏显卡也支持 CUDA，将开发门槛降至千元级别。

经过十余年不计短期回报的持续灌溉，CUDA 逐渐从一款开发工具，演进为高端计算与图形领域的事实标准，构筑了堪比操作系统般的深厚生态壁垒。即便竞争对手的 GPU 硬件性能参数相近，但在 AI 开发社区的受欢迎程度却有天壤之别，核心差距就在于 CUDA 所带来的开发效率与计算效能倍增。

图：关于 CUDA 的描述，来自英伟达官网

直到 2014 年前后，英伟达将 CUDA 与 AI 计算完美融合，英伟达的腾飞才真正开始。如今，CUDA 连接了全球数百万开发者，使英伟达 GPU 成为 AI 时代事实上的 " 计算货币 "，其护城河之深，已难以用单纯的晶体管数量或浮点算力来衡量。这也能说明为何国产 GPU 公司很难实现快速超车。

技术争锋：HBM、架构迭代与性能军备竞赛

驱动 GPU 产业以 " 黄氏定律 " 速度（显示芯片性能每 6 个月提升 1 倍，AI 算力在 8 年内实现千倍增长）前进的，是持续不断的技术创新与白热化的性能军备竞赛。笔者梳理发现，当前的技术角逐主要集中在 3 个关键维度：

1、存储技术的跃迁

算力的爆炸式增长，不仅需要强大的 " 引擎 "（GPU 核心），更依赖于能够实时 " 喂饱 " 引擎数据的 " 高速粮道 "。自 2017 年起，英伟达便在高端 AIGPU（如 A100、H100）中率先采用 HBM（高频宽存储器）技术。

这与传统的 GDDR（Graphics Double Data Rate）内存有本质不同：GDDR 作为传统的内存技术，提供了平衡的性能和成本，适用于广泛的图形应用，而 HBM 则更专注于提供高性能、高带宽以及更能效的解决方案，适用于对数据传输速度和能效要求更高的领域。在结构上，GDDR 是一种传统的图形内存，通常以单个芯片的形式存在，它的设计比较扁平，内存芯片以并行方式连接到图形处理单元（GPU）。HBM 通过 3D 堆叠、硅通孔（TSV）等尖端封装工艺，将多层 DRAM 芯片像盖楼一样垂直堆叠，并与 GPU 逻辑芯片通过硅中介层紧密集成。这种设计带来了革命性优势：HBM 拥有数倍于 GDDR 的带宽和更低的功耗，但代价是结构极度复杂、成本高昂。

图：H200，英伟达官网

以英伟达 2023 年底发布的 H200 GPU 为例，它首次搭载 HBM3e，显存带宽高达 4.8TB/ 秒，用于 700 亿参数大模型推理时，速度是前代 H100 的 1.9 倍，能耗却降低一半。这清晰表明，突破 " 内存墙 " 是算力持续进化的生死线。

2、架构平台的高速代际飞跃

GPU 行业中，很多企业把英伟达当成终极目标，但笔者看来，一个残酷的事实是，这个终极目标并非原地不动等待超越，而是仍在向前狂奔，保持着约两年一次架构升级的残酷节奏。其下一代平台 "Rubin" 已提上日程，计划于 2026 年量产。Rubin 不再仅仅是单一的 GPU 芯片，而是一个整合了 Rubin GPU、专为 AI 推理设计的 Vera CPU、新一代 NV Link 交换机芯片、高速网卡的庞大计算系统。其中，Rubin GPU 的关键指标呈现跨代跃升：FP4 推理性能预计达到当前 Blackwell 架构的 5 倍。这场竞争已从单一的 " 芯片对决 " 升级为 " 系统平台战争 "，比拼的是从芯片到集群的全栈优化能力。

3、图形与计算的双重挑战

尽管 AI 计算是当前最大的风口，但图形显示功能本身的技术壁垒实际上更为森严。硬件结构上，一颗完整的 GPU 需要集成光栅化、纹理贴图、光线追踪等为图形专门优化的硬件单元，其复杂程度远超专注于矩阵计算的 AI 芯片；算法上，图形处理涉及计算机图形学，需要融合物理模拟、光学渲染等多学科知识，算法难度极高。

因此，能够同时驾驭高性能图形渲染与通用 AI 计算的 " 全功能 GPU"，代表了芯片设计领域的皇冠明珠，这也是诸多国产 GPU 厂商将 " 全功能 " 作为核心战略方向的原因。

当国际巨头在技术前沿高歌猛进，用一代代产品定义着算力标准时，一个关键问题摆在全球产业面前：在这条被巨头划定的赛道上，后来者还有机会吗？中国的答案，正在上海张江的实验室里、在资本市场的锣声中、在一张张累计亏损数十亿的财务报表背后，悄然书写。从技术追随到生态破局，国产 GPU 的征途，远比想象中更加艰难，也更加波澜壮阔，我们下篇继续分析。

宙世代

一起剪

相关标签