推理算力占AI应用70%成本权重，需求爆发下国产芯片如何定义性价比新基准？

雷峰网消息，1 月 27 日，国产 GPU 厂商曦望（Sunrise）正式发布新一代推理芯片 " 启望 S3"，并同步推出面向大模型推理的 " 寰望 SC3" 超节点方案及推理云计划。

这一系列动作直指行业痛点。

此前 AI 芯片厂商普遍陷入 " 拼峰值性能 " 的竞争怪圈，但不少行业人士指出，以超节点为例，产品存在明显 " 规模甜点 " 效应：一旦超过性能阈值，提升幅度便会边际递减，盲目追求超大算力规模反而会造成 GPU 闲置率攀升、单位 Token 成本高企的问题。

推理场景下，用户需要的是 " 成本可控、性能适配、稳定可靠 " 的算力。如何走出差异化的路线？

" 我们抛弃了传统的训推一体 GPU 为训练准备的冗余设计，不追求峰值 TFLOPS 性能，而是把真实业务场景中的单个 Token 成本、能耗，以及 SLA 的稳定性，作为所有设计决策的根本出发点。"曦望董事长徐冰在发布会现场阐述到。

为了达到这个标准，启望 S3 作为面向大模型推理深度定制的 GPGPU 芯片，如何围绕真实推理负载完成对算力结构、存储体系与互联方式的系统级重构？

从 " 性能峰值 " 到 " 单位成本 "，推理正在重新定义 GPU 设计目标

推理算力的爆发式增长，已成为行业当下最核心的关注焦点。对此，曦望在发布会上，给出两组数据：

到 2026 年，推理算力在整体 AI 算力中的占比将达到 66%，这并非遥远的趋势预判，而是正在发生的行业结构性变化，推理已从 AI 产业链的 " 配角 " 跃升为 " 主力 "；

当前推理成本在 AI 应用总支出中的占比已高达 70%，直接决定着 AI 企业的盈利空间与商业化成败。只有将推理成本从现有量级大幅压低，实现阶梯式下降，AI 才能真正摆脱高成本束缚。

" 当推理成为主要算力消耗场景后，GPU 的商业价值不再取决于参数指标，而是单位 Token 的真实成本。" 曦望联席 CEO 王勇表示。

这一判断，决定了启望 S3 的设计方向。

在算力层面，S3 支持从 FP16 到 FP4 的多精度灵活切换，使模型在保证效果的前提下，最大化提升低精度推理效率。这种设计更贴合当前 MoE 和长上下文模型在推理阶段的实际需求。

在存储层面，S3 采用 LPDDR6 显存方案，成为国内首款采用该方案的芯片。相比 HBM 路线，LPDDR6 更强调容量与能效比。官方数据显示，S3 的显存容量较上一代产品提升 4 倍，有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。

在 DeepSeek V3 / R1 满血版等主流大模型推理场景中，S3 单位 Token 推理成本较上一代产品下降约 90%。曦望方面称，这一指标已具备工程可复现性，而非单点实验室数据。

此外，曦望同步发布了面向大模型推理的寰望 SC3 超节点解决方案，该方案支持单域 256 卡一级互联，可高效支撑 PD 分离架构与大 EP 规模化部署，显著提升推理阶段的系统利用率与稳定性，适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上，寰望 SC3 采用全液冷设计，具备极致 PUE 表现，并支持模块化交付与快速部署。在同等推理能力量级下，该方案可将整体系统交付成本从行业常见的亿元级，降低至千万元级，实现一个数量级的下降。

在软件层面，曦望构建了与 CUDA 兼容的基础软件体系，覆盖驱动、运行时 API、开发工具链、算子库和通信库，降低推理应用的迁移门槛。目前，该体系已适配 ModelScope 平台 90% 以上主流大模型形态，包括 DeepSeek、通义千问等。

推理算力如何更好用？云平台打通落地的 " 最后一公里 "

S3 回答了推理性价比的命题，但对于大部分用户而言，其对算力需求的产品形态应为云上算力资源，而非裸金属资源。

让推理算力更好用，不应止步于造出芯片。为此，曦望与商汤科技、第四范式等生态伙伴探索的推理云平台。

通过 GPU 池化与弹性调度，曦望将底层算力整合为统一的推理算力池，并以 MaaS 作为核心入口，使企业无需关注底层硬件配置与集群运维，即可按需调用大模型推理能力。

这一体系也成为 " 百万 Token 一分钱 " 推理成本的重要技术基础。

" 推理时代的核心不是把芯片卖出去，而是能否持续、稳定地把算力转化为可交付的生产力。谁能持续降低推理成本，谁就掌握了 AI 产业的成本曲线。"曦望董事长徐冰表示。

据披露，曦望 2025 年推理 GPU 芯片交付量已突破 1 万片，标志着其推理 GPU 路线完成从工程验证到规模化交付的关键跨越。

中国工程院院士、浙江大学信息学部主任吴汉明也指出，推理算力价值的实现离不开协同，需要芯片设计、系统集成、软件开发到产业应用的全链条协作。

在国产 GPU 行业从 " 拼参数 " 走向 " 拼单位经济成本 " 的拐点上，曦望选择以推理为切口，尝试重构 GPU 的产品形态与算力交付方式。All-in 推理的实践，正在成为观察中国推理算力商业化进程的重要样本。

宙世代