雷峰网消息,1 月 27 日,国产 GPU 厂商曦望(Sunrise)正式发布新一代推理芯片 " 启望 S3",并同步推出面向大模型推理的 " 寰望 SC3" 超节点方案及推理云计划。

这一系列动作直指行业痛点。
此前 AI 芯片厂商普遍陷入 " 拼峰值性能 " 的竞争怪圈,但不少行业人士指出,以超节点为例,产品存在明显 " 规模甜点 " 效应:一旦超过性能阈值,提升幅度便会边际递减,盲目追求超大算力规模反而会造成 GPU 闲置率攀升、单位 Token 成本高企的问题。
推理场景下,用户需要的是 " 成本可控、性能适配、稳定可靠 " 的算力。如何走出差异化的路线?
" 我们抛弃了传统的训推一体 GPU 为训练准备的冗余设计,不追求峰值 TFLOPS 性能,而是把真实业务场景中的单个 Token 成本、能耗,以及 SLA 的稳定性,作为所有设计决策的根本出发点。"曦望董事长徐冰在发布会现场阐述到。
为了达到这个标准,启望 S3 作为面向大模型推理深度定制的 GPGPU 芯片,如何围绕真实推理负载完成对算力结构、存储体系与互联方式的系统级重构?
从 " 性能峰值 " 到 " 单位成本 ",推理正在重新定义 GPU 设计目标
推理算力的爆发式增长,已成为行业当下最核心的关注焦点。对此,曦望在发布会上,给出两组数据:
到 2026 年,推理算力在整体 AI 算力中的占比将达到 66%,这并非遥远的趋势预判,而是正在发生的行业结构性变化,推理已从 AI 产业链的 " 配角 " 跃升为 " 主力 ";
当前推理成本在 AI 应用总支出中的占比已高达 70%,直接决定着 AI 企业的盈利空间与商业化成败。只有将推理成本从现有量级大幅压低,实现阶梯式下降,AI 才能真正摆脱高成本束缚。
" 当推理成为主要算力消耗场景后,GPU 的商业价值不再取决于参数指标,而是单位 Token 的真实成本。" 曦望联席 CEO 王勇表示。
这一判断,决定了启望 S3 的设计方向。

在算力层面,S3 支持从 FP16 到 FP4 的多精度灵活切换,使模型在保证效果的前提下,最大化提升低精度推理效率。这种设计更贴合当前 MoE 和长上下文模型在推理阶段的实际需求。
在存储层面,S3 采用 LPDDR6 显存方案,成为国内首款采用该方案的芯片。相比 HBM 路线,LPDDR6 更强调容量与能效比。官方数据显示,S3 的显存容量较上一代产品提升 4 倍,有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。
在 DeepSeek V3 / R1 满血版等主流大模型推理场景中,S3 单位 Token 推理成本较上一代产品下降约 90%。曦望方面称,这一指标已具备工程可复现性,而非单点实验室数据。

此外,曦望同步发布了面向大模型推理的寰望 SC3 超节点解决方案,该方案支持单域 256 卡一级互联,可高效支撑 PD 分离架构与大 EP 规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。
在交付形态上,寰望 SC3 采用全液冷设计,具备极致 PUE 表现,并支持模块化交付与快速部署。在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。

在软件层面,曦望构建了与 CUDA 兼容的基础软件体系,覆盖驱动、运行时 API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配 ModelScope 平台 90% 以上主流大模型形态,包括 DeepSeek、通义千问等。

推理算力如何更好用?云平台打通落地的 " 最后一公里 "
S3 回答了推理性价比的命题,但对于大部分用户而言,其对算力需求的产品形态应为云上算力资源,而非裸金属资源。
让推理算力更好用,不应止步于造出芯片。为此,曦望与商汤科技、第四范式等生态伙伴探索的推理云平台。

通过 GPU 池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以 MaaS 作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。
这一体系也成为 " 百万 Token 一分钱 " 推理成本的重要技术基础。
" 推理时代的核心不是把芯片卖出去,而是能否持续、稳定地把算力转化为可交付的生产力。谁能持续降低推理成本,谁就掌握了 AI 产业的成本曲线。"曦望董事长徐冰表示。
据披露,曦望 2025 年推理 GPU 芯片交付量已突破 1 万片,标志着其推理 GPU 路线完成从工程验证到规模化交付的关键跨越。
中国工程院院士、浙江大学信息学部主任吴汉明也指出,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。
在国产 GPU 行业从 " 拼参数 " 走向 " 拼单位经济成本 " 的拐点上,曦望选择以推理为切口,尝试重构 GPU 的产品形态与算力交付方式。All-in 推理的实践,正在成为观察中国推理算力商业化进程的重要样本。


登录后才可以发布评论哦
打开小程序可以发布评论哦