清华系团队给大模型织了一张“智能算力电网”

允中发自凹非寺量子位 | 公众号 QbitAI

AI 芯片，正在机房里猛猛吃灰。

海外高端 GPU 供不应求、又贵又难买；

国产芯片产能好不容易上来了，结果是「能用但不好用」，生态不全、适配难、推理优化门槛高，大量国产卡就这么空转着，电费照烧，却产不出一颗能用的 Token。

企业想用 AI，偏偏卡在了最不该卡的环节，算力。

所有人都在比谁的模型参数更大，但真正决定 AI 能不能落地的，其实是另一件没那么性感的事：一颗 Token，能不能被稳定、便宜、规模化地生产出来。

死磕这件事的，是一支从中国超级计算体系里走出来的年轻团队，是石科技。

这家公司成立于 2021 年，由技术出身清华，有国家级算力中心工程经验的核心科研团队联合组建，是国内最早将超算智算并行优化的技术进行产业化的团队之一。

名字取自 " 实事求是，甘为基石 "，寄托着创始团队对算力基础设施地位的深刻认知。其创始人兼董事长闫博文，出生于 1993 年，毕业于清华大学，是清华计算机系博士后。

这家公司瞄准的是通过自主研发的并行优化技术，将高性能计算（HPC）与人工智能计算深度融合，专治各种异构算力资源调度的 " 疑难杂症 "。

在他们看来，现在的 AI 行业根本不需要再多一个算力转租平台，要打破国产算力空转的僵局，必须彻底跳出传统租赁的浅层模式。

是石科技给出的解法直击本质：

紧扣 "Token 标准化、国产化、效率提升 " 这三件事，直接重构算力变现路径，重磅打造国产 TOKEN 调优工厂。

01 大模型也有了算力 " 电网 "：插上插头，算力秒变 Token 产能

是石科技 TOKEN 工厂的第一层技术底座，来自异构算力的全域整合与深度国产化适配。

区别于行业常见的单一算力资源模式，是石科技搭建了全域异构算力资源池，全面兼容 NVIDIA GPU、国产 AI 芯片（包括昇腾、昆仑芯、天数、太初、瀚博半导体等），以及云厂商算力、边缘算力等多源渠道。

通过智能调度与弹性扩缩容技术，实现算力资源的统一纳管、智能分配与动态扩容，让企业不再受困于 " 算力采购难、资源碎片化 "。

△ AI 生成

打个比方，这就像一张 " 全域智能电网 "。

过去每家工厂只能用自己的发电机（单一算力），买不到柴油就停产，发电机坏了就瘫痪。

是石科技则类似于搭建了一张覆盖全国的算力网络，把各地的风电、水电、火电、太阳能电（各种算力）全部接入统一电网。

企业需要用电时，只需 " 插上插头 "，电网就会自动调度、分配与你需求最匹配的电给你，你完全不用关心电是从哪个具体的电网节点送过来的。

更关键的是，是石科技团队完成了主流国产 AI 芯片的深度适配与专项优化，打通了框架适配、算子兼容、通信优化、性能调优全链路。

在这张电网的 " 变电与稳压 " 作用下，原本闲置、难调通的国产算力，在这里能被高效转化为稳定、可用、低成本的标准化 Token 推理产能。

通过不断提升算力利用效率，以及充分利用闲时的算力，或者根据客户需求定制专属算力资源，国产 Token 就可以真正变成可商用的产能优势。

对此，一位长期从事 AI 基础设施的工程师评价说：

过去我们买了国产卡，总要花几个月去调驱动、改框架、修 bug。是石科技把这条路铺好了。国产卡不再是 " 摆设 "，而是真正能跑生产的引擎。

02 把芯片性能榨干到极限：吞吐暴涨 50%，Token 成本硬砍 40%

如果说算力池化是底座，那么推理优化就是 TOKEN 工厂的核心技术壁垒。

是石科技团队深耕高性能计算领域多年，在严格恪守企业级 SLA 服务标准的前提下，从算子、内存、调度、解码等全维度进行技术革新。

CUDA Kernel 算子级优化、PagedAttention 内存优化、Continuous Batching 连续批处理、混合精度推理……这些技术被系统性地部署在 TOKEN 工厂的生产线上。

配合 FlashAttention、推测解码、KV Cache 精细化管理、模型并行（TP/PP）等前沿加速方案，GPU 等国产芯片的资源利用率大幅提升，Token 吞吐总量显著增加，单位 Token 生产成本大幅下降。

更重要的是，传统推理中常见的延迟抖动、TTFT 与 TPOT 波动等问题得到了有效控制——

Token 生成变得高效、稳定、高品质。实测数据显示，在同等算力条件下，是石科技的推理优化方案可将

03 治好 " 宕机焦虑 "：99.9% 高可用，把推理做成不断电流水线

规模化的 Token 生产，不能建立在脆弱的单点算力之上。

是石科技构建了一套多 Provider 互补与容灾体系：

资源互补：流量峰值时自动弹性扩容；技术互补：接入特定模型和技术能力（如超低延迟、多模态）；区域互补：跨地域部署，降低延迟，满足各行业合规要求。自动 Fallback 故障切换机制，搭配 " 自有集群承载主要流量、合作伙伴集群兜底容灾 " 的流量分配模式，彻底规避单点算力故障导致的业务中断风险。

99.9% 的高可用性服务保障，让 Token 的规模化生产、调度、输出全程稳定可控。

想象一下飞机引擎的 " 多冗余设计 "，即便一台引擎失效，其他引擎能够自动补位，飞机照常飞行。

是石科技相当于给 AI 推理服务装了三套引擎——包括自己的引擎、合作伙伴的引擎、备用引擎。

哪怕其中一套突然熄火，系统会在 0.1 秒内自动切换到另一套，用户完全感知不到。

从技术上看，这已经不是渐进式的改良，而是从 " 算力资源 " 到 " 优质 Token 产能 " 的价值跃迁。

当前，国产 AI 算力替代进程持续提速。

标准化、可量产、低成本的 Token 产能，已成为 AI 产业落地的核心生产资料。

是石科技的目标已经明确：

建成中国最大、技术最先进、服务最完善的国产 TOKEN 调优工厂。

让千行百业降低 AI 落地门槛，让国产算力生态真正实现规模化、高质量发展，推动中国 AI 产业迈入工业化、标准化的全新阶段。

当行业还在追逐单一模型的精度时，是石科技选择了一条更有挑战但更具长期价值的道路——

做夯实 AI 推理底座的工厂，做可进化、可复用、可普惠的 Token 生产力平台。

这条路投入更大、周期更长、协调更复杂。

但一旦走通，它改变的将不只是某一家企业的推理成本，而是整个适合中国 AI 产业高效发展的国产算力生态。

宙世代

一起剪

相关标签