量子位 18小时前
清华系团队给大模型织了一张“智能算力电网”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

允中 发自 凹非寺量子位 | 公众号 QbitAI

AI 芯片,正在机房里猛猛吃灰。

海外高端 GPU 供不应求、又贵又难买;

国产芯片产能好不容易上来了,结果是「能用但不好用」,生态不全、适配难、推理优化门槛高,大量国产卡就这么空转着,电费照烧,却产不出一颗能用的 Token。

企业想用 AI,偏偏卡在了最不该卡的环节,算力。

所有人都在比谁的模型参数更大,但真正决定 AI 能不能落地的,其实是另一件没那么性感的事:一颗 Token,能不能被稳定、便宜、规模化地生产出来。

死磕这件事的,是一支从中国超级计算体系里走出来的年轻团队,是石科技。

这家公司成立于 2021 年,由技术出身清华,有国家级算力中心工程经验的核心科研团队联合组建,是国内最早将超算智算并行优化的技术进行产业化的团队之一。

名字取自 " 实事求是,甘为基石 ",寄托着创始团队对算力基础设施地位的深刻认知。其创始人兼董事长闫博文,出生于 1993 年,毕业于清华大学,是清华计算机系博士后。

这家公司瞄准的是通过自主研发的并行优化技术,将高性能计算(HPC)与人工智能计算深度融合,专治各种异构算力资源调度的 " 疑难杂症 "。

在他们看来,现在的 AI 行业根本不需要再多一个算力转租平台,要打破国产算力空转的僵局,必须彻底跳出传统租赁的浅层模式。

是石科技给出的解法直击本质:

紧扣 "Token 标准化、国产化、效率提升 " 这三件事,直接重构算力变现路径,重磅打造国产 TOKEN 调优工厂。

01 大模型也有了算力 " 电网 ":插上插头,算力秒变 Token 产能

是石科技 TOKEN 工厂的第一层技术底座,来自异构算力的全域整合与深度国产化适配。

区别于行业常见的单一算力资源模式,是石科技搭建了全域异构算力资源池,全面兼容 NVIDIA GPU、国产 AI 芯片(包括昇腾、昆仑芯、天数、太初、瀚博半导体等),以及云厂商算力、边缘算力等多源渠道。

通过智能调度与弹性扩缩容技术,实现算力资源的统一纳管、智能分配与动态扩容,让企业不再受困于 " 算力采购难、资源碎片化 "。

△ AI 生成

打个比方,这就像一张 " 全域智能电网 "。

过去每家工厂只能用自己的发电机(单一算力),买不到柴油就停产,发电机坏了就瘫痪。

是石科技则类似于搭建了一张覆盖全国的算力网络,把各地的风电、水电、火电、太阳能电(各种算力)全部接入统一电网。

企业需要用电时,只需 " 插上插头 ",电网就会自动调度、分配与你需求最匹配的电给你,你完全不用关心电是从哪个具体的电网节点送过来的。

更关键的是,是石科技团队完成了主流国产 AI 芯片的深度适配与专项优化,打通了框架适配、算子兼容、通信优化、性能调优全链路。

在这张电网的 " 变电与稳压 " 作用下,原本闲置、难调通的国产算力,在这里能被高效转化为稳定、可用、低成本的标准化 Token 推理产能。

通过不断提升算力利用效率,以及充分利用闲时的算力,或者根据客户需求定制专属算力资源,国产 Token 就可以真正变成可商用的产能优势。

对此,一位长期从事 AI 基础设施的工程师评价说:

过去我们买了国产卡,总要花几个月去调驱动、改框架、修 bug。是石科技把这条路铺好了。国产卡不再是 " 摆设 ",而是真正能跑生产的引擎。

02 把芯片性能榨干到极限:吞吐暴涨 50%,Token 成本硬砍 40%

如果说算力池化是底座,那么推理优化就是 TOKEN 工厂的核心技术壁垒。

是石科技团队深耕高性能计算领域多年,在严格恪守企业级 SLA 服务标准的前提下,从算子、内存、调度、解码等全维度进行技术革新。

CUDA Kernel 算子级优化、PagedAttention 内存优化、Continuous Batching 连续批处理、混合精度推理……这些技术被系统性地部署在 TOKEN 工厂的生产线上。

配合 FlashAttention、推测解码、KV Cache 精细化管理、模型并行(TP/PP)等前沿加速方案,GPU 等国产芯片的资源利用率大幅提升,Token 吞吐总量显著增加,单位 Token 生产成本大幅下降。

更重要的是,传统推理中常见的延迟抖动、TTFT 与 TPOT 波动等问题得到了有效控制——

Token 生成变得高效、稳定、高品质。实测数据显示,在同等算力条件下,是石科技的推理优化方案可将

03 治好 " 宕机焦虑 ":99.9% 高可用,把推理做成不断电流水线

规模化的 Token 生产,不能建立在脆弱的单点算力之上。

是石科技构建了一套多 Provider 互补与容灾体系:

资源互补:流量峰值时自动弹性扩容;技术互补:接入特定模型和技术能力(如超低延迟、多模态);区域互补:跨地域部署,降低延迟,满足各行业合规要求。自动 Fallback 故障切换机制,搭配 " 自有集群承载主要流量、合作伙伴集群兜底容灾 " 的流量分配模式,彻底规避单点算力故障导致的业务中断风险。

99.9% 的高可用性服务保障,让 Token 的规模化生产、调度、输出全程稳定可控。

想象一下飞机引擎的 " 多冗余设计 ",即便一台引擎失效,其他引擎能够自动补位,飞机照常飞行。

是石科技相当于给 AI 推理服务装了三套引擎——包括自己的引擎、合作伙伴的引擎、备用引擎。

哪怕其中一套突然熄火,系统会在 0.1 秒内自动切换到另一套,用户完全感知不到。

从技术上看,这已经不是渐进式的改良,而是从 " 算力资源 " 到 " 优质 Token 产能 " 的价值跃迁。

当前,国产 AI 算力替代进程持续提速。

标准化、可量产、低成本的 Token 产能,已成为 AI 产业落地的核心生产资料。

是石科技的目标已经明确:

建成中国最大、技术最先进、服务最完善的国产 TOKEN 调优工厂。

让千行百业降低 AI 落地门槛,让国产算力生态真正实现规模化、高质量发展,推动中国 AI 产业迈入工业化、标准化的全新阶段。

当行业还在追逐单一模型的精度时,是石科技选择了一条更有挑战但更具长期价值的道路——

做夯实 AI 推理底座的工厂,做可进化、可复用、可普惠的 Token 生产力平台。

这条路投入更大、周期更长、协调更复杂。

但一旦走通,它改变的将不只是某一家企业的推理成本,而是整个适合中国 AI 产业高效发展的国产算力生态。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 清华 芯片 gpu 量子位
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论