雷锋网 3小时前
清华教授翟季冬:Benchmark正在「失效」,智能路由终结大模型选型乱象
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 赵之齐

编辑 | 包永刚

北京一月的初雪落下前,我们在清华见到了翟季冬教授。他手持保温杯,说话很利落,即便一边思考一边叙述,言辞间也几乎没有停顿、没有模糊地带。

这位曾带队拿下 15 次世界超算冠军的清华计算机系长聘教授,此刻正在拆解一个行业怪象:为什么在大模型参数狂飙、算力价格下探的当下,用户的 AI 落地负担却越来越重?

他指出,如今 Benchmark(基准测试)上的高分,在比对用户真实需求时不一定管用,有时,同个模型在不同 MaaS 平台上跑出来的效果可能差异巨大,因为部分服务商为了降低成本,会对模型进行 " 阉割级 " 量化。而面对眼花缭乱的 MaaS 供应商,用户要在性能、价格与稳定性之间做取舍,往往光调研一轮市场报价,就已耗尽精力。

" 把选型的主动权完全交给用户,其实是很大的挑战 ", 翟季冬直言。这种 " 选择悖论 " 不仅折磨着开发者,更在吞噬企业的利润——对于企业来说,降本增效的核心可能并非追求最顶尖的模型,而是如何调度能力恰当的模型,让昂贵的大模型处理复杂指令,让轻量的小模型应付日常任务。

洞察到这一痛点后,由翟季冬的几位毕业学生发起的 AI Infra 厂商——清程极智,开发出智能路由产品 AI Ping(AI 评),希望成为算力界的 " 大众点评 "。

他们将分散的性能数据系统性整理,并收集用户的使用习惯,公开不同模型与供应商的测评数据,并给用户推荐合适的、高性价比方案。翟季冬认为,这种产品形态,有助于撬动算力行业的马太效应——他相信,当数据越集中,模型的选择就越精准;选择越精准,用户需要付出的成本就越低。

翟季冬

与我们交流时,尽管判断明确,翟季冬说话时的语气却始终都是温和的。他走进会议室时,手上拎着提前为我们备好的饮用水;对话结束后,还为北京凛冽的寒潮给我们来访带来的困扰而 " 致歉 "。待人的认真,也换来了学生们的真心相待——在许多博士生习惯将导师称为 " 老板 " 的当下,他的博士生们仍坚持称呼他为 " 老师 "。

这份温和的师者风范背后,是他对算力行业丛林法则的洞察。当大模型从实验室走向万千企业,性能数据与用户体验之间的信息差该如何填平?在国内 " 重硬轻软 " 的 ToB 市场中,AI Infra 团队又应该如何定位自己的存在?(关于 AI Infra 生存路径的探讨,欢迎添加作者微信 Ericazhao23 交流)

这些问题的答案,都藏在他的娓娓道来里。

模型选型的隐形账本:位置、定价与被阉割的精度

更多的自由和选择,并不意味着更大的幸福,有限且可比较的选项,反而能提升决策效率与满意度——这一 " 选择悖论 ",正在 AI 模型与算力的世界里上演。

大模型井喷式发展,每个人手里都握着好几款 "AI 助手 "。但翟季冬捕捉到一个痛点:现在很多用户上网挑选模型,能参考的只有很标准的 Benchmark(基准测试),不少人直接冲着跑分最高的模型去——但最牛的不一定是最合适的。他直言:" 模型刷了多少分,并不一定能匹配用户的真实需求。"

究其原因,除了纯粹的性能,还有很多因素会影响模型使用体验。

供给侧上,各家模型供应商的服务响应效果有所差别。以 DeepSeek-v3.2 模型为例,翟季冬团队调研发现,国内提供这一 API 服务的厂商就有几十家,但他们的 API 服务吞吐却覆盖从 15~200 token/s,相差 10 倍以上;而其支持的输入输出长度,也从 8k~160k 不等,相差了 20 倍

用户对此其实早有体感:去年初 DeepSeek 爆火后,一众服务商纷纷接入其 API,很多人用过一轮后却发现,同样调用 DeepSeek 模型、问出相同问题,不同供应商的输出效果却天差地别。

答案很快浮出水面:即便接入同个模型,有的厂商会对模型做激进的量化处理,例如从 FP8 变成 INT4,输出的表现自然随之改变。

服务商的算力部署位置,也会左右模型的调用体验:同款模型,如果用户在北京调用,MaaS 提供方在上海或深圳,体验都会有很大差异。

此外,各玩家定价策略各异,不同阶段的促销活动还会导致成本相差甚远。

但用户的需求本身就是多维度的:有的更看重性价比,有的追求稳定性,有的则更在意响应速度。而不同的任务场景,也对应着不同的大模型最优解——

对于需求是 " 写小说 " 的用户,模型擅长写调研报告的能力就毫无意义;而日常查天气、问穿搭,一个轻量级的小模型也足够用;可要是解一道复杂的科学难题,就得大参数的模型出马。

" 把选型的主动权完全交给用户,其实是很大的挑战 ",翟季冬指出。虽然对个人免费用户而言影响可能甚微,但对企业级用户来说,会直接引发巨大的成本鸿沟

同样的预算,调用大模型可能仅能支持十万次请求,换成小模型却能达到百万次量级。

理想的情况是:如果能对需求做精细化拆分,让复杂问题匹配大模型、简单问题对接小模型,就能实现算力成本的最优解。

而这些,都是翟季冬和清程极智团队想解决的问题。

做算力界的 " 大众点评 ",终结大模型选型乱象

瞄准这些行业痛点,清程极智团队打造出智能路由产品 AI Ping(AI 评)。

"AI 评的‘评’,就是评测,清程对国内 MaaS 供应商持续测试——既测同款模型在不同厂商手中的延迟、带宽表现,也对比不同模型在各家平台的吞吐效率与价格成本差异 ",翟季冬介绍说。

拆解来看,智能路由的能力分为两层:一是服务商路由,在众多 API 服务提供者中选择最佳的服务;二是模型路由,在众多大模型中选择最佳的模型。

回顾技术的研发,翟季冬感慨,服务商路由的搭建不算是最难的事,真正难啃的硬骨头,是如何为用户精准匹配模型。

" 要给企业的问题精准匹配模型,前提是积累他们的海量历史数据 ",但在初期,数据储备往往不足、用户行为画像模糊,模型的精准选择很难。

这个难点,在 AI Ping 的目标市场——个人开发者和中小企业这个群体里,被进一步放大:

AI Ping 团队发现,这类用户对产品质量的要求几乎是要 " 超出预期 ",八十分的水准,在他们眼里几乎等同于不合格,这让产品打磨的难度陡增。

因此,在起初的冷启动阶段,团队选择用 " 笨办法 " 突围:一边给供应商测试大量数据,用 Benchmark 测试准确性、延迟带宽、价格;一边联合上下游企业拓展市场,在真实场景中积累用户、沉淀数据。

解决了这个问题,另一重考验随即出现:面对企业的高吞吐刚需,单一供应商的算力储备往往难以满足。这就对平台提出了两大要求——强大的算力整合能力,以及国产算力接入通道的打通能力。

对此,清程极智就在 AI Infra 上做了大量工作,把 " 赤兔 " 推理引擎与 AI Ping 对接,完成了算力资源的整合调度。

截图来自 AI Ping 网站

在翟季冬看来,AI Ping 很像算力行业的 " 大众点评 ",给用户打造一套垂直领域的解决方案。

这本质上也是一种团购逻辑:聚合海量用户需求后,清程极智能以更大的体量与算力厂商议价。毕竟,大模型选型的核心命题,始终是成本与效率的平衡。

" 这本身也会形成一种马太效应 ",翟季冬指出," 聚合的用户越多、收集的数据越丰富,模型匹配的精准度就越高;既能帮助用户省去更多钱,也能帮算力厂商盘活资源,我们的软件能力也能借此赋能 "。

从 2025 年春夏之交筹备至今,历时近一年,AI Ping 终于迎来了正式面市的时刻。

这种中立的评测甚至成了行业 " 裁判 ":硅基流动创始人袁进辉此前在朋友圈提及,有的用户分不清其基于国产卡的非 pro 版与基于国际算力的 Pro 版的指标差异,于是直接抛出 AI Ping 的测评结果作佐证。

" 可以去这个网站看各项指标,很靠谱 ",袁进辉这样写道。

来自同行的反馈,已侧面印证出 AI Ping 作为风向标的价值。不过,一个更现实的问题也随之浮现:对于清程极智而言,如何把这种数据影响力在商业上变现?

AI Ping 商业解法:整机与算力双管齐下

对话刚开场,被问及 " 如今 Infra 行业的普遍焦虑是什么 " 时,翟季冬的回应直指核心:

" 怎么让国内 AI Infra 赚到更多钱?"

在他看来,商业化的核心逻辑正在逐渐明晰:算力需求是一个非常真实的市场,怎么通过服务软件把算力有效整合提供给用户,会是 AI Infra 行业未来的重要发展方向。

这一判断,也支撑起了清程极智的产品布局——大模型训练智能软件栈 " 八卦炉 "、被誉为国产算力部署神器的 " 赤兔 " 大模型推理引擎和一站式大模型 API 评测和调用平台 AI Ping,本质上都是底层算力到用户端的一个个 " 出口 "。其中,AI Ping 便通过整合模型和供应商,把软件能力赋能到算力上,给用户提供 token 和算力。

这也是清程在这两年沉淀出来的解法。

翟季冬评论道,清程极智的核心竞争力是中间软件层,包括编译、通信库、并行加速等技术,基于此,他们逐渐找到了自己的定位:和芯片厂商合作,做其系统软件之上增量的部分,让大模型在这些芯片上发挥出极致的效率。

围绕这一定位,清程也在探索多种不同的商业化路径:

一方面,将软件与硬件打包为整机服务,针对 " 买了国产卡却难落地 " 的痛点,让裸机用户也能做训练与微调;另一方面,是通过 AI Ping 等平台与算力厂商合作,提升国产算力的易用性。

而在最近与国产芯片公司的厂商交流中,翟季冬也感受到,大家对软硬件高效协同的重要性已形成共识," 剩下的问题,无非就是这些软件由谁去做 "。

清程极智联合创始人师天麾,也观察到了这种行业认知的转变。他此前向雷峰网表示:

"DeepSeek 能用极少的算力卡和极低的成本,训练出如此大规模的模型,主要依靠的是模型架构设计和 Infra 软件技术,尤其是他们把大量算力加速类 Infra 软件开源后,大家才真正意识到 Infra 的重要性。"

一个显著标识是,以前他还需要和投资人解释什么是 Infra,进入 2025 年之后,这一步已经可以省略了。

但在当下,行业内也流传着一种担忧:

"AI Infra 的价值,只存在于国产算力群雄逐鹿阶段,一旦算力架构定型、大模型技术收敛,Infra 的必要性也会大打折扣。"

这也是摆在所有 Infra 从业者面前共同的问题:下一个能证明自己价值的 " 地盘 " 会在哪里?未来如果国产算力逐渐同构,AI Infra 还有存在的必要吗?

Infra 的生命力:架构演进不止,软件迭代不息

此前,AI Infra 已在架构适配、算子生成、并行通信等领域初试锋芒,不过,这远非终点。

在翟季冬看来,Infra 的生命力源于底层架构与上层软件的双重迭代:" 只要模型还在演进、算力架构还在融合发展,Infra 的需求就会持续存在 "。

他指出,即便是英伟达的 CUDA 生态,底层芯片同构,但由于模型侧还没有完全收敛,推理、后训练的复杂度仍在提升:

文生图、文生视频等多模态模型还在兴起,即将推出的 DeepSeek V4,还将引入更多稀疏性相关的技术难题;AI for Science、AI for Engineering 等新的应用领域迸发,也在倒逼 AI Infra 的底层需求发生变革。

同时,国内算力不仅厂商多,各自的架构也并不统一,这更决定了 AI Infra 的不可替代性。

翟季冬分析,海外算力市场的架构相对统一:英伟达与 AMD 占主导地位,二者的 GPU 架构均属于 SIMT(单指令多线程),有很强的相似性。

反观国内,有的厂商选择对标英伟达的 SIMT 架构,有的则主攻 SIMD(单指令流多数据流)架构。

并且,在这几年里,这两种架构并非一方绝对压倒另一方:很多芯片厂商如今都在走架构融合的路线,通过取长补短提升性能,比如华为,开始在 SIMD 架构里融入 SIMT 的设计思路;英伟达则正好相反。

在此基础上,即便已有比较成熟的 Infra 项目,例如开源圈里炙手可热的 Triton ——这款由 OpenAI 为英伟达芯片开发的算子生成工具,在适配不同架构的国产芯片时,也必须经过大量本土化改造。

而未来,随着推理场景的全面爆发,AI Infra 还将迎来新一轮的挑战。

翟季冬直言,行业现在普遍面临一个痛点:芯片的峰值算力与实际利用率之间存在巨大鸿沟。一块标称 300TFLOPS 算力的芯片,在大模型训练或推理中,实际利用率往往只有 10%-20%;即便是英伟达这样的巨头,预训练场景下的算力利用率也仅能达到 50% 上下。

进入推理阶段后,文字、图像、视频等不同任务的算力需求差异显著,再加上对时延的极高要求,如何针对不同推理场景实现硬件性能的最大化释放,将是 AI Infra 未来的核心攻坚方向。

除了这些看得见的产业机遇,翟季冬还在默默探索那些 " 冷赛道 ",比如 AI for Science 等短期内难见商业价值、但对科技发展至关重要的领域。

他还与我们分享了一段近期的交流经历:一位归国的天文系老师告诉他,射电望远镜每天都会产生海量观测数据,他们需要高效的解决方案,来完成数据的实时处理与算法分析——这无疑对 AI Infra 的软硬件协同能力,提出了更高的要求。

这些眼下难见回报的探索,正藏着 AI Infra 的本真价值。在翟季冬眼中,这也是 Infra 行业可以穿越周期、走向未来的底气。

作者长期关注 AI 算力上下游等方向,欢迎添加微信 Ericazhao23 交流。

雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

清华 ai 供应商 北京 用户体验
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论