美国科技企业正在悄然将中国开源 AI 模型纳入生产基础设施。随着顶尖美国模型服务成本持续攀升,以 Coinbase 为代表的企业开始以中国开源模型作为默认选项,以此在不压制使用量的前提下大幅压缩 AI 开支。
Coinbase 首席执行官 Brian Armstrong 于上周五晚间在 X 平台发文披露,公司已将智谱旗下刚刚发布的 GLM 5.2 以及北京月之暗面旗下的 Kimi 2.7,通过内部 LLM 网关设定为工程师的默认模型。Armstrong 表示,在结合路由优化与缓存改进等措施后,Coinbase 的 AI 支出已削减 " 近一半 ",而 token 使用量仍在以指数级增速增长。
中国开源模型成本优势被摆上台面
Armstrong 在帖子中明确指出,91% 的工程师从未触及原有的使用上限,因此 Coinbase 并未选择降低上限或增设消费提醒,而是转向 " 更便宜的默认模型 "。

GLM 5.2 来自智谱,Kimi 2.7 来自北京月之暗面,二者均属开源权重模型。Armstrong 表示,这些模型被部署于常规任务场景,而对于需要复杂规划的任务,工程师仍可选用前沿模型。他的逻辑是:在执行层面使用顶级模型往往是 " 大材小用 "。
代码审查环节则采用多模型并行策略,让不同模型相互校验输出结果,以维持质量标准。
三层基础设施重构驱动成本削减
Armstrong 列出了三项核心手段。
第一是智能路由:在自定义调度框架中,系统对提示词进行预处理,综合缓存命中率与模型定价,将任务自动分发至最合适、最经济的模型。他表示,最终目标是让 AI 而非人工来完成模型选择这一任务。
第二是积极缓存:Coinbase 要求所有请求具备缓存感知能力,尽量复用已有缓存。以 LibreChat 为例,在正确实施缓存机制后,缓存命中率从 5% 跃升至 60%。
第三是精简上下文:Armstrong 建议在切换任务时开启新会话,缩小文件上下文范围,断开未使用的工具连接。他强调,目标不是减少 token 使用总量,而是减少 " 被浪费的 token"。
效率优先,而非压制使用
Armstrong 将此次成本压缩定性为扩大 AI 采用规模的前提条件,而非一种限制。他表示,工程师仍可自由使用任意数量的 token 和任意模型,但公司已将用量数据可视化,并将使用量与业务影响挂钩—— " 花得越多,我们期望的影响也越大 "。
他并未披露具体的绝对支出数字。但从结构上看,在使用量指数增长的同时实现支出近半削减,意味着 Coinbase 已在一定程度上实现了消耗与成本的解耦。
Armstrong 的结论是,这套方法论具有普适性,任何企业均可借鉴,以便在不将成本设为天花板的前提下,实现 AI 使用规模的可持续扩张。
本文来自华尔街见闻,欢迎下载 APP 查看更多


登录后才可以发布评论哦
打开小程序可以发布评论哦