
作者|程茜
编辑|漠影
智东西 6 月 4 日报道,今日,阶跃星辰开源的 Flash 基座模型 Step 3.7 Flash,在 Artificial Analysis 榜单上拿下多个第一,并登上 OpenRouter Trending 榜全球第二。

海外开发者社区的态度更为直观,Step 3.7 Flash 凭借速度和性价比刷屏。官方披露这款模型的运行速度超过 400 tokens/s,但有开发者测出在极限条件下,模型甚至能跑到 6000 tokens/s。更多人关注的是另一组指标:Step 3.7 Flash 以约 1/9 的任务成本,实现了 Claude Opus 4.6 的 97%。
客观来讲,这款模型并没有行业极致的智能水平,却在效率上另辟蹊径。
效率导向的性能优势,让 Step 3.7 Flash 在企业服务市场拿下了 " 实用、利于规模化落地 " 的生态位,这是因为其恰好切中当下 Agent 商业规模化落地的效率瓶颈——在真实任务中跑不动,养不起。
这是横亘在 Agent 从榜单、PPT Demo 进入真实商用场景无法回避的阻碍。大量企业客户发现,当模型面临复杂任务,需历经任务拆解规划、工具调用、结果校验、迭代修正的多轮执行链路,这会造成链路冗余、token 无效损耗,而这导致的低效问题,已然成为制约 Agent 规模化商用落地的阻碍。
这也顺势明确了未来 Agent 的商业化分水岭:让 Agent 在真实业务场景中以更高性价比实现更快响应、更高任务准确率,是打通智能体商业化闭环的必经之路。
一、智能体风口,低效痛点拖累规模化落地进程
从年初 OpenClaw、Hermes 接连出圈,到 OpenAI 联合创始人、CEO 萨姆 · 奥尔特曼(Sam Altman)昨晚直播直言:全天候主动式 Agent 是未来一年头号布局方向,智能体热潮已势不可挡。
但这背后使其落地硬伤愈发凸显,居高不下的无效 token 损耗、低效运行难题持续困扰大批一线开发者,拖慢其项目落地节奏。
效率层面,在 Cursor 社区,有开发者吐槽其智能体在执行顺序终端命令时,即便只需 10 毫秒即可完成的简单指令,相邻命令间仍存在约 27 秒冗余延迟,最终造成串行任务效率损耗高达 99.95%。

密歇根大学、斯坦福大学、微软以及谷歌 DeepMind 等今年 4 月联合发布的研究进一步印证症结所在,智能体执行任务时需要反复灌入历史上下文,使得模型输入输出 token 消耗比例高达 154:1。

另外是成本层面,Agent 自主多轮调用机制会天然放大 token 消耗。
上月初,有开发者提到其在用 Claude Code 进行代码重构时,尚未提出正式问题,仅上下文预加载就要耗费 3.5 万至 4 万个 token,甚至仅 3 次提示调用便耗尽原本够用 4 小时的 token 额度。
落地到企业端,成本失控会更为突出,Uber 称员工大规模使用 AI 编程工具后,4 个月就烧掉了全年的 AI 预算;还有不具名的公司忘记设限,一个月在 Claude 上烧掉 5 亿美元。
这样的效率困局折射出,业内评判 Agent 价值的逻辑已经变了:基础模型底子好只是前提,放到 Agent 场景里,模型只靠答题、单项能力远远不够,高效、少冗余、省 Token、低成本跑完整套任务,才是检验模型能不能适配智能体的硬指标。
由此,破解智能体低效困局的落脚点便聚焦到速度与性价比两大维度。
一方面,通过提效减少 Agent 运行时无效等待带来的无用算力开销,让算力每一秒都能用于任务闭环;另一方面,提升模型单次执行任务的成功率,使得同等任务少消耗 token、少耗时,拉高业务落地的性价比。
当下,已经实现 Agent 全程跑得更快、花钱更少、产出效率更高的模型便是阶跃星辰最新开源的 Step 3.7 Flash。
二、速度登顶、性价比拉满,Step 3.7 Flash 释放 Agent 商用价值
在 Agent 时代,Step 3.7 Flash 交出了差异化答卷。
先来看下 Step 3.7 Flash 面对复杂编程任务的实力,智东西让其生成体感打砖块游戏。Step 3.7 Flash 生成的游戏能自动触发摄像头,人脸移动和挡板移动同步,击碎砖块时有特效,结束时还会震动掉落,可能在挡板接住时略有延迟,但整体已经具备很高可玩性。

首先是速度,根据官方信息,Step 3.7 Flash 最高生成速度可达 400 tokens/s。开发者的实测显示,Step 3.7 Flash 单流生成速度为 DeepSeek-V4 的 2.4 倍;64 并发峰值吞吐达到 DeepSeek-V4 的 3.47 倍,高并发场景吞吐优势显著,并且他在极端条件下甚至实现了 6000 tokens/s 的传输速率。


根据 Artificial Analysis 的数据,Step 3.7 Flash 的表现已经接近 Agent 商业化落地的最优区间,兼得高智能和超高速率。


基于 Artificial Analysis 的速度价格比分布可以看出,Step 3.7 Flash 在兼具高速、低成本方面的综合实力,已然使其在 Agent 商业化方面具备竞争力。

三、综合性能跻身全球头部,阶跃已跑通 Agent 商业化
当前 AI 行业正式进入商业化深度竞速阶段,模型在推理速率、综合性能与落地成本间实现均衡突破,成为模型规模化商用落地的核心评判标准。
因此,从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰的模型迭代路径一脉相承,其围绕 Agent、Coding、Search 与多模态工作流进行系统优化,解决的核心都是让 Agent 在真实场景中高效运行。
这也得到全球开发者市场的真实数据验证。其两代模型发布仅两天,便纷纷在 OpenRouter 榜单上位居前列,Step 3.5 Flash 登顶首位、Step 3.7 Flash 登上 OpenRouter Trending 全球第二位。
不仅如此,阶跃星辰在推理效率也已进入全球头部阵营。
开源团队 Dirac 基于 OpenRouter 数据统计了当下主流模型的缓存命中率,其中达到 S 级缓存命中率的模型,清一色都是国产模型。这意味着国产模型的实力正在强势赶超。
其中,阶跃星辰更是以 86.1% 的得分位列全球第二,超高的缓存命中率,正是模型推理更快、损耗更低,稳定运行的核心。

就在上个月,Step 3.5 Flash 已完成车载场景的规模化落地,其为极氪 8X 上构建的整车智能体 " 超级 Eva" 量产交互,打通车辆感知、语义理解、指令执行全链路。
从模型的亮眼榜单数据到真实场景的批量商用落地,这都印证阶跃星辰产业化路径已经跑通。
结语:轻量化 Flash 模型,或引爆智能体规模化落地
阶跃星辰 Flash 模型一定程度上解决了智能体 token 冗余、算力浪费、链路延迟、成本高等低效痛点,打通 Agent 商业化落地瓶颈。
未来,随着企业级自动化、智能化需求持续爆发,轻量化、高效率、高性价比的 Flash 基座模型,或成为推动 AI 智能体产业规模化、商业化进阶的核心驱动力,加速智能体迈入高效落地、普惠商用的全新阶段。


登录后才可以发布评论哦
打开小程序可以发布评论哦