阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

OpenRouter Trending 榜单冷不丁窜出一匹国产黑马，热度暴涨稳居全球第二。

定睛一看，原来是阶跃星辰新发的Step 3.7 Flash。

再一看，不只 OpenRouter，这个新模型在AA 榜那边也顺手拿了几个第一；

在 HuggingFace 上开源之后的下载量和讨论也一直没降过温。

这我是真好奇，这新模型到底火在哪了。

于是咱去感受了一波，手把手教我用 Blender 这种专业 3D 软件就算了；

它居然还直接带我开飞机，没错，是真的大飞机！！

仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。

当然了，教我开飞机只是节目效果，重点是 Step 3.7 Flash 自己也起飞了——

Token 意义上的速度起飞，输出速度最高416 tokens/s。

不光快吧，人家还省钱，单任务成本压到了 Claude Opus 4.6 的约 1/9，但编程能力却做到了 Claude 的 97%。

只能说，停停停各位先别跑分了，咋感觉 Step 3.7 Flash 这次换成效率打法了呢。

模型竞赛的赛点，从单次最强挪到了效率优先

其实前两年大模型圈子的画风还比较简单。

大家比的是啥？比谁聪明。

各家埋头刷 Benchmark，成绩多拿一两分就能小火一把，当时比拼的核心是模型单次问答能力的上限。

但今年风向变了。

相信大家也都发现，OpenAI、Anthropic、Cursor 嘴里念叨的关键词换成了企业级 Agent、工具调用、任务交付……随着 Agent 成为主流落地形态，原先只拼单点性能的老一套竞赛规则不适用了。

在进入真实业务的 Agent 工作链路后，AI 要反复调用工具、多轮检索信息、分步拆解复杂任务。

问题就出在这儿。

一次回答慢两秒，你能忍，但 Agent 一个任务要调几十次模型，每次都慢两秒，谁的火气都大。

调一次贵一点没感觉，调几十几百次之后，账单突然就开始在你血压上蹦迪了。

这种高频交互带来的调用量暴涨，推理延迟、Token 消耗成倍飙升，不光是咱日常用着闹心，开发者和企业的钱包更是遭不住啊。

业内近一年的 Agent 研究也开始专门引入「预算约束」「成本最优规划」等评价维度，本质上就是因为推理成本已经成为 Agent 落地的核心瓶颈。

所以现在用 AI，真卡住生产的、也急需优化的就是Token 效率，具体体现在推理速度和调用成本两个维度。

阶跃星辰这次，好像真找到了 Agent 时代的版本答案：

同样的活儿，Step 3.7 Flash 能更快、更便宜地干完。

咱索性就直接上手试一试！

实测 Step 3.7 Flash：又快又省钱多模态理解能力

先来看看它看图办事的能力怎么样。

上传了一张灵巧手图片，它能结合外观细节快速确认，还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。

既然产品确认了，那咱再来看看参数，直接让模型自己去搜，最后给我一张产品表格。

于是 Step 3.7 Flash 联网搜索了这款灵巧手全维度参数，把厂商信息、硬件配置、负载、售价等内容全给整理了出来。

只不过表格太长，我只截取了结构和感知的一部分。

在这个任务里，模型分析的内容基本达标，体验下来感觉响应速度确实很快。

工具编排能力

接下来，我们给 Step 3.7 Flash 一条龙杂活，考考它的工具编排能力，主要看它是否能在长程多轮里稳定调用工具、不跑偏。

比如说，整理报销单。

想必大家都觉得，搞发票是一件很麻烦的事情。

出差一趟，总会积压四五张发票，要一张张核对金额，还要整理好并填写相应的报销规范。

于是，我把发票全部放在了一个文件夹里，然后把它丢给了 Step 3.7 Flash（此处接入了 OpenClaw）。

输入提示词后，就直接让它开干了。

OpenClaw 里可以看到任务完成的计时，大概也就不到 60 秒吧…它就告诉我它干完了。

文件夹里多了两份它写好的文件，一个是报销的 Excel 文件，列出了报销清单，另一份是给财务的报销说明。

逐一打开来看，也没有任何问题，写的内容完全无误。

多 Agent 集群能力

接下来，我们把难度又再拉升一个等级：考考 Step 3.7 Flash 的多 Agent 集群能力。

官方演示里不是有个「40 个 Agent 扮演产品评测团」的 case 嘛，我就非常好奇，想要复刻一下。

具体任务是这样的：

一个新的外卖 App，准备在「拼单 /AI 点菜推荐 / 会员折扣 / 深夜配送 / 碳积分」5 个新功能里挑重点做。

让 40 个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由，最后汇总出每个功能的偏好分布和典型反对意见。

当然，不只是给它提示词这么简单。

我们先让 Step 3.7 Flash 生成 40 个差异化虚拟用户，覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。

然后再把这 40 个 persona 分别投喂给 Step 3.7 Flash。

每个 Agent 要做的是：站在自己的人设视角，对 5 个功能做排序，选出最想优先上线的功能，并给出支持理由和最不看好的功能。

最后，把 40 个 Agent 的结果统一汇总，并生成一个可视化看板。

结果也挺有意思的：40 个 Agent 全部有效返回，没有出现角色混淆或者格式大面积跑偏。

最终投票里，AI 点菜推荐拿到 11 票，排第一；拼单拿到 10 票，紧随其后；深夜配送 8 票，会员折扣 6 票，碳积分 5 票。

其中还能看到更细的人群分层，比如年轻白领更偏向 AI 点菜推荐，因为它解决的是「今天吃什么」的高频决策疲劳。

而学生等价格敏感人群，更倾向拼单和会员折扣，因为能凑起送价、摊配送费。

从结果来看，Step 3.7 Flash 在这个任务里的表现还是挺稳的：

40 个虚拟用户的画像差异明显，投票理由和人设基本能对上，也没有出现大家都选同一个功能的「假共识」。

这波重大利好产品经理啊！让 Agent 集群先开一轮需求评审会，自己只需要拍板下一步就可以了 ~

实测下来，我对 Step 3.7 Flash 的第一印象就是快。

每个任务，简单的不到一分钟，复杂的也就是几分钟，它就能给我交付出结果。

有句话叫唯快不破。在传统单轮问答里，快一点只是体验更顺。但在 Agent 场景里，速度直接决定任务能不能用。

官方介绍 Step 3.7 Flash 时，把这个数字拉到了一个新的工程极限：单任务最高超过 400tps。

这是什么概念？在没有特别推理加速的前提下，绝大多数模型的推理速度都在 100tps 以下，主流甚至只在 30tps 上下。

在 Artificial Analysis 的速度天梯上，此前最快的 GPT-5.3 也就 70 多 tps。Step 3.7 Flash 是在支持多模态的前提下，硬把速度顶到了 400tps。

海外还有开发者把 Step 3.7 Flash 和几个主流模型放在一起测，结果发现 3.7 Flash 跑出了 2123 tok/s，一骑绝尘。

他后来还在 NVFP4 设置下，把极限吞吐顶到了 6000 tok/s，常规上下文长度下也能稳定在 2000 tok/s。

但是光快还不够，Agent 也讲究一个性价比为王，这里比的是单位成本能交付多少有效结果。

Step 3.7 Flash 的解法，是把性价比做成了可规模化的底气。在 OpenRouter 上，它的定价是每百万输入 token 0.2 美元、输出 token 1.15 美元。

两代 Flash 背后，阶跃算的是一笔企业账

把视角拉远一点会发现，Step 3.7 Flash 并不是一时兴起。

它延续的是阶跃上一代 Step 3.5 Flash 的打法：追求效率上限、强调实用，在速度、性能和性价比之间找平衡，还支持本地部署。

3.7 在这个基础上更进一步，兼顾了更多能力的协同效率，也在成本、稳定性和部署形态上更扛得住长期运行。

这条路能不能跑通，上一代 3.5 Flash 早就用真金白银验证过了。

今年 2 月，Step 3.5 Flash 发布，两天登顶 OpenRouter Trending，一个月内 OpenClaw 调用量做到了全球第一。

此外，Step 3.5 Flash 上线两个多月就量产上车，登陆极氪 8X，直接当上了这款旗舰车型的「Agent 大脑」。

从开源榜单一路走到量产车机，阶跃 Flash 系列在真实场景里的可用性和性价比，已经被市场投了票。

还有开发者统计了 OpenRouter 上 60 多个服务商的 398 个核心数据，整理出一张「缓存命中率排行榜」。

阶跃以 86.1% 排进 S 档、位列全球第二，仅次于 DeepSeek，和 DeepSeek、月之暗面一起站在了全球第一梯队。

缓存命中率高，说明它底层的推理系统工程做得好——在长任务、Agent、RAG 这些场景里，重复的上下文前缀能被高效复用，直接换来更低成本、更高吞吐、更低延迟。

某些场景下，它的实际推理成本会大幅低于其他模型，速度优势也更明显，尤其适合复杂长任务。

换句话说，在企业级 Agent 市场，阶跃的模型「非常值钱」。

连续两代 Flash 的研发思路，其实透出了阶跃对 AI 商业化路径的判断：

未来大规模落地的 AI 应用，不会只靠少数昂贵的旗舰模型，而会形成一套由不同能力、成本、部署形态组成的「模型组合」。

高效率的 Flash 模型，会在 Agent、Coding、Search、多模态办公和企业工作流里，承担越来越多的生产任务，成为 AI 规模化落地的重要基础设施。

这个判断并不孤单。今年 Anthropic 的 ARR，从 2025 年底的约 90 亿美元，一路冲到 2026 年的数百亿美元量级，其中约八成收入来自企业客户。

企业级 Agent 的商业化潜力，正在被真金白银验证。

说到底，当 Agent 从 Demo 走进真实生产，赛点早就从「谁更聪明」，换成了「谁能在单位成本下，把更多真实任务又快又稳地跑完」。

Step 3.7 Flash 最近这一波蹿红，是这个新赛点的体现，也是大模型竞速新竞争力的钟声。

体验地址：https://chat.stepfun.com/chats/new

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签