智东西 昨天
阶跃Step 3.7 Flash拿下AA榜第一,让Agent从「跑Demo」到「能搞钱」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

智东西

作者|程茜

编辑|漠影

智东西 6 月 4 日报道,今日,阶跃星辰开源的 Flash 基座模型 Step 3.7 Flash,在 Artificial Analysis 榜单上拿下多个第一,并登上 OpenRouter Trending 榜全球第二。

Step 3.7 Flash 在输出速度榜单排名第一

海外开发者社区的态度更为直观,Step 3.7 Flash 凭借速度和性价比刷屏。官方披露这款模型的运行速度超过 400 tokens/s,但有开发者测出在极限条件下,模型甚至能跑到 6000 tokens/s。更多人关注的是另一组指标:Step 3.7 Flash 以约 1/9 的任务成本,实现了 Claude Opus 4.6 的 97%。

客观来讲,这款模型并没有行业极致的智能水平,却在效率上另辟蹊径。

效率导向的性能优势,让 Step 3.7 Flash 在企业服务市场拿下了 " 实用、利于规模化落地 " 的生态位,这是因为其恰好切中当下 Agent 商业规模化落地的效率瓶颈——在真实任务中跑不动,养不起。

这是横亘在 Agent 从榜单、PPT Demo 进入真实商用场景无法回避的阻碍。大量企业客户发现,当模型面临复杂任务,需历经任务拆解规划、工具调用、结果校验、迭代修正的多轮执行链路,这会造成链路冗余、token 无效损耗,而这导致的低效问题,已然成为制约 Agent 规模化商用落地的阻碍。

这也顺势明确了未来 Agent 的商业化分水岭:让 Agent 在真实业务场景中以更高性价比实现更快响应、更高任务准确率,是打通智能体商业化闭环的必经之路。

一、智能体风口,低效痛点拖累规模化落地进程

从年初 OpenClaw、Hermes 接连出圈,到 OpenAI 联合创始人、CEO 萨姆 · 奥尔特曼(Sam Altman)昨晚直播直言:全天候主动式 Agent 是未来一年头号布局方向,智能体热潮已势不可挡。

但这背后使其落地硬伤愈发凸显,居高不下的无效 token 损耗、低效运行难题持续困扰大批一线开发者,拖慢其项目落地节奏。

效率层面,在 Cursor 社区,有开发者吐槽其智能体在执行顺序终端命令时,即便只需 10 毫秒即可完成的简单指令,相邻命令间仍存在约 27 秒冗余延迟,最终造成串行任务效率损耗高达 99.95%。

开发者实测时延

密歇根大学、斯坦福大学、微软以及谷歌 DeepMind 等今年 4 月联合发布的研究进一步印证症结所在,智能体执行任务时需要反复灌入历史上下文,使得模型输入输出 token 消耗比例高达 154:1。

智能体执行任务时输入输出 token 消耗比例

另外是成本层面,Agent 自主多轮调用机制会天然放大 token 消耗。

上月初,有开发者提到其在用 Claude Code 进行代码重构时,尚未提出正式问题,仅上下文预加载就要耗费 3.5 万至 4 万个 token,甚至仅 3 次提示调用便耗尽原本够用 4 小时的 token 额度。

落地到企业端,成本失控会更为突出,Uber 称员工大规模使用 AI 编程工具后,4 个月就烧掉了全年的 AI 预算;还有不具名的公司忘记设限,一个月在 Claude 上烧掉 5 亿美元。

这样的效率困局折射出,业内评判 Agent 价值的逻辑已经变了:基础模型底子好只是前提,放到 Agent 场景里,模型只靠答题、单项能力远远不够,高效、少冗余、省 Token、低成本跑完整套任务,才是检验模型能不能适配智能体的硬指标。

由此,破解智能体低效困局的落脚点便聚焦到速度与性价比两大维度。

一方面,通过提效减少 Agent 运行时无效等待带来的无用算力开销,让算力每一秒都能用于任务闭环;另一方面,提升模型单次执行任务的成功率,使得同等任务少消耗 token、少耗时,拉高业务落地的性价比。

当下,已经实现 Agent 全程跑得更快、花钱更少、产出效率更高的模型便是阶跃星辰最新开源的 Step 3.7 Flash。

二、速度登顶、性价比拉满,Step 3.7 Flash 释放 Agent 商用价值

在 Agent 时代,Step 3.7 Flash 交出了差异化答卷。

先来看下 Step 3.7 Flash 面对复杂编程任务的实力,智东西让其生成体感打砖块游戏。Step 3.7 Flash 生成的游戏能自动触发摄像头,人脸移动和挡板移动同步,击碎砖块时有特效,结束时还会震动掉落,可能在挡板接住时略有延迟,但整体已经具备很高可玩性。

在模型底层基础能力拉满的前提下,Step 3.7 Flash 在规模化落地能力上更进一步,这也对应了前文提到破解智能体低效困局的两大关键。

首先是速度,根据官方信息,Step 3.7 Flash 最高生成速度可达 400 tokens/s。开发者的实测显示,Step 3.7 Flash 单流生成速度为 DeepSeek-V4 的 2.4 倍;64 并发峰值吞吐达到 DeepSeek-V4 的 3.47 倍,高并发场景吞吐优势显著,并且他在极端条件下甚至实现了 6000 tokens/s 的传输速率。

智东西基于 Step 3.7 Flash 制作了一个番茄计时器,其最终生成的应用布局简洁、核心要素齐全,且这一应用生成仅花费 1 分钟左右一次成功。

与此同时,开发者实测证明,在个人电脑上 Step 3.7 Flash 的速度没有大幅缩减。Step 3.7 Flash 的 4bit 量化版仅需 128GB Apple Silicon 设备便可满载 32K 上下文,在 Mac Studio 环境下基准测试生成速度超 53 tokens/s。

根据 Artificial Analysis 的数据,Step 3.7 Flash 的表现已经接近 Agent 商业化落地的最优区间,兼得高智能和超高速率。

其次是高性价比,Step 3.7 Flash 综合推理、输入上下文、工具调用、Agent 多轮交互等全场景后的综合单价为每百万 token 0.2 美元(约合人民币 1.35 元),与此前官宣永久降价的 DeepSeek、小米 MiMo 持平,均位列榜单第一。

Step 3.7 Flash 价格最低

基于 Artificial Analysis 的速度价格比分布可以看出,Step 3.7 Flash 在兼具高速、低成本方面的综合实力,已然使其在 Agent 商业化方面具备竞争力。

综合来看,Step 3.7 Flash 在性能拉满的同时,从速度与成本双向突破,一方面凭借领先竞品的单流推理速度与高并发吞吐能力,精简任务循环损耗;另一方面显著压低个人与中小开发者的使用成本,进一步为智能体规模化落地扫清障碍。

三、综合性能跻身全球头部,阶跃已跑通 Agent 商业化

当前 AI 行业正式进入商业化深度竞速阶段,模型在推理速率、综合性能与落地成本间实现均衡突破,成为模型规模化商用落地的核心评判标准。

因此,从 Step 3.5 Flash 到 Step 3.7 Flash,阶跃星辰的模型迭代路径一脉相承,其围绕 Agent、Coding、Search 与多模态工作流进行系统优化,解决的核心都是让 Agent 在真实场景中高效运行。

这也得到全球开发者市场的真实数据验证。其两代模型发布仅两天,便纷纷在 OpenRouter 榜单上位居前列,Step 3.5 Flash 登顶首位、Step 3.7 Flash 登上 OpenRouter Trending 全球第二位。

不仅如此,阶跃星辰在推理效率也已进入全球头部阵营。

开源团队 Dirac 基于 OpenRouter 数据统计了当下主流模型的缓存命中率,其中达到 S 级缓存命中率的模型,清一色都是国产模型。这意味着国产模型的实力正在强势赶超。

其中,阶跃星辰更是以 86.1% 的得分位列全球第二,超高的缓存命中率,正是模型推理更快、损耗更低,稳定运行的核心。

这都证明,阶跃星辰高效率、轻量化的 Flash 系列模型,已经具备承接真实 Agent 落地的实力。

就在上个月,Step 3.5 Flash 已完成车载场景的规模化落地,其为极氪 8X 上构建的整车智能体 " 超级 Eva" 量产交互,打通车辆感知、语义理解、指令执行全链路。

从模型的亮眼榜单数据到真实场景的批量商用落地,这都印证阶跃星辰产业化路径已经跑通。

结语:轻量化 Flash 模型,或引爆智能体规模化落地

阶跃星辰 Flash 模型一定程度上解决了智能体 token 冗余、算力浪费、链路延迟、成本高等低效痛点,打通 Agent 商业化落地瓶颈。

未来,随着企业级自动化、智能化需求持续爆发,轻量化、高效率、高性价比的 Flash 基座模型,或成为推动 AI 智能体产业规模化、商业化进阶的核心驱动力,加速智能体迈入高效落地、普惠商用的全新阶段。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论