雷科技 1小时前
全球AI开发者新宠!阶跃星辰Step 3.5 Flash,两天登顶OpenRouter趋势榜
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

如果一个模型既能很好地实现 Agent(智能体)的能力,还能跑得足够快,不会在多轮推理中途「卡壳」,又有很低的幻觉率,会发生什么事情?答案是:

一线的开发者和用户很快就会用真金白银的 Token「投票」。

这就是全球 AI 圈正在发生的事情。阶跃星辰开源模型 Step 3.5 Flash 发布后迅速走红全球,不仅首日在 OpenRouter 冲上 Fastest Models 全球最快模型之列,更是两天登顶 Trending 全球趋势榜第一。

图片来源:OpenRouter

不是基准跑分,也不是媒体评测。OpenRouter 作为全球 AI 模型聚合平台,聚集了全球几乎所有叫得上名字的开源和闭源模型,还有大量的全球 AI 开发者和用户,再加之榜单数据来自开发者和用户的真实 API 调用,过去一年越来越成为大模型最重要的「试金石」。

尤其是最重要的 Trending 全球趋势榜,不关心「参数最大」或者「跑分最强」的模型,只关注开发者和用户调用模型的实际情况,或者说是:哪个模型更有用、更好用?

这也不难看出 Step 3.5 Flash 这回「全球第一」的含金量。

2 月 2 日,阶跃星辰发布开源模型 Step 3.5 Flash,很快就点燃了行业的集体关注,第一反应是看它的「智能密度」。

根据基准测试,Step 3.5 Flash 在数学推理(AIME 2025 评分 97.3)和代码修复(SWE-bench Verified 达到 74.4%)上的表现,PaCoRe 强化版甚至将 AIME 2025 的成绩提高到几近满分的 99.9。

但对于开发者来说,更有杀伤力的是它的「以巧见大」。

阶跃星辰公开了 Step 3.5 Flash 的技术报告,详尽地介绍了其在模型结构上的创新设计。首先就是采用了稀疏混合专家(MoE)架构,在保持较为精巧的 1960 亿总参数量的同时,处理每一个 Token 时,会动态选择最适合的「专家」,仅需 110 亿激活参数即可实现前沿级智能。

打个比方,这就像一个拥有 196 名顶尖专家的智囊团,当接到一个具体的代码任务时,系统能瞬间精准地挑出最专业的 11 个人进场干活。对于开发者和用户来说,你付的是 11B 模型的时间和成本,换回来的却是 196B 模型的思考深度,性能媲美 GPT-5.2 xHigh、Gemini 3 Pro 等前沿模型。

图片来源:阶跃星辰

同时为了解决长上下文的瓶颈,Step 3.5 Flash 还通过 3:1 滑动窗口与全局注意力混合架构(SWA+Full Attention)实现 256K 长上下文的高效处理,能极大节省显存。这些都在一定程度上,为 Agent 时代解决了成本与效果的倒挂难题。

但 Step 3.5 Flash 的「巧」不止如此。测试显示 Step 3.5 Flash 不仅支持 100 – 300 TPS(每秒 Token 数)的生成吞吐量,部分场景下甚至可以做到最高 350 TPS,远超去年 50-100 TPS 的主流水平。

而做到这一点的关键还在于 MTP-3(三路多 Token 预测) 技术。

传统的模型的推理更像「蹦豆子」,说一个词想一个词。MTP-3 允许模型在生成当前内容时,就能同时预测后续多个 Token。不仅仅是单纯的速度提升,它也在某种程度上改变了模型的思考逻辑——让模型在开口说话之前,就已经预判了后面几步的路。

在多轮工具调用的 Agent 场景下,这种「连贯性」更为关键,大大减少了模型在复杂逻辑中途的「卡顿」和「失忆」,让原本断断续续的 AI 操作,可以变得又快又顺滑。

但实际表现又如何呢?

在 YouTube 科技博主 Bijan Bowen 的实测中,Step 3.5 Flash 能够准确还原瑞典设计与纽约金融风格的差异,从字体、布局到交互逻辑都能持续迭代优化。甚至,Step 3.5 Flash 还生成了一个功能完备的浏览器操作系统(WebOS),并且还是博主测试的多个模型中唯一能正常运行经典游戏「Memory Game」的模型。

图片来源:Youtube@Bijan Bowen

这种能力,也可以说是模型知识容量、推理与执行能力叠加后的直接体现。

另一方面,Discord 上还有网友在 128GB 内存的 Mac(M3 Max)上本地部署运行 Step 3.5 Flash,实际效果远超预期,性能可以达到硬件理论效率的 70%。他也指出,Step 3.5 Flash 不仅模型幻觉率很低,可以输出可靠的回答和行为,在中英等多语言混用场景下也有很低的错误率。

图片来源:Discord

更灵活的部署优势,更低的推理成本,更重要的还有实际 AI 使用场景下的强大和好用,都让 Step 3.5 Flash 的爆火成了一种顺其自然的结果。

尤其是在 OpenRouter 上,开发者和用户见多了「高分低能」的模型,比起跑分数据和脱离实际的测试,最关心的还是模型在 AI 应用和系统中跑起来的实际表现。在 Agent、深度研究、自动化工作流等场景中,模型迁移成本并不低,开发者和用户集体选择 Step 3.5 Flash,足以说明对模型的「好用」。

另一方面,今天开发者和用户的选择,也是 Agent 时代的关键侧面。

Step 3.5 Flash 发布后,阶跃星辰 CTO 朱亦博在知乎上提到,团队在 Step 2 阶段仍然沿着更大参数、更强对话能力的路线推进,但很快又意识到这条路并不成立。

「不同智能阶段需要不一样的基模(基础模型)结构。」痛定思痛下,他也想明白了 L1 Chatbot 时代设计的基础结构并不适用于 L2 Reasoner(推理模型),而 L3 Agent 时代更需要新的基模结构。

在这个背景下,Step 3.5 Flash 的训练目标一开始就锚定了足够强的逻辑、真正可用的长上下文高效率处理以及快速的推理能力。这些直接决定了模型是否可用、好用,包括模型的纠错与自我改进能力。

因为在 Agent 场景下,用户不再关注输出过程,而是看重完成任务的速度、准确和稳定性。

Bijan Bowen 在测试 AI 生成飞行模拟、赛车游戏的时候就发现,Step 3.5 Flash 给出的初始版本虽然还有一些瑕疵,但通过提示词的反馈后,模型能够在原有基础上进行迭代优化,游戏开发质量也有会爆发式提高。

这也就不难理解 Step 3.5 Flash 在结构设计上做出一系列选择:MoE 用来把推理成本压到可部署的范围内,MTP-3 用来提升连续生成效率,长上下文采用更偏工程化的方案而不是单纯追求理论极限。这些都不是为了追逐跑分成绩,而是为了让模型在复杂的多轮任务中持续工作,不掉速、不失忆、不乱编。

Chatbot 做不到,所以我们需要 Agent。

这背后,也是整个行业重心的移动。过去大模型的主战场是对话,但从 2025 年开始,模型开始大规模引入工作流,token 对于开发者来说变得更加重要,用户满足的也不再只是问答,而是希望 AI 能够直接处理复杂的任务——改更大规模的代码,处理复杂的跨平台流程。

在这种时候,一线开发者和用户的选择,往往比任何 benchmark 都更有说服力。

Step 3.5 Flash 发布后的反响,也印证了这一点。从国内到海外,更多开发者和用户聚焦 Step 3.5 Flash 稳定跑 Agent、多轮推理不中断、灵活部署以及低成本的优势,OpenRouter Trending 全球趋势榜的第一,也直接说明了开发者和用户的 Step 3.5 Flash 的「偏爱」。

2022 年底以来,生成式 AI 的爆发已经证明了一件事:大模型可以改变内容生产、信息获取,甚至改变人与软件的交互方式。从写作、编程到搜索、办公,它已经进入日常。

但 Agent 时代的真正到来,也带来了不同。我们更多将生活、工作中的任务交给 AI 进行协作甚至完成,比起说得对不对,更看重 AI「干活」的表现,不管是跨平台对比 Mac Mini(M4)的价格,还是对大型代码库的修改。

阶跃星辰的开源模型 Step 3.5 Flash 做到了,所以在 OpenRouter 这种现实赛场上成功了,被全球开发者和用户调用。

说到底,AI 的成功不该取决于它看起来有多聪明,而取决于它能帮我们人类提高多少效率。在这个意义上,Step 3.5 Flash 的火爆更能说明大模型必须褪去「炫技」的华丽外壳,变成一种真正好用的生产力。

评论
大家都在看