爱范儿 4小时前
阶跃Step 3.5 Flash :春节 AI 混战杀出的黑马,正在 Agent 时代弯道超车
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今年的 AI 圈,有点像 2008 年的智能手机市场,所有人都知道触摸屏是未来,但厂商们都在做「带触摸屏的诺基亚」。

Agent 时代已经来了,这是共识。而怎么做一个好用的 Agent 模型?按照惯性思维,或许还是一样,更多的参数,更深更广的网络结构,还有更大的数据集。

300B 不够就 1T,1T 不够就 10T。仿佛只要把模型做得足够大,Agent 能力就会自然涌现,就像只要把诺基亚的屏幕做得足够大,iPhone 就会自己出现一样。

大参数模型确实带来了更博学的知识面和更稳健的底座,但这种一味在上一代模型上「优化 」的方法,显然不能让我们手里的 Agent 更好用,Agent 时代需要 Agentic 的模型

那有没有一条更高效的、真正颠覆性思维的路线,不靠堆参数,靠架构优化;不需要云端服务器独占,本地也能跑;既是全能选手的同时,又有定向优化。

▲模型参数规模与智能对比图,Step 3.5 Flash 总参数在图中最少,但智能得分排名第二

2 月 2 日,阶跃星辰发布并开源了最新基座模型 Step 3.5 Flash,这是一个让 Agent 更高效的底层支撑模型,采用稀疏 MoE 架构,总计 1960 亿参数,但每个 token 仅激活约 110 亿个参数。

这是大模型行业里一个十分反常识的数据,在一众卷向万亿参数的竞争对手面前。似乎显得有些「掉队」。然而就是这个看似「掉队」的选择,可能藏着 Agent 时代最大的秘密。

L3 时代的模型,不能再沿着 L1 的梯子爬

如果这放在半年前,阶跃星辰可能还在做着另一件事。

阶跃星辰联合创始人兼 CTO 朱亦博在最新的博客中提到,Step 2 模型时代,他们也曾是 Scaling Law(规模定律)的忠实信徒。和当时所有的模型厂商一样,他们认真地爬着那座名为参数的梯子,设计了比 DeepSeek V3 还要大的参数量,甚至比对方早训练了好几个月。

结果是,虽然跑分一度辉煌,但在 DeepSeek R1 的推理范式面前,传统的堆料逻辑还是遭遇了降维打击

原因很简单,DeepSeek R1 是一个时代的跨越,从 L1 的 Chatbot 到 L2 的 Reasoner,继续用 Chatbot 的思维去做推理模型,不一定会失败,但注定要碰壁。

这不仅是阶跃星辰的复盘,更是整个行业的缩影。痛定思痛后,他们发现了一个被忽略的真相:L1 时代的 Chatbot(聊天机器人)和 L3 时代的 Agent(智能体),需要的是两种不同的模型

▲ OpenAI 的五级框架,从第一级的聊天机器人,到推理、智能体、创新者和第五级的组织体

按照 OpenAI 的五级架构,我们正在经历从 L2 Reasoner(推理) 迈入 L3 Agent(智能体) 的跨越。

L1 Chatbot 时代:核心需求是对话流畅度,模型只要能快速响应、自然表达就够了。我们需要的可能是一个会背百科全书的「文科生」,它足够博学,能随口复刻鲁迅风。此时,每秒 20-30 个 token 的输出速度,刚好适配人类的阅读习惯 。

L2 Reasoner 时代:长思维链出现,我们需要模型展现完整的深度思考。看着长长的思考过程,我们觉得它聪明,甚至愿意为了更准确的结果等待数十秒 。

L3 Agent 时代:特征彻底变了。工作场景的上下文常驻 32K-128K 区间,我们不再逐字阅读输出,只盯着「什么时候能交付结果」。

在这种场景下,继续沿用 L2 时代的重型参数模型,打个比方可以说是,带着鳌太线的装备去爬佘山「沪太线」,虽然储备充足,但效率变低,且算力代价极其昂贵 。

Agent 在某种程度上,甚至可以说不再是给用户看的,而是给任务用的。它需要长上下文的高效运行,能轻松处理几十万 token 的代码库;以及速度的提升,这能直接决定用户体验;而核心还是规划和工具调用。

如果继续用 L1 时代的重型模型去跑 L3 的任务,就像开着法拉利去送外卖——不仅贵,而且在拥堵的「长上下文」路况里,根本跑不起来。

这也解释了为什么阶跃敢于反其道而行,掏出 Step 3.5 Flash 这个「新物种」,专注于「快」与「强逻辑」。这种取舍乍看之下与行业格格不入,却有了更多的可能性。

天下武功,唯快不破:Agent 时代的「暴力美学」

Agent 时代,「快」不再是一种锦上添花,直接是模型生死线。

朱亦博指出了一个极易被忽视的细节,在 Chatbot 时代,模型输出只要快过人类阅读速度(20-30 tokens/s)就够了,再快我们也读不过来。但在 Agent 时代,这个标准完全失效

为什么?因为用户根本不想看过程。当 AI 帮我们写代码、查资料、订机票时,我们不会盯着屏幕看它一个字一个字往外蹦,我们只想要结果。

在这个阶段,速度不再是体验,而是生产力本身,直接决定了任务交付的效率。

为了实现这种极致的「快」,阶跃星辰在技术路线上做了一次豪赌。

▲ Step 3.5 Flash 整体架构,Step 3.5 Flash 是一款采用稀疏混合专家(MoE)架构的大语言模型,其架构由模型 - 系统协同设计定义,并且将推理成本和速度作为核心架构约束。

在同行都在盲目跟风 Linear Attention(线性注意力机制)时,Step 3.5 Flash 坚持选择了 SWA(滑动窗口注意力) 架构。这种混合注意力布局,一方面能更快的处理 Token 计算,另一方面也解决了长上下文处理的二次瓶颈。

简单来说,它不是死记硬背 256K 的全文,而是像人类一样,有重点、有节奏地分配注意力。这让它在处理海量数据时,不仅不降智,还能大幅降低算力开销。

看起来是一种「逆行」,其实正是 Agent 时代「以巧见大」的精算。因为在当前的硬件条件下,SWA 对投机采样(Speculative Sampling)最为友好。这种技术上的取舍,直接将单请求代码类任务的推理速度干到了最高 350 tokens/s

快如闪电的「瞬杀」,是直接将 AI 从「玩具」变成生产力工具的决定性瞬间在 Step 3.5 Flash 发布首日,就登上 OpenRouter Fastest Models 榜单

▲根据 OpenRouter 最新发布的 Fastest Models 排名显示, Step 3.5 Flash 的生成速率达到 167 Tokens/s,位列全球最快模型之列。

拒绝「背题家」,高智商才是第一生产力

跑得快不能以「降智」为代价,衡量一个模型适不适合做 Agent,「高智商」也是必不可少。

无论是我们用户还是大多数模型厂,普遍的共识都是:参数越大,能力越强。但 Step 3.5 Flash 在数学领域的屠榜表现,用合适尺寸 + 极致后训练,也得到了不输大参数模型的效果。

AIME 2025(美国数学邀请赛)中,它拿下了 97.3 分

IMOAnswerBench(国际数学奥林匹克题基准)中斩获 85.4 分

HMMT 2025(哈佛 - 麻省理工数学竞赛)中更是飙到了 96.2 分

这是什么概念?这些分数均为国内顶级开源模型第一。

如果开启并行协同推理(PaCoRe)模式,它的得分甚至逼近满分。这种「智商溢出」的现象背后,藏着一个极其隐晦但精准的行业真相:过去的模型像是个「背题家」,靠死记硬背海量数据来蒙混过关;而 Step 3.5 Flash 是个真正的「解题家」。

▲ PaCoRe(Parallel Coordinated Reasoning)的推理流程。每一轮启动广泛的并行探索,将生成的轨迹压缩成紧凑的信息,并将这些信息与问题一起传递,以协调下一轮。重复此过程 ˆ 次,可在遵守固定上下文限制的同时,实现数百万标记的有效 TTC(测试时计算),最终压缩的信息作为系统的答案。

在 Agent 的工作流中,这种能力是致命的。因为真实世界的任务充满了未知,我们要的不是一个只会复读知识点的鹦鹉,而是一个能看懂复杂指令、能拆解任务逻辑、能自我纠错的「超级大脑」。

推理能力证明了智商在线,但 Agent 还需要干活靠谱。Step 3.5 Flash 在多个关键场景拿到了国内开源第一。

代码能力:全球第一梯队

SWE-bench Verified: 74.4 分(真实开源项目的 bug 修复)

Terminal-Bench 2.0: 51 分(国内开源第一,终端任务自动化)

LiveCodeBench-V6: 86.4/88.9 分(国内开源第一,实时编码调试)

Agent 核心能力:多项国内开源第一

τ² -Bench: 88.2 分(国内开源第一,多步任务规划)

xbench-DeepSearch: 54 分(国内开源第一,深度搜索与信息整合)

BrowseComp: 69 分(第一梯队,网页浏览与上下文管理)

数据再漂亮,也得经得起真实场景的检验。在下面这几个典型场景中,Step 3.5 Flash 也验证了「以巧见大,快如闪电」不是口号。

普遍常识里,用 Deep Research 写分析报告,可能会觉得需要模型有引经据典的文采,但实际上还是依赖强大的逻辑推理和工具调用能力。

给它一个模糊的课题,比如「0-3 岁婴幼儿科学教育」,它不会直接胡编乱造,而是像一个真正的人类研究员一样,拆解任务、规划路径、联网搜索、反思修正,然后交给我们一份内容翔实、新手父母都能看懂的万字报告。

在 Scale AI 的 Research Rubrics 评测中,它的得分甚至压过了 OpenAI 和 Gemini 的同类系统。这也进一步说明,它已经具备了独立干活的「逻辑闭环」。

Step 3.5 Flash 同样能接入 Claude Code 环境,当要模型担任一名专业数据分析师,面对复杂的数据分析任务时,它不仅能自己写代码清洗数据、协助日常数据流程、对齐数据格式,还能直接产出工作流报告。

无论是做 Deep Research 还是 Vibe Coding 项目,这些要么在阶跃的官网完成,要么就是调用 API 的方式,但 Step 3.5 Flash 的野心远不止于从云端服务器拉取 AI 能力。

朱亦博透露,为了跑模型,他甚至自掏腰包买了一台设备。现在,Step 3.5 Flash 是目前能用 4-bit 量化,在 128GB 内存的 MacBook 上流畅运行 256K 超长上下文的最强模型,没有之一

这句没有之一,确实凸显了技术人的倔强。或许,这也暗示了阶跃星辰「AI + 终端」的终极图谋:最强的大脑,不应该只活在昂贵的 H100 集群里,它应该活在你的电脑里,甚至未来的手机里

当其他厂商还在卷融资、卷估值时,阶跃星辰已经默默地把高性能 Agent 的成本门槛,再一次降低。这正印证了那句战略预判:大模型竞争的「表演赛」已经结束,行业正式步入决定生死的「淘汰赛」。

春节 AI 大战里,又一匹搅动大模型格局的黑马

在最近喧嚣的 AI 发布混战中,Step 3.5 Flash 这匹黑马肯定其实有些被过于低估了,它不只是一个「高性价比」的模型,反而有点像一年前 DeepSeek 的突然出现,给 AI 行业趟出了一条新路:

在算力并不是无限的现实世界里,谁能用更精巧的架构、更少的资源解决更复杂的问题,谁才是真正的赢家。

那个靠堆参数就能骗到融资、靠刷榜单就能获得掌声的「草莽时代」已经一去不复返。接下来的战争,属于那些不仅「脑子好使」,而且「手脚麻利」的物种。

这种对「小型化、高效率」的坚持,本质上源于阶跃星辰对 AGI 使命的执着。朱亦博曾感慨,坚持训练基模的意义,除了商业优势,就是为了那份 「一直以来的 AGI 梦想」。

对阶跃星辰来说,通往 AGI 的路径不是靠赌一把大的,而是靠前瞻性的方法论,和对时代需求的精准判断。正如阶跃星辰新任董事长印奇在采访中所谈到的,「做好基模、探索整个智能的上限是阶跃的使命。」

从 Step 1 到 Step 3.5,从多模态到语音,从云端到终端,AI 与物理空间的结合、与终端硬件的深度布局,都是阶跃星辰走向最终 AGI 的必经之路。

当 AI 能力真正「飞入寻常百姓家」,技术竞赛的终点也不再是算力军备竞赛,AI 开始更好地服务我们,每个人,中小企业、个人开发者、学生都能低成本,用得起顶级 Agent 能力,AGI 才不只是巨头的游戏。

以巧见大,快如闪电。 这是 Step 3.5 Flash 给出的答案,也是阶跃星辰对 AGI 使命的又一次靠近。

那些坚持梦想的人,终会走出自己的路。而这条路,已经越来越清晰。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 诺基亚 智能手机 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论