量子位 07-27
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

推理模型和具身智能,绝对是今年 WAIC 上最抢眼的存在。

一个抢占了现阶段 AI 发展的话语权,一个是外界给予重望的 " 下一件有形之物 " ——尤其是推理模型这条线,逛展刚第二天,我的脑子已经有点 " 轰炸过载 " 了。

当迷失在各家的最新推理模型性能指标之中时,一个念头突然冒了出来。我把这个念头写在这里,同时也是想问问各位朋友们:

什么样的推理模型,能称得上真正好用?

在我这里,答案或许是:

多模态,推理强,用得起,最好还是开源的

几句话说起来简单,但真能兼顾这几点的模型,在市场上几乎处于空缺状态。

直到我发现了阶跃星辰在 WAIC 期间发布的新一代基础大模型 Step 3——市场上的这个空缺,终于被填上了。

Step 3 是一个总参数 321B 的 MoE 模型,具备多模态推理能力,将于下周四(7 月 31 日)正式开源。

在 MMMU 等多个多模态榜单上,它一现身就取得了开源多模态推理模型新 SOTA 的成绩。

更重要的是,Step 3 不是单纯追求效果的 " 学术卷 ",阶跃称这款模型兼顾智能与效率

实测显示,Step 3 的推理解码成本仅为 DeepSeek 的 1/3,且效率更高;在国产芯片上的跑分更是一骑绝尘,推理效率最高可达 DeepSeek-R1 的 300%。

多模态卷王的新 SOTA" 四字诀 "

过去一年,行业在变。

生成式 AI 步入推理时代后,多模态模型全面涌现,推理能力成为新焦点,开源成为厂商和用户的首选考量。

与此同时,各个榜单里更替速度极快的高排名,不再是衡量一个模型性能的唯一定论。效率、成本、部署友好性,都成为综合考察点的一部分。

阶跃看到了这些现象和趋势,并直接在 Step 3 身上体现了自己对这些需求的回应。

阶跃将其概括为四字诀:多、开、好、省

这也是阶跃对 " 什么是真正好用的推理模型 " 简短有力的回应。

多,指多模态。

是的,Step 3 依旧是熟悉的阶跃味道——它是个多模态模型。

Step 3 是一个 321B 参数的视觉语言模型(VLM),激活参数 38B。其架构包含独立的视觉编码器(5B 参数)和语言模型(316B 参数)。

多模态卷王之所以还在多模态这条路上卷,是因为阶跃观察到,多模态对用户来说才是刚需

" 数学和代码是各大榜单最喜欢测试模型能力的方向。" 阶跃星辰创始人、CEO 姜大昕表示,就连测试 Step 3 的时候,都免不了会选择相关测试集," 但实际应用场景中,用户并不需要这个模型是个数学奥赛金牌选手,我们往往需要的是一个能说会看的模型。"

作为阶跃首个全尺寸原生多模态推理模型,Step 3 拥有强大的视觉感知和复杂推理能力,可准确完成日常生活中的各类视觉分析问题。

比如,只报上身高体重,然后丢给它商场中某品牌裤子的标签,问自己能不能穿。

它成功识别出了品牌,还因为提问中没有清晰表示提问的 " 我 " 是男是女,于是分情况进行了分析和回答:

日常生活外,跨领域的复杂知识理解、数学与视觉信息的交叉分析也不在 Step 3 的话下。

现在,阶跃 AI App 和网页(stepfun.com)上,所有普通用户都已经能体验到 Step 3 的多模态推理能力

尤记得今年 2 月,也是在上海,阶跃承诺将在多模态推理领域持续深耕,如今放出 Step 3,也算是对这个承诺的阶段性兑现。

25 日,Step 3 公开发布,并承诺于 7 月 31 日正式开源。

这一举打破了市场上 " 强模型不开源,开源模型不强 " 的尴尬局面。

瞥了一眼,GitHub 上的项目仓已经建好了~

虽然 "will be released soon",但已经 107 颗星星在手,nice。

这个 " 好 " 字,姜大昕作出如下解释:

模型不仅要知识丰富,善解人意,还要有这个严谨的逻辑推理能力。

如他所述,尤其是从今年上半年开始,强推理能力已经成为新一代模型的标配。

给它一张没有任何文字信息的 WAIC 现场实拍图,它一眼就看出吃瓜群众围得里三层外三层,是为了看右下角两个戴着头盔的机器人在拳击。

再追问,Step 3 甚至能根据场馆布置特色和风格,推测出这是发生在 WAIC 上的一幕:

" 该省省,该花花 " 这套生活哲学,终于也被活学活用到大模型身上了。

" 省 " 字对应的其实是所有用户——无论是企业还是开发者——最朴实无华的需求:在模型能力足够好的前提下,成本要尽可能地降低

Step 3 给出的解决方案是系统协同设计(Model-system Co-design),即重点通过模型系统架构的创新来提升解码效率并降低推理成本。

这里关键介绍两点创新:

一个是系统层的 AFD 分布式推理系统

传统情况下,模型关于 Attention 和 FNN 的推理计算任务,会交给同一组 GPU 同时处理,常常导致资源浪费。

AFD 全称为 Attention-FFN Disaggregation,它的做法是将 Attention 和 FNN 拆开,使两者在独立子系统中运行,实现分布式推理和流水线优化。

这样一来,Attention 和 FNN 可以分别部署到不同 GPU 集群,避免专家负载不均和网络拥堵问题,显著提升解码效率。

实验结果表明,AFD 分布式推理系统优于与 DeepSeek-V3 采用的专家并行方案 DeepSeek EP。

另一个创新是模型层的 MFA 注意力机制

MFA 全称 Multi-Matrix Factorization Attention。其实早在去年年底,阶跃就在 Step-2 的基础上首次公开发布了 MFA 机制。

它是一种硬件感知的低秩注意力设计,通过矩阵分解优化 KV 缓存和计算效率,同时保持高注意力表达力。

技术报告显示,Step 3 的 KV 缓存大小小于 DeepSeek-V3,更适用于长上下文场景。

值得注意的是,MFA 的算术强度控制在 128,这是一个权衡结果——高于 H20 的 74,避免内存墙;又低于 H800 的 591,避免算力浪费。

这个设计直接带来三个结果:跨硬件兼容性、成本优势扩大、长上下文弹性。

同时,Step 3 支持 FP8 全量化,将内存访问减半并兼容 " 低比特存储 - 高比特计算 " 方案,进一步降低延迟。

系统层和模型层两处创新,二者协同,让 Step 3 仅使用 32 张 Hopper GPU,吞吐量就达到 4039 tokens/GPU/s;而 DeepSeek 官方数据显示,使用 128 张 Hopper GPU 的 DeepSeek-V3,官方吞吐量为 2324 tokens/GPU/s。

一套操作下来,最终达到的效果是这样的——

在 A800 上,Step 3 的成本低于所有同类模型;在 H20 上,Step 3 的成本仅有 DeepSeek-V3 的 30%。

整体看下来,在 SOTA 已经不是惊艳四座新鲜事的现在,Step 3 给推理时代的大模型 SOTA 提供了一个新的定义:

既是最强,又是最值。

Step 3 可称作 " 开源 "" 多模态 "" 推理 ""SOTA" 四角俱全的代表——被行业里叫做多模态卷王,不是没道理。

推理落地难,软、硬、Infra 一起卷

Step 3 无愧于阶跃多模态推理模型新旗舰,但是——

如果没有配套的算力环境,即便 Step 3 再好,也可能只是高处不胜寒。

真正让它落地有声的,是产业链的联合进化。

过去模型落地常卡在两个点,一个是 API 价格太高,一个是国产卡推不动。

但谁都知道,API 价格战固然能带来一时普及,唯有在模型与系统架构上实现本质性突破,才能支撑 AI 长久可持续地走进日常与产业。

为了打破推理大模型普及最大瓶颈——成本,阶跃不靠 API 价格战,而是朝硬件下手,推动模型和算力层协同发展。

在设计之初,Step 3 就考虑了国产芯片适配

Step 3 的友好,是对所有芯片友好。

目前,华为昇腾已首先实现 Step 3 的搭载和运行;沐曦、天数智芯和燧原等也已初步实现运行 Step 3。

敲黑板,这里提到的适配的不是阉割版,而是在完整多模态能力下实现高性价比推理。

更棋高一着的事情是,为了进一步打通上下游,阶跃联合近 10 家芯片及基础设施厂商发起 " 模芯生态创新联盟 "

据了解,该联盟是一个打通了芯片、模型、Infra 完整技术链路的创新生态体系。

Step 3 发布当天,该联盟公开的首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。

姜大昕表示,阶跃会从底层和各个芯片、Infra 伙伴进行联合创新,提升模型适配性和算力应用效率。

芯片厂提供可落地的推理算力,模型厂做硬件友好的模型架构,Infra 平台做高效调度、服务部署与推理加速,最终实现推理能用、成本可控、国产芯片跑得起来。

终端智能 Agent 落地成果丰硕,2025 全年预计收入冲刺 10 亿

如果说模型能力是基础盘,那么应用落地就是成败的分水岭。

在这方面,阶跃的表现可以说是:多模态推理模型能跑的地方,它都跑过了

尤其是在终端智能 Agent 方向,阶跃已经形成清晰的落地节奏,且来自汽车、手机、具身智能、IoT 等领域的客户都很买单。

在这两天的 WAIC 上,展示场景落地能力的阶跃展台,也是被人从众争相围观体验的热门展位。

看到上图左下角这个蛋舱没?

这就是搭载了阶跃多模态模型能力的下一代智能座舱,能感知用户状态,记住车主偏好,开启人机共驾时代。

而在离我们当下现实生活更近的汽车端,可以看看旁边的吉利银河 M9。

它首发搭载阶跃星辰端到端语音大模型——这是行业内端到端语音大模型首次实现量产上车。

手机是阶跃 Agent 终端落地的另一个重点场景

它使用人群最广泛、占据我们日常最大使用时长,因此也是一个更普惠所有用户的场景。

阶跃官方表示,目前,国内 Top10 手机厂商过半都已接入阶跃的多模态能力,OPPO、荣耀、中兴的旗舰机型都已搭载适配。

一方面通过高效推理降低了端侧的功耗压力,另一方面真正做到了在本地实现 AI 伴聊 "AI 视频通话搭子 "、记录手机碎片化信息的 "AI 记忆收纳师 " 等功能。

说适配搭载阶跃能力的手机是每个人的随身 Agent,并不夸张。

大模型很热,但很多时候热在人们的交谈里,热在媒体的报道里,或者只是热在你争我夺的各种榜单上。

而阶跃,已经让多模态大模型可用、可跑、可部署、可落地。

这就让它成为当前基础模型赛道中,少数几个具备清晰商业化路径和收入规模的玩家之一。

据阶跃方面透露,2025 年全年预计收入近 10 亿人民币

此次发布的 Step 3,是阶跃在推理模型当道的现在,给出的一套系统性打法。

它其实不是天降神兵般突然出现的一个兼顾智能与效率的多模态推理模型,而是阶跃一路卷来,钻研技术与工程,又洞悉市场需求的一份答卷。

而且它靠着 " 多开好省 " 四字秘诀,一脚踹开了推理模型商用落地的那扇门。

没错哦,当别人还只在卷参数卷指标,阶跃已经开始算收入了;别人还在拼一张张榜单,Step 3 已经装进了车里、手机里、机器人里。

最强模型的牌面总在刷新,最强的皇冠王座可以轮换,但市场不会撒谎

那些真正好用、能落地、能适配的模型才是开发者和企业长久追着找的刚需款

在一轮轮淘汰赛之后,谁是 AI 产业的长期务实性选项,已经越来越清楚了。

Step 3 的 " 多开好省 " 听着像是口号,实则可能是一道选择题:

你想做 SOTA 的路过者,还是能跑进终端、留在产业线里的长跑者?

阶跃已经选了它的答案。

你呢?

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 芯片 数学 创始人 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论