智东西 08-06
OpenAI时隔6年再度开源!两款推理模型,o4-mini级,手机和笔记本能跑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 李水青

时隔 6 年,OpenAI 再次开源语言模型!

智东西 8 月 6 日报道,今天,OpenAI 终于放出其传闻已久的开源模型:gpt-oss-120b 和 gpt-oss-20b。这两款模型均采用 MoE 架构,与 DeepSeek 的多款模型类似。

本次 OpenAI 开源的模型最大亮点之一是其部署的高效性。gpt-oss-120b 能够在单个 80GB GPU 上高效运行,gpt-oss-20b 只需 16GB 内存即可在边缘设备上运行,可为端侧 AI 提供本地模型选择。两款模型均采用 MXFP4 原生量化,其中,gpt-oss-120b 在 H100 GPU 上历经 210 万卡时训练而成,20b 版本的训练用量为前者的 1/10。

在多项基准测试中,gpt-oss-120b 的表现与 OpenAI o4-mini 几乎持平,gpt-oss-20b 则与 OpenAI o3-mini 相似。工具使用、小样本函数调用也是其强项之一。

面向 Agent 场景,这两款模型已经与 OpenAI 的 Responses API 兼容,可用于 Agent 工作流,具备较好的指令遵循能力、网页搜索或 Python 代码执行等工具使用能力以及推理能力,还支持调整模型推理长度。

自 2019 年的 GPT-2 以来,OpenAI 已经长期未开源语言模型,但曾经开源 Whisper 语音模型等项目。OpenAI 语言模型再度开源的消息发布后,虽有不少网友发文庆祝,但也有人质疑其开源程度并不彻底,强化学习的技术细节、预训练的数据构成、数据来源等信息都未披露,让开源社区难以从中借鉴。

同时,OpenAI 在所有已公布基准测试中,都未将 gpt-oss 系列与 DeepSeek、Qwen、Kimi 等开源模型进行比较,也没有和 Claude、Grok、Gemini 等闭源竞争对手打擂台。

目前,已有至少 14 家部署平台支持了 OpenAI 的最新开源模型,包括 Azure、Hugging Face、vLLM、Ollama、llama.cpp、LM Studio、AWS、Fireworks、Together AI、Baseten、Databricks、Vercel、Cloudflare 和 OpenRouter 等。

在硬件方面,英伟达、AMD、Cerebras 和 Groq 等至少 4 家企业宣布了对 gpt-oss 系列的支持,Cerebras 更是将 gpt-oss-120b 的推理速度拉到了每秒超 3000 tokens,创下 OpenAI 模型的最快纪录。

目前,gpt-oss-120b 和 gpt-oss-20b 已上线开源托管平台 Hugging Face,普通用户则可以在 OpenAI 打造的体验网站中直接免费使用。

开源地址:

https://huggingface.co/openai/gpt-oss-120b https://huggingface.co/openai/gpt-oss-20b

体验链接:

https://gpt-oss.com/

一、推理速度成核心亮点,网友质疑没和 DeepSeek、Qwen、Kimi 对比

OpenAI 开源后,已有不少网友体验上了这两款模型,智东西也进行了一手体验。

有许多网友都表达了一个直观感受——太快了!

据智东西一手体验,这款模型在思考一般性问题时,仅会进行 5 秒左右的思考,并迅速输出结果。

同样的问题交由其他推理模型,思考过程耗时 18 秒。

在编程场景,gpt-oss-120b 展现出一定规划能力,会在项目开始前给出结构预览和关键技术点。

其开发的 2048 小游戏运行正常,UI 选用了较为简洁的风格。

智东西让 gpt-oss-120b 挑战了一下 Claude 擅长的 SVG 图绘制,并给予 gpt-oss-120b 高推理预算,其生成结果如下,略显简陋。

OpenAI CEO Sam Altman 称,gpt-oss-120b 可以在高端笔记本上运行,而小尺寸的 20b 版本能在手机上运行。

不过,AI 创企 Private LLM 的创始人 Thilak Rao 认为,目前,还没有任何手机能运行 20b 的 AI 模型,即便是经过 4 位量化。

有网友晒出了本地部署效果。20b 版本的 gpt-oss 可以直接本地部署,无需经过量化,能在在搭载 M3 Pro 芯片的 Mac 上,实现接近 24 tokens 每秒的高速本地部署体验。gpt-oss-20b 开发出了一个贪吃蛇游戏,一次就成功了。

不过,也有网友吐槽,OpenAI 的此次 " 开源 " 并不彻底。权重是公开的,但训练过程不公开,数据源也不公开,强化学习方法也不公开,可以下载模型,但无法复现。

OpenAI 也没有晒出 gpt-oss 系列与其他开源、闭源模型的任何基准测试比较,有网友在评论区询问,gpt-oss 系列与 DeepSeek R1、Kimi K2 和 Qwen 相比究竟如何?

二、主打推理、高效率,120b 版本性能比肩 o4-mini

在博客中,OpenAI 介绍了这一模型的部分技术细节。本次的 gpt-oss 系列注重推理能力、效率以及在各种部署环境中的实际可用性。

采用 MoE 架构就是实现这一目标的手段之一。gpt-oss-120b 每个 token 激活 51 亿个参数,而 gpt-oss-20b 激活 36 亿个参数。这两个模型分别有 1170 亿和 210 亿个总参数。这些模型使用交替的密集和局部带状稀疏注意模式,类似于 GPT-3。

为了提高推理和内存效率,gpt-oss 系列模型还使用了分组多查询注意力模式,每个组的大小为 8。使用旋转位置嵌入(RoPE)进行位置编码,并且原生支持高达 128k 的上下文长度。

数据方面,gpt-oss 使用了一个以英文为主的纯文本数据集,数据集的重点是 STEM(科学、技术、工程、数学)、编程以及常识。OpenAI 还同步开源了其使用的分词器(tokenizer)。

gpt-oss 的后训练过程与 o4-mini 类似,包括监督微调阶段(SFT)和使用大量算力的强化学习阶段(RL)。

与 API 中的 OpenAI O 系列推理模型类似,这两款开源模型支持低、中、高三种推理强度,在延迟和性能之间进行权衡。开发者只需在系统消息中输入一句话,即可设置推理强度。

基准测试中,gpt-oss-120b 在竞赛级别编程(Codeforces)、通用问题求解(MMLU 和 HLE)以及工具调用(TauBench)方面均优于 OpenAI o3-mini,并比肩甚至超越了 OpenAI o4-mini。

此外,它在健康相关查询(HealthBench)和竞赛数学(AIME 2024 和 2025)方面的表现甚至优于 o4-mini。

尽管规模较小,gpt-oss-20b 在同样的评估中也比肩甚至超越了 OpenAI o3-mini,甚至在竞赛数学和健康方面也胜过后者。

OpenAI 称,gpt-oss 系列采用无监督思维链,让开发者和研究人员有机会研究和实现他们自己的思维链监控系统。但 OpenAI 也建议,开发者不应在其应用程序中直接向用户展示思维链。它们可能包含令人产生幻觉或有害的内容。

三、多家芯片厂商即刻适配,最高实现每秒 3000 tokens 推理

gpt-oss-120b 和 gpt-oss-20b 采用了宽松的 Apache 2.0 许可证。开源后,已有不少 GPU、AI 芯片厂商和云服务厂商即刻宣布适配。

英伟达官方发推称,gpt-oss 模型面向英伟达的全栈架构进行优化,并在 Blackwell 和 RTX GPU 上实现了最佳的推理效果。

AMD 也宣布支持 OpenAI 开源模型在 AMD 的 AI 芯片与消费级处理器上使用。

AI 芯片创企则争相晒出自家的每秒 token 数。在 Groq 的芯片上,gpt-oss 的推理速度最高可达 1200 tokens 每秒。

Cerebras 则称该公司创造了新的速度记录,gpt-oss-120b 版本的推理速度达 3000 tokens 每秒,成为史上最快的 OpenAI 模型。

结语:OpenAI 再度开源,开源社区能从中获益吗?

今年以来,由中国大模型厂商们掀起的开源浪潮席卷全球。作为全球头部模型厂商,OpenAI 本次时隔 6 年再度开源语言模型,对 OpenAI 和产业而言意义重大。

OpenAI 在过去很长一段时间里都因 " 名不副实 " 而保受诟病,本次放出两款开源模型,可视为对这一质疑的回应。从实际体验来看,OpenAI 的两款模型都主打轻量化部署,并已经与云厂商、芯片厂商展开深度合作,或将促使更多企业和开发者使用这一模型。

不过,OpenAI 的开源并不彻底,对技术细节的保留导致开源社区暂时无法从中获取有益的参考。这一模型对开源社区的价值,仍有待观察。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 gpu 英伟达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论