The following article is from 第一新声 Author 雷晶
作者 | 雷晶 校对 | Tina 策划 | Eason
来源 | 第一新声
图片|公众号 AI 生成
8 月 6 日凌晨,OpenAI 发布了两款开源大语言模型 gpt-oss-120b 和 gpt-oss-20b。这是自 2019 年开源 GPT-2 以来,OpenAI 首次发布开源模型。
OpenAI 时隔六年再推开源大语言模型,释放技术普惠信号。这一举动无疑在全球人工智能领域投下一枚重磅炸弹,也让国内大模型竞争格局面临新的变数。
华丽回归 " 技术的伟大胜利 "
据官方介绍,这两款模型均为纯文本语言模型,在文本处理、代码生成、数学问题求解等领域表现强劲。gpt-oss-120b 总参数量为 1170 亿,激活参数为 51 亿,能够在单个 80GB 的 GPU 上运行,专为生产环境、通用应用和高推理需求的用例设计,既可以部署在数据中心,也能在高端台式机和笔记本电脑上运行。
而 gpt-oss-20b 总参数量为 210 亿,激活参数为 36 亿,专门针对更低延迟、本地化或专业化使用场景优化,在 16GB 的 GPU 上就能运行,这意味着大多数现代台式机和笔记本电脑都能驾驭。
在模型架构上,二者均采用了 Transformer 架构,并融入专家混合(MoE)设计,以此减少处理输入时激活参数量,提升推理与内存效率。它们还借鉴了 GPT-3 的设计理念,采用交替的密集注意力和局部带状稀疏注意力模式,使用分组多查询注意力机制以及旋转位置编码,原生支持 128k 上下文。
训练数据上,则重点聚焦于 STEM、编程和通用知识领域,并使用 o200k_harmony 分词器进行数据分词,该分词器是 OpenAI o4-mini 和 GPT-4o 所用分词器的 " 超集 ",也于此次同步开源。
除了性能强劲,OpenAI 为这两款模型赋予了诸多实用特性。
模型具备可配置的推理强度,能依据用户具体用例和延迟需求,轻松调整推理投入程度。同时支持完整的思维链,可完整访问模型的推理过程,便于开发者调试并提升输出结果的可信度,还支持参数级微调,开发者能够根据特定用例对模型进行深度定制。
另外,模型具备智能体能力,可利用原生的函数调用、网页浏览、Python 代码执行和结构化输出等功能,进一步拓展应用场景。
本次开源的 gpt-oss 支持本地运行,无需连接网络,数据也不必上传到云端,这一特性能够满足金融、医疗等受严格监管行业对数据隐私的要求。
但值得一提的是,这次开源并不彻底,这两款模型属于开放权重(open-weight)大语言模型,不提供训练数据和完整训练代码。
OpenAI 的开源或许是对市场竞争压力的回应。当前,全球 AI 市场竞争激烈,新兴力量崛起迅速,在这样的环境下开源成为重要手段,可以吸引更多开发者,完善其生态系统。
受到冲击 国内大模型格局或有变局
在 OpenAI 开源之前,国内的大模型开源早已进行得如火如荼。
近几个月来,腾讯、智谱 AI、昆仑万维、阿里巴巴、月之暗面等头部企业密集发布新一代开源大模型,将 AI 开源战场推至前所未有的热度。
百度文心早在 6 月开源 ERNIE-4.5 系列,覆盖 0.3B 至 47B 参数规模,以中文多模态能力见长,在 C-Eval 等基准测试中超越 GPT-416。
腾讯混元则在 8 月 4 日宣布开源四款轻量级模型 0.5B、1.8B、4B、7B,覆盖从端侧到云端场景,消费级显卡即可运行,并适配手机、平板、智能座舱等低功耗设备。其核心创新包括 256K 长上下文窗口,可处理 40 万汉字、双脑协作架构,即 " 快脑 " 即时响应、" 慢脑 " 深度推理,以及强化 Agent 能力。
阿里巴巴的通义千问(Qwen)系列也在持续迭代。7 月刚推出 Qwen3 推理模型,可原生支持 256K 上下文处理能力,可应对更长文本、构建更深的推理链,自动启用多步推理,无需用户手动切换模式。8 月通义千问系列又推出了图像生成基础模型 Qwen-Image,主打复杂文本渲染能力,能在不同场景中,准确地生成不同语种、风格的文字,甚至可以写毛笔字书法,或是直接生成带有文本和图像的 PPT 页面。
智谱 AI 在 8 月 3 日开源 GLM-4.5(355B MoE)及轻量版 GLM-4.5-Air(106B),主打智能体原生架构与低成本推理(API 成本低至 0.8 元 / 百万 tokens),48 小时内登顶 Hugging Face 趋势榜。
除传统巨头外,垂直领域企业表现也相当活跃。
昆仑万维开源多模态模型 Skywork-R1V3-38B 与轻量图文生成模型 Skywork-UniPic-1.5B,入选 " 中国 AI 开源 16 强 "。字节跳动发布多语言翻译模型 Seed-X-Instruct-7B 与通用多模态模型 Tar-7B。月之暗面推出数学证明专精模型 Kimina-Prover-72B,其基础模型 Kimi-K2 跻身 Chatbot Arena 全球前五。蚂蚁集团则聚焦金融场景,开源数据集 Agentar-DeepFinance 及轻量多模态模型 Ming-Lite-Omni-1.5B。
据 Hugging Face 中国社区统计,7 月单月 16 家机构共开源 31 个模型及工具,覆盖文本、图像、3D 生成等全模态场景。
如今,OpenAI 携 gpt-oss-120b 和 gpt-oss-20b 两款开源模型强势入局,无疑为国内大模型开源竞争格局带来巨变。
从积极方面看,其开源行为为国内企业提供了学习借鉴先进技术的契机,通过研究 OpenAI 模型架构、训练方式等,国内企业可以优化自身模型,实现技术升级。
然而,挑战也随之而来。OpenAI 凭借其知名度与技术领先形象会吸引部分国内开发者与用户资源。国内企业如何充分发挥本地化优势成为亟待解决的课题。
这场全球性的大模型开源竞赛才刚刚开始。
更多文章
微信又双改版了,如果不标星,容易错过我们的推送,也无法看到封面图片。还请点击星标,及时接收每篇新鲜出炉的推文,我们期待与你的每一次见面


登录后才可以发布评论哦
打开小程序可以发布评论哦