腾讯大模型重回牌桌了吗？

文 / 山杉

追赶者的四月

4 月 23 日，腾讯混元 Hy3 preview 发布并开源。几个小时后，OpenAI 深夜扔出 GPT-5.5。不到 24 小时，DeepSeek V4 预览版跟着上线，终于交出了新一代旗舰模型。

这只是一个缩影。这个 4 月，全球 AI 大模型依然如过江之鲫、频频上新。其中有三家特别值得留意：

首先是 Meta。4 月 8 号那天扎克伯格大概是长舒了一口气——投入不少却始终差口气的 Meta AI，终于凭最新大模型 Muse Spark 打了个翻身仗，其性能表现出色，股价当日大涨 6.5%；还有 Google，Gemini 3.1 系列继续保持强势，在各方面都有拉开差距的迹象——尽管它在另一些地方又亮起了红灯。然后是国内巨头腾讯，带着它刚刚发布的 Hy3 preview。

之所以将它们类比，在于这三个各自领域的王者，都在 AI 大战中经历了一段颇受质疑的时期。

最难受的当然是 Google，毕竟连 AI 基础架构 Transformer 都是它发明的。三年前，OpenAI 用它的技术路线搞出 ChatGPT，Google 被迫应战、仓促推出大模型 Bard，结果大失水准，在演示中连韦伯望远镜的常识都搞错，公司市值当即蒸发千亿美元，甚至一度有人认为 Google 大势已去。

Meta 更戏剧化，经历过战略错判、内部斗争，也吃过惨痛教训——去年 4 月高调发布 LLaMA 4，号称超越 DeepSeek V3，结果不到两天就沦为一颗 " 哑弹 "。部分测试数据低到离谱，随后更被曝出刷榜丑闻——提交给排行榜的版本，和公开给开发者的版本不是同一个模型。为此，其 AI 研究副总裁宣布离职。

跟上述两家相比，腾讯的遭遇倒不至于那么剧烈，但" 腾讯慢了 "、" 腾讯 AI 到底行不行 "的疑问从未停止过。

此前，混元核心团队背景多集中在计算机视觉、机器学习等方面，而非大语言模型最核心的方向。过去三年，混元受困于组织分散，数据和 Infra 等基础设施薄弱，认知与全球顶尖团队有较大差距，其基础模型给外界留下的印象是，" 四平八稳，缺乏特色 "。在 2026 年初的腾讯年会上，马化腾也直言" 动作慢了 "。

大模型技术固然是一场马拉松式的竞争，但面对一日千里、纷繁复杂的态势，很难没有焦虑——尤其是必须直面一个问题：是否走对了方向。

面对严峻的局面，Meta 和 Google 做了同一件事：自我纠偏、痛苦地聚焦。

Google 将 Brain 和 DeepMind 两个团队合并——此前这两个团队都很优秀，却各自为战。之后是大举投入，从 Gemini 1.0 的低于预期，到 1.5 Pro 方向回正，到 3.1 Pro 多维度领先——近三年持续迭代，Gemini 的 AI 聊天机器人市场份额已从不到 6% 攀升至约 20% 以上。

纠偏是持续的过程。就在这个 4 月，红灯在谷歌再一次亮起，联合创始人布林亲自挂帅组建了一支 " 编码突击队 "，在当下火热的编码智能体新战场，重新追赶。

而经历过短暂的慌乱，Meta 去年重组 AI 部门，成立超级智能实验室（MSL），并豪掷重金延揽顶级人才。九个月后交出了 Muse Spark，其风格和 LLaMA 4 截然不同，不喊 "SOTA"，主动标明弱项，但在图表理解和医疗推理上等方面表现突出，token 效率极高。一个因为追求数字而翻车的公司，如今选择了克制和场景聚焦。终于重新赢得了外界的认可。

反观腾讯，它过去三年似乎经历了 Meta、Google 故事的前半段。到了这最近半年，腾讯内部也密集经历了重建、重构和聚焦：延揽前 OpenAI 研究员姚顺雨出任首席 AI 科学家，AI Lab 撤销，收拢 AI 研发力量，招揽一批顶级人才，重建研发架构和基础设施……几个月之后，推出 Hy3 preview。

据了解，这一模型进行了底层重构，" 总参数 295B，激活参数 21B，最大支持 256K 上下文长度，在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。"

新模型很惊艳吗？在 1T 参数以上巨型模型林立的当下，很难这么评价，毕竟还只是一个不到 300B 的 Preview 版。但对腾讯自身来讲，是一个转变的信号弹。模型发布后，外界立刻将它与主流模型进行了比较，感知最强的是其实用性和体验的改善。一位大模型测评博主写道：Hy3 终于如愿进入了国模第一梯队。更直接的信号是，Hy3 preview 上线即成为腾讯十余款核心产品的首选模型，这在混元历史上是第一次。有博主直言：" 先上桌，再追赶，这一步算是迈出来 "。

对大模型竞争来说，最重要的可能不是这个版本的表现 " 数据 " —— Meta 和 Google 证明了，落后了的巨头只要敢于自我变革、重新出发，走到正确的路上，极大概率会靠着独特的优势加速兑现其潜力的。

于是，值得一问的问题是：腾讯开始走上正确的道路了吗？

不是迭代，是推倒重来

"Hy3 preview 是混元大模型重建的第一步。"在 Hy3 preview 发布的官方 Blog 中，腾讯首席 AI 科学家、AI Infra 部及大语言模型部负责人姚顺雨写道。很显然，Hy3 preview 不是在上一个版本基础上修修补补。

据了解，Hy3 preview 是从 2026 年 1 月底左右才开始起步，组织架构、基础设施基本上重建了一遍。原有的训练框架没有沿用，Agent 系统几乎从零搭建。一位内部人士用了一个形象的说法：这不是翻新装修，是把房子拆了重盖。

" 重训一个底座 " 到底意味着什么？

首先需要海量优质数据，经过清洗、筛选、去重、分类、配比——数据比例配错了，模型可能中文好但英文差，或者会聊天但不会写代码。

然后是大规模张 GPU 组成集群，稳定运行几十天甚至几个月，中间任何一张卡出故障、任何一次通信中断都可能导致训练回滚—— Meta 训 LLaMA 3.1 405B，16384 张 H100 跑了 54 天，期间遭遇 419 次意外中断，平均三小时一次，而这还是在成熟的训练基础设施上。

训完底座只完成了一半，之后还要通过强化学习，把一个 " 读了很多书但不会说人话、不会干活 " 的毛坯打磨成能和人正常交互的产品。

混元面对的恰恰是重构级别的难度——基础设施全新搭建，训练范式切换，团队大规模大量新人加入。

既然难度这么大，也已经有了上一代模型，为什么不在已有基础上迭代，非要从头来过？而且是在所有人都在加速奔跑的时候。

答案可能和直觉相反。看起来推倒重来充满不确定性，实则恰恰是为了获得确定性。

混元 Hy3 preview 选择的技术路线—— MoE 架构、强化学习驱动的后训练等等，很多是被多家头部团队反复验证过的成熟方案。曾经 DeepSeek V3 用 MoE 做到了业界标杆，OpenAI 和 Anthropic 早已把强化学习作为后训练的核心引擎，Google 和 Meta 都在把底座与应用场景越拉越近。选择它们的风险反而是可控的。

Google 当年面对的也是同样的重构难题。Brain 和 DeepMind 分别都很强，但这个组织形态跑不出统一的大模型产品。皮查伊选择强行合并，短期代价是 Gemini 1.0 低于预期，但这个决定让 Google 获得了一个统一的底座和一致的迭代方向——之后所有加速都建立在这个基础上。Meta 更极端，LLaMA 4 翻车之后，扎克伯格没有在原来基础上修补，而是另起炉灶，连品牌都换了。

重建的本质，是用短期的阵痛换取长期的确定性——让自己站到一条被验证过的、正确的道路上，为混元更大参数的模型迭代打好基础。

这或许便是混元的选择。那么具体来说，这条路通向哪里？

重建一条 " 实用 " 的道路

如果用一个词概括 Hy3 preview 的重构方向，大概是" 实用 "。

这两个字听起来朴素，但在大模型行业的语境里，其实是一个鲜明的立场选择。

以前很多大模型团队默认的叙事是线性的：先把模型参数做大、做到更聪明、更通用，榜单更高；然后再谈落地、可用、体验。但混元没有选择 " 先极致智能再可用 " 的从众路线，而是从源头就把 " 实用性 " 塞进整个链路里——从数据理解、预训练，到强化学习，再到评估——都是围绕真实场景的实用性来构建。

这个方向似乎正在变成行业共识。同一天发布的 GPT-5.5，定位从 " 回答 " 转向 " 执行 "；DeepSeek V4 万亿参数开源，核心方向也聚焦 Agent。

对混元而言，这种 " 有用哲学 " 首先体现在底座的能力选择上：聚焦腾讯社交、游戏、广告等核心业务场景中最需要的模型能力，做体系化建设。

复杂推理—— Agent 时代对模型最基本的要求是 " 能想 "：面对复杂任务能规划、能拆解、能一步步推导。

指令遵循与上下文学习——长期以来国产模型的痛点。举个具体例子：多人群聊到第 100 轮，中间插了几个人说话，准确识别 " 某句话是在回复两条之前的那条 " ——人类做得到，大多数模型做不到。这恰恰是 Hy3 preview 此次的突破，直接服务于元宝和元宝派的真实交互场景。

代码与智能体能力——也许是最出乎意料的进步。此前混元在 Coding 领域几乎没有存在感，之所以高优先级投入，应该和腾讯自身的产品布局直接相关：今年推出的 WorkBuddy、QClaw 等智能体产品，都需要底座在代码生成和 Agent 协作上过关。

三个方向不是随机选的。让一个 Agent 完成工作，要理解指令，在长链条任务中不丢上下文，一步步推出方案，再用代码实现——恰好是 Agent 时代模型最高频被调用的三种能力。这三种能力的组合本身就是一个体系化的选择。混元的官方博客阐释了 " 实用 " 的三条原则，第一条就是能力体系化：不推崇 " 偏科 "，因为即使是代码智能体的单一应用，也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

底座选择打哪几个点只是第一步，怎么训也变了。这可能是混元最重要的方法论转向：重点攻坚 RL。

此前混元的后训练重度依赖 SFT ——用大量标注好的问答对教模型 " 看到这种输入就这样输出 "。但据接近团队的人士透露，新版本做法截然不同，重点精力都在 RL 上。

区别可以这样理解：SFT 给标准答案—— " 正确答案是 A"；RL 只告诉模型好与不好，自己去推测为什么。前者让模型快速学会应对已知题型，后者教会模型面对陌生问题时自行判断。在真实场景里，用户的提问千奇百怪，不可能每一种都提前标注，RL 的价值就在这里。

更关键的是，RL 模式下，训练数据量可以非常大，持续训下去，不断地用真实复杂的任务把模型的上限拉高。

" 各家的差异就是你的模型到底能接触到多少复杂业务——这就是生命力的来源。"一位业内人士评价。

这句话指向一个值得品味的远期含义。腾讯覆盖社交、游戏、内容、广告、生活服务等多样场景，其丰富度在全球范围内都属于第一梯队。一旦 " 场景 - 反馈 - 训练 - 更强模型 - 更多场景 " 的循环跑通，能量巨大。

当然，从 " 有场景 " 到 " 反馈真正回流为 RL 的训练燃料 "，中间还隔着数据合规、反馈标注、工程链路等多重问题——这是混元下一阶段真正要啃的硬骨头。但无论如何，重点关注 RL 是一条越跑越宽的路。

训练范式之外，还有一个更隐蔽但也许更深层的变化：场景需求从一开始就写进了技术方案。

混元团队内部的说法叫" 联合设计 "（Co-design）。过去比较典型的模式是：基模团队闷声训模型，训完交给产品业务团队；用得不顺，再下场帮业务一起调。可用性在末端补救，甚至不少产品优先选用外部开源模型。但混元这次做了一个重要变化——在强化框架搭建、数据策略、评估指标设计的早期，就建立了与业务方的 Co-design 机制。

元宝是一个典型的例子。Hy3 preview 的研发过程中，元宝团队与模型团队做了深度的联合设计。元宝团队带进来的，是一套从真实用户行为中提炼出的多维评测体系——覆盖意图理解精准度、文本创作质量、深度搜索召回效果，比通用 benchmark 更贴近产品场景。同时，他们把用户反馈中沉淀下来的判断也注入了训练过程：文笔是否自然、情商是否到位、内容组织是否清晰、专业表达是否有分寸感。这些维度很难从模型侧自行定义，需要离用户近的人来提供标准。

在应用 Hy3 preview 的产品盲测中，元宝在写作、闲聊、搜索三个场景上效果体现得最明显。用户反馈中反复出现一个词：" 活人感 "。

这就是联合设计真正在做的事：" 实用性 " 的定义，从基模团队单方面决定，变成和场景共同决定。

与之配套的是评估体系的转变。一方面，混元团队通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的 " 真实战斗力 "，另一方面，混元也开始引入真实业务场景来评估：在某条具体链路上，模型是否稳定、是否贴合语境、是否能理解用户的实际意图、能让用户感到自然——这些是 " 实用 " 的证据。而一旦评估被真实场景牵引，训练数据、强化策略、工具链设计都会被迫跟着改变。这也是为什么 " 实用 " 不只是一句口号——它正在反向重塑整个研发系统。

" 实用 " 落到工程层面，还意味着必须在乎性价比。这个词听起来庸俗，但在 Agent 时代是严肃的硬约束。一个 Coding Agent 完成一个任务可能调用模型 50 到 100 次，Token 消耗量是普通对话的 5 到 30 倍。中国信通院数据显示，国内日均 Token 调用量两年增长超过 1400 倍；Gartner 则警告，单个 Token 价格在暴跌，但 Agent 总消耗量增长更快—— Token 越便宜用得越多，总成本反而可能上升。

Hy3 preview 有 295B 总参、21B 激活——模型内部有大量 " 专家 "，每次推理只激活其中一小部分。关键不在于专家多少，而在于路由网络能不能把问题精准分配给最合适的那个。从官方信息看，混元 AI Infra 做了全栈优化，同等成本下推理效率提升 40%。一位业界人士说得直接：" 推理成本降低，也会给元宝省下一批卡。" 对腾讯的体量而言，单 Token 成本哪怕降 10%，累积节省就是天文数字。

几个层面合在一起看，Hy3 preview 的更大的意义，可能在于它搭起了一套围绕真实场景的实用性来定义目标、组织研发、评估结果的系统。据透露，作为重新起步的一个开始，混元也希望通过这次发布获得全面的用户体验反馈，用以提升 Hy3 正式版的性能。正式版仍在持续迭代，下一代模型也已启动生产——这个版本搭好的基础设施和跑通的流程，后续不用重建。

图注：代码能力评测

图注：Agent 综合能力评测，Hy3 preview 展现出高性价比

罕见的加速度

方向对了，只是必要条件。在这个行业里，几乎不可能慢慢走在正确的路上，同样需要考验的是：速度。

Hy3 preview 从预训练启动到模型发布，三个月完成。

而以行业实际节奏为参照，通常需要 6 个月以上。一个业界人士评价，" 在三个月左右时间里一次性极致压缩，其实是极大的挑战。"

但所有人都知道，他们必须要完成这一项极限任务。

为此，他们做了一个决策：并行生产（而非传统的串行）。几条线同时拉起来。

开始正式训练的时间是 1 月 31 日。预训练开始的同时，后训练团队在小模型上做验证，全新的 RL 基础设施同步建设，到某个节点，业务链路同步适配。所有能并行的环节全部并行，严丝合缝咬合在一起。

中间穿过了春节——没有停工。卡在跑，人就跟着跑。有人凌晨三点起来让实验继续。" 但凡有一点 buffer，你都会想要节约出一点可能的试错空间。"

一个有意思的细节是，Agent 训练时，在新的 RL infra 上首次投产应用，就长跑成功。但真正让这个团队高兴的是，这验证了他们的"solid" 工作文化——如果每一步做得质量很高，就能带来一个好的结果。

熟悉行业的人知道这样的速度意味着什么，基本就是很难容忍重大的 BUG 或者回滚。这个过程就像经验老道的医生团队做一档高难度的手术——除了方法技巧，也得知道各种风险和意外，以及能快速应对。

而这个大规模的咬合过程，还伴随着一个组织的磨合的挑战，大量新人，来自不同公司，并带着各自的经验和方法论。

最终，在一种极限作战的状态中，这个团队都更深理解了彼此，比如姚顺雨常挂在嘴边的，做事要 "solid"；预训练的同学常说，" 预训练就是 debug"。

据了解，自去年 12 月底混元架构调整以来，整个组织在持续发生变化。其中一个举措是：正式取消管理层级头衔，试行负责人制。不叫总经理，不叫总监和组长——所有岗位名称简化为 " 某某方向负责人 "。管理角色跟着业务走，不是一个固定身份：你今天带这个方向，就有管理标签；明天方向调了，标签跟着摘掉。

这种扁平化，在日常协作带来了一些非常具体的结果。比如，开会时，没人需要 " 向上管理 " 了。

一位参与跨部门协作的员工描述了他的直观体感：" 不管你是什么角色，有问题会上直接提，当场拍掉。谁是责任人，马上就定。不需要层层汇报。"

这种扁平和做事导向的文化，肉眼可见地带来一种工作氛围的变化：" 大家不是拼体力、拼加班——而是变成了怎么聪明、高效地做事。"

甚至跨部门合作都更顺畅了。Hy3 preview 要上到产品线，" 比如上元宝、CodeBuddy ……模型同学跟产品侧一拉群，当天就推进。大家的思路很明确——以事为导向。" 该内部人士说。

" 因为整个腾讯都在加速的状态中。因为我们新建团队的文化基调，就是要把这事搞成。"

三四个月很难尽善尽美。

"bench 表现挺好的，但它还没有到真实世界去被 ' 毒打 ' 过。"一位内部人士表达了她的担忧，但这也是混元先推出过程性版本的原因——更快更多获得真实世界反馈，才更有机会变得强大。

更重要的是，这个加速度是面向未来的。换句话说，只有迭代速度持续加快，混元在这个注定是长周期的 AI 竞赛中，才能得以持续改善。

一个既快又慢的新纪元

在 AI 竞赛中，有一个反直觉的规律：在任何一个时间截面上判断 " 谁赢了 "，几乎注定是错的。

2023 年初所有人说 Google 完了，三年后王者归来，如今又重新追赶。2024 年中 Meta 是开源之王，一年后翻车，再之后以全新面目重来。DeepSeek V3 以极低成本震惊世界，三个月后行业又向前走了一大步，直至这几天又带来了惊人的 " 性价比 "。领先和落后不断交替，没有谁能锁定赢面。

行业真正在奖励的，并非某一次发布的 " 最强 "，而是方向选择的正确性、持续迭代的能力、以及把模型能力转化为用户价值的效率。

Google 用近三年证明了这一点。不仅是底座变强，更是 Gemini 和 Google 产品矩阵的深度整合；这一举措还在加码，今年首次设立了 " 首席 AI 架构师 " 一职，直接向皮查伊汇报，只干一件事——加速把 AI 模型整合进 Google 全产品线。Meta 的 Muse Spark 从一开始就嵌入 WhatsApp 和 Instagram，服务 32 亿用户。当底座能力日渐趋同，底座和场景的咬合深度就是长期胜负手。

Token 经济学在加速这个趋势。中国大模型 API 价格在过去两年里已经下降了 90% 以上。当推理的边际成本趋近于零，单纯卖 Token 的商业模式注定不可持续。真正的价值在于 Token 被用来做什么——用在哪个场景、解决什么问题，这需要模型、场景和工程系统的深度咬合，而不是 benchmark 上多 0.5%。

腾讯丰富的场景里，每天覆盖数以亿计的用户。这些场景产生的反馈密度和迭代驱动力，是纯做底座 API 的所团队不具备的。Hy3 preview 在元宝和 Workbuddy 等十余个腾讯核心业务场景的先行落地，以及 RL 与复杂真实场景的相互依存——都指向这个长周期的竞争逻辑。

一位内部人士给了一个耐人寻味的比喻：" 可以把它理解成一个清华毕业生。学完了，终于下山了。他行万里路的起点，就是要充分在各种场景里深度沉淀。"

不是出道即巅峰——是出道即起点。

如果它是一颗新种子，如今似乎已经证明它能发芽。接下来的问题是——土壤里的养分能不能顺畅滋养它。

毕竟 AI 竞争，不再只是模型的单一竞争，更是模型能力、场景理解、工程能力、产品能力和上下文深度的乘数效应。真正的壁垒在别人不容易复制的场景积累和系统能力里。

所有人都在同时奔跑，真正的考验还在后面。

在面向未来漫长的旅程中，大模型仍在一种 " 各领风骚几个月 " 的阶段。就像 Google 迎头赶上，不久后又有 Claude 强劲崛起，在编码智能体的新战场上，定义了方向，OpenAI 紧随其后，布林不得不再次启动战时机制。Meta 的新状态保持多久，也不得而知。

没有永远的领先者，也没有永远的落后者。但确定的是，巨头一旦走在正确的道路上，加速度会比想象的更快。

宙世代

一起剪

相关标签