钛媒体 昨天
腾讯大模型重回牌桌了吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 / 山杉

追赶者的四月

4 月 23 日,腾讯混元 Hy3 preview 发布并开源。几个小时后,OpenAI 深夜扔出 GPT-5.5。不到 24 小时,DeepSeek V4 预览版跟着上线,终于交出了新一代旗舰模型。

这只是一个缩影。这个 4 月,全球 AI 大模型依然如过江之鲫、频频上新。其中有三家特别值得留意:

首先是 Meta。4 月 8 号那天扎克伯格大概是长舒了一口气——投入不少却始终差口气的 Meta AI,终于凭最新大模型 Muse Spark 打了个翻身仗,其性能表现出色,股价当日大涨 6.5%;还有 Google,Gemini 3.1 系列继续保持强势,在各方面都有拉开差距的迹象——尽管它在另一些地方又亮起了红灯。然后是国内巨头腾讯,带着它刚刚发布的 Hy3 preview。

之所以将它们类比,在于这三个各自领域的王者,都在 AI 大战中经历了一段颇受质疑的时期。

最难受的当然是 Google,毕竟连 AI 基础架构 Transformer 都是它发明的。三年前,OpenAI 用它的技术路线搞出 ChatGPT,Google 被迫应战、仓促推出大模型 Bard,结果大失水准,在演示中连韦伯望远镜的常识都搞错,公司市值当即蒸发千亿美元,甚至一度有人认为 Google 大势已去。

Meta 更戏剧化,经历过战略错判、内部斗争,也吃过惨痛教训——去年 4 月高调发布 LLaMA 4,号称超越 DeepSeek V3,结果不到两天就沦为一颗 " 哑弹 "。部分测试数据低到离谱,随后更被曝出刷榜丑闻——提交给排行榜的版本,和公开给开发者的版本不是同一个模型。为此,其 AI 研究副总裁宣布离职。

跟上述两家相比,腾讯的遭遇倒不至于那么剧烈,但" 腾讯慢了 "、" 腾讯 AI 到底行不行 "的疑问从未停止过。

此前,混元核心团队背景多集中在计算机视觉、机器学习等方面,而非大语言模型最核心的方向。过去三年,混元受困于组织分散,数据和 Infra 等基础设施薄弱,认知与全球顶尖团队有较大差距,其基础模型给外界留下的印象是," 四平八稳,缺乏特色 "。在 2026 年初的腾讯年会上,马化腾也直言" 动作慢了 "

大模型技术固然是一场马拉松式的竞争,但面对一日千里、纷繁复杂的态势,很难没有焦虑——尤其是必须直面一个问题:是否走对了方向。

面对严峻的局面,Meta 和 Google 做了同一件事:自我纠偏、痛苦地聚焦。

Google 将 Brain 和 DeepMind 两个团队合并——此前这两个团队都很优秀,却各自为战。之后是大举投入,从 Gemini 1.0 的低于预期,到 1.5 Pro 方向回正,到 3.1 Pro 多维度领先——近三年持续迭代,Gemini 的 AI 聊天机器人市场份额已从不到 6% 攀升至约 20% 以上。

纠偏是持续的过程。就在这个 4 月,红灯在谷歌再一次亮起,联合创始人布林亲自挂帅组建了一支 " 编码突击队 ",在当下火热的编码智能体新战场,重新追赶。

而经历过短暂的慌乱,Meta 去年重组 AI 部门,成立超级智能实验室(MSL),并豪掷重金延揽顶级人才。九个月后交出了 Muse Spark,其风格和 LLaMA 4 截然不同,不喊 "SOTA",主动标明弱项,但在图表理解和医疗推理上等方面表现突出,token 效率极高。一个因为追求数字而翻车的公司,如今选择了克制和场景聚焦。终于重新赢得了外界的认可。

反观腾讯,它过去三年似乎经历了 Meta、Google 故事的前半段。到了这最近半年,腾讯内部也密集经历了重建、重构和聚焦:延揽前 OpenAI 研究员姚顺雨出任首席 AI 科学家,AI Lab 撤销,收拢 AI 研发力量,招揽一批顶级人才,重建研发架构和基础设施……几个月之后,推出 Hy3 preview。

据了解,这一模型进行了底层重构," 总参数 295B,激活参数 21B,最大支持 256K 上下文长度,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。"

新模型很惊艳吗?在 1T 参数以上巨型模型林立的当下,很难这么评价,毕竟还只是一个不到 300B 的 Preview 版。但对腾讯自身来讲,是一个转变的信号弹。模型发布后,外界立刻将它与主流模型进行了比较,感知最强的是其实用性和体验的改善。一位大模型测评博主写道:Hy3 终于如愿进入了国模第一梯队。更直接的信号是,Hy3 preview 上线即成为腾讯十余款核心产品的首选模型,这在混元历史上是第一次。有博主直言:" 先上桌,再追赶,这一步算是迈出来 "

对大模型竞争来说,最重要的可能不是这个版本的表现 " 数据 " —— Meta 和 Google 证明了,落后了的巨头只要敢于自我变革、重新出发,走到正确的路上,极大概率会靠着独特的优势加速兑现其潜力的。

于是,值得一问的问题是:腾讯开始走上正确的道路了吗?

不是迭代,是推倒重来

"Hy3 preview 是混元大模型重建的第一步。"在 Hy3 preview 发布的官方 Blog 中,腾讯首席 AI 科学家、AI Infra 部及大语言模型部负责人姚顺雨写道。很显然,Hy3 preview 不是在上一个版本基础上修修补补。

据了解,Hy3 preview 是从 2026 年 1 月底左右才开始起步,组织架构、基础设施基本上重建了一遍。原有的训练框架没有沿用,Agent 系统几乎从零搭建。一位内部人士用了一个形象的说法:这不是翻新装修,是把房子拆了重盖。

" 重训一个底座 " 到底意味着什么?

首先需要海量优质数据,经过清洗、筛选、去重、分类、配比——数据比例配错了,模型可能中文好但英文差,或者会聊天但不会写代码。

然后是大规模张 GPU 组成集群,稳定运行几十天甚至几个月,中间任何一张卡出故障、任何一次通信中断都可能导致训练回滚—— Meta 训 LLaMA 3.1 405B,16384 张 H100 跑了 54 天,期间遭遇 419 次意外中断,平均三小时一次,而这还是在成熟的训练基础设施上。

训完底座只完成了一半,之后还要通过强化学习,把一个 " 读了很多书但不会说人话、不会干活 " 的毛坯打磨成能和人正常交互的产品。

混元面对的恰恰是重构级别的难度——基础设施全新搭建,训练范式切换,团队大规模大量新人加入。

既然难度这么大,也已经有了上一代模型,为什么不在已有基础上迭代,非要从头来过?而且是在所有人都在加速奔跑的时候。

答案可能和直觉相反。看起来推倒重来充满不确定性,实则恰恰是为了获得确定性。

混元 Hy3 preview 选择的技术路线—— MoE 架构、强化学习驱动的后训练等等,很多是被多家头部团队反复验证过的成熟方案。曾经 DeepSeek V3 用 MoE 做到了业界标杆,OpenAI 和 Anthropic 早已把强化学习作为后训练的核心引擎,Google 和 Meta 都在把底座与应用场景越拉越近。选择它们的风险反而是可控的。

Google 当年面对的也是同样的重构难题。Brain 和 DeepMind 分别都很强,但这个组织形态跑不出统一的大模型产品。皮查伊选择强行合并,短期代价是 Gemini 1.0 低于预期,但这个决定让 Google 获得了一个统一的底座和一致的迭代方向——之后所有加速都建立在这个基础上。Meta 更极端,LLaMA 4 翻车之后,扎克伯格没有在原来基础上修补,而是另起炉灶,连品牌都换了。

重建的本质,是用短期的阵痛换取长期的确定性——让自己站到一条被验证过的、正确的道路上,为混元更大参数的模型迭代打好基础。

这或许便是混元的选择。那么具体来说,这条路通向哪里?

重建一条 " 实用 " 的道路

如果用一个词概括 Hy3 preview 的重构方向,大概是" 实用 "

这两个字听起来朴素,但在大模型行业的语境里,其实是一个鲜明的立场选择。

以前很多大模型团队默认的叙事是线性的:先把模型参数做大、做到更聪明、更通用,榜单更高;然后再谈落地、可用、体验。但混元没有选择 " 先极致智能再可用 " 的从众路线,而是从源头就把 " 实用性 " 塞进整个链路里——从数据理解、预训练,到强化学习,再到评估——都是围绕真实场景的实用性来构建。

这个方向似乎正在变成行业共识。同一天发布的 GPT-5.5,定位从 " 回答 " 转向 " 执行 ";DeepSeek V4 万亿参数开源,核心方向也聚焦 Agent。

对混元而言,这种 " 有用哲学 " 首先体现在底座的能力选择上:聚焦腾讯社交、游戏、广告等核心业务场景中最需要的模型能力,做体系化建设。

复杂推理—— Agent 时代对模型最基本的要求是 " 能想 ":面对复杂任务能规划、能拆解、能一步步推导。

指令遵循与上下文学习——长期以来国产模型的痛点。举个具体例子:多人群聊到第 100 轮,中间插了几个人说话,准确识别 " 某句话是在回复两条之前的那条 " ——人类做得到,大多数模型做不到。这恰恰是 Hy3 preview 此次的突破,直接服务于元宝和元宝派的真实交互场景。

代码与智能体能力——也许是最出乎意料的进步。此前混元在 Coding 领域几乎没有存在感,之所以高优先级投入,应该和腾讯自身的产品布局直接相关:今年推出的 WorkBuddy、QClaw 等智能体产品,都需要底座在代码生成和 Agent 协作上过关。

三个方向不是随机选的。让一个 Agent 完成工作,要理解指令,在长链条任务中不丢上下文,一步步推出方案,再用代码实现——恰好是 Agent 时代模型最高频被调用的三种能力。这三种能力的组合本身就是一个体系化的选择。混元的官方博客阐释了 " 实用 " 的三条原则,第一条就是能力体系化:不推崇 " 偏科 ",因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

底座选择打哪几个点只是第一步,怎么训也变了。这可能是混元最重要的方法论转向:重点攻坚 RL。

此前混元的后训练重度依赖 SFT ——用大量标注好的问答对教模型 " 看到这种输入就这样输出 "。但据接近团队的人士透露,新版本做法截然不同,重点精力都在 RL 上。

区别可以这样理解:SFT 给标准答案—— " 正确答案是 A";RL 只告诉模型好与不好,自己去推测为什么。前者让模型快速学会应对已知题型,后者教会模型面对陌生问题时自行判断。在真实场景里,用户的提问千奇百怪,不可能每一种都提前标注,RL 的价值就在这里。

更关键的是,RL 模式下,训练数据量可以非常大,持续训下去,不断地用真实复杂的任务把模型的上限拉高。

" 各家的差异就是你的模型到底能接触到多少复杂业务——这就是生命力的来源。"一位业内人士评价。

这句话指向一个值得品味的远期含义。腾讯覆盖社交、游戏、内容、广告、生活服务等多样场景,其丰富度在全球范围内都属于第一梯队。一旦 " 场景 - 反馈 - 训练 - 更强模型 - 更多场景 " 的循环跑通,能量巨大。

当然,从 " 有场景 " 到 " 反馈真正回流为 RL 的训练燃料 ",中间还隔着数据合规、反馈标注、工程链路等多重问题——这是混元下一阶段真正要啃的硬骨头。但无论如何,重点关注 RL 是一条越跑越宽的路。

训练范式之外,还有一个更隐蔽但也许更深层的变化:场景需求从一开始就写进了技术方案。

混元团队内部的说法叫" 联合设计 "(Co-design)。过去比较典型的模式是:基模团队闷声训模型,训完交给产品业务团队;用得不顺,再下场帮业务一起调。可用性在末端补救,甚至不少产品优先选用外部开源模型。但混元这次做了一个重要变化——在强化框架搭建、数据策略、评估指标设计的早期,就建立了与业务方的 Co-design 机制。

元宝是一个典型的例子。Hy3 preview 的研发过程中,元宝团队与模型团队做了深度的联合设计。元宝团队带进来的,是一套从真实用户行为中提炼出的多维评测体系——覆盖意图理解精准度、文本创作质量、深度搜索召回效果,比通用 benchmark 更贴近产品场景。同时,他们把用户反馈中沉淀下来的判断也注入了训练过程:文笔是否自然、情商是否到位、内容组织是否清晰、专业表达是否有分寸感。这些维度很难从模型侧自行定义,需要离用户近的人来提供标准。

在应用 Hy3 preview 的产品盲测中,元宝在写作、闲聊、搜索三个场景上效果体现得最明显。用户反馈中反复出现一个词:" 活人感 "

这就是联合设计真正在做的事:" 实用性 " 的定义,从基模团队单方面决定,变成和场景共同决定。

与之配套的是评估体系的转变。一方面,混元团队通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的 " 真实战斗力 ",另一方面,混元也开始引入真实业务场景来评估:在某条具体链路上,模型是否稳定、是否贴合语境、是否能理解用户的实际意图、能让用户感到自然——这些是 " 实用 " 的证据。而一旦评估被真实场景牵引,训练数据、强化策略、工具链设计都会被迫跟着改变。这也是为什么 " 实用 " 不只是一句口号——它正在反向重塑整个研发系统。

" 实用 " 落到工程层面,还意味着必须在乎性价比。这个词听起来庸俗,但在 Agent 时代是严肃的硬约束。一个 Coding Agent 完成一个任务可能调用模型 50 到 100 次,Token 消耗量是普通对话的 5 到 30 倍。中国信通院数据显示,国内日均 Token 调用量两年增长超过 1400 倍;Gartner 则警告,单个 Token 价格在暴跌,但 Agent 总消耗量增长更快—— Token 越便宜用得越多,总成本反而可能上升。

Hy3 preview 有 295B 总参、21B 激活——模型内部有大量 " 专家 ",每次推理只激活其中一小部分。关键不在于专家多少,而在于路由网络能不能把问题精准分配给最合适的那个。从官方信息看,混元 AI Infra 做了全栈优化,同等成本下推理效率提升 40%。一位业界人士说得直接:" 推理成本降低,也会给元宝省下一批卡。" 对腾讯的体量而言,单 Token 成本哪怕降 10%,累积节省就是天文数字。

几个层面合在一起看,Hy3 preview 的更大的意义,可能在于它搭起了一套围绕真实场景的实用性来定义目标、组织研发、评估结果的系统。据透露,作为重新起步的一个开始,混元也希望通过这次发布获得全面的用户体验反馈,用以提升 Hy3 正式版的性能。正式版仍在持续迭代,下一代模型也已启动生产——这个版本搭好的基础设施和跑通的流程,后续不用重建。

图注:代码能力评测

图注:Agent 综合能力评测,Hy3 preview 展现出高性价比

罕见的加速度

方向对了,只是必要条件。在这个行业里,几乎不可能慢慢走在正确的路上,同样需要考验的是:速度。

Hy3 preview 从预训练启动到模型发布,三个月完成。

而以行业实际节奏为参照,通常需要 6 个月以上。一个业界人士评价," 在三个月左右时间里一次性极致压缩,其实是极大的挑战。"

但所有人都知道,他们必须要完成这一项极限任务。

为此,他们做了一个决策:并行生产(而非传统的串行)。几条线同时拉起来。

开始正式训练的时间是 1 月 31 日。预训练开始的同时,后训练团队在小模型上做验证,全新的 RL 基础设施同步建设,到某个节点,业务链路同步适配。所有能并行的环节全部并行,严丝合缝咬合在一起。

中间穿过了春节——没有停工。卡在跑,人就跟着跑。有人凌晨三点起来让实验继续。" 但凡有一点 buffer,你都会想要节约出一点可能的试错空间。"

一个有意思的细节是,Agent 训练时,在新的 RL infra 上首次投产应用,就长跑成功。但真正让这个团队高兴的是,这验证了他们的"solid" 工作文化——如果每一步做得质量很高,就能带来一个好的结果。

熟悉行业的人知道这样的速度意味着什么,基本就是很难容忍重大的 BUG 或者回滚。这个过程就像经验老道的医生团队做一档高难度的手术——除了方法技巧,也得知道各种风险和意外,以及能快速应对。

而这个大规模的咬合过程,还伴随着一个组织的磨合的挑战,大量新人,来自不同公司,并带着各自的经验和方法论。

最终,在一种极限作战的状态中,这个团队都更深理解了彼此,比如姚顺雨常挂在嘴边的,做事要 "solid";预训练的同学常说," 预训练就是 debug"。

据了解,自去年 12 月底混元架构调整以来,整个组织在持续发生变化。其中一个举措是:正式取消管理层级头衔,试行负责人制。不叫总经理,不叫总监和组长——所有岗位名称简化为 " 某某方向负责人 "。管理角色跟着业务走,不是一个固定身份:你今天带这个方向,就有管理标签;明天方向调了,标签跟着摘掉。

这种扁平化,在日常协作带来了一些非常具体的结果。比如,开会时,没人需要 " 向上管理 " 了。

一位参与跨部门协作的员工描述了他的直观体感:" 不管你是什么角色,有问题会上直接提,当场拍掉。谁是责任人,马上就定。不需要层层汇报。"

这种扁平和做事导向的文化,肉眼可见地带来一种工作氛围的变化:" 大家不是拼体力、拼加班——而是变成了怎么聪明、高效地做事。"

甚至跨部门合作都更顺畅了。Hy3 preview 要上到产品线," 比如上元宝、CodeBuddy ……模型同学跟产品侧一拉群,当天就推进。大家的思路很明确——以事为导向。" 该内部人士说。

" 因为整个腾讯都在加速的状态中。因为我们新建团队的文化基调,就是要把这事搞成。"

三四个月很难尽善尽美。

"bench 表现挺好的,但它还没有到真实世界去被 ' 毒打 ' 过。"一位内部人士表达了她的担忧,但这也是混元先推出过程性版本的原因——更快更多获得真实世界反馈,才更有机会变得强大。

更重要的是,这个加速度是面向未来的。换句话说,只有迭代速度持续加快,混元在这个注定是长周期的 AI 竞赛中,才能得以持续改善。

一个既快又慢的新纪元

在 AI 竞赛中,有一个反直觉的规律:在任何一个时间截面上判断 " 谁赢了 ",几乎注定是错的。

2023 年初所有人说 Google 完了,三年后王者归来,如今又重新追赶。2024 年中 Meta 是开源之王,一年后翻车,再之后以全新面目重来。DeepSeek V3 以极低成本震惊世界,三个月后行业又向前走了一大步,直至这几天又带来了惊人的 " 性价比 "。领先和落后不断交替,没有谁能锁定赢面。

行业真正在奖励的,并非某一次发布的 " 最强 ",而是方向选择的正确性、持续迭代的能力、以及把模型能力转化为用户价值的效率

Google 用近三年证明了这一点。不仅是底座变强,更是 Gemini 和 Google 产品矩阵的深度整合;这一举措还在加码,今年首次设立了 " 首席 AI 架构师 " 一职,直接向皮查伊汇报,只干一件事——加速把 AI 模型整合进 Google 全产品线。Meta 的 Muse Spark 从一开始就嵌入 WhatsApp 和 Instagram,服务 32 亿用户。当底座能力日渐趋同,底座和场景的咬合深度就是长期胜负手。

Token 经济学在加速这个趋势。中国大模型 API 价格在过去两年里已经下降了 90% 以上。当推理的边际成本趋近于零,单纯卖 Token 的商业模式注定不可持续。真正的价值在于 Token 被用来做什么——用在哪个场景、解决什么问题,这需要模型、场景和工程系统的深度咬合,而不是 benchmark 上多 0.5%。

腾讯丰富的场景里,每天覆盖数以亿计的用户。这些场景产生的反馈密度和迭代驱动力,是纯做底座 API 的所团队不具备的。Hy3 preview 在元宝和 Workbuddy 等十余个腾讯核心业务场景的先行落地,以及 RL 与复杂真实场景的相互依存——都指向这个长周期的竞争逻辑。

一位内部人士给了一个耐人寻味的比喻:" 可以把它理解成一个清华毕业生。学完了,终于下山了。他行万里路的起点,就是要充分在各种场景里深度沉淀。"

不是出道即巅峰——是出道即起点

如果它是一颗新种子,如今似乎已经证明它能发芽。接下来的问题是——土壤里的养分能不能顺畅滋养它。

毕竟 AI 竞争,不再只是模型的单一竞争,更是模型能力、场景理解、工程能力、产品能力和上下文深度的乘数效应。真正的壁垒在别人不容易复制的场景积累和系统能力里。

所有人都在同时奔跑,真正的考验还在后面。

在面向未来漫长的旅程中,大模型仍在一种 " 各领风骚几个月 " 的阶段。就像 Google 迎头赶上,不久后又有 Claude 强劲崛起,在编码智能体的新战场上,定义了方向,OpenAI 紧随其后,布林不得不再次启动战时机制。Meta 的新状态保持多久,也不得而知。

没有永远的领先者,也没有永远的落后者。但确定的是,巨头一旦走在正确的道路上,加速度会比想象的更快。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 google ai 扎克伯格 计算机视觉
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论