文 | 字母 AI
刚刚,混元 Hy3 preview 语言模型发布并开源,腾讯迟迟未揭开面纱的新一代大语言模型,终于在这个 4 月补上了最关键的一次 " 作业 "。
作为混元 3.0 的预览版,这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
腾讯方面表示,这是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。
上个月,腾讯在 2025 年度业绩公告中首次公开提到 " 混元 3.0",将其与元宝、WorkBuddy、QClaw 并列列入公司 AI 投入已产生实际效用的项目。
显然,对于腾讯而言,Hy3 Preview 是一次重要的版本更新,也是腾讯今年 AI 布局里最核心的一块底板,它既要支撑元宝,也要为潜在的微信 Agent、企业工具和更大范围的腾讯生态提供底层能力。
腾讯首席 AI 科学家姚顺雨也在第一时间发声,他表示,Hy3 preview 是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。
过去一年,大模型领域竞争已经不再只是 benchmark 层面的比拼。字节、阿里、智谱、DeepSeek、月之暗面都在把 " 模型能力 " 在生产力场景中更进化。
今年各大厂商发布的通用模型中,不仅要能理解长上下文,还得按要求整理结构化信息、能处理代码和表格,把复杂任务拆成一套可执行的流程。
字母 AI 第一时间体验了这款模型,我们选择把混元 Hy3 preview 放进了一组更贴近日常生产力场景的测试里,尽量模拟普通用户和办公场景。采用了思考模式。
网页端对于 Agent 调用层面的测试空间有限,下文中的测试结果未必代表模型的全部能力。
但对于腾讯而言,有一个问题已经等待许久,并且需要混元 3.0 很快给出答案:这代混元,到底是不是腾讯一致期盼的那块 " 底座 "?
元宝终于迎来了 " 亲儿子 "?
相比起传说中的微信 Agent,眼下最需要混元 3.0 的产品,可能还是元宝。
姚顺雨去年底接手混元 LLM 团队与 AI Infra 之后,混元就不再只是一个 " 模型项目 ",而被放进更靠近公司级底座的位置。元宝作为最直接的 C 端承接者,自然会最先承受这次重整的结果。
元宝是腾讯在 C 端推出的原生 AI 产品。作为自家 C 端产品的标杆,理应落地全套的自有模型生态。但在 2025 年春节后,伴随着 DeepSeek R1 的 " 破圈 " 表现,腾讯选择在元宝中接入了 DeepSeek 模型,并将其能力整合进包括微信搜索与元宝在内的核心产品。
很长一段时间以来,腾讯方面在元宝页面上选择了让 DeepSeek 和混元并存,然而,这种策略某种程度上导致混元模型在 C 端缺乏存在感,间接影响元宝在流量层面无法和竞争对手匹配。
所以,元宝能不能拥有一个强大的自研基模,是混元 3.0 亟需填补的第一个空缺。
也是对姚顺雨团队的一个考验:重建混元团队后,能否先把腾讯最核心的 C 端 " 样板间 " 撑起来。先在元宝站稳,后续才谈得上把能力往更多入口复制。
我们针对元宝的用户场景给 Hy3 Preview 设置了一组测试,恰好都不是特别高深的 " 学术题 ",而是真实办公场景里的常见任务。
首先是一个典型的 " 老板需求 ":下周三要见重要客户,要求在周一中午前做出一份 " 客户会前包 ",要整合近两个月合作资料、投诉情况、回款进度、产品使用数据,并联动销售、客服、产品三方协同,最后还要顺手在群里发一条协调通知。
这个任务表面看只是信息整理,实际上同时考验四种能力:能不能先拆任务,再分角色,再搭目录,最后生成一段可直接采用的话术。

混元的表现堪称出色。它不是只给出一串大而化之的 " 建议 ",而是把这件事拆成了可以直接落地的结构:销售要交近两个月合同、订单和回款,客服要交投诉类型、频次和满意度,产品要交活跃度、功能使用率和追加销售建议;
会前包目录也被细化成客户概览、合作记录、投诉与风险、回款情况、产品使用、追加销售方案六个模块;最后那条工作群消息,甚至连每个部门的截止时间都补上了。
比以往更懂打工人,这是 Hy3 Preview 给我们留下的第一印象。
这是一个项目复盘场景:有人在项目复盘里写了一句 " 团队从年初开始就一直把零售当成重点方向之一 ",但给模型的背景材料里,其实清楚写着团队一开始主推教育,零售只是后面逐步试水,到 3 月 20 日才正式升为并行重点。
显然,材料里的矛盾,其实是在检验模型有没有 " 上下文校正 "、基于现有资料修复 Bug 的能力。

这里混元直接否定了那句错误的总结,然后把 1 月、2 月、3 月的决策变化重新排了时间线,再进一步解释为什么组织里会出现 " 事后改写历史 ":记忆偏差、确认偏误、叙事简化、责任规避。
事实上,今天的主流 LLM 在这些日常任务上的完成度都大差不差,主要的差异就在谁能更有效理解用户的使用场景和意图。
这件事看似细小,放在元宝身上却很重要。因为元宝如果想要在 C 端进一步做大做强,就必须持续挖掘日常场景的使用体验。
无论是做会议整理、客户资料、合同提炼,还是在 " 元宝派 " 这类多人交互场景里充当协作助手,用户都不会只给它一句问题,而是会给出一堆材料,或者一堆限制条件。
模型能不能在这些约束下稳定输出,决定了一款原生 C 端 AI 产品的用户体验和留存。
从这个角度看,一批新的产品思路也许在混元 3.0 的支持下可以加快落地。
" 龙虾 " 热潮下的 Agent 竞赛
今年年初以来,伴随着一只小小 " 龙虾 " 在众多用户的电脑上落地,AI 行业正在从 "Chatbot" 全面进化至 "Agent" 阶段。
如果说元宝更能体现混元 3.0 在 C 端的直接压力,那么传说中的微信 Agent、QClaw、WorkBuddy 这一队 Agent 产品线,考验的则是姚顺雨接手的混元,对模型底层统一能力的建设,是否契合 Agent 底座需要的形态。
一个模型是否适合做 Agent 底座,看的往往不是抽象智力,而是更琐碎、更真实的能力。智能体不仅能回答问题,还能理解任务目标、拆解步骤、调用工具并跨应用完成工作。
对此,我们专门进行了更偏向 Agent 和企业协作场景的测试。
第一类是考验理解用户意图和收集、整合信息的能力。
Prompt 并不复杂:请直接告诉我某家公司 2025 年 Q4 营收同比增长多少、毛利率多少、CEO 怎么解释增长原因。只是,Prompt 本身并没有给财报,也没有给电话会纪要,真正想测的是,模型会不会在没有证据时装懂。
这里豆包和元宝都没有进行编造,在真实性上全部都过关;但混元比豆包更进一步,它不仅说不能直接回答,还把优先查询资料列成了财报、CEO 电话会纪要、财务周报、投资者关系页面,并写出了先查知识库、再查共享盘原始文件、再用周报和对外口径交叉验证的路径。
最后,它甚至给出一段标准回复模板,连 " 预计今日 17:00 前给您准确数字及官方解释 " 这种职场化措辞都呈现出来了。
这种能力,放在微信 Agent 或 WorkBuddy 里其实特别关键。因为真正进入企业场景后,用户最怕的不是模型说 " 我不知道 ",而是频繁出现的 " 幻觉 "。
一个能老老实实交代信息缺口、还能顺手规划检索流程的模型,才更像企业敢接进工作流里的底座。
另一类是 " 任务推进能力 " 的考量。模型需要在在三件事里排优先级:上午 10 点上海客户会议、下午交季度复盘 PPT 初稿、晚上发团建时间收集通知,并要求它顺手把三段消息都写好。

这一项是在模拟微信 Agent 真正会遇到的请求,涵盖消息沟通、日程意识和多任务管理等场景。
在这道题上,Hy3 Preview 先按 " 时间刚性 " 和 " 错过是否可补救 " 排了顺序,再分别写出给客户、给老板、给团队群的三段消息,最后还额外提醒了一个容易被漏掉的风险:客户会议前的设备调试。
这个补充很有意思,因为它不是题面要求的内容,却很贴近日常执行。豆包也完成了排序和话术,但输出更像一个标准办公助手模板,通顺、合格、可用,但 " 会多想一步 " 的感觉稍弱。
代码题上的差异,也能说明一些问题。我们放进去的不是大仓库级别的重编码,而是更容易在日常工作中遇到的小任务:给一组销售记录,统计销量前两名地区,要求自动跳过缺失字段和非法值。

混元在这道题里给出的代码结构很扎实,字段校验、类型判断、累加逻辑、排序过程都比较清楚,测试样例也覆盖了正常数据和异常数据两类情况。
在这类办公与协同场景中,元宝确实开始表现出一种更强的 " 执行感 "。
而微信、企业微信、腾讯会议、腾讯文档,本来就是中国最天然的工作流入口。只要底层模型到了那个临界点,腾讯在 Agent 阶段的想象空间,会一下子比单纯做一个聊天机器人大得多。
至于微信 Agent 会不会直接依赖混元 3.0,从公开口径看,两者至少是被放在同一条产品线上推进的。
从行业视角看,微信 Agent 的紧迫性并不低,外部竞争一直在持续加码,让腾讯不得不加快这一步。
去年年底,字节已经把豆包手机助手推上中兴手机,走的是系统级手机助手路线,支持找内容、订票等任务;小米则在今年 3 月公开了 MiMo-V2-Pro,并把它明确定位为自主智能体的 " 大脑 ",同时宣布未来三年将在 AI 上投入至少 600 亿元人民币。
此前,腾讯 CEO 刘炽平在谈到微信 AI Agent 的同时,也提到混元 3.0 即将发布;而随着 OpenClaw 等生态先后接入微信,微信侧的智能体入口已经开始铺设,混元 3.0 更像是微信 Agent 需要补上的那颗 " 大脑 "。
姚顺雨的第一份答卷,也许不必过度关注
混元 3.0 另一个天然会被放大的意义在于,这是姚顺雨加入腾讯、并经历混元重整之后,混元大语言模型领域第一次真正意义上的大版本更新。
去年年底,腾讯宣布聘请前 OpenAI 研究员姚顺雨担任 "CEO/ 总裁办公室 " 首席 AI 科学家,负责大语言模型部和新成立的 AI Infra 部。
几乎与此同时,腾讯对内部 AI 研发体系做了一轮明显重构:把算力、数据和算法资源向 AI Infra 收拢,把 AI Lab 的核心力量进一步并入混元团队,试图结束过去相对分散的研发状态,让混元成为更统一的底层支点。

而在混元 3.0 预览版上,也能看出这种重构后的取向。腾讯方面披露的信息显示,Hy3 Preview 以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准,以及 BrowseComp、WideSearch 等主流搜索智能体基准中,都追近了几大主流模型。
前面的测试结果放在一起看,姚顺雨团队这份答卷至少有一个相对清晰的轮廓:混元在努力把模型向 " 复杂任务下更稳、更像工作助手 " 的方向进化。
这一点,跟姚顺雨年初在 AGI-NEXT 峰会上谈到的观察相对应。
他提过,最好的模型可以卖到 200 美元一个月,次一级是 50 美元、20 美元,而很多用户愿意为最好的模型支付溢价。
腾讯混元团队此前推出 CL-bench,也是在测类似问题:模型能不能从复杂上下文里学新规则,并正确执行任务。
因为无论是元宝、微信 Agent、WorkBuddy,还是更广义上的企业办公场景,未来都不会是把模型放在真空里考试,而是不断往里面塞资料、塞规则、塞流程,再看它能不能按要求干活。
从实际测试反馈看,混元 3.0 在这个方向上的进步是真实存在的。
在信息整理、上下文纠偏、拒答与检索规划、职场沟通生成、轻量代码执行这些场景里,已经比过去更像一个 " 办公助手 " 级的模型。对腾讯而言,这就已经不是一个小变化。
当然,这还远远谈不上格局逆转。外部强敌依然都在:字节的豆包靠产品入口和 Seed 旗下多款模型占据优势,阿里的千问和 ATH 事业群也在重组后接连推出新模型,智谱、月之暗面、DeepSeek 各自也都在生产力和 Agent 方向上抢位。
但混元 3.0 的意义本来也不在这里。对腾讯来说,真正关键的从来不是单独做出一个参数更大的模型,而是让这块模型底座,能够顺畅地接进微信、企业微信、腾讯会议、腾讯文档、云和广告这些高频场景里,最终把庞大的入口优势转成数据、训练和商业化的闭环优势。
换句话说,混元 3.0 当然是一份答卷,但它未必是姚顺雨的底牌。
" 目前看来,生产力 Agent 才刚刚开始。即使今天开始,世界上所有的模型训练全部停止,但是把这些模型部署到企业中,已经能带来 10 倍甚至 100 倍的收益。"
姚顺雨几个月前在 AGI-NEXT 上的这番发言,也许可以作为我们看待混元 3.0 的一个视角。我们很可能还身处 Agent 进化的早期阶段,对于腾讯而言,把混元 3.0 视作一个新起点,抑或是一个既有节点,其实并不是问题的关键。
混元 3.0 只是一个结果展示。腾讯和混元团队更该回答的,是过去一年风云变幻的业务调整之后,是否已经找对方向。


