字母AI 2小时前
姚顺雨交出首张答卷,腾讯AI有了一个新底座
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

刚刚,混元 Hy3 preview 语言模型发布并开源,腾讯迟迟未揭开面纱的新一代大语言模型,终于在这个 4 月补上了最关键的一次 " 作业 "。

作为混元 3.0 的预览版,这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。

腾讯方面表示,这是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。

上个月,腾讯在 2025 年度业绩公告中首次公开提到 " 混元 3.0",将其与元宝、WorkBuddy、QClaw 并列列入公司 AI 投入已产生实际效用的项目。

显然,对于腾讯而言,Hy3 Preview 是一次重要的版本更新,也是腾讯今年 AI 布局里最核心的一块底板,它既要支撑元宝,也要为潜在的微信 Agent、企业工具和更大范围的腾讯生态提供底层能力。

腾讯首席 AI 科学家姚顺雨也在第一时间发声,他表示,Hy3 preview 是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。

过去一年,大模型领域竞争已经不再只是 benchmark 层面的比拼。字节、阿里、智谱、DeepSeek、月之暗面都在把 " 模型能力 " 在生产力场景中更进化。

今年各大厂商发布的通用模型中,不仅要能理解长上下文,还得按要求整理结构化信息、能处理代码和表格,把复杂任务拆成一套可执行的流程。

字母 AI 第一时间体验了这款模型,我们选择把混元 Hy3 preview 放进了一组更贴近日常生产力场景的测试里,尽量模拟普通用户和办公场景。采用了思考模式。

网页端对于 Agent 调用层面的测试空间有限,下文中的测试结果未必代表模型的全部能力。

但对于腾讯而言,有一个问题已经等待许久,并且需要混元 3.0 很快给出答案:这代混元,到底是不是腾讯一致期盼的那块 " 底座 "?

01 元宝终于迎来了 " 亲儿子 "?

相比起传说中的微信 Agent,眼下最需要混元 3.0 的产品,可能还是元宝。

姚顺雨去年底接手混元 LLM 团队与 AI Infra 之后,混元就不再只是一个 " 模型项目 ",而被放进更靠近公司级底座的位置。元宝作为最直接的 C 端承接者,自然会最先承受这次重整的结果。

元宝是腾讯在 C 端推出的原生 AI 产品。作为自家 C 端产品的标杆,理应落地全套的自有模型生态。但在 2025 年春节后,伴随着 DeepSeek R1 的 " 破圈 " 表现,腾讯选择在元宝中接入了 DeepSeek 模型,并将其能力整合进包括微信搜索与元宝在内的核心产品。

很长一段时间以来,腾讯方面在元宝页面上选择了让 DeepSeek 和混元并存,然而,这种策略某种程度上导致混元模型在 C 端缺乏存在感,间接影响元宝在流量层面无法和竞争对手匹配。

所以,元宝能不能拥有一个强大的自研基模,是混元 3.0 亟需填补的第一个空缺。

也是对姚顺雨团队的一个考验:重建混元团队后,能否先把腾讯最核心的 C 端 " 样板间 " 撑起来。先在元宝站稳,后续才谈得上把能力往更多入口复制。

我们针对元宝的用户场景给 Hy3 Preview 设置了一组测试,恰好都不是特别高深的 " 学术题 ",而是真实办公场景里的常见任务。

首先是一个典型的 " 老板需求 ":下周三要见重要客户,要求在周一中午前做出一份 " 客户会前包 ",要整合近两个月合作资料、投诉情况、回款进度、产品使用数据,并联动销售、客服、产品三方协同,最后还要顺手在群里发一条协调通知。

这个任务表面看只是信息整理,实际上同时考验四种能力:能不能先拆任务,再分角色,再搭目录,最后生成一段可直接采用的话术。

混元的表现堪称出色。它不是只给出一串大而化之的 " 建议 ",而是把这件事拆成了可以直接落地的结构:销售要交近两个月合同、订单和回款,客服要交投诉类型、频次和满意度,产品要交活跃度、功能使用率和追加销售建议;

会前包目录也被细化成客户概览、合作记录、投诉与风险、回款情况、产品使用、追加销售方案六个模块;最后那条工作群消息,甚至连每个部门的截止时间都补上了。

比以往更懂打工人,这是 Hy3 Preview 给我们留下的第一印象。

这是一个项目复盘场景:有人在项目复盘里写了一句 " 团队从年初开始就一直把零售当成重点方向之一 ",但给模型的背景材料里,其实清楚写着团队一开始主推教育,零售只是后面逐步试水,到 3 月 20 日才正式升为并行重点。

显然,材料里的矛盾,其实是在检验模型有没有 " 上下文校正 "、基于现有资料修复 Bug 的能力。

这里混元直接否定了那句错误的总结,然后把 1 月、2 月、3 月的决策变化重新排了时间线,再进一步解释为什么组织里会出现 " 事后改写历史 ":记忆偏差、确认偏误、叙事简化、责任规避。

事实上,今天的主流 LLM 在这些日常任务上的完成度都大差不差,主要的差异就在谁能更有效理解用户的使用场景和意图。

这件事看似细小,放在元宝身上却很重要。因为元宝如果想要在 C 端进一步做大做强,就必须持续挖掘日常场景的使用体验。

无论是做会议整理、客户资料、合同提炼,还是在 " 元宝派 " 这类多人交互场景里充当协作助手,用户都不会只给它一句问题,而是会给出一堆材料,或者一堆限制条件。

模型能不能在这些约束下稳定输出,决定了一款原生 C 端 AI 产品的用户体验和留存。

从这个角度看,一批新的产品思路也许在混元 3.0 的支持下可以加快落地。

02 " 龙虾 " 热潮下的 Agent 竞赛

今年年初以来,伴随着一只小小 " 龙虾 " 在众多用户的电脑上落地,AI 行业正在从 "Chatbot" 全面进化至 "Agent" 阶段。

如果说元宝更能体现混元 3.0 在 C 端的直接压力,那么传说中的微信 Agent、QClaw、WorkBuddy 这一队 Agent 产品线,考验的则是姚顺雨接手的混元,对模型底层统一能力的建设,是否契合 Agent 底座需要的形态。

一个模型是否适合做 Agent 底座,看的往往不是抽象智力,而是更琐碎、更真实的能力。智能体不仅能回答问题,还能理解任务目标、拆解步骤、调用工具并跨应用完成工作。

对此,我们专门进行了更偏向 Agent 和企业协作场景的测试。

第一类是考验理解用户意图和收集、整合信息的能力。

Prompt 并不复杂:请直接告诉我某家公司 2025 年 Q4 营收同比增长多少、毛利率多少、CEO 怎么解释增长原因。只是,Prompt 本身并没有给财报,也没有给电话会纪要,真正想测的是,模型会不会在没有证据时装懂。

这里豆包和元宝都没有进行编造,在真实性上全部都过关;但混元比豆包更进一步,它不仅说不能直接回答,还把优先查询资料列成了财报、CEO 电话会纪要、财务周报、投资者关系页面,并写出了先查知识库、再查共享盘原始文件、再用周报和对外口径交叉验证的路径。

最后,它甚至给出一段标准回复模板,连 " 预计今日 17:00 前给您准确数字及官方解释 " 这种职场化措辞都呈现出来了。

这种能力,放在微信 Agent 或 WorkBuddy 里其实特别关键。因为真正进入企业场景后,用户最怕的不是模型说 " 我不知道 ",而是频繁出现的 " 幻觉 "。

一个能老老实实交代信息缺口、还能顺手规划检索流程的模型,才更像企业敢接入工作流里的底座。

另一类是 " 任务推进能力 " 的考量。模型需要在三件事里排优先级:上午 10 点上海客户会议、下午交季度复盘 PPT 初稿、晚上发团建时间收集通知,并要求它顺手把三段消息都写好。

这一项是在模拟微信 Agent 真正会遇到的请求,涵盖消息沟通、日程意识和多任务管理等场景。

在这道题上,Hy3 Preview 先按 " 时间刚性 " 和 " 错过是否可补救 " 排了顺序,再分别写出给客户、给老板、给团队群的三段消息,最后还额外提醒了一个容易被漏掉的风险:客户会议前的设备调试。

这个补充很有意思,因为它不是题面要求的内容,却很贴近日常执行。豆包也完成了排序和话术,但输出更像一个标准办公助手模板,通顺、合格、可用,但 " 会多想一步 " 的感觉稍弱。

代码题上的差异,也能说明一些问题。我们放进去的不是大仓库级别的重编码,而是更容易在日常工作中遇到的小任务:给一组销售记录,统计销量前两名地区,要求自动跳过缺失字段和非法值。

混元在这道题里给出的代码结构很扎实,字段校验、类型判断、累加逻辑、排序过程都比较清楚,测试样例也覆盖了正常数据和异常数据两类情况。

在这类办公与协同场景中,元宝确实开始表现出一种更强的 " 执行感 "。

而微信、企业微信、腾讯会议、腾讯文档,本来就是中国最天然的工作流入口。只要底层模型到了那个临界点,腾讯在 Agent 阶段的想象空间,会一下子比单纯做一个聊天机器人大得多。

至于微信 Agent 会不会直接依赖混元 3.0,从公开口径看,两者至少是被放在同一条产品线上推进的。

从行业视角看,微信 Agent 的紧迫性并不低,外部竞争一直在持续加码,让腾讯不得不加快这一步。

去年年底,字节已经把豆包手机助手推上中兴手机,走的是系统级手机助手路线,支持找内容、订票等任务;小米则在今年 3 月公开了 MiMo-V2-Pro,并把它明确定位为自主智能体的 " 大脑 ",同时宣布未来三年将在 AI 上投入至少 600 亿元人民币。

此前,腾讯 CEO 刘炽平在谈到微信 AI Agent 的同时,也提到混元 3.0 即将发布;而随着 OpenClaw 等生态先后接入微信,微信侧的智能体入口已经开始铺设,混元 3.0 更像是微信 Agent 需要补上的那颗 " 大脑 "。

03 姚顺雨的第一份答卷,也许不必过度关注

混元 3.0 另一个天然会被放大的意义在于,这是姚顺雨加入腾讯、并经历混元重整之后,混元大语言模型领域第一次真正意义上的大版本更新。

去年年底,腾讯宣布聘请前 OpenAI 研究员姚顺雨担任 "CEO/ 总裁办公室 " 首席 AI 科学家,负责大语言模型部和新成立的 AI Infra 部。

几乎与此同时,腾讯对内部 AI 研发体系做了一轮明显重构:把算力、数据和算法资源向 AI Infra 收拢,把 AI Lab 的核心力量进一步并入混元团队,试图结束过去相对分散的研发状态,让混元成为更统一的底层支点。

而在混元 3.0 预览版上,也能看出这种重构后的取向。腾讯方面披露的信息显示,Hy3 Preview 以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准,以及 BrowseComp、WideSearch 等主流搜索智能体基准中,都追近了几大主流模型。

前面的测试结果放在一起看,姚顺雨团队这份答卷至少有一个相对清晰的轮廓:混元在努力把模型向 " 复杂任务下更稳、更像工作助手 " 的方向进化。

这一点,跟姚顺雨年初在 AGI-NEXT 峰会上谈到的观察相对应。

他提过,最好的模型可以卖到 200 美元一个月,次一级是 50 美元、20 美元,而很多用户愿意为最好的模型支付溢价。

腾讯混元团队此前推出 CL-bench,也是在测类似问题:模型能不能从复杂上下文里学新规则,并正确执行任务。

因为无论是元宝、微信 Agent、WorkBuddy,还是更广义上的企业办公场景,未来都不会是把模型放在真空里考试,而是不断往里面塞资料、塞规则、塞流程,再看它能不能按要求干活。

从实际测试反馈看,混元 3.0 在这个方向上的进步是真实存在的。

在信息整理、上下文纠偏、拒答与检索规划、职场沟通生成、轻量代码执行这些场景里,已经比过去更像一个 " 办公助手 " 级的模型。对腾讯而言,这就已经不是一个小变化。

当然,这还远远谈不上格局逆转。外部强敌依然都在:字节的豆包靠产品入口和 Seed 旗下多款模型占据优势,阿里的千问和 ATH 事业群也在重组后接连推出新模型,智谱、月之暗面、DeepSeek 各自也都在生产力和 Agent 方向上抢位。

但混元 3.0 的意义本来也不在这里。对腾讯来说,真正关键的从来不是单独做出一个参数更大的模型,而是让这块模型底座,能够顺畅地接入微信、企业微信、腾讯会议、腾讯文档、云和广告这些高频场景里,最终把庞大的入口优势转成数据、训练和商业化的闭环优势。

换句话说,混元 3.0 当然是一份答卷,但它未必是姚顺雨的底牌。

" 目前看来,生产力 Agent 才刚刚开始。即使今天开始,世界上所有的模型训练全部停止,但是把这些模型部署到企业中,已经能带来 10 倍甚至 100 倍的收益。"

姚顺雨几个月前在 AGI-NEXT 上的这番发言,也许可以作为我们看待混元 3.0 的一个视角。我们很可能还身处 Agent 进化的早期阶段,对于腾讯而言,把混元 3.0 视作一个新起点,抑或是一个既有节点,其实并不是问题的关键。

混元 3.0 只是一个结果展示。腾讯和混元团队更该回答的,是过去一年风云变幻的业务调整之后,是否已经找对方向。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 ai 开源 微信 混元大模型
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论