全天候科技 昨天
腾讯混元开源Hunyuan-A13B:1张AI卡搞定
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者:周源 / 华尔街见闻

6 月 27 日,腾讯混元宣布开源首个混合推理 MoE(专家混合模型:Mixture of Experts)模型 Hunyuan-A13B,同时发布 ArtifactsBench 和 C3 - Bench 两个新数据集,为大模型领域的发展提供了新的技术资源和评估工具。

Hunyuan-A13B 模型总参数为 800 亿(80B),激活参数 130 亿(13B),这样的参数配置在推理效率上有一定优势。

对比同等架构的开源模型,以常见的 Transformer 架构模型为例,Hunyuan-A13B 在处理相同规模任务时,推理速度提升明显,计算资源消耗相对较低。

作为首个开源的 13B 级别 MoE 混合推理模型,在多个业内权威数据测试中,该模型展现出一定的通用能力,特别是在 Agent 工具调用和长文处理方面表现出特色,这使其在实际应用场景中具备差异化竞争力。

腾讯混元通过构建多 Agent 数据合成框架,提升 Hunyuan-A13B 的工具调用能力。

该框架整合了 MCP(大模型上下文协议)、沙箱、大语言模型模拟等多种环境,并运用强化学习机制,让 Agent 在不同环境中进行学习。

在旅游场景中,用户输入 " 规划从成都出发的川西游行程 " 指令,模型能调用地图搜索工具获取路线信息,调用酒店预订平台筛选合适住宿,调用天气查询工具了解行程期间天气,最终输出一份包含每日行程安排、交通方式、住宿推荐、景点介绍的详细行程规划。

在数据分析任务中,面对某电商平台的销售数据,模型可调用 Python 编码工具,做数据清洗、统计分析,并生成包含图表的 excel 销售分析报告,满足用户在不同场景下的复杂任务需求。

与部分仅具备单一工具调用能力的模型相比,Hunyuan-A13B 的多工具协同调用能力,能更好地解决实际问题。

面对大模型长文处理的难题,Hunyua-A13B 支持 256K 原生上下文窗口。

在学术领域,处理上万字的学术论文时,模型可以准确提炼论文核心观点、梳理研究方法和实验结果;在法律行业,分析复杂的法律条文及案例卷宗,能快速总结法律要点、关联相关法条;在商业领域,解读长篇商业报告,可精准提取关键数据和市场趋势信息。

在实际测试中,与一些上下文窗口较小、处理长文容易出现信息遗漏的模型相比,Hunyuan-A13B 在一定程度上缓解了长文推理中上下文丢失和信息依赖的问题,为相关领域的应用提供了更可靠的技术支持。

Hunyuan-A13B 的开源对开发者较为友好。

个人开发者在一定条件下,使用 1 张中低端 GPU 卡,如 NVIDIA GeForce GTX 系列显卡,即可完成部署。

目前,模型已接入开源主流推理框架生态,支持多种量化格式,包括 INT4、INT8 等。在相同输入输出规模下,其整体吞吐能力达到前沿开源模型的 2 倍。

开发者可以通过 Github 和 Huggingface 等开源社区获取模型,腾讯云官网也上线了模型 API,方便快速接入部署。

若 Hunyuan-A13B 模型,结合自身业务需求,在短时间内开发出了智能文档处理应用,极大降低了开发者使用模型进行二次开发和应用创新的门槛。

在 Hunyuan-A13B 的研发过程中,腾讯混元团队在预训练和后训练环节采用了新的技术方法。

预训练阶段,使用 20 万亿高质量网络词元语料库,覆盖科学、技术、文化等多个领域,提升模型的通用知识储备。

同时,团队构建适用于 MoE 架构的 Scaling Law(规模化法则)联合公式,完善相关理论体系,为模型架构设计提供量化指导,这一成果为后续 MoE 模型的研发提供了重要参考。

后训练阶段,采用多阶段训练方式,针对不同能力提升需求,运用不同训练策略和数据;在推理能力训练阶段,通过大量逻辑推理案例数据,提升模型的逻辑分析能力;在创作能力训练阶段,使用文学创作、文案撰写等数据,增强模型的文本创作水平,最终平衡提升模型的推理、创作、理解等能力。

腾讯混元同步开源的 ArtifactsBench 和 C3 - Bench 两个数据集,填补了行业评估标准的部分空白。

ArtifactsBench 包含 1825 个任务,覆盖网页开发、数据可视化、游戏开发等九大领域,按难度分级,用于评估模型的代码生成能力。

通过该数据集,开发者可以更全面、准确地了解模型在代码编写方面的优势与不足。

C3-Bench 针对 Agent 场景模型,设计 1024 条测试数据,聚焦规划工具关系、处理隐藏信息、动态路径决策等挑战,帮助发现模型在该场景下的能力短板,为模型优化提供参考。

这两个数据集的发布,为行业提供了更专业、更具针对性的评估工具,有助于推动大模型评估体系的完善。

目前,Hunyuan-A13B 已在腾讯内部 400 多个业务中应用,日均请求量达 1.3 亿次,在实际业务中得到一定规模的使用。

比如在腾讯的智能客服系统中,该模型提升了客服回答的准确性和效率;在内容创作辅助工具里,帮助创作者生成更优质的文案。

未来,腾讯混元计划推出从 0.5B(5 亿)到 32B(320 亿)的 dense 模型,以及激活 13B(130 亿)的 MoE 模型,适配企业和终端设备的不同需求。

同时,还将持续开源图像、视频、3D 等多模态基础模型及插件模型,丰富大模型生态,为行业发展注入更多活力。

腾讯混元此次开源 Hunyuan-A13B 模型及相关数据集,为开发者提供了新的模型资源和评估工具,有助于推动大模型技术的创新和应用。

开源数据集的发布,也为行业建立更完善的评估标准提供了支持。在腾讯研发过程中的技术方法,为其他团队开展相关研究提供了可参考的经验,有望促进大模型领域技术的共同发展。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 腾讯 成都 python 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论