【CNMO 科技消息】有研究人员近日公布了一种名为 HRM-Text 的新型语言模型训练方案,称其从零开始训练一个 10 亿参数基础模型,估算计算成本约为 1500 美元,训练时长为 1.9 天,使用 16 块 GPU 完成。研究人员表示,这一方案能够降低基础大模型预训练对高算力和海量互联网文本的依赖。

AI 模型
据 CNMO 科技了解,HRM-Text 没有采用常见的 Transformer 架构,而是基于分层循环模型 HRM 构建,将计算分为变化较慢的策略层和变化较快的执行层。与传统大模型通过 " 下一个词预测 " 学习原始文本不同,HRM-Text 仅使用 " 指令 - 回复 " 数据进行训练,训练目标也从逐词预测改为任务完成,即主要根据最终回答质量进行优化。研究团队称,这种方式更接近企业实际使用场景,因为用户通常是围绕具体任务提出问题并期待明确答复。

在数据规模上,HRM-Text 训练时使用了约 400 亿个标记,显著少于主流模型常见的更大规模训练语料。数据由通用指令、数学、符号逻辑、教材练习和改写知识等 " 指令 - 回复 " 样本组成。研究人员还在训练中移除了展示中间推理过程的相关标记,以促使模型更多依赖内部层级推理结构。

测试结果显示,这一 10 亿参数模型在多项基准上取得了与更大开源模型接近的表现,包括 MMLU 得分 60.7%、GSM8K 得分 84.5%、MATH 得分 56.2%。研究人员称,该模型训练时使用的标记数量比部分 Qwen、Gemma 和 Llama 模型少 100 倍至 900 倍,估算计算量低 96 倍至 432 倍。

为解决循环结构在语言训练中容易出现梯度爆炸或消失的问题,研究团队还引入了名为 MagicNorm 的归一化方法,并采用逐步增加推理深度的预热训练策略。研究人员认为,这表明基础模型预训练不一定只能由高资源机构完成,企业未来可以围绕自身业务数据和外部知识库,训练更紧凑的推理核心模型。
不过,研究团队也指出,HRM-Text 目前更接近概念验证,并非现成的通用聊天产品替代方案,在多轮对话、推理模式控制和工程适配方面仍需要进一步完善。
版权所有,未经许可不得转载


登录后才可以发布评论哦
打开小程序可以发布评论哦