IT之家 03-11
字节跳动豆包大模型团队开源MoE架构优化技术,训练成本节省40%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 3 月 10 日消息,字节跳动豆包大模型团队官宣开源一项针对 MoE(混合专家模型)架构的关键优化技术,可将大模型训练效率提升 1.7 倍,成本节省 40%。据悉,该技术叫做 COMET,已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。

IT 之家注意到,早前豆包团队发布了新一代稀疏架构 UltraMem,将模型推理成本砍掉 83%,此次,又开源了 COMET,向模型训练成本出手。

目前,COMET 核心代码已开源,并计划兼容 Triton 等编译生态。

论文链接:https://arxiv.org/pdf/2502.19811

开源地址:https://github.com/bytedance/flux

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 字节跳动 it之家 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论