IT之家 前天
解锁任意模态 AI 模型训练,字节跳动 Seed 开源 VeOmni 框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 8 月 14 日消息,字节跳动 Seed 团队今日发布并开源了全模态 PyTorch 原生训练框架 —— VeOmni

近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的 " 全模态 "(Omni-Modal)理解生成方向演进。但目前训练一个能 " 看 "、能 " 听 "、能 " 说 " 的全能模型,依然面临着系统性的工程挑战。

字节跳动介绍称,VeOmni 采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天

此前,使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉 - 语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩 90% 以上

实验结果表明,基于 VeOmni 框架,一个 300 亿参数的全模态 MoE 模型(支持文本、语音、图片、视频的理解和生成),在 128 张卡上训练吞吐量可超过 2800 tokens / sec / GPU,并能轻松扩展至 160K 超长上下文序列

目前,VeOmni 的相关论文和代码仓库均已对外公开,GitHub Star 数超过 500。IT 之家附开源地址:

arXiv:https://arxiv.org/pdf/2508.02317

GitHub:https://github.com/ByteDance-Seed/VeOmni

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

字节跳动 开源 it之家 吞吐量 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论