李开复回应放弃预训练：训一次大模型三四百万美元，头部公司都付得起

文｜周鑫雨

编辑｜苏建勋

" 零一万物绝不放弃预训练。"

2024 年 10 月 16 日，AI 独角兽零一万物创始人兼 CEO 李开复，公开立了军令状。也在同一天，零一万物发布了最新的 MoE（混合专家）架构的旗舰大模型：Yi-Lightning。

这也是时隔 5 个月后，零一万物再次更新模型的新动态。

李开复表示，Yi-Lightning 的训练只用了 2000 张 GPU，训练周期仅一个半月，成本只有 300 多万美元，是埃隆 · 马斯克的 xAI 成本的 1%、2%。

训练成本虽然低，但 Yi-Lightning 的性能并没有打折扣。在加州大学伯克利分校 LMSYS 团队的 Chatbot Arena（聊天机器人竞技场）总榜单上，Yi-Lightning 的性能与 xAI 的 Grok-2-08-13 模型并列第 6，并且超越了 OpenAI 的 GPT-4o-2024-05-13。

LMSYS 团队的 Chatbot Arena（聊天机器人竞技场）大语言模型综合能力总榜单。图源：零一万物

值得注意的是，在中文能力上，Yi-Lightning 与 OpenAI 的最新模型 o1-mini 版本并列取得了第二；在数学能力上，Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3，仅次于在数学、逻辑推理见长的 o1。

在定价上，Yi-Lightning 也创了零一万物模型的最低定价：0.99 元 / 百万 Token。

零一万物模型定价。图源：零一万物官网

当然，榜单排名并不意味着模型在任务场景下的能力。在发布会上，零一万物着重在实用性上，让 Yi-Lightining 秀了一把肌肉。

比如，Yi-Lightining 相比 2024 年 5 月发布的 Yi-Large，首包时间（从接收到任务请求到系统开始输出响应结果之间的时间）缩短了一半，最高生成速度提升了近四倍。

具体到翻译场景，Yi-Lightining 比豆包、DeepSeek、通义千问最新旗舰模型的翻译速度更快，且翻译结果更加信达雅。

四个模型在相同翻译任务上的表现。图源：零一万物

发布会上，李开复也揭秘了 Yi-Lightning 的训练策略：

独特的混合注意力机制（Hybrid Attention）：在处理长序列数据的过程中，能够提高性能的同时，还能降低推理成本；

动态 Top-P 路由机制：根据任务难度自动选择最合适的专家网络组合；

多阶段训练（Multi-stage Training）：让模型在不同阶段吸收不同的知识，方便 mixing 团队进行数据配比的调试工作，并能保证不同阶段的训练速度和稳定性。

在 2024 年 5 月份的发布会上，零一万物在国内发布了 C 端的生产力产品 " 万知 "。时隔五个月，零一万物的 B 端商业化版图也有了新的进展——聚焦零售和电商等场景的 AI 2.0 数字人。

AI 2.0 数字人的背后，是电商话术大模型、角色大模型、直播声音大模型的多模态协同训练。目前，AI 2.0 数字人还接入了 Yi-Lightning。用户只需要输入出售的商品、声音的性别和语调，就能生成相应的数字人。

零一万物 AI 2.0 数字人接入 Yi-Lightning 前后对比。图源：零一万物

如今，大模型发展也来到了技术探索的深水区。即便立下了 " 绝不放弃预训练 " 的军令状，李开复也承认：" 但不是每家公司都可以做这件事情，做这件事情的成本也比较高，以后有可能会越来越少的大模型公司训练做预训练。"

不过，对如今六家大模型独角兽，李开复依然抱有乐观的态度：

" 据我所知，这六家公司融资额度都是够的，我们做预训练的 production run，训练一次三四百万美金，这个钱也是头部公司都付得起，我觉得中国的六家大模型公司只要有够好的人才，想做预训练的决心，融资额跟芯片都不会是问题的。"

欢迎交流！

宙世代

逗玩.AI

相关标签