大伟哥聊大模型:3年投入1000亿,如果没成就算放一个大烟花

5 月 15 日，米哈游在北京举办了一场 AI 基础大模型相关的技术分享会与顶尖校招生招募活动，米哈游创始人刘伟在此次招聘会上分享了部分他对 AI 业务的看法和愿景。

他提到，米哈游在 AI 方面的投入规模 "3 年最多 1000 亿 "，如果最终没有成功 " 也认了，算是做一个大的烟花 "。大伟哥表示：" 任何团队没有坚定的去搞算力、scale 这件事情，是绝不可能把模型做到顶级的。"

由于该分享会为内部分享性质，目前仅有部分与会者的观点总结流出，但从中我们也或多或少能看出米哈游在 AI 时代的布局逻辑和坚定决心。

结合刘伟的分享来看，米哈游已经确定了在 AI 领域的发展目标与重心，基于自研基础大模型，让 AI 拥有自我进化的能力，从而 " 创造一个 AI 独立自主的文明 "。

值得一提的是，在此前不久上海交大的演讲中，刘伟在聊到 AI 话题时，同样提到了 3 年这个关键节点以及自己对未来 AI 时代游戏的看法。

他认为，AI 对游戏体验的改变，最直接的方向是 " 完全个性化 "。今天的大多游戏，虽然操作不同，但玩家体验基本是一样的，这是因为游戏的生产成本太高了。但在 AI 介入后，游戏便能实时生成你想要的内容，提供个性定制化的游戏体验。

大伟哥将其称为 " 千人千面 " 的游戏体验。他还形象的用今天用户打开 B 站、小红书，看到的内容因人而异的案例来表明未来的游戏体验。在他看来，三年之内，就会有这样的游戏出现。包括他们自己，也正在这个方向上努力探索。

今年是 2026 年，三年后便是 2029 年，也是距离实现米哈游 "2030 年打造出 10 亿人的元宇宙虚拟世界 " 宏大目标的最后一年。无论结果如何，米哈游 "1000 亿豪赌 " 的魄力，即使最后真的变成了大烟花，其附带的产物也必将让米哈游在虚拟世界的目标中迈进一大步。

以下是米哈游创始人刘伟在北京基础大模型招聘分享会上的部分内容，略经编辑：

在当天的宣讲中，大伟哥表示，公司最多会给大模型团队 1000 个亿。他表示，如果没做出来，我们团队也认了，算是做一个大的烟花。大伟哥认为，要想把大模型做到顶尖，团队必须坚定地搞算力，搞 Scaling。

2020 年 OpenAI 在论文中首次提出 Scaling Laws（规模化法则 / 缩放定律），即模型性能随参数量、训练数据、算力的增加，可预测地平滑提升，但边际收益递减。有在活动现场的参与者表示，Scaling Laws 是绝对的信仰。大模型不是靠几张卡小修小补能跑通的，没有重金 AIl-in 万卡集群的决心，连上牌桌的资格都没有。

具体到大模型团队内部，大伟哥在宣讲中还强调：" 做大模型这件事，创始人必须同时是技术负责人，在一线做所有的事情，只有这种方式才有可能做成。"

这句话的核心不只是在强调 " 创始人本身要懂技术 "，更是因为在当前的大模型时代，最高决策者即创始人本身不能离开一线，因为迭代的速度太快了。有活动参与者表示：如果创始人不懂技术方面的细节，只通过汇报来了解项目进展，行业发展，那么很容易在各个问题上判断失误，导致巨大的浪费，并最终被淘汰出局。

一个真正能打的团队，最高决策者必须在代码和训练的一线，这决定了公司的技术敏锐度和天花板。如今所有出名的大模型创始人几乎都是技术性创始人，而米哈游的蔡浩宇本身就是技术出身，也是该想法最坚定的支持者。在此前的交大演讲中，大伟哥更是透露蔡浩宇在 AI 大模型时代后，抛弃了米哈游的一切，从零开始学习大模型领域的相关内容。

在如何与世界范围内的大模型公司竞争的事情上，大伟哥则提到，团队不能简单迷信所谓 " 大牛 " 或 " 达人 "，即 " 我们不要招一个达人，大牛有自己很强的 ego（自我）、要有自己的 scope（负责内容）。"

这并不是在否定大牛的能力，而是因为当前的大模型研发已经迈入了新的阶段，对组织形态也提出了新的要求。有活动参与者甚至认为：过去的传统 AI 经验在 LLM 时代可能是一种负资产。大厂高管往往执着于 " 抢地盘 " 和 " 守边界 "。过去很多技术公司中，找到一个某领域的技术大牛，往往只能解决一个局部问题。

但在今天，从数据、模型到 Infra 都是高度耦合的，需要的是扁平化的团队，需要的是真正拥有全局视角的顶尖极客，而不是只想做局部优化的 Manager。特别是在经历了 PJSH 等项目后，纯粹想靠大牛汇聚的道路难以走通，如今的大伟哥更看中的是一个年轻、目标一致、愿意打破边界的技术团队。他认为：" 只有一个年轻的志同道合的团队，所有人都一样，才有可能真正实现弯道超车。"

在当天的分享中，大伟哥还明确提到，模型能力的边界其实越来越被基础设施重新定义。有参会分享者认为，Infra（基础设施）早就不是单纯的 " 底层修管道 "。在万卡规模下，通信、计算、数据的协同设计，直接决定了算法能跑多大的参数、多长的 Context。系统工程的审美，就是知道在什么时候追求正确性，什么时候追求极致性能。

针对研发流程，大伟哥指出 AI 不只是说服务于用户，也应该进入它自己的一个研发的循环 ... AI for AI，Model with Model。也就是说，得让大模型自己去分析慢节点、写复杂的 GPUkernel、做轨迹分析和自动化 Bug 定位。哪个团队能最先构建完整的 " 自动调优沙盒 "，谁就能在迭代速度上实现降维打击。

在研发大模型的较量中，疯狂招人并不会实现真正的提效。

通常来讲，要想研发出性能优异的大模型，数据、模型结构、算力、训练与调优、工程效率等都相当关键。大伟哥在宣讲会上提到，数据在（大模型）里面需要占 0~90 分的量级，模型结构负责 90~95 分的突破。要言之，数据好坏，决定了大模型的下限，架构设计决定了大模型的天花板。

有参会者认为，当前很多公司，沉迷于魔改 MoE 或各种花哨的结构（比如 Transformer），但基础模型的命脉永远是数据清洗、去重和配比。在小规模下看似有效的模型 Trick，在极限 Scale 下往往会失效。但优质的数据分布，永远能带来确定的收益。

在谈到大规模训练本质时，大伟哥表示，需要把小概率事件变成一个确定性的工程。要不然，一个简单的 Loss Spike（损失值突然异常飙升）会导致整个模型去疯。

换言之，在小规模训练时，可以容忍一些细微的 Bug。不过在超大规模预训练（万亿 token、千卡集群、超大参数量）下，一定会从「极小概率偶发」变成「必然发生、全局崩盘」。大规模训练的工程核心，不是堆算力堆参数，而是把所有小概率风险提前干掉，变成确定性可控工程。

在落地 AI 智能体，通向 AGI 的道路上，大伟哥也提出了一些他们对模型训练、强化学习、构建多模态能力的思考。他表示，模型的智能上限不在于喂多少的数据和文本，核心在于主动的上下文管理，以及给予模型充分的读取和执行权限，比如执行 Pull Request、修改环境等，两者结合 " 相乘 " 才能打造出真正的 AI Agent。

同时，在强化学习方面，大伟哥认为不能只是简单地采用以前 RLHF（人类反馈强化学习）的方式，要让模型从实践和决策结果上真实 " 感受 " 到奖励与惩罚，不断自我迭代和调优。

作为一家游戏公司，纯粹的文字对话智能体并非米哈游的 " 终极追求 "。我们也能看出公司一直致力于多模态、新交互的探索。大伟哥也强调，要在模型预训练的最早期让音频的原始特征直接融进模型里，让模型像人类一样，" 听 " 到的不只是文字内容，而是完整的声音信号，从而让大模型拥有真实的物理感知能力。

总体来看，大伟哥所分享的 AI 大模型训练方式、思路与目标，核心就是在于让 AI 能够像一个真正的人一样与玩家、开发者进行交互，让 AI 能够在自己与人类的实践交互中学会判断对与错、好与坏。

宙世代

一起剪

相关标签