36 氪获悉,7 月 11 日晚,国内大模型独角兽月之暗面正式发布并开源了其最新一代 MoE 架构基础模型 Kimi K2,总参数量达到 1 万亿(1T),Kimi 内部则将 K2 研发群戏称为 " 接生群 "。多位参与 " 接生 " 的 Kimi 研发人员随后在知乎展开 " 亲自答 ",从多个角度深入讲述了其背后研发历程。作为月之暗面 Infra 侧推理方面研发人员,知乎答主刘少伟称 K2 模型是在 DeepSeek V3 结构的框架之下,如何选择合适的参数,使得模型在训练、推理成本与 v3 相当的前提下,获得明显更低的 loss。
登录后才可以发布评论哦
打开小程序可以发布评论哦