再给老外亿点点震撼？Kimi杨植麟：啥时发K3? 奥特曼的万亿数据中心建成前

最近 AI 圈又炸了！月之暗面的 Kimi K2 Thinking 模型一经发布，就让海外开发者社区彻底沸腾。

这款模型在 Humanity's Last Exam、TAU-Bench 等多项核心基准测试中超越了 OpenAI 的 GPT-5 和 Anthropic 的 Claude Sonnet 4.5，而 API 调用价格远低于两者。

Hugging Face 联合创始人 Thomas Wolf 直接惊呼：" 这是又一次 DeepSeek 式的辉煌时刻吗？"

就在全球开发者热议之际，北京时间 11 月 11 日凌晨，当国内大部分人还在睡梦中时，月之暗面创始人杨植麟，以及联合创始人周昕宇、吴育昕，在 Reddit 社群平台进行了一场长达数小时的 AMA（Ask Me Anything）问答。

这也是三位联创首次共同露面，面对海外开发者的各种尖锐提问。

问答持续数小时，从 460 万美元训练成本传闻到 K3 何时发布，从开源策略到行业竞争，从技术路径到 AGI 时间表，杨植麟团队一口气回答了数十个问题。

460 万美元传闻不实，真实成本难以量化

最受关注的问题莫过于传闻中的 460 万美元训练成本。面对这个让整个硅谷都震惊的数字，杨植麟直接回应：

" 这不是官方数据。由于训练成本中很大一部分是研究和实验，所以很难量化具体数字。"

这一回应打破了业界对 K2 Thinking" 超低成本 " 的猜测。尽管具体数字未公布，但从技术实现来看，该模型确实在成本控制上有所突破：

K2 Thinking 采用 1 万亿参数的混合专家架构，但每次推理仅激活 320 亿参数，并使用原生 INT4 量化技术，将推理速度提升约 2 倍。

在硬件配置方面，杨植麟透露团队使用配备 Infiniband 的 H800 GPU 进行训练。" 虽然不如美国的高端 GPU，我们在数量上也不占优势，但我们把每张显卡的性能都榨取得淋漓尽致。"

据悉，K2 Thinking 的 API 调用价格为每百万 token 输入 1-4 元，输出 16 元，仅为 GPT-5 的四分之一，真正做到了性能与成本的完美平衡。

这种性价比优势，正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking 过于 " 话痨 "？专注 Agent 能力

面对众多开发者关于 K2 Thinking" 过于话唠 " 的质疑，团队给出了明确回应。

杨植麟表示：" 当前版本中，我们更看重绝对性能而非 token 效率。后续会尝试将效率纳入奖励机制，让模型学会压缩思考过程。"

这种设计理念反映了月之暗面的技术取舍：为了确保复杂任务的完成质量，可以适当牺牲 token 效率。K2 Thinking 能够连续执行 200-300 次工具调用来解决复杂问题，在 " 思考 - 工具 - 思考 - 工具 " 的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上，团队采用端到端智能体强化学习训练方式，使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让 AI 模仿人类解决问题的过程，在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露，支持交错的 " 思考 - 工具 - 思考 - 工具 " 模式是开发过程中的主要挑战之一，" 这在 LLM 中是一种相对较新的行为，需要大量工作才能正确实现。"

K3 什么时候发布？

当有网友问及 K3 的发布时间时，杨植麟给出了一个颇具幽默感的回答：

" 在 Sam（山姆 · 奥特曼）的万亿级数据中心建成之前。"

有人调侃：" 所以，永远等不到了，反正他永远也搞不定那个烂尾工程？开个玩笑啦～"

为什么先推纯文本模型？

对于多模态能力的发展，杨植麟表示：" 训练视觉语言模型需要时间获取数据和调整训练，所以我们决定先发布一个文本模型。"

AGI 有那个范儿了

在开源动机方面，杨植麟给出了颇具理想主义色彩的回答：" 我们拥抱开源，因为我们相信 AGI 应该是一种导致团结而不是分裂的追求。"

K2 Thinking 采用 Modified MIT 许可证，在保留标准 MIT 许可证大部分自由的基础上，添加了一项关键限制：当模型被用于超过一亿月活用户或 2000 万美元月收入的商业产品时，需要注明使用了 Kimi K2 模型。

当被问及 AGI 时间线时，杨植麟给出了相对谨慎的回答："AGI 这件事很难定义，但大家已经能感觉到那个范儿了，未来会有更多更强大的模型。"

是否会发布更大规模闭源模型 ?

对于是否会发布更大规模闭源模型的问题，杨植麟给出了一个耐人寻味的回答：" 如果它变得太危险的话 : ) "

这既暗示了对模型安全性的考虑，也为未来的商业化策略留下了想象空间。

当前，K2 Thinking 在发布后不到 48 小时内下载量已超过 5 万，成为 Hugging Face 最热门的开源模型。

与 DeepSeek 的技术路径分歧：OCR 和 KDA

面对不同技术路线的选择，月之暗面团队展现出了明确的技术偏好。对于 DeepSeek 近期备受关注的 OCR 路线，周昕宇表达了不同看法：

" 我个人觉得这条路走得有点重了，我更倾向于继续在特征空间里下功夫，去找到更通用、并且与具体模态无关的方法，来提升模型效率。"

在未来发展方向上，团队透露 KDA 是他们最新的实验性架构，相关理念很可能会应用于 K3 中。KDA 采用 3:1 的比例将 KDA 和 MLA 路线混合，在传统 Transformer 基础上让模型学会 " 抓重点信息 "，在性能、速度、显存占用方面实现优化。

杨植麟表示，团队已内部试验 Kimi Linear 新结构（架构的核心是 KDA，一种表达能力更强的线性注意力模块），初步结果看起来有前景，并可进一步与稀疏化技术组合。

宙世代