用 460 万美元追上 GPT-5？Kimi 团队首次回应一切，杨植麟也来了

上周 Kimi K2 Thinking 发布，开源模型打败 OpenAI 和 Anthropic，让它社交媒体卷起不小的声浪，网友们都在说它厉害，我们也实测了一波，在智能体、代码和写作能力上确实进步明显。

刚刚 Kimi 团队，甚至创始人杨植麟也来了，他们在 Reddit 上举办了一场信息量爆炸的 AMA（有问必答）活动。

▲ Kimi 团队三位联创，杨植麟、周昕宇、吴育昕参与回答

面对社区的犀利提问，Kimi 不仅透露了下一代模型 K3 的线索、核心技术 KDA 的细节，还毫不避讳地谈论了 460 万的成本，以及与 OpenAI 在训练成本、产品哲学上的巨大差异。

460 万美元这个数字不是官方的数字，具体的训练成本很难量化到多少钱

K3 什么时候来，是看奥特曼的万亿美元数据中心什么时候建成

K3 的技术将会继续沿用，当前效果显著的 KDA 注意力机制

视觉模型还需要我们去采集更多的数据，但目前已经在做了……

我们为你整理了这场 AMA 中最值得关注的几个核心焦点，来看看这家现在算是国产开源老大的 AI 实验室，是如何看待他们的模型，和未来 AI 的发展。

叫板 OpenAI，「我们有自己的节奏」

在这场 AMA 中，火药味最足的部分，大概就是 Kimi 团队对 OpenAI 的隔空回应。

最大的噱头之一：K3 什么时候来？Kimi 团队的回答非常巧妙：「在奥特曼的万亿美元数据中心建成之前。」

很明显这一方面是幽默，因为没有人知道 OpenAI 到底什么时候才能建成那个数据中心，另一方面似乎也在回应外界对于 Kimi 能用更少资源追赶 GPT-5 的赞叹。

当有网友贴脸开大，直接问 Kimi 怎么看 OpenAI 要花这么多钱在训练上时，Kimi 坦言：「我们也不知道，只有奥特曼自己才知道」，并强硬地补充道，「我们有自己的方式和节奏。」

这种自己的节奏，首先体现在产品哲学上。当被问到是否会像 OpenAI 一样发布 AI 浏览器时，团队直言 No：

我们不需要创建另一个 chromium 包装器（浏览器套壳），来构建更好的模型。

他们强调，目前的工作还是专注于模型训练，能力的体现会通过大模型助手来完成。

在训练成本和硬件上，Kimi 也展现了精打细算的一面。社区好奇 K2 的训练成本是否真的是传闻中的 460 万美元，Kimi 澄清了这个数字并不正确，但表示大部分的钱都是花在研究和实验上，很难具体量化。

至于硬件，Kimi 承认他们使用的是 H800 GPU 和 Infiniband，虽然「不如美国的顶级 GPU 好，而且数量上也不占优势」，但他们充分利用了每一张卡。

模型的个性与 AI 的垃圾味

一个好的模型，不仅要有智商，还要有个性。

很多用户喜欢 Kimi K2 Instruct 的风格，认为它「比较少的谄媚，同时又像散文一样，有洞察力且独特」。

Kimi 解释说，这是「预训练（提供知识）+ 后训练（增添风味）」共同作用的结果。不同的强化学习配方（即奖励模型的不同选择）会得到不同的风格，而他们也会有意的把模型设计为更不谄媚。

▲大语言模型情商评估排名，图片来源：https://eqbench.com/creative_writing.html

但与此同时，也有用户直言 Kimi K2 Thinking 的写作风格太「AI Slop 垃圾」，无论写什么话题，风格都太过于积极和正面，导致读起来 AI 味就是很重。他还举例子说，要 Kimi 写一些很暴力很对抗的内容，它还是把整体的风格往积极正面那边去靠近。

Kimi 团队的回答非常坦诚，他们承认这是大语言模型的常见问题，也提到现阶段的强化学习，就是会刻意地放大这种风格。

这种用户体感与测试数据的矛盾，也体现在对 Benchmark（跑分）的质疑上。有网友尖锐地提问，Kimi K2 Thinking 是不是专门针对 HLE 等跑分进行了训练，才会取得如此高分？毕竟这么高的分数，好像和他实际使用中的智能不太匹配。

对此，Kimi 团队解释说，他们在改进自主推理方面取得了一些微小的进展，这刚好让 K2 Thinking 在 HLE 上得分很高。但他们也坦诚了努力的方向，要进一步提升通用能力，以便在更多实际应用场景中和跑分一样聪明。

网友还说，你看马斯克的 Grok 因为做了很多 NSFW ( 非工作安全 ) 的工作，生成图片和视频；Kimi 完全可以利用自己的写作优势，让它完成一些 NSFW 的写作，一定能为 Kimi 带来很多用户的。

Kimi 只能笑而不语，说这是一个很好的建议。未来是否会支持 NSFW 内容，可能还需要找到一些年龄验证的方法，也需要进一步做好模型的对齐工作。

很明显，现阶段 Kimi 是不可能支持 NSFW。

核心技术揭秘：KDA、长推理与多模态

作为一家被称为「开源先锋实验室」的公司，而 Reddit 本身就是也是一个非常庞大和活跃的技术社区，Kimi 也在这次的 AMA 中，分享了大量的技术细节。

10 月底，Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的论文，详细介绍了一种新型混合线性注意力架构 Kimi Linear，其核心正是 Kimi Delta Attention ( KDA ) 。

▲ KDA 算法实现，论文链接：https://arxiv.org/pdf/2510.26692

通俗来说，注意力（Attention）就是 AI 在思考时，决定应该重点关注上下文哪些词语的机制。和常见的完全注意力和线性注意力不同，KDA ( Kimi Delta Attention ) ，是一种更智能、更高效的注意力机制。

在这次 AMA 活动中，Kimi 也多次提到，KDA 在长序列强化学习场景中展现了性能提升，并且 KDA 相关的想法很可能在 K3 中应用。

但 Kimi 也坦言，技术是有取舍的。目前混合注意力的主要目的是节省计算成本，并不是为了更好的推理，在长输入和长输出任务上，完全注意力的表现依然是更好的。

那么，Kimi K2 Thinking 是如何做到超长推理链的呢，最多 300 个工具的思考和调用，还有网友认为甚至比 GPT-5 Pro 还要好？

▲ Kimi Linear 模型结构

Kimi 认为这取决于训练方式，他们倾向于使用相对更多的思考 token 以获得最佳结果。此外，K2 Thinking 也原生支持 INT4，这也进一步加速了推理过程。

我们在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化训练技术，这是一种高效的量化技术（INT4 QAT），Kimi 没有训练完再压缩，而是在训练过程中，就保持了低精度运算模型。

这能带来两个巨大的优势，一个是推理速度的提升，一个是长链条的推理，不会因为训练完再进行的压缩量化，而造成逻辑崩溃。

最后，关于外界期待的视觉语言能力，Kimi 明确表示：目前正在完成这项工作。

之所以先发布纯文本模型，是因为视觉语言模型的数据获取，还有训练，都需要非常多的时间，团队的资源有限，只能优先选择一个方向。

生态、成本与开放的未来

对于开发者和普通用户关心的问题，Kimi 团队也一一作答。

为什么之前能处理 1M 上下文的模型消失了？Kimi 的回答言简意赅：「成本太高了。」而对于 256K 上下文在处理大型代码库时依然不够用的问题，团队表示未来会计划增加上下文长度。

在 API 定价上，有开发者质疑为何按「调用次数」而非 token 收费。对使用 Claude Code 等其他智能体工具进行编程的用户来说，基于 API 请求次数的计费方式，是最不可控且最不透明的。

在发送提示之前，用户根本无法明确工具将发起多少次 API 调用，或者任务将持续多长时间。

▲ Kimi 会员计划

Kimi 解释说，我们用 API 调用，是为了让用户更清楚的知道费用是怎么消耗的，同时符合他们团队的成本规划，但他们也松口表示会看看是否有更好的计算方法。

当有网友提到自己公司不允许使用其他聊天助手时，Kimi 借机表达了他们的核心理念：

我们拥抱开源，因为我们相信通用人工智能应该是一个带来团结而不是分裂的追求。

而对于那个终极问题—— AGI 什么时候到来？Kimi 认为 AGI 很难定义，但人们已经开始感受到这种 AGI 的氛围，更强大的模型也即将到来。

和去年疯狂打广告营销的 Kimi 不同，在这场 AMA 力，杨植麟和团队成员的回答；确实能让人感受到在国产开源，逐渐占据全球大语言模型开源市场的背景下，Kimi 也更加有底气，更明确了自己的节奏。

而这个节奏很明显，就是在这场烧钱、甚至卷太空的 AI 竞赛中，继续走开源的路，才能推动技术往前走。

宙世代

一起剪

相关标签