科创板日报 2025-12-09
张予彤任月之暗面总裁 现身清华大学详解Kimi技术路径和Agent战略
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》12 月 9 日讯(记者 张洋洋)" 没有一百万张显卡,你根本做不了大模型。" 这是过去两年笼罩在 AI 行业头顶的 " 资金算力决定论 "。但在月之暗面(Kimi)总裁张予彤看来,当算力资源不再是唯一的叙事逻辑时,事情正在发生变化。

近日,张予彤现身清华大学进行了公开分享。这是其自 2024 年底卷入与金沙江创投主管合伙人朱啸虎的 " 股权隐瞒 " 风波后,张予彤罕见的一次公开露面。

去年底,金沙江创投主管合伙人朱啸虎曾公开指责张予彤在职期间隐瞒在月之暗面的 900 万股免费股份,违反受托之责;而月之暗面创始人杨植麟则随后发文力挺,明确其作为联合创始人的身份,强调股份授予是基于其在公司运营、战略及融资方面的长期贡献,且 " 与部分股东没有投资月之暗面的决策独立 "。

风波并未影响这位 Kimi" 二号人物 " 的步调。作为负责公司整体战略与商业化的总裁,张予彤在此次分享中,不仅披露了最新上线模型 Kimi K2 Thinking 的技术细节,也集中阐述了这家公司接下来的业务走向和商业化思考。

▍打破 " 唯算力论 "

" 从 Kimi 创业之初,行业里最大的质疑就是:你们没有百万张卡,怎么跟大厂拼?" 张予彤坦言,这种质疑源于一种线性的行业共识:更强的模型必然对应天价的资本开支," 但当我们慢慢意识到算力资源不是唯一叙事时,事情就变得有意思了 "。

张予彤透露,月之暗面在训练万亿参数的 Kimi K2 模型时,首次验证了二阶优化器 Muon 的大规模可行性,实现了至少两倍的 token 效率提升," 这不仅意味着训练成本下降两倍,而是同一份数据我们能得到更多的智能。"

张予彤强调," 现在训练的真正瓶颈是数据墙,而不是算力本身 "。Muon 优化器此前已被发明,但从未有人将其应用于万亿参数模型训练。月之暗面团队攻克了规模化使用时面临的训练稳定性难题,让这一技术真正落地。

除了算法创新,月之暗面还推行 "Day-0 Co-Design" 理念——在模型开始训练前,就进行基础设施与算法的深度耦合设计。张予彤表示,基础设施和算法人才的紧密协同,让每一项改进都以 " 复利 " 方式体现在智能效率上。

这种技术路线得到了市场验证。今年 11 月上线的 Kimi K2 Thinking 模型,在 " 人类最后的考试 "(Humanity's Last Exam)等多项基准测试中,表现对标 GPT-5 和 Claude Sonnet 4.5 等全球顶尖模型。在斯坦福大学 HELM 综合评测中,K2 模型获得非思考模型最佳成绩。第三方盲测平台 LMArena 显示,Kimi K2 Thinking 是开源模型中表现最好的。

" 我们不是说今天就做到了世界最好,但已经能够做到在单位算力上产出最高的智能价值 ",张予彤坦言,这是公司接下来最重要的战略目标。

目前,Cursor、Youware、Genspark 以及 Perplexity 等全球知名 AI 应用已接入 Kimi K2 模型。Perplexity 作为拥有数千万活跃用户、月访问量 2.8 亿次的 AI 搜索应用,在其模型列表中,除四个闭源模型外,唯一接入的就是 Kimi K2 Thinking。

张予彤特别提到,AI 搜索中的深度研究是 Kimi 模型的优势场景。K2 Thinking 支持多达 200-300 轮工具调用,可以边思考边使用工具完成复杂调研任务。Vercel 创始人在社交媒体透露,其内部 Agent 场景测试中,Kimi 实际表现优于其他闭源模型。投资机构 Social Capital 的 CEO 也表示,旗下投资公司已将大量工作转至 K2 平台,因为 " 性能强,成本又比顶尖闭源模型低得多 "。

从产品层面,月之暗面今年践行 " 模型即产品 " 理念,将模型与 Agent 产品体验垂直整合。张予彤介绍,团队从预训练阶段就加入大量真实 Agent 场景数据,包括工具使用和多轮规划的轨迹数据;产品上线后,用真实用户体验作为信号持续优化模型。

今年推出的 "OK Computer"Agent 模式,产品名灵感源自 Radiohead 经典专辑。该模式目前支持包括图片生成、音频生成在内的 20 多种工具,工具调用最高可达 50 步,近期将升级至 200-300 步。" 我们的目标是让 OK Computer 成为每个人的全栈助理," 张予彤说。

她透露,用户对 OK Computer 进行了极限测试:有人上传庞大 Excel 文件处理上百万行数据,有人上传大量文件要求 Agent 完整理解上下文。这种 " 长时任务 " 能力正是月之暗面下一步重点方向——让 Agent 能够像在公司工作一样,开完周会后连续工作一整周。

▍不竞争的竞争策略

在底层效率问题被创新攻克后,如何将技术突破转化为商业壁垒和市场份额,成为新的考量。大模型市场依旧火热,这家独角兽公司如何在巨头环伺下赢得市场地位,也是现场关注的焦点。

" 我觉得最有效的竞争方式就是 ' 不竞争 '," 当被问及同大厂巨头竞争时,张予彤给出了这样的回答,她解释,不竞争不是躺平,而是找到自己的叙事和真正擅长的事情。

对月之暗面而言,第一个核心优势是底层技术创新。" 大模型领域还有很多真正需要解决的问题,这些问题本质上都需要底层技术创新,这正是创业公司最有优势的地方。"

第二个优势是端到端的联合优化能力。张予彤直言,大企业内部不可避免存在组织壁垒、信息传递不畅等问题,而月之暗面只有 300 人,算法、工程、产品可以全部坐在一起," 很多新想法可以当天提出、当天实验 "。

从产品定位看,Kimi 有意识地做出取舍。张予彤称,生活娱乐方向没做,多模态生成也没做," 我们更专注于逻辑层、Agent 层,以及深入研究、PPT、数据分析、网站开发这类偏生产力、偏复杂任务的链路," 她表示,这些任务需要长程规划和复杂工具调用,能创造更高经济价值。

谈及模型公司与 AI 应用的关系,张予彤认为这是一个动态演进过程。她表示,与互联网产品不同,大模型能力仍在快速变化,应用侧需要具备 " 前瞻性设计 " 能力,去想象尚未出现但一定会沿技术演进路径出现的能力。" 如果没有这种前瞻性,可能会出现产品革新了体验但模型能力跟不上,或者模型能力跃升但产品设计还停留在分步调用的旧范式。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 清华大学 金沙江创投 创始人 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论