500亿，梁文锋“不学”任正非了

那条极具浪漫主义的路径，走到了今天，梁文锋确实该换一副铠甲了。

文｜《中国企业家》见习记者陈浩

记者马吉英
见习编辑｜张昊编辑｜马吉英

头图来源｜视觉中国

6 月 3 日，据媒体援引消息人士称，DeepSeek 预计将在其首轮融资中筹集约 500 亿元（约合 74 亿美元），该公司的估值可能在 3500 亿至 4000 亿元（合 520 亿至 590 亿美元）之间。而 DeepSeek 创始人梁文锋已承诺投入 200 亿元自有资金，腾讯、宁德时代正分别考虑投资 100 亿元、50 亿元，或将成为本轮融资中最大的两个外部投资者。

消息人士还表示，DeepSeek 正在与国家级人工智能基金、网易、京东等进行最后阶段的洽谈，IDG 资本和 Monolith Capital 也在潜在投资者之列。计划中的投资者数量少于 10 家，预计数周内敲定，但具体条款仍可能变化。截至发稿，相关方均未对此交易有所回应。

梁文锋还是变了。

可以说，他是过去两年中国 AI 圈里 " 不变 " 的坚定代表，当同行纷纷融资、上市、抢用户、拼商业化的时候，他静如处子。业内人士评价 DeepSeek 像研究机构：不设 KPI、不赶 Deadline（最后期限）、研究员下午六点多就下班。这背后是据传管理规模超 700 亿元、一年利润约 50 亿元的幻方量化（梁文锋旗下的量化对冲基金公司，以下简称 " 幻方 "），在持续输血。

2025 年初 R1 版本发布，"DeepSeek 时刻 " 一度引发英伟达等 AI、芯片巨头股价的剧烈震荡。随后，梁文锋被《Nature》评为 2025 年度十大科学人物。《Nature》称，与模型的高度开放形成对比，这位企业家本人极其低调，" 他拒绝了采访请求 "。

来源：视觉中国

彼时的他，态度明确——短期内没有融资计划，DeepSeek 面临的问题从来不是钱，而是高端芯片。而如今，他亲手推翻了这句话。

梁文锋 1985 年生于广东湛江吴川，父亲是小学教师。据报道，他童年里会反复拆装一台收音机，那股死磕细节的劲头一直留到现在。少年时，他数学出众，进入浙江大学读电子信息工程，研究生阶段做机器视觉；毕业后，他没有去大厂，而是一头扎进当时还冷门的量化投资领域。

2013 年，他与校友徐进创办杭州雅克比投资管理公司，2015 年又共同创立幻方，班底多为来自浙江大学的同侪。据报道，公司长期把约七成年收入投向研发与人才，十年间，幻方一度做到了千亿元资金管理规模。

早在 2019 年，幻方就投入近 2 亿元自研深度学习训练平台 " 萤火一号 "，搭载约 1100 块 GPU；两年后又斥资 10 亿元上线 " 萤火二号 "，搭载约 1 万张英伟达 A100 GPU。据报道，彼时国内拥有超过一万枚 GPU 的企业不超过五家，除幻方外都是互联网大厂，单看算力，这家量化公司更早拿到了做 AI 的入场券。

2023 年，38 岁的梁文锋决定 "All in"AI。那一年，ChatGPT 横扫全球，国内的普遍共识是没有数万张高端显卡、百亿元级别投入，做不出顶级大模型，与其追赶，不如去做应用。他带着一支百余人的本土团队入场，而当时 OpenAI 已经有约 1200 名研究人员，Anthropic 有 500 多名。同年 7 月，DeepSeek 成立，第一期研发由幻方自主出资约 30 亿元。

梁文锋从一开始就选择了 " 未被选择 " 的路——极致低成本、全面开源。

2024 年 5 月，V2 版本以创新架构把 API 价格压到每百万 tokens 输入 1 元、输出 2 元，约为 GPT-4 Turbo 的百分之一；2025 年 1 月的 R1 版本，据其论文显示，训练成本约 29.4 万美元、构建基础模型约 600 万美元，却做出了媲美顶尖闭源模型的推理能力，并随即全面开源。

在《暗涌》的专访里，梁文锋把自己的逻辑讲得很透：" 封闭技术是筑墙，开源才是建桥 "。他也警惕用钱砸出来的领先，" 一味堆砌算力是饮鸩止渴 "，如果提高 5% 的性能要付出 10 倍成本，在他看来 " 就是不道德的创新 "。

这套理念，落到组织上是一种近乎 " 无为 " 的管理。DeepSeek 没有 KPI，也几乎没有固定团队、汇报关系和年度计划；战略按周迭代，研究员可以不经审批调用训练集群的卡、按兴趣自由组队。梁文锋相信 " 创新首先是一个信念问题，首先是敢 "，而这种自信 " 在年轻人身上更明显 "。

支撑这种纯粹的，是他对公司的绝对控制。天眼查显示，4 月末，杭州深度求索人工智能基础技术研究有限公司（DeepSeek 的运营主体）注册资本由 1000 万元增至 1500 万元。其中，梁文锋认缴出资增加 500 万元至 510 万元，直接持股比例由 1% 升至 34%。调整后，他通过直接与间接方式合计控制超 80% 的股权，业内人士把这种控制称作他 " 保护理想的防火墙 "。

而在首轮对外融资中，他个人出资的 200 亿元，看上去又要在这个估值区间里拥有主导对话的权利。从这一点看，梁文锋其实也没变，变的是行业环境、竞争规则和 DeepSeek 所处的阶段。

从横空出世那一天起，外界就惊讶于他的独特：不融资、不站队，不靠大厂输血，却偏偏走在开源、低价、国产替代这几条最难的路上。媒体乐于把他称作 " 下一个任正非 " ——同样深居简出，同样攥紧公司控制权，也始终不惧怕 " 华山一条路 "。

但时代终究不同了。华为可以不上市、不引入资本，而 DeepSeek 面对的，是巨头已经跑起来的速度。梁文锋撕开的或许是一道 " 纸枷锁 "，这未必是妥协。只是那条极具浪漫主义的路径，走到了今天，他确实该换一副铠甲了。

变量

2024 年底，DeepSeek 的 V3 版本发布前后，一则热搜把这家低调的公司推到了风口浪尖。

据传，小米创始人雷军亲自下场，开出千万元年薪，要把 DeepSeek 研究员罗福莉挖去执掌小米的大模型团队。罗福莉是北京大学计算语言学硕士，读研时就以一年八篇顶会论文成名，后来从阿里达摩院转投幻方、再到 DeepSeek，参与了 V2 版本的研发。

几乎一夜之间，"AI 天才少女 " 的标签贴满全网。数月以后，她在凌晨发了条朋友圈：" 请互联网还我一片安安静静做事的氛围吧 …… 我并非什么天才少女，神化一个人的结果就是捧得多高、摔得多重。" 她说，自己只想做 " 难而正确的事 "。

罗福莉不是个例，从 2025 年下半年起，DeepSeek 几乎成了同行的 " 猎场 "。

来源：视觉中国

提出 R1 版本核心算法 GRPO 的郭达雅去了字节跳动的 Seed 团队、第一代大语言模型的核心作者王炳宣加盟腾讯混元、多模态负责人阮翀去了元戎启行、OCR 核心魏浩然也已离开 …… 他们大多是 DeepSeek 历代模型论文上的署名者，是把这家公司送上神坛的那批人。

挖墙脚的筹码很直白。据报道，大厂为单个核心研究员开出的薪资总包可达数千万元乃至上亿元。" 以前都说大模型拼数据、算法、算力，现在看，到最后拼的是人。" 很多从业者的这句感慨，DeepSeek 应该体会得最深。

2025 年底以来，这家以研究著称的公司也开始 " 开闸式 " 招聘产品经理、搭建数个创新产品团队，探索 Agent 与 C 端产品形态。

而梁文锋手里没有能跟大厂对标的筹码——没有成熟的期权就留不住人，而要把期权发出去、给团队份额重新定价，融资几乎是唯一的出口。

除了留人，算力更是 " 吞金兽 "。

DeepSeek 早年那些 " 低成本奇迹 "，很大程度上是用幻方囤下的那批显卡喂出来的。但是在新的环境下，存货显然不够用。据多家媒体报道，新旗舰产品 V4 版本要把训练和推理从英伟达耕耘了二十年的 CUDA 生态，整体搬到华为昇腾的 CANN 体系上。这意味着底层代码近乎重写，单轮训练成本据称超过 5 亿美元。

最受期待的 R2 版本迟迟不来，也被认为是性能还没达到预期。被推上 " 国产软硬协同 " 试验场的 DeepSeek，2026 年初拿出的 mHC 架构，又一次试图以算法上的原创去抵消算力上的劣势。但很长一段时间内，外界显然感受到了它的 " 吃力 "。

把时间往回拨，DeepSeek 原本只是幻方的一条 AI" 副线 "。2024 年 5 月，它把 API 价格一路打到每百万 tokens 输入 1 元、输出 2 元，当月就逼得大厂纷纷跟进，掀起一场持续半年多的价格战，" 价格屠夫 ""AI 界拼多多 " 的名号由此而来。当年底的 V3 版本，又用不到 GPT-4 十分之一的训练成本，做出了能与全球一线同台比较的模型，把只有少数美国巨头才玩得起大模型的叙事撕开了一道口子。

可两年过去，情况全变了。据报道，2025 年 8 月豆包的月活已达 1.57 亿，反超 DeepSeek。而 2026 年被多家媒体称作中国 AI 的 " 大年 "，春节前后，豆包、千问、元宝与 DeepSeek 齐齐冲进月活过亿，而新模型产品还在接连登场。

有分析师把 2025 年末视作一道分水岭：那些算力与生态深厚的巨头，对 DeepSeek 们发起了全面反攻，比拼从 " 单点技术突破 " 转向 " 全栈能力 "。当战争从 " 四两拨千斤 " 升级为算力、人才、产品、生态的全面对耗，DeepSeek 那套靠开源、能效与克制变现撑起来的打法，优势正在被稀释。

人、显卡、对手，三股压力汇聚一处，钱自然成了那个绕不开的变量。

普惠

而 4 月，沉寂一段时间的 DeepSeek" 回来 " 了。

V4 预览版上线没几天，就把价格降到了行业的生死线：缓存命中场景的输入价被砍掉九成，降到每百万 tokens 几分钱。据开发者拆解，V4 版本单位 token 的推理算力只有上一代 V3.2 版本的约四分之一。

这仍是梁文锋的效率逻辑。当部分同行控价保利，把模型当成一门要赚钱的生意时，DeepSeek 又一次逆着风向砍了下去。

6 月 2 日，腾讯云宣布，智能体开发平台将对 DeepSeek-V4 系列模型价格进行下调，最高降幅达 97.5%。这是继 5 月 22 日 DeepSeek 官方宣布 V4-Pro 模型 API 永久降价、5 月 27 日小米跟进旗下 MiMo 系列降价最高 99% 之后，国产 AI 大模型领域掀起的又一轮 " 普惠潮 "。

来源：AI 生成

与此同时，6 月 3 日晚，豆包发布《关于豆包即将推出专业版的说明》，计划面向专业人群推出付费 " 专业版 "，但强调日常基础功能仍然免费。一边降价普惠，一边分层收费，路线分野更清楚了。

价格之外，DeepSeek 这家公司也在变。据行业报道，DeepSeek 的员工已经开始走出实验室，向各行各业推销模型，试着把技术变成能收费的产品；计划 6 月推出的 V4.1 版本，会给企业用户配更多工具、强化对 MCP 协议的支持、补上图像与音频的理解能力 ……

用行业媒体援引知情人士的话说，这轮融资本身，也在推动着 DeepSeek 加快迭代、" 向行业主流看齐 "、把营收规划真正落地。

回到 V4 版本本身。除了又一次把模型拉到 " 白菜价 " 之外，梁文锋还专门针对多款主流 Agent 产品做了适配与调校。按 DeepSeek 内部的说法，在 Agentic Coding 的评测里，V4-Pro 版本已经做到开源模型中的最好水平。

不过，团队在技术报告里也没有回避差距，直言 V4 版本的综合能力仍落后于 GPT-5.4 与 Gemini-3.1 Pro，整体进度比最前沿的闭源模型大约慢三到六个月。对标最顶尖的那几个对手，梁文锋要解的其实始终是同一道题：当算力越来越贵，他还能不能靠架构上的极致创新，把成本一次次拉下来。

" 不诱于誉，不恐于诽，率道而行，端然正己。"V4 版本的发布公告里，梁文锋以这样的一句总结表明初心。

他想做的原本是最好的基础模型和前沿创新，可当巨头掉头反攻，这种 " 克制 " 越来越奢侈；而要在引入资本的同时守住路线主导权，他也只能亲自押上 200 亿元。

据行业报道，在转向公开融资之前，梁文锋曾与某互联网大厂就独家注资数次商谈，但对方 " 出让 20% 股份 " 的条件没有得到他的同意，他最终选择了一轮谁都无法单独主导的多方融资。

分析人士算过一笔账，按一百倍市销率推算，500 多亿美元的估值需要大约 5 亿美元的年收入来托底，而 DeepSeek 的收入结构相对单一，开源又让大量企业选择自行部署、绕开了付费 API。未来一年，最大的问题是它能不能把收入真正放量。

事实上，DeepSeek 已经在自建数据中心、招募数据中心工程师，宁德时代入股也是补齐 " 从模型到能源 " 的全栈逻辑。

可以预期的是，梁文锋会继续硬啃华为昇腾。V4 版本已经在技术报告里给华为昇腾和英伟达各留了一手，他赌的是国产替代终能跑通，哪怕过程坎坷。开源大概率仍会是他的信仰，也是他最深的护城河。

他在《暗涌》专访里说过，要让中国的 AI 从技术的受益者，变成贡献者。而这一次，他把自己的 200 亿元也一起押了上去。

宙世代

一起剪

相关标签