DeepSeek 引世界巨震,英伟达跌去 4 万亿
国产 AI ,第一次引发了美国乃至全球科技圈的轰动。
故事的主角是一家名为 DeepSeek(深度求索)的 AI 公司。但在很长一段时间里,它都极为低调,甚至名不见经传。
1 月 20 日晚,DeepSeek 直接抛出王炸。公司正式发布推理模型 DeepSeek-R1 正式版,以极其低廉的训练成本训练出了不输 OpenAI 推理模型 o1 的性能,而且完全免费开源 .......
这直接引发了行业地震。
1 月 27 日,DeepSeek 同时登顶中国区和美国区苹果 AppStore 免费榜。这是第一次,有中国科技产品 APP 实现双榜登顶。被 DeepSeek 压在身后的,包括了 OpenAI 旗下的 ChatGPT 以及 Google Gemini 等 AI 产品。
地震还在继续。一天后,DeepSeek 又开源了其多模态模型 Janus-Pro-7B,并宣布在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3(来自 OpenAI)和 Stable Diffusion。
这进一步导演了美国一众科技股票的滑铁卢。1 月 28 日,AI 芯片第一股英伟达股票单日暴跌 17%,直接蒸发近 4 万亿元。英伟达只是其一,整个美科技股票都在面临一场估值的重新审视。
原因很简单,不用巨量昂贵的 GPU 便能训练出超前的大模型的 DeepSeek,让人们开始重新思考了 AI 的训练路径。
公开信息显示,DeepSeek-V3 的预训练成本约为 557.6 万美元,整体消耗了 278 万 GPU 小时训练时长。作为对比,OpenAI 仅仅是 GPT-4 的训练成本就接近 1 亿美元。
训练成本大幅下降背后,加深了人们对大模型商业模式的再思考。
DeepSeek 给美国硅谷带来的震撼还在持续。一句话,DeepSeek 的出现让 AI 界变不可能为可能,变不合理为合理。
微软 CEO Satya Nadella 在达沃斯世界经济论坛上直言:"DeepSeek 新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展。"
沃顿商学院教授 Ethan Mollick 对 R1 的内部思考过程赞叹不已:"DeepSeek 的原始思维链非常迷人。它真的读起来就像一个人在大声思考。既迷人又奇特 "。
Scale AI 的 CEO Alexandr Wang 甚至将其称为一款 " 震撼世界的模型(earth-shattering model)"。" 我们发现 DeepSeek 的性能与美国最好的模型不相上下 .......
极低成本,颠覆 OpenAI 模式
如今火爆的 DeepSeek,在很长一段时间里,都名不见经传。
直到 1 月 20 日,在总理主持召开专家、企业家和教科文卫体等领域代表座谈会,梁文锋在会上发言,并出现在新闻联播中,DeepSeek 和他背后的掌舵者才逐渐浮出水面。
实际上,梁文锋确实也不是纯碎的 AI 科班出身。甚至,可以说他是半路出家,在很长一段时间里是行业的跟随者。
2023 年 5 月,梁文锋正式杀入通用人工智能(AGI)领域,在杭州成立了深度求索人工智能基础技术研究有限公司。这便是现在红极一时的 DeepSeek。
在此后一年时间里,不管是与全球执牛耳者 OpenAI 的 ChatGPT,还是与国内大模型的先行者(百度文心一言、阿里通义千问、字节跳动豆包,腾讯混元大模型),DeepSeek 都相去甚远。
但成立一年后,在国内外大模型厂商深陷泥淖之时,DeepSeek 却以惊人的速度完成了超越。
2024 年 5 月,借助 DeepSeek V2 发布,DeepSeek 率先在业内打起价格战。彼时,其推理成本每百万 token 不到 1 元钱,只有 GPT-4 Turbo 的七十分之一。
12 月 26 日,DeepSeek 再次发布 DeepSeek V3,成本再次降低。
1 月 20 日,瞄准 ChatGPT o1,DeepSeek R1 推理大模型发布,其价格已经开始将 ChatGPT o1 按在地上疯狂摩擦。比如 DeepSeek 的训练成本为 558 万美元,这一成本仅为 GPT-4o 的约 1/20 12。
再如 DeepSeek 的训练过程使用了 2048 张 H100 的 GPU 集群。相比,全球 AI 第一梯队的头部公司要用 1.6 万张以上的 GPU 进行训练 14。
DeepSeek 极其低廉的价格,让美国硅谷震惊。但比成本更让让人震惊的是,他们此前对 DeepSeek 闻所未闻,乃至对 DeepSeek 的打法猝不及防。
说白了,在 OpenAI 之外,DeepSeek 找到了存在一种完全不同的 AI 生存逻辑。
以 OpenAI 为例,其模式本质上基于研发和产品侧的高投入。这种模式下,让英伟达等美国科技巨头的 " 算力无限主义 " 模式席卷天下。事实上,OpenAI 最大投入从来都是 " 硬件算力 " 和 " 训练成本 "。
得益于微软巨大的财力以及数据支撑,OpenAI 成功了那个最能烧钱的 AI 明星。
上游微软提供养分,下游的英伟达则成了这个生态中最赚钱的企业。同时,以 OpenAI 链接的微软们与英伟达们为例,他们一起构筑出了整个 AI 生态有机体。但 OpenAI 商业化前体是 " 不开源 "。
当 DeepSeek 举起 " 开源大旗 " 时,并以远低于 OpenAI 的价格席卷全球后,OpenAI 的同盟者们瞬间崩塌。
横空出世的 DeepSeek,不只意味着攻守易位,背后还有着更深远的影响:它颠覆了既有 AI 创新的商业模式,给全球以崭新的 AI 想象力。
DeepSeek,显然只是开始。
梁文锋,和他的千亿量化私募基金
每一个伟大公司背后都有一个厉害的掌舵人,DeepSeek 背后是梁文锋。
1985 年生于广东湛江的梁文锋,从小便是学霸。
初中以及高中时代,梁文锋便展现出了对数学的极大天赋。高中毕业,梁文锋以吴川一中高考状元身份,考上了浙江大学电子信息工程专业。
2010 年,梁文锋硕士毕业后,小试牛刀、创办了雅比克投资。
2015 年,梁文锋又创办了杭州幻方科技有限公司。这一次,他将数学与人工智能结合起来,开启了量化投资浪潮。
简单来说,就是通过数量化的方式,实现机器自动买入卖出股票,以此来实现盈利。
杭州幻方发展很快,2016 年上线第一个 AI 模型,实现自动仓位上线交易。4 年后,杭州幻方管理的基金就突破百亿规模。2021 年,幻方量化成为国内首家突破千亿的量化私募基金。
不止能赚钱,梁文锋还尤其慷慨。2023 年,幻方量化一员工向慈善机构捐赠 1.38 亿元,登上了热搜。
尽管进行了匿名,但很多人认为这人只能是幻方的老板。
来自东西方力量的碰撞
" 东方神秘力量 "DeepSeek,一时成了全球是大模型行业最大 " 黑马 "。
如今,这匹黑马正让全球陷入恐慌。
一位 Meta 的工程师在美国科技公司员工社区 Blind 中这样写道,"Meta 的生成式 AI 部门正处于恐慌中。这一切始于 DeepSeek,它使得 Llama 4 在基准测试中已经落后。
工程师们正在疯狂地剖析 DeepSeek,并试图从中复制一切可能的东西。"
恐慌之外,国外势力开始用一切可以动用的 " 政治 " 力量。
Scale AI 创始人 Alexander Wang 直言不讳地表达漂亮国政府需要为保持领先优势,对 DeepSeek 的 AI 芯片进行调查和管制。
梁文锋此前便指出,对于 DeepSeek 来说,算力更高的先进 AI 芯片对于训练先进 AI 模型至关重要。
如今,DeepSeek 已经开始面临竞争对手囤积大量算力挑战。本周,特朗普宣布,OpenAI 与甲骨文、日本软银集团共同创立一家 5000 亿美金投资新计划公司 " 星际之门 ",立即在美国至少投资 1000 亿美元用于 AI 基础设施。同时,马斯克的 xAI 也正在大规模扩展其超级计算机,以容纳超过 100 万个 GPU,以帮助训练其 Grok AI 模型。
OpenAI 首席财务官 Sarah Friar 也认为,中美间的 AI 竞争不是简单的口水战,这是一场真实的竞争,双方正在大力投资这一领域。" 我们已经看到特朗普政府愿意积极参与,无论是从经济角度,还是从监管和商业竞争的角度 ......"
显然,DeepSeek 正在挑战漂亮国的 AI 界,但他们也正在做出回应。
登录后才可以发布评论哦
打开小程序可以发布评论哦