DeepSeek近期的巨额融资将如何影响其多模态能力发展?

DeepSeek 近期超 500 亿元的首轮融资，将通过重金投入自建算力中心、加速产品化转型和构建产业生态同盟，为补齐当前多模态能力短板提供关键的资金和资源支撑，但同时也对商业化节奏和战略定力提出了新的考验。

一、识图翻车的症结：多模态能力短板与融资的紧迫性

6 月 18 日，DeepSeek 正式上线网页版识图模式，却在首秀中遭遇尴尬：多位用户发现，模型无法准确识别创始人梁文锋的照片，不仅认错为月之暗面创始人杨植麟、" 年轻版 " 马化腾，甚至经过长时间思考后承认 " 我真的很不确定 "。这一翻车事件暴露了 DeepSeek 在多模态能力上的明显短板。

1. 训练数据匮乏是直接原因

梁文锋本人行事极为低调，业内有 " 国产 AI 扫地僧 " 之称，网络流通的高清正面采访照片不足 10 张，训练样本严重不足。与雷军等动辄百万级公开影像素材的企业家不同，模型缺乏足够样本来构建稳定的面部识别特征。

2. 产品定位取舍影响技术优先级

AI 视觉识别底层逻辑依赖海量标注图片训练，DeepSeek 将研发重心优先放在办公解题、表格数据分析、OCR 提取等刚需场景，公众人物人脸识别的优先级本身偏低。识图模式还不支持联网检索，只能依靠模型内置训练数据完成判断。

3. 翻车事件反衬出融资的战略必要性

多模态能力的提升需要大量算力训练和高质量多模态数据的清洗标注。就在识图模式上线前夕，DeepSeek 被曝出敲定超 500 亿元的首轮融资，这笔资金恰逢其时地为多模态短板补齐提供了 " 及时雨 "。

二、510 亿融资的弹药投向：算力基建、人才保留与产品化

DeepSeek 首轮融资总额超 510 亿元，投后估值逼近 4000 亿元，创始人梁文锋个人出资 200 亿元，腾讯出 100 亿元，宁德时代体系出 50 亿元，京东、网易和 IDG 资本各出 30 亿元。这笔巨额融资的投向，将直接影响多模态能力的后续发展。

1. 自建智算中心：多模态训练的算力底座

DeepSeek 正从租用机房转向自建数据中心，在内蒙古乌兰察布智算中心招人，并新设 "IDC 设计规划工程师 " 岗位，负责从 MW 到 GW 级超大规模智算中心的规划与建设。自建智算中心意味着更低的长期算力成本、更高的调度效率，多模态模型训练所需的巨量 GPU 资源将得到更稳定保障。

2. 人才争夺与期权激励：补齐多模态人才缺口

2025 年末以来，大厂重金挖角导致 DeepSeek 核心研发人员流失，罗福莉等顶尖研究员相继离职。本轮融资完成后，股权有了市场化定价，员工期权机制才能落地。多模态能力的竞争归根结底是人才的竞争，融资为留住和引进多模态视觉、语音方向的研究员提供了资金弹药。

3. 从 " 模型公司 " 转向 " 产品公司 "：加速多模态落地

DeepSeek 正在组建 "Agent Harness" 团队，由资深研究员陈德里带队，对标 Anthropic 的 Claude Code。计划在 6 月发布 V4.1 模型，让模型 " 直接处理图像和音频信息 "。识图模式的上线和后续迭代，正是这一战略转向的具体体现，超 500 亿的现金流让 DeepSeek 有能力在多个产品线同时推进。

三、资本结构的 " 防火墙 "：保障多模态研发的战略定力

这轮融资最值得关注的不是金额，而是梁文锋设计的独特交易架构，这套架构对多模态能力的长期发展具有间接但深远的积极影响。

控制权牢牢在手：除国家人工智能产业投资基金外，所有外部投资方的资金注入由梁文锋管理的有限合伙企业，不享有公司投票权，无法干预核心战略决策。梁文锋直接持股 34%，最终受益股份约 84.29%，拥有 100% 表决权。

五年锁定期筛选 " 耐心资本 "：所有投资方股权设有五年锁定期，锁定期内不得转让。这直接过滤了追求短期套现的浮躁资本，确保公司能在多模态等需要长期投入的领域保持战略定力，不被资本市场短期的商业化压力所裹挟。

国家 AI 基金的战略背书：出资约 10 亿元的国家人工智能产业投资基金直接投资 DeepSeek 主体，享有投票权且不受五年锁定期限制。这一安排将 DeepSeek 纳入国家级 AI 战略布局，多模态技术的发展也将获得政策层面的持续支持。

四、产业生态同盟：多模态落地的场景协同

DeepSeek 在此轮融资中引入了横跨互联网、新能源、创投的战略投资者，这些合作伙伴将为多模态能力的落地提供丰富的应用场景。

腾讯的社交流量与云算力：腾讯出资 100 亿元，虽然不参与公司治理，但将开放微信生态和腾讯云资源。微信生态中的图像识别、视频理解等多模态应用场景，将成为 DeepSeek 多模态模型的绝佳试验场。

京东的供应链与具身智能：京东出资 30 亿元，其 L4 配送车、物流仓储、无人分拣等场景为多模态模型提供了从虚拟到实体的落地出口。多模态视觉能力在这些场景中的应用，将推动模型从 " 认识图片 " 向 " 理解物理世界 " 的进化。

宁德时代的工业场景与算电协同：宁德时代出资 50 亿元，其智能制造、电池检测等工业场景对高精度多模态识别有刚性需求。同时，DeepSeek 自建数据中心带来的巨大电力需求，与宁德时代的储能业务形成 " 算电协同 " 的产业闭环。

五、挑战与展望：资金充裕后的多模态进化路径

识图模式认不出创始人梁文锋的尴尬，短期内可以通过数据补充和模型微调来快速修复，但对 DeepSeek 而言，这更像是一个产品升级的起点而非终点。

短期（1-3 个月）：迅速补充梁文锋等公众人物的训练数据，优化人脸识别准确率；为识图模式增加联网检索功能，当内置数据无法识别时自动调取外部资料辅助判断。

中期（3-12 个月）：利用融资资金加速多模态基础模型的迭代，从单一图像理解迈向图文音视频的跨模态融合；推进 V4.1 等新版本对图像和音频信息的原生处理能力。

长期（1-3 年）：依托自建智算中心构建多模态数据飞轮，通过产业伙伴的实际场景应用反哺模型迭代；在确保控制权稳定的前提下，持续吸纳多模态领域顶尖人才。

超 500 亿元的资金储备、严格控制权的治理结构、精心筛选的产业生态伙伴，这三大优势将共同推动 DeepSeek 的多模态能力从当前的 " 初始阶段 " 迈向行业领先水平。识图模式翻车事件，也许正是这家坚持长期主义的公司多模态能力加速发展的起点。

本文由 AI 生成

宙世代

一起剪

相关标签