头把交椅易位,但游戏还在继续。
在 R2 多次传闻更新然后被 " 鸽 " 之后,Deepseek 又挤了一点牙膏。
10 月 20 日,DeepSeek 团队在 Hugging Face 与 GitHub 上线并开源了 DeepSeek-OCR,参数规模约 3B,采用了 " 视觉 - 文字压缩 " 方案,相较传统 OCR 模型提升了的扫描效率。DeepSeek-OCR 的出现,有望补上 DeepSeek 在工具模型领域的又一块拼图。
然而,最近两个月,这家火爆 2025 的 AI 独角兽,在 C 端用户规模上遭遇了头号竞争对手——豆包的反超。根据 QuestMobile 此前披露的数据,中国消费级 AI 助手的榜首在近期易位,8 月数据显示," 豆包 " 月活(MAU)约为 1.57 亿,环比增长 6.6%,反超 DeepSeek 约 1.43 亿升至第一。在一些业内分析视角," 豆包 " 的反超源于其多模态能力的广泛应用,以及与抖音生态的深度接入。
不过,DeepSeek 方面似乎坚信凭借模型技术迭代,也可以走出差异化道路。在最新的 OCR 模型发布说明中,团队再次强调了 " 基础能力 " 的重要性——这个模型不仅能识别中英文混合文本,还能处理手写体、复杂表格等高难度场景,准确率在多个公开数据集上刷新了纪录。随着 AI" 六小龙 " 为代表的 AI 创业公司在 2025 年多少都呈现出一些 " 方向调整 " 的态势,Deepseek 似乎成为了国内唯一一家与 "OpenAI 模式 " 类似的企业:凭借出色的模型能力在 C 端市场冲到领先位置,并持续深耕超大参数模型赛道。
如果把 2025 年看作国内 C 端 AI 的 " 分水岭 ",上半场无疑是 DeepSeek 以开源与推理能力拉动的 " 技术爆炸时刻 ",下半场豆包的反超,则更像是互联网巨头在深度整合资源后的 " 反击时刻 "。而让出 C 端市场头把交椅的 Deepseek,却迟迟没有对旗下主力模型进行大版本更新。本次 DeepSeek-OCR 的 " 挤牙膏 ",似乎是这家国内顶流 AI 创业公司,技术链路优先理念的又一次延续。
01
OCR,一项大众并不陌生的技术,指将文本图像转换为机器可读文本格式的流程。和此前的 OCR 系统 / 模型不同,Deepseek-OCR 采用了 " 视觉 - 文字压缩 " 方案,这样一个只有 3B 大小的模型,却在 OmniDocBench 测试中,仅使用 100 个视觉标记就胜过了 GOT-OCR 2.0,后者用了 256 个视觉标记。而在标记数量少于 800 个的情况下,它也击败了 MinerU 2.0,后者每页需要超过 6000 个标记。
另一方面,百度在此前正式发布并开源其自研的多模态文档解析模型 PaddleOCR-VL。这一模型在全球权威的文档解析评测榜单 OmniBenchDoc V1.5 中,以 92.6 分的成绩登顶全球第一。而 Deepseek 紧随其后发布的 Deepseek-OCR 的操作,在一些行业社群中被冠以 " 阻击竞争对手 " 的标题。
回到 Deepseek-OCR 的 " 视觉 - 文字压缩 " 方案,通常情况下,大语言模型在执行 OCR 任务时计算成本极高——处理的文字单元越多,计算量就会呈二次方增长。传统的 OCR 系统在识别一页文档时,往往需要处理上千个文字标记才能完成用户指令。
而在 Deepseek-OCR,模型工程人员尝试了一种更高效的路径:利用视觉语言模型(VLM),直接在语义层面对图像中的文字信息进行压缩,将原本需要成千上万文字标记才能表达的内容,映射为更少量、更具语义密度的视觉标记,从而显著降低整体计算成本。
此外,DeepSeek-OCR 还拥有 " 深度解析模式 ",能将财务类图表直接转化为结构化数据,自动生成 Markdown 表格与图像。这意味着,一份包含数字、曲线、图注的财报截图,不再需要人工复制粘贴或二次整理,系统就能还原出可编辑的分析稿格式。
这套系统的核心由两部分组成:负责图像理解的DeepEncoder,以及基于DeepSeek-3B-MoE架构的文字生成模块。DeepEncoder 约有 3.8 亿参数,专门分析图像并生成压缩后的视觉特征;而文字生成部分启用了 5.7 亿个活跃参数,用于根据这些视觉特征生成高精度的文字描述。
据了解,Deepseek-OCR 在 10 倍压缩下解码精度可达 97%,即使在 20 倍压缩下也能保持 60% 的准确率。这意味着一张图像仅需 LLM 所需 token 的一小部分,即可表示整篇文档。
从技术维度看,该模型代表着 DeepSeek 正在从 " 语言模型+Chatbot" 核心路径,向更多的用户场景拓展。伴随着 Deepseek-OCR 的正式开源,其相关能力有望进一步产品化,在长文本、表格、跨页文档的压缩与提取场景均有应用空间。
回顾 Deepseek 的通用大模型产品线不难发现,OCR 能力一直是 R1 系列的能力短板。此前,尽管 DeepSeek R1 在成本效益和逻辑性能方面具有明显的优势,但 PDF 解读等场景与其他顶级模型(Claude Opus 4 和 ChatGPT-5)相比仍然较为有限。缺乏原生 OCR、文件大小限制以及文件 API 缺失,使得 DeepSeek R1 无法成为完整的文档解决方案。
所以,DeepSeek-OCR 既有可能衍生出独立工具产品,也可能是后续通用模型迭代的 " 技术积累 " 动作。而传说中的大版本更新,根据《The Information》在此前的报道中披露," 尽管 DeepSeek 工程师过去数月一直在高强度开发 R2 模型,但 CEO 梁文锋对新模型的性能表现并不满意。"
R2 的面世时间也因此一拖再拖,但产品领域的竞争对手却已经拍马赶到。就在几周前,另一款 AI App 取代了 Deepseek ,成为了新的 C 端 AI 应用月活冠军。豆包,带着字节系产品的庞大生态,在下半年卷土重来。
02
根据 QuestMobile 数据,2025 年 8 月,豆包月活用户数约为 1.57 亿,环比增长约 6.6%;同期 DeepSeek 月活约为 1.43 亿。豆包时隔两个季度,在国内 C 端 AI 应用市场中重新夺回头部地位。
夺回 " 月活冠军 ",豆包的成功离不开其生态优势与用户触点积累。和 Deepseek 不同,豆包定位为面向所有 " 大众用户 "、强调场景化体验,在语音、图像、社交分享等领域均延展了模型能力,降低了用户使用门槛。与此相比,DeepSeek 虽在技术上表现强劲,却更像 ChatGPT 模式的聊天应用,入口单一、使用门槛相对更高。
具体而言,豆包对于 Deepseek 的包围主要体现在以下三个领域:一方面,豆包天然可以借助抖音等字节系社交平台的分发能力。从豆包面世以来,字节方面在 AI 产品投放上积攒了大量经验,在一些视频网站上,各种 " 剧情 " 的豆包广告层出不穷,许多新用户往往在这一过程中被动接触并转化。
另一方面,豆包在立项一开始就瞄准了最广泛的受众,产品体验面更宽。甚至在两个产品的名字上就可以窥探一二。相比起 "Deepseek" 的极客风," 豆包 " 这个名字,对于国内用户也相对更朗朗上口。在 APP 的 logo 设计上,豆包也选择了更加拟人化的处理。据了解,在豆包立项之初,人格化交互能力就是豆包能力建设的板块之一,随豆包一同公测的还有聊天 Agent" 小宁 ",可以说,陪伴 / 拟人的属性在一开始就是豆包基因的一部分。
此外,凭借着字节在语音 / 视频生成等多领域建立起的模型矩阵,如今的豆包堪称 AI 圈的超级 APP。支持多种多模态(文本、语音、图像、视频生成)功能,功能繁杂的同时也有清晰的用户引导逻辑,小白用户上手快,让 " 非 AI 玩家 " 也能有不错的体验。
《WIRED》在此前披露的一篇专栏中这样形容 " 豆包 ":" 它就像 ChatGPT、Midjourney、Sora、Character.ai、TikTok、Perplexity 等众多功能集成在一个应用程序中。" 事实证明,这种大而全的一体化 AI 解决方案,对于 0 基础的 AI 产品用户确实相对友好。
据《南华早报》报道,今年 1 月,爆火的 DeepSeek 取代 ChatGPT,一度夺得 App Store 美区榜首位置。但在随后一段时期,国内几大 AI 巨头纷纷开始发力,C 端 AI 应用市场陷入了投流和 " 内卷 " 的竞争中,除了刚刚夺回第一名宝座的豆包,腾讯旗下的元宝在 8 月也收获了 22.4% 的用户增长,MAU 达到 3300 万。蚂蚁集团旗下的 AQ 健康应用也冲进了榜单前十,该应用于 6 月推出,8 月用户数环比增长 60.1%。
而据 QuestMobile 数据显示,5 月份离开 DeepSeek 的用户中,约有 40% 转投豆包。在 " 好用 " 和 " 好玩又好用 " 之间,对于大部分普通用户而言,后者的吸引力显然更大一些。
在这场头名竞逐中,豆包和背后的字节跳动拥有了科技巨头级的体量、数据和全球布局,而 DeepSeek 的优势在于灵活、学院派的研究范式,以及一条更 " 专注 " 的技术路线。而在 2025 年 10 月的节点,是豆包凭借着更大的生态体量,成功挤到了队伍最前面。
03
尽管 DeepSeek 在 2025 年初曾取得引人关注的用户增长与技术突破,但其后增长势头出现减缓迹象。咨询公司罗兰贝格此前披露的报告指出,截至 2025 年 2 月,DeepSeek 与豆包在中国 Top 10 AI 应用中并列,但彼时 Deepseek 领先豆包约 3600 万 MAU。此后,豆包在 8 月完成反超。
从产品更新节奏看,DeepSeek 在 2024 年底发布 V3 模型,今年 5 月发布 R1-0528,优化了 R1 模型的幻觉问题。但在这之后,尽管大版本更新传言不断,但传说中的 R2 却迟迟未现真身。在本次 OCR 模型发布之前,Deepseek 在下半年的主要动作是更新了 V3.1 模型,支持混合推理模式以及 128K tokens 的长上下文输入。
而在月活榜单被豆包挤到第二名后,Deepseek 也并未在 App 端交互 / 生态上做出大幅优化动作。事实上,从年初爆火到至今,Deepseek App 一直沿用着类似 "ChatGPT" 风格的交互逻辑,没有豆包里各种第一方 / 第三方 Agent,坚定走在 " 模型即产品 " 的道路上。
在战略路径上,Deepseek 始终坚持 " 技术深耕 " 的路线。本次更新的 Deepseek-OCR 模型也说明,这家 AI 独角兽在 LLM 领域仍然有着领先的技术探索能力。但面对竞争对手们庞大的生态优势,Deepseek 眼下的产品理念和风格,对于用户规模的转化效率仍有待观察。
不过,DeepSeek 确实没理由太过焦虑,即使被豆包反超,Deepseek 仍然坐拥 1.5 亿月活,在 C 端领域已经打响了口碑。而在技术指标上,Deepseek 也一直在延续超大参数模型策略,V3 系列总参数量高达 671B,同期 AI" 六小龙 " 其他的开源模型,如智谱 GLM-4.5 只有 355B。
此外,在一些业内视角看来,DeepSeek-OCR 的发布,一方面在 C 端工具类场景有着不错的应用前景,同时也可能成为模型训练的 " 催化剂 "。据了解,Deepseek-OCR 每天可以在单个 Nvidia A100 GPU 上处理超过 20 万页数据。如果使用 20 台服务器,每台服务器运行 8 块 A100 处理器,吞吐量将跃升至每天 3300 万页。
这样的吞吐效率,可以有效帮助构建其他大模型的训练数据集。对于走超大参数路线的 AI 企业而言,LLM 训练中往往需要海量高质量文本,而 DeepSeek-OCR 出现,无疑在这一领域指向了一条更高效的解决链路。
未来,DeepSeek 如果想要在后续和豆包 " 掰掰手腕 ",生态因素仍然是不得不考虑的因素。强如 OpenAI,进入 2025 年后,也在积极拓展模型能力在各领域生态的构建,不管是参与 AI 玩具等硬件方案的研究,还是 Sora2 以短视频平台的方式与用户见面,OpenAI 已经给 Deepseek 留下了参考模板。
换言之 ,Deepseek 眼下的要紧事,除了加速下一代模型的迭代外,利用好手上的庞大的 C 端用户规模同样至关重要。由于模型产品线不同,Deepseek 短期内显然无法复刻字节 /OpenAI 的生态策略。但对于这家技术底色浓厚的 AI 独角兽而言,在 C 端生态上能否搞出一些差异化的路线,将是它能否再度向豆包发起冲击的重要因素。
登录后才可以发布评论哦
打开小程序可以发布评论哦