2 月 11 日,DeepSeek 在其 App 与网页端悄然开启新一轮灰度测试,将模型上下文窗口从 V3.1 版本的 128K token,直接提升至 1M(百万)token。DeepSeek 称可以一次性处理《三体》三部曲,并理解和分析其内容。

另外,升级了模型知识库截至日期和增强的文件处理能力。模型知识库更新至 2025 年 5 月,即便在离线状态下,也能准确回应 2025 年上半年的各类新闻事件。支持上传图像、PDF、Word、Excel、PPT、TXT,能从文件中提取文字信息并深度分析。
这一系列密集升级,被业内看作是其新一代旗舰模型 V4 即将亮相的重要信号。
此次测试版本仍为纯文本形态,暂不支持视觉输入及多模态识别功能,但成功补齐了长文本处理的核心短板,直接对标 Google Gemini 的百万级上下文能力。
官方没有正式公布更新,但有部分用户在试用时吐槽," 丢掉了 DeepSeek 最有灵魂的东西 "" 现在这版本小说文笔巨差,以前的文笔我认为是业界巅峰,比什么 gptgrok 都强,就是 2 月 11 号后一切都变了。"" 不知道的还以为在写诗呢,一句话一段你知道我看得多崩溃吗?"


也有用户认为这只是新版本测试,后续会根据反馈优化的。

DeepSeek 的更新开年以来一直在铺垫。
早在 2025 年下半年,受生态布局薄弱、产品能力偏科等因素影响,DeepSeek 的用户规模和活跃度均出现明显下滑,外界对其发展前景一度提出质疑。对此,DeepSeek 团队并未急于回应,而是选择低调深耕技术,陆续发布 V3.2 系列模型、数学专用模型及 OCR 工具,为新一轮技术突破默默蓄力。
1 月,DeepSeek 以罕见的频率连续发布两篇关键技术论文,为这次灰度测试的顺利推进筑牢了技术根基。其中,元旦当天发布的 mHC 流形约束超连接架构,解决了大规模模型训练过程中的稳定性难题。
1 月中旬,开源的 Engram 条件记忆模块,则采用哈希查找替代高成本的神经网络计算,实现 " 查算分离 ",可将超大参数表迁移至 CPU 内存,推理延迟控制在 3% 以内,天然适配百万级长上下文场景,大幅降低了长序列推理的算力开销。
不到一个月前,DeepSeek 自研解码核心库 FlashMLA 更新时,社区开发者意外发现了代号为 "Model 1" 的全新模型标识。该标识独立于现有 V3.2 架构,在 KV 缓存布局、稀疏性处理以及 FP8 数据格式解码等方面,都与 V3.2 版本存在明显差异,这意味着 DeepSeek 正在进行一次底层架构的全面重构,而非简单的版本迭代。
据悉,DeepSeek 下一代旗舰模型预计将是一款万亿参数级别的基础模型,正因规模大幅跃升,训练速度明显放缓,导致发布进程有所延后。但野村证券 2 月 10 日发布的报告里提到,预测 DeepSeek V4 会在 2 月中旬发布。
DeepSeek 将全面整合 mHC 与 Engram 两项核心技术,摒弃盲目堆砌参数的行业惯性,重点提升模型的推理、编程以及长文本处理效率。
目前,DeepSeek 并未对此次灰度测试作出回应。
来源:星河商业观察


登录后才可以发布评论哦
打开小程序可以发布评论哦