DeepSeek启动百万token测试，部分用户称失去灵魂？

2 月 11 日，DeepSeek 在其 App 与网页端悄然开启新一轮灰度测试，将模型上下文窗口从 V3.1 版本的 128K token，直接提升至 1M（百万）token。DeepSeek 称可以一次性处理《三体》三部曲，并理解和分析其内容。

另外，升级了模型知识库截至日期和增强的文件处理能力。模型知识库更新至 2025 年 5 月，即便在离线状态下，也能准确回应 2025 年上半年的各类新闻事件。支持上传图像、PDF、Word、Excel、PPT、TXT，能从文件中提取文字信息并深度分析。

这一系列密集升级，被业内看作是其新一代旗舰模型 V4 即将亮相的重要信号。

此次测试版本仍为纯文本形态，暂不支持视觉输入及多模态识别功能，但成功补齐了长文本处理的核心短板，直接对标 Google Gemini 的百万级上下文能力。

官方没有正式公布更新，但有部分用户在试用时吐槽，" 丢掉了 DeepSeek 最有灵魂的东西 "" 现在这版本小说文笔巨差，以前的文笔我认为是业界巅峰，比什么 gptgrok 都强，就是 2 月 11 号后一切都变了。"" 不知道的还以为在写诗呢，一句话一段你知道我看得多崩溃吗？"

也有用户认为这只是新版本测试，后续会根据反馈优化的。

DeepSeek 的更新开年以来一直在铺垫。

早在 2025 年下半年，受生态布局薄弱、产品能力偏科等因素影响，DeepSeek 的用户规模和活跃度均出现明显下滑，外界对其发展前景一度提出质疑。对此，DeepSeek 团队并未急于回应，而是选择低调深耕技术，陆续发布 V3.2 系列模型、数学专用模型及 OCR 工具，为新一轮技术突破默默蓄力。

1 月，DeepSeek 以罕见的频率连续发布两篇关键技术论文，为这次灰度测试的顺利推进筑牢了技术根基。其中，元旦当天发布的 mHC 流形约束超连接架构，解决了大规模模型训练过程中的稳定性难题。

1 月中旬，开源的 Engram 条件记忆模块，则采用哈希查找替代高成本的神经网络计算，实现 " 查算分离 "，可将超大参数表迁移至 CPU 内存，推理延迟控制在 3% 以内，天然适配百万级长上下文场景，大幅降低了长序列推理的算力开销。

不到一个月前，DeepSeek 自研解码核心库 FlashMLA 更新时，社区开发者意外发现了代号为 "Model 1" 的全新模型标识。该标识独立于现有 V3.2 架构，在 KV 缓存布局、稀疏性处理以及 FP8 数据格式解码等方面，都与 V3.2 版本存在明显差异，这意味着 DeepSeek 正在进行一次底层架构的全面重构，而非简单的版本迭代。

据悉，DeepSeek 下一代旗舰模型预计将是一款万亿参数级别的基础模型，正因规模大幅跃升，训练速度明显放缓，导致发布进程有所延后。但野村证券 2 月 10 日发布的报告里提到，预测 DeepSeek V4 会在 2 月中旬发布。

DeepSeek 将全面整合 mHC 与 Engram 两项核心技术，摒弃盲目堆砌参数的行业惯性，重点提升模型的推理、编程以及长文本处理效率。

目前，DeepSeek 并未对此次灰度测试作出回应。

来源：星河商业观察

宙世代

一起剪

相关标签