DeepSeek模型更新！上下文提升至百万Token 可处理三体小说全集

《科创板日报》2 月 11 日讯（记者黄心怡编辑宋子乔）DeepSeek 传闻中的 V4 尚未正式发布。2 月 11 日，多位用户反馈 DeepSeek 已在网页及 App 端进行版本更新，上下文窗口由原有的 128K 直接提升至 1M（百万 Token）级别。

《科创板日报》记者实测中发现，DeepSeek 在问答中称自身支持上下文 1M，可以一次性处理超长文本。此外，版本模型知识库截止时间更新至 2025 年 5 月。不过，新版本目前不支持视觉输入，也不具备多模态识别能力。

《科创板日报》记者进一步询问模型的版本，DeepSeek 称没有固定的版本号，更像一个持续进化的 " 最新版 "

在尝试提交了超过 24 万个 token 的《简爱》小说文档后，DeepSeek 可以支持识别文档内容。

三体三部曲合计总计 90 万字，这也意味着 DeepSeek 能够单次完成处理《三体》全集的长文本。

记者随即提交了《三体》全集，DeepSeek 的处理速度相较文字更少的《简爱》要慢一些，但也在几分钟内完成了文档阅读。

值得关注的是，近期 DeepSeek 开放了多个技术岗位招聘，包括产品经理 / 模型策略产品经理、客户端 / 前端 / 全栈研发工程师等。

此外，DeepSeek 还在 1 月 14 日发布了 CFO 的岗位招聘。

目前，能将上下文推至百万级别的模型较少，谷歌的 Gemini 系列和 Anthropic 的 Claude Opus 4.6 等已率先实现。

DeepSeek 的 V 系列模型定位为追求极致综合性能的基础模型。2024 年 12 月推出的基础模型 V3 是 DeepSeek 的重要里程碑，其高效的 MoE 架构确立了强大的综合性能基础。此后，DeepSeek 在 V3 基础上快速迭代，发布了强化推理与 Agent（智能体）能力的 V3.1，并于 2025 年 12 月推出了最新正式版 V3.2。同时，还推出了一个专注于攻克高难度数学和学术问题的特殊版本 V3.2-Speciale。

科技媒体 The Information 此前爆料称，DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4，将具备更强的写代码能力。

随着这个日期迫近，襁褓中的 V4 成了关注焦点，Deepseek 的每一次更新，都引来诸多关注。据《科创板日报》梳理，今日的版本更新之外，年初以来，Deepseek 公布了两项底层架构突破，并释放一个旗舰迭代信号。

今年初，DeepSeek 团队发表两篇论文，公开了两项创新架构：mHC（流形约束超连接）用来优化深层 Transformer 信息流动，使模型训练更稳定、易扩展，在不增加算力负担前提下提升性能；Engram（条件记忆模块）将静态知识与动态计算解耦，用廉价 DRAM 存储实体知识，释放昂贵 HBM 专注推理，显著降低长上下文推理成本。

这两项技术被认为是中国大模型突破 " 算力芯片和内存瓶颈 " 的算法创新，创始人梁文锋均署名参与相关论文。

1 月 21 日，R1 模型发布一周年之际，DeepSeek 新模型 "MODEL1" 曝光。DeepSeek 官方 GitHub 仓库更新了一系列 FlashMLA 代码，借助 AI 对全部总代码文件数 :114 个（包括 .py, .md, .txt, .sh, .cpp, .cu, .h 文件）进行分析，发现了一个此前未公开的模型架构标识 "MODEL1"，共被提及 31 次。

宙世代

一起剪

相关标签