科创板日报 02-11
DeepSeek模型更新!上下文提升至百万Token 可处理三体小说全集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》2 月 11 日讯(记者 黄心怡 编辑 宋子乔)DeepSeek 传闻中的 V4 尚未正式发布。2 月 11 日,多位用户反馈 DeepSeek 已在网页及 App 端进行版本更新,上下文窗口由原有的 128K 直接提升至 1M(百万 Token)级别。

《科创板日报》记者实测中发现,DeepSeek 在问答中称自身支持上下文 1M,可以一次性处理超长文本。此外,版本模型知识库截止时间更新至 2025 年 5 月。不过,新版本目前不支持视觉输入,也不具备多模态识别能力。

《科创板日报》记者进一步询问模型的版本,DeepSeek 称没有固定的版本号,更像一个持续进化的 " 最新版 "

在尝试提交了超过 24 万个 token 的《简爱》小说文档后,DeepSeek 可以支持识别文档内容。

三体三部曲合计总计 90 万字,这也意味着 DeepSeek 能够单次完成处理《三体》全集的长文本。

记者随即提交了《三体》全集,DeepSeek 的处理速度相较文字更少的《简爱》要慢一些,但也在几分钟内完成了文档阅读。

值得关注的是,近期 DeepSeek 开放了多个技术岗位招聘,包括产品经理 / 模型策略产品经理、客户端 / 前端 / 全栈研发工程师等。

此外,DeepSeek 还在 1 月 14 日发布了 CFO 的岗位招聘。

目前,能将上下文推至百万级别的模型较少,谷歌的 Gemini 系列和 Anthropic 的 Claude Opus 4.6 等已率先实现。

DeepSeek 的 V 系列模型定位为追求极致综合性能的基础模型。2024 年 12 月推出的基础模型 V3 是 DeepSeek 的重要里程碑,其高效的 MoE 架构确立了强大的综合性能基础。此后,DeepSeek 在 V3 基础上快速迭代,发布了强化推理与 Agent(智能体)能力的 V3.1,并于 2025 年 12 月推出了最新正式版 V3.2。同时,还推出了一个专注于攻克高难度数学和学术问题的特殊版本 V3.2-Speciale。

科技媒体 The Information 此前爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4,将具备更强的写代码能力。

随着这个日期迫近,襁褓中的 V4 成了关注焦点,Deepseek 的每一次更新,都引来诸多关注。据《科创板日报》梳理,今日的版本更新之外,年初以来,Deepseek 公布了两项底层架构突破,并释放一个旗舰迭代信号。

今年初,DeepSeek 团队发表两篇论文,公开了两项创新架构:mHC(流形约束超连接)用来优化深层 Transformer 信息流动,使模型训练更稳定、易扩展,在不增加算力负担前提下提升性能;Engram(条件记忆模块)将静态知识与动态计算解耦,用廉价 DRAM 存储实体知识,释放昂贵 HBM 专注推理,显著降低长上下文推理成本。

这两项技术被认为是中国大模型突破 " 算力芯片和内存瓶颈 " 的算法创新,创始人梁文锋均署名参与相关论文。

1 月 21 日,R1 模型发布一周年之际,DeepSeek 新模型 "MODEL1" 曝光。DeepSeek 官方 GitHub 仓库更新了一系列 FlashMLA 代码,借助 AI 对全部总代码文件数 :114 个(包括 .py, .md, .txt, .sh, .cpp, .cu, .h 文件)进行分析,发现了一个此前未公开的模型架构标识 "MODEL1",共被提及 31 次。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

三体 科创板 产品经理 the 阅读
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论