星河商业观察 02-12
DeepSeek启动百万token测试,部分用户称失去灵魂?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2 月 11 日,DeepSeek 在其 App 与网页端悄然开启新一轮灰度测试,将模型上下文窗口从 V3.1 版本的 128K token,直接提升至 1M(百万)token。DeepSeek 称可以一次性处理《三体》三部曲,并理解和分析其内容。

另外,升级了模型知识库截至日期和增强的文件处理能力。模型知识库更新至 2025 年 5 月,即便在离线状态下,也能准确回应 2025 年上半年的各类新闻事件。支持上传图像、PDF、Word、Excel、PPT、TXT,能从文件中提取文字信息并深度分析。

这一系列密集升级,被业内看作是其新一代旗舰模型 V4 即将亮相的重要信号。

此次测试版本仍为纯文本形态,暂不支持视觉输入及多模态识别功能,但成功补齐了长文本处理的核心短板,直接对标 Google Gemini 的百万级上下文能力。

官方没有正式公布更新,但有部分用户在试用时吐槽," 丢掉了 DeepSeek 最有灵魂的东西 "" 现在这版本小说文笔巨差,以前的文笔我认为是业界巅峰,比什么 gptgrok 都强,就是 2 月 11 号后一切都变了。"" 不知道的还以为在写诗呢,一句话一段你知道我看得多崩溃吗?"

也有用户认为这只是新版本测试,后续会根据反馈优化的。

DeepSeek 的更新开年以来一直在铺垫。

早在 2025 年下半年,受生态布局薄弱、产品能力偏科等因素影响,DeepSeek 的用户规模和活跃度均出现明显下滑,外界对其发展前景一度提出质疑。对此,DeepSeek 团队并未急于回应,而是选择低调深耕技术,陆续发布 V3.2 系列模型、数学专用模型及 OCR 工具,为新一轮技术突破默默蓄力。

1 月,DeepSeek 以罕见的频率连续发布两篇关键技术论文,为这次灰度测试的顺利推进筑牢了技术根基。其中,元旦当天发布的 mHC 流形约束超连接架构,解决了大规模模型训练过程中的稳定性难题。

1 月中旬,开源的 Engram 条件记忆模块,则采用哈希查找替代高成本的神经网络计算,实现 " 查算分离 ",可将超大参数表迁移至 CPU 内存,推理延迟控制在 3% 以内,天然适配百万级长上下文场景,大幅降低了长序列推理的算力开销。

不到一个月前,DeepSeek 自研解码核心库 FlashMLA 更新时,社区开发者意外发现了代号为 "Model 1" 的全新模型标识。该标识独立于现有 V3.2 架构,在 KV 缓存布局、稀疏性处理以及 FP8 数据格式解码等方面,都与 V3.2 版本存在明显差异,这意味着 DeepSeek 正在进行一次底层架构的全面重构,而非简单的版本迭代。

据悉,DeepSeek 下一代旗舰模型预计将是一款万亿参数级别的基础模型,正因规模大幅跃升,训练速度明显放缓,导致发布进程有所延后。但野村证券 2 月 10 日发布的报告里提到,预测 DeepSeek V4 会在 2 月中旬发布。

DeepSeek 将全面整合 mHC 与 Engram 两项核心技术,摒弃盲目堆砌参数的行业惯性,重点提升模型的推理、编程以及长文本处理效率。

目前,DeepSeek 并未对此次灰度测试作出回应。

来源:星河商业观察

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

准确 三体 元旦 google 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论