快科技 2 月 13 日消息,前几天国产 AI 来了一波爆发,智谱 GLM-5、Minimax 2.5 及 DeepSeek 在 11 日同一天都发布了新的大模型,其中 DeepSeek 的自然最受关注。
此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了 1M,而之前的 DeepSee V3 系列也就是 128K,这方面相对前代 V3 系列大模型提升了 7 倍。
今晚 DeepSeek 也在官方群中正式确认了这一点,表示网页及 APP 版正在测试新的长文本模型结构,支持 1M 上下文。
同时 DeepSeek 还强调 API 服务还没变,还是 V3.2 系列大模型,只支持 128K 上下文。

从 DeepSeek 的介绍来看,这次的新模型还是文本模型,主要提升就是上下文能力,这个在很多领域也非常重要,长对话时很容易因为上下文不够导致大模型记不住之前的内容了。
虽然网上已经有很多实测显示这次的 DeepSeek 大模型在编程、输出速度等方面提升也非常大,但相比于此前的期待,这次的更新难免有些失望。
这次的大模型显然不是 V4,更可能是 V4 Lite,因为参数量据悉只有 2000 亿,比 V3 系列的 6700 亿还少很多,因此部分能力比 V3 还差也是正常。
猜测这个模型是 V4 lite,DeepSeek 未来发布的 V4 大模型也不太可能只有一款,而是有不同版本,每个系列有不同的方向和设计,现在的这个 V4 Lite 只是探路,因此提升的内容不多,而且 DeepSeek 官方也没有详细说明其技术架构,一切还有待更多信息释放。
传闻中的 DeepSeek V4 满血版是 1.5 万亿参数,比 V3 系列翻倍还多,还会使用之前 DeepSeek 研究的 Engram、mHC 等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。



登录后才可以发布评论哦
打开小程序可以发布评论哦