要说这一年来,最难等到的大模型迭代。
无疑是新年期间扔出王炸、刷屏全网,让硅谷一众科技大厂股价暴跌的 DeepSeek 了。
眼看这一两年间。
国产大模型们迭代速度快如闪电、模型能力一节比一节强。
什么多模态、什么 Agent 特化模型搞得飞起。
但这小鲸鱼完全没有大动静,偶尔有点更新,也只是缝缝补补。
比如上个 DeepSeek V3.2 给用户解解馋,又或是开源个 OCR 模型,折腾别的技术方向。

不过好消息是,这回 DeepSeek V4 真要来了。
有报道表示:
DeepSeek 创始人梁文锋近日在内部沟通中透露,DeepSeek 新一代旗舰大模型 DeepSeek V4 将于 4 月下旬正式发布。
然后机哥看了眼日期。
这个月只剩二十多天,再怎么跳票,也不可能跳到猴年马月吧。

目前 DeepSeek 的官网,已经更新了全新界面。
分为快速模式和专家模式。
快速模式咱都很熟悉了,主要负责日常知识问答。
专家模式则负责解决复杂问题,但模型应该还不是 V4。

结合可靠爆料来看,真正的 DeepSeek V4,应该会有以下新特性。
一个是优化底层架构。
这也让它拥有动态推理和静态记忆能力,有效减少 GPU 压力,让长文本处理起来更优雅精准。
另一个是流形约束超连接(mHC)。
主要是用来解决,超长上下文的记忆和逻辑关联出错问题。
当然模型参数肯定能达到万亿级别,并且支持原生多模态能力,能真正理解图片、视频和音频了。

现在的 DeepSeek 虽然支持上传图片,但本质上使用 OCR 技术去解析图片文字。
就 ... 非常老派的做法。

最后还有个比较有意思的爆料,机哥觉得很有必要提一嘴。
有消息表示。
DeepSeek V4 在前期测试阶段,把早期访问和训练权限,优先提供给包括华为在内的芯片厂商。

一般来说。
英伟达和 AMD 的显卡算力更高,大模型厂商在正式开源发布之前,都会把模型放到这俩平台上测试。
但很显然,DeepSeek 选择了更 NB 的打法。

据说 DeepSeek V4,已经深度适配了华为昇腾 950 PR 芯片。
包括阿里、字节跳动和腾讯等科技大厂,也提前预定了一大批高算力 AI 芯片,做足准备。
等 DeepSeek V4 正式上线后,就能快速把新模型集成到自家 AI 产品上。
至于国产芯片大厂和大模型大厂们,最终会搞出什么火花。
静待四月,揭晓谜底。
图片来自网络


登录后才可以发布评论哦
打开小程序可以发布评论哦