锋潮评测 8小时前
DeepSeek V4,四月见!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

要说这一年来,最难等到的大模型迭代。

无疑是新年期间扔出王炸、刷屏全网,让硅谷一众科技大厂股价暴跌的 DeepSeek 了。

眼看这一两年间。

国产大模型们迭代速度快如闪电、模型能力一节比一节强。

什么多模态、什么 Agent 特化模型搞得飞起。

但这小鲸鱼完全没有大动静,偶尔有点更新,也只是缝缝补补。

比如上个 DeepSeek V3.2 给用户解解馋,又或是开源个 OCR 模型,折腾别的技术方向。

不过好消息是,这回 DeepSeek V4 真要来了。

有报道表示:

DeepSeek 创始人梁文锋近日在内部沟通中透露,DeepSeek 新一代旗舰大模型 DeepSeek V4 将于 4 月下旬正式发布。

然后机哥看了眼日期。

这个月只剩二十多天,再怎么跳票,也不可能跳到猴年马月吧。

目前 DeepSeek 的官网,已经更新了全新界面。

分为快速模式和专家模式。

快速模式咱都很熟悉了,主要负责日常知识问答。

专家模式则负责解决复杂问题,但模型应该还不是 V4。

结合可靠爆料来看,真正的 DeepSeek V4,应该会有以下新特性。

一个是优化底层架构。

这也让它拥有动态推理和静态记忆能力,有效减少 GPU 压力,让长文本处理起来更优雅精准。

另一个是流形约束超连接(mHC)。

主要是用来解决,超长上下文的记忆和逻辑关联出错问题。

当然模型参数肯定能达到万亿级别,并且支持原生多模态能力,能真正理解图片、视频和音频了。

现在的 DeepSeek 虽然支持上传图片,但本质上使用 OCR 技术去解析图片文字。

就 ... 非常老派的做法。

最后还有个比较有意思的爆料,机哥觉得很有必要提一嘴。

有消息表示。

DeepSeek V4 在前期测试阶段,把早期访问和训练权限,优先提供给包括华为在内的芯片厂商。

一般来说。

英伟达和 AMD 的显卡算力更高,大模型厂商在正式开源发布之前,都会把模型放到这俩平台上测试。

但很显然,DeepSeek 选择了更 NB 的打法。

据说 DeepSeek V4,已经深度适配了华为昇腾 950 PR 芯片。

包括阿里、字节跳动和腾讯等科技大厂,也提前预定了一大批高算力 AI 芯片,做足准备。

等 DeepSeek V4 正式上线后,就能快速把新模型集成到自家 AI 产品上。

至于国产芯片大厂和大模型大厂们,最终会搞出什么火花。

静待四月,揭晓谜底。

图片来自网络

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 芯片 开源 字节跳动 腾讯
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论