量子位 20小时前
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

今天,你被 DeepSeek 识图模式灰度到了吗?

大家对 DeepSeek 的多模态属实期待了太久太久,如今惊喜紧随 V4 的发布而来,没等 DeepSeek 官方释出更多信息,民间已经从各个方向开始挖掘 " 识图 " 背后的种种蛛丝马迹。

还真有不少发现。

比如,DeepSeek 识图模式背后,看上去是一个独立于 V4 flash/pro 的新模型。

又比如,DeepSeek 在 V4 技术报告里的 " 未来展望 ",实际上可能都做的差不多了……

今天眼睛一睁,俺也喜提灰度,这就来展示一下实测成果。

实测 DeepSeek 识图模式

在识图模式下,可以选择是否开启深度思考。

非思考模式下,这个 DeepSeek 视觉模型的速度非常快,比闪电五连鞭还要快。

点击发送键,几乎无需等待,答案就吭哧吭哧冒了出来。

那么思考和非思考模式下,DeepSeek 识图模式的推理能力会有什么样的差别?

推理能力

先上一道空间推理题:要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型,还需在问号处添加的图形是哪个?

非思考模式秒给答案,然后……秒错。

开启深度思考后,DeepSeek 成功闯关,给出了正确答案 D。

但可以看到,它思考这个问题整整用了4 分多钟

这个思考过程的冗长程度,我们可以直观地感受一下——

在思考的中段,其实 DeepSeek 已经找到了正确答案:

但马上就是一个 " 等等 ",然后……又绕了一大堆。

这个问题有人也在 DeepSeek 研究员陈小康的推文下反馈了。

再试试图片找不同:找出两张图片中所有的不同点。

非思考模式下,DeepSeek 很快找到了 7 处不同。

可以很明显地看出,其中幻觉不少,比如第 5 点托盘里的钥匙不知道是怎么来的,第 7 点苹果和香蕉之间也没有白色的空盘子。

思考模式这次则只用了 16 秒的时间,找出了 12 处不同。

但……不知道是不是图片本身的原因,幻觉更多了。

实用功能

推理部分还有进步空间,那么在实用功能方面,DeepSeek 的识图模式是否靠谱呢?

试试OCR

把 DeepSeek V4 技术报告的摘要丢进 DeepSeek 识图模式,不开深度思考的情况下,它依然是闪电出结果,还贴心地给开源链接给超链了。

纯文本看上去问题不大,再看看表格 DeepSeek 能不能 hold 住。

没什么问题,格式上也能用 markdown 码得整整齐齐。

而更受欢迎的一种新玩法是,把网页图片发给 DeepSeek,它直接能给你复原出 HTML 来(非思考模式就能实现)。

其中的按钮都是可用的,比如给出 API 文档的链接,它能自动配置好实现跳转。

DeepSeek 还能顺利通过 " 隐藏图片 " 测试。

但在色盲测试中,偶见翻车。

根据识图模式自己的回答,它的知识和 DeepSeek V4 flash/pro 一样,截止到 2025 年 5 月。

而从它的世界知识中,有博主发现了端倪:视觉模型知道 Ta,而 V4 flash/pro 则并不了解 Ta。

是不是说,识图模式中的视觉模型,是独立训练的?

验证了一下,flash 不联网的时候确实没有关于这位主包的知识。但识图模式则找到了 2026 年 4 月的信息。

做的比说的更快

目前,DeepSeek 的识图模式还在灰度测试当中,陈小康透露灰度范围正在逐步扩大。

实测下来坦白说,DeepSeek Vision 还有不少可以精进之处。

但话说回来,谁又能想到 DeepSeek 的多模态,来的这么快呢?

当 DeepSeek 在 V4 的技术报告中写下," 我们也正在努力将多模态能力整合到我们的模型中 ",大家都以为这还只是个优先级没那么高的目标,不少朋友都在惋惜的同时,也认同 " 资源有限的情况下优先做好纯文本是对的 "。

而现在看来,DeepSeek 做到的或许比外界想象的更多、更快。

那么论文中提到的 " 在 MoE 和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度 ",是不是也……

参考链接:

[ 1 ] https://x.com/teortaxesTex/status/2049422327914332307?s=20

[ 2 ] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库「2026 中国 AI 应用全景图谱」与「值得关注落地案例」评选启动征集!

扫码申报,让你的产品定义 2026 中国 AI 应用行业格局。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

flash
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论