
大家注意到了吗,DeepSeek 悄悄上线了「识图模式」,可以支持图片理解了。

在 DeepSeek 的 web 或者 app 界面里,原有的「快速模式」和「专家模式」右侧,出现了一个全新「视图模式」。
以前,DeepSeek 对于图片,只有 OCR 能力,也就是说只能识别并提取图片里额文字,而不具备完整的视觉能力,无法理解图片内容。
现在,DeepSeek 告别了睁眼瞎历史。
我先测试了一下「老鼠夹子」图片的识别,网上流传着一个笑话:豆包会把老鼠夹子识别成卡丁车玩具。
DeepSeek 这次没有翻车,而且实测中反应速度极快,几乎是零延迟输出。(当然,我也试了豆包,豆包也不翻车,不过豆包会自动启用搜索功能,以保证更精准、更具备时效的回答,而 DS 的视图是不带联网搜索的,所以反应更快。)

不要小看这个识图功能,DeepSeek 可以不支持多模态,不去卷生图、生视频的赛道,但是原生视觉理解功能非常有必要。(以前鹅厂元宝有个买点,就是作为 DeepSeek 的识图外挂。)
这一点,对智能体和 Coding 场景也非常有价值 ↓
智能体看屏幕、看界面、看现实环境,都可以用 DS 的原生识图能力了
丢一张 UI 截图,直接生成前端代码,看产品原型,直接给修改建议。当然,你也终于可以用 DeepSeek 来玩数独和找不同了。
刚刚我把 Anthropic 的官网首页丢给 DeepSeek,瞬间帮我复刻出前端代码,相当丝滑。

不过,目前这个识图能力,只是灰度测试,并没有面向所有人开放,能不能有,要看运气。
怎么样,现在打开你的 DeepSeek,看看你被官方偏爱了吗?
识图的一小步,却是 DeepSeek 迈向多模态的一大步


登录后才可以发布评论哦
打开小程序可以发布评论哦