特大牛 1小时前
DeepSeek终于「不瞎」了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大家注意到了吗,DeepSeek 悄悄上线了「识图模式」,可以支持图片理解了。

在 DeepSeek 的 web 或者 app 界面里,原有的「快速模式」和「专家模式」右侧,出现了一个全新「视图模式」。

以前,DeepSeek 对于图片,只有 OCR 能力,也就是说只能识别并提取图片里额文字,而不具备完整的视觉能力,无法理解图片内容。

现在,DeepSeek 告别了睁眼瞎历史。

我先测试了一下「老鼠夹子」图片的识别,网上流传着一个笑话:豆包会把老鼠夹子识别成卡丁车玩具。

DeepSeek 这次没有翻车,而且实测中反应速度极快,几乎是零延迟输出。(当然,我也试了豆包,豆包也不翻车,不过豆包会自动启用搜索功能,以保证更精准、更具备时效的回答,而 DS 的视图是不带联网搜索的,所以反应更快。)

不要小看这个识图功能,DeepSeek 可以不支持多模态,不去卷生图、生视频的赛道,但是原生视觉理解功能非常有必要。(以前鹅厂元宝有个买点,就是作为 DeepSeek 的识图外挂。)

这一点,对智能体和 Coding 场景也非常有价值 ↓

智能体看屏幕、看界面、看现实环境,都可以用 DS 的原生识图能力了

丢一张 UI 截图,直接生成前端代码,看产品原型,直接给修改建议。当然,你也终于可以用 DeepSeek 来玩数独和找不同了。

刚刚我把 Anthropic 的官网首页丢给 DeepSeek,瞬间帮我复刻出前端代码,相当丝滑。

不过,目前这个识图能力,只是灰度测试,并没有面向所有人开放,能不能有,要看运气。

怎么样,现在打开你的 DeepSeek,看看你被官方偏爱了吗?

识图的一小步,却是 DeepSeek 迈向多模态的一大步

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

界面 ds
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论