第一财经 2小时前
DeepSeek全量上线识图模式?能识别鹅腿阿姨的“绿色鸭腿”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

6 月 18 日,打开 DeepSeek 的网页端和 APP 端,几乎所有用户会发现,在以往的快速模式和专家模式右边,多了一个识图模式,这意味着,很多没有被灰度测试到的用户,终于可以用 DeepSeek 处理图片了。

目前 DeepSeek 官方暂未发布公开介绍,在模型界面显示的也仍然是 " 图片理解功能内测中 ",有猜测这次是全量测试推送。不过,今天 DeepSeek 多模态团队负责人陈小康在社交媒体上提到的口吻是,视觉模式已在网页和应用上正式上线," 试试这双新眼睛 "。

值得一提的是,就在 5 天前,陈小康还紧跟热点,将鹅腿阿姨的 " 绿色鸭腿 " 发给 DeepSeek 识别,从回复来看,DeepSeek 能辨认出这不是鹅腿,同时提出这个绿色有可能是食品安全隐患。" 如果当年有 DeepSeek,今年是不是就没有‘鸭骗战争’了。" 他调侃。

在这一评论区里,有用户提问为什么还用不上视觉功能,当时陈小康回复," 灰度(测试)只有少量用户能用到 "。今年 4 月底,DeepSeek 识图模式启动灰度测试,在 5 月进行了一次大范围开放,但不少用户仍然没用上,直到这次似乎是面向所有用户开放测试了。

DeepSeek 的识图效果如何?第一财经记者上手感受了一下,不同情境下的效果不同。

发给 DeepSeek 一张关于上海外滩的建筑图,问这是哪里,DeepSeek 在用时 16 秒后就给出了正常答案,分析出了四个主要的建筑,并且还答出了白色拱桥 " 大概率是乍浦路桥 ",是经典摄影角度。

不过,换成这几天热门的佛得角守门员沃齐尼亚,DeepSeek 就不一定能认出来了。DeepSeek 用了一分多钟进行深度思考,思考过程几次提到佛得角,但对应不上具体的球员,最后给出了一个完全错误的答案。

这或许是因为沃齐尼亚此前并不出名,大模型训练数据里并不涉及,同时 DeepSeek 的识图模式没有联网搜索的功能,因此无法识别当下的热点人物。

记者注意到,在社交平台,有早就被灰度测试覆盖到的用户反馈,DeepSeek 的识图能力超过了国产模型的平均水平,但和海外顶级模型相比,在复杂图片理解、细节推理等方面还有差距。

具体来看,如果是日常截图、报错信息、表格、论文、网页内容这类场景,DeepSeek 的识图基本够用,且速度很快。但如果是较为复杂的图片,如多层逻辑流程图、复杂的数据图表准确率会开始下降。但上述用户认为,考虑到价格和开放程度,DeepSeek 仍然值得一用。

就在 4 月 30 日,DeepSeek 曾发布了一篇关于多模态技术报告《Thinking with Visaul Primitives》(《用视觉原语思考》),阐释了多模态技术背后的细节。但很快大家发现,官方连夜删除了多模态仓库和论文原文,打开 Github 界面已经是 "404" 状态。

当时外界猜测很多,有的认为 DeepSeek 还未准备好,有的则认为是论文透露信息太多了。在论文中,DeepSeek 认为,目前的多模态模型在复杂任务上崩溃,不是因为看不见(感知鸿沟),而在于 " 指不准 "(引用鸿沟)。多模态智能的未来,不只是 " 看见更多像素 ",而是构建语言与视觉之间精准、无歧义的指代桥梁。

目前 DeepSeek 还未公开宣布识图模式上线,关于这一模式的技术细节以及更多消息,还需等待官方的介绍。

( 本文来自第一财经 )

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果 安全隐患 社交平台 上海 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论