DeepSeek 悄悄上线了图片识别!!

（来源：Python 数据科学）

虽然我非常支持国内大模型，不过说实在没有多模态很多需求是真的不方便实现。最近，DeepSeek 悄悄的上线了 " 识图模式 "，难道要要开始多模态了吗？前几天就发现了内测，现在已经开始大规模上线了，Web 端和 App 端都能用，兄弟们可以去试试了。

小试牛刀

为了验证到底几斤几两，东哥我亲自上手，找了两张图刁难一下。

测试下来感受是，回复速度非常快，回答内容上我认为是比较准确的。

第一个图。基本上通过肉眼能看到的东西都用文字描述出来了，除了一些遮挡确实看不清楚的。更深层次的，它通过细节比如餐具和包装判断出是外卖，这也是准确的，龙虾和拌菜确实都是买的，最后它推测是一个宵夜或者正餐，没毛病正是东哥昨天的晚餐。

第二个图。东哥换了一个角度，用 AI 生成的图来测一下。

结果呢，也非常出乎我的意料，分析的头头是道，水印、身体部位、光线、发丝，通过多个角度给出了实锤 AI 的结论。

有些朋友可能会有疑问，这个识图不会是 OCR 吧，还真的不是。DeepSeek 的 " 识图模式 " 和传统的 OCR 完全是两码事，它是一项真正的多模态视觉理解能力，而且背后的技术思路还挺特别的。

简单说，OCR 是 " 看字 "，而 DeepSeek 的识图是 " 看图 " 和 " 理解图 "。就像东哥上面的识图回答一样，它可以推理这是宵夜或者正餐了。

api 模型也上了吗？

这可能也是很多朋友比较关心的。东哥一直在用的 DeepSeek V4pro [ 1M ] 满血版，这一类属于 api 的顶配付费模型，但一直以来都是文字大模型，目前还没听说 api 模型有多模态的消息。

不过大家的呼声一直是很高的，因为确实有这方面需求，加之国外几款模型都支持，如果想要有一战之力的话，必须要加快更新啊。这次公共的窗口上了多模态，我相信 api 上也会很快跟上了。

宙世代