(来源:Python 数据科学)
虽然我非常支持国内大模型,不过说实在没有多模态很多需求是真的不方便实现。最近,DeepSeek 悄悄的上线了 " 识图模式 ",难道要要开始多模态了吗?前几天就发现了内测,现在已经开始大规模上线了,Web 端和 App 端都能用,兄弟们可以去试试了。


小试牛刀
为了验证到底几斤几两,东哥我亲自上手,找了两张图刁难一下。
测试下来感受是,回复速度非常快,回答内容上我认为是比较准确的。
第一个图。基本上通过肉眼能看到的东西都用文字描述出来了,除了一些遮挡确实看不清楚的。更深层次的,它通过细节比如餐具和包装判断出是外卖,这也是准确的,龙虾和拌菜确实都是买的,最后它推测是一个宵夜或者正餐,没毛病正是东哥昨天的晚餐。

第二个图。东哥换了一个角度,用 AI 生成的图来测一下。
结果呢,也非常出乎我的意料,分析的头头是道,水印、身体部位、光线、发丝,通过多个角度给出了实锤 AI 的结论。

有些朋友可能会有疑问,这个识图不会是 OCR 吧,还真的不是。DeepSeek 的 " 识图模式 " 和传统的 OCR 完全是两码事,它是一项真正的多模态视觉理解能力,而且背后的技术思路还挺特别的。
简单说,OCR 是 " 看字 ",而 DeepSeek 的识图是 " 看图 " 和 " 理解图 "。就像东哥上面的识图回答一样,它可以推理这是宵夜或者正餐了。
api 模型也上了吗?
这可能也是很多朋友比较关心的。东哥一直在用的 DeepSeek V4pro [ 1M ] 满血版,这一类属于 api 的顶配付费模型,但一直以来都是文字大模型,目前还没听说 api 模型有多模态的消息。
不过大家的呼声一直是很高的,因为确实有这方面需求,加之国外几款模型都支持,如果想要有一战之力的话,必须要加快更新啊。这次公共的窗口上了多模态,我相信 api 上也会很快跟上了。


登录后才可以发布评论哦
打开小程序可以发布评论哦