微果酱 10-23
DeepSeek就是传说中那个世外高手
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

平常不显山露水,一出手惊涛骇浪,而且招式从没人见过。这就是传说中的世外高手。

20 日,DeepSeek 推出 OCR(光学字符识别)模型,犹如一颗深水炸弹,在西方科技圈炸出无数感叹号。

OCR 不是新技术,已经广泛应用在生活中,如停车场自动识别车牌号码;拍照识别银行卡号、身份证;微信群里的图片提取文字等等,仿如生活中无处不在的一双 " 眼睛 "。

大模型,即大语言模型,基于文本,工作原理就像一个需要逐字阅读的学生,处理长文本的时候,token 数量会线性增长,消耗大量计算资源和内存。DeepSeek-OCR 则学会 " 看图识字 ",工作原理是将文本内容转换为图像,再高效压缩,最后用视觉模型将压缩后的图像转化为极简的 " 视觉标记 ",由语言模型解码还原,就像把一本厚书拍成一张照片,依然能读懂其中的内容。

DeepSeek-OCR 压缩 10 倍,还原率是 96.5%;压缩 20 倍,还原率还保持 60% 左右,效率大幅提升,能耗大幅减少。前特斯拉总监 Karpathy 对 DeepSeek-OCR 高度赞赏,认为它可能预示着 " 文本输入终将让位于像素输入 "。

4.5 亿年前,三叶虫进化出感光能力,生命第一次看见了光,随后地球物种涌现,史称寒武纪生命大爆发——动物通过眼睛看见世界,然后感知、然后行动。人类祖先也不例外,只是后来诞生了语言去认知和理解世界、改变了自己的命运,从而成为万物之灵。

目前大语言模型最大的争议,即其是个 " 瞎子 ",仅从人类语言入手,并不能看见世界,也不能真正理解这个世界,有关观点在已论及。

DeepSeek-OCR 为大模型安上了一双眼睛,触达了生命智能的源头—— " 看见 ",尽管 DeepSeek-OCR 只是从二维的静态图像中识别和提取文字,还不是真正意义从动态的三维空间看见世界,但它无疑给人工智能模型,无论是广泛应用的大模型、视觉模型、多模态模型,还是在前沿探索的世界模型,提供了崭新思路和技术路线,犹如传说中的世外高手,使出了一招天外飞仙。这就是西方科技圈为之震撼的原因。

尽管 OCR 模型如此惊艳,但其影响力似乎只在科技圈。就像 2024 年底 DeepSeek 发布的 V3,以极高的性价比和训练效率轰动西方科技圈,圈外却风平浪静,直到 2025 年 1 月 R1 推出,才在全球掀起人工智能应用浪潮,成为耀眼全球的科技明星。

OCR 模型是否 R2 发布的前奏?看历史轨迹,极有可能。

商务合作/ 转载合作

(请备注 " 转载 " 或 " 合作 ")

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

人工智能 寒武纪 阅读 微信
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论