DeepSeek就是传说中那个世外高手

平常不显山露水，一出手惊涛骇浪，而且招式从没人见过。这就是传说中的世外高手。

20 日，DeepSeek 推出 OCR（光学字符识别）模型，犹如一颗深水炸弹，在西方科技圈炸出无数感叹号。

OCR 不是新技术，已经广泛应用在生活中，如停车场自动识别车牌号码；拍照识别银行卡号、身份证；微信群里的图片提取文字等等，仿如生活中无处不在的一双 " 眼睛 "。

大模型，即大语言模型，基于文本，工作原理就像一个需要逐字阅读的学生，处理长文本的时候，token 数量会线性增长，消耗大量计算资源和内存。DeepSeek-OCR 则学会 " 看图识字 "，工作原理是将文本内容转换为图像，再高效压缩，最后用视觉模型将压缩后的图像转化为极简的 " 视觉标记 "，由语言模型解码还原，就像把一本厚书拍成一张照片，依然能读懂其中的内容。

DeepSeek-OCR 压缩 10 倍，还原率是 96.5%；压缩 20 倍，还原率还保持 60% 左右，效率大幅提升，能耗大幅减少。前特斯拉总监 Karpathy 对 DeepSeek-OCR 高度赞赏，认为它可能预示着 " 文本输入终将让位于像素输入 "。

4.5 亿年前，三叶虫进化出感光能力，生命第一次看见了光，随后地球物种涌现，史称寒武纪生命大爆发——动物通过眼睛看见世界，然后感知、然后行动。人类祖先也不例外，只是后来诞生了语言去认知和理解世界、改变了自己的命运，从而成为万物之灵。

目前大语言模型最大的争议，即其是个 " 瞎子 "，仅从人类语言入手，并不能看见世界，也不能真正理解这个世界，有关观点在已论及。

DeepSeek-OCR 为大模型安上了一双眼睛，触达了生命智能的源头—— " 看见 "，尽管 DeepSeek-OCR 只是从二维的静态图像中识别和提取文字，还不是真正意义从动态的三维空间看见世界，但它无疑给人工智能模型，无论是广泛应用的大模型、视觉模型、多模态模型，还是在前沿探索的世界模型，提供了崭新思路和技术路线，犹如传说中的世外高手，使出了一招天外飞仙。这就是西方科技圈为之震撼的原因。

尽管 OCR 模型如此惊艳，但其影响力似乎只在科技圈。就像 2024 年底 DeepSeek 发布的 V3，以极高的性价比和训练效率轰动西方科技圈，圈外却风平浪静，直到 2025 年 1 月 R1 推出，才在全球掀起人工智能应用浪潮，成为耀眼全球的科技明星。

OCR 模型是否 R2 发布的前奏？看历史轨迹，极有可能。

★

商务合作/ 转载合作

宙世代

一起剪

相关标签