两人小团队,仅用两周就复刻了之前被硅谷夸疯的 DeepSeek-OCR??
复刻版名叫DeepOCR,还原了原版低 token 高压缩的核心优势,还在关键任务上追上了原版的表现。
完全开源,而且无需依赖大规模的算力集群,在两张 H200 上就能完成训练。

DeepSeek-OCR 的设计思想是 " 靠视觉压缩一切 ",通过用少量的视觉 token 来表示原本需要大量文本 token 的内容,以此降低大模型的计算开销,解决了大模型处理长文本的算力爆炸难题。
两人小团队能在短时间里复刻出核心能力,怎么做到的?
更实用的复刻版
先来简单回顾一下 DeepSeek-OCR 为啥会大爆。
大模型处理长文本时,算力会跟着序列长度呈二次方增长,几百页的文档就能把显存撑爆。
而 DeepSeek-OCR 想出了个反常识的解法——把文字渲染成图片,用视觉模态当压缩媒介。
这样一来,原本要几千个文本 tokens 才能承载的内容,几百个视觉 tokens 就够了,压缩比能做到 7-20 倍,而且10 倍压缩下准确率还能保持 97%。
也难怪它一开源就火了,还被称为 "AI 的 JPEG 时刻 "。

而两人小团队复刻的核心策略也很明确,先把原版的逻辑架构精准还原。
△DeepSeek-OCR 架构
DeepSeek-OCR 的灵魂就在于 DeepEncoder 编码器。在这部分上,团队严格遵循原版设计,采用「局部处理 - 压缩 - 全局理解」的三阶段串联结构。
第一步用 SAM-base 处理高分辨率图像,把 1024 × 1024 的图切成 16 × 16 的补丁,靠窗口注意力控制激活内存,就算生成 4096 个初始 token 也不会让显存过载;
然后用 16 × 卷积压缩器、两层 3 × 3 卷积把 4096 个 token 砍到 256 个,还把特征维度从 256 扩到 1024,为后续的全局注意力减负;
最后用 CLIP-large 接手,但它不读原图,只处理压缩后的 256 个 tokens,靠密集全局注意力抓文档语义,避开了纯全局注意力的内存爆炸问题。
复刻版还像原版一样,把 CLIP 的补丁特征和展平后的 SAM 特征拼接,输出 2048 维的融合特征。

不过,在解码器上,复刻版做了个更务实的调整,把原版激活参数为 570M 的DeepSeek-3B-MoE 换成了 Qwen2-7B-Instruct。
做这个调整倒不是技术还原不了,而是 Qwen2-7B-Instruct 和 VILA 训练框架兼容性更好,而且是完全开源的。
从后面的结果上看,这个替换是合理的,核心能力没丢,还降低了落地门槛。

在训练上,DeepOCR 的低算力友好特性体现得很明显。
采用两阶段训练流程,且全程冻结 DeepEncoder(SAM+CLIP),这个设计就大幅降低了显存需求。
第一阶段仅训练多模态投影仪,冻结 DeepEncoder 与 LLM,采用 512 的全局 batch size、1e-3 学习率,配合 AdamW 优化器与 ZeRO-3 卸载技术;
第二阶段是全模型预训练,训练多模态投影仪与 LLM,仍冻结 DeepEncoder,全局 batch size 降至 32,学习率调整为 5e-5,同时开启梯度检查点进一步减少激活内存占用。
这套训练方案可以在 2 × H200 GPU 上跑通 ,还是挺适配中小团队资源条件的。

再看实测数据,压缩效率上,DeepOCR 用约 250 个视觉 tokens,效率虽然稍逊色于 DeepSeek-OCR Base 版,但 Qwen2.5-VL-7B 等基线 VLMs 需要 3949 个 token 才能达到类似效果。
这也印证了光学压缩逻辑的有效性。
基础任务中,英文文本识别和表格解析表现突出,尤其表格解析甚至优于原版,这也得益于对原版 2D 空间编码的精准还原。

在 olmOCR 基准里,简单文档的基础 OCR 能力也很扎实,与原版表现接近。

当然,DeepOCR 和原版客观上的差距也有,但并不是架构没还原好,而是训练数据的限制。
团队表示接下来会补充公式、多语言、旧扫描件等数据,试试动态温度缩放、RLVR 这些技术,把复杂任务的差距再缩小。
两人团队介绍
Ming Liu 本科毕业于山东大学,专业是应用物理。后来在北京大学拿到了物理硕士学位,目前在爱荷华州立大学攻读计算机博士,研究聚焦于多模态领域。
曾在亚马逊担任应用科学家实习生,从事 LLM 相关工作。

刘世隆在清华大学拿到了工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员。研究领域在 LLM 智能体、多模态、计算机视觉等方面。
在加入普林斯顿之前,他曾是字节 Seed 团队的科研人员。还曾在英伟达、微软等公司实习过。

项目主页:
https://pkulium.github.io/DeepOCR_website/
代码地址:
https://github.com/pkulium/DeepOCR
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止!点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺
一键关注 点亮星标
科技前沿进展每日见



登录后才可以发布评论哦
打开小程序可以发布评论哦