量子位 12小时前
两周复刻DeepSeek-OCR!两人小团队还原低token高压缩核心,换完解码器更实用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

两人小团队,仅用两周就复刻了之前被硅谷夸疯的 DeepSeek-OCR??

复刻版名叫DeepOCR,还原了原版低 token 高压缩的核心优势,还在关键任务上追上了原版的表现。

完全开源,而且无需依赖大规模的算力集群,在两张 H200 上就能完成训练。

DeepSeek-OCR 的设计思想是 " 靠视觉压缩一切 ",通过用少量的视觉 token 来表示原本需要大量文本 token 的内容,以此降低大模型的计算开销,解决了大模型处理长文本的算力爆炸难题。

两人小团队能在短时间里复刻出核心能力,怎么做到的?

更实用的复刻版

先来简单回顾一下 DeepSeek-OCR 为啥会大爆。

大模型处理长文本时,算力会跟着序列长度呈二次方增长,几百页的文档就能把显存撑爆。

而 DeepSeek-OCR 想出了个反常识的解法——把文字渲染成图片,用视觉模态当压缩媒介

这样一来,原本要几千个文本 tokens 才能承载的内容,几百个视觉 tokens 就够了,压缩比能做到 7-20 倍,而且10 倍压缩下准确率还能保持 97%

也难怪它一开源就火了,还被称为 "AI 的 JPEG 时刻 "。

而两人小团队复刻的核心策略也很明确,先把原版的逻辑架构精准还原。

DeepSeek-OCR 架构

DeepSeek-OCR 的灵魂就在于 DeepEncoder 编码器。在这部分上,团队严格遵循原版设计,采用「局部处理 - 压缩 - 全局理解」的三阶段串联结构。

第一步用 SAM-base 处理高分辨率图像,把 1024 × 1024 的图切成 16 × 16 的补丁,靠窗口注意力控制激活内存,就算生成 4096 个初始 token 也不会让显存过载;

然后用 16 × 卷积压缩器、两层 3 × 3 卷积把 4096 个 token 砍到 256 个,还把特征维度从 256 扩到 1024,为后续的全局注意力减负;

最后用 CLIP-large 接手,但它不读原图,只处理压缩后的 256 个 tokens,靠密集全局注意力抓文档语义,避开了纯全局注意力的内存爆炸问题。

复刻版还像原版一样,把 CLIP 的补丁特征和展平后的 SAM 特征拼接,输出 2048 维的融合特征。

不过,在解码器上,复刻版做了个更务实的调整,把原版激活参数为 570M 的DeepSeek-3B-MoE 换成了 Qwen2-7B-Instruct

做这个调整倒不是技术还原不了,而是 Qwen2-7B-Instruct 和 VILA 训练框架兼容性更好,而且是完全开源的。

从后面的结果上看,这个替换是合理的,核心能力没丢,还降低了落地门槛。

在训练上,DeepOCR 的低算力友好特性体现得很明显。

采用两阶段训练流程,且全程冻结 DeepEncoder(SAM+CLIP),这个设计就大幅降低了显存需求。

第一阶段仅训练多模态投影仪,冻结 DeepEncoder 与 LLM,采用 512 的全局 batch size、1e-3 学习率,配合 AdamW 优化器与 ZeRO-3 卸载技术;

第二阶段是全模型预训练,训练多模态投影仪与 LLM,仍冻结 DeepEncoder,全局 batch size 降至 32,学习率调整为 5e-5,同时开启梯度检查点进一步减少激活内存占用。

这套训练方案可以在 2 × H200 GPU 上跑通 ,还是挺适配中小团队资源条件的。

再看实测数据,压缩效率上,DeepOCR 用约 250 个视觉 tokens,效率虽然稍逊色于 DeepSeek-OCR Base 版,但 Qwen2.5-VL-7B 等基线 VLMs 需要 3949 个 token 才能达到类似效果。

这也印证了光学压缩逻辑的有效性。

基础任务中,英文文本识别和表格解析表现突出,尤其表格解析甚至优于原版,这也得益于对原版 2D 空间编码的精准还原。

在 olmOCR 基准里,简单文档的基础 OCR 能力也很扎实,与原版表现接近。

当然,DeepOCR 和原版客观上的差距也有,但并不是架构没还原好,而是训练数据的限制。

团队表示接下来会补充公式、多语言、旧扫描件等数据,试试动态温度缩放、RLVR 这些技术,把复杂任务的差距再缩小。

两人团队介绍

Ming Liu 本科毕业于山东大学,专业是应用物理。后来在北京大学拿到了物理硕士学位,目前在爱荷华州立大学攻读计算机博士,研究聚焦于多模态领域。

曾在亚马逊担任应用科学家实习生,从事 LLM 相关工作。

刘世隆在清华大学拿到了工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员。研究领域在 LLM 智能体、多模态、计算机视觉等方面。

在加入普林斯顿之前,他曾是字节 Seed 团队的科研人员。还曾在英伟达、微软等公司实习过。

项目主页:

https://pkulium.github.io/DeepOCR_website/

代码地址:

https://github.com/pkulium/DeepOCR

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

  年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止点击了解详情

❤️‍   企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺 

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论