百度开源OCR登顶全球第一,核心作者疑似DeepSeek出走大神

最近 AI 圈热闹不断，各家扎堆发布多模态大模型，动辄几百 B 参数，比拼算力与参数量成了常态。就在行业疯狂堆规模的时候，百度悄悄开源一款颠覆性 OCR 模型 UnlimitedOCR，彻底跳出 " 参数越大越强 " 的内卷逻辑。

总参仅 3B、实际激活只有 500M 的轻量化模型，在权威文档识别榜单直接刷新全球 SOTA，把 235B 通义千问、Gemini 高端版本全部甩在身后。更打破行业多年无解的痛点：不用分页拆分，单次推理完整解析几十页 PDF，全程不降速、不丢失上下文。代码与权重同步开放 GitHub 与 HuggingFace，背后还藏着国内 OCR 领域顶尖研发人才的流动，标志着百度补齐了前沿文档解析技术短板，从传统产业 OCR 玩家变身通用长文本解析赛道领跑者。

一、500M 迷你模型，性能碾压千亿级多模态大模型

很多人会默认，识别复杂表格、公式、多页论文，必须靠超大参数量大模型才能完成，但 UnlimitedOCR 直接推翻这个认知。

这款 MoE 混合专家模型总参数 3B，推理时真正参与计算的只有 500M 参数，对比动辄上百 B 的通用视觉大模型，算力消耗几乎可以忽略。可在 OmniDocBench 权威测试榜单里，它交出了断层领先的成绩单：v1.5 综合得分 93.23%，更新后的 v1.6 版本提升至 93.92%，创下端到端文档识别新纪录。

同台对比更能凸显差距：235B 的 Qwen3-VL 得分仅 89.15%，72B 的 Qwen2.5-VL 只有 87.02%，谷歌不公开参数量的 Gemini-2.5Pro 也仅 88.03%。这些动辄消耗海量显卡资源的大模型，综合精度全都不及这个 " 小个头 "。

细分场景表现同样无短板，论文、杂志、报纸、PPT、手写文档九大类别全部稳定发挥，公式识别、表格还原、文本阅读顺序三项核心指标，全面超越此前业内标杆 DeepSeekOCR。输出文本速度更是拉开 35% 差距，输出 6144 个字符时，UnlimitedOCR 每秒处理 7847token，前代模型已经下滑至 5822token，越到长文本场景优势越明显。

二、行业通病：所有 OCR 都在 " 读完一页忘一页 "

长期使用文档识别工具的人都有同感，批量处理几十页论文、合同扫描件时，工具只能一页一页单独识别。处理完一页，前面所有内容直接清空，再重新加载下一页图片，最后靠程序把零散文字拼接在一起。

这种看似能用的方式，只是工程层面的妥协，根源卡在传统注意力机制的底层缺陷。常规模型处理文本时，缓存会随输出文字不断膨胀，文本越长，占用内存呈滚雪球式上涨，速度持续变慢，硬件很快扛不住。为了避免内存溢出，厂商只能强制分页处理，天然造成上下文断裂。

就像人抄书不会看完一行就彻底忘掉前面内容，我们会保留完整书页作为参考，只记住刚抄写的几行文字，老旧内容慢慢淡化，不会全盘清空。百度团队把人类这种自然阅读逻辑命名为 " 软遗忘 "，也是 UnlimitedOCR 实现突破的核心灵感来源。

三、核心黑科技 R-SWA：模仿人类阅读，彻底告别长文本失忆

百度本次自研的参考滑动窗口注意力 R-SWA，完整复刻人类抄书、读长篇文档的认知逻辑，也是这款小模型实现跨页长文本识别的关键。

R-SWA 设计分成两条独立逻辑：一是全局可视，模型生成每一段文字时，完整读取全部页面图像与提示词，整本文档内容全程可见，不会出现跨页丢失图表、公式、上下文关联信息的问题；二是局部记忆，输出侧仅保留最近 128 个字符缓存，不会存储上万字历史文本。

落地后最直观的改变是缓存容量固定不变，新文字生成时自动挤掉最早存储的旧内容，输出一万字符和十万字符，占用内存完全相同。

官方延迟测试曲线一目了然：传统注意力解码步数越多，单步耗时持续飙升；搭载 R-SWA 的 UnlimitedOCR 全程速度平稳，不会出现越跑越卡的情况。

搭配 DeepEncoder 视觉编码器，1024 × 1024 尺寸的 PDF 页面能压缩为 256 个视觉单元，压缩倍率高达 16 倍，图像信息不会随长文本解码退化。双重技术加持下，模型在 32K 上下文窗口内单次推理处理数十页文档，输入 20 页文档文字比对误差仅 0.057，40 页以上依旧控制在 0.11 以内，重复输出概率不足 3%，几乎不会出现复读、错乱排版问题。

四、神秘技术总监浮出水面，国内 OCR 大神加盟百度

这份技术报告除亮眼跑分外，作者署名暗藏行业重磅人才变动线索。三位核心创作者中，两位标注完整姓名，技术总监仅用缩写 YY 标注，而 GitHub 致谢列表前两位，正是 DeepSeek 一代、二代 OCR 项目。

顺着行业履历梳理，线索全部指向魏浩然。他是国内端到端 OCR 赛道奠基人，早年在阶跃星辰打造标杆开源模型 GOT-OCR2.0，加入 DeepSeek 后从零搭建整套 OCR 技术线，DeepEncoder、MoE 解码器等核心模块均出自他的团队。今年 4 月 DeepSeek 发布 V4 大模型时，魏浩然名字旁标注离职，也是同期 OCR 团队唯一公开出走的核心负责人。

国内深耕长文档解析、吃透 DeepSeek 整套 OCR 架构，同时能提出 R-SWA 这种底层注意力创新的研发人员寥寥无几，业内普遍判断缩写 YY 对应的技术总监就是魏浩然。

这次人才吸纳，补齐百度多年的技术短板。过往 PaddleOCR 深耕产业落地，手机、嵌入式、服务器全场景覆盖，工程化、稳定性优势突出，但前沿范式创新一直不是重心。魏浩然团队擅长从底层重构 OCR 逻辑，二者结合让百度同时拥有成熟商业化底座与顶尖前沿研发能力。百度今年升级 AIDU 人才计划，高薪吸纳顶尖 AI 研究员，对于想落地前沿技术的研发人员来说，海量产业场景资源远比单纯高薪更有吸引力。

五、不止 OCR：一套通用框架，布局语音、翻译全赛道

在技术报告展望中，研发团队明确表示，R-SWA 不只是适配文档识别的专用技术，是一套通用长程解析机制，OCR 只是落地的第一站，后续会拓展至语音转写、机器翻译等所有长序列任务。

团队已经定下清晰迭代路线：下一步将上下文窗口拓展至 128K，新增自动翻页调度模块。一旦完成优化，AI 不再是单独识别单页文字，而是完整读懂整本书籍、数百页合同、长篇学术著作，真正实现文档级深度理解，而非简单文字提取。

对于普通开发者、中小企业而言，这款开源模型价值巨大：极低硬件门槛，普通消费级显卡就能流畅批量处理海量 PDF，免费开源无商用限制；对于百度自身，依托这套通用注意力框架，未来语音、多模态翻译产品都能解决长文本卡顿、上下文丢失的老问题，构建差异化技术壁垒。

过去很长一段时间，AI 行业陷入 " 堆参数、拼硬件 " 的内卷怪圈，大家默认只有更大规模模型才能解决复杂任务。百度 UnlimitedOCR 走出一条完全不同的路线：靠底层注意力机制创新，用极小算力实现超越千亿大模型的效果，一次性解决行业多年跨页失忆、长文本减速痛点。

顶尖 OCR 研发人才的加入，也让百度完成从 " 工具型 OCR 厂商 " 到 " 通用长序列解析技术提供商 " 的转型。随着 R-SWA 技术向语音、翻译延伸，接下来我们会看到更多颠覆现有产品体验的 AI 工具，长文档、长音频一次性完整理解，会成为行业新标准。目前模型与完整代码已全部开源，开发者可直接前往 GitHub、HuggingFace 下载试用。

宙世代

一起剪

相关标签