最近 AI 圈热闹不断,各家扎堆发布多模态大模型,动辄几百 B 参数,比拼算力与参数量成了常态。就在行业疯狂堆规模的时候,百度悄悄开源一款颠覆性 OCR 模型 UnlimitedOCR,彻底跳出 " 参数越大越强 " 的内卷逻辑。
总参仅 3B、实际激活只有 500M 的轻量化模型,在权威文档识别榜单直接刷新全球 SOTA,把 235B 通义千问、Gemini 高端版本全部甩在身后。更打破行业多年无解的痛点:不用分页拆分,单次推理完整解析几十页 PDF,全程不降速、不丢失上下文。代码与权重同步开放 GitHub 与 HuggingFace,背后还藏着国内 OCR 领域顶尖研发人才的流动,标志着百度补齐了前沿文档解析技术短板,从传统产业 OCR 玩家变身通用长文本解析赛道领跑者。
一、500M 迷你模型,性能碾压千亿级多模态大模型
很多人会默认,识别复杂表格、公式、多页论文,必须靠超大参数量大模型才能完成,但 UnlimitedOCR 直接推翻这个认知。
这款 MoE 混合专家模型总参数 3B,推理时真正参与计算的只有 500M 参数,对比动辄上百 B 的通用视觉大模型,算力消耗几乎可以忽略。可在 OmniDocBench 权威测试榜单里,它交出了断层领先的成绩单:v1.5 综合得分 93.23%,更新后的 v1.6 版本提升至 93.92%,创下端到端文档识别新纪录。
同台对比更能凸显差距:235B 的 Qwen3-VL 得分仅 89.15%,72B 的 Qwen2.5-VL 只有 87.02%,谷歌不公开参数量的 Gemini-2.5Pro 也仅 88.03%。这些动辄消耗海量显卡资源的大模型,综合精度全都不及这个 " 小个头 "。
细分场景表现同样无短板,论文、杂志、报纸、PPT、手写文档九大类别全部稳定发挥,公式识别、表格还原、文本阅读顺序三项核心指标,全面超越此前业内标杆 DeepSeekOCR。输出文本速度更是拉开 35% 差距,输出 6144 个字符时,UnlimitedOCR 每秒处理 7847token,前代模型已经下滑至 5822token,越到长文本场景优势越明显。
二、行业通病:所有 OCR 都在 " 读完一页忘一页 "
长期使用文档识别工具的人都有同感,批量处理几十页论文、合同扫描件时,工具只能一页一页单独识别。处理完一页,前面所有内容直接清空,再重新加载下一页图片,最后靠程序把零散文字拼接在一起。
这种看似能用的方式,只是工程层面的妥协,根源卡在传统注意力机制的底层缺陷。常规模型处理文本时,缓存会随输出文字不断膨胀,文本越长,占用内存呈滚雪球式上涨,速度持续变慢,硬件很快扛不住。为了避免内存溢出,厂商只能强制分页处理,天然造成上下文断裂。
就像人抄书不会看完一行就彻底忘掉前面内容,我们会保留完整书页作为参考,只记住刚抄写的几行文字,老旧内容慢慢淡化,不会全盘清空。百度团队把人类这种自然阅读逻辑命名为 " 软遗忘 ",也是 UnlimitedOCR 实现突破的核心灵感来源。
三、核心黑科技 R-SWA:模仿人类阅读,彻底告别长文本失忆
百度本次自研的参考滑动窗口注意力 R-SWA,完整复刻人类抄书、读长篇文档的认知逻辑,也是这款小模型实现跨页长文本识别的关键。
R-SWA 设计分成两条独立逻辑:一是全局可视,模型生成每一段文字时,完整读取全部页面图像与提示词,整本文档内容全程可见,不会出现跨页丢失图表、公式、上下文关联信息的问题;二是局部记忆,输出侧仅保留最近 128 个字符缓存,不会存储上万字历史文本。
落地后最直观的改变是缓存容量固定不变,新文字生成时自动挤掉最早存储的旧内容,输出一万字符和十万字符,占用内存完全相同。
官方延迟测试曲线一目了然:传统注意力解码步数越多,单步耗时持续飙升;搭载 R-SWA 的 UnlimitedOCR 全程速度平稳,不会出现越跑越卡的情况。
搭配 DeepEncoder 视觉编码器,1024 × 1024 尺寸的 PDF 页面能压缩为 256 个视觉单元,压缩倍率高达 16 倍,图像信息不会随长文本解码退化。双重技术加持下,模型在 32K 上下文窗口内单次推理处理数十页文档,输入 20 页文档文字比对误差仅 0.057,40 页以上依旧控制在 0.11 以内,重复输出概率不足 3%,几乎不会出现复读、错乱排版问题。
四、神秘技术总监浮出水面,国内 OCR 大神加盟百度
这份技术报告除亮眼跑分外,作者署名暗藏行业重磅人才变动线索。三位核心创作者中,两位标注完整姓名,技术总监仅用缩写 YY 标注,而 GitHub 致谢列表前两位,正是 DeepSeek 一代、二代 OCR 项目。
顺着行业履历梳理,线索全部指向魏浩然。他是国内端到端 OCR 赛道奠基人,早年在阶跃星辰打造标杆开源模型 GOT-OCR2.0,加入 DeepSeek 后从零搭建整套 OCR 技术线,DeepEncoder、MoE 解码器等核心模块均出自他的团队。今年 4 月 DeepSeek 发布 V4 大模型时,魏浩然名字旁标注离职,也是同期 OCR 团队唯一公开出走的核心负责人。
国内深耕长文档解析、吃透 DeepSeek 整套 OCR 架构,同时能提出 R-SWA 这种底层注意力创新的研发人员寥寥无几,业内普遍判断缩写 YY 对应的技术总监就是魏浩然。
这次人才吸纳,补齐百度多年的技术短板。过往 PaddleOCR 深耕产业落地,手机、嵌入式、服务器全场景覆盖,工程化、稳定性优势突出,但前沿范式创新一直不是重心。魏浩然团队擅长从底层重构 OCR 逻辑,二者结合让百度同时拥有成熟商业化底座与顶尖前沿研发能力。百度今年升级 AIDU 人才计划,高薪吸纳顶尖 AI 研究员,对于想落地前沿技术的研发人员来说,海量产业场景资源远比单纯高薪更有吸引力。
五、不止 OCR:一套通用框架,布局语音、翻译全赛道
在技术报告展望中,研发团队明确表示,R-SWA 不只是适配文档识别的专用技术,是一套通用长程解析机制,OCR 只是落地的第一站,后续会拓展至语音转写、机器翻译等所有长序列任务。
团队已经定下清晰迭代路线:下一步将上下文窗口拓展至 128K,新增自动翻页调度模块。一旦完成优化,AI 不再是单独识别单页文字,而是完整读懂整本书籍、数百页合同、长篇学术著作,真正实现文档级深度理解,而非简单文字提取。
对于普通开发者、中小企业而言,这款开源模型价值巨大:极低硬件门槛,普通消费级显卡就能流畅批量处理海量 PDF,免费开源无商用限制;对于百度自身,依托这套通用注意力框架,未来语音、多模态翻译产品都能解决长文本卡顿、上下文丢失的老问题,构建差异化技术壁垒。
过去很长一段时间,AI 行业陷入 " 堆参数、拼硬件 " 的内卷怪圈,大家默认只有更大规模模型才能解决复杂任务。百度 UnlimitedOCR 走出一条完全不同的路线:靠底层注意力机制创新,用极小算力实现超越千亿大模型的效果,一次性解决行业多年跨页失忆、长文本减速痛点。
顶尖 OCR 研发人才的加入,也让百度完成从 " 工具型 OCR 厂商 " 到 " 通用长序列解析技术提供商 " 的转型。随着 R-SWA 技术向语音、翻译延伸,接下来我们会看到更多颠覆现有产品体验的 AI 工具,长文档、长音频一次性完整理解,会成为行业新标准。目前模型与完整代码已全部开源,开发者可直接前往 GitHub、HuggingFace 下载试用。


登录后才可以发布评论哦
打开小程序可以发布评论哦