新浪财经 4小时前
一次吃下一本书!百度开源新OCR,作者疑似前DeepSeek研究员
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

来源:市场资讯

henry 发自 凹非寺

量子位 | 公众号 QbitAI

国产开源 OCR 又刷新 SOTA!

刚刚,百度开源了全新的 OCR 新模型——

Unlimited OCR。

它主打一口气读完几十页长文档,并在 OmniDocBench 上刷新 SOTA,整体成绩超过此前的 DeepSeek OCR。

与传统 OCR 处理长文档时 " 一页一页读,再把结果拼回去 " 的思路不同,Unlimited OCR 这次模仿了一种酷似人类抄录员的工作方式:

不再死记硬背前面已经抄写过的内容,而是只保留当前工作需要的信息和进度。

基于此,它能够像人一样连续阅读整本书,而不是每读完一页就中断一次,再从下一页重新开始。

更关键的是,借助创新的参考滑动窗口注意力(Reference Sliding Window Attention,R-SWA)机制,即便文档越来越长,显存占用和注意力计算开销也几乎不会增长。

这是怎么做到的?

for-loop 只是权宜之计

要理解 Unlimited OCR,得先看看传统 OCR 是怎么处理超长文档的。

简单来说,OCR(光学字符识别,Optical Character Recognition)就是把图片里的内容读出来,再转换成 Markdown 等可编辑文本。

在以往的处理流程中,一张图片会先进入编码器,被压缩成一串视觉 Token;随后解码器再一个字一个字地把内容写出来。

但问题在于,传统的 OCR 解码器每生成一个新 Token,它都需要回头查看之前生成过的所有 Token,再决定下一个字该写什么。

于是文档越长,需要回看的历史内容就越多,KV Cache 持续膨胀,显存占用和注意力计算开销也随之增长。

最终,无论是生成长度还是推理速度,都会受到限制。

这也是为什么现有 OCR 系统很难一次读完几十页文档,通常只能采用 " 逐页处理 + 结果拼接 " 的方案:

每读完一页就重置上下文,最后再由外部程序把结果重新拼起来。

这种 for-loop 式方案虽然工程上可行,但本质上只是权宜之计,而 Unlimited OCR 想解决的,正是进一步扩展模型在长程任务的表现。

参考滑动窗口注意力

那,问题来了。

如果不采用逐页重置的 for-loop 方案,模型又该如何在保持连续阅读状态的同时,避免 KV Cache 随着文档长度无限增长?

Unlimited OCR 给出的答案,不是让模型记住更多东西,而是让模型学会像人一样 " 遗忘 "。而这,就引出了它最核心的创新点:参考滑动窗口注意力。

为了说明参考滑动窗口注意力的设计思路,研究举了一个非常形象的例子:人类阅读长文档其实并不是全量回溯的。

比如抄写一本书时,你不会每写一个字都重新翻阅前面几十页。

你只会保留当前的阅读状态,以及刚刚写下的一小段内容,用来确认没有跳行、没有漏字,更久远的信息则会逐渐淡出记忆。

论文将这种机制称为软遗忘(Soft Forgetting)。

受此启发,参考滑动窗口注意力应运而生。

对于每个待生成 Token,模型始终关注全部参考 Token(Reference Tokens),也就是视觉 Token 和提示词;

与此同时,在输出端只保留最近 n 个历史 Token(默认 128 个)参与注意力计算。

就好像你抄书的时候,原书始终摊开在桌面上,可以随时查看完整内容;

而手边只保留最近写下的几行字,用来追踪当前进度。更早的内容则自然淡出工作记忆。

这样一来,模型既能持续看到完整图像,又能依靠局部历史信息判断当前解析到了哪里。

此外,这里值得一提的,还有 Unlimited OCR 的 KV Cache 管理方式。

论文将 KV Cache 设计成一个固定长度的队列。每生成一个新 Token,最旧的一部分状态就会自动移出,新状态再补进来。

因此,无论最终生成几千还是几万个 Token,KV Cache 规模始终保持恒定,显存占用和计算成本都不会继续增长。

这也是 R-SWA 与其他注意力机制最大的区别。

相比全注意力(Full Attention),后者的 KV Cache 会随着解码不断膨胀,而 R-SWA 始终保持固定大小。

相比传统滑动窗口注意力(SWA),后者会把视觉 Token 和文本 Token 一起放进窗口,随着窗口不断滑动,早期视觉信息会逐渐被挤出;解码越长,对原图的感知就越模糊。

而 R-SWA 则将视觉 Token 单独保留下来,让它们始终作为参考信息存在,不参与滑动窗口更新。

换句话说,图像始终保持清晰,发生滑动的只有输出文本本身。

正如上图所示,传统 OCR 越读越慢,而 Unlimited OCR 基本保持匀速运行,这正是 R-SWA 的价值所在。

实验验证

在实验部分,研究团队采用 OmniDocBench v1.5 和 v1.6 评估模型的文档解析能力,并额外构建了覆盖 2 页至 40 页以上文档的内部测试集,专门考察其长文档连续解析能力。

首先来看整体成绩。

在 OmniDocBench v1.5 上,Unlimited OCR 取得了 93.23% 的综合得分,相比 DeepSeek OCR 提升 6.22%。

在最新的 v1.6 版本中,成绩进一步达到 93.92%,刷新当前 SOTA。

在长文本解析能力方面,即便一次性输入 40 页以上内容,模型依然能够保持稳定表现。

其 Distinct-35 指标达到 96.90%,编辑距离(Edit Distance)始终维持在 0.1069 以下。

换句话说,随着文档长度不断增长,模型并没有出现明显的内容混淆或解析质量下降。

除了精度提升,Unlimited OCR 还带来了推理效率上的改善。

由于采用恒定 KV Cache 设计,模型的推理开销不会随着文档页数持续增长。在生成 6000 个 Token 时,其推理速度(TPS)相比 DeepSeek OCR 提升约 35%。

与此同时,调用延迟(Latency)基本保持稳定,没有出现长文档场景下常见的延迟飙升现象。

OCR 之外:一种新的长上下文思路

如果把最近一年的时间线串起来看,会发现一个有意思的现象:越来越多头部模型公司开始重兵投入 OCR。

从 DeepSeek 年初发布 OCR2,到智谱开源 GLM-OCR,再到百度这次推出 Unlimited OCR,大家争夺的早已不是单纯的文字识别能力,而是新的数据入口。

互联网数据正在被快速消耗,而企业真正有价值的数据,其实大量沉睡在 PDF、合同、报告、票据和扫描件里。

对于人类来说,这些是信息,但对于模型来说,它们只是像素。

OCR 的意义,就是把这些像素重新变成模型能够理解和推理的 Token。因此,OCR 正在从一个传统工具,逐渐变成 AI 时代最重要的数据入口之一。

不过,如果只把 Unlimited OCR 看成一个 OCR 模型,可能就低估了它。

过去两年,行业面对长上下文问题时,最主流的思路一直是扩容。

128K、1M、10M,上下文窗口不断变长;各种长上下文优化方案,本质上也都在思考如何让模型记住更多信息。

而 R-SWA 反着来。

与其让模型记住一切,不如让它学会像人一样遗忘。

所以说,Unlimited OCR 看起来解决的是 OCR 问题,但它修改的是注意力机制本身。而注意力,恰恰是今天几乎所有大模型共同的基础设施。

因此,这篇论文真正讨论的,其实不只是 OCR 该怎么做,而是另一个更基础的问题:

当任务越来越长时,模型究竟该如何管理自己的记忆?

论文也给出了明确的路线图。

短期内,团队计划训练更长上下文版本,把解析能力扩展到 128K;长期则希望构建类似 " 预填池(Prefill Pool)" 的机制,让模型能够像人翻书一样,按需调取历史 KV 状态,进一步突破上下文限制。

而更有意思的是,他们计划将 R-SWA 扩展到语音识别、机器翻译等任务。

换句话说,OCR 或许只是第一站。

某种程度上,这条 " 怎么记 " 的路线,也恰好与 DeepSeek OCR2 探索的 " 怎么看 " 形成了呼应:

前者关注视觉信息如何被更高效地理解,后者则开始思考这些信息该如何在超长任务中被保留、传递与遗忘。

从视觉理解到长期记忆,从 OCR 到更广义的长时推理。

或许,这才是 Unlimited OCR 真正想讲的故事。

One more thing

值得一提的是,技术报告发布后,作者名单里的一个名字也引发了不少讨论。

在三位核心贡献者中,有一位作者并没有使用全名,而是以 "YY" 的缩写署名,并被标注为技术总监。

这个 YY 是谁?

很快,网友们开始顺着论文里的各种细节寻找答案。

首先是这份技术报告本身。

从行文风格到技术叙事,读过 DeepSeek OCR 技术报告的人,大概率都会有一种熟悉感。

无论是强调 " 像人一样阅读文档 " 的理念,还是把技术问题包装成一个关于记忆与遗忘的故事,都带着浓厚的探索色彩。

而在技术实现上,Unlimited OCR 同样出现了不少熟悉的身影。

众所周知,DeepEncoder 最早正是在 DeepSeek OCR 中被提出。这次 Unlimited OCR 则直接沿用了这一高压缩率视觉编码器,并将创新重点放在了解码阶段的长期记忆机制上。

有意思的是,在项目 GitHub 页面的致谢部分,团队还专门提到了 DeepSeek OCR 和 PaddleOCR 等相关工作。

种种线索叠加之下,不少网友开始猜测:这位 YY,很可能就是前 DeepSeek OCR 团队研究员魏浩然。

作为 OCR 领域的资深研究者,魏浩然此前曾在阶跃星辰工作,并主导开发了被称为 " 第二代 OCR" 代表作之一的 GOT-OCR2.0。

该项目也是端到端 OCR 方向最早跑通的开源标杆之一。此后,他又参与了 DeepSeek OCR 系列的研发,在 DeepSeek OCR 和 OCR2 的核心作者名单中,长期出现的正是魏浩然、孙耀峰和李宇琨三人。

而这一次,在 Unlimited OCR 的技术报告中,人们似乎又看到了同一条研究路线继续向前延伸的影子。

当然,截至目前,YY 的真实身份仍未得到官方确认。

但比身份本身更有意思的,或许是这篇论文所展现出的研究思路:

从视觉编码,到长期记忆;从 " 怎么看 ",到 " 怎么记 "。

而 OCR,也许只是这条路线的第一站。

[ 1 ] https://github.com/baidu/Unlimited-OCR

[ 2 ] https://huggingface.co/baidu/Unlimited-OCR

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

百度 开源 阅读 量子位
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论