仅0.9B！百度新开源模型一夜登顶，识别109种语言，综合分全球第一

智东西

编译 | 程茜

编辑 | 云鹏

智东西 10 月 20 日消息，百度 10 月 16 日开源的多语言文档解析模型 PaddleOCR-VL，连续三天霸榜 Hugging Face 趋势榜第一。

PaddleOCR-VL 能识别 109 种语言的文本、表格、公式和图表等复杂元素，包括全球主要语言以及俄语、阿拉伯语和印地语等多种语言。在最新的用于评估现实场景中多样化文档解析性能的基准测试工具 OmniDocBench 榜单中，PaddleOCR-VL 以 92.6 综合得分拿下全球第一，并且在 OmniDocBench v1.5、OmniDocBench v1.0 均是第一。

PaddleOCR-VL 在 OmniDocBench v1.5 上实现了整体、文本、公式、表格和阅读顺序的 SOTA 性能，在所有关键指标上均超越现有流水线工具、通用 VLM 和其他专用文档解析模型。

论文中提到，PaddleOCR-VL 在文档解析任务中实现了最佳性能，其擅长识别复杂的文档元素，例如文本、表格、公式和图表，适用于手写文本和历史文档等各种具有挑战性的内容类型。

百度给出的官方手写文本示例中，图片中文字写作相对规范，有较少不清晰文字，模型识别结果中错误较少。

手写文本（左）、识别结果（右）

随后智东西上传了一张苏轼手札，相对上面的图片仅凭肉眼很难辨认清楚且有较多繁体字，模型的识别结果中错误较多。

手写文本（上）、识别结果（左下）、古诗文网原文（右下）

该方案的核心组件 PaddleOCR-VL 0.9B 基于 NaViT 风格的视觉编码器和 ERNIE-4.5-0.3B 语言模型构建，具有快速推理和低资源消耗的特点，适合实际部署。

在训练数据方面，研究人员采用了开源数据集、合成数据集、网络可访问数据集和内部数据集。同时，其开发了高质量训练数据构建流程，通过公共数据采集和数据合成收集了超过 3000 万个训练样本，以基于专家模型的识别结果指导通用大型模型进行自动标注。

技术报告：

file:///Users/wangquan/Desktop/2510.14528v2.pdf

Hugging Face 开源地址：

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

体验地址：

https://aistudio.baidu.com/application/detail/98365

一、复杂公式、多语言识别准确，不清晰、反光文字出现少量错误

智东西体验了 PaddleOCR-VL 文档解析能力和元素级识别能力，模型在中英文、韩语以及复杂公式、图表等方面识别准确率都很高，在图片有反光、不清晰时出现极个别错误。

智东西上传了 PaddleOCR-VL 论文的首页，识别结果中，模型自动识别出了链接、邮箱地址，并准确将图表进行了切分。

下面是一道物理题目，模型自动识别出了页眉部分的标语，小标题、图表、复杂公式识别准确。

元素级识别能力中，先来看图表识别，图表的每一部分内容及数字表达都清晰准确。

文字识别中，智东西上传了中文、韩语。下面是一张手写体的韩语图片，模型识别结果准确。

公式识别方面，智东西上传了一张包含公式的图片，模型将复杂公式的细节都进行了准确识别。

其次为画面不清晰的中文识别，可以看到下面包装袋左上角有褶皱，模型错误将第一个 " 全 " 字识别为 " 金 "，其余文字均准确。

下面图片的拍摄角度是侧面，因此右侧文字有反光，模型错误将 " 文 " 识别为 " 大 "，但后面的 " 物 " 即使有反光 + 变体，模型的识别结果也没有出错，同时下方的英文识别也完全正确。

二、文档识别先前技术有弊端，百度提出基于视觉语言模型的文档解析方案

文档作为核心信息载体，其复杂性和数量呈指数级增长，使得文档解析成为一项不可或缺的关键技术。文档解析的主要目标是深入理解文档布局的结构和语义，包括识别不同的文本块和列，区分公式、表格、图表和图像，确定正确的阅读顺序，以及检测关键元素等。

但现代文档较为复杂，其包含密集文本、复杂表格或图表、数学表达式、多种语言和手写文本。因此这一领域目前有两种技术方法，一是采用基于专门的模块化专家模型的流水线方法，但这种方法在处理高度复杂文档时，会受到集成复杂性、累积误差传播和固有限制的阻碍；二是利用多模态模型的端到端方法简化工作流程并实现联合优化。然而这些方法通常难以保持正确的文本顺序，在面对冗长或复杂的布局时甚至会产生幻觉，同时还会为长序列输出带来大量的计算开销。

基于此，百度研究人员推出基于视觉语言模型的高性能、资源高效的文档解析解决方案 PaddleOCR-VL，该方案将布局分析模型与视觉语言模型 PaddleOCR-VL-0.9B 相结合。

首先，PaddleOCR-VL 会进行布局检测和阅读顺序预测，获取文本块、表格、公式、图表等元素的位置坐标和阅读顺序。论文中提到，与依赖基础和序列输出的多模态方法相比，PaddleOCR-VL 的方法推理速度更快、训练成本更低，并且更易于扩展新的布局类别。

随后，这一方案会根据元素位置对其进行分割，并输入 PaddleOCR-VL-0.9B 进行识别。PaddleOCR-VL-0.9B 专为资源高效的推理而设计，擅长文档解析中的元素识别。其通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合，提升了模型的识别能力和解码效率。

PaddleOCR-VL 概览

为了训练强大的多模态模型，研究人员开发了高质量训练数据构建流程，其通过公共数据采集和数据合成收集了超过 3000 万个训练样本，以基于专家模型的识别结果指导通用大型模型进行自动标注。同时进行数据清理，以去除低质量或不一致的标注。此外，研究人员还设计了评估引擎，通过评估集合将每个元素划分为更详细的类别，基于此分析当前模型在不同场景下的训练性能。

最后，其还会结合少量极端情况进行人工标注，最终完成训练数据的构建。

三、文档解析、元素识别均采用两阶段训练方案，训练数据来源有四类

PaddleOCR-VL 将文档解析任务分解为两个阶段：第一阶段 PP-DocLayoutV2 负责布局分析，定位语义区域并预测其阅读顺序；第二阶段 PaddleOCR-VL-0.9B 利用这些布局预测对各种内容进行细粒度识别。最后，轻量级的后处理模块将两个阶段的输出聚合在一起，并将最终文档格式化为结构化的 Markdown 和 JSON 格式。

在用于版式分析的 PP-DocLayoutV2 的训练方案方面，研究人员采用 PP-DocLayoutV2 模型来执行布局元素定位、分类和阅读顺序预测。PP-DocLayoutV2 通过添加一个指针网络（Pointer Network）来扩展 RT-DETR（基于 Transformer 的实时目标检测模型），该网络负责预测检测到的元素的阅读顺序。

其训练过程采用两阶段策略：首先训练核心 RT-DETR 模型进行布局检测和分类，然后冻结其参数，并单独训练指针网络进行阅读顺序预测。

第一阶段研究人员遵循 RT-DETR 的训练策略，使用 PP-DocLayout_Plus-L 预训练权重初始化模型，并在其自建的 20000 多个高质量样本数据集上训练 100 个 epoch；第二阶段，模型输出一个表示任意两个元素之间成对排序关系的矩阵，并根据真实标签计算广义交叉熵损失，其使用恒定学习率 2e-4 和 AdamW 优化器训练 200 个 epoch。

在用于元素识别的 PaddleOCR-VL-0.9B 训练方案方面，PaddleOCR-VL-0.9B 包含三个模块：视觉编码器、投影仪和语言模型。其采用预训练模型的后自适应策略，视觉模型使用 Keye-VL 的权重初始化，语言模型使用 ERNIE-4.5-0.3B 的权重初始化。

其训练方法分为两个阶段，第一阶段初始阶段专注于预训练对齐，模型学习将图像中的视觉信息与相应的文本表示关联起来，这一关键步骤基于包含 2900 万个高质量图文对的海量数据集进行；第二阶段预训练完成后，模型将进行指令微调，使其通用的多模态理解适应特定的下游元素识别任务，此阶段使用 270 万个样本数据集。

第 1 阶段和第 2 阶段的训练设置

研究人员采用的数据主要有四个来源：开源数据集、合成数据集、网络可访问数据集和内部数据集。

获取原始数据后，研究人员利用自动化数据标注流程进行大规模标注。首先其使用专家模型 PP-StructureV3 对数据进行初步处理，生成可能存在误差的伪标签；随后通过提示工程创建包含原始图像及其相关伪标签的提示，并将其提交给更先进的多模态大型语言模型 ERNIE-4.5-VL 和 Qwen2.5VL。

PaddleOCR-VL-0.9B 训练数据的构建过程

这些模型通过分析图像内容来细化和增强初始结果，从而生成更优质的标签。最后，为了确保标签的质量，系统会执行幻觉过滤步骤，消除大型模型生成的潜在错误内容。

四、PaddleOCR-VL 在文档解析能力测试集中，达到 SOTA

为了评估 PaddleOCR-VL 的有效性，研究人员对其页面级文档解析和元素级识别进行了性能比较。

首先是页面级文档解析，研究人员使用 OmniDocBench v1.5、OmniDocBench v1.0、olmOCR-Bench 三个基准对 PaddleOCR-VL 的端到端文档解析能力进行了评估。

OmniDocBench v1.5 是全面评估文档解析能力的测试集，PaddleOCR-VL 在 OmniDocBench v1.5 上实现了整体、文本、公式、表格和阅读顺序的 SOTA 性能，在所有关键指标上均超越现有流水线工具、通用 VLM 和其他专用文档解析模型。

具体来看，PaddleOCR-VL 模型取得了 92.56 的综合最高分，超过了排名第二的 MinerU2.5-1.2B（90.67）。PaddleOCR-VL 在子任务中取得了新的 SOTA 成绩，包括最低的 Text-Edit 距离、最高的 Formula-CDM 分数以及 Table-TEDS、Table-TEDS-S。论文提到，这表明该模型在文本识别、公式识别和复杂表格结构分析方面拥有较高准确率。

OmniDocBench v1.5 文档解析综合评估

OmniDocBench v1.0 专门用于评估现实世界的文档解析能力。PaddleOCR-VL 在 OmniDocBench v1.0 上实现了几乎所有指标的总体、文本、公式、表格和阅读顺序的 SOTA 性能。

PaddleOCR-VL 平均整体编辑距离为 0.115。模型在中文和英文文本编辑距离方面分别取得了 SOTA 最佳成绩（0.062）和相当的 SOTA 最佳成绩（0.041）。不过在英文表格 TEDS 中，该模型仅为 88 分，论文提到其原因是 OmniDocBench v1.0 中拼写错误相关的标注错误。

OmniDocBench v1.5 文档解析综合评估

在阅读顺序编辑距离方面，该模型在中文中取得最佳成绩 0.063，在英文中取得了相当的 SOTA 最佳成绩 0.045。

olmOCR-Bench 主要通过简单、清晰且机器可验证的单元测试来评估工具和模型。PaddleOCR-VL 在 olmOCR-Bench 评测中取得了 80.0±1.0 的最高总分，在 ArXiv（85.7）、页眉和页脚（97.0）方面领先，并在多列文本（79.9）和长小文本（85.7）方面排名第二。

olmOCR-Bench 文档解析综合评估

其次是元素级评估。在文本识别中，PaddleOCR-VL 几乎在 OmniDocBench-OCR-block 评估的所有类别中都实现了最低的错误率；百度内部自建的文本评估数据集，模型在多语言指标、文本类型指标中都展现出较高的准确率。

OmniDocBench-OCR-block 性能的总体比较

Ocean-OCR-Handwritten 是一个行和段落级别的手写评估数据集，模型在英文中实现了 0.118 的最佳编辑距离，并在 F1 得分、精确度、召回率、BLEU 和 METEOR 方面表现出色，模型在中文中编辑距离为 0.034。

Ocean-OCR-Bench 上英文和中文 OCR 手写识别性能比较

表格识别方面，PaddleOCR-VL 在 OmniDocBench-Table-block 基准测试中领先，超越 Seed1.6 等模型；在百度自建的表格评估数据集上，模型在总体 TEDS、结构 TEDS、总体编辑距离和结构编辑距离方面均取得了最高分。公式识别方面，模型在

OmniDocBench-Formula-block 获得最佳的 CDM 得分 0.9453；图表识别，在百度内部数据集上，PaddleOCR-VL 不仅优于专业的 OCR VLM，甚至超越了一些 72B 级别的多模态语言模型。

OmniDocBench-Table-block 性能比较

推理性能方面，研究人员在 OmniDocBench v1.0 数据集上测量了端到端推理速度和 GPU 使用情况，并在单个 NVIDIA A100 GPU 上以 512 个批次处理 PDF 文件。PaddleOCR-VL 在处理速度和内存效率方面均展现出明显且一致的优势。与领先的基准 MinerU2.5 相比，部署 vLLM 后端后，其页面吞吐量提高了 15.8%，token 吞吐量提高了 14.2%。此外，PaddleOCR-VL GPU 内存占用比 dots.ocr 减少了约 40%。

端到端推理性能比较

结语：或加速复杂文档信息高效提取

研究人员基于 PaddleOCR-VL 增强了模型的识别能力和解码效率，并在保证识别高精度的同时减少计算需求，使其非常适合高效实用的文档处理应用程序。

PaddleOCR-VL 广泛的多语言支持和强大的性能有望推动多模态文档处理技术的应用和发展，或将显著提升 RAG 系统的性能和稳定性，使研究人员从复杂文档中提取信息更加高效，从而为未来的 AI 应用提供更可靠的数据支持。

宙世代

一起剪

相关标签