像人一样阅读文档！DeepSeek发布新一代OCR模型，识别性能提升近4%

【太平洋科技快讯】1 月 27 日消息，DeepSeek 今日发布新一代文档识别模型 DeepSeek-OCR 2，在前代基础上通过视觉编码器设计的创新实现识别性能提升。

研究团队提出名为 DeepEncoder V2 的全新编码器架构，能够根据图像语义动态调整视觉信息处理顺序，使模型在进行文字识别前先对视觉内容进行智能排序。这一 " 视觉因果流 " 技术改变了传统模型按照固定栅格顺序处理图像的方式，更贴近人类基于语义逻辑的跳跃式阅读习惯。

具体实现上，研究团队采用类语言模型结构替代了基于 CLIP 的视觉编码模块，在编码器内部引入可学习的 " 因果流查询 token"。该设计同时包含双向注意力与因果注意力两种处理模式：原始视觉信息通过双向注意力进行全局感知，而查询标记则通过因果注意力逐步建立语义顺序，实现对视觉 token 的动态重排。最终只有经过语义重排的查询 token 会被送入基于混合专家架构的语言模型解码，在保持与前代相近资源开销的前提下完成识别任务。

性能测试显示，在 OmniDocBench v1.5 基准评估中，DeepSeek-OCR 2 整体得分达到 91.09%，较前代提升 3.73%。其阅读顺序准确度有所改善，编辑距离从 0.085 降至 0.057。实际应用数据显示，在线用户日志图像的重复率从 6.25% 降至 4.17%，批处理 PDF 数据的重复率从 3.69% 降至 2.88%，在复杂文档场景中展现出更强的结构理解能力和运行稳定性。

宙世代

一起剪

相关标签