太平洋电脑网 01-27
像人一样阅读文档!DeepSeek发布新一代OCR模型,识别性能提升近4%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【太平洋科技快讯】1 月 27 日消息,DeepSeek 今日发布新一代文档识别模型 DeepSeek-OCR 2,在前代基础上通过视觉编码器设计的创新实现识别性能提升。

研究团队提出名为 DeepEncoder V2 的全新编码器架构,能够根据图像语义动态调整视觉信息处理顺序,使模型在进行文字识别前先对视觉内容进行智能排序。这一 " 视觉因果流 " 技术改变了传统模型按照固定栅格顺序处理图像的方式,更贴近人类基于语义逻辑的跳跃式阅读习惯。

具体实现上,研究团队采用类语言模型结构替代了基于 CLIP 的视觉编码模块,在编码器内部引入可学习的 " 因果流查询 token"。该设计同时包含双向注意力与因果注意力两种处理模式:原始视觉信息通过双向注意力进行全局感知,而查询标记则通过因果注意力逐步建立语义顺序,实现对视觉 token 的动态重排。最终只有经过语义重排的查询 token 会被送入基于混合专家架构的语言模型解码,在保持与前代相近资源开销的前提下完成识别任务。

性能测试显示,在 OmniDocBench v1.5 基准评估中,DeepSeek-OCR 2 整体得分达到 91.09%,较前代提升 3.73%。其阅读顺序准确度有所改善,编辑距离从 0.085 降至 0.057。实际应用数据显示,在线用户日志图像的重复率从 6.25% 降至 4.17%,批处理 PDF 数据的重复率从 3.69% 降至 2.88%,在复杂文档场景中展现出更强的结构理解能力和运行稳定性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阅读
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论