全天候科技 15小时前
DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek 发布新一代光学字符识别系统,通过让 AI 以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景。

27 日,DeepSeek 发布了 DeepSeek-OCR 2 系统。该系统采用名为 DeepEncoder V2 的新方法,使 AI 能够像人类一样按照逻辑顺序 " 看 " 图像。这项技术的核心创新在于改变了传统 AI 处理图像的方式。DeepEncoder V2 让 AI 基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。这种方法模仿了人类追随场景逻辑流的方式。

根据 DeepSeek 公布的技术报告,DeepSeek-OCR 2 在多项关键指标上展现出显著优势。在 OmniDocBench v1.5 基准测试中,该模型取得了 91.09% 的成绩,相较于前代 DeepSeek-OCR 提升了 3.73%。

值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本,其视觉 Token 数量被限制在 256 至 1120 之间,这一上限与 Google 的 Gemini-3 Pro 保持一致。 在实际生产环境中,该模型在处理在线用户日志和 PDF 预训练数据时的重复率分别下降了 2.08% 和 0.81%,显示出极高的实用成熟度。

模拟人类视觉的 " 因果流 " 逻辑

根据 DeepSeek 公布的技术报告,现有的视觉语言模型(VLMs)通常采用固定的光栅扫描顺序(光栅扫描顺序)处理图像切片,即机械地从左上角扫描至右下角。DeepSeek 团队指出,这种方式引入了不必要的归纳偏差,与人类视觉感知背道而驰。 人类在阅读复杂文档、表格或追踪螺旋线条时,视线是受语义理解驱动的 " 因果流 ",后一次注视往往因果依赖于前一次注视,而非单纯的空间坐标移动。

受此认知机制启发,DeepSeek-OCR 2 的核心组件 DeepEncoder V2 被设计用于赋予编码器因果推理能力。通过引入可学习的 " 因果流查询 "(Causal Flow Queries),模型能够在进入 LLM 解码器进行内容解释之前,先在编码阶段就对视觉信息进行智能重排序。这实际上构建了一个两级级联的 1D 因果推理结构:首先由编码器在语义上重组视觉 Token,随后由解码器对有序序列进行自回归推理。 这种设计不仅符合光学文本、表格和公式的非线性布局特征,还有效弥补了 2D 图像结构与 1D 语言建模之间的鸿沟。

弃用 CLIP 架构,转向 LLM 式编码器

DeepEncoder V2 在架构上实施了重大变革,将 DeepEncoder 中原有的 CLIP 组件替换为紧凑的 LLM 式架构(具体为 Qwen2-0.5B)。为了实现并行处理,新架构引入了一组可学习的查询向量,称为 " 因果流 Token",并将原始视觉 Token 作为前缀拼接到序列中。

该架构采用了一种定制化的注意力掩码(Attention Mask)策略:

视觉 Token 部分:保留双向注意力机制,确保模型能够像 CLIP 一样拥有全局感受野,捕捉图像的整体特征。

因果流 Token 部分:采用因果注意力机制(类似 Decoder-only LLM),每个查询 Token 只能关注之前的 Token。

通过这种设计,视觉 Token 保持了信息的全局交互,而因果流 Token 则获得了重排序视觉信息的能力。DeepSeek-OCR 2 采用了多裁剪策略(Multi-crop strategy),根据图像分辨率不同,最终输入 LLM 的重排序视觉 Token 总数在 256 到 1120 之间。这一数量级显著低于部分竞品高达 6000 以上的 Token 消耗,在保证高性能的同时大幅降低了计算开销。

性能显著提升与生产环境验证

在 OmniDocBench v1.5 的综合评估中,DeepSeek-OCR 2 表现优异。数据显示,在同样的训练数据源下,新模型相较于 DeepSeek-OCR 基线模型取得了 3.73% 的性能提升。特别是在阅读顺序(Reading Order)的编辑距离(Edit Distance)指标上,DeepSeek-OCR 2 从 0.085 显著降低至 0.057,这直接验证了 DeepEncoder V2 在逻辑重排序方面的有效性。

除了基准测试,DeepSeek 还披露了该模型在实际生产管线中的表现。DeepSeek-OCR 2 主要服务于 DeepSeek-LLMs 的在线 OCR 服务及 PDF 预训练数据处理。在没有真值(Ground Truth)的生产环境中,重复率(Repetition Rate)是衡量质量的核心指标。数据显示,在处理在线用户日志图像时,DeepSeek-OCR 2 将重复率从 6.25% 降低至 4.17%; 在 PDF 数据生产中,重复率从 3.69% 降至 2.88%。这表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与真正的 2D 推理

DeepSeek-OCR 2 的发布不仅是一次 OCR 性能的升级,更具有深远的架构探索意义。DeepEncoder V2 初步验证了使用语言模型架构作为视觉编码器的潜力。这种架构天然继承了 LLM 社区在基础设施优化方面的成果,如混合专家(MoE)架构和高效注意力机制。

DeepSeek 团队认为,这为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。DeepSeek-OCR 2 所展示的 " 两个级联的 1D 因果推理器 " 模式,通过将 2D 理解分解为 " 阅读逻辑推理 " 和 " 视觉任务推理 " 两个互补子任务,或许代表了实现真正 2D 推理的一种突破性架构方法。

更多消息,持续更新中……

评论
大家都在看