智东西 前天
刚刚,DeepSeek重要突破!大模型上下文紧箍咒打破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

用一张图,实现信息高效压缩。

作者 | 陈骏达

编辑 | 云鹏

在大语言模型不断拉长上下文窗口的竞争中,DeepSeek 刚刚提出了一条与众不同的技术路径。

智东西 10 月 20 日报道,今天上午,DeepSeek 开源了 DeepSeek-OCR 模型,首次提出了 " 上下文光学压缩(Contexts Optical Compression)" 的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在 10 倍压缩比下,DeepSeek-OCR 的解码精度可达 97%,近乎实现无损压缩;在 20 倍压缩比下,精度仍保持约 60%。

当把等量的文本 token 转化为视觉 token(图像)后,DeepSeek-OCR 能用更少的 token 数表达相近的文本内容,这为解决大语言模型在长文本处理中的高算力开销提供了新的思路。

除此之外,DeepSeek-OCR 还表现出很高的实际应用价值。在 OmniDocBench 上,它只使用 100 个视觉 token 就超越了 GOT-OCR2.0(每页 256 个 token),并且在使用少于 800 个视觉 tokens 的情况下,性能超过了 MinerU2.0(平均每页近 7000 个 token)。

在生产环境中,DeepSeek-OCR 可以每天在单个 A100-40G GPU 上生成 20 万页以上的训练数据,为大规模文档理解和多模态模型训练提供支持。

目前,这一模型已在 Hugging Face 上开源,而介绍 DeepSeek-OCR 模型技术细节与背后理论的技术报告也已同步公开。DeepSeek-OCR 团队称,他们此番开源的模型是对一种潜在解决方案的初步探索,即利用视觉模态作为文本信息的高效压缩媒介。

值得一提的是,与 DeepSeek 过往新模型动辄数十人的作者团队不同,这篇论文的作者仅有 3 人,分别为 Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR 论文的第一作者 Haoran Wei 也是 GOT-OCR2.0 论文的第一作者,GOT-OCR2.0 是阶跃星辰去年 9 月发布的一款 OCR 模型。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

01.

光学压缩可实现高压缩比

解码到底需要多少视觉 token?

过去几年,AI 模型的上下文能力不断被拉长——从 4K 到 128K,再到上百万 token,但代价是成倍增加的算力与显存消耗。

但文本其实是一种冗余的信息形式。DeepSeek-OCR 的团队认为:" 一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的 token,来表示丰富信息。这表明,通过视觉 token 进行光学压缩可以实现更高的压缩比。"

目前,业内已经在 VLM 视觉编码器和端到端 OCR 模型上有一定探索。基于此前的研究,DeepSeek-OCR 团队发现了目前尚未解决的一个关键研究问题:对于包含 1000 个单词的文档,解码至少需要多少视觉 token?这一问题对于研究 " 一图胜千言 " 的原则具有重要意义。

围绕这一问题,DeepSeek 打造了一个验证系统—— DeepSeek-OCR。该模型通过将文本 " 光学化 ",把原本数千个文字 token 压缩成几百个视觉 token,再由语言模型解码回原文。

DeepSeek-OCR 的架构分为两部分。一是 DeepEncoder,一个专为高压缩、高分辨率文档处理设计的视觉编码器;二是 DeepSeek3B-MoE,一个轻量级混合专家语言解码器。

DeepEncoder:显著压缩 vision token 数量

DeepEncoder 采用 SAM + CLIP 的双结构设计,通过局部窗口注意力结合全局注意力实现高保真视觉理解,并用一个双层的 16× 卷积压缩模块显著减少 vision token 数量。

举个例子,当输入 1024×1024 的文档图片时,传统视觉模型会生成 4096 个 token,DeepEncoder 能将其压缩至仅 256 个 token,让激活内存的数量更可控。

此外,它支持多种 " 分辨率模式 "。从轻量的 Tiny(64 token)到高保真的 Gundam(795 token),模型可根据任务复杂度自动选择压缩等级。

论文展示了不同分辨率的压缩效果。对肉眼而言,Tiny 模式下图片中的文字略显模糊,但基本能看清;而在高保真的 Gundam 模式下,图中文字的阅读体验基本和原文件的阅读体验没有差别。

▲实际阅读效果需参照原论文中的图片

在实际使用中,一页普通论文或幻灯片仅需 100 个视觉 token 即可精准识别;而密集文本的报纸或科学论文,则可通过 Gundam 模式实现高精度还原。

DeepSeek3B-MoE:激活参数仅 5.7B

在解码端,DeepSeek 采用自研 DeepSeek3B-MoE 架构,推理时仅激活 6 个专家模块,总激活参数量约 5.7 亿。

这种 " 按需激活 " 的机制让模型既具备强表达能力,又能保持低延迟和高能效,极其适合文档 OCR、图文生成等场景。

数据引擎:从文档到图表、化学式、几何图

DeepSeek 还搭建了一个庞大的数据数据集,包含四大数据类型:

(1)OCR 1.0 数据:3000 万页多语言文档与自然场景文字等;

(2)OCR 2.0 数据:图表、化学公式、几何图形解析等;

(3)通用视觉数据:为模型注入基础图像理解能力;

(4)纯文本数据:维持语言流畅度与上下文建模。

得益于这一体系,DeepSeek-OCR 不仅能识字、断句,还能看懂图表、解读化学式、识别几何图形,处理常见的图文交错文档。

02.

10 倍压缩效果几乎无损

数百 token 表示效果超 7000 token

DeepSeek-OCR 的训练流程整体上相对简洁,主要分为两个阶段:独立训练 DeepEncoder 和训练完整的 DeepSeek-OCR 模型。

此外,所谓的 "Gundam-master 模式(超高分辨率)" 是在预训练好的 DeepSeek-OCR 模型基础上,继续使用 600 万条采样数据进行微调得到的。由于其训练协议与其他模式相同,DeepSeek-OCR 团队省略了详细描述。

DeepEncoder 的训练遵循 Vary 的做法,使用一个轻量级语言模型,并基于下一 token 预测框架进行训练。在此阶段,模型使用了前述的 OCR 1.0 与 OCR 2.0 数据,以及从 LAION 数据集中采样的 1 亿条通用图像数据。

当 DeepEncoder 训练完成后,DeepSeek-OCR 团队使用多模态数据和纯文本数据,采用流水线并行策略来训练完整的模型。

为验证 DeepSeek-OCR 在文本密集型文档中的压缩与解压能力,研究团队选取了 Fox 基准进行实验。实验结果显示,在 10× 压缩率下,DeepSeek-OCR 的解码精度可达约 97%。这表明未来有望实现近乎无损的 10× 文本压缩。

当压缩率超过 10× 时,性能有所下降,主要原因包括文档版式复杂度的提升,以及长文本在 512×512 或 640×640 分辨率下出现模糊。前者可通过将文本渲染为统一版面解决,而后者则可能成为未来 " 遗忘机制 " 的研究特征。

即便在近 20× 压缩时,模型仍能保持约 60% 的精度。这些结果充分说明,光学上下文压缩是一条前景广阔的研究方向,且无需额外计算开销,因为多模态系统本身已具备视觉编码器结构。

除实验验证外,DeepSeek-OCR 在实际场景中同样表现出不错的能力,可为 LLM/VLM 的预训练构建高质量数据。在 OmniDocBench 上,DeepSeek-OCR 仅使用 100 个视觉 toke(640×640 分辨率)的情况下,超越使用 256 个 token 的 GOT-OCR 2.0。而在少于 800 个 tokens(Gundam 模式)的条件下,DeepSeek-OCR 甚至超越了需约 7000 个视觉 token 的 MinerU 2.0。

进一步分析显示,不同类型文档对 token 数量的需求存在差异:幻灯片类文档仅需约 64 个视觉 token 即可获得良好效果;书籍与报告在 100 个视觉 token 下即可实现稳定性能;报纸类文档由于文本量庞大,需采用 Gundam 或 Gundam-master 模式才能实现可接受的效果。

03.

从金融图表到化学表达式

各类文档均可深度解析

DeepSeek-OCR 团队在论文中展示了 DeepSeek-OCR 在具体场景的能力。DeepSeek-OCR 具备版面识别与 OCR 2.0 能力,可通过二次模型调用实现文档图像的进一步解析。DeepSeek 将这一功能称为 " 深度解析(Deep Parsing)"。模型可在图像中识别不同类型的内容,包括图表、几何图形、化学结构式及自然图像等。

在金融研究报告中,DeepSeek-OCR 能自动提取文档中图表的结构化信息,这一功能对金融与科学领域尤为重要。

在书籍与论文场景中,深度解析模式能够生成密集的图像描述,实现自动化的图文内容识别与转写。

对于化学文献,模型不仅可识别化学结构式,还能将其转化为 SMILES 格式,展现出在 STEM(科学、技术、工程与数学)领域的潜在应用价值。

此外,DeepSeek-OCR 还能解析平面几何图形的结构,尽管当前任务仍具有较高难度,但模型已显示出对几何要素与空间关系的初步理解能力。

互联网上的 PDF 数据涵盖多种语言,包括中文、英文以及大量多语种内容,这对训练具备全球通用性的大语言模型至关重要。DeepSeek-OCR 已具备处理近百种语言的 OCR 能力,支持带版面与非版面两种输出格式。

在多语言测试中,DeepSeek-OCR 对阿拉伯语与僧伽罗语等小语种文档同样能够生成高质量识别结果。该能力确保 DeepSeek-OCR 能在多语言环境下稳定运行,为多语种文档解析与跨语言知识提取奠定基础。

除专注于文档解析外,DeepSeek-OCR 还保留了一定的通用视觉理解能力,包括图像描述、物体检测、目标定位(grounding)等任务。在提供相应提示词后,模型能够详细描述图像内容、定位特定对象,甚至在包含文本的图像中执行 OCR 识别任务。

此外,由于训练中融入了大量纯文本数据,DeepSeek-OCR 也保留了较强的语言理解与生成能力。需要指出的是,DeepSeek-OCR 尚未经过监督微调(SFT)阶段,因此并非对话模型,部分功能需通过特定提示词激活。

04.

结语:高效信息表示

或成大模型潜在优化方向

" 上下文光学压缩 " 验证了视觉模态在文本压缩中的有效性,为大语言模型处理超长上下文提供了新的解决路径。DeepSeek-OCR 团队计划在后续研究中进一步探索数字与光学混合的文本预训练方式,并通过更细粒度的 "needle-in-a-haystack" 测试评估光学压缩在真实长文本环境下的表现。

从行业视角看,DeepSeek-OCR 展示了另一种提高模型效率的可能路径——优化信息表达方式。通过视觉压缩减少 token 数量,模型可以在相同算力下处理更长的上下文内容。这一思路为未来在 VLM 视觉 token 优化、上下文压缩机制以及大模型遗忘机制等方向的研究提供了有价值的参考。

DeepSeek 团队在论文最后写道:" 光学上下文压缩仍有广阔的研究空间,它代表了一个新的方向。" 这项从 OCR 任务出发的研究,或许已经超越了文字识别本身。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

sun 开源 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论