你懂 OCR 吗?2025 年之前,可能人人都懂。
但 2025 年之后,你还认为你真的懂 OCR 吗?
是的,随着 AI 大模型研发在架构、记忆、存储等等领域的深水区创新,OCR 重新成为了技术专项。DeepSeek 在研究、智谱在研究、阿里千问和腾讯混元也都在研究……

那么,怎样才能速成 AI 时代的 OCR 呢?
还得是吴恩达老师,火速来了新课程,帮你速通 OCR。
在新课程里,直接提出了一个新方案——智能体文档提取(Agent Doc Extraction)。
不仅是 OCR 技术在 Agent 时代的进阶,更是一个统一的智能体工作流。
并且这个方法在 DocVQA 基准测试中的准确率达到了 99.15%。

新课上线,不仅手把手教你跑通本地代码,还给出了在 AWS 上部署的完整线路~
OCR 重新成为技术专项
在介绍 ADE 之前,先来了解一下各大厂近期在 OCR 技术上的密集更新。
如果把目光放回到 2025,就不难发现,吴恩达老师的这门课也是对这一技术深水区回归的及时呼应。
从 10 月份开始,DeepSeek 让这项技术的讨论爆发。
DeepSeek-OCR玩起 " 视觉压缩一切 ",靠专属视觉编码器把万字长文压成百个视觉 token,在 10 倍压缩下仍能保持 97% 的高准确率,单块 A100-40G 显卡每天就能处理 20 万页以上文档。

几乎同一时间,智谱联合清华大学发布了Glyph 框架,异曲同工地通过 " 文本渲染成图 " 的思路,把超长文本转成紧凑图像,轻松突破上下文窗口限制。
后续到了 12 月,智谱 GLM-4.6V 多模态系列正式发布,包含 9B 与 106B 参数版本。
前者在低成本本地 OCR 场景表现突出,支持复杂扫描、笔记与模糊文档;后者凭借 128K 上下文窗口甚至能跨页理解长税表、合同与科研图谱,把 OCR 拉向文档理解与知识抽取层面。

实际上,阿里千问 10 月发布的 Qwen3-VL-30B 等版本也在 OCR 领域有重要升级。
11 月底的时候,腾讯混元也加入了这一轮集中突破,1B 参数的 HunyuanOCR 开源后迅速受到关注。
虽然参数少,却具备处理表格、结构化文档、多语种内容的能力,运行速度快,易部署,很快成为开源热门。
Agent 文档提取新姿势
机器学习大神吴恩达老师显然也意识到了 OCR 的大热趋势,火速出了一版速通课。
虽然不是教你怎么改进 OCR 技术,但教你怎么给 OCR 装上智能体大脑。

首先,课程详细回顾了 OCR 技术的演进。
从最早的规则时代到现在的智能体时代,每一步更新都是在填传统 OCR 的坑。
以前用 Tesseract,全靠人工写规则;后来有了 PaddleOCR,靠深度学习认字儿。
但它们在提取文字时都会把文档 " 压平 ",导致表格结构、图注关系及阅读顺序等关键信息丢失。
这样一来,下游大模型拿到的就都是半成品数据,特别容易出现幻觉。

而课程里的 ADE 方案,相当于给 OCR 加了三大支柱,靠「视觉优先」策略看懂文档布局,用「以数据为中心」保证精准,再凭智能体化主动思考。
搭载 DPT(文档预训练 Transformer)模型后,ADE 工作流将文档视为一个整体的视觉对象,去理解其布局和空间关系。

并且,DPT 模型在 DocVQA 基准测试中取得了 99.15% 的高分,甚至超越人类。

在实战中,ADE 也展现出了极强的鲁棒性。
超过 1000 个单元格的巨型表格、复杂的手写微积分公式,还是带有弯曲印章的证书,甚至是纯图示的安装说明书,它都能精准解析。
在落地层面,ADE 引入的视觉接地技术,不仅能提取文字,还为每个数据块分配唯一 ID 和精确的像素坐标,并能生成局部截图。
这样一来,AI 只要一回答某个数据是多少,你一点就能看到原始文件里对应的地方,做到 " 有图有真相 "。
此外,课程还提供了极具实操价值的云端部署指南,教你怎么把这技术用到云端,在 AWS 上搭个全自动流水线。
把 PDF 传到 S3 存储桶,Lambda 就会自动进行 ADE 解析,把结构化的 Markdown 存好,再让 Bedrock 知识库建索引,最后靠 Strands Agents 做成能记事儿、会推理的行业知识助手。
从认清楚像素里的字,到在云端大规模用起来,只能说,这 3h 的课程," 学不了吃亏,学不了上当 "~
课程地址:https://www.deeplearning.ai/short-courses/document-ai-from-ocr-to-agentic-doc-extraction/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
量子位智库 2025 年度「AI 100」榜单正式开启招募!
和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量
一键关注 点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦