量子位 昨天
吴恩达开新课教OCR!用Agent搞定文档提取
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

你懂 OCR 吗?2025 年之前,可能人人都懂。

但 2025 年之后,你还认为你真的懂 OCR 吗?

是的,随着 AI 大模型研发在架构、记忆、存储等等领域的深水区创新,OCR 重新成为了技术专项。DeepSeek 在研究、智谱在研究、阿里千问和腾讯混元也都在研究……

那么,怎样才能速成 AI 时代的 OCR 呢?

还得是吴恩达老师,火速来了新课程,帮你速通 OCR。

在新课程里,直接提出了一个新方案——智能体文档提取Agent  Doc  Extraction)。

不仅是 OCR 技术在 Agent 时代的进阶,更是一个统一的智能体工作流。

并且这个方法在 DocVQA 基准测试中的准确率达到了 99.15%。

新课上线,不仅手把手教你跑通本地代码,还给出了在 AWS 上部署的完整线路~

OCR 重新成为技术专项

在介绍 ADE 之前,先来了解一下各大厂近期在 OCR 技术上的密集更新。

如果把目光放回到 2025,就不难发现,吴恩达老师的这门课也是对这一技术深水区回归的及时呼应。

从 10 月份开始,DeepSeek 让这项技术的讨论爆发。

DeepSeek-OCR玩起 " 视觉压缩一切 ",靠专属视觉编码器把万字长文压成百个视觉 token,在 10 倍压缩下仍能保持 97% 的高准确率,单块 A100-40G 显卡每天就能处理 20 万页以上文档。

几乎同一时间,智谱联合清华大学发布了Glyph 框架,异曲同工地通过 " 文本渲染成图 " 的思路,把超长文本转成紧凑图像,轻松突破上下文窗口限制。

后续到了 12 月,智谱 GLM-4.6V 多模态系列正式发布,包含 9B 与 106B 参数版本。

前者在低成本本地 OCR 场景表现突出,支持复杂扫描、笔记与模糊文档;后者凭借 128K 上下文窗口甚至能跨页理解长税表、合同与科研图谱,把 OCR 拉向文档理解与知识抽取层面。

实际上,阿里千问 10 月发布的 Qwen3-VL-30B 等版本也在 OCR 领域有重要升级。

11 月底的时候,腾讯混元也加入了这一轮集中突破,1B 参数的 HunyuanOCR 开源后迅速受到关注。

虽然参数少,却具备处理表格、结构化文档、多语种内容的能力,运行速度快,易部署,很快成为开源热门。

Agent 文档提取新姿势

机器学习大神吴恩达老师显然也意识到了 OCR 的大热趋势,火速出了一版速通课。

虽然不是教你怎么改进 OCR 技术,但教你怎么给 OCR 装上智能体大脑。

首先,课程详细回顾了 OCR 技术的演进。

从最早的规则时代到现在的智能体时代,每一步更新都是在填传统 OCR 的坑。

以前用 Tesseract,全靠人工写规则;后来有了 PaddleOCR,靠深度学习认字儿。

但它们在提取文字时都会把文档 " 压平 ",导致表格结构、图注关系及阅读顺序等关键信息丢失。

这样一来,下游大模型拿到的就都是半成品数据,特别容易出现幻觉。

而课程里的 ADE 方案,相当于给 OCR 加了三大支柱,靠「视觉优先」策略看懂文档布局,用「以数据为中心」保证精准,再凭智能体化主动思考。

搭载 DPT(文档预训练 Transformer)模型后,ADE 工作流将文档视为一个整体的视觉对象,去理解其布局和空间关系。

并且,DPT 模型在 DocVQA 基准测试中取得了 99.15% 的高分,甚至超越人类。

在实战中,ADE 也展现出了极强的鲁棒性。

超过 1000 个单元格的巨型表格、复杂的手写微积分公式,还是带有弯曲印章的证书,甚至是纯图示的安装说明书,它都能精准解析。

在落地层面,ADE 引入的视觉接地技术,不仅能提取文字,还为每个数据块分配唯一 ID 和精确的像素坐标,并能生成局部截图。

这样一来,AI 只要一回答某个数据是多少,你一点就能看到原始文件里对应的地方,做到 " 有图有真相 "。

此外,课程还提供了极具实操价值的云端部署指南,教你怎么把这技术用到云端,在 AWS 上搭个全自动流水线。

把 PDF 传到 S3 存储桶,Lambda 就会自动进行 ADE 解析,把结构化的 Markdown 存好,再让 Bedrock 知识库建索引,最后靠 Strands Agents 做成能记事儿、会推理的行业知识助手。

从认清楚像素里的字,到在云端大规模用起来,只能说,这 3h 的课程," 学不了吃亏,学不了上当 "~

课程地址:https://www.deeplearning.ai/short-courses/document-ai-from-ocr-to-agentic-doc-extraction/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库 2025 年度「AI 100」榜单正式开启招募!

和我们一起在日新月异的 AI 产品市场中厘清背后脉络,把握未来动向,找到真正代表中国 AI 实力的巅峰力量

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯 ai 阿里 aws ai时代
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论