雷锋网 06-15
97毫秒!百度 PP-OCRv6 把 OCR 带进毫秒时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,百度文心正式发布新一代 OCR 模型 PP-OCRv6,一次性推出 Tiny、Small、Medium 三档模型,支持   50   多种语言,覆盖浏览器端、嵌入式设备到服务器等主流场景。公开结果显示,PP-OCRv6 再次刷新 OCR 领域评测纪录,综合性能位居全球第一。

其中,PP-OCRv6 Tiny 的尺寸仅 1.5MB,可直接部署于本地浏览器环境,单图预测最快仅需   97   毫秒。用户数据无需上传云端即可完成 OCR 处理,在保障隐私安全的同时,大幅降低部署门槛。有开发者评价,PP-OCRv6 可能是全球唯一可在浏览器环境运行的高精度 OCR 模型,为   Agent   装上一双眼睛,能够在智能办公、教育、工业等场景提供更加轻量、高效的视觉感知能力。

在性能方面,PP-OCRv6 在保持轻量化优势的同时进一步提升识别精度和推理速度,综合性能显著增强。PP-OCRv6 在文本检测和文本识别任务中分别取得 86.2 和 83.2 的成绩,双双刷新此前由 PP-OCRv5 保持的 OCR 领域最佳水平,整体表现领先于 Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro 等国内外主流多模态大模型,在 OCR 专业任务上展现出更强竞争力。



作为文心大模型多模态能力的重要组成部分,PP-OCR 系列近年来持续推进文本检测与识别技术升级,先后推出 PP-OCRv1 至 PP-OCRv6 等多个版本。目前,PP-OCR 系列所在的 PaddleOCR 项目已支持超 110 种语言识别,服务覆盖全球 170 多个国家和地区。

凭借轻量化、高精度等特点,PP-OCR 系列已被广泛集成至 UmiOCR、MinerU、TurboOCR 等业界 OCR 工具链中,并应用于文档解析、数据处理、知识库构建等场景,成为开发者和企业常用的开源 OCR 解决方案之一;同时,PP-OCR 系列也成为各大模型团队开展数据预处理、文档解析和知识提取的重要工具,为模型训练与应用落地提供支持。在 GitHub 上,PaddleOCR 的 Star 数量已突破 8.22 万,超过谷歌旗下开源 OCR 标杆产品 Tesseract OCR,成为全球最受关注的开源 OCR 项目之一。

目前,PP-OCRv6   已上线   PaddleOCR   官网,用户可通过网页或 API 方式快速使用,代码和模型权重也已开源至 Github   和   HuggingFace,服务广大用户下载和使用。

PaddleOCR 官网:paddleocr.com

Github:github.com/PaddlePaddle/PaddleOCR

HuggingFace:https://huggingface.co/collections/PaddlePaddle/pp-ocrv6

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 百度 轻量化 谷歌
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论