雷锋网 前天
超越GPT-4o及Qwen2.5-VL,百度超轻量模型PP-OCRv5 Blog持续登顶Hugging Face热度第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近日,百度在海外官方账号介绍了最新轻量级文字识别模型   PP-OCRv5。该模型仅 0.07B 参数,以千分之一参数量实现与 700 亿参数大模型相媲美的 OCR 精度。在多项   OCR   场景测试中,PP-OCRv5   的表现超越 GPT-4o、Qwen2.5-VL-72B 等通用视觉大模型。最新信息显示,飞桨团队发布的技术 Blog 已连续一周登顶 Hugging Face 博客热度榜首,受到开发者社区的广泛关注。



据了解,2025 年 5 月,飞桨团队推出 PaddleOCR 3.0 版本,文字识别方案 PP-OCRv5 与通用文档解析方案 PP-StructureV3,以及原生支持文心大模型 4.5 的智能文档理解方案 PP-ChatOCRv4 共同构成其三大特色能力。自 2020 年开源以来,PaddleOCR 累计下载量突破 900 万,被超过 5.9k 开源项目直接或间接使用,是 GitHub   社区中唯一一个   Star 数超过 50k 的中国 OCR 项目。

9 月 18 日晚,Paddle OCR 项目登上了 GitHub 全球总榜   trending 榜, 位于 python 榜第 5,总榜第 13。

Blog 指出,在 OCR 场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和 " 幻觉 " 输出。相较于 VLM,PP-OCRv5 采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。

Benchmark 数据显示,PP-OCRv5 在   Printed Chinese、Printed English、Handwritten English   等核心任务上与百亿级大模型   Qwen2.5-VL-72B   精度持平甚至更优;在 Handwritten Chinese、Chinese Pinyin 等复杂场景中,仍稳居前列,表现出强泛化能力。



作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5 是业界首个单模型支持 5   种文字类型的超轻量级(

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

百度 python 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论