Lucy    发表于  昨天 15:57 | 显示全部楼层 |阅读模式 5 5
刚刚,百度新出的超轻量OCR模型PP-OCRv5,超过了GPT-4o、Qwen2.5-VL-72B这些通用视觉大模型。它的参数量才0.07B(相当于7000万),连那些700亿参数大模型的千分之一都不到,却能达到差不多的文字识别(OCR)精度。        要是单说文字识别的场景,那些通用视觉大模型其实有不少麻烦。比如想精准找到文字在哪儿、把文字的边框标准,对它们来说还挺难;而且这些大模型特别费计算资源,有时候还会“瞎输出”,就是明明没那文字,它却识别出来了,出现了“幻觉”。        但PP-OCRv5不一样,它用了“先找文字、再认文字”的两阶段模块化方案,不光体型小、跑起来快,还能把文字的边框标得更准。        另外,PP-OCRv5在行业里也是头一个单模型支持5 种文字类型的超轻量级(<100M)开源模型,还能认复杂的手写体。不管是教育行业改试卷作业、医疗行业把病历变成电子档,还是法律行业处理合同和笔录的数字化,它都能用得上。        还有实际测试数据撑着:在Printed Chinese、Printed English、Handwritten English 这些核心任务上,PP-OCRv5和720亿参数的Qwen2.5-VL-72B比,PP-OCRv5可以追平甚至超越;就算到了Handwritten Chinese、Chinese Pinyin等更复杂的场景,它也能保持前列,适配能力特别强。        最新信息显示,飞桨团队写的技术博客,已经连续一周在HuggingFace博客热度榜上排第一,好多开发者都在关注。2025年5月,他们推出了PaddleOCR 3.0版本,里面有三大核心能力:一个是咱们说的文字识别方案PP-OCRv5,一个是通用文档解析方案PP-StructureV3,还有一个是能直接对接文心大模型4.5的智能文档理解方案PP-ChatOCRv4。        从2020年开源到现在,PaddleOCR已经被下载了900多万次,超过5900个开源项目直接或间接用了它。在GitHub这个全球最大的开源社区里,它也是唯一一个星标(Star)数量超过5万的中国OCR项目,这成绩在国内同类型项目里也算独一份。

01.jpg
02.jpg
03.jpg
Owen    发表于  昨天 15:58 | 显示全部楼层
0.07B 相当于7亿
玉米阳光    发表于  昨天 15:58 | 显示全部楼层
和rapidOcr比,怎么样?
Nina    发表于  昨天 15:58 | 显示全部楼层
飞桨ocr早就有了,确实很快。识别率还可以。比通用大模型早很多了。但也不能对比吧,只能ocr
Caitlin    发表于  昨天 15:58 | 显示全部楼层
ppocr和vlm比,虽然不至于说爸爸像儿子,但也可以说是哥哥长得像弟弟…
Allie    发表于  昨天 15:58 | 显示全部楼层
小身材大能量!专精果然比通吃更香~
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, 公立边.    Powered by gonglubian|网站地图

GMT+8, 2025-9-21 01:48 , Processed in 0.559816 second(s), 31 queries .