0.07B干翻700亿?百度OCR小模型超越GPT-4o
刚刚,百度新出的超轻量OCR模型PP-OCRv5,超过了GPT-4o、Qwen2.5-VL-72B这些通用视觉大模型。它的参数量才0.07B(相当于7000万),连那些700亿参数大模型的千分之一都不到,却能达到差不多的文字识别(OCR)精度。
要是单说文字识别的场景,那些通用视觉大模型其实有不少麻烦。比如想精准找到文字在哪儿、把文字的边框标准,对它们来说还挺难;而且这些大模型特别费计算资源,有时候还会“瞎输出”,就是明明没那文字,它却识别出来了,出现了“幻觉”。
但PP-OCRv5不一样,它用了“先找文字、再认文字”的两阶段模块化方案,不光体型小、跑起来快,还能把文字的边框标得更准。
另外,PP-OCRv5在行业里也是头一个单模型支持5 种文字类型的超轻量级(<100M)开源模型,还能认复杂的手写体。不管是教育行业改试卷作业、医疗行业把病历变成电子档,还是法律行业处理合同和笔录的数字化,它都能用得上。
还有实际测试数据撑着:在Printed Chinese、Printed English、Handwritten English 这些核心任务上,PP-OCRv5和720亿参数的Qwen2.5-VL-72B比,PP-OCRv5可以追平甚至超越;就算到了Handwritten Chinese、Chinese Pinyin等更复杂的场景,它也能保持前列,适配能力特别强。
最新信息显示,飞桨团队写的技术博客,已经连续一周在HuggingFace博客热度榜上排第一,好多开发者都在关注。2025年5月,他们推出了PaddleOCR 3.0版本,里面有三大核心能力:一个是咱们说的文字识别方案PP-OCRv5,一个是通用文档解析方案PP-StructureV3,还有一个是能直接对接文心大模型4.5的智能文档理解方案PP-ChatOCRv4。
从2020年开源到现在,PaddleOCR已经被下载了900多万次,超过5900个开源项目直接或间接用了它。在GitHub这个全球最大的开源社区里,它也是唯一一个星标(Star)数量超过5万的中国OCR项目,这成绩在国内同类型项目里也算独一份。
0.07B 相当于7亿 和rapidOcr比,怎么样? 飞桨ocr早就有了,确实很快。识别率还可以。比通用大模型早很多了。但也不能对比吧,只能ocr ppocr和vlm比,虽然不至于说爸爸像儿子,但也可以说是哥哥长得像弟弟… 小身材大能量!专精果然比通吃更香~
页:
[1]