0.07B干翻700亿？百度OCR小模型超越GPT-4o

Lucy · 发表于 2025-9-20 15:57:58

刚刚，百度新出的超轻量OCR模型PP-OCRv5，超过了GPT-4o、Qwen2.5-VL-72B这些通用视觉大模型。它的参数量才0.07B(相当于7000万)，连那些700亿参数大模型的千分之一都不到，却能达到差不多的文字识别(OCR)精度。

要是单说文字识别的场景，那些通用视觉大模型其实有不少麻烦。比如想精准找到文字在哪儿、把文字的边框标准，对它们来说还挺难;而且这些大模型特别费计算资源，有时候还会“瞎输出”，就是明明没那文字，它却识别出来了，出现了“幻觉”。

但PP-OCRv5不一样，它用了“先找文字、再认文字”的两阶段模块化方案，不光体型小、跑起来快，还能把文字的边框标得更准。

另外，PP-OCRv5在行业里也是头一个单模型支持5 种文字类型的超轻量级(<100M)开源模型，还能认复杂的手写体。不管是教育行业改试卷作业、医疗行业把病历变成电子档，还是法律行业处理合同和笔录的数字化，它都能用得上。

还有实际测试数据撑着：在Printed Chinese、Printed English、Handwritten English 这些核心任务上，PP-OCRv5和720亿参数的Qwen2.5-VL-72B比，PP-OCRv5可以追平甚至超越;就算到了Handwritten Chinese、Chinese Pinyin等更复杂的场景，它也能保持前列，适配能力特别强。

最新信息显示，飞桨团队写的技术博客，已经连续一周在HuggingFace博客热度榜上排第一，好多开发者都在关注。2025年5月，他们推出了PaddleOCR 3.0版本，里面有三大核心能力：一个是咱们说的文字识别方案PP-OCRv5，一个是通用文档解析方案PP-StructureV3，还有一个是能直接对接文心大模型4.5的智能文档理解方案PP-ChatOCRv4。

从2020年开源到现在，PaddleOCR已经被下载了900多万次，超过5900个开源项目直接或间接用了它。在GitHub这个全球最大的开源社区里，它也是唯一一个星标(Star)数量超过5万的中国OCR项目，这成绩在国内同类型项目里也算独一份。