大模型做OCR不如直接OCR

用Qwen2.5VL 3b和7b做OCR 效果不行,不如直接使用OCR的包,如CnOcr

安装:

pip install cnocr[ort-cpu]

pip install cnocr[ort-cpu] -i https://pypi.tuna.tsinghua.edu.cn/simple

首次安装会去hf上下几个模型,CPU也可以运行,效果不错:

from cnocr import CnOcr

img_fp = 'page_10.png'
ocr = CnOcr()  # 所有参数都使用默认值
out = ocr.ocr(img_fp)

print(out)

返回结果为 文本信息 准确率 位置信息

文档:https://cnocr.readthedocs.io/zh-cn/stable/

解决方向:OCR 结果给大模型处理

发表回复