核心库使用
相关库:tesseract-ocr
https://github.com/tesseract-ocr/
核心库软件:tesseract
语言模块:tessdata,其中汉字的是 chi_sim
步骤:
- 下载安装核心库,自己编译太麻烦了,直接下载安装包
- 下载汉字模块:
chi_sim.traineddata
、chi_sim_vert.traineddata
- 放到 tresseract根目录/tessdata/下
- 命令行测试:tesseract -v
- 图片识别:
tesseract 输入文件 输出路径 -l 解析使用到的语言模块
- 例:
tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim
- 例:
核心库已经能正常使用,接下来安装python相关库。
安装python 依赖
- 安装 tesseract api:
pip install pytesseract
- 安装图片处理模块:
pip install Pillow
- 测试实践:
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe' text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'),lang='chi_sim') print(text)
提升识别度(实践)
对于提升识别度,官方有一个较全面的指导,点击链接查看
经实践,想要提升识别度,提升图片的分辨率是最简单直接有效的方式。建议图片的分辨率转换到300以上,再走tesseract进行处理。
参考:
待参考: