配置环境
pip install pytesseract
windows 环境还需要安装 pytesseract-ocr,用 pip 命令本地安装报错,就用了这个 exe 直接安装。
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-alpha.20200223.exe
如果要识别中文需要勾选
默认安装在 C:\Program Files\Tesseract-OCR
python 识别 ocr 需要使用到里面的 tesseract.exe,可以把该路径添加到环境变量或者 python 脚本中加上
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
验证
可以通过下面这个命令查看当前支持的语言
测试代码
import cv2
import pytesseract
# 加载图像
image = cv2.imread('image2.jpg')
# 将图像转换为灰度
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 对图像进行二值化处理
_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
# 进行图像去噪处理
denoised = cv2.fastNlMeansDenoising(binary, None, 10, 7, 21)
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
# 进行 OCR
text = pytesseract.image_to_string(denoised, lang='chi_sim')
# 输出识别结果
print("内容:", text)