在使用pytesser做图片文字识别时遇到 WindowsError: [Error 2]
错误,报错内容如下:
Traceback (most recent call last):
File "E:/Code/Captcha/ChinaMobileEC/recogCaptcha.py", line 37, in <module>
print pytesser.image_to_string(out)
File "E:\Code\Captcha\pytesser\pytesser.py", line 36, in image_to_string
call_tesseract(scratch_image_name, scratch_text_name_root)
File "E:\Code\Captcha\pytesser\pytesser.py", line 25, in call_tesseract
proc = subprocess.Popen(args)
File "C:\Python27\lib\subprocess.py", line 710, in __init__
errread, errwrite)
File "C:\Python27\lib\subprocess.py", line 958, in _execute_child
startupinfo)
WindowsError: [Error 2]
WindowsError: [Error 2] 的意思是系统找不到指定的文件。
查看pytesser
中的代码,其实就是一个调用 tesseract.exe
识别图片的过程,其中代码如下:
tesseract_exe_name = 'tesseract'
def call_tesseract(input_filename, output_filename):
"""Calls external tesseract.exe on input file (restrictions on types),
outputting output_filename+'txt'"""
args = [tesseract_exe_name, input_filename, output_filename]
proc = subprocess.Popen(args)
retcode = proc.wait()
if retcode != 0:
errors.check_for_errors()
就是调用 subprocess.Popen()
执行 tesseract input_filename output_filename
, 这样会将识别结果写到out_filename的txt文件。这条命令你可以直接在cmd中到 tesseract.exe
目录下运行,也能看到识别结果。pytesser其实就是调用这个命令识别,然后读取结果返回。
所以上面错误中所说的找不到的文件就是指 tesseract.exe
。所以解决这个问题的方法有两种:
第一种时将 tesseract.exe
所在路径添加到搜索路径,这样无论在哪儿执行 tesseract
系统都能找到。
第二种是修改 pytesser
中的代码, 将 tesseract 换成绝对路径即可:
import os
pwd = os.path.dirname(__file__)
# 将原来的 tesseract_exe_name='tesseract' 改成绝对路径
tesseract_exe_name = os.path.join(pwd,'tesseract')