所有数字都在透明背景的png文件中提供.如果我从它创建一个盒子文件,训练它等等 – 一切正常!
现在问题,同样的情况,但我想基于以下图像训练tesseract:
正如您所看到的,数字与位置完全相同,依此类推.与图像1的唯一区别是我使用黄色背景,从现在开始没有任何工作了.我创建一个盒子文件,我设置与第一个图像相同的位置:
0 5 4 20 22 0
1 27 4 38 21 0
2 48 4 60 22 0
3 71 3 83 22 0
4 94 5 109 22 0
5 119 5 131 22 0
6 143 5 157 22 0
7 172 5 184 22 0
8 197 5 211 23 0
9 224 5 238 22 0
好吧,然后我训练了盒子,但结果.tr文件是完全空的我没有停在这里,并完成所有其他步骤.生成的字体无法使用!
所以我的问题是如何训练tesseract识别这些数字,无论它们使用哪种背景?
编辑2016-04-16:
我使用ImageMagick预处理图像,我找到了一个适用于各种背景的命令.所以我想为这个创建的图像训练tesseract,但它不能像我想的那样工作….
首先,我创建了一些盒子文件,其中大多数都是空的.好吧,我用一个网站来组织角色位置,我花了很多时间完美地完成裁剪!之后我创建了生成的.tr文件,还做了其他的东西来训练tesseract.
最后我得到了“训练的数据”,我将文件移动到tesseract的“tessdata”目录并使用它应该使用它:
tesseract example.jpg output -l mg
(我叫新字体“mg”)
好吧,无论它不能识别全部或大部分!我打开这个帖子寻求帮助,直到现在还没有人真正知道如何做到这一点,遗憾的是….请帮帮我.
我使用和创建的整个tesseract培训文件,你可以在这里找到:
Tesseract training directory(没有压缩/未压缩 – >目录的所有文件的视图)
最佳答案 您可以将任何彩色图像更改为二进制图像,然后在其上使用tesseract,这样无论您使用何种颜色,您都将获得相同的结果.