ocr – Tesseract培训 – 只有数字的新字体

2019年7月27日 254次阅读

您好我尝试根据以下数字训练tesseract为新字体：

所有数字都在透明背景的png文件中提供.如果我从它创建一个盒子文件,训练它等等 – 一切正常！

现在问题,同样的情况,但我想基于以下图像训练tesseract：

正如您所看到的,数字与位置完全相同,依此类推.与图像1的唯一区别是我使用黄色背景,从现在开始没有任何工作了.我创建一个盒子文件,我设置与第一个图像相同的位置：

0 5 4 20 22 0
1 27 4 38 21 0
2 48 4 60 22 0
3 71 3 83 22 0
4 94 5 109 22 0
5 119 5 131 22 0
6 143 5 157 22 0
7 172 5 184 22 0
8 197 5 211 23 0
9 224 5 238 22 0

好吧,然后我训练了盒子,但结果.tr文件是完全空的我没有停在这里,并完成所有其他步骤.生成的字体无法使用！

所以我的问题是如何训练tesseract识别这些数字,无论它们使用哪种背景？

编辑2016-04-16：

我使用ImageMagick预处理图像,我找到了一个适用于各种背景的命令.所以我想为这个创建的图像训练tesseract,但它不能像我想的那样工作….
首先,我创建了一些盒子文件,其中大多数都是空的.好吧,我用一个网站来组织角色位置,我花了很多时间完美地完成裁剪！之后我创建了生成的.tr文件,还做了其他的东西来训练tesseract.

最后我得到了“训练的数据”,我将文件移动到tesseract的“tessdata”目录并使用它应该使用它：

tesseract example.jpg output -l mg

(我叫新字体“mg”)

好吧,无论它不能识别全部或大部分！我打开这个帖子寻求帮助,直到现在还没有人真正知道如何做到这一点,遗憾的是….请帮帮我.

我使用和创建的整个tesseract培训文件,你可以在这里找到：

Tesseract training directory(没有压缩/未压缩 – >目录的所有文件的视图)

最佳答案您可以将任何彩色图像更改为二进制图像,然后在其上使用tesseract,这样无论您使用何种颜色,您都将获得相同的结果.