我们需要阅读iPad相机拍摄的销售收据照片中的一些文字.这是一个类似于我们需要阅读的示例:
这个问题有一些限制:
>我们需要读取文本标记后总是出现的总量(例如本例中的Grand Total).
>字体始终相同.
>该应用必须离线工作,无需网络连接.
这是我们到目前为止所尝试的:
> Google Mobile Vision文本提取就像魔术一样.但文本提取仅适用于Android.我们需要在iOS中构建解决方案.
>谷歌和微软拥有基于云的机器视觉解决方案,这些解决方但我们的应用需要离线工作.
>使用tesseract OCR.它的表现非常糟糕.毫无疑问,因为我们有一张照片而不是扫描黑&白色图像.
我们现在正考虑使用卷积NN创建自定义解决方案.我的问题是我们如何构建一个利用这两个约束来创建更简单但非常准确的解决方案的模型?
>总量显示在文本标记之后.我们可以放心地忽略文本的其余部分.
>文本始终使用英语和相同的字体.
这是我们迄今为止提出的一般管道.
>拉直图像并将其缩放到标准尺寸.
>使用conv net来定位文本标记(Grad Total)应该相当容易.我们可以完全跳过图像的上半部分.
我们不确定此时还有什么可做的.任何提示,建议和帮助都会很棒.
PS.我意识到这是一个关于设计方法的问题,而不是一个特定的编程问题.如果违反SO准则我会道歉.
最佳答案 我建议您考虑deeplearning4j.org解决方案.你可以在强大的机器上训练他们的网络然后保存网络状态并在android上使用它.
Here他们在java的帮助下解释了如何在Android应用程序中使用他们的网络.