我正在使用Tess4J(JNA包装tesseract),并试图从单页PDF中调用tess.doOCR(myFile)到OCR文本.
我安装了GhostScript(使用yum install ghostscript),gs -h工作正常.
我的app服务器使用的是64位JVM,我有gsdll64.dll,并且类路径中有64位tesseract dll的liblept168.dll和libtesseract302.dll.
调用tess.doOCR(myFile)时,会记录下来:
GPL Ghostscript 8.70 (2014-09-22)
Copyright (C) 2014 Artifex Software, Inc. All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 1.
Page 1
但那时它就停在那里了.该计划不再进一步.
更新 –
看起来真正的问题来自这个错误:
java.lang.UnsatisfiedLinkError:无法加载库’tesseract’:资源路径中找不到本机库(linux-x86-64 / libtesseract.so)
经过四处查看后,我看不到一个方便的地方找到这个libtesseract.so文件,我不知道如何将它放到我的Linux应用服务器上.我读过,也许我需要下载一些C运行时,但我没有看到Linux下载.任何建议将不胜感激.
或者这与符号链接有关?
最佳答案 修复对我来说很简单,只需从命令行执行sudo apt-get install tesseract-ocr.对于Linux,您不必担心DDL库或jvm版本.从apt-get安装tessearct就可以了.