使用C#搜索OCR(可搜索)PDF

2023年4月15日 253次阅读

我需要从已经使用OCR程序转换的PDF中提取文本.我是否使用普通的PDFReader来获取文本,或者OCR转换后的PDF需要特殊处理吗？最佳答案这取决于它是如何转变的.许多OCR应用程序以某种方式将文本放在图像下.有些人通过首先放置文本将图像放在顶部来完成此操作.有些将图像放在底部,然后使用“不标记”传输模式将文本放在顶部.

我提到这一点是因为我无法预测任何特定的文本提取工具如何响应透明文本.理论上,它应该只给你文本(这是Acrobat的作用).这是否真的发生在所有文本提取工具中,这是任何人的猜测.