C#解决方案用于渲染PDF和OCR生成的图像?

我正在寻找的是一种C#解决方案,可以将数据从PDF文档导入我们的数据库,在商业应用程序中.我们的客户将寻求导入任意文档.通常我会把它写成完全不可能,但他们导入的文件将采用他们自己的布局.

我的计划是将PDF呈现为静态图像,然后允许用户设置自己的模板,这些模板基本上使用OCR在PDF中的预定义像素偏移处拉出文本.对于表,它们定义表的位置以及列和行大小的一组其他值.然后,我们可以将模板应用于该文档类型.

所以,我真正想要的是两个库:一个用于将PDF转换为图像,另一个用于将这些图像转换为OCR.

要求:

>是纯C#还是在本机DLL上有一个受支持的C#包装器.
>不分叉进程 – 在这种情况下,不允许基本上只创建命令行参数和启动外部可执行文件的包装器.
>在FOSS的情况下,允许我们通过支付许可费来免除正常的FOSS许可证要求(即发布我们的源代码).

我们当然不介意为商业解决方案付费,但我们宁愿不再为每个软件分发付费.

我知道这是一个非常具体的要求 – 也许足以让一些人认为这个问题过于局部化,但我希望有人可以建议一种方法和一些对我有帮助的库,以及将来的其他人.

我调查了PDF方面的东西:

> iTextSharp – 文档是你必须购买的书,不是一个好的开始.关于将PDF转换为公共领域的图像似乎没有太多有用的文档.许可是不透明的,看起来我们必须按照我们分发的客户付费.
> Docotic.Pdf – 仅限文本,对我们没用.
> pdftohtml – 再次,不会产生图像.移植到C#也是一团糟.
> PdfFileParser – 仍然不是我们需要的.
> GhostScript – 几乎就是我们想要的,但需要分配给程序.

对于OCR方面,我可能最终会使用Tesseract,因为Apache许可是允许的,并且它得到了很好的评论.如果有其他选择,我也会对此感兴趣.

最佳答案 我想你可能想给Docotic.Pdf另一个机会.

该库可以使用其边界矩形提取文本块,单词甚至单个字符.请查看extraction of words from PDFs的样本.

此外,Docotic.Pdf可以从PDF创建图像并在System.Drawing.Graphics上绘制页面.请看一下Draw and print Pdf组的样品.

免责声明:我是该图书馆的开发人员之一.

点赞