google-cloud-vision – 可以使用Google Cloud Vision TEXT_DETECTION保留文本结构吗?

Google Cloud Vision API(测试版)的第1版允许通过TEXT_DETECTION请求进行光学字符识别.虽然识别质量良好,但返回的字符没有任何原始布局的暗示.因此,结构化文本(例如,表格,收据,柱状数据)有时被错误地排序.

是否可以使用Google Cloud Vision API保留文档结构?类似的问题已被问及tesseract和hOCR.例如,[1]和[2].目前在文档[3]中没有关于TEXT_DETECTION选项的信息.

[1] How to preserve document structure in tesseract
[2] Tesseract – ambiguity in space and tab
[3] https://cloud.google.com/vision/

最佳答案 认识到文本结构比识别文本本身更具抽象概念:字母,单词,句子.如果您已在文件元数据中包含此文本结构信息,则可以执行以下操作:

>在子部分中分割/分割输入图像.
>执行text_detection请求.
>根据元数据正确重新排序文本.

我不是Cloud Vision text_detection API的专家,但它写的是text_detection而不是language_detection或text_structure_detection,所以它提供了一些关于检测级别/层的线索.

也许这是他们计划在未来添加或在文档中描述的功能.

点赞