google-cloud-vision – 可以使用Google Cloud Vision TEXT_DETECTION保留文本结构吗？

2023年1月9日 213次阅读

Google Cloud Vision API(测试版)的第1版允许通过TEXT_DETECTION请求进行光学字符识别.虽然识别质量良好,但返回的字符没有任何原始布局的暗示.因此,结构化文本(例如,表格,收据,柱状数据)有时被错误地排序.

是否可以使用Google Cloud Vision API保留文档结构？类似的问题已被问及tesseract和hOCR.例如,[1]和[2].目前在文档[3]中没有关于TEXT_DETECTION选项的信息.

最佳答案认识到文本结构比识别文本本身更具抽象概念：字母,单词,句子.如果您已在文件元数据中包含此文本结构信息,则可以执行以下操作：

>在子部分中分割/分割输入图像.
>执行text_detection请求.
>根据元数据正确重新排序文本.

我不是Cloud Vision text_detection API的专家,但它写的是text_detection而不是language_detection或text_structure_detection,所以它提供了一些关于检测级别/层的线索.

也许这是他们计划在未来添加或在文档中描述的功能.