使用OpenNLP链接多个名称查找器实体

首先是一些上下文:我正在尝试在文档集中识别街道地址,我们认为明显的解决方案是使用NLP(在这种情况下为Apache OpenNLP)工具来实现这一点,到目前为止一切虽然我们仍然需要用大量文档训练模型,但看起来很棒,但这不是一个真正的问题.我们通过使用Datamade的
USAddress解析器添加额外的地址验证步骤来改进解决方案.我最大的问题是,如果地址旁边没有位置,地址就没有了,有时位置在文本中指定,我们会认为这种情况经常发生.

我的问题出现了:是否有人使用coreference来关联文本中的实体?或者更好的是,有没有办法在文本中注释任意单词并将它们标识为一个实体?

我一直在看Apache OpenNLP文档但是……它非常薄,我认为它仍然需要一些工作.

最佳答案 如果要对此问题使用共参考,可以查看此
blog

但更简单的解决方案是使用句子检测器RegEx或位置NER句子检测器(假设地址在一行)

我认为可以使用正则表达式识别美国地址,一旦正则表达式匹配,您可以使用opennlp的句子检测器来打印整个地址行.

同样,您可以使用opennlp提供的NER模型来查找位置并打印您想要的句子.

希望这可以帮助!

编辑

这个Github Repo让我们变得简单.看看这个!

点赞