nlp – 为什么Penn Treebank POS标签集对单词’to’有单独的标签?

Penn Treebank tagset对于单词’to’有一个单独的标记TO,无论它是用于介词意义上(例如我去学校)还是不定式意义(例如我想吃).从整体NLP的角度来看,这有什么用途?只是简单地将无限“标记”标记为直观,但我没有看到在单个标记中组合不定式和介词的逻辑.

谢谢,如果这不符合堆栈溢出指南,请道歉.

最佳答案 不同的语料库提供不同级别的粒度.例如,将其与
British National Corpus, which includes three different tags相比较.

我相信这可能是作为语料库标记实践的属性而不是来自这种特定的NLP性能目的.这不是不可能想象它是POS Guidelines for the Penn Treebank Project的设计决定.(联系this paper的作者进一步澄清.)

为了使POS标签集不具有单词“to”的单独标签,有时需要将“to”标记为介词,并且有时需要使用不同标签“to”标记“infinitive marker”.为此,人类标记者必须消除“to”两个角色之间的歧义.一些tricky cases(需要语法判断)可能需要一些额外的人工时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误.如果估计信息增益(来自必须消除歧义的粒度)不是那么大,或者如果估计潜在的标记错误太多,那么这种权衡可能在效率和正确性方面犯了更多错误.

点赞