使用NLTK和德语语料库从名词中获取性别

2019年7月20日 159次阅读

我正在试验NTLK.我的问题是,图书馆是否可以用德语检测名词的性别.我想收到这些信息,以确定文本是否写成性别中立.浏览此处获取更多信息：

底层代码对我的句子进行了分类,但我看不到任何有关“Mitarbeiter”性别的信息.我的代码到目前为止：

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止,我还没有找到任何可以实现此目的的工具或脚本.也许这对我的任务也有更好的解决方案.

最佳答案我不相信NLTK可以为德国人开箱即用.但是,德国有免费提供的形态标记,可以为您做到这一点,例如RFTagger：

它提供如下输出：

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut 
ist     VFIN.Sein.3.Sg.Pres.Ind 
ein     ART.Indef.Nom.Sg.Masc 
Testsatz    N.Reg.Nom.Sg.Masc 
.   SYM.Pun.Sent

但是它不在Python中,因此您必须使用子进程调用它.另一个选择是获得一个带有标记为德语性别的名词的语料库,例如Tiger语料库：

并培训NLTK以识别性别,但我希望RFTagger是一种更快/更准确的解决方案.