使用NLTK和德语语料库从名词中获取性别

我正在试验NTLK.我的问题是,图书馆是否可以用德语检测名词的性别.我想收到这些信息,以确定文本是否写成性别中立.浏览此处获取更多信息:

https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender

底层代码对​​我的句子进行了分类,但我看不到任何有关“Mitarbeiter”性别的信息.我的代码到目前为止:

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止,我还没有找到任何可以实现此目的的工具或脚本.也许这对我的任务也有更好的解决方案.

最佳答案 我不相信NLTK可以为德国人开箱即用.但是,德国有免费提供的形态标记,可以为您做到这一点,例如RFTagger:

http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/

它提供如下输出:

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut 
ist     VFIN.Sein.3.Sg.Pres.Ind 
ein     ART.Indef.Nom.Sg.Masc 
Testsatz    N.Reg.Nom.Sg.Masc 
.   SYM.Pun.Sent 

但是它不在Python中,因此您必须使用子进程调用它.另一个选择是获得一个带有标记为德语性别的名词的语料库,例如Tiger语料库:

http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html

并培训NLTK以识别性别,但我希望RFTagger是一种更快/更准确的解决方案.

点赞