我正在试验NTLK.我的问题是,图书馆是否可以用德语检测名词的性别.我想收到这些信息,以确定文本是否写成性别中立.浏览此处获取更多信息:
https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender
底层代码对我的句子进行了分类,但我看不到任何有关“Mitarbeiter”性别的信息.我的代码到目前为止:
sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]
到目前为止,我还没有找到任何可以实现此目的的工具或脚本.也许这对我的任务也有更好的解决方案.
最佳答案 我不相信NLTK可以为德国人开箱即用.但是,德国有免费提供的形态标记,可以为您做到这一点,例如RFTagger:
http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/
它提供如下输出:
Das PRO.Dem.Subst.-3.Nom.Sg.Neut
ist VFIN.Sein.3.Sg.Pres.Ind
ein ART.Indef.Nom.Sg.Masc
Testsatz N.Reg.Nom.Sg.Masc
. SYM.Pun.Sent
但是它不在Python中,因此您必须使用子进程调用它.另一个选择是获得一个带有标记为德语性别的名词的语料库,例如Tiger语料库:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html
并培训NLTK以识别性别,但我希望RFTagger是一种更快/更准确的解决方案.