我想找到一些类型的包或模块(最好是
Python或Perl,但其他人会这样做)从输入文本自动生成n-gram概率,并且还可以自动应用一个或多个平滑算法.
也就是说,我正在寻找类似NLTK NgramModel类的东西.我不能将它用于我的目的,因为平滑函数存在一些错误,当你要求它之前没有见过的单词的可能性时,它会使它窒息.
我已经阅读了针对NLTK的开发论坛,截至目前,似乎没有任何进展.
还有其他选择吗?
最佳答案 看起来我回答了我自己的问题,所以我会提到我在这里找到的东西以防其他人在寻找它.
我找到了两个工具包:
The CMU-Cambridge Statistical Language Modeling Toolkit
它们似乎具有非常相似的功能.两者都包括各种平滑功能.