如何将单词分类为其对应的类别?

我要为很长的单词列表实现文本分类.我已经定义了一些类别,例如如果列表中包含“UK”字样,它将位于“Regions”下.如果单词是“Pizza”,它将属于“食物”类别.

如何对不同类别的单词进行分类?有没有可用的开源工具?

最佳答案 我不完全确定你要做什么,但如果你想要的是为多个类别建立一个列表代表词,那么你可以通过选择前N个最常用词,不包括
stop words,来自一组代表每个类别的文件.这是创建非常基本的本体的简单方法.

例如,要创建一组关于食物的单词,您可以抓取网络recipiesmenus,然后从这些单词中选择最常用的单词.我希望,一旦你排除了停止词,你就会有一个很好的食物相关单词列表.对于与编程相关的单词,您可以抓取stackoverflow.com等等…

然后,这可能不是你想要做的……

点赞