我想知道是否可以计算 Python中两个相关单词之间的距离/相似度(如“欺诈”和“窃取”).这两个词本身并不是同义词,但它们显然是相关的. NLP中是否有任何概念/算法能够以数字方式显示这种关系?也许通过NLTK?
我不是在寻找Levenshtein距离,因为它与构成单词的单个角色有关.我正在寻找意义的关系.
非常感谢提供的任何帮助.
最佳答案 我的建议如下:
>将每个单词放在同一个词库中,以获得同义词列表.
>获取两个单词的相似同义词集的大小.
>这是单词之间相似性的度量.
如果您想进行更全面的分析:
>同时获取两个单词中每个单词的反义词.
>获取两个单词的反义词集的交集大小.
如果你想更进一步!…
>将每个单词放在同一个词库中,以获得同义词列表.
>使用查询结果中的前n个(= 5或其他)单词来启动新查询.
>重复此操作至您认为足够的深度.
>从重复的同义词查询中创建同义词的集合.
>从两个同义词集合中获取两个单词的相似同义词集的大小.
>这是单词之间相似性的度量.