关键词提取算法
- 有监督
- 无监督
有监督
通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似标签的方式,达到关键词的提取效果。
优缺点
- 能够获取到较高的精度
- 需要大批量的标准数据,人工成本过高
- 每天的信息量增加过多,会有大量的新信息出现,一旦固定的词表有时将很难将新信息的内容表达出来,但是要人工维护这个受控的词表却要很高的人力成本。
无监督
TFIDF算法
TextRank 算法
主题模型算法(LSA/LSI、LDA 等)
通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似标签的方式,达到关键词的提取效果。
TFIDF算法
TextRank 算法
主题模型算法(LSA/LSI、LDA 等)