TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是 TF*IDF,其中 TF(Term Frequency),表示词条在文章中出现的频率;IDF(Inverse Document Frequency),其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,这几个词就可以当做这篇文章的关键词。
1.计算词频(TF)
TF=词语在文档中出现次数/文档中词语总次数;
2.计算逆文档频率(IDF)
IDF=log(语料库文档总数/(含有该词的文档+1));
3.计算词频-逆文档频率(TF-IDF) =TF*IDF
TF-IDF 算法综合考虑了词语出现的频率、位置和密度等因素,但是它没有对整篇文档中相互有联系的词语进行综合考虑,而
TextRank 算法恰恰考虑到了词语之间的关系,并对词语的重要程度进行分配.下节会对TextRank算法做解释