基于质心的聚类算法

文本聚类

聚类算法常见的包括:K-means,hierarchy clustering等,虽然都是非监督的,但是K-means预先要定K(也就是类别)的值,聚类的结果也极大的依赖于K的值,当然还依赖于初始类别中心的位置,已经有很多解决方法了。

而层级聚类是根据多次的融合和分裂得到的,事先不需要定有多少类(K-means中k的值),这个聚类的结果优劣依赖于融合和分裂的阈值

最近在做新闻文本处理,需要完成很多任务,其中最难的是自动聚合出新闻的热点话题。话题,不同于热词,是一个易读,多个词组成的有一定语义的短语。

文本聚类是话题发现聚合的第一步。

考虑用基于质心的聚类算法实现:

基于质心的算法特点是,文档向量由常见的两种格式(1.词袋中是否出现,即0或1;2.词袋中出现次数)转换成更有文档代表性的tfidf值。tfidf表现了文档中该词出现的频率,体现了质量。文档间的相似度用余弦相似度算法计算。质心为多文档的平均值。

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/whzhcahzxh/article/details/24724487
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞