cluster-analysis – 数据聚类算法

2019年8月2日 216次阅读

什么是最流行的文本聚类算法,它处理大尺寸和庞大的数据集,并且速度快？

在阅读了如此多的论文和许多方法后,我感到很困惑.现在只想知道哪一个最常用,为编写文档的聚类应用程序提供了一个很好的起点. 最佳答案为了处理维数的诅咒,您可以尝试确定生成数据集的盲源(即主题).您可以使用
Principal Component Analysis或
Factor Analysis来降低功能集的维度并计算有用的索引.

PCA是Latent Semantic Indexing中使用的,因为SVD可以被证明是PCA 🙂

请记住,当您获得数据集的主要组成部分或其因素时,您可能会失去解释,所以您可能想要去Non-Negative Matrix Factorization路线. (这就是冲击！K-Means是一个特殊的NNMF！)在NNMF中,数据集只能通过其附加的非负分量来解释.