算法 – 超过500万个向量的KMeans聚类

我遇到了一个真正的问题.我需要为500万个向量做一些Kmeans聚类,每个向量包含大约32个cols.

我尝试了需要
Linux的Mahout,我在Windows上,我不能使用Linux操作系统和任何类型的模拟器.

任何人都可以建议一个可扩展到5M向量并可以快速收敛的KMeans聚类算法吗?

我测试了一些,但他们不会扩展.这意味着它们很慢并且需要永远完成.

谢谢

最佳答案 好的,那么谁想要为大规模数据集进行聚类,唯一的方法就是使用Mahout. IT需要一个Linux平台.所以我不得不使用虚拟盒,在其上放置Ubuntu然后使用Mahout.设置Mahout是一个漫长的过程,但我使用的两个链接如下.

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)

http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)

点赞