K-Mean聚类算法+C语言代码

K-Mean聚类算法+C语言代码:

实现步骤:

1. 确定分的簇数K;

2. 随机选择K个簇作为数据的计算中心,即随机选取质心;

3. 用欧式距离计算每组数据到中心的距离,将距离最短的对应纳入对应簇 Crowd[lable];

4. 计算各组簇到该簇中心的欧式距离和 Var;

5. oldVar 与 newVar 进行比较,若abs(oldVar – newVar)<1,即新旧误差在1范围内结束迭代,否则,执行步骤6;

6. 更新质心,即计算当前组簇的 Crowd[i]的平均值作为新的质心;执行步骤3。

以鸢尾花数据集为例:

#include “stdio.h”
#include “stdlib.h”
#include “math.h”
#include “time.h”
#include “vector”
using namespace std;
#define K 4   //簇数为3
#define dimNum 3  //维数为3
typedef vector<double> doubleVector;

vector<doubleVector> getFileInf();   //获取文件信息
void K_Mean(vector<doubleVector> srcInf); //k均值开始引擎
int getClusterLable(doubleVector meanCenter[], doubleVector srcInf); //簇数赋值
double getEUCdis(doubleVector t1, doubleVector t2);  //计算欧式距离
double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[]);  //计算误差平方和
doubleVector getMeanCenter(vector<doubleVector> cluster);  //更新质点
void output(vector<doubleVector> cluster[]);  //结果输出

void main()
{
vector<doubleVector> srcInf;
srcInf = getFileInf();
K_Mean(srcInf);
}

//获取文件信息
vector<doubleVector> getFileInf()
{
vector<doubleVector> dst;
doubleVector temp;
double num;
int i=1;

FILE *fp;

fp = fopen(“testInf.txt”, “r”);
if(fp == NULL)
{
printf(“Open file error!\n”);
exit(0);
}

while(fscanf(fp, “%lf”, &num)!=EOF)
{
temp.push_back(num);
if(i%dimNum==0)
{
dst.push_back(temp);
temp.clear();
}
i++;
}

return dst;
}

//K均值开始引擎
void K_Mean(vector<doubleVector> srcInf)
{
vector<doubleVector> Clusters[K];   //K个簇数
doubleVector meanCenter[K];    //K个中心

int i, j;
int cSelect;
srand(time(NULL));

//随机获取均值中心即质心
for(i=0; i<K; i++)
{
cSelect = rand()%(int)(srcInf.size()/K)+(int)(i*srcInf.size()/K); 

for(j=0; j<dimNum; j++)
meanCenter[i].push_back(srcInf[cSelect][j]);  //随机选择三组为中心
}

int lable = 0;
//根据质心给簇数赋值
for(i=0; i<srcInf.size(); i++)
{
lable = getClusterLable(meanCenter, srcInf[i]);
Clusters[lable].push_back(srcInf[i]);
}

double oldVar = -1;
double newVar = getVar(Clusters, meanCenter);  //整体误差平方和

printf(“本次迭代值为%lf\n”, newVar);

while(fabs(oldVar-newVar)>=1)   //当新旧函数值相差不到1即准则函数值不发生明显变化时,算法终止 
{
//更新质点
for(i=0; i<K; i++)
meanCenter[i] = getMeanCenter(Clusters[i]);

oldVar = newVar;
newVar = getVar(Clusters, meanCenter);

//清空每个簇
for(i=0; i<K; i++)
Clusters[i].clear();

for(i=0; i<srcInf.size(); i++)
{
lable = getClusterLable(meanCenter, srcInf[i]);
Clusters[lable].push_back(srcInf[i]);
}

printf(“本次迭代值为%lf\n”, newVar);
}

output(Clusters);
}

//给簇数赋值
int getClusterLable(doubleVector meanCenter[], doubleVector srcInf)
{  
    double dist = getEUCdis(meanCenter[0], srcInf);  
    double temp;  
    int i, label=0;//标示属于哪一个簇  

    for(i=1; i<K; i++)
{  
        temp = getEUCdis(meanCenter[i], srcInf);  

        if(temp<dist) 
{
dist=temp;
label=i;
}  
    }  

    return label;     
}

//欧式距离计算
double getEUCdis(doubleVector t1, doubleVector t2)
{
double distance=0;
int i;

for(i=0; i<dimNum; i++)
distance += (t1[i]-t2[i])*(t1[i]-t2[i]);

return sqrtf(distance);
}

//计算误差平方和
double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[])
{
int i, j;
double var=0;
vector<doubleVector> temp;

for (i=0; i<K; i++)  
    {  
        temp = cluster[i];  
        for (j=0; j<temp.size(); j++)  
        {  
            var += getEUCdis(temp[j], meanCenter[i]);  
        }  
    }  
    return var;  
}

//质点更新
doubleVector getMeanCenter(vector<doubleVector> culster)
{
int i, j;
int num = culster.size();

doubleVector temp(dimNum, 0);
 
for(i=0; i<num; i++)
for(j=0; j<dimNum; j++)
temp[j] += culster[i][j];
 
for(j=0; j<=dimNum; j++)  
temp[j] /= num;

return temp;  
}

//结果输出
void output(vector<doubleVector> cluster[])
{
printf(“结果为\n”);
int i, j, lable;
for(lable=0; lable<K; lable++)  
    {  
        printf(“第%d个簇:\n”, lable+1); 
        vector<doubleVector> t = cluster[lable];  
        for(i=0; i<t.size(); i++)  
        {  
printf(“%d.(“, i+1); 
            for(j=0; j<dimNum; j++) 
printf(“%0.2lf, “, t[i][j]);
            printf(“)\n”); 
        }  
    } 
}

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/u014070279/article/details/47020371
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞