K-Mean聚类算法+C语言代码:
实现步骤:
1. 确定分的簇数K;
2. 随机选择K个簇作为数据的计算中心,即随机选取质心;
3. 用欧式距离计算每组数据到中心的距离,将距离最短的对应纳入对应簇 Crowd[lable];
4. 计算各组簇到该簇中心的欧式距离和 Var;
5. oldVar 与 newVar 进行比较,若abs(oldVar – newVar)<1,即新旧误差在1范围内结束迭代,否则,执行步骤6;
6. 更新质心,即计算当前组簇的 Crowd[i]的平均值作为新的质心;执行步骤3。
以鸢尾花数据集为例:
#include “stdio.h”
#include “stdlib.h”
#include “math.h”
#include “time.h”
#include “vector”
using namespace std;
#define K 4 //簇数为3
#define dimNum 3 //维数为3
typedef vector<double> doubleVector;
vector<doubleVector> getFileInf(); //获取文件信息
void K_Mean(vector<doubleVector> srcInf); //k均值开始引擎
int getClusterLable(doubleVector meanCenter[], doubleVector srcInf); //簇数赋值
double getEUCdis(doubleVector t1, doubleVector t2); //计算欧式距离
double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[]); //计算误差平方和
doubleVector getMeanCenter(vector<doubleVector> cluster); //更新质点
void output(vector<doubleVector> cluster[]); //结果输出
void main()
{
vector<doubleVector> srcInf;
srcInf = getFileInf();
K_Mean(srcInf);
}
//获取文件信息
vector<doubleVector> getFileInf()
{
vector<doubleVector> dst;
doubleVector temp;
double num;
int i=1;
FILE *fp;
fp = fopen(“testInf.txt”, “r”);
if(fp == NULL)
{
printf(“Open file error!\n”);
exit(0);
}
while(fscanf(fp, “%lf”, &num)!=EOF)
{
temp.push_back(num);
if(i%dimNum==0)
{
dst.push_back(temp);
temp.clear();
}
i++;
}
return dst;
}
//K均值开始引擎
void K_Mean(vector<doubleVector> srcInf)
{
vector<doubleVector> Clusters[K]; //K个簇数
doubleVector meanCenter[K]; //K个中心
int i, j;
int cSelect;
srand(time(NULL));
//随机获取均值中心即质心
for(i=0; i<K; i++)
{
cSelect = rand()%(int)(srcInf.size()/K)+(int)(i*srcInf.size()/K);
for(j=0; j<dimNum; j++)
meanCenter[i].push_back(srcInf[cSelect][j]); //随机选择三组为中心
}
int lable = 0;
//根据质心给簇数赋值
for(i=0; i<srcInf.size(); i++)
{
lable = getClusterLable(meanCenter, srcInf[i]);
Clusters[lable].push_back(srcInf[i]);
}
double oldVar = -1;
double newVar = getVar(Clusters, meanCenter); //整体误差平方和
printf(“本次迭代值为%lf\n”, newVar);
while(fabs(oldVar-newVar)>=1) //当新旧函数值相差不到1即准则函数值不发生明显变化时,算法终止
{
//更新质点
for(i=0; i<K; i++)
meanCenter[i] = getMeanCenter(Clusters[i]);
oldVar = newVar;
newVar = getVar(Clusters, meanCenter);
//清空每个簇
for(i=0; i<K; i++)
Clusters[i].clear();
for(i=0; i<srcInf.size(); i++)
{
lable = getClusterLable(meanCenter, srcInf[i]);
Clusters[lable].push_back(srcInf[i]);
}
printf(“本次迭代值为%lf\n”, newVar);
}
output(Clusters);
}
//给簇数赋值
int getClusterLable(doubleVector meanCenter[], doubleVector srcInf)
{
double dist = getEUCdis(meanCenter[0], srcInf);
double temp;
int i, label=0;//标示属于哪一个簇
for(i=1; i<K; i++)
{
temp = getEUCdis(meanCenter[i], srcInf);
if(temp<dist)
{
dist=temp;
label=i;
}
}
return label;
}
//欧式距离计算
double getEUCdis(doubleVector t1, doubleVector t2)
{
double distance=0;
int i;
for(i=0; i<dimNum; i++)
distance += (t1[i]-t2[i])*(t1[i]-t2[i]);
return sqrtf(distance);
}
//计算误差平方和
double getVar(vector<doubleVector> cluster[], doubleVector meanCenter[])
{
int i, j;
double var=0;
vector<doubleVector> temp;
for (i=0; i<K; i++)
{
temp = cluster[i];
for (j=0; j<temp.size(); j++)
{
var += getEUCdis(temp[j], meanCenter[i]);
}
}
return var;
}
//质点更新
doubleVector getMeanCenter(vector<doubleVector> culster)
{
int i, j;
int num = culster.size();
doubleVector temp(dimNum, 0);
for(i=0; i<num; i++)
for(j=0; j<dimNum; j++)
temp[j] += culster[i][j];
for(j=0; j<=dimNum; j++)
temp[j] /= num;
return temp;
}
//结果输出
void output(vector<doubleVector> cluster[])
{
printf(“结果为\n”);
int i, j, lable;
for(lable=0; lable<K; lable++)
{
printf(“第%d个簇:\n”, lable+1);
vector<doubleVector> t = cluster[lable];
for(i=0; i<t.size(); i++)
{
printf(“%d.(“, i+1);
for(j=0; j<dimNum; j++)
printf(“%0.2lf, “, t[i][j]);
printf(“)\n”);
}
}
}