一趟聚类
一、思想:
(1) 初始时,聚类集合为空,读入一个新的对象;
(2) 以这个对象构造一个新的类;
(3) 若已到数据库末尾,则转(6),否则读入新对象,利用给定的距离公式,计算它与每个已有类间的距离,并选择最小的 距离;
(4) 若最小距离超过给定的半径阈值r,转(2);
(5) 否则将该对象并入具有最小距离的类中并更新该类的各分类属性值的统计频度及数值属性的质心,转(3);
(6) 结束.
二、半径阈值r的选择
采用抽样技术来计算阈值范围,具体描述如下:
(1) 在数据集D中随机选择若干对对象;
(2) 计算每对对象间的距离;
(3) 计算(2)中距离的平均值EX和标准差DX;
(4) 取r在EX+0.25DX到EX-2DX之间
三、一趟聚类的优点和缺点
优点:高效,参数选择简单,对噪声不敏感
缺点:
数据的录入顺序对结果影响较大,不同的录入顺序会有不同的结果。