2.2.3 标称型、序数型和比例标度型变量
(1)标称变量
标称变量是二元变量的推广,具有多于两个的状态值。如,draw_color是一的标称变量,状态有很多:红色、黄色、绿色、棕色、黑色、白色……。
标称变量之间的相异度可以用简单匹配方法来计算:
d(i,j)= (p-m)/p
这里m是匹配的数目,即对i和j取值相同的变量数目,而p是全部变量的数目。p是全部变量的数目。
(2)序数型变量
序数型变量分离散的序数型变量和连续的序数型变量。其相似度的计算可以用2.1中提到的任何一个距离公式计算。
(3)比例标度型变量
比例标度型变量在非线性的标度取正的度量值,如
AeBt或Ae-Bt
这里A、B是正常数。
(4)混合型变量
现实中在一个系统数据库中可能有标度变量、二元变量、标称变量、序数型变量或比例标度变量。
可取的方法是将所有的变量一起处理,只进行一个聚类分析。一种技术将不同类型的变量组合在单个相异度矩阵中,把所有意义的变量转换到共同的至于区间[0.0,1.0]上。
3 主要聚类方法的分类
目前聚类算法有很多种。算法的选择取决于数据的类型、聚类的目的和应用。由于各种聚类算法之间存在很多交集,它们之间并不是完全独立的,所以很难对聚类算法进行严格意义上的划分,现就聚类算法的发展进程分为两类:传统的聚类算法和新发展的聚类算法。具体分类如图3-1.