DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
完整C++代码可在 CSDN 或 @DiamonJoy 下载
(最近收到很多小童鞋的邮件和私信,反映数据量过大时程序崩掉的问题,本人测试后上万数据点确实会导致程序崩溃,代码为本人本科课程设计作业旨在复现算法思路,并未针对大规模实际数据问题进行优化,仅供算法学习参考。)
DBScan需要二个参数: 扫描半径 (eps)和最小包含点数(minPts)。 任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点。 如果 附近点的数量 ≥ minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。 然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展。 如果 附近点的数量 < minPts,则该点暂时被标记作为噪声点。 如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。
具体算法描述如下: (1)检测数据库中尚未检查过的对象
p,如果
p为被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇
C,将其中的所有点加入候选集
N; (2)对候选集
N 中所有尚未被处理的对象
q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果
q 未归入任何一个簇,则将
q 加入
C; (3)重复步骤2),继续检查
N 中未处理的对象,当前候选集
N为空; (4)重复步骤1)~3),直到所有对象都归入了某个簇或标记为噪声。
优点:
- 与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。
- 与K-means方法相比,DBSCAN可以发现任意形状的簇类。
- 同时,DBSCAN能够识别出噪声点。
- DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。
缺点:
- DBScan不能很好反映高尺寸数据。
- DBScan不能很好反映数据集以变化的密度。