聚类算法之DBScan(C++)

2023年4月4日 353次阅读来源: 聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

完整C++代码可在 CSDN 或 @DiamonJoy 下载

(最近收到很多小童鞋的邮件和私信，反映数据量过大时程序崩掉的问题，本人测试后上万数据点确实会导致程序崩溃，代码为本人本科课程设计作业旨在复现算法思路，并未针对大规模实际数据问题进行优化，仅供算法学习参考。)

DBScan需要二个参数：扫描半径 (eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量 ≥ minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展。如果附近点的数量 < minPts，则该点暂时被标记作为噪声点。如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

具体算法描述如下：（1）检测数据库中尚未检查过的对象
p，如果
p为被处理(归为某个簇或者标记为噪声)，则检查其邻域，若包含的对象数不小于minPts，建立新簇
C，将其中的所有点加入候选集
N；（2）对候选集
N 中所有尚未被处理的对象
q，检查其邻域，若至少包含minPts个对象，则将这些对象加入N；如果
q 未归入任何一个簇，则将
q 加入
C；（3）重复步骤2)，继续检查
N 中未处理的对象，当前候选集
N为空；（4）重复步骤1)~3)，直到所有对象都归入了某个簇或标记为噪声。

优点：

与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。
与K-means方法相比，DBSCAN可以发现任意形状的簇类。
同时，DBSCAN能够识别出噪声点。
DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点：

DBScan不能很好反映高尺寸数据。
DBScan不能很好反映数据集以变化的密度。

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/diamonjoy_zone/article/details/20849825
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。