通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析对的过程就是数据探索。
数据探索有助于选择合适的数据预处理和建模方法。
- 数据质量分析
- 数据特征分析
一,数据质量分析
数据质量分析,
是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。
主要任务是检查原始数据中是否存在脏数据
脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。
- 缺失值
- 异常值
- 不一致的值
- 重复数据及含有特殊符号(如#、*)的数据
1,缺失值分析
1-1 ,缺失值的定义
- 记录的确实
- 记录中某个字段信息的缺失
1-2,缺失值的分析
- 使用简单的统计分析
- 含有缺失值属性的个数,以及每个属性的未缺失数,缺失数、缺失率。
- 删除存在缺失值的记录
- 对可能值进行插补和不处理
2,异常值分析
检验数据是否有录入错误以及含有不合理的数据。
样本中的个别值,其数值明显偏离其余的观测值。
异常值也成为离群点,异常值的分析也成为离群点分析。
2-1,简单统计量分析
描述性统计
- 最大值和最小值,用来判断这个变量的取值是否在合理范围内。
2-2, 原则
- 如果数据服从正态分布,在 原则下,异常值被定义为一组测定值中与平均値的偏差超过3倍标准差的值。
- 在正态分布的假设下,距离平均值 之外的值出现的概率为 ,属于极个别小概率事件。
- 不符合正态分布,则使用原理平均値的多少倍标准差来描述。
2-3,箱型图分析
异常值通常被定义为小于Ql -1.5IQR 或大于Qu + 1.5IQR 的值。
- Ql 下四分位数,表示全部观察值中有四分之一的数据取值比它小
- Qu 上四分位数,表示全部观察值中有四分之一的数据取值比它大
- IQR 四分位数间距,是上四分位数与下四分位数之差,期间包含全部观察值得一半
3,一致性分析
数据不一致性是指,数据的矛盾性、不相容性。
直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。