【二】数据分析---数据探索(一)

通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析对的过程就是数据探索。

数据探索有助于选择合适的数据预处理和建模方法。

  • 数据质量分析
  • 数据特征分析

一,数据质量分析

数据质量分析,

是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。

主要任务是检查原始数据中是否存在脏数据

脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据及含有特殊符号(如#、*)的数据

1,缺失值分析

1-1 ,缺失值的定义

  • 记录的确实
  • 记录中某个字段信息的缺失

1-2,缺失值的分析

  • 使用简单的统计分析
  • 含有缺失值属性的个数,以及每个属性的未缺失数,缺失数、缺失率。
  • 删除存在缺失值的记录
  • 对可能值进行插补和不处理

2,异常值分析

检验数据是否有录入错误以及含有不合理的数据。

样本中的个别值,其数值明显偏离其余的观测值。

异常值也成为离群点,异常值的分析也成为离群点分析。

2-1,简单统计量分析

描述性统计

  • 最大值和最小值,用来判断这个变量的取值是否在合理范围内。

2-2, 《【二】数据分析---数据探索(一)》 原则

  • 如果数据服从正态分布,在 《【二】数据分析---数据探索(一)》 原则下,异常值被定义为一组测定值中与平均値的偏差超过3倍标准差的值。
  • 在正态分布的假设下,距离平均值《【二】数据分析---数据探索(一)》 之外的值出现的概率为 《【二】数据分析---数据探索(一)》,属于极个别小概率事件。
  • 不符合正态分布,则使用原理平均値的多少倍标准差来描述。

2-3,箱型图分析

异常值通常被定义为小于Ql -1.5IQR 或大于Qu + 1.5IQR 的值。

  • Ql 下四分位数,表示全部观察值中有四分之一的数据取值比它小
  • Qu 上四分位数,表示全部观察值中有四分之一的数据取值比它大
  • IQR 四分位数间距,是上四分位数与下四分位数之差,期间包含全部观察值得一半

《【二】数据分析---数据探索(一)》
《【二】数据分析---数据探索(一)》

3,一致性分析

数据不一致性是指,数据的矛盾性、不相容性。

直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

    原文作者:聂红波
    原文地址: https://zhuanlan.zhihu.com/p/29012594
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞