做数据分析为何要学统计学(2)——集中趋势和离散趋势

给定一组数据,我们怎么来判断业务的基本情况呢?此时我们主要用到两个统计学工具:集中趋势和离散趋势。

1. 集中趋势

集中趋势是一组数据的代表值,那用什么值作代表最有代表性呢?当然这个值应该和所有值差距不大是最好,此时我们首先想到的就是平均数,事实上,用来衡量集中趋势的最常用指标就是平均数,当然有时我们也使用中位数。

平均数和中位数一般是不同的,除非样本呈正态分布。如果衡量集中趋势的指标选择不合理,那么对业务整体情况的判断往往会出现争议,最常见的例子就是“工资水平”统计数据的梗——大多数人总是感到“拖了大家的后腿”。为什么会这样呢?因为工资收入是偏态分布的,而且是正偏态分布——大多数人工资处于较低的水平。

那么表示集中趋势时,什么时候选择平均数,什么时候选择中位数呢?我们可以通过考察数据分布的正态、偏态情况进行选择。
《做数据分析为何要学统计学(2)——集中趋势和离散趋势》
如果样本呈正态分布,那么集中趋势使用平均数或中位数表示均可,因为两者是相等的。
如果样本呈偏态分布,那么选择中位数更能反映数据的集中趋势。通常情况下,正偏态的中位数小于平均数,负偏态的中位数大于平均数。因此,如果工资水平的计量采用中位数,大家心里接受的程度可能会更高一些。
比如以下工资水平的抽样数据,用中位数表示是3000,用平均数表示是9200。显然选择中位数的表示集中趋势更符合实际。
salary=[2500,3500,2000,4000,2200,3000,1800,20000,50000,3000]

2. 离散趋势

离散趋势反映了样本数据之间的差异水平。反映离散趋势的统计指标一般包括标准差/方差、极差、四分位间距IQR和变异系数。

  • 极差是样本最大值与最小值的差;
  • 四分位间距IQR是75%分位数与25%分位数的差,显然四分位间距IQR一般要比极差小;
  • 变异系数是标准差与均值的比值,通常认为如果变异系数超过15%,则说明业务状况是很不稳定的。上例中,工资样本的变异系数是1.58,说明工资水平是极不稳定的。

除了变异系数是相对量化指标外,其它三个指标都是绝对量化指标。因此,变异系数可以进行不同数据集离散程度的比较,而其它三个指标不可以,因为不同数据集的数据尺度有所差异。

集中趋势和离散趋势相结合才能更准确的反映业务状况,当离散趋势不明显时,集中趋势反映总体水平的能力就越强。

推荐自编课程《零基础学python数据分析》
推荐自编简明预测分析教程(Python版)

    原文作者:interbigdata
    原文地址: https://blog.csdn.net/interbigdata/article/details/95668348
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞