数据的描述性统计

对数据的描述分为三个维度,分别是:数据的集中趋势、数据的离中趋势和数据的分布形态。

数据的集中趋势

描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数

  1. 众数

    数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生,这些学生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87},那么该班级的众数为87,有4个学生的成绩为87。

  2. 中位数

    对于数据集合{x1,x2,…,xn},将所有的数值按照降序或升序排序,如果数据集合的数值个数是奇数,那么最中间的数值就是该集合的中位数;如果数据集合的数值个数是偶数,那么取最中间两个数值的算数平均值作为中位数。例如,上面班级10个学生的数学成绩升序排列后为{64,70,75,87,87,87,87,92,95,98},那么该班级的中位数为87。

    中位数与算数平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

  3. 算数平均数

    是最常用的数据集中趋势指标,表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},该数据集合的算数平均数的计算公式为:
    x ‾ = x 1 + x 2 + ⋯ + x n n \overline{x}=\frac{x_1+x_2+\cdots +x_n}{n} x=nx1+x2++xn
    ​ 算数平均值有其明显的缺陷,当数据集合中有极大值或极小值存在时,会对算数平均值产生很大的影响,其 计 算结果会掩盖数据集合的真实特征,这时算数平均值就失去了代表性。

  4. 加权平均数

    因为简单算数平均值认为所有的数据值都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算数平均值来表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},且每个数据的权重为{w1,w2,…wn}该数据集合的加权平均数的计算公式为:
    x ‾ = x 1 w 1 + x 2 w 2 + ⋯ + x n w n n \overline{x}=\frac{x_1w_1+x_2w_2+\cdots +x_nw_n}{n} x=nx1w1+x2w2++xnwn
    由以上公式可知,算数平均数每个数值的权重都为1,即每个数都有相同的重要性,是加权平均数的一种特殊形式。

  5. 几何平均数
    有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均数来表示由这样的数据组成的数据集合的集中趋势。某一数据集合中的数值分别为{x1,x2,…,xn},切所有的数值均大于0,那么该数据集合的几何平均数的计算公式为:
    x j ‾ = x 1 x 2 ⋯ x n n \overline{x_j}=\sqrt[n]{x_1x_2\cdots x_n} xj=nx1x2xn

数据的离中趋势(离散程度)

离中趋势指标可以与集中趋势指标互补,展示数据集合的离散情况。在同类离散指标的比较中,离散指标的数值越小,说明数据集合的波动程度越小;离散指标的数值越大,说明数据集合的波动程度越大。

描述数据离中趋势的指标根据数据类型的不同分为:方差、标准差、分位数、四份位数、异众比率等。下面就针对不同类型的数据来分析不同的指标。

数值型数据

数值型数据的离中趋势指标有方差,标准差,极差,平均差等。

极差:又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离(范围)。若有数据集合{xmin,x2,…,xmax},全距的计算公式为:
R = x m a x − x m i n R=x_{max}-x_{min} R=xmaxxmin
极差与算数平均值对比,查看数据集合的离散和集中程度。

平均差:离散程度是一个相对概念,需要通过与参考值的对比才能表示出离散程度。因为算数平均值是最重要也是最常用的集中趋势指标,所以均值也就自然能够成为参考值。对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算数平均值的偏离,平均差就是这样一种度量指标。平均差的计算公式为:
R a = ∑ i = 1 n ∣ x i − x ‾ ∣ n R_a=\frac{\sum_{i=1}^{n}|x_i-\overline{x}|}{n} Ra=ni=1nxix

方差:方差利用平方消除了离差和等于0的问题,与平均差的绝对值有异曲同工之妙。但方差的局限性是,方差夸大了数据集合的离散程度。存在数据集{x1,x2,…,xn},假设数据均值为μ,那么方差σ2的计算公式为:
σ 2 = ∑ i = 1 n ( x i − μ ) 2 n σ^2=\frac{\sum_{i=1}^{n}(x_i-μ)^2}{n} σ2=ni=1n(xiμ)2
标准差:为了消除方差的局限性,可以取方差的算数平方根来描述数据的离散程度。标准差是方差的平方根,其公式为:
σ = ∑ i = 1 n ( x i − μ ) 2 n σ=\sqrt\frac{\sum_{i=1}^{n}(x_i-μ)^2}{n} σ=ni=1n(xiμ)2

顺序数据

顺序数据的离中趋势指标主要是分位数、四分位差。

分位数(Quantile):也称之为分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位)、四分位数、百分位数等。

四分位数(Quartile),即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就时四分位数。

第一四分位数(Q1),又称为较小四分位数,等于该样本所有数值由小到大排列后第25%的数字;

第二四份位数(Q2),又称为中位数,等于该样本所有数值由小到大排列后第50%位置的数字;

第三四份位数(Q3),又称为较大四份位数,等于该样本所有数值由小到大排列后第75%的数字。

第一四份位数和第三四份位数的差距又称为四分位差。

四分位差:分位数中比较常用的是四分位差。从分位数的概念可知Q1、Q2、Q3这三个四份位数将数据集合分成四等分。四分位差就是Q1与Q3的差,这个差值区间包含了整个数据集合50%的数据值。

分类数据

对于分类数据通常用异众比率来描述数据的离散程度。

异众比率:指的是总体中非众数次数与总体全部次数之比,也就是非众数的数据个数占总体数据个数的比例。异众比率用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数站总频数的比重越小,众数的代表性越好。

相对离散程度

离散系数

方差和标准差虽然能够表示数据集合中每个数值距离算数平均值的平均偏差距离,但是这个距离的大小程度却不能很好的展现,特别是对于算数平均值不同的两个数据集合。如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?这时就可以通过离散系数来衡量,离散系数主要用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

离散系数为标准差σ与平均值μ之比:
V = σ μ V=\frac{σ}{μ} V=μσ

分布的形状:偏态系数,峰态系数

数据的三个描述维度是数据的分布形态,通过分布形态可以比较形象观察数据。而数据的分布形态中正态分布是最常用的,但实际上,数据的分布形态各异。为了衡量数据分布与正态分布的偏离程度,就引入了偏态和峰态的概念,它们对应的指标分别为偏态系数和峰态系数。

偏态和偏态系数

偏态,是研究数据分布对称的统计量。通过偏态系数来测量数据分布的不对称程度以及方向。

峰态和峰态系数

峰态,是研究数据分布陡峭或平滑的统计量,通过峰态系数来测量数据分布相对于正态分布而言是陡峭还是平缓。

参考文献

人人都会数据分析:从生活实例学统计

关于偏度与峰度的一些探索

    原文作者:Renirvana
    原文地址: https://blog.csdn.net/Renirvana/article/details/96742581
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞