数据的描述性统计_数据的集中趋势描述

2022年3月7日 113次阅读来源: 云哲的随笔

数据的描述性统计

1. 数据的集中趋势描述

数据分析的对象主要是结构化数据，这些数据可能是连续性数据，也可能是离散型数据；可能是定类和定序数据，也可能是定距和定比数据。虽然数据的类型有很多，但是所有的结构化数据都可以从三个维度进行描述，它们分别是数据的集中趋势描述、数据的离散程度描述和数据的分布形态描述。

1. 数据的集中趋势描述

数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值，这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平，通过对事物集中趋势指标的多次测量和比较，还能说明事物的发展和变化趋势。人均GDP就是一个集中趋势。

1.1 算术平均值

算术平均值是最常用的数据集中趋势指标，可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据，表示数据集合的集中趋势。

1.1.1 简单算术平均值

def：假设有一组包含 n n n个数值的数据集合，它们的数值分别为 x 1 x_1 x1， x 2 x_2 x2， . . . … ...， x n x_n xn，该数据集合的简单算术平均值的计算公式为：
x ‾ = x 1 + x 2 + . . . + x n n \overline{x}=\frac{x_1+x_2+…+x_n}{n} x=nx1+x2+...+xn

1.1.2 加权算术平均值

def: 假设有一个数据集合,总共包括 k k k个不同类别的数据组,各组的简单算术平均值表示为 x 1 ‾ , x 2 ‾ , . . . , x k ‾ \overline{x_1},\overline{x_2},…,\overline{x_k} x1,x2,...,xk,每个数据组的数值个数分别为 f 1 , f 2 , . . . , f k f_1,f_2,…,f_k f1,f2,...,fk,每组的数值个数就是每个数据组的权重,则加权算术平均值的计算公式为:
m = f 1 x 1 ‾ + f 2 x 2 ‾ + . . . + f k x k ‾ f 1 + f 2 + . . . + f k m=\frac{f_1\overline{x_1}+f_2\overline{x_2}+…+f_k\overline{x_k}}{f_1+f_2+…+f_k} m=f1+f2+...+fkf1x1+f2x2+...+fkxk

1.1.3 算术平均值的利与弊

利:受样本数据波动的影响最小,具有一定的稳定性;
弊:当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,失去了代表性;

1.2 几何平均值

def:假设有一个定比数据集合,集合中的数值分别为 x 1 , x 2 , . . . , x n x_1,x_2,…,x_n x1,x2,...,xn,且所有的数值均大于0,那么改数据集合的几何平均值的计算公式为:
x j ‾ = x 1 x 2 . . . x n n \overline{x_j}=\sqrt[n]{x_1x_2…x_n} xj=nx1x2...xn
适用于:数据之间是乘除关系的，如银行的平均存款年利率、汽车工厂每条生产线的平均产品合格率、国家十年来的平均发展速度等；几何平均值被用于各种定比数据的平均值计算。

1.3 众数

def:数据集合中出现次数最多的数值被称为众数。
如果在一个数据集合中，只有一个数值出现的次数最多，那么这个数值就是该数据集合的众数；如果有两个或多个数值的出现次数并列最多，那么这两个或多个数值都是该数据集合的众数；如果数据集合中所有数据值出现的次数相同，那么该数据集合没有众数。
适用于：对定类数据、定序数据、定距数据和定比数据都适用，都能表示由它们组成的数据集合的数据集中趋势。

1.4 中位数

def:对于数据集合 ( x 1 , x 2 , . . . , x n ) (x_1,x_2,…,x_n) (x1,x2,...,xn)，将所有的数值按照它们的大小，从高到低或从低到高进行排序，如果数据集合包含的数值个数是基数，那么排在最中间的数值就是该数据集合的中位数；如果数据集合的数值个数是偶数，那么取最中间两个数值的算术平均值作为中位数。
好处：不受数据集合中个别极端值的影响，表现出稳定的特点。

    原文作者：云哲的随笔
    原文地址: https://blog.csdn.net/daoshenzhe/article/details/96371828
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。