【统计】回归系数与相关系数的联系与区别

目录

假设有两个随机变量 ( x , y ) (x,y) (x,y),其 N N N个样本组合为 ( x 1 , x 2 , … , x N ) (x_1,x_2,\dots,x_N) x1,x2,,xN ( y 1 , y 2 , … , y N ) (y_1,y_2,\dots,y_N) (y1,y2,,yN)

一、基础知识

单个变量 x x x的特征值为:
标准差(standard deviation): σ x = ∑ i = 1 N ( x i − x ˉ ) 2 N \sigma_x=\sqrt{\frac{\sum_{i=1}^N(x_{i}-\bar{x})^2}{N}} σx=Ni=1N(xixˉ)2
方差(variance):标准差的平方,即 σ x 2 \sigma_x^2 σx2

变量 X X X Y Y Y的特征值为:协方差(covariance): σ x y = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N \sigma_{xy}=\frac{\sum_{i=1}^N(x_{i}-\bar{x})(y_{i}-\bar{y})}{N} σxy=Ni=1N(xixˉ)(yiyˉ)

二、回归系数与相关系数

假设存在回归方程: y = a x + ε y y=ax+\varepsilon_y y=ax+εy,其中 ε y \varepsilon_y εy表示误差项。

1.定义

回归系数(regression coefficient): 度量一个变量对另一个变量的线性影响大小。如,用 y y y x x x进行线性回归,得到的 x x x的系数即为回归系数,记为 r y x r_{yx} ryx。在上式中,我们可知, r y x = a r_{yx}=a ryx=a

相关系数(correction coefficient): 也称作Pearson相关系数,用来度量两个变量之间的相关性(或联系的紧密程度)。该系数取值为 [ − 1 , 1 ] [-1,1] [1,1],如果越靠近正负1,表明两个变量之间的线性关系越明显;越接近0,表明两个变量之间几乎没有线性关系。当其为0时,说明两个变量之间不存在线性关系。

2.二者的联系

回归系数 r r r: 令 r y x r_{yx} ryx表示用 y y y x x x作线性回归后得到的 x x x的回归系数,其计算方法为:
r y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N = σ x y σ x 2 . ( 1 ) \begin{aligned} r_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x_i-\bar{x})^2}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\\ &=\frac{\sigma_{xy}}{\sigma_x^2}. \end{aligned}(1) ryx=i=1N(xixˉ)2i=1N(xixˉ)(yiyˉ)=Ni=1N(xixˉ)2Ni=1N(xixˉ)(yiyˉ)=σx2σxy.(1)
相关系数 ρ \rho ρ

变量 y y y x x x的相关系数的计算方法为:
ρ y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N ∑ i = 1 N ( y i − y ˉ ) 2 N = σ x y σ x σ y . ( 2 ) \begin{aligned} \rho_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^N(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^N(y_i-\bar{y})^2}}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\sqrt{\frac{\sum_{i=1}^N(y_i-\bar{y})^2}{N}}}\\ &=\frac{\sigma_{xy}}{\sigma_x\sigma_y}. \end{aligned}(2) ρyx=i=1N(xixˉ)2 i=1N(yiyˉ)2 i=1N(xixˉ)(yiyˉ)=Ni=1N(xixˉ)2 Ni=1N(yiyˉ)2 Ni=1N(xixˉ)(yiyˉ)=σxσyσxy.(2)
所以,由上面两个式子联立可得:
r y x = ρ y x ⋅ σ y σ x . r_{yx}=\rho_{yx}\cdot\frac{\sigma_y}{\sigma_x}. ryx=ρyxσxσy.
类似地,拓展到多元线性回归的情况下,假设偏方差 σ y ⋅ z 2 \sigma_{y\cdot z}^2 σyz2表示固定 z z z的前提下 y y y的方差,则有偏回归系数 r y x ⋅ z r_{yx \cdot z} ryxz和偏相关系数 ρ y x ⋅ z \rho_{yx \cdot z} ρyxz之间的关系为:
r y x ⋅ z = ρ y x ⋅ z ⋅ σ y ⋅ z σ x ⋅ z . r_{yx\cdot z}=\rho_{yx \cdot z}\cdot \frac{\sigma_{y\cdot z}}{\sigma_{x\cdot z}}. ryxz=ρyxzσxzσyz.

3.二者的区别

(1)意义上:回归系数是描述自变量如何在数值上与因变量的相关性,即 r y x r_{yx} ryx表示 x x x每增(减)1个单位, y y y平均改变 a a a个单位;而相关系数是一种统计度量方法,用于度量变量之间的相关关系的密切程度。

(2)用途上:回归系数是为了拟合最佳模型,在已知另一个自变量的基础上预测对应的因变量;而相关系数是用来衡量变量之间的线性相关关系。

(3)对称性:用 x x x y y y进行线性回归得到的回归系数 r x y r_{xy} rxy不等于用 y y y x x x进行线性回归得到的回归系数 r y x r_{yx} ryx;而 x x x y y y的相关系数 ρ x y \rho_{xy} ρxy等于 y y y x x x的相关系数 ρ y x \rho_{yx} ρyx

(4)变量含义:回归系数 r y x r_{yx} ryx蕴含了自变量 x x x的单位变化对因变量 y y y的影响;相关系数 ρ y x \rho_{yx} ρyx表示自变量 x x x和因变量 y y y一起变化的程度。

(5)取值范围:回归系数的取值范围为 [ − ∞ , ∞ ] [-\infty,\infty] [,],相关系数的取值范围为 [ − 1 , 1 ] [-1,1] [1,1]

参考资料:

  1. 线性回归,维基百科.
    原文作者:Coix
    原文地址: https://blog.csdn.net/WeiDelight/article/details/105180218
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞