计算相关系数 皮尔逊相关系数 Pearson、Spearman

数据探索

计算相关系数

为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系统来进行相关分析。

在二元变量的相关分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系数。

皮尔逊相关系数(Pearson Correlation Coefficient)

一般用于分析两个连续性变量之间的关系,其计算公式如下。
r = ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) ∑ i = 1 n ( x i − x ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 r = { \sum_{i=1}^{n}(xi-\overline{x})(yi-\overline{y})\over\sqrt{\sum_{i=1}^{n}(xi-\overline{x})^2\sum_{i=1}^{n}(yi-\overline{y})^2}} r=i=1n(xix)2i=1n(yiy)2 i=1n(xix)(yiy)
相关系数r的取值范围:-1 <= r <= 1
{ r &gt; 0 为 正 相 关 , r &lt; 0 为 负 相 关 ∣ r ∣ = 0 表 示 不 存 在 线 性 关 系 ∣ r ∣ = 1 表 示 完 全 线 性 相 关 \begin{cases} r &gt; 0 为正相关,r&lt;0为负相关\\ |r| = 0 表示不存在线性关系\\ |r| = 1 表示完全线性相关 \end{cases} r>0r<0r=0线r=1线
0<|r|<1表示存在不同程度线性相关
{ ∣ r ∣ &lt; = 0.3 为 不 存 在 线 性 相 关 0.3 &lt; ∣ r ∣ &lt; = 0.5 为 低 度 线 性 相 关 0.5 &lt; ∣ r ∣ &lt; = 0.8 为 显 著 线 性 相 关 ∣ r ∣ &gt; 0.8 为 高 度 线 性 相 关 \begin{cases} |r|&lt;=0.3为不存在线性相关\\ 0.3&lt;|r|&lt;=0.5为低度线性相关\\ 0.5&lt;|r|&lt;=0.8为显著线性相关\\ |r|&gt;0.8为高度线性相关 \end{cases} r<=0.3线0.3<r<=0.5线0.5<r<=0.8线r>0.8线

Spearman秩相关系数

Pearson线性相关系数要求连续变量的取值服从正太分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。

其计算公式如下:
r = 1 − 6 ∑ i = 1 n ( R i − Q i ) 2 n ( n 2 − 1 ) r={1-{ {6\sum_{i=1}^{n}(Ri-Qi)^2}\over{n(n^2-1)}}} r=1n(n21)6i=1n(RiQi)2
研究表明,在正态分布假设下,Spearman秩相关系数与Pearson相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析。

判定系数

判定系数是相关系数的平方,用 r 2 r^2 r2表示;用来衡量回归方程对y的解释程度。

判定系数取值范围:0<= r 2 r^2 r2<=1, r 2 r^2 r2越接近于1,表示x与y之间的相关性越强;

r 2 ​ r^2​ r2越接近于0,表明两个变量之间几乎没有直线相关关系。

    原文作者:Rp_
    原文地址: https://blog.csdn.net/weixin_41738030/article/details/89059913
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞