相关系数——皮尔逊相关系数的公式及其理解

相关系数——皮尔逊相关系数的公式及其理解

一些前置知识,期望、方差、协方差概念及其相关公式参见带你深入理解期望、方差、协方差的含义

定义

皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。 相关系数定义为:

ρ

X

,

Y

=

cov

(

X

,

Y

)

σ

X

σ

Y

=

E

[

(

X

E

X

)

(

Y

E

Y

)

]

σ

X

σ

Y

=

E

(

X

Y

)

E

(

X

)

E

(

Y

)

E

(

X

2

)

E

2

(

X

)

E

(

Y

2

)

E

2

(

Y

)

\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left[\left(X-EX\right)\left(Y-EY\right)\right]}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}

ρX,Y​=σX​σY​cov(X,Y)​=σX​σY​E[(X−EX)(Y−EY)]​=E(X2)−E2(X)

​E(Y2)−E2(Y)

​E(XY)−E(X)E(Y)​

c

o

v

cov

cov为协方差,

σ

\sigma

σ为标准差。

相关系数有以下性质:

X

Y

X,Y

X,Y相互独立,则

ρ

X

,

Y

=

0

\rho_{X, Y}=0

ρX,Y​=0,但

ρ

X

,

Y

=

0

\rho_{X, Y}=0

ρX,Y​=0 不能推出

X

,

Y

X,Y

X,Y相互独立,等于0的情况称不相关,即独立则不相关,反过来不一定。第一条的例外:当

(

X

,

Y

)

(X,Y)

(X,Y)为二维正态时,由相关系数=0能推出

X

Y

X,Y

X,Y独立

1

ρ

X

,

Y

1

-1 \leq \rho_{X, Y} \leq 1

−1≤ρX,Y​≤1,小于0时为负相关,大于0时为正相关,为当且仅当

X

,

Y

X,Y

X,Y有严格线性关系时取等

应用

实际应用中,通常用

r

r

r表示相关系数,假如我们有一组样本点 (x,y),怎么计算它们的相关系数? 基于样本对期望、方差、协方差进行估计,也就是:

E

(

X

)

=

X

ˉ

=

1

n

i

=

1

n

X

i

E(X)=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i

E(X)=Xˉ=n1​i=1∑n​Xi​

σ

X

2

=

1

n

1

i

=

1

n

(

X

i

X

ˉ

)

2

\sigma_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}

σX2​=n−11​i=1∑n​(Xi​−Xˉ)2

cov

(

X

,

Y

)

=

1

n

1

n

i

=

1

(

X

i

X

ˉ

)

(

Y

i

Y

ˉ

)

\operatorname{cov}(X, Y)=\frac{1}{n-1}{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}

cov(X,Y)=n−11​n∑i=1​(Xi​−Xˉ)(Yi​−Yˉ) (之所以除以n-1而不是除以n,是因为我们是用样本去估计总体,除n-1才是统计学上的“无偏估计”,这样能使我们以较小的样本集更好的逼近总体的标准差 )

上面的任何一个公式看不懂可以看这篇博客

将上述公式代入定义中得,

r

=

i

=

1

n

(

X

i

X

ˉ

)

(

Y

i

Y

ˉ

)

i

=

1

n

(

X

i

X

ˉ

)

2

i

=

1

n

(

Y

i

Y

ˉ

)

2

r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}

r=∑i=1n​(Xi​−Xˉ)2

​∑i=1n​(Yi​−Yˉ)2

​∑i=1n​(Xi​−Xˉ)(Yi​−Yˉ)​

当计算出相关系数后,可以通过以下取值范围判断变量的相关强度:

|r|相关强度0.8-1.0极强相关0.6-0.8强相关0.4-0.6中等程度相关0.2-0.4弱相关0.0-0.2极弱相关或无相关

理解

协方差的定义是从方差而来的,

X

X

X的方差是

E

(

X

E

X

)

E(X-EX)

E(X−EX)与

(

X

E

X

)

(X-EX)

(X−EX)的乘积的期望,如今把一个

(

X

E

X

)

(X-EX)

(X−EX)换为

(

Y

E

Y

)

(Y-EY)

(Y−EY),其形式接近方差,又有

X

Y

X,Y

X,Y二者的参与,由此得出协方差的名称。

从功能上来说,其实协方差(Covariance)就足以刻画两个变量的相关关系。解释参见:协方差的意义

但是协方差是带有“单位”的,它和

X

,

Y

X,Y

X,Y的数值有关,假如

X

X

X的数值量级整体都远远大于

Y

Y

Y,那么就会使得计算出来的协方差很大,它的值是不可比较的,并不能统一地度量。所以我们需要将其无量纲化(单位化),以消除数值量级差异的影响,于是就引入了皮尔逊相关系数,其在协方差的基础上除以各自的标准差,这样就消除了单位,使得计算出来的值介于-1和1之间,相互之间是可比较的,不用受单位的影响。

其它理解角度:https://www.zhihu.com/question/19734616

如果对你有帮助,请点个赞:-D

相关推荐

OPPO手机OPPO A59s报价
beat365平台正版

OPPO手机OPPO A59s报价

📅 07-13 👁️ 7924
美颜相机怎么修改图片上的文字
beat365平台正版

美颜相机怎么修改图片上的文字

📅 07-10 👁️ 2616
面条炒什么菜好吃 , 21道适合吃面条的菜有哪些?
365bet线上网址

面条炒什么菜好吃 , 21道适合吃面条的菜有哪些?

📅 07-21 👁️ 1083