皮尔逊相关系数的推导与性质

type

status

date

slug

summary

皮尔逊相关系数与协方差

皮尔逊相关系数和协相关是两个常用的统计方法，用于描述两个变量之间的关系。它们可以帮助我们了解变量之间的相关性和强度。

皮尔逊相关系数是一种衡量线性关系的度量。它的取值范围为-1到1之间，其中-1表示完全负相关，0表示没有相关性，1表示完全正相关。该系数通过计算两个变量的协方差和标准差来计算。这个系数常用于研究变量之间的线性关系，例如身高和体重之间的关系。

协相关是一种衡量任意关系的度量。它可以用来描述线性和非线性关系。协相关的取值范围也是-1到1之间，其中-1表示完全负相关，0表示没有相关性，1表示完全正相关。协相关通过计算两个变量的协方差来计算。这个系数可以用于研究任意关系，例如，一个团队的得分与其队员的平均年龄之间的关系。

在实际应用中，这两个方法都非常重要。如果我们想研究两个变量之间的关系，我们可以使用皮尔逊相关系数。如果我们想研究任意关系，我们可以使用协相关。

总之，皮尔逊相关系数和协相关都是非常有用的统计方法，可以帮助我们了解变量之间的关系和强度。根据我们的研究目的，我们可以选择使用其中一种或两种方法来进行分析。

皮尔逊相关系数公式：

皮尔逊相关系数可以写成向量形式：

协方差的公式形式：

的方差：

皮尔逊相关系数本质上是对数据标准化处理后的协方差 。

定义：若是一个二维随机变量，则称为随机变量与的协方差，记为，即

由协方差的定义，有以下性质：

相关系数

协方差可以在一定程度上反映与相互间的联系，但它还受与本身数值大小的影响。譬如说, 令与各自增大倍，即、，这时与间的相互联系应该还是一样的，可是反映这种联系的协方差却增大了倍，即

为了克服这一点，我们引入相关系数的定义：

定义：若是一个二维随机变量，则称为随机变量与的相关系数（即皮尔逊相关系数），记为，即

由协方差的性质，我们可以看出，相关系数就是标准化随机变量与的协方差。与只差一个常数倍，即

令，

💡

为什么皮尔逊相关系数是线性相关的？

我们可以看到仅在限定为线性模型，而且是使用最小二乘法求解的情况下，的结果刚好是一个平方形式。于是，我们把开方，并用正负号来表示是正相关还是负相关，这样就得到了皮尔逊相关系数。

是一个评价拟合好坏的指标。这里的拟合可以是线性的, 也可以是非线性的。即使线性的也不一定要用最小二乘法来拟合。

相关系数是一个评价两个变量线性相关度的指标。在线性拟合中可以通过拟合结果和实测值的相关系数来反应拟合结果和实测结果线性相关度。但是如果本来就用的非线性拟合（多项式、曲线）, 那这个指标对于评估拟合没有任何意义。

设有个行向量，，需要计算其两两之间的皮尔逊相关系数。

💡

除法为按元素对应位置的除法