🗒️皮尔逊相关系数的推导与性质
2024-5-18
| 2024-5-18
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

皮尔逊相关系数与协方差

皮尔逊相关系数和协相关是两个常用的统计方法,用于描述两个变量之间的关系。它们可以帮助我们了解变量之间的相关性和强度。
皮尔逊相关系数是一种衡量线性关系的度量。它的取值范围为-1到1之间,其中-1表示完全负相关,0表示没有相关性,1表示完全正相关。该系数通过计算两个变量的协方差和标准差来计算。这个系数常用于研究变量之间的线性关系,例如身高和体重之间的关系。
协相关是一种衡量任意关系的度量。它可以用来描述线性和非线性关系。协相关的取值范围也是-1到1之间,其中-1表示完全负相关,0表示没有相关性,1表示完全正相关。协相关通过计算两个变量的协方差来计算。这个系数可以用于研究任意关系,例如,一个团队的得分与其队员的平均年龄之间的关系。
在实际应用中,这两个方法都非常重要。如果我们想研究两个变量之间的关系,我们可以使用皮尔逊相关系数。如果我们想研究任意关系,我们可以使用协相关。
总之,皮尔逊相关系数和协相关都是非常有用的统计方法,可以帮助我们了解变量之间的关系和强度。根据我们的研究目的,我们可以选择使用其中一种或两种方法来进行分析。
皮尔逊相关系数公式:
皮尔逊相关系数可以写成向量形式:
协方差的公式形式:
的方差:
相关系数公式写法:

皮尔逊相关系数

皮尔逊相关系数本质上是对数据标准化处理后的协方差
定义:若 是一个二维随机变量,则称 为随机变量 的协方差,记为 ,即
由协方差的定义,有以下性质:
  1. ,其中 是常数
相关系数
协方差可以在一定程度上反映 相互间的联系,但它还受 本身数值大小的影响。譬如说, 令 各自增大 倍,即 ,这时 间的相互联系应该还是一样的,可是反映这种联系的协方差却增大了 倍,即
为了克服这一点,我们引入相关系数的定义:
定义:若 是一个二维随机变量,则称 为随机变量 的相关系数(即皮尔逊相关系数),记为 ,即
由协方差的性质,我们可以看出,相关系数就是标准化随机变量 的协方差。 只差一个常数倍 , 即
💡
为什么皮尔逊相关系数是线性相关的?
我们可以看到仅在限定为线性模型,而且是使用最小二乘法求解的情况下,的结果刚好是一个平方形式。于是, 我们把 开方,并用正负号来表示是正相关还是负相关,这样就得到了皮尔逊相关系数
是一个评价拟合好坏的指标。这里的拟合可以是线性的, 也可以是非线性的。即使线性的也不 一定要用最小二乘法来拟合。
相关系数是一个评价两个变量线性相关度的指标。在线性拟合中可以通过拟合结果和实测值的相关系数来反应拟合结果和实测结果线性相关度。但是如果本来就用的非线性拟合(多项式、曲线), 那这个指标对于评估拟合没有任何意义。

相关系数

相关系数常用于度量两个变量之间的相关程度,相关系数有多种, pearson相关系数、 spearman相关系数等,但是pearson相关系数比较常用。通常情况下有相关关系,相关系数越大,表示两变量之间的相关性越强,相关系数越小,则表示相关性越弱。

R方测度回归直线对观测数据的拟合程度, 如果说所有的观测点都落在直线上, 则残差平方和 ,则 R方为 1 , 完全拟合;如果说 y 的变化与 x 无关, x 对解释变量 y 的变化没有帮助, 此时, 则 R方为 0 。所以R方范围在【0,1】越接近 1 , 说明回归直线的拟合程度越好, 反之就说明越差。

余弦相似度与相关系数

相关系数定义如下:
方差的定义(标准差为开根号):
, 则:
记 n 维向量:
则:
其中 是两个 维向量的夹角

皮尔逊相关系数的矩阵计算(加速)

设有 个行向量,,需要计算其两两之间的皮尔逊相关系数。
  1. 先减去每个行向量的均值(数学期望),
  1. 对每个行向量两两之间求内积,(协方差矩阵)得到皮尔逊相关系数的分子
    1. 通过观察,我们发现分母就是上述矩阵(协方差矩阵)的对角线元素,因此有
      1. 最后求得皮尔逊相关系数为
        💡
        除法为按元素对应位置的除法

        📎 参考

        MySQL 的日志系统利用拉格朗日乘子法从最优化问题中推导出KKT条件
        Loading...
        目录