当前位置：首页 > news >正文

5. 统计学基础2：协方差、相关系数、协方差矩阵

news 来源：原创 2024/12/26 0:52:46

文章目录

1. 协方差
2. 相关系数【就是使 |协方差|<=1】
3. 协方差矩阵

1. 协方差

标准差和方差一般是用来描述一维数据的，

具体介绍见：5. 统计学基础1：平均值…四分位数、方差、标准差（均方差）、标准误（标准误差、均方根误差）、标准分

但现实生活中我们常常会遇到含有多维数据的数据集，最简单的是大家上学时免不了要统计多个学科的考试成绩。
面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，
比如，一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。
协方差就是这样用来度量两个随机变量关系的统计量
我们可以仿照方差的定义：

这里写图片描述

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

clip_image002[8]

协方差的结果有什么意义呢？
如果X 变大时 Y 也变大，则协方差为正值，则说明两者是正相关，也就是说一个人越猥琐，越受女孩欢迎。
如果X 变大时 Y 变小，则协方差为负值，就说明两者是负相关，越猥琐，女孩子越讨厌。
如果为0或者接近0，则认为是没有线性关系的，就是统计上说的“相互独立”。

我们可以根据协方差的这种协同性来判断数据在不同“方向”上的离散程度。

从协方差的定义上，我们也可以看出一些显而易见的性质，如：

这里写图片描述

2. 相关系数【就是使 |协方差|<=1】

协方差的值的大小除了两种变量的相关性有关外，还与变量的量纲有关。
如果 X 是以10为量纲，而 Y 以10万为量纲，而 Z也是以10为量纲。
假设 X 与 Z 之间具有很强的相关性（比如 X _i = Z _i ），而 X、Y 之间不具有很强的相关性，
应满足X与Z的相关系数要大于 X与Y的相关系数
但是由于量纲的影响，实际上是小于

为了消除量纲的影响，引入了相关系数，可以使 |协方差| <=1

为了能够更好地衡量变量之间的相关程度，引入了相关系数 η