统计学(71)-相关性分析

如题所述

第1个回答  2022-07-26
(1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量,默认没有异常值存在,即偏离平均值较大的数据)

(6)计算方法的劣势
该值与离均差平方和有一个共同的缺点,即数据越多,该值可能越大,不利于不同数据之间的相互比较。
因此,我们将其除以例数,就可以消除例数的影响。最终形成的指标就是协方差(Covariance):

事实上,协方差跟方差是一回事,如果你把公式中的y都换成x, 就变成了x的方差。因此,方差可以看作协方差的特例,自己对自己的关系就是方差。

(1)利用协方差比较不同数据之间的相关性大小还存在一个致命问题,那就是度量单位的问题。试想,如果把表1中的x和y各扩大10倍,那么二者的关系并没有发生改变,但协方差值却会增大几百倍。这说明协方差不利于度量单位不同的数据之间的比较。
因此,我们想到了标准化:

通过标准化,使得不同度量单位的数据均变换为以0为均数、以1为标准差的值,这样就可以直接比较数据大小了。
(2)数据标准化后的协方差
相似回答