如何进行分类变量与数值变量之间的相关性分析

如题所述

可以采用线性回归的方法,具体步骤是:将血压值作为因变量,食品中的其他主要成分作为自变量做线性回归,看回归方程中哪一自变量的系数较大,就说明此变量对因变量的影响较大,即相关性较大。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2020-12-15
1.相关性分析

相关分析是指变量之间存在着非严格的依存关系。也就是说,当一个变量或几个变量取定一个数值时,另一个对应变量的数值是不确定的,但是,该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。

如果变量之间存在一种相关关系,可能的情形有以下三种:

(1)变量之间存在因果关系;

(2)变量之间存在着相互依存的关系,这时就很难确定孰因孰果;

(3)变量之间存在虚假的依存关系,这时候的变量间仅仅是从数字上来看有关系。比如某人将某地区一段时间内的植物生长速度与市场上水果的销售数量做相关性分析,发现他们之间是负相关,也即是市场上的水果销售数量越多,植物的生长速度越慢。这就是典型的伪相关分析。

因此,在做相关性分析之间,我们必要联系实务、科学理论等方面来分析,不能简单的从数字上来探讨变量间的相关性关系。

脱离了现实中实际情况的数据分析,都是伪分析!

2.相关分析种类

划分方式笔者认为主要有两种:函数关系和统计关系。

统计关系:企业竞争力=F(企业规模、利润增长、营收增长、议价能力……);

而统计关系按照相关性的形态来说,可以分为线性和非线性。直接上图,一目了然:

而对于其中的线性与非线性的关系,见下图所示:

3.相关分析的解释

(1)含义:

简单相关分析:就是直接计算两变量之间的相关程度;

偏相关分析:排除了某个因素后,两变量之间的相关程度;

距离相关分析:通过两变量之间的距离来评估其相似性,在现实中很少用到。

上图:

(2)度量

简单的相关分析,主要有三种相关系数:pearson系数、spearman相关系数、kendall系数。在统计上,我们最常用的是pearson系数,其计算公式为:

相关系数的取值范围:[-1,1]。大于0,表示正相关;小于0,表示负相关;等于0,表示不相关。总之,数值越接近0,表示变量之间的相关性越弱。

4.相关分析探索:图形探讨、统计显著性

(1)图形探讨:折线图和散点图

折线图

对于数据不复杂的两变量之间的相关关系,可以直接先画一个简单的折线图看一下,一目了然。如下图:

很明显能够看出来,x1与x2之间的相关性关系很弱。

散点图

还是上一组数据,可以得出如下散点图:

从图中可以明显的看出,该组数据的点与趋势线基本没在一条线上或在这条线的附近,说明相关性弱;

另选一组数据来画散点图和折线图,变量之间的相关性关系就非常明显了:

散点图

折线图

(2)统计显著性检验

步骤:

①提出原假设:两变量之间无显著线性关系;

②构造一个t统计量:

变量x与y服从正态分布时,该t统计量服从自由度(n-2)的t分布;

③计算统计量t,并查询t分布对应的概率p值;本回答被网友采纳
相似回答