多重共线性是什么意思?怎么判断多重共线性?

如题所述

共线性是指信息具有重叠关系,比如X1为身高,X2为体重,二者具有一定的信息重叠,身高和体重都可以表示身体的轮廓情况。当共线性问题过于严重时,比如某两项之间相关系数大于0.8甚至0.9时,那么进行某些分析(尤其是回归分析,比如线性回归,二元logit回归等等各类回归研究方法时)时,会对模型带来影响,严重情况时会导致模型无法拟合出结果。因而应该重视共线性问题。

通常情况下,共线性问题的表现是两两项之间具有高度的相关关系,比如相关系数大于0.8。还有一种情况是绝对的共线性,即二者相关系数值为1,即信息具有绝对的重叠性,比如类别数据进行哑变量处理后,并没有少放一个参照项到模型中,即会导致模型出现异常等。

共线性问题分析的判断标准上,通常有两种,分别是Pearson相关系数和VIF法。二者的数学原理均是判断信息重叠情况,但二者出来分析出来的结论可能并不相同。如果是Pearson相关系数法,通常以其绝对值大于0.8作为标准,如果是VIF值法,通常以VIF值>10作为判断标准。

本文档出于演示需要,首先准备一份数据,共有10个X,1个Y,并且进行二元Logit回归。操作如下图所示:

第1次操作时,SPSSAU提示数据质量异常。猜测很可能有共线性问题等,但当前共有10个X和1个Y,具体共线性问题是什么并不知道,因而使用共线性分析。操作如下图所示:

最终共线性分析后得到下图:

图中使用红底色标识出共线性问题的项,从图中可以‘横向’看时,X2和X8与其它项出现相关系数绝对值为1,即绝对共线性问题,此两项一定需要从模型中移除出去。当然也可以‘纵向’看时,X1和X2与其它项出现相关系数绝对值为1即绝对共线性。至于移除X1和X8,也或者X1和X2,事实上两种处理均可。因为移除后就不会继续存在绝对共线性问题。

当然也可以查阅SPSSAU提供的智能分析文字,里面会有详细的分析说明,SPSSAU当前操作的智能分析建议如下:

温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-05-21

多重共线性是指线性回归模型中的解释变量之间由于存在较精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

多重共线性诊断方法 
  

1、自变量相关系数矩阵R诊断法:

研究变量的两两相关分析,如果自变量间的相关系数值很大,则认为存在多重共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除多重共线性的可能。

2、方差膨胀因子(the variance inflation factor,VIF)诊断法:

方差膨胀因子表达式为:VIFi=1/(1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。该诊断方法也存在临界值不易确定的问题,在应用时须慎重。

判断:VIFj>10时,说明自变量x与其余自变量之间存在严重的多重共线关系,这种多重共线性可能会过度地影响最小二乘估计值。
  

3、容忍值(Tolerance,简记为Tol)法:

容忍值是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。

4、多元决定系数值诊断法:

假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp),分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。

如果其中较大的一个R2k与R2y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。很有可能是其他自变量的线性组合。因此,该自变量进入模型后就有可能引起多重共线性问题。

5、条件数与特征分析法:

在自变量的观测值构成的设计矩阵X中,求出变量相关系数R的特征值,如果某个特征值很小(如小于0.05 ),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。

参考资料:

百度百科——共线性

相似回答