Heckman两步法(3)

如题所述

第1个回答  2022-07-09

Lennox et al.(2012) 总结了样本选择模型和处理效应模型在会计学领域中应用的几点问题,这几个问题也完全可以延申至其他领域。

除了以上几点,现阶段文献中经常出现的问题还有:

下面将解析两篇经典论文。考虑到多数文献本质上存在的是自选择偏差,而分析样本选择偏差并使用样本选择模型的(中文)文献并不多见,因此下面两篇论文均是从样本选择偏差角度来分析内生性问题。

第一篇论文 是 陈云松(2012) 发表在《社会》的《农民工收入与村庄网络 基于多重模型识别策略的因果效应分析》,研究主题是探讨社会网络对农民工在外务工收入的影响。

以下是基准回归方程:

其中, 表示第 个村庄第 个农民工在城市务工的工资; 代表社会网络,用村庄在外务工的人数来表示,在论文中作为核心解释变量; 表示个人层面的控制变量; 是村庄层面的控制变量。

文章怀疑农民工在外务工可能是一个选择行为,因为具有城市劳动力市场优势(男性、年轻和能力强等)的农民会更倾向于外出打工。论文进一步将这种选择性的来源分为可观测因素和不可观测因素,可观测因素包括年龄、性别等,不可观测因素包括性格、能力等。因此,在模型设置时必须要考虑样本群体是否随机和均质,即样本选择偏差问题。

在本例的数据集结构中,被解释变量 存在缺失值,而由于不在外务工的农民本身就不具有在外务工的工资数据(即使他们有其他来源的收入,但不是文章研究的重点),因此这些缺失值存在的原因就是这些被调查的样本本身就不在外务工。而由于前面提到的农民是否在外务工可能是一个选择行为,即 存在缺失值的样本与 取值不为空的样本在某些特征因素方面本身就存在较大的差异,因此如果在回归时直接剔除这部分取值为空的样本,最后得到的结果就可能存在估计偏误,也就是说在考虑到样本选择偏差的情况下,基准回归结果可能就不再具有稳健性。

为了解决可能存在的样本选择偏差问题,作者使用了样本选择模型中的两步估计法( Heckit )。 Heckit 由以下方程组构成:

其中,方程 是第一阶段回归方程(选择方程),方程 是第二阶段回归方程; 是逆米尔斯比率; 代表样本是否外出务工的虚拟变量,即样本在外务工取值为1,否则为0; 是选择方程中的外生解释变量,论文中选择的是家庭劳动力人数;方程 的所有解释变量,是方程 解释变量的严格子集(真子集)。

论文还对外生变量 的相关性与外生性进行了说明,认为家庭劳动力数量对农民工的打工决策有着重要影响,而对在外务工收入的影响微乎其微,具体分析请看原文。

事实上,这里存在两个问题:

下表是基准OLS回归与 Heckit 第二步回归结果的对比,括号内为各变量估计系数的聚类稳健标准误,以村庄为聚类单位; Heckit 的第一步回归结果论文并未列示,这里假定外生解释变量在第一步回归中显著且有效。

可以观察到, Heckit 第二步回归结果中 IMR 显著为正,且数值较大(相较于其他控制变量的估计系数而言,详细结果请看原文),这说明基准OLS回归确实存在样本选择偏差,造成估计偏误,具体来说是低估了社会网络对农民工在外务工收入的影响,因为OLS模型中社会网络的估计系数仅有0.125,而Heckit模型的估计系数(0.263)是其两倍还多,且两者均至少在1%的水平下显著。至于为什么社会网络的收入促进效应在 Heckit 模型中高于OLS,作者在原文中给出了解释。

值得一提的是,为了解决一般性的因遗漏变量和联立方程(互为因果)导致的估计偏误问题,作者在样本选择模型的基础上进一步采用工具变量法,即采用 IV - Heckit 对基准OLS的稳健性进行进一步的检验,详情请看原文。

第二篇论文 是 祝树金和赵玉龙(2017) 发表在《金融研究》的《资源错配与企业的出口行为——基于中国工业企业数据的经验研究》,主题是探讨企业资源错配对出口行为的影响。

论文一开始就考虑到了样本选择偏差问题,认为企业是否出口受制于自身条件,简单将出口企业与非出口企业同等对待将产生估计偏误,因此构建样本选择模型对这种偏误进行纠正。构建的两阶段模型如下:

公式 是第一阶段的企业出口选择方程,其中,被解释变量 代表第 年 企业的出口状态,若有出口行为,该变量记为1,否则记为0;考虑到出口滞后效应,第一、二阶段所有解释变量均滞后一期; 是论文的核心解释变量企业资源错配,分别使用企业资源错配指标 、 和 来表示; 是影响企业出口决策的第 个控制变量,包括一个外生解释变量 ,即企业前一期是否出口的虚拟变量,作者认为该变量满足相关性和外生性的要求,以及其他控制变量。

公式 是第二阶段的回归方程,其中,被解释变量 表示企业出口强度; 表示影响企业出口强度的控制变量,这些控制变量包括第一阶段的所有控制变量(除 ),以及一个根据第一阶段回归拟合值计算的 IMR 。

回归结果汇总如下(限于篇幅限制,这里仅展示核心解释变量为 的回归结果;括号内为标准误,具体类型未告知):

可以发现( 和 的那两列结果应该合并为一列, markdown 表格合并比较麻烦~),第一步选择方程(模型 )中,外生变量的估计系数显著为正,说明外生变量的选择有效;第二阶段回归(模型 )中,核心解释变量的估计系数显著为正,说明在考虑样本选择偏差的情况下,企业资源错配仍对企业出口强度产生促进作用。需要注意的是:

相似回答