Heckman两步法(3)

如题所述

举报该问题

其他回答

第1个回答 2022-07-09

Lennox et al.（2012）总结了样本选择模型和处理效应模型在会计学领域中应用的几点问题，这几个问题也完全可以延申至其他领域。

除了以上几点，现阶段文献中经常出现的问题还有：

下面将解析两篇经典论文。考虑到多数文献本质上存在的是自选择偏差，而分析样本选择偏差并使用样本选择模型的（中文）文献并不多见，因此下面两篇论文均是从样本选择偏差角度来分析内生性问题。

第一篇论文 是陈云松（2012）发表在《社会》的《农民工收入与村庄网络基于多重模型识别策略的因果效应分析》，研究主题是探讨社会网络对农民工在外务工收入的影响。

以下是基准回归方程：

其中，表示第个村庄第个农民工在城市务工的工资；代表社会网络，用村庄在外务工的人数来表示，在论文中作为核心解释变量；表示个人层面的控制变量；是村庄层面的控制变量。

文章怀疑农民工在外务工可能是一个选择行为，因为具有城市劳动力市场优势（男性、年轻和能力强等）的农民会更倾向于外出打工。论文进一步将这种选择性的来源分为可观测因素和不可观测因素，可观测因素包括年龄、性别等，不可观测因素包括性格、能力等。因此，在模型设置时必须要考虑样本群体是否随机和均质，即样本选择偏差问题。

在本例的数据集结构中，被解释变量存在缺失值，而由于不在外务工的农民本身就不具有在外务工的工资数据（即使他们有其他来源的收入，但不是文章研究的重点），因此这些缺失值存在的原因就是这些被调查的样本本身就不在外务工。而由于前面提到的农民是否在外务工可能是一个选择行为，即存在缺失值的样本与取值不为空的样本在某些特征因素方面本身就存在较大的差异，因此如果在回归时直接剔除这部分取值为空的样本，最后得到的结果就可能存在估计偏误，也就是说在考虑到样本选择偏差的情况下，基准回归结果可能就不再具有稳健性。

为了解决可能存在的样本选择偏差问题，作者使用了样本选择模型中的两步估计法（ Heckit ）。 Heckit 由以下方程组构成：

其中，方程是第一阶段回归方程（选择方程），方程是第二阶段回归方程；是逆米尔斯比率；代表样本是否外出务工的虚拟变量，即样本在外务工取值为1，否则为0；是选择方程中的外生解释变量，论文中选择的是家庭劳动力人数；方程的所有解释变量，是方程解释变量的严格子集（真子集）。

论文还对外生变量的相关性与外生性进行了说明，认为家庭劳动力数量对农民工的打工决策有着重要影响，而对在外务工收入的影响微乎其微，具体分析请看原文。

事实上，这里存在两个问题：

下表是基准OLS回归与 Heckit 第二步回归结果的对比，括号内为各变量估计系数的聚类稳健标准误，以村庄为聚类单位； Heckit 的第一步回归结果论文并未列示，这里假定外生解释变量在第一步回归中显著且有效。

可以观察到， Heckit 第二步回归结果中 IMR 显著为正，且数值较大（相较于其他控制变量的估计系数而言，详细结果请看原文），这说明基准OLS回归确实存在样本选择偏差，造成估计偏误，具体来说是低估了社会网络对农民工在外务工收入的影响，因为OLS模型中社会网络的估计系数仅有0.125，而Heckit模型的估计系数（0.263）是其两倍还多，且两者均至少在1%的水平下显著。至于为什么社会网络的收入促进效应在 Heckit 模型中高于OLS，作者在原文中给出了解释。

值得一提的是，为了解决一般性的因遗漏变量和联立方程（互为因果）导致的估计偏误问题，作者在样本选择模型的基础上进一步采用工具变量法，即采用 IV - Heckit 对基准OLS的稳健性进行进一步的检验，详情请看原文。

第二篇论文 是祝树金和赵玉龙（2017）发表在《金融研究》的《资源错配与企业的出口行为——基于中国工业企业数据的经验研究》，主题是探讨企业资源错配对出口行为的影响。

论文一开始就考虑到了样本选择偏差问题，认为企业是否出口受制于自身条件，简单将出口企业与非出口企业同等对待将产生估计偏误，因此构建样本选择模型对这种偏误进行纠正。构建的两阶段模型如下：

公式是第一阶段的企业出口选择方程，其中，被解释变量代表第年企业的出口状态，若有出口行为，该变量记为1，否则记为0；考虑到出口滞后效应，第一、二阶段所有解释变量均滞后一期；是论文的核心解释变量企业资源错配，分别使用企业资源错配指标、和来表示；是影响企业出口决策的第个控制变量，包括一个外生解释变量，即企业前一期是否出口的虚拟变量，作者认为该变量满足相关性和外生性的要求，以及其他控制变量。

公式是第二阶段的回归方程，其中，被解释变量表示企业出口强度；表示影响企业出口强度的控制变量，这些控制变量包括第一阶段的所有控制变量（除），以及一个根据第一阶段回归拟合值计算的 IMR 。

回归结果汇总如下（限于篇幅限制，这里仅展示核心解释变量为的回归结果；括号内为标准误，具体类型未告知）：

可以发现（和的那两列结果应该合并为一列， markdown 表格合并比较麻烦~），第一步选择方程（模型）中，外生变量的估计系数显著为正，说明外生变量的选择有效；第二阶段回归（模型）中，核心解释变量的估计系数显著为正，说明在考虑样本选择偏差的情况下，企业资源错配仍对企业出口强度产生促进作用。需要注意的是：

相似回答

heckman两步法答：Heckman两阶段法是由Heckman（1979）提出，主要用于解决样本选择偏差（sample selection bias）问题。样本选择偏差问题其实就是内生性的一种。样本选择偏差包括两种，一种是不是随机性导致的样本偏差，一种是由于样本自选择导致的偏差，内容如下。1.样本不存在随机性样本不存在随机性就是研究人员根据自己设...

stata heck man两步法怎么写命令答：help heckman命令即可

heckman最大似然估计中一直运行not concave是什么意思答：样本选择偏误。使用Heckman两步法进行估计，在分样本中，由于样本选择偏误原因，导致第一步Probit选择方程无法收敛，就会最大似然估计量中一直运行，将样本调整至标准值即可。

stata中使用heckman模型命令的twostep又什么作用答：twostep是两步法估计不加，默认是ml估计。这些需要看软件的帮助和手册。每个软件自己的选项是编写软件的人设置的，自己猜测不行。

内生性问题是什么答：5. 解决内生性问题的方法包括工具变量法（IV）、Heckman两步法、匹配方法（matching）、差分-差分法（DID）等。在选择方法前，研究者应先理解内生性问题产生的原因。6. 计量经济学的魅力在于其故事性和逻辑性。如果研究者仅机械地应用方法，而忽略了完整的处理逻辑，那么研究将失去其核心。7. 工具变量...

内生性问题及其产生原因答：内生性问题的解决方法内生性问题的解决方法有很多，如工具变量（IV）、Heckman两步法、匹配方法、差分-差分法（DID）等。在选择解决方法之前，重要的是先理清问题的成因，明确内生性问题产生的具体原因。计量经济学的魅力在于其故事完整性和逻辑严密性，如果仅仅机械地应用方法，那么研究将失去其核心。

内生性问题及其产生原因答：3）互为因果（simultaneity）被解释变量能够反过来影响解释变量的情况被称为互为因果，有时也被称为反向因果。即使不考虑这些推导，互为因果这种情况，解释变量由被解释变量决定，多么直白的内生性！4、内生性问题的解决方法内生性的解决方法有很多，IV、Heckman两步法、matching类、DID等，这个太多人写...

处理selection bias,怎么用stata做答：处理选择性问题时，有一部分选择性问题：在可观测变量上的选择性问题可以用Heckman两步法来做，

大家正在搜

heckman两步法原理 heckman两步法可以分年做吗什么是一步法和两步法内收两步法比一步法好一步法和两步法的区别 durbin两步法 32步基本步法两步法两步法应用