工具变量法和两阶段最小二乘法的关系(工具变量的选择必须满足哪些条件)

2022-11-26 15:37:34 0

工具变量法和两阶段最小二乘法的关系(工具变量的选择必须满足哪些条件)

寻找到一个好的工具变量可以直接在MIT博士毕业,可见找工具变量是一件有挑战性的事情。在我看来,找工具变量是一项有趣的智力活动,除了需要一个人有经济学的素养和逻辑,还需要这个人知识面广,自然、地理、人文、世俗智慧和经验等,通常,这跟一个人熟悉的领域,由长期观察和思考产生的洞见有关。当然还需要一点运气,学术不是苦思冥想,也许做一个梦,喝一杯下午茶,灵感就闪现了。

工具变量的原理最早出现在菲利普·莱特可以用来解决

1 )遗漏变量偏差

2)经典的测量误差问题

3)联立性(逆向因果)

3

工具变量的条件

•变量z可以作为变量x的有效工具变量,当满足:•工具变量必须外生 •即, Cov的条件则可加以检验。做到这一点最容易的方法是估计一个x与z之间的简单回归。

就是说,Cov与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。然而,该变量与教育不相关,因而是educ的一个低劣的工具变量。

所谓的用于遗漏变量的代理变量因相应的原因也是低劣的IV。例如,在遗漏能力的log与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ对motheduc的简单回归便可以看出来。因此,motheduc满足方程 Cov。

(15.1)中educ的另一个IV选择是成长过程中兄弟姊妹的数目(sibs)。一般地说,较多的兄弟姊妹与较低的平均教育水平相联系。这样,如果兄弟姊妹的数目与能力不相关,它可以 充当educ的工具变量。

IV与OLS估计比较

IV与OLS的标准差的不同之处仅在于将x对z回归得到的Rx,z^2由于Rx,z^2<1,IV的标准差会比较大。就是左老师说的比谁更有效,如果做出来

当Cov倍。运用OLS得出的β1的95%置信区间比运用IV得出的要窄得多;事实上,IV的置信区间确实包含了OLS估计值。因此,尽管实践中(15.15)与(15.17)之间的差异很大,我们不能说该差异在统计上显著。

5

IV的问题

值得注意的是 尽管当z与u不相关,而z与x存在着正的或负的相关时,IV是一致性的,但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果:即使z与u只是适度相关,IV估计量也会有大的渐近偏误。

这就是左老师讲的弱工具变量问题。

理论上说,Z必须是严格外生的,但是如果工具变量与内生变量有一点相关,即使很小,仍然可能造成估计的问题。Z和X关系越小,这个工具变量就越有风险,这个叫弱工具变量。

后来左老师举了Angrist那个教育和出生季度的例子。

Angrist & Krueger(1991)利用美国的男性人口调查数据,提出了educ的一个巧妙的二值工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。(15.14)中的误差项——特别是能力——似乎应该与出生季度不相关。但是,frstqrt还要与educ相关。事实表明,在基于出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。

因为教育年数在各出生季度之间的变化仅仅是微乎其微的——这意味着我们做 对 的回归来获得的 非常小——Angrist和Krueger需要很大的样本容量来得到一个合理而准确的IV估计值。利用1920至1929年之间出生的247,199位男性的数据,得出教育回报的OLS估计值为.0801(标准误为.0004),IV估计值为.0715(.0219);见于Angrist和Krueger的论文中的表III。注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为3.26。因而IV估计值在统计上不为0,但其置信区间比基于OLS估计值的置信区间宽得多。

Angrist和Krueger有一个有趣的发现:IV估计值与OLS估计值相差并不多。实际上,利用下一个十年中出生的男性的数据,得出IV估计值稍微高于OLS估计值。对此可以这样解释:说明在用OLS估计工资方程时不存在遗漏能力的偏误。可是,Angrist和Krueger的论文在计量经济学界受到了非难。如同Bound,Jaeger和Baker(1995)讨论的那样,它不能明显地判断出生季节与影响工资的诸因素不相关,纵然这些因素没有被人观测到。

6

自我选择(self-selection)的问题

举个例子,Angrist(1990)研究了,参加越南战争的老兵,其终身收入因参加越战而受到的影响。一个简单模型为:income=veteran+others

其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择(self-selection)的问题:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。

Angrist指出,越南战争的征兵抽签提供了一个自然试验(naturalexperiment),从而产生了veteran的一个工具变量。年轻人被分给的征兵抽签号决定了他们是否会被征召去服役于越南战争。因为所分给的号码(毕竟)是随机分配的,征兵抽签号与误差项u不相关似乎是可信的。而得到号码足够小(指号码小于某个数)的人必须服役于越南战争,使得成为老兵的概率与抽签号相关。如果以上两点都是正确的,征兵抽签号是veteran的一个好的IV候选者。

7

用Stata做 ivreg处理内生性怎么玩?

【问题及方法】

内生性,每个实证人的痛。内生性主要的三个来源:测量误差、遗漏变量和逆向因果。

1、变量的内生性。

这个是没有办法单独检验的。当有合适工具变量时候,是可以检验的,就是Hausman检验

2、工具变量的外生性。

这个也是没办法检验的。当有很多工具变量时候,可以检验是否有不是外生的,就是“过度识别”问题

3、工具变量的相关性。

这个可以说成是“弱工具变量”问题,检验可以通过一阶段的F值。还可以利用Partial R2。

4、估计方法

stata里面有这么几个2sls,2sls smal、liml、gmm,各自适用情况:small适合小样本;liml适合弱工具变量;gmm适合异方差。

【例子】

webuse hsng2

*Fit a regression via 2SLS, requesting small-sample statisticsivregress 2sls rent pcturban 。请问,这算不算工具变量z与残差项u相关,从而导致工具变量z无效?我考虑,这个u与z之间的影响是间接的。是不是只要不是直接的影响就可以?因为间接地影响好像是必然存在的。

比如说,阿西莫格鲁(Acemoglu)那篇著名的关于制度与经济增长的论文,把殖民时代的死亡率作为工具变量,但如果其他影响经济增长的因素通过影响殖民时代的制度来影响殖民时代的死亡率,那么死亡率这个工具变量不还是和残差项相关吗?

乙:我跟你的理解不一样。X是内生变量,说明在X背后有一个或者多个外生变量可以解释X,你所谓的那个工具变量Z就是那个主要解释X的外生变量。如果你可以找到这个解释X的外生变量,那就可以使得X与Z相关(因为可以建立X=a+bZ这样的回归方程,那肯定相关),另外直接用X解释Y的话,因为X是内生变量(也就是个二传手),Z这个外生变量被包含在误差项里面了,所以误差项与X会相关。但是你如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了。

单方程回归分析的解释变量只能是外生变量,如果存在二传手(内生变量)那么就需要多一步建立外生变量(工具变量)与那个内生变量的关系(即工具变量对内生变量的回归方程,然后使用方程估计值取代原来的内生变量进行原方程的回归)。 所以找工具变量是需要很强的理论知识的,工具变量一定是外生变量,如果还是找个内生的变量那就没有意义了,多了个三转手罢了。

甲:你好像没回答我的问题,“如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了”。可是得先确定z与误差项不相关,才能找出合适的z啊。我的问题就是,如果误差项通过影响x来影响z的(因为误差项与x相关而x与z相关),此时我找出的z还是不是合适的工具变量。

乙:误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关

甲:“误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关,它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。

2,如果上述理论逻辑通的话,将内生变量X作为解释变量,IV和其他变量(X2)作为解释变量,看IV是否显著,它应该显著。如果选了多个IV,就用F TEST看其是否都不显著。同时,如果在多个IV中,有一个是确定为外生的,那么,可以用Sargan test of overidentifying restrictions来检验其他的IV是不是确实是外生的。

3,如果上述都没有问题,做一下IV回归。完成后,用HAUSMAN检验,这个检验的原假说是IV回归与原回归(不用IV的回归)的变量的系数并没有显著的不同。看一下P值,如果P小于比如说0.1,或者0.05,那么,说明IV回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误。反之,如果P很高,超过0.1,或0.05,那说明IV回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。

4,如果选择的IV本身就影响Y,那它就不能被作为IV。例如,Y在左边,右边是X(被工具的),X2,IV。当IV被放在方程右边时,它最好是不显著影响Y的。在Acemoglu(2001)里,他就检验了他们的IV是否直接影响被解释变量,结果说明不直接影响,于是这个IV是好的。

当然,一个好的IV在前面的回归中也可能是显著的(不过一般如果理论和逻辑上IV是通过被工具的内生解释变量间接影响被解释变量的话,一般来说应该是被工具的内生解释变量使得IV不显著,或者由于两者相关性很高,两者都不显著),但判断的标准还只是t值。

这个变量显著完全有可能是因为它影响了其他显著的变量(比如被工具的变量),如果是这样,当包括了IV在原方程中以后,其他变量(特别需要注意的是被工具的变量X)的系数可能发生明显变化。

来源:Unknown sources 计量经济学圈

监制:覃 飞

编辑:唐青青

关键字:  工具变量法和两阶段最小二乘法的关系  工具变量的选择必须满足哪些条件  工具变量法经典例子  工具变量是什么意思  工具变量怎么用