第9章计量经济学基础

引言

经济学提出因果主张——最低工资影响就业,教育提高收入,制度决定增长。检验这些主张需要数据和区分因果关系与相关关系的方法。计量经济学就是这种方法。

本章不是统计学课程。我们假设读者熟悉基本的概率论和回归分析。相反,我们关注实证经济学的核心问题:识别——找到可信的外生变异来源,使我们能够估计因果效应。本章的每种工具——OLS、工具变量、双重差分、回归断点——都是解决识别问题的策略。

学完本章后,你将能够:
  1. 阐述识别问题并解释为什么相关不等于因果
  2. 推导和解释OLS估计量,并诊断遗漏变量偏差
  3. 解释工具变量的逻辑并评估工具的有效性
  4. 设计并解释双重差分研究
  5. 解释回归断点设计的逻辑
  6. 评估实证研究中的效度威胁

前置知识:第2章和第5章(示例的经济学背景)。数学前置知识:线性代数、概率论与统计学。

9.1 识别问题

识别问题。 确定两个变量之间的关系是因果关系而非仅仅是相关关系的困难。

考虑这个问题:多受一年教育是否会增加收入?我们观察到受教育程度更高的人收入更高。但这是因为:

内生性。 当回归变量 $X$ 与误差项相关时,它是内生的:$Cov(X, \varepsilon) \neq 0$。这由遗漏变量、联立性或测量误差引起,导致 OLS 产生有偏估计。
反事实。 如果处理单位未接受处理,将会观察到的结果。由于每个单位只能观察到一种状态,反事实始终是假设性的。所有因果推断方法都是构建合理反事实的策略。

两者都与观察到的相关性一致。识别问题在于我们无法直接比较同一个人接受教育和未接受教育的情况——反事实是不可观测的。

基本方程:

$$Y_i = \alpha + \beta X_i + \varepsilon_i$$ (Eq. 9.1)

其中 $Y_i$ 是结果(收入),$X_i$ 是处理(受教育年限),$\beta$ 是我们感兴趣的因果参数,$\varepsilon_i$ 捕捉影响 $Y_i$ 的所有其他因素——能力、家庭背景、动机、运气、健康以及数千个其他因素。

当 $X_i$ 与 $\varepsilon_i$ 相关时——即"处理"不是随机分配的——识别问题就会出现。在统计学中,这被称为内生性。在经济学中,这是常态而非例外:人们选择自己的教育(而这种选择与能力相关),国家选择自己的政策(而这种选择与其经济条件相关),企业选择自己的价格(而这种选择与需求条件相关)。

在随机实验中,处理 $X_i$ 由抛硬币决定——它在构造上独立于 $\varepsilon_i$。但经济学家很少有机会对重大问题进行随机化。本章的方法——OLS、IV、DiD、RD——是在观测数据中寻找近似随机化的"自然实验"的策略。

9.2 普通最小二乘法(OLS)

OLS。 通过最小化残差平方和来估计 $Y$ 与 $X$ 之间的线性关系。

对于多元模型 $Y = X\beta + \varepsilon$(矩阵表示法):

$$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$$ (Eq. 9.2)
高斯-马尔科夫假设。 OLS 成为最佳线性无偏估计量的条件集:(1) 线性性,(2) 随机抽样,(3) 无完全多重共线性,(4) 零条件均值($E[\varepsilon|X] = 0$),(5) 同方差性($Var(\varepsilon|X) = \sigma^2$)。

高斯-马尔科夫假设下,OLS具有良好的性质:

  1. 线性性:真实模型在参数上是线性的
  2. 随机抽样:观测值是独立抽取的
  3. 无完全多重共线性:没有回归变量是其他变量的精确线性函数
  4. 零条件均值:$E[\varepsilon|X] = 0$——误差与回归变量之间没有系统性关系
  5. 同方差性:$Var(\varepsilon|X) = \sigma^2$——误差方差是常数
零条件均值。 假设 $E[\varepsilon|X] = 0$:误差项与回归变量之间没有系统性关系。这是 OLS 无偏性的关键假设。当它失败时(由于遗漏变量、联立性或测量误差),OLS 是有偏的。
BLUE(最优线性无偏估计量)。 在高斯-马尔科夫假设下,OLS在所有线性无偏估计量中方差最小。"最优"= 最小方差;"线性"= $Y$ 的线性函数;"无偏"= $E[\hat{\beta}] = \beta$。

在这些假设下,OLS是BLUE——最优线性无偏估计量。"最优"意味着在所有线性无偏估计量中方差最低。"无偏"意味着 $E[\hat{\beta}] = \beta$。

关键假设是第4条:$E[\varepsilon|X] = 0$。当此假设失败时——由于遗漏变量、联立性或 $X$ 的测量误差——OLS是有偏的。估计值 $\hat{\beta}$ 即使在无限数据下也不会收敛到真实的 $\beta$。这不是小样本问题——它是一个根本性的设计缺陷,更多的数据无法修复。

图 9.1 — OLS 回归探索器

一个带有OLS回归线的散点图。拖动滑块在不同的垂直位置添加异常值,并观察回归线的倾斜。观察单个高杠杆点如何显著改变斜率、$R^2$ 和系数。

无异常值 中等 极端 (Y=25)
OLS: β̂ = 0.00 | Intercept = 0.00 | R² = 0.00

图 9.1. 带有可调异常值的OLS回归。异常值位于 $X=14$(高杠杆点)。拖动滑块至"无异常值"以上以引入异常值,并观察回归线的倾斜。悬停查看数值。

遗漏变量偏差

遗漏变量偏差。 由于排除了一个与因变量和自变量都相关的相关变量而导致的 OLS 估计量偏差。偏差的方向和大小取决于遗漏变量效应的符号及其与纳入变量的相关性。

假设真实模型为 $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$,但我们遗漏 $Z$ 并运行 $Y = \alpha_0 + \alpha_1 X + e$。那么:

$$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \frac{Cov(X, Z)}{Var(X)}$$ (Eq. 9.3)

偏差等于遗漏变量的效应($\beta_2$)乘以遗漏变量与纳入回归变量之间的关联。

偏差方向:

$Cov(X, Z) > 0$$Cov(X, Z) < 0$
$\beta_2 > 0$向上偏差(高估 $\beta_1$)向下偏差
$\beta_2 < 0$向下偏差向上偏差
例 9.1 — 教育回报率

假设能力($Z$)与教育($X$)和收入($Y$)均正相关。那么 $\beta_2 > 0$(能力提高收入)且 $Cov(X,Z) > 0$(能力更强的人接受更多教育)。OLS对教育回报率的估计向偏——它将部分能力效应归因于教育。

图 9.2 — 遗漏变量偏差

两个面板显示相同的数据。左:包含混杂因素(能力)的真实关系,以点的颜色表示。右:忽略能力的朴素OLS回归。拖动滑块改变混杂强度,观察偏差的增长。

无混杂 (0) 中等 (0.5) 强 (0.95)
True β₁ = 0.50 | Naive OLS β̂ = 0.00 | Bias = 0.00

左:包含混杂因素(能力)的真实模型,以颜色显示。颜色越深 = 能力越高。

右:忽略能力的朴素OLS回归。有偏的回归线(红色虚线)比真实因果效应(蓝色)更陡。

9.3 工具变量(IV)

当OLS因 $X$ 内生($Cov(X, \varepsilon) \neq 0$)而有偏时,工具变量可以拯救估计。

工具变量($Z$)。 一个满足以下条件的变量:(1) 相关性:$Z$ 与 $X$ 相关($Cov(Z, X) \neq 0$);(2) 排除性约束:$Z$ 仅通过 $X$ 影响 $Y$($Cov(Z, \varepsilon) = 0$)。
相关性条件。 要求工具变量 $Z$ 与内生回归变量 $X$ 有足够的相关性。弱工具变量(低相关性)会产生不可靠的 IV 估计,具有较大的标准误和向 OLS 偏移。第一阶段 F 统计量应超过 10。
排除性限制。 假设工具变量 $Z$ 仅通过对内生回归变量 $X$ 的影响来影响结果 $Y$,而不通过任何其他渠道:$Cov(Z, \varepsilon) = 0$。这个假设不能直接检验,必须基于理论来论证。
两阶段最小二乘法(2SLS)。 一种 IV 估计程序:(1) 将 $X$ 对 $Z$ 回归以获得拟合值 $\hat{X}$;(2) 将 $Y$ 对 $\hat{X}$ 回归。第一阶段分离 $X$ 中的外生变异;第二阶段仅使用该变异来估计因果效应。

两阶段最小二乘法(2SLS):

第一阶段:将 $X$ 对 $Z$(及任何控制变量)进行回归:

$$X_i = \pi_0 + \pi_1 Z_i + \nu_i$$ (First stage)

这分离出由工具变量驱动的 $X$ 的部分——外生部分。拟合值 $\hat{X}_i$ 代表 $X$ 中的"干净"变异。

第二阶段:将 $Y$ 对 $\hat{X}$ 进行回归。矩阵形式:

$$\hat{\beta}_{IV} = (Z'X)^{-1}Z'Y$$ (Eq. 9.4)

在一个工具变量和一个内生回归变量的简单情况下:

$$\hat{\beta}_{IV} = \frac{Cov(Z, Y)}{Cov(Z, X)}$$ (Eq. 9.5)

IV估计值是简约形式($Z$ 对 $Y$ 的效应)与第一阶段($Z$ 对 $X$ 的效应)的比率。直觉:$Z$ 仅通过 $X$ 影响 $Y$(排除性限制),因此除以第一阶段可以分离出 $X$ 对 $Y$ 的因果效应。

IV估计的是什么。在异质性处理效应下,IV识别的是局部平均处理效应(LATE)——即行为受工具变量改变的亚群体("依从者")的因果效应。

弱工具变量

弱工具变量。 与内生回归变量相关性低的工具变量(第一阶段 F 统计量低于 10)。弱工具变量使 IV 估计量偏向 OLS,具有非正态抽样分布,并产生误导性的置信区间。

如果 $Z$ 与 $X$ 的相关性很弱,第一阶段就很弱,IV估计就不可靠(偏向OLS,置信区间很宽)。经验法则:第一阶段F统计量 > 10。

例 9.2 — 出生季度(Angrist & Krueger 1991)

出生季度被用作受教育年限的工具变量。义务教育法意味着年初出生的学生可以以略少的受教育年限辍学。出生季度可以合理地认为:(a) 与受教育年限相关(相关性),且 (b) 与收入没有直接关系(排除性)。教育回报率的IV估计约为每年7-8%。

互动:工具变量DAG

该有向无环图展示了工具变量设计的因果结构。在两种视图之间切换,观察工具变量Z如何打断混杂路径。

图 9.2.工具变量设计的DAG图。Z是工具变量,X是内生回归变量,Y是结果变量,U是未观测的混杂因素。IV策略仅使用由Z驱动的X的变异,绕过通过U的混杂路径。

9.4 双重差分(DiD)

双重差分。 一种通过比较处理组和对照组随时间的变化来估计处理因果效应的方法。
$$\hat{\tau}_{DiD} = (\bar{Y}_{T,post} - \bar{Y}_{T,pre}) - (\bar{Y}_{C,post} - \bar{Y}_{C,pre})$$ (Eq. 9.6)

第一次差分消除了时间不变的组特征。第二次差分消除了共同的时间趋势。

平行趋势假设。 假设在没有处理的情况下,处理组和对照组将经历相同的结果变化。平行趋势不能直接检验处理后时期,但可以通过检查处理前趋势是否相似来评估。

关键假设:平行趋势。在没有处理的情况下,处理组和对照组会遵循相同的趋势。这在处理后时期不可检验,但可在处理前时期进行评估。

例 9.3 — Card & Krueger (1994)

新泽西州于1992年4月将最低工资从4.25美元提高到5.05美元;宾夕法尼亚州未调整。就业效应的DiD估计为正值(+2.7全职当量工人),与简单竞争模型的预测相矛盾。这项研究引发了实证劳动经济学的革命。

回归公式:

$$Y_{it} = \alpha + \beta_1 \cdot Treat_i + \beta_2 \cdot Post_t + \tau \cdot (Treat_i \times Post_t) + \varepsilon_{it}$$ (Eq. 9.7)

图 9.3 — 双重差分

两条时间序列显示处理组和对照组。处理发生在 $t = 5$。拖动滑块改变处理效应大小,观察DiD估计的更新。可以看到处理前的平行趋势。

负向 (−5) 大 (+10)
DiD estimate: τ̂ = 3.00

图 9.3.双重差分设计。虚线显示反事实——即在没有处理的情况下,处理组会发生什么(与对照组平行)。最终实际结果与反事实结果之间的差距即为处理效应。

9.5 回归断点(RD)

回归断点。 一种利用“连续变量”中的临界值来确定处理分配的方法。临界值上下的观测值在除处理外的所有方面都相似 — 创建了一个局部准实验。
运行变量。 在 RD 设计中决定处理分配的连续变量。当连续变量超过临界值时分配处理(例如,考试分数阈值、年龄临界值、选举边际)。连续变量不得被主体精确操纵。
连续性假设。 假设影响结果的所有因素(除处理外)在临界值处连续变化。如果这一假设成立,则临界值处结果的不连续性仅归因于处理。当主体能够精确地围绕阈值排序时则被违反。
$$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X = x] - \lim_{x \uparrow c} E[Y|X = x]$$ (Eq. 9.8)

关键假设:连续性。影响 $Y$ 的所有因素(除处理外)在截断点处连续变化——在阈值附近没有排序或操纵。

例 9.4 — 分数80分的奖学金

考试成绩超过80分的学生获得奖学金。得分79和81的学生能力相似,但一个获得奖学金而另一个没有。80分阈值处结果(如大学完成率)的不连续性可以估计奖学金的因果效应。

图 9.4 — 回归断点

一个以运行变量(考试成绩)为横轴的散点图。超过截断点的学生接受处理(奖学金)。两侧的多项式拟合揭示了截断点处的跳跃。调整截断点位置和带宽,观察估计处理效应的变化。

低 (30) 中 (50) 高 (70)
窄 (5) 中 (25) 宽 (40)
RD estimate: τ̂ = 0.00 | Cutoff = 50 | Bandwidth = 25

图 9.4.回归断点。垂直虚线标记截断点。截断点左侧的点未接受处理(灰色);右侧接受处理(绿色)。截断点处的跳跃即为处理效应估计。调整带宽以聚焦于截断点附近的观测值。

9.6 随机对照试验(RCTs)

随机对照试验。 随机分配处理确保处理组和对照组在期望上相同 — 从设计上消除混杂因素。
$$\hat{\tau}_{RCT} = \bar{Y}_{treatment} - \bar{Y}_{control}$$ (Eq. 9.9)
内部效度。 研究在其特定情境和样本中准确估计因果效应的程度。内部有效的研究正确识别了所研究人群的因果关系。威胁包括混杂、选择偏差、流失和测量误差。
外部效度。 研究发现推广到其他人群、环境或时间段的程度。在肯尼亚农村进行的随机对照试验可能不适用于印度城市。扩大项目规模往往会改变情境(一般均衡效应、不同的依从人群)。

随机对照试验是内部效度的"金标准",因为随机化在构造上保证了 $E[\varepsilon|X] = 0$。Banerjee、Duflo和Kremer因其减轻全球贫困的实验方法获得了2019年诺贝尔奖。

随机对照试验的局限性

意向治疗分析(ITT)。 分配到处理的平均处理效应,无论受试者是否实际依从。ITT 在随机对照试验中始终能够良好识别,因为它比较的是随机化的组别。在部分依从的情况下,ITT 低估了实际接受处理的效应。
处理效应(TOT)。 实际接受处理的平均因果效应(在依从者中)。估计为 $TOT = ITT / \text{依从率}$。TOT 回答的是:“对于实际接受处理的人,效果如何?”但需要比 ITT 更强的假设。
统计检验力。 研究正确拒绝错误原假设的概率(即检测到真实处理效应)。统计力取决于效应大小、样本量和方差。统计力不足的研究可能无法检测到真实效应(第二类错误)。标准目标:80% 统计力。
例 9.5 — 部分依从的随机对照试验

一个职业培训项目随机将500人分配到处理组,500人分配到对照组。仅有60%被分配到处理组的人实际参加了项目(依从率 = 0.6)。

结果:平均收入:处理组 = \$15,000,对照组 = \$13,000。

ITT: $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$。这是被提供项目的效应。

TOT: $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$。这估计了实际参加项目的效应(针对依从者)。TOT更大,因为ITT被未依从者稀释了。

检验力检查:每组 $n = 500$,$\sigma = \\$1{,}000$,真实效应为 $\\$1{,}000$,检验力 $\approx 0.80$。该研究有足够的检验力来检测ITT。

图 9.5 — RCT 检验力计算器

统计检验力是检测到真实处理效应的概率。使用滑块探索效应大小、样本量和方差如何影响检验力。检验力曲线实时更新,80%检验力下的最小可检测效应(MDE)会被标出。

小 (0.05) 中 (0.50) 大 (1.50)
10 250 500
低 (0.5) 中 (1.0) 高 (3.0)
Power: 0.00 | MDE at 80% power: 0.00

图 9.5.检验力曲线:检测效应的概率作为效应大小的函数。红色虚线标记80%的检验力。绿色菱形标记当前参数组合。MDE是在给定样本量和方差下,80%检验力可检测的最小效应。

9.7 标准误与推断

没有不确定性度量的点估计几乎毫无用处。

$$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$$ (Eq. 9.10)

标准误(SE)是对角元素的平方根。95%置信区间约为 $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$。

统计显著性:如果 $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$,我们在5%水平上拒绝 $H_0: \beta = 0$。

经济显著性与统计显著性:一个系数可以在统计上显著但在经济上微不足道。反之,一个不精确的估计可以在经济上很大但在统计上不显著。好的实证研究会讨论两者。

有效推断的威胁

一条实用规则:在现代应用经济学中,始终使用稳健标准误或聚类标准误。

9.8 效度威胁

每种实证策略都有可能失败的假设:

策略关键假设威胁诊断方法
OLS无遗漏变量($E[\varepsilon|X]=0$)混杂理论 + 敏感性分析
IV排除性限制$Z$ 对 $Y$ 的直接效应无法直接检验;从理论上论证
IV相关性弱工具变量第一阶段 F > 10
DiD平行趋势差异性处理前趋势绘制处理前趋势图
RD截断点处无操纵围绕阈值的排序McCrary密度检验
RCT无流失、无溢出差异性退出;污染平衡检验、流失分析

案例线索:卡伊拉尼共和国

一位经济学家想要估计卡伊拉尼新教育政策(1-6年级免费教科书)对考试成绩的影响。该政策于2024年在东部省份实施,但未在西部省份实施。

设计:双重差分。

政策前(2023年)政策后(2025年)变化
东部(处理组)5563+8
西部(对照组)5256+4
DiD估计值+4

DiD估计值为4分。在控制了共同的上升趋势后,免费教科书使考试成绩提高了4分。

威胁:(1) 平行趋势:东部省份是否已经在更快地改善?(2) 溢出效应:边境附近的家庭是否将孩子送到东部学校?(3) 组成变化:免费教科书是否改变了入学率?

一种补充方法:在省界处使用回归断点,比较边界两侧的村庄。

总结

关键公式

标签公式描述
方程 9.1$Y_i = \alpha + \beta X_i + \varepsilon_i$结构方程
方程 9.2$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$OLS估计量
方程 9.3$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$遗漏变量偏差公式
方程 9.5$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$IV估计量(简单形式)
方程 9.6$\hat{\tau}_{DiD}$ = (处理组变化) − (对照组变化)DiD估计量
方程 9.7$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$DiD回归
方程 9.8$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$RD估计量
方程 9.9$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$RCT估计量
方程 9.10$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$OLS方差

练习题

基础练习

  1. 假设你使用OLS将工资对受教育年限回归,估计的系数为0.10(每多受一年教育与10%更高的工资相关)。列出两个可能使该估计产生偏差的遗漏变量,并预测每个的偏差方向。
  2. 一项IV研究使用"到最近大学的距离"作为受教育年限的工具变量。(a) 论证相关性。(b) 排除性限制是什么,什么可能违反它?
  3. 在A市颁布苏打税前后,与B市进行比较。税前,A市的苏打消费量为每人100罐,B市为90罐。税后,A市为80罐,B市为85罐。计算DiD估计值。这里的平行趋势假设是什么?
  4. 一个奖学金项目录取GPA ≥ 3.5的学生。你有GPA从3.0到4.0的学生数据。(a) 描述RD设计。(b) 什么是运行变量?(c) 关于学生在截断点附近的行为,必须满足什么假设?

应用练习

  1. 政府随机化职业培训项目的参与权。被提供项目的人中有60%实际参加。意向治疗估计为收入增加500美元。处理效应估计是多少?你需要什么假设?这与IV有什么关系?
  2. 一位经济学家声称民主促进经济增长,引用了跨国相关性。用本章的框架批评这一主张。你会提出什么具体的识别策略?
  3. 一项DiD研究估计环境法规的效应。处理前趋势显示处理组的污染已经在比对照组更快地下降。这如何违反平行趋势?DiD估计的偏差方向是什么?

挑战题

  1. 通过最小化 $S(\beta) = (Y - X\beta)'(Y - X\beta)$ 推导OLS估计量 $\hat{\beta} = (X'X)^{-1}X'Y$。证明一阶条件给出正规方程 $X'X\hat{\beta} = X'Y$。
  2. 用代数方法证明,当工具变量 $Z$ 为二值时,IV估计量简化为Wald估计量:$\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$。
  3. 讨论经济学中的"可信性革命"(Angrist and Pischke, 2010)。结构计量经济学与基于设计的实证研究之间发生了什么变化?各自的优势和局限性是什么?