Chapitre 9Fondements de l'économétrie

Introduction

L'économie avance des affirmations causales — le salaire minimum affecte l'emploi, l'éducation augmente les revenus, les institutions déterminent la croissance. Tester ces affirmations nécessite des données et une méthode pour distinguer la causalité de la corrélation. L'économétrie est cette méthode.

Ce chapitre n'est pas un cours de statistiques. Nous supposons une familiarité avec les probabilités de base et la régression. Nous nous concentrons plutôt sur le problème central de l'économie empirique : l'identification — trouver des sources crédibles de variation exogène permettant d'estimer les effets causaux. Chaque outil de ce chapitre — MCO, variables instrumentales, différence de différences, régression sur discontinuité — est une stratégie pour résoudre le problème d'identification.

À la fin de ce chapitre, vous serez capable de :
  1. Énoncer le problème d'identification et expliquer pourquoi corrélation n'implique pas causalité
  2. Dériver et interpréter les estimations MCO et diagnostiquer le biais de variable omise
  3. Expliquer la logique des variables instrumentales et évaluer la validité de l'instrument
  4. Mettre en place et interpréter un design de différence de différences
  5. Expliquer la logique des designs de régression sur discontinuité
  6. Évaluer les menaces à la validité dans la recherche empirique

Prérequis : Chapitres 2 et 5 (contexte économique des exemples). Prérequis mathématiques : algèbre linéaire, probabilités et statistiques.

9.1 Le problème d'identification

Le problème d'identification. La difficulté d’établir qu’une relation entre deux variables est causale plutôt que simplement corrélative.

Considérons la question : une année d'éducation supplémentaire augmente-t-elle les revenus ? Nous observons que les personnes plus éduquées gagnent davantage. Mais est-ce parce que :

Endogénéité. Un régresseur $X$ est endogène lorsqu’il est corrélé avec le terme d’erreur : $Cov(X, \varepsilon) \neq 0$. Cela provient de variables omises, de la simultanéité ou d’erreurs de mesure, et cause des estimations OLS biaisées.
Contrefactuel. Le résultat qui aurait été observé pour une unité traitée si elle n’avait pas reçu le traitement. Puisqu’un seul état est observé pour chaque unité, le contrefactuel est toujours hypothétique. Toutes les méthodes d’inférence causale sont des stratégies pour construire des contrefactuels plausibles.

Les deux sont compatibles avec la corrélation observée. Le problème d'identification est que nous ne pouvons pas comparer directement la même personne avec et sans éducation — le contrefactuel est inobservé.

L'équation fondamentale :

$$Y_i = \alpha + \beta X_i + \varepsilon_i$$ (Eq. 9.1)

où $Y_i$ est le résultat (revenus), $X_i$ est le traitement (années d'éducation), $\beta$ est le paramètre causal d'intérêt, et $\varepsilon_i$ capture tout le reste affectant $Y_i$ — capacité, contexte familial, motivation, chance, santé et des milliers d'autres facteurs.

Le problème d'identification surgit lorsque $X_i$ est corrélé avec $\varepsilon_i$ — lorsque le « traitement » n'est pas assigné aléatoirement. En statistique, on appelle cela l'endogénéité. En économie, c'est la norme, pas l'exception : les individus choisissent leur éducation (et ce choix est corrélé avec la capacité), les pays choisissent leurs politiques (et ce choix est corrélé avec leurs conditions économiques), les entreprises choisissent leurs prix (et ce choix est corrélé avec les conditions de la demande).

Dans une expérience randomisée, le traitement $X_i$ est assigné par tirage au sort — il est indépendant de $\varepsilon_i$ par construction. Mais les économistes ont rarement le luxe de la randomisation pour les grandes questions. Les méthodes de ce chapitre — MCO, VI, DiD, RD — sont des stratégies pour trouver des « expériences naturelles » qui approximent la randomisation dans les données observationnelles.

9.2 Moindres carrés ordinaires (MCO)

MCO. Minimise la somme des résidus au carré pour estimer la relation linéaire entre $Y$ et $X$.

Pour le modèle multivarié $Y = X\beta + \varepsilon$ (notation matricielle) :

$$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$$ (Eq. 9.2)
Hypothèses de Gauss-Markov. L’ensemble des conditions sous lesquelles l’OLS est le meilleur estimateur linéaire sans biais : (1) linéarité, (2) échantillonnage aléatoire, (3) pas de multicolinéarité parfaite, (4) moyenne conditionnelle nulle ($E[\varepsilon|X] = 0$), et (5) homoscédasticité ($Var(\varepsilon|X) = \sigma^2$).

Sous les hypothèses de Gauss-Markov, les MCO possèdent des propriétés souhaitables :

  1. Linéarité : Le vrai modèle est linéaire en paramètres
  2. Échantillonnage aléatoire : Les observations sont tirées de manière indépendante
  3. Absence de multicolinéarité parfaite : Aucun régresseur n'est une fonction linéaire exacte des autres
  4. Moyenne conditionnelle nulle : $E[\varepsilon|X] = 0$ — l'erreur n'a pas de relation systématique avec les régresseurs
  5. Homoscédasticité : $Var(\varepsilon|X) = \sigma^2$ — la variance de l'erreur est constante
Moyenne conditionnelle nulle. L’hypothèse $E[\varepsilon|X] = 0$ : le terme d’erreur n’a aucune relation systématique avec les régresseurs. C’est l’hypothèse critique pour le caractère sans biais de l’OLS. Lorsqu’elle échoue, l’OLS est biaisé.
BLUE (meilleur estimateur linéaire sans biais). Sous les hypothèses de Gauss-Markov, les MCO ont la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Meilleur » = variance minimale ; « Linéaire » = fonction linéaire de $Y$ ; « Sans biais » = $E[\hat{\beta}] = \beta$.

Sous ces hypothèses, les MCO sont BLUE — le meilleur estimateur linéaire sans biais. « Meilleur » signifie la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Sans biais » signifie $E[\hat{\beta}] = \beta$.

L'hypothèse critique est la n° 4 : $E[\varepsilon|X] = 0$. Lorsqu'elle échoue — en raison de variables omises, de simultanéité ou d'erreur de mesure dans $X$ — les MCO sont biaisés. L'estimation $\hat{\beta}$ ne converge plus vers le vrai $\beta$ même avec des données infinies. Ce n'est pas un problème de petit échantillon — c'est un défaut de conception fondamental que davantage de données ne peuvent corriger.

Figure 9.1 — Explorateur de régression MCO

Un nuage de points avec une droite de régression MCO ajustée. Déplacez le curseur pour ajouter une valeur aberrante à différentes positions verticales et observez la droite de régression basculer. Observez comment un seul point à fort effet de levier peut modifier considérablement la pente, le $R^2$ et les coefficients.

Pas de valeur aberrante Modérée Extrême (Y=25)
OLS: β̂ = 0.00 | Intercept = 0.00 | R² = 0.00

Figure 9.1. Régression MCO avec une valeur aberrante ajustable. La valeur aberrante est placée à $X=14$ (fort effet de levier). Déplacez le curseur au-dessus de « Sans valeur aberrante » pour l'introduire et observer la ligne basculer. Survolez pour les valeurs.

Biais de variable omise

Biais de variable omise. Biais dans l’estimateur OLS causé par l’exclusion d’une variable pertinente corrélée à la fois avec la variable dépendante et un régresseur inclus. La direction et l’amplitude du biais dépendent du signe de l’effet de la variable omise et de sa corrélation avec le régresseur inclus.

Supposons que le vrai modèle soit $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, mais nous omettons $Z$ et estimons $Y = \alpha_0 + \alpha_1 X + e$. Alors :

$$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \frac{Cov(X, Z)}{Var(X)}$$ (Eq. 9.3)

Le biais est égal à l'effet de la variable omise ($\beta_2$) multiplié par l'association entre la variable omise et le régresseur inclus.

Signe du biais :

$Cov(X, Z) > 0$$Cov(X, Z) < 0$
$\beta_2 > 0$Biais vers le haut (surestimation de $\beta_1$)Biais vers le bas
$\beta_2 < 0$Biais vers le basBiais vers le haut
Exemple 9.1 — Rendement de l'éducation

Supposons que la capacité ($Z$) est positivement corrélée avec l'éducation ($X$) et les revenus ($Y$). Alors $\beta_2 > 0$ (la capacité augmente les revenus) et $Cov(X,Z) > 0$ (les personnes plus capables font plus d'études). L'estimation MCO du rendement de l'éducation est biaisée vers le haut — elle attribue une partie de l'effet de la capacité à l'éducation.

Figure 9.2 — Biais de variable omise

Deux panneaux montrent les mêmes données. Gauche : la vraie relation avec le facteur de confusion (capacité) indiqué par la couleur des points. Droite : la régression MCO naïve omettant la capacité. Déplacez le curseur pour modifier la force de la confusion et observer le biais croître.

Pas de confusion (0) Modérée (0,5) Forte (0,95)
True β₁ = 0.50 | Naive OLS β̂ = 0.00 | Bias = 0.00

Gauche : Modèle vrai avec le facteur de confusion (capacité) montré par la couleur. Plus foncé = capacité plus élevée.

Droite : MCO naïf ignorant la capacité. La droite biaisée (rouge pointillé) est plus pentue que l'effet causal réel (bleu).

9.3 Variables instrumentales (VI)

Lorsque les MCO sont biaisés parce que $X$ est endogène ($Cov(X, \varepsilon) \neq 0$), une variable instrumentale peut sauver l'estimation.

Instrument ($Z$). Une variable qui : (1) Pertinence : $Z$ est corrélé avec $X$ ($Cov(Z, X) \neq 0$) ; (2) Restriction d’exclusion : $Z$ affecte $Y$ uniquement par $X$ ($Cov(Z, \varepsilon) = 0$).
Condition de pertinence. L’exigence que l’instrument $Z$ soit suffisamment corrélé avec le régresseur endogène $X$. Un instrument faible (faible corrélation) produit des estimations IV peu fiables avec de grands écarts-types et un biais vers l’OLS. La statistique F du premier étage doit dépasser 10.
Restriction d'exclusion. L’hypothèse que l’instrument $Z$ affecte le résultat $Y$ uniquement par son effet sur le régresseur endogène $X$, pas par un autre canal : $Cov(Z, \varepsilon) = 0$. Cette hypothèse n’est pas directement testable et doit être argumentée théoriquement.
Doubles moindres carrés (2SLS). Une procédure d’estimation IV : (1) régresser $X$ sur $Z$ pour obtenir les valeurs ajustées $\hat{X}$ ; (2) régresser $Y$ sur $\hat{X}$. Le premier étage isole la variation exogène de $X$ ; le second étage utilise uniquement cette variation pour estimer l’effet causal.

Doubles moindres carrés (2SLS) :

Première étape : Régresser $X$ sur $Z$ (et toute variable de contrôle) :

$$X_i = \pi_0 + \pi_1 Z_i + \nu_i$$ (First stage)

Cela isole la partie de $X$ induite par l'instrument — la partie exogène. Les valeurs ajustées $\hat{X}_i$ représentent la variation « propre » de $X$.

Deuxième étape : Régresser $Y$ sur $\hat{X}$. En notation matricielle :

$$\hat{\beta}_{IV} = (Z'X)^{-1}Z'Y$$ (Eq. 9.4)

Dans le cas simple avec un instrument et un régresseur endogène :

$$\hat{\beta}_{IV} = \frac{Cov(Z, Y)}{Cov(Z, X)}$$ (Eq. 9.5)

L'estimation VI est le rapport de la forme réduite (effet de $Z$ sur $Y$) à la première étape (effet de $Z$ sur $X$). L'intuition : $Z$ n'affecte $Y$ qu'à travers $X$ (restriction d'exclusion), donc diviser par la première étape isole l'effet causal de $X$ sur $Y$.

Ce que la VI estime. Avec des effets de traitement hétérogènes, la VI identifie l'effet moyen local du traitement (LATE) — l'effet causal pour la sous-population dont le comportement est modifié par l'instrument (les « conformistes »).

Instruments faibles

Instruments faibles. Instruments avec une faible corrélation avec le régresseur endogène (statistique F du premier étage inférieure à 10). Les instruments faibles rendent l’estimateur IV biaisé vers l’OLS, avec des distributions d’échantillonnage non normales et des intervalles de confiance trompeurs.

Si $Z$ est faiblement corrélé avec $X$, la première étape est faible et l'estimation VI est peu fiable (biaisée vers les MCO, intervalles de confiance larges). Règle empirique : statistique F de la première étape > 10.

Exemple 9.2 — Trimestre de naissance (Angrist & Krueger 1991)

Le trimestre de naissance a été utilisé comme instrument pour les années de scolarité. Les lois sur la scolarité obligatoire signifient que les élèves nés plus tôt dans l'année peuvent abandonner avec légèrement moins d'éducation. Le trimestre de naissance est plausiblement : (a) corrélé avec la scolarité (pertinence), et (b) sans lien direct avec les revenus (exclusion). L'estimation VI du rendement de la scolarité était d'environ 7–8 % par an.

Interactif : DAG des variables instrumentales

Ce graphe acyclique orienté montre la structure causale d'un design avec variable instrumentale. Basculez entre les vues pour voir comment un instrument Z brise le chemin de confusion.

Figure 9.2. DAG pour le design à variables instrumentales. Z est l'instrument, X est le régresseur endogène, Y est le résultat, et U est le facteur de confusion non observé. La stratégie VI n'utilise que la variation de X induite par Z, contournant le chemin de confusion passant par U.

9.4 Différence de différences (DiD)

Différence de différences. Une méthode qui compare les changements dans le temps entre un groupe de traitement et un groupe de contrôle pour estimer l’effet causal d’un traitement.
$$\hat{\tau}_{DiD} = (\bar{Y}_{T,post} - \bar{Y}_{T,pre}) - (\bar{Y}_{C,post} - \bar{Y}_{C,pre})$$ (Eq. 9.6)

La première différence élimine les caractéristiques de groupe invariantes dans le temps. La seconde différence élimine les tendances temporelles communes.

Hypothèse de tendances parallèles. L’hypothèse selon laquelle, en l’absence de traitement, les groupes de traitement et de contrôle auraient connu le même changement de résultats au fil du temps. Les tendances parallèles ne peuvent pas être testées directement pour la période post-traitement mais peuvent être évaluées en vérifiant si les tendances pré-traitement sont similaires.

Hypothèse clé : Tendances parallèles. En l'absence de traitement, les groupes de traitement et de contrôle auraient suivi la même tendance. Cela est non testable pour la période post-traitement mais évaluable pour la période pré-traitement.

Exemple 9.3 — Card & Krueger (1994)

Le New Jersey a augmenté son salaire minimum de 4,25 $ à 5,05 $ en avril 1992 ; la Pennsylvanie non. L'estimation DiD de l'effet sur l'emploi était positive (+2,7 ETP), contredisant la prédiction du modèle concurrentiel simple. Cette étude a déclenché une révolution dans l'économie du travail empirique.

Formulation par régression :

$$Y_{it} = \alpha + \beta_1 \cdot Treat_i + \beta_2 \cdot Post_t + \tau \cdot (Treat_i \times Post_t) + \varepsilon_{it}$$ (Eq. 9.7)

Figure 9.3 — Différence de différences

Deux séries temporelles montrent un groupe de traitement et un groupe de contrôle. Le traitement intervient à $t = 5$. Déplacez le curseur pour modifier la taille de l'effet du traitement et voir comment l'estimation DiD se met à jour. Les tendances parallèles pré-traitement sont visibles.

Négatif (−5) Zéro Important (+10)
DiD estimate: τ̂ = 3.00

Figure 9.3. Design de différence de différences. La ligne pointillée montre le contrefactuel — ce qui serait arrivé au groupe de traitement sans traitement (parallèle au contrôle). L'écart entre les résultats réels et contrefactuels à la fin est l'effet du traitement.

9.5 Régression sur discontinuité (RD)

Régression sur discontinuité. Une méthode qui exploite un seuil net dans une « variable de sélection » qui détermine l’attribution du traitement. Les observations juste au-dessus et en dessous du seuil sont similaires en tous points sauf le traitement — créant une quasi-expérience locale.
Variable de sélection. La variable continue qui détermine l’attribution du traitement dans un design RD. Le traitement est attribué lorsque la variable franchit un seuil. La variable ne doit pas être précisément manipulable par les agents.
Hypothèse de continuité. L’hypothèse que tous les facteurs affectant le résultat (autres que le traitement) varient continûment au seuil. Si cette condition est satisfaite, la discontinuité du résultat au seuil est attribuable uniquement au traitement. Violée lorsque les agents peuvent précisément se positionner autour du seuil.
$$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X = x] - \lim_{x \uparrow c} E[Y|X = x]$$ (Eq. 9.8)

Hypothèse clé : Continuité. Tous les facteurs affectant $Y$ (autres que le traitement) varient continûment au seuil — pas de tri ni de manipulation autour du seuil.

Exemple 9.4 — Bourse au score de 80

Une bourse est attribuée aux étudiants ayant un score supérieur à 80 à un examen. Les étudiants ayant obtenu 79 et 81 ont des capacités similaires, mais l'un obtient la bourse et l'autre non. La discontinuité dans les résultats (par ex., taux d'obtention du diplôme) au seuil de 80 points estime l'effet causal de la bourse.

Figure 9.4 — Régression sur discontinuité

Un nuage de points avec une variable de sélection (score au test). Les étudiants au-dessus du seuil reçoivent le traitement (bourse). Des ajustements polynomiaux de chaque côté révèlent le saut au seuil. Ajustez la position du seuil et la fenêtre pour voir comment l'effet estimé du traitement change.

Bas (30) Milieu (50) Haut (70)
Étroite (5) Moyenne (25) Large (40)
RD estimate: τ̂ = 0.00 | Cutoff = 50 | Bandwidth = 25

Figure 9.4. Régression sur discontinuité. La ligne pointillée verticale marque le seuil. Les points à gauche du seuil ne sont pas traités (gris) ; à droite sont traités (vert). Le saut au seuil est l'estimation de l'effet du traitement. Ajustez la fenêtre pour vous concentrer sur les observations proches du seuil.

9.6 Essais contrôlés randomisés (ECR)

Essai contrôlé randomisé. L’assignation aléatoire du traitement garantit que les groupes de traitement et de contrôle sont identiques en espérance — éliminant la confusion par construction.
$$\hat{\tau}_{RCT} = \bar{Y}_{treatment} - \bar{Y}_{control}$$ (Eq. 9.9)
Validité interne. Le degré auquel une étude estime précisément l’effet causal dans son contexte et échantillon spécifiques. Les menaces comprennent la confusion, le biais de sélection, l’attrition et les erreurs de mesure.
Validité externe. Le degré auquel les résultats d’une étude se généralisent à d’autres populations, contextes ou périodes. Un ECR mené au Kenya rural peut ne pas s’appliquer à l’Inde urbaine. L’extension d’un programme change souvent le contexte.

Les ECR sont la « référence absolue » pour la validité interne car la randomisation garantit $E[\varepsilon|X] = 0$ par construction. Banerjee, Duflo et Kremer ont reçu le prix Nobel 2019 pour leur approche expérimentale de la réduction de la pauvreté mondiale.

Limites des ECR

Intention de traiter (ITT). L’effet moyen du traitement lié au fait d’être assigné au traitement, indépendamment de la conformité. L’ITT est toujours bien identifié dans un ECR car il compare les groupes tels que randomisés. Avec une conformité partielle, l’ITT sous-estime l’effet du traitement reçu.
Effet du traitement sur les traités (TOT). L’effet causal moyen de recevoir effectivement le traitement (parmi les conformistes). Estimé par $TOT = ITT / \text{taux de conformité}$. Le TOT répond à : « Quel est l’effet pour ceux qui ont réellement suivi le traitement ? » mais nécessite des hypothèses plus fortes que l’ITT.
Puissance statistique. La probabilité qu’une étude rejette correctement une hypothèse nulle fausse (détecte un vrai effet). La puissance dépend de la taille de l’effet, de la taille de l’échantillon et de la variance. Cible standard : puissance de 80 %.
Exemple 9.5 — ECR avec conformité partielle

Un programme de formation professionnelle assigne aléatoirement 500 individus au groupe de traitement et 500 au groupe de contrôle. Seuls 60 % des personnes assignées au traitement participent effectivement au programme (taux de conformité = 0,6).

Résultats : Revenus moyens : groupe de traitement = 25 000 $, groupe de contrôle = 23 000 $.

ITT : $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$. C'est l'effet d'être invité au programme.

TOT : $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$. Ceci estime l'effet de participer effectivement au programme (pour les conformistes). Le TOT est plus élevé car l'ITT est dilué par les non-conformistes.

Vérification de puissance : Avec $n = 500$ par groupe, $\sigma = \\$1{,}000$, et un effet réel de $\\$1{,}000$, la puissance $\approx 0.80$. L'étude est suffisamment puissante pour détecter l'ITT.

Figure 9.5 — Calculateur de puissance ECR

La puissance statistique est la probabilité de détecter un vrai effet de traitement. Utilisez les curseurs pour explorer comment la taille de l'effet, la taille de l'échantillon et la variance affectent la puissance. La courbe de puissance se met à jour en temps réel, et l'effet minimum détectable (MDE) à 80 % de puissance est mis en évidence.

Petit (0,05) Moyen (0,50) Grand (1,50)
10 250 500
Faible (0,5) Moyen (1,0) Élevé (3,0)
Power: 0.00 | MDE at 80% power: 0.00

Figure 9.5. Courbe de puissance : probabilité de détecter l'effet en fonction de la taille de l'effet. La ligne pointillée rouge marque 80 % de puissance. Le losange vert marque la combinaison de paramètres actuelle. Le MDE est le plus petit effet détectable à 80 % de puissance étant donné la taille de l'échantillon et la variance.

9.7 Erreurs types et inférence

Une estimation ponctuelle sans mesure d'incertitude est quasiment inutile.

$$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$$ (Eq. 9.10)

Les erreurs types (SE) sont les racines carrées des éléments diagonaux. Un intervalle de confiance à 95 % est approximativement $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.

Significativité statistique : On rejette $H_0: \beta = 0$ au seuil de 5 % si $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.

Significativité économique vs significativité statistique : Un coefficient peut être statistiquement significatif mais économiquement trivial. Inversement, une estimation imprécise peut être économiquement importante mais statistiquement non significative. Un bon travail empirique discute les deux.

Menaces à l'inférence valide

Une règle pratique : En économie appliquée moderne, utilisez toujours des erreurs types robustes ou clustérisées.

9.8 Menaces à la validité

Chaque stratégie empirique a des hypothèses qui peuvent échouer :

StratégieHypothèse cléMenaceDiagnostic
OLSPas de variables omises ($E[\varepsilon|X]=0$)ConfusionThéorie + analyse de sensibilité
IVRestriction d'exclusionEffet direct de $Z$ sur $Y$Non testable directement ; argumenter théoriquement
IVPertinenceInstruments faiblesF de la première étape > 10
DiDTendances parallèlesTendances pré-traitement différentiellesTracer les tendances pré-traitement
RDPas de manipulation au seuilTri autour du seuilTest de densité de McCrary
RCTPas d'attrition, pas de débordementAbandon différentiel ; contaminationTests d'équilibre, analyse d'attrition

Fil d'exemple : La République de Kaelani

Un économiste souhaite estimer l'effet de la nouvelle politique éducative de Kaelani (manuels gratuits pour les classes 1 à 6) sur les résultats aux examens. La politique a été mise en œuvre dans les provinces orientales en 2024 mais pas dans les provinces occidentales.

Design : Différence de différences.

Avant la politique (2023)Après la politique (2025)Variation
Est (traitement)5563+8
Ouest (contrôle)5256+4
Estimation DiD+4

L'estimation DiD est de 4 points. Les manuels gratuits ont augmenté les résultats aux examens de 4 points, après contrôle de la tendance commune à la hausse.

Menaces : (1) Tendances parallèles : Les provinces orientales s'amélioraient-elles déjà plus vite ? (2) Effets de débordement : Les familles près de la frontière envoyaient-elles leurs enfants dans les écoles orientales ? (3) Changements de composition : Les manuels gratuits ont-ils modifié les inscriptions ?

Une approche complémentaire : la régression sur discontinuité à la frontière provinciale, comparant les villages juste de chaque côté.

Résumé

Équations clés

LibelléÉquationDescription
Éq. 9.1$Y_i = \alpha + \beta X_i + \varepsilon_i$Équation structurelle
Éq. 9.2$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$Estimateur MCO
Éq. 9.3$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$Formule du biais de variable omise
Éq. 9.5$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$Estimateur VI (simple)
Éq. 9.6$\hat{\tau}_{DiD}$ = (changement traité) − (changement contrôle)Estimateur DiD
Éq. 9.7$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$Régression DiD
Éq. 9.8$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$Estimateur RD
Éq. 9.9$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$Estimateur ECR
Éq. 9.10$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$Variance MCO

Exercices

Pratique

  1. Supposez que vous régressiez les salaires sur les années d'éducation par MCO et que vous estimiez un coefficient de 0,10 (chaque année d'éducation est associée à des salaires 10 % plus élevés). Citez deux variables omises qui pourraient biaiser cette estimation et prédisez la direction du biais pour chacune.
  2. Une étude VI utilise la « distance au collège le plus proche » comme instrument pour les années de scolarité. (a) Argumentez pour la pertinence. (b) Quelle est la restriction d'exclusion, et qu'est-ce qui pourrait la violer ?
  3. Deux villes sont comparées avant et après que la ville A ait instauré une taxe sur les sodas. Avant la taxe, la consommation de sodas dans la ville A était de 100 canettes/personne et de 90 dans la ville B. Après la taxe, la consommation est de 80 dans A et de 85 dans B. Calculez l'estimation DiD. Quelle est l'hypothèse de tendances parallèles ici ?
  4. Un programme de bourses admet les étudiants ayant une MPC ≥ 3,5. Vous disposez de données sur les étudiants ayant une MPC entre 3,0 et 4,0. (a) Décrivez le design RD. (b) Quelle est la variable de sélection ? (c) Quelle hypothèse doit être vérifiée concernant le comportement des étudiants près du seuil ?

Application

  1. Un gouvernement randomise l'accès à un programme de formation professionnelle. 60 % de ceux à qui le programme est proposé y participent effectivement. L'estimation de l'intention de traiter est une augmentation de 500 $ des revenus. Quelle est l'estimation de l'effet du traitement sur les traités ? Quelle hypothèse est nécessaire, et quel est le lien avec la VI ?
  2. Un économiste affirme que la démocratie cause la croissance économique, citant des corrélations entre pays. Critiquez cette affirmation en utilisant le cadre de ce chapitre. Quelle stratégie d'identification spécifique proposeriez-vous ?
  3. Une étude DiD estime l'effet d'une réglementation environnementale. Les tendances pré-traitement montrent que la pollution du groupe de traitement diminuait déjà plus vite que celle du groupe de contrôle. Comment cela viole-t-il les tendances parallèles ? Dans quelle direction l'estimation DiD est-elle biaisée ?

Défi

  1. Dérivez l'estimateur MCO $\hat{\beta} = (X'X)^{-1}X'Y$ en minimisant $S(\beta) = (Y - X\beta)'(Y - X\beta)$. Montrez que la condition du premier ordre donne les équations normales $X'X\hat{\beta} = X'Y$.
  2. Montrez algébriquement que lorsque l'instrument $Z$ est binaire, l'estimateur VI se réduit à l'estimateur de Wald : $\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$.
  3. Discutez la « révolution de la crédibilité » en économie (Angrist et Pischke, 2010). Qu'est-ce qui a changé entre l'économétrie structurelle et le travail empirique basé sur le design ? Quels sont les forces et les limites de chaque approche ?