Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
para
Análisis Econométrico de la Sección Transversal y
Datos de Panel,
segunda edición
Por Jeffrey M. Wooldridge
2011
La prensa MIT
© 2011 Instituto de Tecnología de Massachusetts
Todos los derechos reservados. Ninguna parte de este libro puede ser
reproducida en cualquier forma o por cualquier medio electrónico o mecánico
(incluyendo el fotocopiado, de grabación o de almacenamiento y recuperación
de información) sin permiso por escrito del editor.
Contenido
Prefacio. ............................................................................................................................. 2
Soluciones de problemas del Capítulo 2 ...................................................................... 4
Soluciones de problemas del Capítulo 3 ............................................................... …11
Soluciones de problemas del Capítulo 4 ....................................................................15
Soluciones de problemas del Capítulo 5 ....................................................................38
Soluciones de problemas del Capítulo 6 ....................................................................57
Soluciones de problemas del Capítulo 7 ....................................................................80
Soluciones de problemas del Capítulo 8 ................................................................. 104
Soluciones de problemas del Capítulo 9 ................................................................. 126
Soluciones de problemas del Capítulo 10 ............................................................... 151
Soluciones de problemas del Capítulo 11 ............................................................... 207
Soluciones de problemas del Capítulo 12 ............................................................... 242
Soluciones de problemas del Capítulo 13 ............................................................... 270
Soluciones de problemas del Capítulo 14 ............................................................... 295
Soluciones de problemas del Capítulo 15 ............................................................... 304
Soluciones de problemas del Capítulo 16 ............................................................... 341
Soluciones de problemas del Capítulo 17 ............................................................... 358
Soluciones de problemas del Capítulo 18 ............................................................... 406
Soluciones de problemas del Capítulo 19 ............................................................... 445
Soluciones de problemas del Capítulo 20 ............................................................... 465
Soluciones de problemas del Capítulo 21 ............................................................... 484
Soluciones de problemas del Capítulo 22 ............................................................... 538
1
Prefacio
Este manual contiene las soluciones a todos los problemas en la segunda
edición de mi libro MIT de prensa, Análisis econométrico de la sección transversal y
datos del panel. Además de problemas impresos en el texto, he incluido algunos
"problemas de bonificación" junto con sus soluciones. Varios de estos
problemas los dejé debido a restricciones de espacio y otros ocurrieron desde
que el libro fue publicado. Tengo una colección de otros problemas, con
soluciones, que han utilizado en los últimos 10 años para conjuntos de
problemas, exámenes para llevar a casa, y en los exámenes de la clase. Soy feliz
de proporcionar esto a los instructores que han adoptado el libro para un
curso.
Resolví los ejemplos empíricos usando varias versiones de Stata, desde 8.0
hasta 11.0. He incluido los comandos Stata y la salida directamente en el texto.
Sin duda hay usuarios de Stata y usuarios de otros paquetes de software que, al
menos en algunos casos, verán más formas eficientes o más elegantes de
calcular estimaciones y estadísticas de prueba.
Algunas de las soluciones son bastante largas. Además de completar todo o
la mayoría de los pasos algebraicos he tratado de ofrecer comentarios sobre
por qué un problema en particular es interesante, por qué resolvió el problema
de la manera que lo hice, o qué conclusiones cambiarían si variáramos algunas
de las suposiciones. Varios de los problemas ofrecen lo que parecen ser
soluciones novedosas para situaciones que pueden surgir en el trabajo
empírico real. Mi avance en el acabado de este manual se vio frenado por un
problema de salud en primavera y verano de 2010. Afortunadamente, varios
estudiantes de posgrado vinieron en mi ayuda. Me gustaría agradecer a Do
Won Kwak, Cuicui Lu, Myoung-Jin Keay, Shenwu Sheng, Iraj Rahmani y
Monthien Satimanon por su asistencia competente. Apreciaría aprender sobre
2
cualquier error en las soluciones y también recibir sugerencias sobre cómo
hacer que las respuestas sean más transparentes.
Por supuesto que con gusto entretendré sugerencias sobre cómo se puede
mejorar el texto, también. Me pueden contactar por correo electrónico a
wooldri1@msu.edu.
3
Soluciones a los problemas del Capítulo 2
𝜕 𝐸( 𝑦|𝑥1 . 𝑥2 )
= 𝛽1 + 𝛽4 𝑥2
𝜕𝑥1
Y
𝜕 𝐸( 𝑦|𝑥1 . 𝑥2 )
= 𝛽2 + 2𝛽3 𝑥2 + 𝛽4 𝑥1
𝜕𝑥2
c. Todo lo que podemos decir sobre Var(𝑢|𝑥1 𝑥2 ) es que no es negativo para todo 𝑥1 y 𝑥2 :
Si, por ejemplo, 𝛿1 > 0 y 𝛿2 < 0, el efecto marginal eventualmente será negativo para 𝑥 lo
suficiente arriba µ. (Si los valores de 𝑥 tales que 𝜕E( 𝑦|𝑥)/𝜕𝑥 < 0 representa un interesante
segmento de la población con un asunto diferente).
c. Una forma de hacer esta parte es aplicar la propiedad LP.5 del apéndice 2A. Tenemos
= 𝛿0 + 𝛿1 (𝑥 − µ) + 𝛿2 (𝛾0 + 𝛾1 𝑥).
𝐿(𝑦|𝑥) = (𝛿0 − 𝛿1 𝑢 + 𝛿2 𝑦0 ) + 𝛿1 𝑥
4
2.3. a. 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝑢. Donde 𝑢 tiene una media cero dado 𝑥1 𝑦 𝑥2 :
𝐸(𝑢|𝑥1 . 𝑥2 ) = 0. No podemos decir nada más sobre 𝑢.
Pero luego la proyección lineal de 𝑥1 𝑥2 sobre (1, 𝑥1 , 𝑥2 ) es idénticamente cero. Ahora solo
una la ley de proyecciones iteradas (Propiedad LP.5 en el apéndice 2A):
= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝐿(𝑥1 𝑥2 |1, 𝑥1 𝑥2 )
= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2
d. Ecuación (2.47) es más útil porque nos permite calcular los efectos parciales de 𝑥1 y 𝑥2 a
cualquier valor de 𝑥1 y 𝑥2 . Bajo los supuestos que hemos hecho, la proyección lineal en
(2.48) tiene como coeficientes dependiente en 𝑥1 y 𝑥2 los efectos parciales en la población
valores promedio de 𝑥1 y 𝑥2 - cero en ambos casos – pero no nos permite obtener los
efectos parciales en cualquier otro valor de 𝑥1 y 𝑥2 . Por cierto, las principales conclusiones
de este problema se cumplen si permitimos que 𝑥1 y 𝑥2 tengan medios de población
distintos de cero.
E(𝑢|𝑥, 𝑣) = 𝛿0 + 𝑥𝛿 + 𝜌1 𝑣
Una forma de hacerlo es usar LP.7 en el apéndice 2A. Y en particular, la ecuación (2.56).
5
Esto dice que (𝛿0 , 𝛿 ′ )′ se puede obtener proyectando primero (1,x) sobre 𝑣 y obtener la
población residual r . Luego proyecte 𝑢 en r, ahora desde 𝑣 tiene media cero y no esta
correlacionado con x, la proyección del primer paso no hace nada: r = (1, 𝑥). Por lo tanto
la proyección 𝑢 en 𝑟 es solo una proyección sobre (1, 𝑥).
Como 𝑢 tiene cero media y no está correlacionado con x, esta proyección es idénticamente
cero lo que significa que 𝛿0 = 0 𝑦 𝛿 = 0.
2.5. Por definición y las suposiciones medias condicional cero Var(𝑢1 |x,𝑧) = Var(𝑦|x.z)
Y Var(𝑢2 |x) = Var(y|x). Por suposición, estos son constantes y necesariamente iguales a
𝜎12 ≡ Var(𝑢1 ) y 𝜎22 ≡ Var (𝑢2 ), respectivamente, Entonces la propiedad CV.4 implica
que 𝜎22 ≥ 𝜎12 .
Esta simple conclusión significa que cuando las varianzas de error son constantes, la
varianza del error disminuye a medida que se condicionan más variables explicativas.
Por lo tanto, los parámetros en la proyección lineal de 𝑞 sobre (1,x) son lo mismo que la
proyección lineal de 𝑞 ∗ sobre (1, x). Este hecho es útil para estudiar ecuaciones con error
de medición en las variables explicadas o explicativas.
= [𝑞 ∗ − L(𝑞 ∗ |1,x) + 𝑒 = 𝑟 ∗ + 𝑒.
𝑦 = 𝑔(𝑥) + 𝑧𝛽 + 𝑢
𝐸(𝑢|x,z) = 0
6
𝐸(𝑦|x) = g(x) + [𝐸(z|x)]𝛽
𝑦 − E(𝑦|x) = [z - E(z|x)]𝛽 + 𝑢
𝑦̃ = 𝑧̃ 𝛽 + 𝑢
Porque 𝑧̃ es una función de (x,z), E(𝑢|𝑧̃ ) = 0 [ya que E(𝑢|x,z) = 0], y entonces
E(𝑦̃|𝑧̃ ) = 𝑧̃ 𝛽 .
En el caso donde E(𝑦|𝑥) y los elementos de E(𝑧|𝑥) se aproximan como funciones lineales
de un conjunto común de funciones, por ejemplo {ℎ1 (𝑥) … ℎ𝑄 (𝑥)}, la participación es
equivalente a estimar un modelo lineal
por MCO.
Resulta que
7
𝜕𝐸(𝑦|𝑥) 𝜕𝑔(𝑥) 𝜕𝑎(𝑥)
= exp[𝑔(𝑥)] 𝑎(𝑥) + exp[𝑔(𝑥)]
𝜕𝑥𝑗 𝜕𝑥𝑗 𝜕𝑥𝑗
𝜕𝑔(𝑥) 𝜕𝑎(𝑥) 1
= 𝐸(𝑦|𝑥) + 𝐸(𝑦|𝑥) .
𝜕𝑥𝑗 𝜕𝑥𝑗 𝑎(𝑥)
Por lo tanto.
Podemos estableces esta relación de manera más simple asumiendo E(y|x)>0 para todo x
usando la ecuación (2.10).
𝜕g(x) 𝜕g(𝑥)
= ⋅ 𝑥𝑗
𝜕log(𝑥𝑗 ) 𝜕𝑥𝑗
que, comparada con la definición basada en E(𝑦𝑢|𝑥), omite la elasticidad de a(x) con
respecto a 𝑥𝑗 .
Por lo tanto,
8
Ahora condicionar sólo en s y uso reiterado expectativas:
Por lo tanto,
=|{E[µ1 (x)|𝑠 = 1] − E[µ0 (x)|𝑠 = 1]} + {E[µ0 (x)|𝑠 = 1)] − E[µ0 (x)|𝑠 = 0]}
E(𝑦|𝑠 = 1)E(𝑦|𝑠 = 0) = [E(x|𝑠 = 1)𝛽1 -E(x|𝑠 = 1)𝛽0 ] + [E(x|𝑠 = 1)𝛽0 - E[x|𝑠 = 0)𝛽0 ]
La segunda parte es debido a una diferencia en los medios de las covariables de las dos
subpoblaciones - donde aplicamos los coeficientes de regresión de la s = 0 subpoblación.
Si, por ejemplo, las dos funciones de regresión son los mismos - es decir, 𝛽1 − 𝛽0-
entonces cualquier diferencia en la subpoblación significa E(y|𝑠 = 0) y E(y|𝑠 = 1) se
debe a una diferencia en los promedios de las covariables a través de las subpoblaciones.
9
En muchas aplicaciones, las dos piezas en E(y|𝑠 = 1) − E(y|𝑠 = 0) están presentes. Por
cierto, el enfoque en este problema no es la única manera interesante para descomponer
E(y|𝑠 = 1) − E(y|𝑠 = 0). Véase, por ejemplo, TE Elder, JH Goddeeris, y SJ Haider,
“brechas inexplicables y Oaxaca-Blinder Descomposiciones,” Economía del Trabajo de
2010.
10
Soluciones a los problemas del Capítulo 3
3.1. Para probar el Lema 3.1, hay que demostrar que para todos ε > 0, existe bε < ∞ y un
número entero Nε tal que P[|𝑥𝑁 | ≥ 𝛽𝜀 ] < 𝜀, todo N ≥ Nε. Usamos el siguiente hecho:
𝑝
desde 𝑥𝑁 → 𝑎, para cualquier ε > 0 existe un Nε número entero tal que P[|𝑥𝑁 − 𝑎| >
1] < 𝜀 para todo N ≥ Nε. [La existencia de Nε se implica por definición 3.3 (1).
Pero |𝑥𝑁 | = |𝑥𝑁 − 𝑎 + 𝑎| ≤ |𝑥𝑁 − 𝑎| + |𝑎| (Por la desigualdad triangular), y así |𝑥𝑁 | −
|𝑎| ≤ |𝑥𝑁 − 𝑎|. De ello se desprende que P[|𝑥𝑁 | − |𝑎|>1]≤ 𝑃[|𝑥𝑁 | − |𝑎| > 1] .
Por lo tanto, en la Definición 3.3 (3) podemos tomar bε ≡ |a|+1 (independientemente del
valor de ε) y luego la existencia de Nε sigue de Definición 3.3 (1).
𝑝
3.3. Esto se deduce de inmediato del Lema 3.1, porque g(x𝑁 ) → g(𝑐).
3.4. Ambas partes se siguen del teorema de la aplicación continua y propiedades básicas de
la distribución normal.
𝑎
b. Por el CLT, √𝑁(𝑦̅𝑁 − µ) ~ Normal (0, 𝜎 2 ), y también 𝐴𝑉𝑎𝑟[√𝑁(𝑦̅𝑁 − µ)] = 𝜎 2 .
11
Como era de esperar, esto coincide con la variación real de 𝑦̅𝑁 .
𝑁
Por lo general, el estimador no sesgado de 𝜎 2 es utilizado: 𝜎̂ 2 = (𝑁 − 1) −1 ∑ 𝑖=1
(𝑦𝑖 −
𝑦̅𝑁 ) 2 , y a continuación, 𝜎̂ es el positivo square raíz. El error estándar asintótico de𝑦̅𝑁 es
simplemente √𝑁.
3.6. De la definición 3.4, nosotros necesitar a espectáculo que para cualquier 0 ≤ 𝑐 < 1/2,
𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑜𝑝 (1).
Pero
𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑁 [𝑐−(1/2)] √𝑁(𝜃̂ 𝑁 − 𝜃) = 𝑁 [𝑐−(1/2)] ⋅ 𝑂𝑝 (1).
Porque 𝑐 < 1/2, 𝑁 [𝑐−(1/2)] = 𝑜(1) y ademá𝑠 𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑜(1) ⋅ 𝑂𝑝 (1).
3.7.a. Para 𝜃 > 0 el logaritmo natural es una función continua, y así
plim[log(𝜃̂)] = log[plim(𝜃̂)] = log(𝜃) = 𝛾
e. Debido 𝛾 𝑙𝑜𝑔(𝜃), la hipótesis nula de interés puede también ser declarado como 𝐻0 ∶
𝛾 = 0 . El estadístico 𝑡 basado en 𝛾̂ es aproximadamente 1. 39 /(.5) = 2.78. Esto
conduce a un fuerte rechazo de 𝐻0 , mientras que el estadístico t basado en ̂𝜃 es, a lo sumo,
12
marginalmente significativa. La lección es que, mediante la prueba de Wald, podemos
cambiar el resultado de las pruebas de hipótesis mediante el uso de transformaciones no
lineales.
3.8 a. Esto se sigue por el teorema de Slutsky desde la función 𝑔(𝜃1 , 𝜃2 ) ≡ 𝜃1 /𝜃2 es
continua en todos los puntos en ℝ2 donde 𝜃2 ≠ 0: 𝑝𝑙𝑖𝑚(𝜃̂1 /𝜃̂2 ) = [𝑝𝑙𝑖𝑚(𝜃̂1 )/
𝑝𝑙𝑖𝑚(𝜃̂2 )] = 𝜃1 /𝜃2 .
̂ (𝛾̂) = (2,6)[𝐴𝑣𝑎𝑟
𝐴𝑣𝑎𝑟 ̂ (𝜃̂)](2,6)’= 66.4. Tomando el square raíz da se(𝛾̂) ≈ 8. 15.
1
𝑉𝑎𝑟(𝑥𝑁 ) = (𝑁 −2 ) 2 𝑁𝜎 2 = 𝜎 2
𝑉𝑎𝑟(𝑥𝑁 ) 𝜎 2
𝑃[|𝑥𝑁 | ≥ bε] ≤ = 2
𝑏𝜀2 𝑏𝜀
𝑁
3.11. a. Deje |𝑥𝑁 = 𝑁 −1 𝛴𝑖−1 (𝑤𝑖 − µ𝑖 ), así eso
13
𝑁 𝑁
𝑉𝑎𝑟(𝑥𝑁 ) = 𝑁 −1
∑ 𝑉𝑎𝑟(𝑤𝑖 ) ∑ 𝜎𝑖2
𝑖=1 𝑖=1
𝑁
𝑉𝑎𝑟(𝑥𝑁 ) 𝑁 −2 𝛴𝑖−1 𝜎𝑖2
𝑃[|𝑥𝑁 |> ε] ≤ =
𝜀2 𝜀2
b. Si 𝜎𝑖2 < 𝐵 < ∞ para todo i - es decir, la secuencia de las diferencias está delimitada - a
continuación,
𝑁
𝑏
𝑁 −2 ∑ 𝜎𝑖2 ≤ → 0, 𝑁 → ∞
𝑁
𝑖=1
Por lo tanto, de manera uniforme varianzas limitado es suficiente para secuencias INID
para satisfacer el WLLN.
14
Las soluciones a los problemas Capítulo 4
Por lo tanto,
donde x denota todas las variables explicativas. Ahora bien, si u y x son independientes
entonces, 𝐸[exp(𝑢) |𝑥] = 𝐸 [exp(𝑢)] = 𝛿0 por ejemplo. Por lo tanto
15
= exp[(𝛽2(𝑒𝑑𝑢𝑐1 − 𝑒𝑑𝑢𝑐0 )] − 1 = [exp(𝛽2 ∇𝑒𝑑𝑢𝑐 ) − 1.
d. Por el estimado versión de ecuación (4.29), 𝛽̂1 = .199, 𝑠𝑒(𝛽̂ ) = .039, 𝛽̂2 =
.065, y se(𝛽̂2 ) = .006 . Por lo tanto, ̂
𝜃1 = 22.01 y se ( ̂
𝜃1 ) = 4.76. 𝑃ara
̂
𝜃2 𝑤𝑒 𝑠𝑒𝑡 ∆𝑒𝑑𝑢𝑐 = 4. Luego
4.2.a. Para cada 𝑖 que tenemos, por OLS.2, 𝐸(𝑢𝑖 |𝑥) = 0. Por independencia en 𝑖 y
Propiedad CE.5, 𝐸(𝑢𝑖 |𝑋) = 𝐸(𝑢𝑖 |𝑥𝑖 ) porque (𝑢𝑖 , 𝑥𝑖 ) es independiente de las variables
explicativas para todas las demás observaciones. Dejando U ser el 𝑁𝑥1 vector de todos los
errores, esto implica 𝐸(𝑈|𝑋) = 0. Pero 𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑈
Ahora, porque 𝐸(𝑈|𝑋) = 0, 𝑉𝑎𝑟(𝑈|𝑋) = 𝐸(𝑈𝑈 ′ |𝑋) Para los términos diagonales,
𝐸(𝑢𝑖2 |𝑋) = 𝐸(𝑢𝑖2 |𝑥𝑖 ) = 𝜎 2 , dondela ultima igualdad es homocedastica. Para los términos
covariantes, tenemos que mostrar que 𝐸(𝑢𝑖 𝑢ℎ |𝑋) = 0 para todo 𝑖 ≠ ℎ, 𝑖, ℎ = 1, … , 𝑁
De nuevo usando la propiedad CE5. 𝐸(𝑢𝑖 𝑢ℎ |𝑋) = 𝐸(𝑢𝑖 𝑢ℎ |𝑥𝑖 𝑥ℎ ) y 𝐸(𝑢𝑖 |𝑋𝑖 𝑈ℎ 𝑋ℎ ) =
𝐸(𝑢𝑖 |𝑋𝑖 ) = 0. Pero luego 𝐸(𝑢𝑖 |𝑥𝑖 𝑢ℎ 𝑥ℎ ) = 𝐸(𝑢𝑖 |𝑥𝑖 𝑢ℎ 𝑥ℎ )𝑢ℎ = 0. Sigue
inmediatamente por expectativas iteradas de que el acondicionamiento en el conjunto más
pequeño también produce un cero media condicional: 𝐸(𝑢𝑖 𝑢ℎ |𝑥𝑖 𝑥ℎ ) = 0. Esto completa
la prueba
16
Pero, generalmente, los usuales errores estándar no podrían ser validos hasta 𝐸(𝑢|𝑥) − 0
porque 𝐸(𝑢2 |𝑥) que debería ser constante
4.4 Para cada 𝑖, 𝑢̂𝑖 − 𝑦𝑖 − 𝑥𝑖 𝛽̂ − 𝑢𝑖 − 𝑥𝑖 (𝛽̂ − 𝛽), y entonces 𝑢̂𝑖2 − 𝑢𝑖2 − 2𝑢𝑖 𝑥𝑖 (𝛽̂ − 𝛽) +
[𝐸(𝑢2 |𝑥)]2. Ademàs podemos escribir
𝑁 −1 ∑𝑁 ̂ 𝑖2 𝑥𝑖′ 𝑥𝑖 − 𝑁 −1 ∑𝑁
𝑖=1 𝑢
2 ′
𝑖=1 𝑢𝑖 𝑥𝑖 𝑥𝑖 − 2𝑁
−1 ∑𝑁 ̂ ′
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖 +
2
𝑁 −1 ∑𝑁 ̂ ′
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖
omitiendo el “-2”, el segundo término puede ser escrito como la suma de k términos de la
forma ∑𝑁 ̂ ′ ̂
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖 − (𝛽𝑗 − 𝛽𝑖 )𝑁
−1 ∑𝑁 ′
𝑖=1 (𝑢𝑖 𝑥𝑖𝑗 )𝑥𝑖 𝑥𝑖 − 𝑜𝑝 (1). 𝑂𝑝 (1)
𝐸[𝑢𝑖 , 𝑥𝑖𝑗 𝑥𝑖ℎ 𝑥𝑖𝑘 ]‹ ∝ 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑗, ℎ 𝑦 𝑘 (como asumimos). Similarmente, el tercer termino
puede ser escrito como suma de 𝐾 2 terminos de la forma
𝑁
̂𝑗 − 𝛽𝑖 )(𝛽
(𝛽 ̂ℎ − 𝛽𝑘 )𝑁 −1 ∑(𝑥𝑖𝑗 , 𝑥𝑖𝑘 )𝑥𝑖′ 𝑥𝑖 − 𝑜𝑝 (1). 𝑜𝑝 (1). 𝑂𝑝 (1) − 𝑜𝑝 (1)
𝑖=1
𝐸(𝑥 ′ 𝑧) − 0. 𝐸(𝑤 ′ 𝑤) es de bloque diagonal, con bloque superior 𝐸(𝑥 ′ 𝑥) y el bloque bajo
𝐸(𝑧 2 ) Invirtiendo 𝐸(𝑤 ′ 𝑤) y enfocándose en la parte superior kxk.
17
A menos que 𝐸(𝑧 2 |𝑥) es constante, la ecuación 𝑦 = 𝑥𝛽 + 𝑣 generalmente viola la
homocedasticidad asumida OLS.3. Entonces sin suposiciones
𝐸(𝑣 2 𝑥 ′ 𝑥) − 𝜎 2 [𝐸(𝑥 ′ 𝑥)] is.ps.d Para tal fin, dejamos ℎ(𝑥) = 𝐸(𝑧 2 |𝑥) Luego para la ley
de expectativas iteradas, 𝐸(𝑣 2 𝑥 ′ 𝑥) = E[𝐸(𝑢2 |𝑥)𝑥 ′ 𝑥] = 𝑦 2 𝐸[ℎ(𝑥)𝑥 ′ 𝑥] + 𝜎 2 𝐸(𝑥 ′ 𝑥)
4.6 Como no blanco se determina al nacer, no tenemos que preocuparnos por no blanco
siendo determinado simultáneamente con cualquier tipo de variable de respuesta. Error de
medición es ciertamente una posibilidad, ya que un indicador binario para ser caucásico es
una manera muy cruda de medir carrera. Aún así, muchos estudios esperan aislar las
diferencias sistemáticas entre los clasificados como blanco frente a otras razas, en cuyo caso
un indicador binario podría ser un buen proxy. Por supuesto, 18 siempre es posible que las
personas estén mal clasificadas en los datos de la encuesta. Pero un punto importante es
que el error de medición en no blanco no seguiría el supuesto clásico de errores en las
variables. Por ejemplo, si el problema es simplemente registrar la entrada incorrecta,
entonces el indicador verdadero, no blanco, es binario. Luego hay 4 resultados posibles: que
no sea blanco =1 y blanco =1; que no sea blanco =0 y blanco =1; que no sea blanco =1 y blanco =0;
que no sea blanco =0 y blanco =0.
En el primer y ultimo caso no se produce ningun error. Generalmen no tiene sentido
escribir que no sea blanco = que no sea blanco + e , donde e significa cero, error de medición que
es independiente de no blanco *
Probablemente en aplicaciones que buscan estimar un efecto racial, estaríamos más
preocupados sobre variables omitidas. Si bien la raza se determina al nacer, no es
independiente de otros factores que generalmente afectan los resultados económicos y
sociales.
18
Por ejemplo, quisiéramos incluir ingreso familiar y riqueza en una ecuación para evaluar la
discriminación en las solicitudes de préstamos. Si nosotros no puede, y la raza se
correlaciona con el ingreso y la riqueza, luego un intento de probar la discriminación puede
fallar Muchas otras aplicaciones podrían sufrir de endogeneidad causada por variables
omitidas Al mirar las tasas de criminalidad por raza, también necesitamos controlar a la
familia características de fondo.
u 𝛿0 + 𝛿1 hsGPA+𝛿2 SAT+𝛿3 PC + r
Entonces el sesgo es hacia arriba si δ3 es mayor que cero. Esto mide la correlación parcial
entre usted (por ejemplo, ingreso familiar) y PC, y es probable que sea positivo.
c. Si se pueden recopilar datos sobre el ingreso familiar, entonces se puede incluir en la
ecuación. Si el ingreso familiar no está disponible a veces el nivel de educación de los
padres es. Otra posibilidad es usar el valor promedio de la casa en el código postal de cada
estudiante, ya que el código postal a menudo forma parte de los archivos de la escuela. Los
proxys para la calidad de la escuela secundaria pueden ser proporciones entre facultad -
proporción de estudiantes, el gasto por alumno estudiante, salario promedio de maestro,
etc.
19
d. La siguiente sesión de Stata puede usarse para responder esta parte:
En la ecuación donde educ y exper son degradados antes de crear la interacción y los
términos al cuadrado, los coeficientes en educ y exper parecen razonables.
20
Por ejemplo, el coeficiente en educ significa que, en el nivel promedio de experiencia, el
regreso a otro año de educación es de alrededor del 8.4%.
A medida que la experiencia aumenta por encima de su valor promedio, el retorno a
educación también aumenta (en .45 puntos porcentuales por cada año de experiencia por
encima de 11.56).
En el modelo que contiene educ • exper y 𝑒𝑥𝑝𝑒𝑟 2 , el coeficiente de educ es el retorno a
educación cuando exper = 0 − no es un segmento especialmente interesante de la
población, y ciertamente no representativo de los hombres en la muestra. (Observe que el
error estándar de 𝛽̂𝑒𝑑𝑢𝑐 en la segunda regresión es casi tres veces el error estándar en la
primera regresión.
Esta diferencia ilustra que podemos estimar el efecto marginal en los valores promedio de
la covariables mucho más precisamente que en los valores extremos de las covariables).
El coeficiente en exper en la primera regresión es el regreso a otro año de experiencia en los
valores promedio de tanto educ como exper.
Entonces, para un hombre con aproximadamente 13.5 años de educación y 11.6 años de
experiencia, se estima que otro año de experiencia vale aproximadamente 2.2%.
En la segunda regresión, donde educ y exper no se degradan primero, el coeficiente en exper
es el retorno al primer año de experiencia para un hombre sin escolaridad.
Esta no es una parte interesante de población de EE. UU, y en una muestra en la que el
grado completado más bajo es noveno, no tenemos esperanza de estimar tal efecto, de
todos modos.
El negativo, gran coeficiente en exper en la segunda regresión es desconcertante solo
cuando olvidamos lo que realmente estima.
21
Por suposición,
Var(𝑤) = Var(𝑤−1 ), lo que significa que podemos escribir 𝛼1 = Cov(𝑤−1 , 𝑤)/𝜎𝑤−1 𝜎𝑤 ),
donde 𝜎𝑤−1 = 𝑠𝑑(𝑤−1 ) y 𝜎𝑤 = 𝑠𝑑(𝑤). Pero Corr(𝑤−1 , 𝑤) = Cov(𝑤−1 , 𝑤)/𝜎𝑤−1 𝜎𝑤 ),
y dado que un coeficiente de correlación está siempre entre −1 y 1, el resultado sigue.
4.10. Escribe la proyección lineal de 𝑥𝐾∗ en las otras variables explicativas como
𝑥𝐾∗ = 𝛿0 + 𝛿1 𝑥1 + 𝛿2 𝑥2 + ⋯ + 𝛿𝑘−1 𝑥𝑘−1 + 𝑟𝐾∗ . Ahora porque 𝑥𝑘 = 𝑥𝐾∗ + 𝑒𝑘 ,
L(𝑥𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 ) + L(𝑒𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 )
= L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 )
porque 𝑒𝑘 tiene cero media y no está correlacionado con 𝑥1 , … , 𝑥𝐾−1 [y así
L(𝑒𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = 0]. Pero el error de proyección lineal 𝑟𝑘 es
𝑟𝑘 ≡ 𝑥𝑘 − L(𝑥𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = [𝑥𝐾∗ − L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 )] + 𝑒𝑘 = 𝑟𝐾∗ + 𝑒𝑘 .
Ahora podemos usar la fórmula de proyección de dos pasos: el coeficiente de 𝑥𝑘 en
L(𝑦|1, 𝑥1 , … , 𝑥𝐾 ) es el coeficiente en L(𝑦|𝑟𝑘 ), digamos 𝜋1 . Pero
𝜋1 = Cov(𝑟𝑘 , 𝑦)/Var(𝑟𝑘 ) = 𝛽𝑘 Cov(𝑟𝐾∗ , 𝑥𝐾∗ )/Var(𝑟𝑘 )
ya que 𝑒𝑘 no está correlacionado con 𝑥1 , … , 𝑥𝐾−1 , 𝑥𝐾∗ , y v por suposición y 𝑟𝐾∗ no está
correlacionado con 𝑥1 , … , 𝑥𝐾−1 , por definición. Ahora Cov(𝑟𝐾∗ , 𝑥𝐾∗ ) = Var(𝑟𝐾∗ ) y
Var(𝑟𝑘 ) = Var(𝑟𝐾∗ ) + Var(𝑒𝑘 )
[porque Cov(𝑟𝐾∗ , 𝑒𝑘 ) = 0]. Por lo tanto, 𝜋1 viene dada por la ecuación (4.47), que es lo que
queríamos mostrar.
4.11. Aquí hay algunos resultados de Stata obtenidos para responder esta pregunta:
22
a. El retorno estimado a la educación utilizando IQ y KWW como proxies para la
habilidad es de aproximadamente 5%. Cuando no utilizamos proxy, la rentabilidad
estimada fue de aproximadamente 6.5%, y con solo IQ como proxy, fue de
aproximadamente 5.4%. Por lo tanto, tenemos un retorno de la educación aún más bajo,
pero sigue siendo prácticamente no trivial y estadísticamente muy significativo.
b. Podemos ver a partir de las estadísticas t que estas variables van a ser conjuntamente
significativas.
La prueba F verifica esto, con el valor p-value = .0002.
c. La diferencia salarial entre no negros y negros no desaparece. Se estima que los
negros ganan aproximadamente un 13% menos que los no negros, manteniendo otros
factores en la regresión corregida.
d. Agregar los términos de interacción descritos en el problema proporciona los
siguientes resultados:
23
La interacción educkww0 es estadísticamente significativa, y las dos interacciones son
conjuntamente significativas al nivel de significación del 2%. El rendimiento estimado de la
educación en los valores promedio de IQ y KWW (en la población y la muestra,
respectivamente) es algo menor ahora: alrededor del 4,5%. Además, a medida que KWW
aumenta por encima de su media, el retorno a la educación aumenta. Por ejemplo, si KWW
tiene aproximadamente una desviación estándar (7.64) por encima de su media, el retorno a
la educación es de alrededor de .045 + .0022(7.6) = .06172, o alrededor del 6.2%.
Entonces, el "conocimiento del mundo del trabajo" interactúa positivamente con los
niveles de educación.
4.12. Aquí está la salida de Stata cuando se agrega unión a ambas ecuaciones:
24
La historia básica no cambia: inicialmente, se estima que el subsidio esencialmente no tiene
ningún efecto, pero agregar l𝑜𝑔(𝑠𝑐𝑟𝑎𝑝−1 ) otorga al subsidio un fuerte efecto que es
marginalmente estadísticamente significativo. Curiosamente, se estima que las empresas
sindicalizadas tienen mayores tasas de chatarra; más del 25% más en la segunda ecuación.
El efecto es significativo al nivel del 10%.
4.13. a. Usando los 90 condados para 1987 da
25
Las elasticidades del crimen con respecto a las probabilidades de arresto y condena son el
signo que esperamos, y ambos son práctica y estadísticamente significativos.
Las elasticidades con respecto a la probabilidad de cumplir una pena de prisión y la
duración promedio de la sentencia son positivas pero estadísticamente insignificantes.
b. Para agregar la tasa de criminalidad del año anterior, primero generamos el primer
retraso de lcrmrte:
alternativa de dos lados (p-value = .056). No es sorprendente que la elasticidad con respecto
a la tasa de criminalidad rezagada es grande y muy significativa estadísticamente. (La
elasticidad también es estadísticamente menos que la unidad)
26
c. Agregar los registros de las nueve variables salariales da lo siguiente:
Las nueve variables salariales son conjuntamente insignificantes, incluso al nivel del 15%.
Además, las elasticidades
no son consistentemente positivos o negativos Las dos elasticidades más grandes, que
también tienen la mayor estadística absoluta de t, tienen el signo opuesto. Estos son con
respecto a la inconstrucción salarial (-.285) y el salario para los empleados federales (.336).
27
d. El siguiente resultado de Stata da la a la heterosedasidad-robust F estadistica:
Por lo tanto, rechazaríamos el valor nulo en el nivel de significación del 5%. Pero podemos
dudar en confiar en la teoría asintótica, que requiere la prueba de heteroscedasticidad
robusta, con los parámetros N = 90 y K = 15 para estimar. (Esta estadística F robusta a la
heterocedasticidad es la Heterocedasticidad-robusto estadística de Wald dividido por el
número de restricciones que se están probando, que es nueve en este ejemplo. La división
por el número de restricciones convierte la estadística de chi-cuadrado asintótica en una
que se puede tratar como si tuviera aproximadamente una distribución de F.)
4.14. a. Antes de hacer la regresión, es útil conocer algunas estadísticas de resumen para las
variables de interés principal:
Debido a que el puntaje del examen final se ha estandarizado, tiene una media cercana a
cero y es
la desviación estándar es cercana a uno. Los valores no están más cerca de cero y uno,
respectivamente, porque la estandarización se realizó con un conjunto de datos más grande
que incluía estudiantes con valores perdidos en otras variables clave. Podría tener sentido
redefinir el puntaje de prueba estandarizado usando la media y la desviación estándar en la
muestra de 680, pero el efecto debería ser menor.
28
La regresión que controla solo por año en la escuela además de la tasa de asistencia es la
siguiente:
29
Model 153.974309 7 21.9963299
d. El control de 𝑝𝑟𝑖𝐺𝑃𝐴 y 𝐴𝐶𝑇 causa el efecto de segundo año (en relación con los
estudiantes de año tres y más allá) para obtener un poco más grande en magnitud y más
significativo estadísticamente. Estos datos corresponden a un curso impartido en el
segundo trimestre, por lo que cada estudiante de 𝑓𝑟𝑜𝑠ℎ tiene un GPA: su GPA para el
primer semestre en la universidad. La adición de 𝑝𝑟𝑖𝐺𝑃𝐴 en particular causa la "Efecto de
primer año" para esencialmente desaparecer. Esto no es demasiado sorprendente porque el
promedio anterior. El GPA para estudiantes de primer año es notablemente menor que el
promedio general de 𝑝𝑟𝑖𝐺𝑃𝐴.
e. Aquí está la sesión de Stata para agregar cuadrados en las variables proxy. Porque no
estamos interesados en los efectos de los proxies, no los degradamos antes de crear el
cuadrado condiciones:
30
Residual 510.789259 672 .760103064
Total 664.763568 679 .979033237
Stndfnl Coef. Std.Err. t P˃| t [95%Conf. Interval
|
Atndrte .0062317 .0023583 2.64 0.008 .0016011 .0108623
Frosh -.1053368 .1069747 -0.98 0.325 -.3153817 .1047081
Soph -.1807289 .0886354 -2.04 0.042 -.3547647 -.0066932
PriGPA -1.52614 .4739715 -3.22 0.001 -2.456783 -.5954966
ACT -.1124331 .098172 -1.15 0.253 -.3051938 .0803276
priGPAsq .3682176 .0889847 4.14 0.000 .1934961 .5429391
ACTsq .0041821 .0021689 1.93 0.054 -.0000766 .0084408
_cons 1.384812 1.239361 1.12 0.264 -1.048674 3.818298
Agregar los términos al cuadrado – uno de los cuales es muy significativo, el otro es
marginalmente significativo – en realidad aumenta el efecto de la tasa de asistencia. Y lo
hace mientras reduciendo ligeramente el error estándar en 𝑎𝑡𝑛𝑑𝑟𝑡𝑒, lo que resulta en una
estadística 𝑡 que es notablemente mas significativo que en la parte c.
f. No se justifica agregar la tasa de asistencia al cuadrado, ya que es muy insignificante
. 𝑔𝑒𝑛 𝑎𝑡𝑛𝑑𝑟𝑡𝑒𝑠𝑞 = 𝑎𝑡𝑛𝑑𝑟𝑡𝑒^2
. 𝑟𝑒𝑔 𝑠𝑡𝑛𝑑𝑓𝑛𝑙 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 𝑓𝑟𝑜𝑠ℎ 𝑠𝑜𝑝ℎ 𝑝𝑟𝑖𝐺𝑃𝐴 𝐴𝐶𝑇 𝑝𝑟𝑖𝐺𝑃𝐴𝑠𝑞 𝐴𝐶𝑇𝑠𝑞 𝑎𝑡𝑛𝑑𝑟𝑡𝑒𝑠𝑞
Source SS df MS Num. obs = 680
F(8,671) = 25.28
Model 153.975323 8 19.2469154 Prob ˃ F = 0.000
Residual 510.788245 671 .761234344 R-squared = 0.2316
Adj R-squar = 0.2225
Total 664.763568 679 .979033237 Root MSE = .87249
31
son altamente colineales. De hecho, su correlación de muestra se trata 983. Es importante
destacar que el coeficiente 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 ahora tiene una interpretación poco interesante: mide
el efecto parcial de 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 comenzando desde 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 = 0. La tasa de asistencia más
baja en la muestra es 6.25, con la gran mayoría de los estudiantes (94.3%) asistieron al
50% o más de las clases. Si el término cuadrático fue significativo, es posible que desee
centrar 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 sobre su media o mediana antes de crear el cuadrado.O bien, se podría
necesitar una forma funcional más sofisticada. Puede ser mejor definir varios intervalos
para 𝑎𝑡𝑛𝑑𝑟𝑟𝑡𝑒 e incluyen variables ficticias para esos intervalos
b. Esto no tiene sentido cuando vemos 𝐱 𝑖 como un sorteo al azar junto con 𝑦𝑖 . La
declaración Var(𝑢𝑖 ) = 𝜎 2 = Var (𝑦𝑖 ) para todos 𝑖 asume que los regresores son no
aleatorios (o 𝛽 = 0, cual no es un caso muy interesante). Este es otro ejemplo de cómo la
suposición de lo no aleatorio los regresores pueden llevar a conclusiones contradictorias.
Supongamos que un elemento del termino de error, es decir 𝑧, que no está correlacionado
con cada 𝑥𝑗 , de repente se observa. Cuando agregamos 𝑧 a la lista de regresores, el error
cambia, y también lo hace la varianza del error. En la gran mayoría de aplicaciones
económicas, no tiene sentido pensar que tenemos acceso a todo el conjunto de factores que
alguna vez querría controlar, por lo que deberíamos permitir que las variaciones de error
cambien a través de diferentes conjuntos de variables explicativas que podríamos usar para
la misma variable de respuesta.
Evitamos problemas al enfocarnos en distribuciones conjuntas en la población.
32
4.16. a. La prueba es bastante similar a la del muestreo aleatorio. Primero, tome en
𝑝
cuenta las suposiciones 𝑁 −1 ∑𝑁 ´ ´
𝑖=1[𝐱 𝑖 𝐱 𝑖 − E( 𝐱 𝑖 𝐱 𝑖 )] → 0 – que es como se declara la
WLLN para secuencias i.n.i.d y 𝑁 −1 ∑𝑁 ´
𝑖=1 E( 𝐱 𝑖 𝐱 𝑖 ) → 𝑨 − que no es crucial peroes
bastante inofensivo y simplifica la prueba – implica
𝑁 𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 → 𝑨
𝑖=1
𝑁 𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝑢𝑖 → 𝟎
𝑖=1
También se nos da que 𝐀 es positivo definido, lo que significa que 𝐗 ´ 𝐗/𝑁 es invertible con
𝑝
una probabilidad cercana a uno y (𝐗 ´ 𝐗/𝑁) −1 → 𝐀−𝟏 . Por lo tanto,
𝑁 𝑁
̂ ) = 𝛃 + plim [(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 )−1 𝑁 −1 ∑ 𝐱 𝑖´ 𝑢𝑖 ]
plim𝑁→∞ (𝛃
𝑖=1 𝑖=1
𝑁 −1 𝑁
= 𝛃 + 𝐀−1 . 𝟎 = 𝛃
𝑑
b. Porque 𝑁 −1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 → Normal(𝟎, 𝐁), la sequencia 𝑁
−1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 es 𝑂𝑝 (1).
Ya usamos en parte un
𝑁 −1
(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) − 𝐀−1 = 𝑂𝑝 (1)
𝑖=1
33
𝑁 −1 𝑁
̂ − 𝛃) =
√𝑁(𝛃 (𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) (𝑁 −1/2 ∑ 𝐱 𝑖´ 𝑢𝑖 )
𝑖=1 𝑖=1
𝑁 −1 𝑁 𝑁
𝑑
→ Normal(𝟎, 𝐀−1 𝐁𝐀−1 )
𝑑
Donde usamos la suposición 𝑁 −1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 → 𝑁𝑜𝑟𝑚𝑎𝑙(𝟎, 𝑩). La varianza asintótica de
̂ − 𝛃) tiene la forma habitual de sándwich, 𝐀−1 𝐁𝐀−1 .
√𝑁(𝛃
c. Ya sabemos que
𝑁
𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 → 𝐀
𝑖=1
la parte difícil - al igual que con el caso i.i.d – es mostrar que reemplazando el 𝑢𝑖 con
MCO, 𝑢̂𝑖 , no afecta la consistencia. Sin embargo, bajo supuestos generales se sigue
𝑁
𝑝
𝑁 −1
∑ 𝑢̂𝑖2 𝐱 𝑖´ 𝐱 𝑖 → 𝐁
𝑖=1
Naturalmente, podemos usar el mismo ajuste de grados de libertad que en i.i.d. caso:
reemplazar 𝑁 −1 con (𝑁 − 𝐾)−1.
d. El objetivo de este ejercicio es que nos conduzca exactamente a la misma
heterocedasticidad – estimador robusto si suponemos i.i.d obsevaciones o i.n.i.d
observaciones. En particular, incluso si las variaciones incondicionales son constantes - ya
que deben estar en el caso i.i.d – aún podríamos necesitar errores estándares robustos de
34
heterocedasticidad. En el caso i.n.i.d en la sólida matriz de varianza el estimador permite
cambiar las varianzas incondicionales asi como las varianzas condicionales dependen de 𝐱 𝑖
4.17. Sabemos que, en general,
−1 −1
̂ − 𝛃) = [E(𝐱 ´ 𝐱)] E(𝑢2 𝐱 ´ 𝐱)[E(𝐱 ´ 𝐱)]
Avar√𝑁 (𝛃
Ahora solo aplicamos las expectativas iteradas a la matriz en el medio:
Era la opinión que necesitábamos de 𝑢̂𝑖2 para hacer una buena estimación de E(𝑢𝑖2 |𝐱 𝑖 ) que
posiblemente se sostuvo en progreso en las matrices de covarianza consistentes con
heterocedasticidad. Afortunadamente, todo lo que necesitamos estimar consistentemente es
la media de la población
𝐁 = E(𝑢2 𝐱 ´ 𝐱)
Para lo cual el estimador obvio consistente (e imparcial) es
𝑁
𝑁 −1
∑ 𝑢𝑖2 𝐱 𝑖´ 𝐱 𝑖
𝑖=1
̂ conserva ( no
El resto está demostrando que se reemplaza la consistencia implícita 𝛃 con 𝛃
imparcialidad). Como sabemos, esto requiere un algebra complicada con 𝑜𝑝 (1) y 𝑂𝑝 (1),
pero el trabajo no es demasiado oneroso.
35
SOLUCIONES DE PROBLEMAS DEL CAPITULO 5
̂ = (𝛃
5.1. Defina 𝐱1 ≡ (𝐳𝟏 , 𝑦2 ) y 𝑥2 ≡ 𝑣̂2 , y 𝛃 ̂1´ , 𝜌̂1 ) es el estimador MCO (5.52),
Donde 𝛃 ̂1 = (𝛅
̂1´ , 𝛼̂1 ). Usando la sugerencia, 𝛽̂1 también se puede obtener por regresión
particionada:
Pero cuando regresamos 𝐳1 a 𝑣̂2 los residuos son solo 𝐳1 porque 𝑣̂2 es ortogonal en la
muestra a 𝐳. (Más precisión, ∑𝑁 ´
̂𝑖2 = 0). Además, porque podemos escribir 𝑦2 =
𝑖=1 𝐳𝑖1 𝑣
𝑦̂2 + 𝑣̂2 , donde 𝑦̂2 y 𝑣̂2 son ortogonales en la muestra, los residuos de regresión 𝑦2 en 𝑣̂2
son simplemente los primeros valores ajustados de escenario, 𝑦̂2 . En otras palabras, 𝐱̈ 1 =
(𝐳1 , 𝑦̂2 ). Pero el estimador 2MCO de 𝛃1 se obtiene exactamente de la regresión MCO
𝑦1 en 𝐳1 , 𝑦̂2 .
5.2. a. Los factores 𝑛𝑜𝑡 observados que tienden a hacer que un individuo sea más
saludable también tienden a hacer que una persona se ejercite más. Por ejemplo, si la
ℎ𝑒𝑎𝑙𝑡ℎ es una medida cardiovascular, las personas con una historia de los problemas del
corazón son probablemente menos propensos a hacer ejercicio. Factores no observados
como la salud previa o los antecedentes familiares están contenidos en 𝑢1 , por lo que nos
preocupa la correlación entre el 𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒 y 𝑢1 . La autoselección en el ejercicio predice que
los beneficios del ejercicio serán, en promedio, sobreestimado. Idealmente, la cantidad de
ejercicio podría ser aleatorio en una muestra de personas, pero esto puede ser difícil.
b. Si las personas no eligen sistemáticamente la ubicación de sus hogares y trabajos en
relación con clubes de salud basados en características de salud no observadas, entonces es
razonable creer que 𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 y 𝑑𝑖𝑠𝑡𝑤𝑟𝑜𝑘 no están correlacionados con 𝑢1 . Pero la
ubicación de los clubes de salud no es necesariamente exógena. Los clubes pueden tender
a construirse cerca de vecindarios donde los residentes tienen mayores ingresos y riquezas,
en promedio, y estos factores ciertamente pueden afectar la salud general. Puede tener
sentido elegir residentes de barrios con características muy similares, pero donde un
vecindario se encuentra cerca de un club de salud.
c. La forma reducida del 𝑒𝑗𝑒𝑟𝑐𝑖𝑐𝑖𝑜 es
36
Para la identificación necesitamos que al menos uno de 𝜋6 y 𝜋7 sea diferente de cero. Esta
suposición puede fallar si la cantidad de personas no están sistemáticamente relacionadas
con las distancias al club de salud más cercano.
d. Una prueba 𝐹 de 𝐻0 ∶ 𝜋6 = 0 , 𝜋7 = 0 es la forma más sencilla de probar la
suposición de identificación en la parte c. Como de costumbre, sería una buena idea
calcular una versión robusta de heterocedasticidad.
5.3. a. Puede haber factores de salud no observados relacionados con el comportamiento
de fumar que afecta el peso del nacimiento infantil. Por ejemplo, las mujeres que fuman
durante el embarazo pueden, en promedio, beber más café o alcohol, o comer comidas
menos nutritivas.
b. la economía básica dice que los 𝑝𝑎𝑐𝑘𝑠 deben correlacionarse negativamente con el
precio del cigarrillo, aunque la correlación puede ser pequeña (especialmente cuando un
precio se agrega en el estado nivel). A primera vista, parece que el precio debería ser
exógeno en la ecuación (5.54), pero debemos ser un poco cuidadosos. Uno de los
componentes del precio del cigarrillo es el impuesto estatal sobre los cigarrillos. Los
estados que tienen impuestos más bajos sobre los cigarrillos pueden tener una menor
calidad de la atención de la salud, en promedio. La calidad de la atención médica está en 𝑢,
por lo que tal vez el precio del cigarrillo no cumple con los requisitos de exogeneidad para
un IV
c. MCO es seguido por (IV, en este caso):
. 𝑟𝑒𝑔 𝑙𝑏𝑤𝑔ℎ𝑡 𝑚𝑎𝑠𝑐𝑢𝑙. 𝑝𝑎𝑟𝑖𝑑𝑎𝑑 𝑙𝑓𝑎𝑚𝑖𝑛𝑐 𝑝𝑎𝑐𝑘𝑠
37
Packs -.0837281 .0171209 -4.89 0.000 -.1173139 -.0501423
_cons 4.675618 .0218813 213.68 0.000 4.632694 4.718542
38
Modelo 3.76705108 4 .94176277 Prob ˃ F =0.000
Residuos 119.929078 1383 .086716615 R- cuadr =0.0305
Adj R- =0.0276
cuad =.29448
Total 123.696129 1387 .089182501 Root
MSE
39
Reg662 -.0222026 .0282575 -0.79 0.432 -.0776088 .0332036
Reg663 .0259703 .0273644 0.95 0.343 -.0276846 .0796251
Reg664 -.0634942 .0356803 -1.78 0.075 -.1334546 .0064662
Reg665 .0094551 .0361174 0.26 0.794 -.0613623 .0802725
Reg666 .0219476 .0400984 0.55 0.584 -.0566755 .1005708
Reg667 -.0005887 .0393793 -0.01 0.988 -.077802 .0766245
Reg668 -.1750058 .0463394 -3.78 0.000 -.265866 -.0841456
Smsa66 .0262417 .0194477 1.35 0.177 -.0118905 .0643739
_cons 4.739377 .0715282 66.26 0.000 4.599127 4.879626
40
El coeficiente importante está en 𝑛𝑒𝑎𝑟𝑐4 . Estadísticamente, 𝑒𝑑𝑢𝑐 y 𝑛𝑒𝑎𝑟𝑐4 estan
parcialmente correlacionados, y de una manera que tiene sentido: manteniendo fijos otros
factores en la forma reducida , alguien que vive cerca de una universidad de 4 años a los 16
años tiene, en promedio, casi un tercio al año más educación que una persona que no está
cerca de una universidad de 4 años a los 16. Esto no es un efecto trivial, por lo que 𝑛𝑒𝑎𝑟𝑐4
pasa el requisito de que esta parcialmente correlacionado con 𝑒𝑑𝑢𝑐.
c. estas son las estimaciones IV:
𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑒𝑥𝑝𝑒𝑟𝑠𝑞 𝑏𝑙𝑎𝑐𝑘 𝑠𝑜𝑢𝑡ℎ 𝑠𝑚𝑠𝑎 𝑟𝑒𝑔661 − 𝑟𝑒𝑔668 𝑠𝑚𝑠𝑎66 (𝑒𝑑𝑢
= 𝑛𝑒𝑎𝑟𝑐4
Regresión de variables instrumentales (2SLS):
Fuente SS df MS Num. =3010
Obs
Modelo 141.146813 15 9.40978752 F(15,2994) =51.01
Prob ˃F =0.0000
Residual 451.494832 2994 .150799877 R- cuad =0.2382
Adj. R- =0.343
cuad
Total 592.641645 3009 .196956346 Root MSE =.38833
41
de poco valor. Pero el retorno estimado a la educación es mayor con IV, algo que parece
un poco contradictorio.
Una posible explicación es que 𝑒𝑑𝑢𝑐 sufre de errores de variables clásicos. Por lo tanto,
mientras que MCO tendería a sobreestimar el retorno a la educación debido a la
“capacidad” omitida el error de medición clásico en 𝑒𝑑𝑢𝑐 conduce a un sesgo de
atenuación. El error de medición puede ayudar a explicar por qué la estimación IV es más
grande, pero no es del todo convincente. Parece poco probable que 𝑒𝑑𝑢𝑐 satisfaga las
suposiciones de CEV. Por ejemplo, si pensamos que el error se debe al truncamiento – se
pregunta a las personas sobre el grado más alto completado, no los años reales de
escolaridad – entonces 𝑒𝑑𝑢𝑐 siempre es menor o igual que 𝑒𝑑𝑢𝑐 ∗ .y el error de medición
no podria ser independiente de 𝑒𝑑𝑢𝑐 ∗ . Si pensamos que la mala medición se debe a que no
se observa la calidad de la educación, parece probable que la calidad de la escolaridad –
parte del error de medición – se correlacione positivamente con la cantidad real de
escolaridad. Esto también viola las suposiciones de CEV.
Otra posibilidad para la estimación IV mucho más alta proviene de la literatura reciente
sobre el efecto del tratamiento, que se trata en la Sección 21.4. Por supuesto, también
debemos recordar que las estimaciones puntuales – particularmente la estimación IV –
están sujetas a una variación sustancial del muestreo. En este punto, ni siquiera sabemos si
MCO e IV son estadísticamente diferentes entre sí. Vea el problema 6.1
d. Cuando se agrega 𝑛𝑒𝑎𝑟𝑐2 a la forma reducida de 𝑒𝑑𝑢𝑐 tiene un coeficiente (error
estándar) de .123 (.077), en comparación con .321 (.089) para 𝑛𝑒𝑎𝑟𝑐4 . Por lo
tanto, 𝑛𝑒𝑎𝑟𝑐4n tiene una relación ceteris paribus mucho más fuerte con 𝑒𝑑𝑢𝑐; 𝑛𝑒𝑎𝑟𝑐2 es
solo marginalmente estadísticamente significativo una vez que se ha incluido 𝑛𝑒𝑎𝑟𝑐4. La
prueba conjunta 𝐹 da 𝐹 = 7.89 con 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = .004
La estimación 2SLS del retorno a la educación se convierte en alrededor del 15.7%, con CI
del 95% dado por 5.4% al 26%. El CI sigue siendo muy amplio.
5.5. Bajo la hipótesis nula de que 𝑞 y 𝐳2 no están correlacionados, 𝐳1 y 𝐳2 son exógenos
en (5.5) porque cada uno no está correlacionado con 𝑢1 . Desafortunadamente, 𝑦2 se
correlaciona con 𝑢1 , por lo que la regresión de 𝑦1 en 𝐳1 , 𝑦2 , 𝐳2 no produce un estimador
consistente de 0 en 𝐳2 incluso cuando E(𝐳2´ 𝑞) = 0. Podríamos encontrar que ѱ ̂ 1 de esta
regresión es estadísticamente diferente de 0 incluso cuando 𝑞 y 𝐳𝟐 no están
correlacionados – en cuyo caso concluiríamos erróneamente que 𝐳𝟐 no es un candidato
valido para IV. O bien, podríamos no rechazar 𝐻0 : ѱ1 = 0 cuando 𝐳𝟐 y 𝑞 están
correlacionados – en cuyo caso concluimos incorrectamente que los elementos en 𝐳𝟐 son
válidos como instrumentos
El objetivo de este ejercicio es que uno no puede simplemente agregar candidatos variables
instrumentales en la ecuación estructural y luego probar la significancia de estas variables
usando la estimación MCO.
42
Este es el sentido en el cual la identificación no puede ser probada: no podemos probar si
todos los candidatos IV no están correlacionados con 𝑞. Con una sola variable endógena,
debemos considerar que al menos un elemento de 𝐳𝟐 no está correlacionado con 𝑞.
𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜂1 𝑞1 + 𝑣 − 𝜂1 𝑎1
(5.56)
Donde 𝜂1 = (1 /𝛿1 ) . Ahora, como los 𝑧ℎ son redundantes en (5.45), no están
correlacionados con el error estructural, 𝑣 (por definición de redundancia). Además, hemos
supuesto que los 𝑧ℎ no están correlacionados con 𝑎1 . Como cada 𝑥𝑗 tampoco está
correlacionado con 𝑣 − 𝜂1 𝑎1 podemos estimar (5.56) por 2SLS usando los instrumentos
(1, 𝑥1 , … , 𝑥𝑘 , 𝑧1 , 𝑧2 , … , 𝑧𝑚 )para obtener consistencia de 𝛽𝑗 y 𝜂1 .
Dadas todas las suposiciones de correlación cero, lo que necesitamos para la identificación
es que al menos una de las 𝑧ℎ aparece en la forma reducida para 𝑞1 . Más formalmente en la
proyección lineal
𝑞1 = 𝜋0 + 𝜋1 𝑥1 + ⋯ + 𝜋𝐾 𝑥𝐾 + 𝜋𝐾+1 𝑧1 + ⋯ + 𝜋𝐾+𝑀 𝑧𝑀 + 𝑟1,
43
Al menos uno de 𝜋𝐾+1 , … , 𝜋𝐾+𝑀 debe ser diferente de cero.
b. Necesitamos que las variables de antecedentes familiares sean redundantes en la
ecuación 𝑙𝑜𝑔(𝑤𝑎𝑔𝑒) una vez que se haya controlado la capacidad (y otros factores, como
𝑒𝑑𝑢𝑐 y 𝑒𝑥𝑝𝑒𝑟 ). La idea aquí es que los antecedentes familiares puedan influir en la
capacidad, pero no deberían tener un efecto parcial en 𝑙𝑜𝑔(𝑤𝑎𝑔𝑒) una vez que se haya
tenido en cuenta la habilidad. Para que la condición de rango se mantenga, necesitamos que
las variables de antecedentes familiares se correlacionen con el indicador, 𝑞1 decir 𝐼𝑄, una
vez que 𝑥𝑗 se ha eliminado. Es probable que esto sea cierto si pensamos que los
antecedentes familiares y la capacidad están (parcialmente) correlacionados.
c. Al aplicar el procedimiento al conjunto de datos en NLS80.RAW da los siguientes
resultados:
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑑𝑢𝑐 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏 𝑏𝑙𝑎𝑐𝑘 (𝑖𝑞
= 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐 𝑠𝑖𝑏𝑠)
Regresión de variables instrumentales (2SLS)
Fuente SS df MS Núm. Obs =722
F(8, 713) 25.81
Modelo 19.6029198 8 2.45036497 Prob ˃ F =0.0000
Instrumentado: Iq
Instrumentos: exper tendencia educ casado sur urban black meduc feduc sibs
44
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑑𝑢𝑐 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏𝑎𝑛 𝑏𝑙𝑎𝑐𝑘 (𝑘𝑤𝑤
= 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐)
A pesar de que hay 935 hombres en la muestra, solo se usan 722 para la estimación porque
faltan datos en 𝑚𝑒𝑑𝑢𝑐 y 𝑓𝑒𝑑𝑢𝑐.
Se estima que el rendimiento de la educación es pequeño e insignificante, ya sea que se
utilice como indicador el 𝐼𝑄 o 𝐾𝑊𝑊. Esto podría deberse a que las variables de fondo
familiar no satisfacen la condición de redundancia adecuada, o podrían correlacionarse con
𝑎1 . ( en ambas regresiones de la primera etapa, el estadístico 𝐹 para la significación
conjunta de 𝑚𝑒𝑑𝑢𝑐,𝑓𝑒𝑑𝑢𝑐 y 𝑠𝑖𝑏𝑠 tiene valores 𝑝 por debajo de .002, por lo que parece
que las variables de antecedentes familiares tienen alguna correlación parcial con los
indicadores de capacidad.)
5.8. a. Conecte el indicador 𝑞1 para 𝑞 y la medida 𝑥𝐾 para 𝑥𝐾∗ , asegurándose de realizar
un seguimiento de los errores:
𝑦 = 𝛾0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝐾 𝑥𝐾 + 𝛾1 𝑞1 + 𝑣 − 𝛽𝐾 𝑒𝐾 + 𝛾1 𝑎1
≡ 𝛾0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝐾 𝑥𝐾 + 𝛾1 𝑞1 + 𝑢
Donde 𝛾1 = (1/𝛿1 ) Ahora, si las variables 𝑧1 , …, 𝑧𝑀 son redundantes en la ecuación
estructural ( entonces no están correlacionados con 𝑣), y no están correlacionados con el
error de medición 𝑒𝐾 y el error del indicador 𝑎1 podemos usarlo como IV para 𝑥𝐾 y 𝑞1 en
45
2SLS. Necesitamos 𝑀 ≥ 2 porque tenemos dos variables explicativas, 𝑥𝑞 y 𝑞1 , que
posiblemente estén correlacionadas con el error compuesto 𝑢.
b. Los resultados de stata son:
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏𝑎𝑛 𝑏𝑙𝑎𝑐𝑘 (𝑒𝑑𝑢𝑐 𝑖𝑞
= 𝑘𝑤𝑤 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐)
Regresión de variables instrumentales (2SLS)
Fuente SS df MS Num.obs =722
Modelo -.29542999 8 -.03692874 F (8, 713) =18.74
Prob ˃F =0.000
Residuos 127.107346 713 .178271172 R-cuadr =
Total 126.811916 721 .175883378 Adj.R-cuad =
Root MSE =.42222
46
Donde 𝑡𝑜𝑡𝑐𝑜𝑙𝑙 = 𝑡𝑤𝑜𝑦𝑟 + 𝑓𝑜𝑢𝑟𝑦𝑟. Ahora, simplemente calcule la última ecuación por
2SLS usando 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 , 𝑑𝑖𝑠𝑡2𝑦𝑟 y 𝑑𝑖𝑠𝑡4𝑦𝑟 como el conjunto completo de
instrumentos. Podemos usar la estadística 𝑡 en 𝜃̂4 para la prueba 𝐻0 : 𝜃4 > 0.
5.10.a. Para 𝛽̂1, el elemento de la mano derecha inferior en la formula general (5.24)
con 𝐱 = (1, 𝑥) y 𝐳 = (1, 𝑧)es:
𝜎 2 [Cov(𝑧, 𝑥)2 / Var(𝑧)]
Alternativamente puede derivar esta fórmula directamente escribiendo:
𝑁 𝑁
2
Ahora, 𝜌𝑧𝑥 = [Cov(𝑧, 𝑥)]2 /(𝜎𝑧2 𝜎𝑥2 ) , por lo que él algebra simple muestra que la varianza
asintótica es 𝜎 2 /(𝜌𝑧𝑥
2 2
𝜎𝑥 ). La varianza asintótica para el estimador MCO es 𝜎 2 / 𝜎𝑥2 . Por lo
2
tanto, la diferencia es la presencia de 𝜌𝑧𝑥 en el denominador de la varianza asintótica IV.
b. Naturalmente, a medida que aumenta la varianza del error 𝜎 2 también aumenta la
varianza asintótica del estimador IV. Mayor varianza en 𝑥 en l población es mejor para
estimar 𝛽1 : a medida que 𝜎𝑥2 aumenta la varianza asintótica disminuye. Estos efectos son
idénticos a los hallazgos de MCO. Una correlación mayor entre 𝑧 y 𝑥 reduce la varianza
asintótica del estimador IV. Como 𝜌𝑧𝑥 → 0 la varianza asintótica aumenta sin límite. Esto
ilustra por qué un instrumento que solo esta débilmente correlacionado con 𝑥 puede
conducir a estimadores IV muy imprecisos.
5.11. Siguiendo la sugerencia, deje que 𝑦20 sea la proyección lineal de 𝑦2 en 𝐳2 , deje que
𝑎2 sea el error de proyección, y suponga que 𝜆2 es conocido. (Los resultados sobre los
regresores generados en la Seccion 6.1.1 muestran que el argumento se traslada al caso
cuando 𝜆2 es estimado). Conectar en 𝑦2 = 𝑦20 + 𝑎2 da
𝑦1 = 𝐳1 𝛿1 + 𝛼1 𝑦20 + 𝛼1 𝑎2 + 𝑢1
Efectivamente, regresamos 𝑦1 en 𝐳1 ,𝑦20 . La condición de consistencia clave es que cada
explicación es ortogonal al error compuesto, 𝛼1 𝑎2 + 𝑢1 . Por supuesto, E(𝐳1´ 𝑢1 ) = 0 .
Además , E(𝑦20 𝑎2 ) = 0 ppor construcción. El problema es que, en general E(𝐳1´ 𝑎2 ) ≠ 0
porque 𝐳1 no se incluyo en la proyección lineal para 𝑦2 . Por lo tanto, MCO será
inconsistente para todos los parámetros en general. Compare esta conclusión con 2SLS
cuando𝑦2∗ es la proyección en 𝐳1 y 𝐳2 :
𝑦2 = 𝑦2∗ + 𝑟2 = 𝐳𝛑2 + 𝑟2
E(𝐳 ´ 𝑟2 ) = 0
47
𝑦1 = 𝐳1 𝛅1 + 𝛼1 𝑦2∗ + 𝛼1 𝑟2 + 𝑢1
𝛽̂1 = (∑𝑁 𝑁
𝑖=1(𝑧𝑖 − 𝑧) (𝑦𝑖 − 𝑦)/(∑𝑗=1(𝑧𝑖 − 𝑧) (𝑥𝑖 − 𝑥))
𝑁 𝑁
= ∑𝑖=1 𝑧𝑖 (𝑦𝑖 − 𝑦)/ ∑𝑖=1 𝑧𝑖 (𝑥𝑖 − 𝑥))
∑𝑁 𝑁 𝑁
𝑖=1 𝑧𝑖 (𝑦𝑖 − 𝑦) = ∑𝑖=1 𝑧𝑖 𝑦𝑖 − (∑𝑗=1 𝑧𝑖 )𝑦 = 𝑁1 𝑦1 − 𝑁1 𝑦 = 𝑁1 (𝑦1 − 𝑦)
𝑁0 𝑁1
𝑦=( ) 𝑦0 + ( )𝑦
𝑁 𝑁
𝑁 − 𝑁1 𝑁0 𝑁0
𝑦1 − 𝑦 = [ ] 𝑦 − ( ) 𝑦0 = ( ) (𝑦1 − 𝑦0 )
𝑁 𝑁 𝑁
48
de personas que participan que no son elegible. (Cuando la elegibilidad es necesaria para la
participación, 𝑥0 = 0.) En general, 𝑥1 − 𝑥0 es el diferencia en las tasas de participación
cuando z 1 yz 0. Entonces la diferencia en la respuesta media entre los grupos z 1 y z
0 se divide por la diferencia en las tasas de participación en los dos grupos
Porque 𝐿(u|z) = 0
b. Po la ley de proyecciones iteradas,
𝐿 (y|1, 𝑥1 … . . , 𝑥𝑘−1 , 𝑥∗𝑘 ) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 + 𝛽𝑘 𝑥∗𝑘
49
b. Supongamos que 𝐾1 = 2 𝑦 𝐿1 = 2, donde 𝑧1 aparece en la forma reducida de 𝑥1 y
𝑥2 , pero 𝑧2 aparece en ninguna forma reducida. Entonces la matriz 2 2 tiene ceros en su
segunda fila, lo que significa que la segunda fila de п es todo ceros. En ese caso, no puede
tener rango K. Intuitivamente, mientras comenzamos con dos instrumentos, solo uno de
ellos resultó ser parcialmente correlacionado con 𝑥1 y 𝑥2 ,
п11 0
п = (п 𝐼𝐾2 )
12
Vemos que si п11 es diagonal con todas las diagonales distintas de cero, entonces п es
triangular inferior con todos elementos diagonales distintos de cero. Por lo tanto, rango
п = 𝑘.
𝜎2𝑢[𝐸(𝑤∗`𝑥∗]−1
Tiene la misma forma como OLS pero con 𝑥 ∗ reemplazando x. Entonces cualquier algebra
derivado por OLS pues ser aplicado para 2SL2
b. Podemos escribir 𝑣 = 𝑢 − hγ
Entonces si 𝐸 = (g ′ v) = E(g ′ u) − E(g ′ h)γ = 0
c. Para que la sugerencia aquí sea completamente correcta, debería haber indicado que
𝐸(𝑤) = 0 Como lo haremos ver, cuando w tiene una media distinta de cero, 𝑟̅ difiere de
w * por una constante aditiva [que, por supuesto, implica 𝑉𝑎𝑟(𝑟̅ ) = 𝑉𝑎𝑟 (𝑤 ∗)
50
Donde 𝜎𝑢2 = 𝑉𝑎𝑟 (𝑣), 𝑟̅ es la población residual de la regresión w̆ en 1, h, y 𝑤
̅ son la
valores ajustados de población a partir de la proyección lineal de w on g, h.
Porque E(g ′ h) = 0, podemos escribir
𝑤
̅ = g𝜋1 + h𝜋2
Siguiente 𝐿 ( 𝑤
̅|1, h) = 𝐿 ( g𝜋1 + h𝜋2|1, h) = 𝐿 ( g|1, h)𝜋1 + h𝜋2
= 𝐿 ( g|1)𝜋1 + h𝜋2
= −𝑛1 + 𝑤 ∗
𝜎𝑢2 𝜎𝑣2
𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) − 𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) = −
𝑉𝑎𝑟 (𝑤 ∗ ) 𝑉𝑎𝑟 (𝑤 ∗ )
γ′ ∑ hγ
= 𝑉𝑎𝑟 (𝑤 ∗ ) ≥ 0
51
Soluciones al Capítulo 6 Problemas
6.1. a. Aquí se abrevia la salida de Stata para probar la hipótesis nula de que educ es
exógena
. use card . qui reg educ nearc4 nearc2 exper expersq black south smsa reg661-reg668
smsa66
.predict v2hat, resid . reg lwage educ exper expersq black south smsa reg661-reg668 smsa66
v2hat
52
diferentes. Segundo. Para probar la restricción de indentificación simple, obtenemos los
residuos 2SLS:
. qui reg lwage educ exper expersq black south smsa reg661-reg668 smsa66 (nearc4 nearc2
exper expersq black south smsa reg661-reg668 smsa66) . predict uhat1, resid
. qui reg u1hat exper expersq black south smsa reg661-reg668 smsa66 nearc4 nearc2
. di e(r2) .00041467 . di 3010*e(r2) 1.2481535 . di chiprob(1,3010*e(r2)) .26390545
6.2. Primero obtenemos los residuales de forma reducida, 𝑣21 y 𝑣22 , para educ y IQ,
respectivamente.
La salida de regresión está suprimida:
. qui reg educ exper tenure married south urban black kww meduc feduc sibs . predict
v21hat, resid (213 missing values generated)
. qui reg iq exper tenure married south urban black kww meduc feduc sibs . predict v22hat,
resid (213 missing values generated)
. qui reg lwage exper tenure married south urban black educ iq v21hat v22hat . test v21hat
v22hat ( 1) v21hat 0 ( 2) v22hat 0
6.3. a. Necesitamos precios para satisfacer dos requisitos. Primero, las calorías y las
proteínas deben ser parcialmente correlacionadas con los precios de los alimentos. Si bien
esto es fácil de probar por separado, al estimar el dos formas reducidas, la condición de
rango aún podría ser violada. (El problema 5.15c contiene una condición suficiente para
mantener la condición de rango). Además, también debemos suponer que los precios son
exógenos en la ecuación de productividad. Idealmente, los precios varían debido a cosas
como costos de transporte que no están sistemáticamente relacionados con las variaciones
regionales en el individuo productividad. Un problema potencial es que los precios reflejan
la calidad de los alimentos y las características de alimentos que no sean calorías y proteínas
aparecen en la perturbación 𝑢1 .
53
b. Como hay dos variables explicativas endógenas, necesitamos al menos dos precios.
c.. Primero estimaríamos las dos formas reducidas de calorías y proteínas mediante
regresión cada uno sobre una constante, exper, exper2, educ, y los precios M, 𝑝1, , ..., 𝑝𝑀 ,
obtenemos los residuales, 𝑣21 , 𝑣22 . Luego ejecutaríamos el log de regresiónproduc en
1, exper, exper2, educ, 𝑣21 , 𝑣22 y hacer una prueba de significación conjunta en 𝑣21 , 𝑣22 .
Podríamos usar una prueba F estándar o usar una prueba resistente a la heterocedasticidad
Por lo tanto, 𝑉𝑎𝑟( v|x) = 𝑉𝑎𝑟( q|x) + 𝑉𝑎𝑟( v|x) = 𝜎𝑞2 + 𝜎𝑣2 , , por lo que γ es
condicionalmente homoscedástico Pero si 𝐸( γ|𝑥) = 𝑥γ y 𝑉𝑎𝑟( y|x) son constantes, se
realizará una prueba de heterocedasticidad, siempre tendrá una distribución de chi-
cuadrado limitante. No tendrá poder para detectar variables omitidas.
b. Desde 𝐸( 𝑢2 |𝐱) = 𝑉𝑎𝑟( 𝑢|𝐱) + [𝐸( 𝑢|𝐱)]2 𝑦 𝑉𝑎𝑟( 𝑢|𝐱x) es constante, 𝐸( 𝑢2 |𝐱) es
constante si y solo si[𝐸( 𝑢|𝐱)]2 es constante. Si 𝐸( u|𝐱) ≠ 𝐸(𝑢) luego 𝐸( u|𝐱) no es
constante, entonces [𝐸( 𝑢|𝐱)]2 generalmente será una función de x. Entonces 𝐸( 𝑢2 |𝐱)
depende de x, lo que significa que 𝑢2 puede estar correlacionado con funciones de x,
digamos h(x). Se deduce que las pruebas de regresión de la forma (6.36) pueden tener, al
menos en algunos casos, detectar "heteroscedasticidad". (Si el objetivo es determinar
cuando se requiere inferencia robusta de heterocedasticidad, las pruebas basadas en
regresión hacen lo correcto)
54
1
𝑁 − 2 ∑𝑁 ̂ 2 − 𝜎 2 ) = 𝑂𝑝 (1) • 𝑜𝑝 (1). Por lo tanto, hasta ahora tenemos
𝑖=1(𝐡𝑖 − 𝛍ℎ )′(𝜎
1 1
𝑁 − 2 ∑𝑁 ′
̂ 2 ) = 𝑁 − 2 ∑𝑁
̂ 𝑖2 − 𝛔
𝑖=1 𝐡𝑖 (𝑢 ̂ 𝑖2 − 𝜎̂ 2 ) + 𝑜𝑝 (1).
𝑖=1(𝐡𝑖 − 𝜇ℎ )′(𝑢
55
′
𝜂2 [𝑁 −1 ∑𝑁 ̅ ̅
𝑖=1(𝐡𝑖 − 𝐡) (𝐡𝑖 − 𝐡)],
̂ 𝑖2 − 𝜎̂ 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )] en
d. Sin suposición (6.37) necesitamos estimar E[(𝑢
general. Afortunadamente, el enfoque es ahora bastante claro. Reemplazamos el valor
esperado de la población con el promedio de la muestra y reemplazamos cualquier
parámetro desconocido - 𝛽, 𝜎 2 y 𝛍ℎ en este caso - con sus estimadores consistentes (bajo
1
𝐻0 ). Entonces, un estimador generalmente consistente de Avar (𝑁 −2 ∑𝑁 ′
̂ 𝑖2 − σ
𝑖=1 𝐡𝑖 (𝑢 ̂2 ) )
es
𝑁
𝑁 −1
∑(𝑢̂𝑖2 − 𝜎̂ 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ ),
𝑖=1
. predict lwageh
(option xb assumed; fitted values)
56
. gen uhatsq uhat^2
Esta regresión sugiere un fuerte vínculo entre el precio de la vivienda y la distancia desde el
incinerador (a medida que aumenta la distancia, también lo hace el precio de la vivienda). La
elasticidad es .365 y la estadística t es 5.55. Sin embargo, esta no es una buena regresión causal: para
empezar, el incinerador se pudo haber puesto cerca de hogares con valores más bajos. Si es así,
esperaríamos la relación positiva encontrada en la regresión simple, incluso si el nuevo incinerador
no tuviera ningún efecto en los precios de la vivienda.
b. El parámetro 𝛿3 debe ser positivo: una vez construido el incinerador, una casa debería valer
relativamente más cuanto más lejos esté del incinerador. Aquí está la sesión de Stata:
57
El coeficiente en 𝑙𝑑𝑖𝑠𝑡 revela la deficiencia de la regresión en la parte a. Este coeficiente mide la
relación entre 𝑙𝑝𝑟𝑖𝑐𝑒 y 𝑙𝑑𝑖𝑠𝑡 en 1978, incluso antes de que el incinerador se rumoreara. El efecto
del incinerador viene dado por el coeficiente de interacción, 𝑦81𝑙𝑑𝑖𝑠𝑡. Si bien la dirección del
efecto es la esperada, no es especialmente grande, y de todos modos es estadísticamente
insignificante. Por lo tanto, en este punto, no podemos rechazar la hipótesis nula de que la
construcción del incinerador no tuvo ningún efecto en los precios de la vivienda.
c. Agregar las variables enumeradas en el problema da
El efecto del incinerador es ahora más grande (la elasticidad es de aproximadamente .062) y el
estadístico 𝑡 es más grande, pero el valor 𝑝 para el término de interacción sigue siendo bastante
grande, .214. Contra una alternativa unilateral, el valor 𝑝 es .107, por lo que es casi significativo al
nivel del 10%. Aún así, utilizando estos dos años de datos y controlando los factores enumerados,
la evidencia de que los precios de la vivienda se vieron afectados negativamente por el nuevo
incinerador es algo débil.
6.8. a. La siguiente es mi sesión de Stata:
58
El cálculo indica que una mujer con aproximadamente ocho años más de educación tiene
aproximadamente un hijo menos (obtenida de .128(8) = 1.024), otros factores corregidos. El
coeficiente es estadísticamente significativo. Además, ha habido un descenso secular notable en la
fertilidad durante este período: en promedio, con otros factores mantenidos fijos, una mujer en
1984 tenía alrededor de medio hijo menos (.545) que una mujer similar en 1972, el año base. El
efecto también es estadísticamente significativo con el valor de 𝑝 = .002.
59
La prueba 𝐹 conjunta muestra que 𝑒𝑑𝑢𝑐 se correlaciona significativamente de forma parcial con
𝑚𝑒𝑑𝑢𝑐 y 𝑓𝑒𝑑𝑢𝑐; las estadísticas 𝑡 también muestran esto claramente. Si hacemos que la prueba sea
robusta a la heterocedasticidad de forma desconocida, la estadística 𝐹 cae a 131,37 pero el valor 𝑝
todavía es de cero a cuatro lugares decimales.
Para probar el nulo que 𝑒𝑑𝑢𝑐 es exógeno, necesitamos reducir los residuos de forma y luego
incluirlos en la regresión MCO. Yo suprimo la salida aquí:
60
La estadística 𝑡 en 𝑣2ℎ𝑎𝑡 es .702, por lo que hay poca evidencia de que 𝑒𝑑𝑢𝑐 sea endógeno en la
ecuación. Aún así, podemos ver si 2SLS produce estimaciones muy diferentes:
61
El coeficiente estimado en 𝑒𝑑𝑢𝑐 es de mayor magnitud que antes, pero la prueba de endogeneidad
muestra que podemos atribuir razonablemente la diferencia entre MCO y 2SLS al error de
muestreo.
c. Como hay poca evidencia de que 𝑒𝑑𝑢𝑐 sea endógeno, podríamos simplemente usar MCO. Lo
hice en ambos sentidos. Primero, acabo de agregar interacciones 𝑦74 • 𝑒𝑑𝑢𝑐, 𝑦76 •
𝑒𝑑𝑢𝑐, . . . , 𝑦84 • 𝑒𝑑𝑢𝑐 al modelo en la parte a y usé MCO. Algunas de las interacciones,
particularmente en los últimos dos años, son marginalmente significativas y negativas, mostrando
que el efecto de la educación se ha fortalecido con el tiempo. Pero la prueba 𝐹 conjunta para los
términos de interacción arroja un 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = .180, por lo que no rechazamos el modelo sin las
interacciones. Aun así, la posibilidad de que el vínculo entre la fertilidad y la educación se haya
fortalecido con el tiempo merece atención, especialmente si se utilizan datos más recientes.
Para estimar el modelo completo por 2SLS, obtuve instrumentos interactuando con los dummies
de todos los años tanto con 𝑚𝑒𝑑𝑢𝑐 como con 𝑓𝑒𝑑𝑢𝑐. El comando Stata es entonces
Cualitativamente, los resultados son similares a las estimaciones MCO. El valor 𝑝 para la prueba 𝐹
conjunta sobre las interacciones es .205 - nuevamente, esto tiene justificación asintótica bajo la
62
Asunción 2SLS.3, la suposición de homoscedasticidad - así que de nuevo no hay evidencia fuerte
que favorezca la inclusión de las interacciones entre las variables dicotómicas y la educación.
63
El coeficiente en el término de interacción, .192, es notablemente similar al de Kentucky.
Desafortunadamente, debido a las muchas observaciones menos, la estadística 𝑡 es
insignificante al nivel del 10% frente a una alternativa unilateral. La teoría asintótica
aproximadamente predice que el error estándar para Michigan será aproximadamente
(5,626/1,524)1/2 ≈ 1.92 más grande que el de Kentucky (asumiendo la misma varianza
de error y la misma fracción de observaciones en los diferentes grupos). De hecho, la
proporción de errores estándar es de aproximadamente 2.23. La precisión de la diferencia
en los casos de KY e IM muestra la importancia de un tamaño de muestra grande para este
tipo de análisis de políticas.
64
Avar[√𝑁(𝛼̂1 − 𝛼1 )] = Avar[√𝑁(𝛼̃1 − 𝛼1 )] + 𝛽32 Avar[√𝑁(𝑥̅2 − 𝜇2 )]
Donde 𝜎22 = Var(𝑥2 ). Por lo tanto, según la convención introducida en la Sección 3.5,
escribimos
𝜎2
Avar(𝛼̂1 ) = Avar(𝐶) + 𝛽32 ( 𝑁2 ),
65
a. El retorno a otro año de educación aumentó aproximadamente .0185, o 1.85 puntos
porcentuales, entre 1978 y 1985. La estadística 𝑡 sobre 𝑦85𝑒𝑑𝑢𝑐 es 1.97, que es
marginalmente significativa al nivel de 5% frente a una alternativa de dos lados.
b. El coeficiente en 𝑦85𝑓𝑒𝑚 es positivo y muestra que la brecha de género estimada
disminuyó en aproximadamente 8.5 puntos porcentuales. Todavía es muy grande, con la
diferencia de género en 𝑙𝑤𝑎𝑔𝑒 en 1985 estimada en aproximadamente -.232. La estadística
𝑡 en 𝑦85𝑓𝑒𝑚 solo es significativa a aproximadamente el nivel del 10% frente a una
alternativa de dos lados. Aún así, esto sugiere un cierto cierre de las diferencias salariales
entre mujeres y hombres a niveles dados de educación y experiencia laboral.
c. Solo el coeficiente en 𝑦85 cambia si los salarios se miden en dólares de 1978. De
hecho, puede verificar que cuando se utilizan los salarios de 1978, el coeficiente en 𝑦85 sea
de aproximadamente −.383 = .118 − log(1.65) ≈ .118 − .501.
Para responder a esta pregunta, simplemente tomé los residuales de MCO al cuadrado y
regresé aquellos en el dummy del año, y85. El coeficiente es aproximadamente .042 con un
error estándar de aproximadamente .022, lo que da una estadística t de aproximadamente
1.91. Entonces, hay alguna evidencia de que la varianza de la parte no explicada de los
salarios de registro (o incluso de los salarios reales) ha aumentado con el tiempo.
e. Como la ecuación está escrita en el problema, el coeficiente 𝛿0 es el crecimiento en los
salarios nominales para un hombre sin años de educación. Para un hombre con 12 años de
educación, queremos 𝜃0 ≡ 𝛿0 + 12𝛿1 .
Muchos paquetes tienen comandos simples que entregan errores estándar y pruebas para
combinaciones lineales. Pero una forma general de obtener el error estándar para
𝜃̂0 ≡ 𝛿̂0 + 12𝛿̂1 es reemplazar 𝑦85 • 𝑒𝑑𝑢𝑐 con 𝑦85 • (𝑒𝑑𝑢𝑐 − 12) y volver a estimar la
ecuación. El álgebra simple muestra que, en la nueva ecuación, 𝜃0 es el coeficiente de
𝑒𝑑𝑢𝑐. En Stata tenemos
66
Entonces, el crecimiento en los salarios nominales para un hombre con 𝑒𝑑𝑢𝑐 = 12 es de
aproximadamente .339, o 33.9%. [Podríamos usar la estimación más precisa, .404, obtenida
de exp(. 339) − 1 = .404]. El intervalo de confianza del 95% va de aproximadamente
27.3 a 40.6.
Los usuarios de Stata pueden verificar que el comando
𝑁
̂ 𝑀𝐶𝑂 − 𝛃) = 𝐀−1 (𝑁 −1/2 ∑ 𝐱 𝑖′ 𝑢𝑖 ) + 𝑜𝑝 (1)
√𝑁(𝛃
𝑖=1
67
y entonces si E(𝑢𝑖 |𝐳) = 0 entonces E(𝑣2 |𝐳) = 0, también.
6.14. a. Primero, 𝑦2 es una función de (𝐳, 𝑣2 ), y así, de la ecuación estructural,
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + E(𝑢1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + E(𝑢1 |𝑣2 ),
Donde
E(𝑢1 |𝐳, 𝑣2 ) = E(𝑢1 |𝑣2 )
sigue porque E(𝑢1 , 𝑣2 ) es independiente de 𝐳. (Tenga en cuenta que, en general, no es
suficiente suponer que 𝑢1 y 𝑣2 son independientes de 𝐳; se necesita independencia
conjunta).
b. E(𝑢1 , 𝑣2 ) = 𝜌1 𝑣2 entonces, bajo los supuestos previos,
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + 𝜌1 𝑣2
Por lo tanto, en el primer paso, ejecutaremos MCO de 𝑦𝑖2 en 𝐳𝑖 , 𝑖 = 1, . . . , 𝑁, y
obtendremos los residuales de MCO, 𝑣̂𝑖2. En el segundo paso, retrocederíamos 𝑦𝑖1 en
𝐳𝑖1 , 𝐠(𝑦𝑖2 ), 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁. Según los resultados habituales de la estimación en dos pasos,
todos los coeficientes son √𝑁 constantes y asintóticamente normales para el parámetro de
población correspondiente. Lo interesante de este método es que, si 𝐺1 > 1 tenemos más
de una variable explicativa endógena 𝑔1 (𝑦1 ), … , 𝑔𝐺1 (𝑦2 ) pero al agregar un único regresor,
𝑣̂𝑖2 , se limpia la endogeneidad. Esto ocurre porque todos los regresores endógenos son una
función de 𝑦2 , y hemos supuesto que 𝑦2 es una función aditiva de 𝐳 y un error
independiente, lo que prácticamente restringe a 𝑦2 para que sea continua. (Podemos
reemplazar fácilmente la función lineal 𝐳𝛑2 con funciones no lineales conocidas de 𝐳).
Como ejemplos específicos, la regresión de la segunda etapa podría ser
2 3
𝑦𝑖1 o 𝐳𝑖1 , 𝑦𝑖2 , 𝑦𝑖2 , 𝑦𝑖2 , 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁
o
𝑦𝑖1 o 𝐳𝑖1 , 1[𝑎1 < 𝑦𝑖2 ≤ 𝑎2 ], … ,1[𝑎𝑚−1 < 𝑦𝑖2 ≤ 𝑎𝑚 ], 1[𝑦𝑖2 > 𝑎𝑀 ], 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁.
En el último caso, las variables ficticias para si 𝑦𝑖2 cae en uno de los intervalos
(−∞, 𝑎1 ], (𝑎1 , 𝑎2 ], … , (𝑎𝑀−1 , 𝑎𝑀 ], (𝑎𝑀 , ∞) aparecen en el modelo estructural.
68
y ahora, para implementar un procedimiento de función de control de dos pasos,
obtenemos 𝜏22 , la estimación de varianza de error MCO usual, junto con 𝛑2 . Los residuos
se construyen como antes, 𝑣̂𝑖2 = 𝑦𝑖2 − 𝐳1 𝛑̂ 2 . La regresión de segundo paso es ahora
2
𝑦𝑖1 en 𝐳𝑖1 , 𝐠(𝑦𝑖2 ), 𝑣̂𝑖2 , (𝑣̂𝑖2 − 𝜏22 ), 𝑖 = 1, . . . , 𝑁
Ahora podemos usar una prueba de Wald robusta a la heterocedasticidad de importancia
2
conjunta de 𝑣̂𝑖2 y (𝑣̂𝑖2 − 𝜏22 ). Bajo el nulo 𝐻0 : 𝜌1 = 0, 𝜉1 = 0, no tenemos que ajustar la
estadística para la estimación del primer paso.
e. Utilizaríamos 2SLS tradicional, donde necesitamos al menos una IV para cada 𝐠 𝑗 (𝑦2 ).
Los métodos para idear tales IV se discuten en la Sección 9.5. Brevemente, serán funciones
no lineales de 𝐳, por lo que se debe suponer E(𝑢1 , 𝐳) = 0. Generalmente, agregamos
suficientes funciones no lineales, por ejemplo 𝐡(𝐳), a la lista de instrumentos original 𝐳.
Entonces, haga 2SLS de 𝑦1 en 𝐳1 , 𝐠 2 usando IVs [𝐳, 𝐡(𝐳)]. 2SLS será más robusto que el
método descrito en la parte b porque la forma reducida para 𝑦2 no está restringida de
ninguna manera, y no es necesario suponer que 𝑢1 sea independiente de 𝐳.
6.15. a. Porque 𝑦2 = 𝐳𝛑2 + 𝑣2 , podemos encontrar E(𝑦1 |𝐳, 𝑣2 ) o E(𝑦1 |𝐳, 𝑦2 ); son lo
mismo.
Ahora
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝐳1 𝑦2 )𝛂1 + 𝐠(𝐳1 𝑦2 )E(𝐯1 |𝐳, 𝑣2 ) + E(𝑢1 |𝐳, 𝑣2 )
= 𝐳1 𝛅1 + 𝐠(𝐳1 𝑦2 )𝛂1 + 𝐠(𝐳1 𝑦2 )𝑣2 𝛉1 + 𝜌1 𝑣2
b. El primer paso es hacer una regresión de 𝑦𝑖2 en 𝐳𝑖 y obtener los residuos, 𝑣̂𝑖2 . Segundo,
ejecuta la regresión
𝑦𝑖1 en 𝐳𝑖1 , 𝐠(𝐳𝑖1 , 𝑦𝑖2 ), 𝐠(𝐳𝑖1 , 𝑦𝑖2 )𝑣̂𝑖2 , 𝑣̂𝑖2
lo que significa que 𝑣̂𝑖2 aparece por sí mismo e interactuó con todos los elementos de
𝐠(𝐳𝑖1 , 𝑦𝑖2 ).
c. El nulo es 𝐻0 : 𝛉1 = 0, 𝜌1 = 0, lo que significa que podemos calcular una prueba de
Wald robusta a la heterocedasticidad de importancia conjunta de 𝐠(𝐳𝑖1 , 𝑦𝑖2 )𝑣̂𝑖2 y 𝑣̂𝑖2
d. Para el modelo específico da, la regresión del segundo paso es
2
𝑦𝑖1 en 𝐳𝑖1 , 𝑦𝑖2 , 𝑦𝑖2 , 𝐳𝑖1 𝑦𝑖2 , 𝑦𝑖2 𝑣̂𝑖2 , 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁
En otras palabras, 𝑣̂𝑖2 aparece por sí mismo e interactuó con 𝑦𝑖2 , como en Garen (1984).
69
Soluciones al Capítulo 7 Problemas
7.1. Escribir (con probabilidad acercándose a uno)
𝑁 −1 𝑁
̂ = 𝛃 + (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 )
𝛃 (𝑁 −1
∑ 𝐗 ′𝑖 𝐮𝑖 )
𝑖=1 𝑖=1
plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 ) = 𝐀−1
𝑖=1
𝑁 −1 𝑁
̂ ) = 𝛃 + plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 )
plim(𝛃 • plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐮𝑖 ) = 𝛃 + 𝐀−1 • 𝟎 = 𝛃
𝑖=1 𝑖=1
7.2. a. Bajo SOLO. 1 y SOULS.2, el Teorema 7.2 implica que Avar(𝛃 ̂ 𝑂𝐿𝑆 ) = 𝐀−1 𝐁𝐀−1 /𝑁,
donde 𝐀 = E(𝐗 ′𝑖 𝐗 𝑖 ) y 𝐁 = E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ). Pero hemos supuesto que E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ) =
E(𝐗 ′𝑖 𝛀𝐗 𝑖 ) lo que prueba la afirmación. Efectivamente, esto es lo que podemos esperar de
la varianza asintótica de OLS bajo la versión del sistema de homoscedasticidad. [Tenga en
cuenta que el Supuesto SGLS. 3 y E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ) = E(𝐗 ′𝑖 𝛀𝐗 𝑖 ) no son lo mismo, pero
ambos están implicados por la condición (7.53). Hay otros casos en los que se reducen a la
misma suposición, como en un modelo SUR cuando 𝛀 es diagonal].
b. El estimador en (7.28) es siempre válido. Un estimador que usa la estructura de
Avar(𝛃 ̂ 𝑆𝑂𝐿𝑆 ) obtenida en la parte a se obtiene de la siguiente manera. Dejemos
̂ = 𝑁 −1 ∑𝑁
𝛀 𝑖=1 𝐮 ̂ ′𝑖 , donde 𝐮
̂𝑖 𝐮 ̂ 𝑖 son los residuos del MCO del sistema 𝐺 × 1. Entonces
𝑁 −1 𝑁 𝑁 −1
̂ (𝛃
Avar ̂ 𝑆𝑂𝐿𝑆 ) = (∑ 𝐗 ′𝑖 𝐗 𝑖 ) ̂ 𝐗 𝑖 ) (∑ 𝐗 ′𝑖 𝐗 𝑖 )
(∑ 𝐗 ′𝑖 𝛀
𝑖=1 𝑖=1 𝑖=1
70
̂ 𝐹𝐺𝐿𝑆 )]−1 − [Avar(𝛃
[Avar(𝛃 ̂ 𝑆𝑂𝐿𝑆 )]−1 = E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) − E(𝐗 ′𝑖 𝐗 𝑖 )[E(𝐗 ′𝑖 𝛀𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝐗 𝑖 )
d. Si 𝛀 = 𝜎 𝟐 𝐈𝐺 ,
̂ 𝑆𝑂𝐿𝑆 − 𝛃)] = [E(𝐗 ′𝑖 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝛀𝐗 𝑖 )[E(𝐗 ′𝑖 𝐗 𝑖 )]−1 = 𝜎 𝟐 [E(𝐗 ′𝑖 𝐗 𝑖 )]−1 y
Avar[√𝑁(𝛃
̂ 𝑆𝑂𝐿𝑆 − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1 = [E(𝐗 ′𝑖 (𝜎 𝟐 𝐈𝐺 )−1 𝐗 𝑖 )]−1 = 𝜎 𝟐 [E(𝐗 ′𝑖 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
e. Esta afirmación es verdadera siempre que consideremos solo la eficiencia asintótica
bajo el supuesto de que SGLS.1 es válida. En otras palabras, bajo SGLS.1, las condiciones
de rango estándar, y E(𝐮𝑖 𝐮′𝑖 |𝐗 𝑖 ) = 𝛀 , no hay nada que perder asintóticamente mediante el
uso de FGLS. Por supuesto, SOLS es más robusto ya que solo requiere SOLS.1 para la
coherencia (y la normalidad asintótica). Las pequeñas propiedades de muestra son otro
problema porque es difícil caracterizar las propiedades exactas de FGLS en condiciones
generales.
7.3. a. Como la ecuación de MCO por ecuación es la misma que la de GLS cuando 𝛀 es
diagonal, basta con mostrar que los estimadores de GLS para diferentes ecuaciones están
asintóticamente no correlacionados. Esto sigue si la matriz de varianza asintótica es de
bloque diagonal (ver Sección 3.5), donde el bloqueo es por el vector de parámetro para
cada ecuación. Para establecer la diagonalidad de bloques, usamos el resultado del Teorema
7.4: bajo SGLS. 1, SGLS.2 y SGLS.3,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
Ahora, podemos usar la forma especial de 𝐗 𝑖 para SUR (ver Ejemplo 7.1), el hecho de que
𝛀−1 es diagonal y SGLS.3. En el modelo SUR con diagonal 𝛀, SGLS.3 implica que
2 ′ ′
E(𝑢𝑖𝑔 𝐱 𝑖𝑔 𝐱 𝑖𝑔 ) = 𝜎𝑔2 E(𝐱 𝑖𝑔 𝐱𝑖𝑔 ) para todo 𝑔 = 1, … , 𝐺 y
′ ′
E(𝑢𝑖𝑔 𝑢𝑖ℎ 𝐱 𝑖𝑔 𝐱 𝑖ℎ ) = E(𝑢𝑖𝑔 𝑢𝑖ℎ )E(𝐱 𝑖𝑔 𝐱 𝑖ℎ ) = 0, todo 𝑔 ≠ ℎ.
71
Cuando esta matriz está invertida, también es diagonal de bloque. Esto muestra que
Avar[√𝑁(𝛃 ̂ − 𝛃)] es diagonal a bloques y, por lo tanto, √𝑁(𝛃̂ 𝑔 − 𝛃𝒈 ) están
asintóticamente no correlacionados.
b. segundo. Para probar cualquier hipótesis lineal, podemos construir la Estadística de
Wald o podemos usar la suma ponderada de la forma de los residuales cuadrados de la
estadística como en (7.56) o (7.57). Para la SSR restringida debemos estimar el modelo con
la restricción 𝛃1 = 𝛃2 impuesta. Vea el problema 7.6 para una forma de imponer
restricciones lineales generales.
c. En realidad, para que la conclusión se sostenga sobre la equivalencia asintótica,
necesitamos asumir SGLS.1 junto con SOLS.2 y SGLS.2. Cuando 𝛀 es diagonal en un
sistema SUR, el sistema OLS y GLS son iguales. En SGLS.1 y SGLS.2, GLS y FGLS son
asintóticamente equivalentes (independientemente de la estructura de 𝛀) si se cumple
SGLS.3 o no. Ahora si 𝛃 ̂ 𝑆𝑂𝐿𝑆 = 𝛃̂ 𝐺𝐿𝑆 y √𝑁(𝛃
̂ 𝐹𝐺𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ) = 𝑜𝑝 (1), entonces
√𝑁(𝛃 ̂ 𝑆𝑂𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ). Por lo tanto, cuando 𝛀 es diagonal, OLS y FGLS son asintóticamente
equivalentes bajo la suposición de exogeneidad SGLS.1, incluso si 𝛀 ̂ se estima de manera
no restringida e incluso si la asunción de homoscedasticidad del sistema SGLS.3 no se
cumple.
Si solo SOLS.1 es válido, no podemos concluir √𝑁(𝛃 ̂ 𝐹𝐺𝐿𝑆 − 𝛃̂ 𝐺𝐿𝑆 ) = 𝑜𝑝 (1), y así
√𝑁(𝛃 ̂ 𝑆𝑂𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ) no es generalmente 𝑜𝑝 (1). Es cierto que FGLS sigue siendo
consistente bajo SOLS.1 porque su plim es
′ −1
𝜎1−2 E(𝐱𝑖1 𝐱 𝑖𝑙 ) 𝟎 0 ′
𝜎1−2 E(𝐱𝑖1 𝑢𝑖1 )
( 0 ⋱ 0 ) ( ⋮ )
−2 ′ −2 ′
0 0 𝜎𝐺 E(𝐱 𝑖𝐺 𝐱 𝑖𝐺 ) 𝜎𝐺 E(𝐱 𝑖𝐺 𝑢𝑖𝐺 )
′
y E(𝐱 𝑖𝑔 𝑢𝑖𝑔 ) = 0, 𝑔 = 1, … , 𝐺.
̌ para indicar el estimador SOLS,
7.4. Para hacer que la notación se alinee con el texto, use 𝛃
y deje que 𝐮
̌ 𝑖 denote el vector 𝐺 × 1 de los residuos de SOLS que se usan para obtener 𝛀 ̂.
Entonces es suficiente para mostrar que
𝑁 −1/2 ∑𝑁
𝑖=1 𝐮 ̌ ′𝑖 = 𝑁 −1/2 ∑𝑁
̌𝑖 𝐮 𝑖=1 𝐮𝑖 𝐮𝑖 + 𝑜𝑝 (1) (7.82)
y esto sigue si, cuando sumamos a través de 𝑁 y dividimos por √𝑁, los últimos tres
términos en (7.42) son 𝑜𝑝 (1). Como el tercer término es la transposición del segundo,
basta con considerar solo el segundo y el cuarto término. Ahora
𝑁 𝑁
′
̌−
𝑁 −1/2 ∑ vec [𝐮𝑖 (𝛃 𝛃) 𝐗 ′𝑖 ] ̌ − 𝛃)
= 𝑁 −1/2 ∑(𝐗 𝑖 ⊗ 𝐮𝑖 ) • (𝛃
𝑖=1 𝑖=1
= [𝑁 −1 ∑𝑁 ̌
𝑖=1(𝐗 𝑖 ⊗ 𝐮𝑖 )]√𝑁(𝛃 − 𝛃) = 𝑜𝑝 (1) • 𝑂𝑝 (1) = 𝑜𝑝 (1).
72
También,
𝑁
̂ − 𝛽)′ 𝐗 ′ ]
̂ − 𝛽) (𝛃
𝑁 −1/2 ∑ vec [𝐗 𝑖 (𝛃 𝑖
𝑖=1
𝑁
= [𝑁 −1
∑(𝐗 𝑖 ⊗ 𝐗 𝑖 )] vec {√𝑁(𝛃 ̌ − 𝛃)′ } /√𝑁 =
̌ − 𝛃)√𝑁(𝛃
𝑖=1
= 𝑂𝑝 (1) • 𝑂𝑝 (1) • 𝑁 −1/2 = 𝑜𝑝 (1)
𝑁 𝑁
Por lo tanto,
𝑁 𝑁
−𝟏
∑ 𝐱𝒊′ 𝑦𝑖1 −𝟏
∑ 𝐱𝒊′ 𝑦𝑖1
𝑁 𝑁
𝑖=1 𝑖=1
̂ = (𝛀
𝛃 ̂ ⊗ (∑ 𝐱𝒊′ 𝐱𝑖 ) ̂ −𝟏 ⊗ 𝐈𝐾 )
) (𝛀 ⋮ = (𝐈𝐺 ⊗ (∑ 𝐱𝒊′ 𝐱𝑖 ) ) ⋮
𝑁 𝑁
𝑖=1 𝑖=1
∑ 𝐱𝒊′ 𝑦𝑖𝐺 ∑ 𝐱𝒊′ 𝑦𝑖𝐺
( 𝑖=1 ) ( 𝑖=1 )
𝑁 −𝟏
𝑁
(∑ 𝐱𝒊′ 𝐱𝑖 ) 𝟎 … 𝟎 ∑ 𝐱𝒊′ 𝑦𝑖1
𝑖=1 𝑖=1
−𝟏
̌
𝛃
𝑁 𝑁 1
𝟎 (∑ 𝐱𝒊′ 𝐱𝑖 ) 𝟎 ⋮ ∑ 𝐱𝒊′ 𝑦𝑖2 ̌
𝛃
= = 2
𝑖=1 𝑖=1 ⋮
⋱ 𝟎 ⋮ ̌
𝛃
−𝟏 𝑁 ( 𝐺)
⋮ 𝟎 𝑁
𝟎 ⋯ 𝟎 (∑ 𝐱𝒊′ 𝐱𝑖 ) ∑ 𝐱𝒊′ 𝑦𝑖𝐺
( 𝑖=1 ) ( 𝑖=1 )
73
𝐲𝑖 = 𝐗 𝑖1 𝛃1 + 𝐗 𝑖2 𝛃2 + 𝐮𝑖 = 𝐗 𝑖1 𝐑−1
1 (𝐫 − 𝐑 2 𝛃2 ) + 𝐗 𝑖2 𝛃2 + 𝐮𝑖
= 𝐗 𝑖1 𝐑−1
1 𝐫 + (𝐗 𝑖2 − 𝐗 𝑖1 𝐑 2 )𝛃2 + 𝐮𝑖
Llevar 𝐗 𝑖1 𝐑−1
1 𝐫 al lado izquierdo da
𝐲𝑖 − 𝐗 𝑖1 𝐑−1
1 𝐫 = (𝐗 𝑖2 − 𝐗 𝑖1 𝐑 2 )𝛃2 + 𝐮𝑖
̃ 𝑖2 𝛃2 + 𝐮𝑖
𝐲̃𝑖 = 𝐗
̃ 𝑖2 son funciones de los datos para la observación 𝑖 y las
(Tenga en cuenta que 𝐲̃𝑖 y 𝐗
matrices conocidas 𝐑1 , 𝐑 2 y el vector conocido 𝐫).
Este resultado general es muy conveniente para calcular la forma de SSR ponderada de la
̂ denotar la estimación de Ω basada en la estimación del
estadística F (en SGL.3). Deje 𝛀
sistema no restringido; típicamente, 𝛀 ̂ = 𝑁−1 ∑𝑁 𝑖=1 𝐮 ̌ ′𝑖 donde 𝐮
̌𝑖𝐮 ̌ 𝑖 son los residuos OLS del
sistema. Usando esta matriz, estimamos 𝐲𝑖 = 𝐗 𝑖1 𝛃1 + 𝐗 𝑖2 𝛃2 + 𝐮𝑖 y luego
𝐲̃𝑖 = 𝐗̃ 𝑖2 𝛃2 + 𝐮𝑖 por FGLS usando 𝛀 ̂ . Deje 𝐮
̂ 𝑖 denotar los residuos FGLS del modelo no
restringido y que 𝐮 ̃2 denoten los residuos de FGLS restringidos, donde 𝛃
̃ 𝑖2 𝛃
̃ 𝑖 = 𝐲̃𝑖 − 𝐗 ̃2 es
el estimador FGLS de la estimación restringida. Entonces el estadístico 𝐹 calculado a partir
de (7.57) tiene una distribución 𝔉𝑄,𝑁𝐺−𝐾 aproximada bajo 𝐻0 (suponiendo que SGLS.1,
SGLS.2 y SGLS.3 se mantienen).
7.7. a. Primero, los elementos diagonales de 𝛀 se encuentran fácilmente porque
2 2
E(𝑢𝑖𝑡 ) = E[E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 )] = 𝜎𝑡2 por expectativas iteradas. Ahora, considere E(𝑢𝑖𝑡 𝑢𝑖𝑠 ), y
tome 𝑠 < 𝑡 sin pérdida de generalidad. Bajo E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0, E(𝑢𝑖𝑡 |𝑢𝑖𝑠 ) = 0 ,
porque 𝑢𝑖𝑠 es un subconjunto del conjunto de acondicionamiento más grande. Aplicando
LIE de nuevo tenemos
E(𝑢𝑖𝑡 𝑢𝑖𝑠 ) = E[E(𝑢𝑖𝑡 𝑢𝑖𝑠 |𝑢𝑖𝑠 )] = E[E(𝑢𝑖𝑡 |𝑢𝑖𝑠 )𝑢𝑖𝑠 ] = 0
Entonces
𝜎12 0 … 0
𝛀= 0 𝜎22 0 ⋮
⋮ 0 ⋱ 0
(0 ⋯ 0 𝜎𝑇2 )
b. El estimador de GLS es
𝑁 −1 𝑁
𝛃∗ ≡ (∑ 𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) (∑ 𝐗 ′𝑖 𝛀−1 𝐲𝑖 )
𝑖=1 𝑖=1
𝑁 𝑇 −1 𝑁 𝑇
′ ′
= (∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 ) (∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝑦𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1
74
que es un estimador de mínimos cuadrados ponderados con cada observación para el
período de tiempo 𝑡 ponderado por 𝜎𝑡−2 , el inverso de la varianza.
c. Si, digamos, 𝑦𝑖𝑡 = 𝛽0 + 𝛽1 𝑦𝑖,𝑡−1 + 𝑢𝑖𝑡 , entonces 𝑦𝑖𝑡 está claramente correlacionado
con 𝑢𝑖𝑡 , que dice que 𝐱 𝑖,𝑡−1 = 𝑦𝑖𝑡 está correlacionado con 𝑢𝑖𝑡 . Por lo tanto, SGLS.1 no
puede contener. En general, SGLS.1 no se mantiene cuando hay comentarios de 𝑦𝑖𝑡 a
𝐱 𝑖𝑡 , 𝑠 > 𝑡. Sin embargo, debido a que 𝛀−1 es diagonal, 𝐗 ′𝑖𝑡 𝛀−1 𝐮𝑖 = ∑𝑇𝑡=1 𝐱 𝑖𝑡
′ −2
𝜎𝑡 𝑢𝑖𝑡 , y así
𝑇
′ −1 ′
E(𝐱𝑖𝑡 𝛀 𝐮𝑖 ) − ∑ 𝜎𝑡−2 E(𝐱𝑖𝑡 𝑢𝑖𝑡 ) = 0
𝑡=1
′
donde usamos E(𝐱 𝑖𝑡 𝑢𝑖𝑡 ) = 0 bajo E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0. De esto se deduce que el
estimador de GLS es GLS es consistente en este caso sin SGLS.1.
d. Primero, dado que 𝛀−1 es diagonal, 𝐗 ′𝑖𝑡 𝛀−1 = (𝜎1−2 𝐱 𝑖𝑙′ , 𝜎2−2 𝐱 𝑖2
′ ′ ′
, … , 𝜎𝑇−2 𝐱 𝑖𝑇 ),y
entonces
𝑇 𝑇
E(𝐗 ′𝑖 𝛀−1 𝐮𝑖 𝐮′𝑖 𝛀−1 𝐗 𝑖 ) = ∑ 𝜎𝑡−2 E(𝐱 ′𝑖𝑡 𝑢𝑖𝑡 ) = E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )
𝑡=1
e. En primer lugar, ejecute MCO agrupados en todos los 𝑖 y 𝑡 y deje que 𝑢̌𝑖𝑡 denoten los
residuos MCO agrupados. Luego, para cada 𝑡, defina
𝑁
2
𝜎̂𝑡2 =𝑁 −1
∑ 𝑢̌𝑖𝑡
𝑖=1
75
𝑁 𝑇 𝑁 𝑇
−1 ′ ′
𝑁 ∑ ∑ 𝜎̂𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 =𝑁 −1
∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 + 𝑜𝑝 (1)
𝑖=1 𝑡=1 𝑖=1 𝑡=1
𝑁 𝑇 𝑁 𝑇
−1/2 ′ ′
𝑁 ∑ ∑ 𝜎̂𝑡−2 𝐱 𝑖𝑡 𝑢𝑖𝑡 =𝑁 −1/2
∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝑢𝑖𝑡 + 𝑜𝑝 (1)
𝑖=1 𝑡=1 𝑖=1 𝑡=1
Para la prueba 𝐹, tenga en cuenta que la 𝜎𝑡2 se debe obtener utilizando los residuos MCO
agrupados para el modelo no restringido.
g. Si 𝜎𝑡2 = 𝜎 2 para toda la inferencia 𝑡 = 1, … , 𝑇 es muy fácil porque con el método de
mínimos cuadrados ponderados se reduce a OLS agrupados. Por lo tanto, podemos usar
los errores estándar y las estadísticas de prueba informadas por una regresión MCO
estándar agrupadas en 𝑖 y 𝑡.
7.8. Aquí hay algunos resultados de Stata:
. use fringe
. sureg (hrearn hrvac hrsick hrins hrpens educ exper expersq tenure
tenuresq union south nrtheast nrthcen married white male), corr
Seemingly unrelated regression
76
77
La primera prueba muestra que hay alguna evidencia de que el estado civil afecta al menos
una de las cinco formas de compensación. De hecho, tiene el mayor efecto económico
sobre las ganancias por hora: .642, pero su estadística 𝑡 es solo de aproximadamente 1.54.
78
El efecto más estadísticamente significativo es en ℎ𝑟𝑖𝑛𝑠: .037 con 𝑡 = 2.42. Es
marginalmente significativo y positivo para ℎ𝑟𝑣𝑎𝑐 también.
El comando lincom prueba si otro año de educación tiene el mismo efecto en ℎ𝑟𝑝𝑒𝑛𝑠 y
ℎ𝑟𝑖𝑛𝑠. La estadística 𝑡 es 10.11 y el valor 𝑝 es efectivamente cero. La estimación en la
ecuación ℎ𝑟𝑝𝑒𝑛𝑠 (con error estándar) es .039 (.004) mientras que la estimación en la
ecuación ℎ𝑟𝑖𝑛𝑠 es .008 (.003). Por lo tanto, cada uno es positivo y estadísticamente
significativo, y son significativamente diferentes entre sí.
Todos los errores y estadísticas estándar informados anteriormente suponen que SGLS.3 es
válido, por lo que no puede haber heterocedasticidad del sistema. Esto es poco probable
que se mantenga en este ejemplo.
7.9. Sigue la sesión de Stata, que incluye una prueba de correlación serial antes de calcular los
errores estándar completamente robustos:
El efecto estimado de la concesión, y su retraso, son ahora el signo esperado (si pensamos
que el programa de capacitación laboral debería reducir la tasa de rechazo), pero ninguno es
estadísticamente significativo. La variable 𝑔𝑟𝑎𝑛𝑡 sería si usamos un nivel de significancia
del 10% y una prueba de un solo lado. Los resultados son ciertamente diferentes de cuando
omite el retraso de log(𝑠𝑐𝑟𝑎𝑝).
Ahora prueba la correlación serial 𝐴𝑅(1):
79
La estimación de 𝜌 es aproximadamente .28, y es marginalmente significativa con 𝑡 =
1.77. (Tenga en cuenta que estamos confiando en las características asintóticas con 𝑁 =
54). Probablemente podría justificarse ignorando la correlación serial. Pero es bastante fácil
obtener los errores estándar robustos de correlación serial y heterocedasticidad:
Los errores estándar robustos para 𝑔𝑟𝑎𝑛𝑡 y 𝑔𝑟𝑎𝑛𝑡−1 son en realidad más pequeños que
los habituales, pero cada uno aún no es estadísticamente significativo en el nivel del 5%
frente a una alternativa unilateral. Además, no son conjuntamente significativos, ya que el
valor 𝑝 es aproximadamente .33:
. test grant grant_1
( 1) grant = 0
( 2) grant_1 = 0
F( 2, 53) = 1.14
Prob > F = 0.3266
80
7.10. Los resultados de Stata son:
Algunos de los errores estándar completamente robustos son en realidad más pequeños
que el error estándar no robusto correspondiente, aunque el de 𝑐𝑢𝑚𝑔𝑝𝑎 es bastante más
grande y descarta la estadística t de 10.25 a 6.12.. Ninguna variable que fue estadísticamente
significativa en función del estadístico 𝑡 habitual se vuelve estadísticamente insignificante,
81
aunque la duración de algunos intervalos de confianza cambia. Las estadísticas 𝑡 para la
variable clave, 𝑠𝑒𝑎𝑠𝑜𝑛, son similares y muestra que 𝑠𝑒𝑎𝑠𝑜𝑛 no es estadísticamente
significativa.
7.11. a. La siguiente salida de Stata debe ser autoexplicativa. Existe una fuerte correlación
serial positiva en los errores del modelo estático (𝜌̂ = .792, 𝑡𝜌̂ = 28.84) y los errores
estándar completamente robustos son mucho más grandes que los no robustos. No, por
ejemplo, que la estadística t en el registro de la probabilidad de condena, 𝑙𝑝𝑟𝑏𝑐𝑜𝑛𝑣 va de -
20.69 a -7.75.
82
b. Perdemos el primer año, 1981, cuando agregamos el retraso de log(𝑐𝑟𝑚𝑟𝑡𝑒):
83
d. Ninguna de las variables log(𝑤𝑎𝑔𝑒) es estadísticamente significativa, y las magnitudes
son muy pequeñas en todos los casos. El valor de 𝑝 para la prueba conjunta, totalmente
robusto, es .33, lo que significa que las variables log(𝑤𝑎𝑔𝑒) tampoco son conjuntamente
insignificantes. (Además, los diferentes signos sobre las variables salariales son difíciles de
explicar, excepto para concluir que cada uno se estima con un error de muestreo
sustancial).
84
7.12. La riqueza al comienzo del año no puede ser estrictamente exógena en una ecuación
de ahorro: si el ahorro aumenta inesperadamente este año, para que la perturbación en el
año 𝑡 sea positiva, la riqueza del comienzo del año será mayor el próximo año. Esto es
análogo al Ejemplo 7.8, donde el promedio acumulativo de calificaciones al inicio del
semestre no puede ser estrictamente exógeno en una ecuación para explicar el GPA del
término actual.
7.13. a. La salida de Stata está debajo. Se estima que los hombres casados tienen un
promedio de puntaje de aproximadamente 1.2 puntos más alto, y las asistencias son 0.42
más altas. El coeficiente en la ecuación de 𝑟𝑒𝑏𝑜𝑢𝑛𝑑𝑠 es -.24, pero no es estadísticamente
85
significativo. El coeficiente en la ecuación de 𝑎𝑠𝑠𝑖𝑠𝑡 es significativo al nivel de 5% contra
una alternativa de dos lados (valor de 𝑝 = 048).
86
sea más productivo, es posible que los jugadores más productivos, al menos en lo que se
refiere a puntos y asistencias, tengan más probabilidades de estar casados.
̂ el estimador que usa 𝛀
7.14. Sea 𝛃 ̌ the el estimador que usa 𝚲
̂ y sea 𝛃 ̂ . Debido a SGLS.1
a SGLS.3 mantener,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
Además, sabemos por el resultado general de FGLS,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝚲−1 𝐮𝑖 𝐮′𝑖 𝚲−1 𝐗 𝑖 )[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
es positivo semi-definido Para este fin, defina 𝐙𝑖 ≡ 𝛀−1/2 𝐗 𝑖 y 𝐖𝑖 ≡ 𝛀−1/2 𝚲−1 𝐗 𝑖 . Luego,
el álgebra directa muestra que la diferencia anterior se puede escribir como
E(𝐙𝑖′ 𝐙𝑖 ) − E(𝐙𝑖′ 𝐖𝑖 )[E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ) que se ve fácilmente como E(𝐑′𝑖 𝐑 𝑖 ), donde
𝐑 𝑖 es la matriz 𝐺 × 𝐾 de residuos de población de la regresión de 𝐙𝑖 en 𝐖𝑖 : 𝐑 𝑖 = 𝐙𝑖 −
𝐖𝑖 𝚷 donde 𝚷 = [E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ) Las matrices de la forma E(𝐑′𝑖 𝐑 𝑖 ), son siempre
positivas semi-definidas porque para un vector no aleatorio 𝐚, 𝐚′ E(𝐑′𝑖 𝐑 𝑖 )𝐚 =
E[(𝐚𝐑 𝑖 )′ (𝐚𝐑 𝑖 )] ≥ 0.
̂ = (𝛃
7.15. Deje 𝛅 ̂ ′ , 𝛄̂′ )′ ser el estimador FGLS del modelo completo. Entonces, debido
a que SGLS.1 a SGLS.3 se mantiene, sabemos
̂ − 𝛅)] = [E(𝐖𝑖′ 𝛀−1 𝐖𝑖 )]−1
Avar[√𝑁(𝛅
Además, debido a que E(𝐗 𝑖 ⊗ 𝐙𝑖 ) = 0, se sigue que E(𝐗 ′𝑖 𝛀−1 𝐙𝑖 ) = 0. Por lo tanto,
E(𝐖𝑖′ 𝛀−1 𝐖𝑖 ) tiene una diagonal de bloque y es igual a
E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) 0
( ′ −1 )
0 E(𝐙𝑖 𝛀 𝐙𝑖 )
Invertir esta matriz da
87
[E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1 0
̂ − 𝛅)] = (
Avar[√𝑁(𝛅 )
0 [E(𝐙𝑖′ 𝛀−1 𝐙𝑖 )]−1
̂ − 𝛃)] es el bloque superior izquierdo:
y Avar[√𝑁(𝛃
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
′ −1 ′ −1 ′ −1 ′ −1
= 𝐀−1 −1 −1 −1
2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀 2 + 𝐀 2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀 2
′ −1 ′ −1
= 𝐂2 + 𝐀−1 −1
2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀2
88
Curiosamente, la prueba muestra que la ineficiencia asintótica de 𝛃̃ tiene dos fuentes.
Primero, hemos omitido variables que no están correlacionadas con 𝐗 𝑖 . La segunda pieza
se debe al uso de la matriz de varianza incorrecta, 𝚲. Si pudiéramos utilizar efectivamente 𝛀
para obtener el estimador con 𝐙𝑖 omitido, lo que podemos hacer en principio si
observamos 𝐙𝑖 , entonces la única fuente de ineficiencia sería la omisión de 𝐙𝑖 (como ocurre
en el caso de una sola ecuación).
̂ da
La evaluación de la derivada en la solución 𝛃
𝑁 ′ 𝑁
(∑ 𝐙𝑖′ 𝐗 𝑖 ) 𝐖 ̂ )) = 𝟎
̂ (∑ 𝐙𝑖′ (𝐲𝑖 − 𝐗 𝑖 𝛃
𝑖=1 𝑖=1
89
En términos de matrices de datos completos, podemos escribir, después del álgebra simple,
(𝐗 ′ 𝐙𝐖 ̂ = (𝐗 ′ 𝐙𝐖
̂ 𝐙′ 𝐗)𝛃 ̂ 𝐙′ 𝐘)
̂ da (8.28).
Resolviendo para 𝛃
8.2. a. Podemos aplicar la teoría general de GMM para obtener consistencia y normalidad
√𝑁 asintótica del estimador 3SLS (versión GMM). Las cuatro suposiciones dadas en el
′̂ −1
problema son suficientes para SIV.1 a SIV.3, donde 𝐖̂ = (𝑁 −1 ∑𝑁 𝑖=1 𝐙𝑖 𝛀𝐙𝑖 ) y𝐖≡
′ −𝟏 ̂ ̂ ′
[E(𝐙𝑖 𝛀𝐙𝑖 )] = plim(𝐖). (Esto supone plim𝛀 = 𝛀 ≡ E(𝐮𝑖 𝐮𝑖 ), algo que se cumple de
manera bastante general). Sin embargo, sin SIV.5, 3SLS no es necesariamente un estimador
GMT asintóticamente eficiente.
b. La varianza asintótica del estimador 3SLS se da en la ecuación (8.29) con la elección de
𝐖 en la parte a:
̂ 3𝑆𝐿𝑆 − 𝛃) = (𝐂 ′ 𝐖𝐂)−1 (𝐂′ 𝐖𝚲𝐖𝐂)−1 (𝐂 ′ 𝐖𝐂)−1
Avar√𝑁(𝛃
donde 𝚲 ≡ E(𝐙𝑖′ 𝐮𝑖 𝐮′𝑖 𝐙𝑖 ), como en el texto. (Tenga en cuenta que esta expresión colapsa a
(𝐂 ′ 𝐖𝐂)−1 cuando 𝚲 = 𝐖 −1 , como sucede en SIV.5.)
primera parte de la sugerencia. Para verificar el segundo paso, deje 𝐱 ≡ 𝐡(𝐳), y escriba la
proyección lineal como
L(𝐲|𝐳, 𝐡) = 𝐳𝚷1 + 𝐡𝚷2
donde 𝚷1 es 𝑀 × 𝐾 y 𝚷2 es 𝑄 × 𝐾. Entonces debemos mostrar que 𝚷2 = 0. Pero, desde
el teorema de proyección de dos pasos (ver Propiedad LP.7 en el Capítulo 2)
𝚷2 = [E(𝐬′ 𝐬)]−𝟏 E(𝐬′ 𝐫), donde 𝐬 ≡ 𝐡 − L(𝐡|𝐳) y 𝐫 ≡ 𝐱 − L(𝐱|𝐳)
Ahora, suponiendo que E(𝐱|𝐳) = L(𝐱|𝐳), 𝐫 también es igual a 𝐱 − E(𝐱|𝐳). Por lo tanto,
E(𝐫|𝐳) = 0, y entonces 𝐫 no está correlacionado con todas las funciones de 𝐳. Pero 𝐬 es
90
simplemente una función de 𝐳 desde 𝐡 ≡ 𝐡(𝐳) Por lo tanto, E(𝐬′ 𝐫) = 0, y esto muestra
que 𝚷2 = 0.
8.4.a. Para el sistema en (8.12), mostramos que, para cada 𝑔, rango E[(𝐳|𝐡)′ 𝐱𝑔 ] =
rango E(𝐳 ′ 𝐱𝑔 ) para cualquier función 𝐡 = 𝐡(𝐳). Ahora, por el problema 8.3,
L(𝐱𝑔 |𝐳, 𝐡) = L(𝐱𝑔 |𝐳) = 𝐳𝚷1 cuando E(𝐱𝑔 |𝐳) es lineal en 𝐳 y 𝐡 es cualquier función de 𝐳.
Como en el problema 8.3, E(𝐳 ′ 𝐱𝑔 ) = E(𝐳 ′ 𝐱𝑔∗ ) = E(𝐳 ′ 𝐳)𝚷1 . Además, si dejamos 𝐞𝑔 =
𝐱𝑔 − 𝐱𝑔∗ , entonces E(𝐡′ 𝐞𝑔 ) = 0, y así E[(𝐳, 𝐡)′ 𝐱𝑔 ] = E[(𝐳, 𝐡)′ 𝐱𝑔∗ ] = E[(𝐳, 𝐡)′ 𝐳]𝚷1 . Pero
rango E[(𝐳|𝐡)′ 𝑧] = rango E(𝐳 ′ 𝐳), lo que significa que rango E[(𝐳|𝐡)′ 𝐳]𝚷1 =
rango E(𝐳 ′ 𝐳)𝚷1. Hemos demostrado que rango E[(𝐳|𝐡)′ 𝐱𝑔 ] = rango E(𝐳 ′ 𝐱𝑔 ),lo que
significa que la adición de 𝐡 a la lista de instrumentos no ayuda a satisfacer la condición de
rango.
91
8.7. Cuando 𝛀̂ es diagonal y 𝐳𝑖 tiene la forma en (8.15), ∑𝑁 ′ ̂ ′
𝑖=1 𝐙𝑖 𝛀𝐙𝑖 = 𝐙 (𝐈𝑁 ⊗ 𝛀)𝐙 es
̂
una matriz diagonal de bloque con bloque 𝑔𝑡ℎ σ ̂𝑔2 (∑𝑁 ′
𝑖=1 𝐳𝑖𝑔 𝐳𝑖𝑔 ) ≡ σ̂𝑔2 𝐳𝑔′ 𝐳, donde 𝐙𝑔
denota la matriz de observación 𝑁 × 𝐿𝑔 de instrumentos para la ecuación 𝑔𝑡ℎ . Además,
𝐙′ 𝐗 es una diagonal de bloques con el bloque 𝑔𝑡ℎ 𝐙𝑔′ 𝐗𝑔 . Usando estos datos, ahora es
sencillo mostrar que el estimador 3SLS consiste en
−1 −1 −1
[𝐗𝑔′ 𝐙𝑔 (𝐙𝑔′ 𝐙𝑔 ) 𝐙𝑔′ 𝐗𝑔 ] 𝐗𝑔′ 𝐙𝑔 (𝐙𝑔′ 𝐙𝑔 ) 𝐙𝑔′ 𝐘𝑔 apilados en 𝑔 = 1, … 𝐺. Este es solo el
estimador 2SLS del sistema o, equivalentemente, ecuación por ecuación 2SLS.
′ ′ ′ ′ ′ ′
8.8. a. Con 𝐙1 = (𝐳𝑖1 , 𝐳𝑖2 , … , 𝐳𝑖𝑇 )′ y 𝐱 𝑖 = (𝐱 𝑖1 , 𝐱 𝑖2 , … , 𝐱 𝑖𝑇 ),
𝐙 ′ 𝐙 = ∑𝑁 𝑇 ′ ′ 𝑁 𝑇 ′ ′ 𝑁 𝑇 ′
𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝐳𝑖𝑡 , 𝐙 𝐗 = ∑𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝐱 𝑖𝑡 y 𝐙 𝐘 = ∑𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝑦𝑖𝑡
′
b. rango E(∑𝑇𝑡=1 𝐳𝑖𝑡 𝐱 𝑖𝑡 ) = 𝐾.
c. Deje 𝐮
̂ 𝑖 ser el vector 𝑇 × 1 de residuos 2SLS agrupados, 𝐮 ̂. Luego usamos
̂ 𝑖 = 𝐲𝑖 − 𝐗 𝑖 𝛃
(8.31) con 𝐖 ̂ = (𝐙′ 𝐙/𝑁)−𝟏 y 𝚲 ̂ = 𝑁−1 ∑𝑁𝑖=1 𝐙′𝑖 𝐮̂ 𝑖 𝐮̂ ′ 𝐙𝑖 , cancelando 𝑁 en todas partes:
𝑖
𝑁
[(𝐗 ′ ′
𝐙)(𝐙 𝐙) −1 (𝐙 ′ −𝟏
𝐗)] ′
(𝐗 𝐙)(𝐙 𝐙) ′ −1
(∑ 𝐙𝑖′ 𝐮 ̂ ′𝑖 𝐙𝑖 ) • (𝐙′ 𝐙−𝟏 )(𝐙′ 𝐗)[(𝐗 ′ 𝐙)(𝐙 ′ 𝐙)−1 (𝐙′ 𝐗)]−𝟏
̂𝑖 𝐮
𝑖=1
(8.67)
d. El uso de un razonamiento casi idéntico al problema 7.7, (8.65) implica que, para 𝑠 <
𝑡,
′ ′
E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ) = E[E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 |𝐳𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑠 )]
′ ′
= E[E(𝑢𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖𝑠 , 𝐳𝑖𝑠 )𝑢𝑖𝑠 , 𝐳𝑖𝑡 , 𝐳𝑖𝑠 ]
′
= E[0 • 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ] = 𝟎
porque E(𝑢𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖𝑠 , 𝐳𝑖𝑠 ) = 0 para 𝑠 < 𝑡. Un argumento similar funciona para 𝑡 > 𝑠.
Entonces para todos los 𝑡 ≠ 𝑠,
′
E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ) = 𝟎
Del mismo modo, (8.66) y las expectativas iteradas implican que
2 ′ 2 ′
E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = E[E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 |𝐳𝑖𝑡 )]
2
= E[E(𝑢𝑖𝑡 ′
|𝐳𝑖𝑡 )𝐳𝑖𝑡 ′
𝐳𝑖𝑡 ] = σ𝟐 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ), 𝑡 1, … 𝑇.
En conjunto, estos resultados implican que
𝑇
var(𝐳𝑖′ 𝐮𝑖 ) = σ𝟐 ∑ ′
E[(𝐳𝑖𝑡 𝐳𝑖𝑡 )]
𝑡=1
92
𝑇 ̂2
Un estimador consistente de esta matriz es σ ̂𝟐 (𝐙′ 𝐙/𝑁), donde σ ̂𝟐 = 1/(𝑁𝑇) ∑𝑁 𝑖=1 ∑𝑡=1 𝑢 𝑖𝑡 ,
según la ley usual de las grandes números argumentos. Un ajuste de grados de libertad
reemplaza 𝑁𝑇 con 𝑁𝑇 − 𝐾. Reemplazando ∑𝑁 ′
̂ ′𝑖 𝐙𝑖 en (8.67) con σ
̂𝑖 𝐮
𝑖=1 𝐙𝑖 𝐮 ̂𝟐 (𝐙′ 𝐙) [puesto
que σ ̂ bajo los supuestos mantenidos] y cancelar da la
̂𝟐 (𝐙′ 𝐙/𝑁) puede jugar el el papel de 𝚲
varianza asintótica estimada de 𝛃̂ como
̂ 2𝑡
σ =𝑁 −1
∑ 𝑢̂ 2𝑖𝑡
𝑖=1
Si E(𝑢2𝑖 |𝐳𝑖 ) = σ𝟐 y E(𝐱 𝑖 |𝐳𝑖 ) = 𝐳𝑖 𝚷, entonces los instrumentos óptimos son σ−𝟐 𝐳𝑖 𝚷. El
múltiplo σ−𝟐 constante claramente no tiene ningún efecto en el estimador IV óptimo, por
lo que los instrumentos óptimos son 𝐳𝑖 𝚷. Estas son las IV óptimas subyacentes a 2SLS,
excepto que 𝚷 se reemplaza por su estimador NLS consistente en √𝑁. El estimador 2SLS
tiene la misma varianza asintótica si se usa 𝚷 o 𝚷 ̂ , y así 2SLS es asintóticamente eficiente.
Si E(𝑢|𝐱) = 𝟎 y E(𝑢𝟐 |𝐱) = σ𝟐, los instrumentos óptimos son σ−𝟐 E(𝐱|𝐱) = σ−𝟐 𝐱 y esto
conduce al estimador OLS.
8.10.a. Escriba 𝑢𝑖𝑡 = 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖 , y conéctelo a 𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝑢𝑖𝑡 para obtener
𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖 , 𝑡 2, … , 𝑇.
93
Bajo el supuesto
94
podemos hacer operativo el estimador IV óptimo utilizando [𝐳1 , 𝐳𝛑 ̂ 2 )] como los IV.
̂ 2 , 𝐳1 , (𝐳𝛑
El estimador como la misma distribución √𝑁 -asintótica como si supiéramos 𝛑2 .
′
8.14. a. Con 𝐲𝑖𝑡2 = 𝐳𝑖𝑡 𝚷2 + 𝐯𝑖𝑡2 y E(𝐳𝑖𝑡 𝑢𝑖𝑡1 ) = 𝟎, 𝑡 = 1, . . . , 𝑇 mantenido,
′ ′
E(𝐲𝑖𝑡2 𝑢𝑖𝑡1 ) = 𝟎 es lo mismo que E(𝐲𝑖𝑡2 𝑢𝑖𝑡1 ) = 𝟎 . Podemos siempre escriba la
proyección lineal de 𝑢𝑖𝑡1 en 𝐯𝑖𝑡2 como
𝑢𝑖𝑡1 = 𝐯𝑖𝑡2 𝛒𝟏 + 𝑒𝑖𝑡1
′
E(𝐯𝑖𝑡2 𝑒𝑖𝑡1 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
donde suponemos que los coeficientes 𝛒𝟏 no cambian con el tiempo. Por lo tanto,
podemos escribir la ecuación extendida
𝑦𝑖𝑡1 = 𝜂𝑡1 + 𝐳𝑖𝑡1 𝛅1 + 𝐲𝑖𝑡2 𝛂2 + 𝐯𝑖𝑡2 𝛒𝟏 + 𝑒𝑖𝑡1 , 𝑡 = 1, . . . , 𝑇
Ahora el procedimiento de la función de control es claro. (1) Estime la forma reducida
𝐲𝑖𝑡2 = 𝐳𝑖𝑡 𝚷2 + 𝐯𝑖𝑡2 por MCO combinado (ecuación por ecuación si es necesario cuando
𝐲𝑖𝑡2 es un vector) y obtener los residuos, 𝐯̂𝑖𝑡2 . (2) Ejecute la regresión MCO combinada
𝑦𝑖𝑡1 en 1, 𝑑2𝑡 , … , 𝑑𝑇𝑡 , 𝐳𝑖𝑡1 , 𝐲𝑖𝑡2 , 𝐯̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; 𝑖 = 1, . . . , 𝑁
y use una prueba Wald completamente robusta de 𝐻0 : 𝛒𝟏 = 𝟎. La prueba tiene 𝐺1 grados
de libertad en la distribución de chi-cuadrado, o uno puede usar una aproximación 𝐹
dividiendo la estadística de chi cuadrado por 𝐺1 .
b. Extendiendo la discusión en el texto alrededor de la ecuación (6.32), particione 𝐳𝑖𝑡2 =
(𝐠 𝑖𝑡2 , 𝐡𝑖𝑡2 ), donde 𝐠 𝑖𝑡2 es 1 × 𝐺1 (la misma dimensión que 𝐲𝑖𝑡1 ) y 𝐡𝑖𝑡2 es 1 × 𝑄1 .
Obtenga los valores ajustados 𝐲̂𝑖𝑡2 de las regresiones de la primera etapa. Luego, obtenga
los residuos, 𝐫̂𝑖𝑡2 de la regresión OLS combinada
𝐡𝑖𝑡2 en 𝐳𝑖𝑡1 , 𝐲̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; 𝑖 = 1, . . . , 𝑁
Deje 𝑢̂𝑖𝑡1 ser los residuos P2SLS. A continuación, ejecute la regresión MCO combinada
𝑢̂𝑖𝑡1 en 𝐫̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; = 1, . . . , 𝑁
y prueba el 𝐫̂𝑖𝑡2 para significancia conjunta. Una prueba Wald completamente robusta es la
más apropiada, y su distribución límite bajo el nulo de que todos los elementos de 𝐳𝑖𝑡 son
2
exógenos es 𝑋𝑄1 .
8.15. a. El coeficiente muestra que una tarifa más alta reduce la demanda de pasajeros para
los vuelos. La elasticidad estimada es -.565, que es bastante grande. Incluso el intervalo de
confianza del 95% totalmente robusto es bastante estrecho, de -.696 a -.434.
Incidentalmente, el error estándar que es robusto solo para la heterocedasticidad y no para
la correlación serial es aproximadamente .0364, que en realidad es un poco más pequeño
que el error estándar habitual de OLS. Entonces, es importante usar la versión
completamente robusta.
CUADRO
95
b. Utilizo la prueba que permite que las variables explicativas sean no estrictamente
exógenas. La estimación de 𝜌 es esencialmente una. En un contexto de series de tiempo
puro, tendríamos que preocuparnos de cómo esta cantidad de persistencia en los errores
afecta la inferencia. Aquí, la inferencia es estándar porque está con 𝑇 fijo y 𝑁 →∞. Pero la
"raíz unitaria" en {𝑢𝑖𝑡 : 𝑡 = 1, . . . , 𝑇} es preocupante porque cuestiona si existe una relación
significativa entre la demanda de pasajeros y las tarifas aéreas. Si el término de error rara
vez vuelve a su valor medio (que podemos considerar cero), ¿En qué sentido los
movimientos del pasaje aéreo en el tiempo causan movimientos en la demanda de
pasajeros?
CUADRO
c. El coeficiente de 𝑐𝑜𝑛𝑐𝑒𝑛𝑖𝑡 es .360 y la estadística t que da cuenta de la
heterocedasticidad y la correlación serial es 6.15. Por lo tanto, la correlación parcial entre
𝑙𝑓𝑎𝑟𝑒 y 𝑐𝑜𝑛𝑐𝑒𝑛 es suficiente para implementar un procedimiento IV.
CUADRO
d. Las estimaciones IV se dan a continuación. La elasticidad estimada es enorme, -1.78.
Esto parece muy grande. El error estándar completamente robusto es aproximadamente
dos veces más grande que el error estándar de OLS habitual, y el intervalo de confianza del
95% completamente robusto es de -2.71 a -.84, que es muy amplio, pero excluye la
estimación puntual del MCO combinado (-. 5.65).
CUADRO
96
f. Los comandos Stata se dan a continuación. El estadístico 𝑡 completamente robusto en
𝐯̂𝑖𝑡2 es 2.92, que es un fuerte rechazo de la nulidad de que 𝑙𝑓𝑎𝑟𝑒𝑖𝑡 es (contemporáneo)
exógeno, suponiendo que el 𝑐𝑜𝑛𝑐𝑒𝑛𝑖𝑡 sea contemporáneamente exógeno.
CUADRO
8.16 (Pregunta Bonus). Considere el estimador GIV con restricciones incorrectas
𝑝
̂ en lugar de 𝛀 con 𝚲
impuestas en el estimador de 𝛀. Es decir, en (8.47) use 𝚲 ̂ → 𝚲 ≠ 𝛀.
E(𝐙𝑖′ 𝚲−𝟏 𝐮𝑖 ) = 𝟎
𝑝
porque 𝚲̂ → 𝚲. Pero si la Asunción GIV.1 se cumple, cualquier combinación lineal de 𝐙𝑖
no está correlacionada con 𝐮𝑖 , incluyendo 𝚲−𝟏 𝐙𝑖 . La condición de rango tiene dos partes,
siendo la primera la más importante:
Segundo,
𝑁 𝑁 𝑁
1
̂−𝟏 𝐮𝑖 − ̂−𝟏 − 𝚲−𝟏 )
𝑁 −1/2
∑ 𝐙𝑖′ 𝚲 −𝑁 2 ∑ 𝐙 ′ 𝚲−𝟏 𝐮𝑖
𝑖 =𝑁 −1/2
∑(𝐮𝑖 ⊗ 𝐙𝑖 )′ vec(𝚲
𝑖=1 𝑖=1 𝑖=1
97
La combinación de estas equivalencias asintóticas muestra que reemplazar 𝚲 con el
̂ no afecta la distribución √𝑁-limitante del estimador GIV.
estimador consistente 𝚲
c. Use un estimador de la matriz de varianza asintótica robusta y completa. Escribir
Avar ̂ − 𝛃)] = 𝐀
̂ [√𝑁(𝛃 ̂−𝟏 𝐁
̂𝐀̂−𝟏
Donde
𝑁 𝑁 −𝟏 𝑁
̂ = (𝑁 −1 ∑ 𝐗 ′𝑖 𝚲
𝐀 ̂ −𝟏 𝐙𝑖 ) (𝑁 −1 ∑ 𝐙𝑖′ 𝚲
̂−𝟏 𝐙𝑖 ) ̂−𝟏 𝐗 𝑖 )
(𝑁 −1 ∑ 𝐙𝑖′ 𝚲
𝑖=1 𝑖=1 𝑖=1
𝑁 𝑁 −𝟏 𝑁
̂ = (𝑁
𝐁 −1 ̂−𝟏 𝐙𝑖 ) (𝑁 −1 ∑ 𝐙𝑖′ 𝚲
∑ 𝐗 ′𝑖 𝚲 ̂−𝟏 𝐙𝑖 ) (𝑁 −1 ̂ −𝟏 𝐮̂ 𝑖 𝐮̂ ′ 𝚲
∑ 𝐙𝑖′ 𝚲 ̂−𝟏 𝐙𝑖 )
𝑖
𝑖=1 𝑖=1 𝑖=1
𝑁 −𝟏 𝑁
̂−𝟏 𝐙𝑖 )
• (𝑁 −1 ∑ 𝐙𝑖′ 𝚲 ̂−𝟏 𝐗 𝑖 )
(𝑁 −1 ∑ 𝐙𝑖′ 𝚲
𝑖=1 𝑖=1
donde 𝐮 ̂ son los residuos GIV. Este estimador de matriz de varianza asintótica
̂ 𝑖 = 𝐲𝑖 − 𝐗𝑖 𝛃
le permite a E(𝐮𝑖 𝐮′𝑖 ) ≠ 𝚲 y a la heterocedasticidad del sistema, es decir, E(𝐮𝑖 𝐮′𝑖 |𝐙𝑖 ) ≠
̂ (𝛃
E(𝐮𝑖 𝐮′𝑖 ). Por supuesto, obtenemos Avar ̂ ) como 𝐀 ̂−𝟏 𝐁̂𝐀̂−𝟏 , por lo que todas las
divisiones por 𝑁 desaparecen.
8.17 (Pregunta de bonus). Considere un modelo de datos de panel con instrumentos
contemporáneos exógenos 𝐳𝑖𝑡 :
𝑦𝑖𝑡1 = 𝐱𝑖𝑡 𝛃 + 𝑢𝑖𝑡
′
E(𝐳𝑖𝑡 𝑢𝑖𝑡 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
donde 𝐱𝑖𝑡 es 1 × 𝐾 y 𝐳𝑖𝑡 es 1 × 𝐿 para todo 𝑡, 𝐿 ≥ 𝐾
a. Si mantenemos las suposiciones
′
SUPUESTO P2SLS.1: E(𝐳𝑖𝑡 𝑢𝑖𝑡 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
′ ′
SUPUESTO P2SLS.2: (a) rango ∑𝑇𝑡=1 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝐿; (b) rango ∑𝑇𝑡=1 E(𝐳𝑖𝑡 𝐱 𝑖𝑡 ) = 𝐾,
argumentan que el estimador agrupado 2SLS (P2SLS) es generalmente consistente (como
siempre con 𝑇 fijo, 𝑁 → ∞, y muestreo aleatorio en 𝑖).
b. Explicar cómo estimar la matriz de varianza asintótica del estimador P2SLS bajo los
supuestos del inciso a.
c. Supongamos que agregamos la suposición
98
2 ′ ′ ′
SUPUESTO P2SLS.3: (a) E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝜎 2 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ), 𝑡 = 1, . . . , 𝑇; (b) E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑠 ) =
𝟎, 𝑡 ≠ 𝑟.
Sostiene que el estimador de matriz de varianza 2SLS habitual que asume la
homoscedasticidad e ignora el componente de la serie temporal es válido.
d. ¿Qué harías si se cumple la Asunción P2SLS.3 (b) pero no necesariamente P2SLS.3
(a)?
Solución
a. Usando la fórmula general para el estimador S2SLS, podemos escribir el estimador
P2SLS (con la probabilidad acercándose a uno) como
−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
̂ = [(𝑁−1 ∑ ∑ 𝐱 𝑖𝑡
𝛃 ′ ′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) ′
(𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
′ ′ ′
• (𝑁−1 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝑦𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
′ ′ ′
= 𝛃 + [(𝑁−1 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
−1 ′ ′ ′
• (𝑁 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1
∑ ∑ 𝐳𝑖𝑡 𝑢𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
99
b. Tenemos
̂ − 𝛃)] = 𝐀−𝟏 𝐁𝐀−𝟏
Avar[√𝑁(𝛃
Donde
𝑇 𝑇 −1 𝑇
𝑇 𝑇 −1 𝑇 𝑇
′ ′ ′
𝐁= (∑ E(𝐱𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )) (∑ ∑ E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ))
𝑡=1 𝑡=1 𝑡=1 𝑟=1
𝑇 −1 𝑇
′ ′
• (∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐱 𝑖𝑡 ))
𝑡=1 𝑡=1
𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇 𝑇
̂ = (𝑁
𝐁 −1
∑ ∑ 𝐱 𝑖𝑡′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 ′
𝐳𝑖𝑡 ) ′
(∑ ∑ ∑ E(𝑢̂𝑖𝑡 𝑢̂𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ))
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝒊=𝟏 𝑡=1 𝑟=1
𝑁 𝑇 −𝟏 𝑁 𝑇
−1 ′ −1 ′
• (𝑁 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1
y entonces
̂ − 𝛃)] = 𝜎 2 𝐀−𝟏
Avar[√𝑁(𝛃
100
Cuando usamos 𝐀 ̂ de la parte b y un estimador consistente de 𝜎 2 (con ajuste de grados de
libertad opcional pero estándar),
𝑁 𝑇
1 2
𝜎̂ 2 = ∑ ∑ 𝑢̂𝑖𝑡
𝑁𝑇 − 𝐾
𝑖=1 𝑡=1
entonces obtenemos
−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
̂ (𝛃
Avar ̂ ) = 𝜎̂ 2 [(∑ ∑ 𝐱 𝑖𝑡
′ ′
𝐳𝑖𝑡 ) (∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) ′
(∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
que es exactamente la fórmula estándar para 2SLS tratar el conjunto de datos del panel
como una sección transversal larga.
d. Necesitamos hacer que la matriz de varianza sea robusta a la heterocedasticidad
solamente. Así que
𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
̂ = (𝑁−1 ∑ ∑ 𝐱 𝑖𝑡
𝛃 ′ ′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) 2 ′
(𝑁−1 ∑ ∑ 𝑢̂𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1
𝑁 𝑇 −𝟏 𝑁 𝑇
′ ′
• (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1
̂ (𝛃
El resultado Avar ̂ ) es exactamente lo que se calcularía tratando el conjunto de datos del
panel como una sección transversal larga con inferencia robusta a la heterocedasticidad.
8.18 (Pregunta Bonus). Considere el modelo de datos del panel
𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝑢𝑖𝑡 , 𝑡 1, . . . , 𝑇,
donde 𝐱 𝑖𝑡 es un vector de 1 × 𝐾 y los instrumentos en el tiempo 𝑡 son 𝐳𝑖𝑡 , a 1 × 𝐿 vector
para todos los 𝑡. Supongamos que los instrumentos son estrictamente exógenos en el
sentido de que
E(𝑢𝑖𝑡 |𝐳𝑖1 , 𝐳𝑖2 , … , 𝐳𝑖𝑇 ) = E(𝑢𝑖𝑡 |𝐳𝑖 ) = 0, 𝑡 1, . . . , 𝑇
Supongamos que E(𝐮𝑖 𝐮′𝑖 |𝐳𝑖 ) = E(𝐮𝑖 𝐮′𝑖 ) = 𝛀, donde 𝐳𝑖 es el vector todas las variables
exógenas en todos los períodos de tiempo. Además, supongamos que 𝛀 tiene la forma AR
(1):
1 𝜌 𝜌2 … 𝜌𝑇−1
𝜌 1 𝜌 … 𝜌𝑇−2
2
𝛀 = 𝛔𝑒 𝜌2 𝜌 ⋱ ⋱ ⋮ 𝛔2𝑒 𝚿
⋮ ⋱ ⋱ 1 𝜌
(𝜌𝑇−1 𝜌𝑇−2 … 𝜌 1 )
Donde 𝑢𝑖𝑡 = 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖𝑡 , 𝑡 1, . . . , 𝑇
101
a. Si 𝐙𝑖′ = (𝐳𝑖1
′ ′
, … , 𝐳𝑖𝑇 ), encuentra la matriz de instrumentos transformados, 𝚿 −𝟏/𝟐 𝐙𝑖 .
b. Describa cómo implementar el estimador GIV como una estimación agrupada de 2SLS
cuando 𝛀 tiene la estructura AR (1).
c. Si cree que el modelo AR (1) puede ser incorrecto o que la suposición de
homoscedasticidad del sistema no es válida, proponga un método simple para obtener
errores estándar válidos y estadísticas de prueba
solución
De la Sección 7.8.6, sabemos que cuando 𝚿 tiene la estructura AR (1) dada anteriormente,
(1 − 𝜌2 )1/2 𝐳𝑖1
𝐳 − 𝜌𝐳𝑖1
𝚿−𝟏/𝟐 𝐙𝑖 = ( 𝑖2 )
⋮
𝐳𝑖𝑇 − 𝜌𝐳𝑖,𝑇−1
𝑦̃𝑖𝑡 = 𝐱̃ 𝑖𝑡 𝑒𝑟𝑟𝑜𝑟𝑖𝑡 , 𝑡 1, . . . , 𝑇 ; 𝑖 1, . . . , 𝑁.
utilizando IVs 𝐳̃𝑖𝑡 , donde
102
𝑒𝑖1 = (1 − 𝜌2 )1/2 𝑢𝑖1
𝑒𝑖𝑡 = 𝑢𝑖𝑡 − 𝜌𝑢𝑖,𝑡−1 , 𝑡 2, . . . , 𝑇.
tendrá una correlación serial si el modelo AR (1) es incorrecto, y tales errores siempre
pueden tener heterocedasticidad si {𝑢𝑖𝑡 } lo hace. Sabemos que el estimador GIV que usa
una estructura de varianza incorrecta sigue siendo consistente y √𝑁 es asintóticamente
normal. Podríamos obtener un estimador más eficiente suponiendo una estructura simple
de AR (1) que usar P2SLS en el original: en todo caso, la contabilidad de la correlación
serial sería mejor que ignorarla en la estimación. Esta es la misma motivación subyacente a
la literatura de ecuaciones de estimación generalizada cuando las variables explicativas son
estrictamente exógenas.
103
e. No. Estas son variables de elección del mismo hogar. No tiene sentido pensar cómo
los cambios exógenos en uno afectarían al otro. Además, supongamos que observamos los
efectos de los cambios en las tasas del impuesto a la propiedad local. No desearíamos tener
un ahorro familiar fijo y luego medir el efecto de cambiar los impuestos a la propiedad en
los gastos de vivienda. Cuando el impuesto a la propiedad cambia, una familia
generalmente ajustará los gastos en todas las categorías. Un sistema SUR con impuestos a la
propiedad como una variable explicativa es la estrategia adecuada.
f. No. Ambos son elegidos por la empresa, presumiblemente para maximizar las
ganancias. No tiene sentido mantener fijos los gastos de publicidad mientras se analiza
cómo afectan otras variables al margen de precios.
g. Sí. Las variables de resultado - cantidad demandada y gastos de publicidad - están
determinadas por diferentes agentes económicos. Tiene sentido modelar la cantidad
demandada como una función de los gastos de publicidad, reflejando que una mayor
exposición al público puede afectar la demanda, y al mismo tiempo reconocer que la
cantidad de una empresa que gasta en publicidad puede determinarse por la cantidad de
producto que puede vender.
h. Sí. La tasa de infección por VIH está determinada por muchos factores, y el uso del
condón es uno. Fácilmente podemos imaginarnos interesados en los efectos de hacer que
los condones estén más disponibles en la incidencia del VIH. La segunda ecuación, que
modela la demanda de condones en función de la incidencia del VIH, captura la idea de
que más personas podrían usar condones a medida que aumenta el riesgo de infección por
el VIH. Cada ecuación se sostiene por sí misma.
9.2. a. Escribe el sistema como
104
La ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠 se identifica si y solo si al menos uno de los términos 𝑓𝑖𝑛𝑐 y
𝑓𝑟𝑒𝑚𝑎𝑟𝑟 aparece realmente en la ecuación de 𝑠𝑢𝑝𝑝𝑜𝑟𝑡; es decir, necesitamos
𝛿11 ≠ 0 o 𝛿13 ≠ 0
b. Cada ecuación puede estimarse mediante 2SLS utilizando instrumentos
1, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑚𝑟𝑒𝑚𝑎𝑟𝑟.
c. Primero, obtenga el formulario reducido para visitas:
𝑣𝑖𝑠𝑖𝑡𝑠 = 𝝅20 + 𝝅21 𝑓𝑖𝑛𝑐 + 𝝅22 𝑓𝑟𝑒𝑚𝑎𝑟𝑟 + 𝝅23 𝑑𝑖𝑠𝑡 + 𝝅24 𝑚𝑟𝑒𝑚𝑎𝑟𝑟 + 𝑣2
Estime esta ecuación mediante OLS y guarde los residuos, 𝑣̂2 . Luego, ejecute la regresión
OLS
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 en 1, 𝑣𝑖𝑠𝑖𝑡𝑠, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑣̂2
y realice una prueba 𝑡 (resistente a heterocedasticidad) de que el coeficiente en 𝑣̂2 es cero.
Si esta prueba rechaza, concluimos que las 𝑣𝑖𝑠𝑖𝑡𝑠 son de hecho endógenas en la ecuación
de 𝑠𝑢𝑝𝑝𝑜𝑟𝑡.
d. Hay una restricción sobreidentificante en la ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠, suponiendo que 𝛿11 y
𝛿12 son ambos diferentes de cero. Asumiendo homoscedasticidad de 𝑢2 , la forma más fácil
de probar la restricción de identificación es primero estimar la ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠 por
2SLS. como en la parte b. Deje 𝑢̂2 ser los residuos 2SLS. Luego, ejecute la regresión
auxiliar
𝑢̂2 en 1, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑚𝑟𝑒𝑚𝑎𝑟𝑟
el tamaño de la muestra multiplicado por el 𝑅-cuadrado habitual de esta regresión se
distribuye asintóticamente como 𝜒12 bajo la hipótesis nula de que todos los instrumentos
son exógenos.
̂
Una prueba robusta de heterocedasticidad también es fácil de obtener. Deje que 𝑠𝑢𝑝𝑝𝑜𝑟𝑡
denote los valores ajustados de la regresión de forma reducida para 𝑠𝑢𝑝𝑝𝑜𝑟𝑡. A
continuación, regrese 𝑓𝑖𝑛𝑐 (o 𝑓𝑟𝑒𝑚𝑎𝑟𝑟) en 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ̂ , 𝑚𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡 y guarde los
residuos, digamos 𝑟1. Luego, ejecute la regresión simple (sin intersección) de 𝑢̂2 en 𝑟1 y use
la estadística robusta de heterocedasticidad en 𝑟1. (Tenga en cuenta que no se necesita
interceptar en esta regresión final, pero incluir uno es inofensivo).
9.4. a. Debido a que la tercera ecuación no contiene variables endógenas del lado derecho,
existe una forma reducida para el sistema si y solo si las primeras dos ecuaciones se pueden
resolver para 𝑦1 y 𝑦2 como funciones de 𝑦3 , 𝑧1 , 𝑧2 , 𝑧3 , 𝑢1 y 𝑢2 . Pero esto es equivalente a
preguntar cuándo el sistema
1 −𝛾12 𝑦1 𝑐1
( ) (𝑦 ) = (𝑐 )
1 −𝛾22 2 2
tiene una solución única en 𝑦1 e 𝑦2 . Esta matriz no es singular si y solo si 𝛾12 ≠ 𝛾22. Esto
implica que la 3 × 3 matriz Γ en la notación general SEM es no singular.
105
b. La tercera ecuación satisface la condición de rango porque no incluye variables
endógenas del lado derecho. La primera ecuación falla la condición de orden porque no hay
variables exógenas excluidas en ella, pero hay una variable endógena incluida. Esto significa
que también falla la condición de rango. La segunda ecuación solo se identifica según la
condición de orden porque contiene dos variables endógenas y también excluye dos
variables exógenas. Para examinar la condición de rango, escriba la segunda ecuación como
𝐲𝛄2 + 𝐳𝛅2 + 𝑢2 = 𝟎, donde 𝛄2 = (−1, 𝛾22 , 𝛾23 )′ y 𝛅2 = (𝛿21 , 0,0)′. Escribir 𝛃2 =
(−1, 𝛾22 , 𝛾23 , 𝛿21 , 𝛿22 , 𝛿23 )′ como el vector de parámetros para la segunda ecuación con
solo la normalización 𝛾21 = −1 impuesta. Entonces, las restricciones 𝛿22 = 0 y 𝛿23 = 0
pueden escribirse como 𝐑 2 𝛃2 = 0, donde
0 0 0 0 1 0
𝐑2 = ( )
0 0 0 0 0 1
Ahora, dejando que B sea la matriz 6×3 de todos los parámetros, e imponiendo todas las
restricciones de exclusión en el sistema,
𝛿 𝟎 𝛿32
𝐑 2 𝐁 = ( 12 )
𝛿13 𝟎 𝛿33
La condición de rango requiere que esta matriz tenga un rango igual a dos. Siempre que el
vector (𝛿32 , 𝛿33 )′ no sea un múltiplo de (𝛿12 , 𝛿13 )′ , o 𝛿12 𝛿33 ≠ 𝛿13 𝛿32 , se cumple la
condición de rango.
9.5. a. Deje 𝛃1 denotar el vector de parámetros 7×1 en la primera ecuación con solo la
restricción de normalización impuesta:
𝛃1′ = (−1, 𝛾12 , 𝛾13 , 𝛿11 , 𝛿12 , 𝛿13 , 𝛿14 )
Las restricciones 𝛿12 = 𝟎 y 𝛿13 + 𝛿14 = 𝟏 se obtienen eligiendo
0 0 0 1 0 0)
𝐑𝟏 = (
1 0 0 0 1 1
Como 𝐑 𝟏 tiene dos filas, y 𝐺 − 1 = 2, se cumple la condición de orden. Ahora
necesitamos verificar la condición de rango. Dejar que 𝐁 denote la matriz 7×3 de todos los
parámetros estructurales con solo las tres normalizaciones, la multiplicación directa de la
matriz da
𝛿12 𝛿22 𝛿32
𝐑𝟏𝐁 = ( )
𝛿13 + 𝛿14 − 𝟏 𝛿23 + 𝛿24 − 𝛾21 𝛿33 + 𝛿34 − 𝛾31
Por definición de las restricciones en la primera ecuación, la primera columna de 𝐑 𝟏 𝐁 es
cero. A continuación, usamos las restricciones en el resto del sistema para obtener la
expresión de 𝐑 𝟏 𝐁 con toda la información impuesta. Pero 𝛾23 = 𝟎, 𝛿22 = 𝟎, 𝛿23 = 𝟎,
𝛿24 = 𝟎, 𝛾31 = 𝟎, y 𝛾32 = 𝟎, y entonces 𝐑 𝟏 𝐁 se convierte
𝟎 𝟎 𝛿32
𝐑𝟏𝐁 = ( )
𝟎 −𝛾21 𝛿33 + 𝛿34 − 𝛾31
La identificación requiere 𝛾21 ≠ 0 y 𝛿32 ≠ 0.
106
b. Es fácil ver cómo estimar la primera ecuación bajo los supuestos dados. Establezca
𝛿14 = 𝟏 − 𝛿13 y conéctelo a la ecuación. Después del álgebra simple obtenemos
𝑦1 − 𝑧4 = 𝛾12 𝑦2 + 𝛾13 𝑦3 + 𝛿11 𝑧1 + 𝛿13 (𝑧3 − 𝑧4 ) + 𝑢1
107