Sei sulla pagina 1di 109

Manual de Soluciones para el Instructor

para
Análisis Econométrico de la Sección Transversal y
Datos de Panel,
segunda edición
Por Jeffrey M. Wooldridge

2011
La prensa MIT
© 2011 Instituto de Tecnología de Massachusetts

Todos los derechos reservados. Ninguna parte de este libro puede ser
reproducida en cualquier forma o por cualquier medio electrónico o mecánico
(incluyendo el fotocopiado, de grabación o de almacenamiento y recuperación
de información) sin permiso por escrito del editor.
Contenido
Prefacio. ............................................................................................................................. 2
Soluciones de problemas del Capítulo 2 ...................................................................... 4
Soluciones de problemas del Capítulo 3 ............................................................... …11
Soluciones de problemas del Capítulo 4 ....................................................................15
Soluciones de problemas del Capítulo 5 ....................................................................38
Soluciones de problemas del Capítulo 6 ....................................................................57
Soluciones de problemas del Capítulo 7 ....................................................................80
Soluciones de problemas del Capítulo 8 ................................................................. 104
Soluciones de problemas del Capítulo 9 ................................................................. 126
Soluciones de problemas del Capítulo 10 ............................................................... 151
Soluciones de problemas del Capítulo 11 ............................................................... 207
Soluciones de problemas del Capítulo 12 ............................................................... 242
Soluciones de problemas del Capítulo 13 ............................................................... 270
Soluciones de problemas del Capítulo 14 ............................................................... 295
Soluciones de problemas del Capítulo 15 ............................................................... 304
Soluciones de problemas del Capítulo 16 ............................................................... 341
Soluciones de problemas del Capítulo 17 ............................................................... 358
Soluciones de problemas del Capítulo 18 ............................................................... 406
Soluciones de problemas del Capítulo 19 ............................................................... 445
Soluciones de problemas del Capítulo 20 ............................................................... 465
Soluciones de problemas del Capítulo 21 ............................................................... 484
Soluciones de problemas del Capítulo 22 ............................................................... 538

1
Prefacio
Este manual contiene las soluciones a todos los problemas en la segunda
edición de mi libro MIT de prensa, Análisis econométrico de la sección transversal y
datos del panel. Además de problemas impresos en el texto, he incluido algunos
"problemas de bonificación" junto con sus soluciones. Varios de estos
problemas los dejé debido a restricciones de espacio y otros ocurrieron desde
que el libro fue publicado. Tengo una colección de otros problemas, con
soluciones, que han utilizado en los últimos 10 años para conjuntos de
problemas, exámenes para llevar a casa, y en los exámenes de la clase. Soy feliz
de proporcionar esto a los instructores que han adoptado el libro para un
curso.
Resolví los ejemplos empíricos usando varias versiones de Stata, desde 8.0
hasta 11.0. He incluido los comandos Stata y la salida directamente en el texto.
Sin duda hay usuarios de Stata y usuarios de otros paquetes de software que, al
menos en algunos casos, verán más formas eficientes o más elegantes de
calcular estimaciones y estadísticas de prueba.
Algunas de las soluciones son bastante largas. Además de completar todo o
la mayoría de los pasos algebraicos he tratado de ofrecer comentarios sobre
por qué un problema en particular es interesante, por qué resolvió el problema
de la manera que lo hice, o qué conclusiones cambiarían si variáramos algunas
de las suposiciones. Varios de los problemas ofrecen lo que parecen ser
soluciones novedosas para situaciones que pueden surgir en el trabajo
empírico real. Mi avance en el acabado de este manual se vio frenado por un
problema de salud en primavera y verano de 2010. Afortunadamente, varios
estudiantes de posgrado vinieron en mi ayuda. Me gustaría agradecer a Do
Won Kwak, Cuicui Lu, Myoung-Jin Keay, Shenwu Sheng, Iraj Rahmani y
Monthien Satimanon por su asistencia competente. Apreciaría aprender sobre

2
cualquier error en las soluciones y también recibir sugerencias sobre cómo
hacer que las respuestas sean más transparentes.
Por supuesto que con gusto entretendré sugerencias sobre cómo se puede
mejorar el texto, también. Me pueden contactar por correo electrónico a
wooldri1@msu.edu.

3
Soluciones a los problemas del Capítulo 2

2.1 a. La diferenciación parcial simple da

𝜕 𝐸( 𝑦|𝑥1 . 𝑥2 )
= 𝛽1 + 𝛽4 𝑥2
𝜕𝑥1

Y
𝜕 𝐸( 𝑦|𝑥1 . 𝑥2 )
= 𝛽2 + 2𝛽3 𝑥2 + 𝛽4 𝑥1
𝜕𝑥2

b. Por definición 𝐸( 𝑢|𝑥1 𝑥2 ) = 0. Porque 𝑥22 y 𝑥1 𝑥2 son funciones de (𝑥1 . 𝑥2 ), no es así,


importa si nosotros también los condicionamos o no: 𝐸( 𝑢|𝑥1 . 𝑥2 . 𝑥22 . 𝑥1 𝑥2 ) = 0.

c. Todo lo que podemos decir sobre Var(𝑢|𝑥1 𝑥2 ) es que no es negativo para todo 𝑥1 y 𝑥2 :

E(𝑢|𝑥1 . 𝑥2 ) = 0 de ninguna manera restringe Var(𝑢|𝑥1 𝑥2 ).


2.2 a. Porque 𝜕E(𝑦|𝑥)/𝜕𝑥 = 𝛿1 + 2𝛿2 (𝑥 − µ). El efecto marginal de 𝑥 en E(𝑦|𝑥) es
lineal función de 𝑥. Si 𝛿2 es negativo entonces el efecto marginal es menor que 𝛿1 cuando
𝑥 está por encima de su media.

Si, por ejemplo, 𝛿1 > 0 y 𝛿2 < 0, el efecto marginal eventualmente será negativo para 𝑥 lo
suficiente arriba µ. (Si los valores de 𝑥 tales que 𝜕E( 𝑦|𝑥)/𝜕𝑥 < 0 representa un interesante
segmento de la población con un asunto diferente).

b. Porque 𝜕E( 𝑦|𝑥)/𝜕𝑥 es función de 𝑥, tomamos la expectativa de 𝜕𝐸( 𝑦|𝑥)/𝜕𝑥 sobre la


distribución de 𝑥:E[ 𝜕E(𝑦|𝑥)/𝜕𝑥]= E [𝛿1 + 2𝛿2 (𝑥 − µ)]= 𝛿1 + 2𝛿2 E[(𝑥 − µ)]= 𝛿1 .

c. Una forma de hacer esta parte es aplicar la propiedad LP.5 del apéndice 2A. Tenemos

L(𝑦|1, 𝑥) = L[E(𝑦|𝑥)] = 𝛿0 + 𝛿1 L[(𝑥 − µ)|1, 𝑥] + 𝛿2 L[(𝑥 − µ)2 |1, 𝑥]

= 𝛿0 + 𝛿1 (𝑥 − µ) + 𝛿2 (𝛾0 + 𝛾1 𝑥).

Porque L[(𝑥 − µ)|1, 𝑥] = 𝑥 − µ y 𝛾0 + 𝛾1 𝑥 es la proyección lineal de (𝑥 − 𝛾)2 de 𝑥. Por


suposición (𝑥 − µ)2 y 𝑥 no están correlacionados, y así 𝛾1 = 0 . Resulta que

𝐿(𝑦|𝑥) = (𝛿0 − 𝛿1 𝑢 + 𝛿2 𝑦0 ) + 𝛿1 𝑥

4
2.3. a. 𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝑢. Donde 𝑢 tiene una media cero dado 𝑥1 𝑦 𝑥2 :
𝐸(𝑢|𝑥1 . 𝑥2 ) = 0. No podemos decir nada más sobre 𝑢.

b. 𝜕E(𝑦|𝑥1 , 𝑥2 )/𝜕𝑥1 = 𝛽1 + 𝛽3 𝑥2 . Porque E(𝑥2 ) = 0, 𝛽1 = E[𝜕E(𝑦|𝑥1 , 𝑥2 )/𝜕𝑥1 ].

Es decir 𝛽1 es el efecto parcial promedio de 𝑥1 en E(𝑦|𝑥1 , 𝑥2 )/𝜕𝑥1 . Similar 𝛽2 =


E[𝜕E(𝑦|𝑥1 , 𝑥2 )/𝜕𝑥2 ].

c. Si 𝑥1 y 𝑥2 son independientes con cero significa entonces E(𝑥1 𝑥2 ) = E(𝑥1 )E(𝑥2 ) = 0.


Promover la covarianza entre 𝑥1 𝑥2 y 𝑥1 es 𝐸(𝑥1 𝑥2 · 𝑥1 ) = E(𝑥12 𝑥2 ) = E(𝑥12 )𝐸(𝑥2 ) por
independencia = 0. Un argumento similar muestra que la covarianza entre 𝑥1 𝑥2 y 𝑥2 es
cero.

Pero luego la proyección lineal de 𝑥1 𝑥2 sobre (1, 𝑥1 , 𝑥2 ) es idénticamente cero. Ahora solo
una la ley de proyecciones iteradas (Propiedad LP.5 en el apéndice 2A):

L(𝑦|1, 𝑥1 , 𝑥2 ) = L(𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥1 𝑥2 |1, 𝑥1 , 𝑥2 )

= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝐿(𝑥1 𝑥2 |1, 𝑥1 𝑥2 )

= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2

d. Ecuación (2.47) es más útil porque nos permite calcular los efectos parciales de 𝑥1 y 𝑥2 a
cualquier valor de 𝑥1 y 𝑥2 . Bajo los supuestos que hemos hecho, la proyección lineal en
(2.48) tiene como coeficientes dependiente en 𝑥1 y 𝑥2 los efectos parciales en la población
valores promedio de 𝑥1 y 𝑥2 - cero en ambos casos – pero no nos permite obtener los
efectos parciales en cualquier otro valor de 𝑥1 y 𝑥2 . Por cierto, las principales conclusiones
de este problema se cumplen si permitimos que 𝑥1 y 𝑥2 tengan medios de población
distintos de cero.

2.4. Por suposición,

E(𝑢|𝑥, 𝑣) = 𝛿0 + 𝑥𝛿 + 𝜌1 𝑣

Por algunos escalares 𝛿0 . 𝜌1 y un vector columna 𝛿. Ahora, es suficiente para demostrar


que 𝛿0 = 0 y 𝛿 = 0.

Una forma de hacerlo es usar LP.7 en el apéndice 2A. Y en particular, la ecuación (2.56).

5
Esto dice que (𝛿0 , 𝛿 ′ )′ se puede obtener proyectando primero (1,x) sobre 𝑣 y obtener la
población residual r . Luego proyecte 𝑢 en r, ahora desde 𝑣 tiene media cero y no esta
correlacionado con x, la proyección del primer paso no hace nada: r = (1, 𝑥). Por lo tanto
la proyección 𝑢 en 𝑟 es solo una proyección sobre (1, 𝑥).

Como 𝑢 tiene cero media y no está correlacionado con x, esta proyección es idénticamente
cero lo que significa que 𝛿0 = 0 𝑦 𝛿 = 0.

2.5. Por definición y las suposiciones medias condicional cero Var(𝑢1 |x,𝑧) = Var(𝑦|x.z)

Y Var(𝑢2 |x) = Var(y|x). Por suposición, estos son constantes y necesariamente iguales a
𝜎12 ≡ Var(𝑢1 ) y 𝜎22 ≡ Var (𝑢2 ), respectivamente, Entonces la propiedad CV.4 implica
que 𝜎22 ≥ 𝜎12 .

Esta simple conclusión significa que cuando las varianzas de error son constantes, la
varianza del error disminuye a medida que se condicionan más variables explicativas.

2.6. a. Por linealidad de la proyección lineal,

L(𝑞|1, 𝑥) = L(𝑞 ∗ |1,x) + L(𝑒|1,x) = L(𝑞 ∗ |1,x)

Donde la última desigualdad sigue porque L(𝑒|1,x) = 0 cuando E(𝑒) = 0 y 𝐸(x ′ 𝑒) = 0 .

Por lo tanto, los parámetros en la proyección lineal de 𝑞 sobre (1,x) son lo mismo que la
proyección lineal de 𝑞 ∗ sobre (1, x). Este hecho es útil para estudiar ecuaciones con error
de medición en las variables explicadas o explicativas.

𝑏. 𝑟 = 𝑞 − L(𝑞|1,x) = (𝑞 ∗ + 𝑒) − L(𝑞|1,x) = (𝑞 ∗ + 𝑒) − L(𝑞 ∗ |1,x) (De la parte a)

= [𝑞 ∗ − L(𝑞 ∗ |1,x) + 𝑒 = 𝑟 ∗ + 𝑒.

2.7. Escribe la ecuación en forma de error como:

𝑦 = 𝑔(𝑥) + 𝑧𝛽 + 𝑢

𝐸(𝑢|x,z) = 0

Tome el valor esperado de la primera ecuación condicional solo en x:

6
𝐸(𝑦|x) = g(x) + [𝐸(z|x)]𝛽

y resta esto de la primera ecuación para obtener

𝑦 − E(𝑦|x) = [z - E(z|x)]𝛽 + 𝑢

𝑦̃ = 𝑧̃ 𝛽 + 𝑢

Porque 𝑧̃ es una función de (x,z), E(𝑢|𝑧̃ ) = 0 [ya que E(𝑢|x,z) = 0], y entonces
E(𝑦̃|𝑧̃ ) = 𝑧̃ 𝛽 .

Este resultado básico es fundamental en la literatura sobre la estimación de modelos


lineales parciales. Primero, uno estima E(𝑦|x) y E(𝑥|y) usando métodos muy flexibles
(típicamente, métodos no paramétricos).

̂(𝑦𝑖 |xi ) y 𝑧̃𝑖 ≡ 𝑧𝑖 −


Luego, después de obtener residuos de la forma 𝑦̃𝑖 ≡ 𝑦𝑖 − E
̂(𝑧𝑖 |𝑥𝑖 ), 𝛽 se estima a partir de una regresión MCO 𝑦̃𝑖 en 𝑧̃𝑖 , 𝑖 = 1 … . . 𝑁 . Bajo
E
condiciones generales, este tipo de procedimiento de separación no paramétrico conduce a
una √𝑁 -estimador consistente, asintóticamente normal de 𝛽 . Ver Robinson (1988) y
Powell (1994).

En el caso donde E(𝑦|𝑥) y los elementos de E(𝑧|𝑥) se aproximan como funciones lineales
de un conjunto común de funciones, por ejemplo {ℎ1 (𝑥) … ℎ𝑄 (𝑥)}, la participación es
equivalente a estimar un modelo lineal

𝑦 = 𝛼0 + 𝛼1 ℎ1 (𝑥) + ⋯ + 𝛼𝑄 ℎ𝑄 (𝑥) + 𝑥𝛽 + 𝑒𝑟𝑟𝑜𝑟

por MCO.

2.8. a. Por exponenciación podemos escribir 𝑦 = exp[𝑔(𝑥) + 𝑢] = exp[𝑔(𝑥)] exp(𝑢).

Resulta que

𝐸(𝑦|𝑥) = exp[g(𝑥)] 𝐸[exp(𝑢) |𝑥] = exp[g(𝑥)] 𝑎(𝑥)

El uso de la regla del producto da

7
𝜕𝐸(𝑦|𝑥) 𝜕𝑔(𝑥) 𝜕𝑎(𝑥)
= exp[𝑔(𝑥)] 𝑎(𝑥) + exp[𝑔(𝑥)]
𝜕𝑥𝑗 𝜕𝑥𝑗 𝜕𝑥𝑗

𝜕𝑔(𝑥) 𝜕𝑎(𝑥) 1
= 𝐸(𝑦|𝑥) + 𝐸(𝑦|𝑥) .
𝜕𝑥𝑗 𝜕𝑥𝑗 𝑎(𝑥)

Por lo tanto.

𝜕𝐸(𝑦|𝑥) 𝑥𝑗 𝜕𝑔(𝑥) 𝜕𝑎(𝑥) 𝑥𝑗


. = . 𝑥𝑗 + .
𝜕𝑥𝑗 𝐸(𝑦|𝑥) 𝜕𝑥𝑗 𝜕𝑥𝑗 𝑎(𝑥)

Podemos estableces esta relación de manera más simple asumiendo E(y|x)>0 para todo x
usando la ecuación (2.10).

b. Escribe 𝑧𝑗 ≡ log(𝑥𝑗 ) 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜 𝑥𝑗 = exp(𝑧𝑗 ). Luego, utilizando la regla de la


cadena,

𝜕g(x) 𝜕𝑔(𝑥) 𝜕𝑔(𝑥) 𝜕𝑥𝑗 𝜕𝑔(𝑥) 𝜕𝑔(𝑥)


= = = ⋅ = ⋅ exp(𝑧𝑗 ) = ⋅ 𝑥𝑗
𝜕log(𝑥𝑗 ) 𝜕𝑧𝑗 𝜕𝑥𝑗 𝜕𝑧𝑗 𝜕𝑥𝑗 𝜕𝑥𝑗

c. De log(y) = g(x) + µ y E(𝑢|𝑥) = 0 tenemos E[log(𝑦|𝑥)] = g(𝑥). Por lo tanto,


usando (2.11), la elasticidad sería simplemente

𝜕g(x) 𝜕g(𝑥)
= ⋅ 𝑥𝑗
𝜕log(𝑥𝑗 ) 𝜕𝑥𝑗

que, comparada con la definición basada en E(𝑦𝑢|𝑥), omite la elasticidad de a(x) con
respecto a 𝑥𝑗 .

2.9. Esto se demuestra fácilmente mediante el uso expectativas iteradas:

E(x'𝑦) = E[E(x ' 𝑦|x)] = E[x ' E(𝑦|x)] = E[𝑥 ′ µ(x)]

Por lo tanto,

δ=E(x'x)−1 E(x',𝑦)= E[E(x ' x)]−1 E[x ′ µ(x)]

y la última ecuación es el vector de parámetros de la proyección lineal de µ(x) en x.

2.10. a. Como se da en la pista, siempre podemos escribir

E(𝑦|x,𝑠) = (1 − 𝑠) ⋅ µ0 (x) +𝑠 ⋅ µ1 (x)

8
Ahora condicionar sólo en s y uso reiterado expectativas:

E(𝑦|𝑠) = E[E(𝑦|x|s)] = E[(1 − 𝑠) ⋅ µ0 (x) +𝑠 ⋅ µ1 (x)|𝑠]

= (1 − 𝑠)E[µ0 (x)|s] ⋅ 𝑠E[µ1 (x)|s]

Por lo tanto,

E(𝑦|𝑠 = 1) = E[µ1 (x)|s=1]

E(𝑦|𝑠 = 0) = E[µ0 (x)|s=0]

y así, sumando y restando E[µ0 (x)|𝑠=1] , obtenemos

E(𝑦|𝑠 = 1) − E(𝑦|𝑠 = 0) = E[µ1 (x)|𝑠 − 1] − E[µ0 (x)|𝑠 = 0)]

=|{E[µ1 (x)|𝑠 = 1] − E[µ0 (x)|𝑠 = 1]} + {E[µ0 (x)|𝑠 = 1)] − E[µ0 (x)|𝑠 = 0]}

b. Utilice la Parte A y la linealidad de los medios condicionales:

E(𝑦|𝑠 = 1)E(𝑦|𝑠 = 0) = [E(x|𝑠 = 1)𝛽1 -E(x|𝑠 = 1)𝛽0 ] + [E(x|𝑠 = 1)𝛽0 - E[x|𝑠 = 0)𝛽0 ]

=E(x|𝑠 = 1)⋅(𝛽1 − 𝛽0 ) + [E(x|𝑠 = 1) - E(x|𝑠 = 0)] ⋅ 𝛽0

Esta descomposición atribuye la diferencia en las medias incondicionales,E(y|𝑠 = 1) −


E(y|𝑠 = 0), a dos piezas.

La primera parte se debe a las diferencias en los parámetros de regresión, 𝛽1 − 𝛽0 donde


evaluamos la diferencia en el promedio de las covariables de la s = 1 subpoblación.

La segunda parte es debido a una diferencia en los medios de las covariables de las dos
subpoblaciones - donde aplicamos los coeficientes de regresión de la s = 0 subpoblación.

Si, por ejemplo, las dos funciones de regresión son los mismos - es decir, 𝛽1 − 𝛽0-
entonces cualquier diferencia en la subpoblación significa E(y|𝑠 = 0) y E(y|𝑠 = 1) se
debe a una diferencia en los promedios de las covariables a través de las subpoblaciones.

Si los medios de covarianza son los mismos - es decir, E(x|𝑠 = 1) = E(x|𝑠 = 0) −

luego E(y|𝑠 = 0) y E(y|𝑠 = 0) puede aún diferir si β1≠β0.

9
En muchas aplicaciones, las dos piezas en E(y|𝑠 = 1) − E(y|𝑠 = 0) están presentes. Por
cierto, el enfoque en este problema no es la única manera interesante para descomponer
E(y|𝑠 = 1) − E(y|𝑠 = 0). Véase, por ejemplo, TE Elder, JH Goddeeris, y SJ Haider,
“brechas inexplicables y Oaxaca-Blinder Descomposiciones,” Economía del Trabajo de
2010.

10
Soluciones a los problemas del Capítulo 3

3.1. Para probar el Lema 3.1, hay que demostrar que para todos ε > 0, existe bε < ∞ y un
número entero Nε tal que P[|𝑥𝑁 | ≥ 𝛽𝜀 ] < 𝜀, todo N ≥ Nε. Usamos el siguiente hecho:
𝑝
desde 𝑥𝑁 → 𝑎, para cualquier ε > 0 existe un Nε número entero tal que P[|𝑥𝑁 − 𝑎| >
1] < 𝜀 para todo N ≥ Nε. [La existencia de Nε se implica por definición 3.3 (1).

Pero |𝑥𝑁 | = |𝑥𝑁 − 𝑎 + 𝑎| ≤ |𝑥𝑁 − 𝑎| + |𝑎| (Por la desigualdad triangular), y así |𝑥𝑁 | −
|𝑎| ≤ |𝑥𝑁 − 𝑎|. De ello se desprende que P[|𝑥𝑁 | − |𝑎|>1]≤ 𝑃[|𝑥𝑁 | − |𝑎| > 1] .

Por lo tanto, en la Definición 3.3 (3) podemos tomar bε ≡ |a|+1 (independientemente del
valor de ε) y luego la existencia de Nε sigue de Definición 3.3 (1).

3.2. Cada elemento de la K x 1 vector 𝑍𝑁′ x𝑁 es la suma de términos J de la forma


𝑍𝑁𝑗𝑖 𝑥𝑁𝑗 . Debido 𝑍𝑁𝑗𝑖 = 𝑜𝑝 (1)y 𝑥𝑁𝑗 = 𝑂𝑝 (1), cada término en la suma es 𝑜𝑝 (1) del
Lema 3.2 (4). Por el lema 3.2 (1), la suma de términos 𝑜𝑝 (1) es 𝑜𝑝 (1).

𝑝
3.3. Esto se deduce de inmediato del Lema 3.1, porque g(x𝑁 ) → g(𝑐).

3.4. Ambas partes se siguen del teorema de la aplicación continua y propiedades básicas de
la distribución normal.

a. La función definida por g(𝑧) = 𝐴′𝑧 es claramente continua. Además, si z ~ Normal


(0,V) entonces 𝐴′𝑧 ~ Normal (0, A’VA). Por el teorema de la aplicación continua,
𝑑
𝐴′𝑧𝑛 → 𝐴′𝑧 ~ Normal (0, A’VA).

b. Porque V es no singular, la función g(𝑧) = 𝑧𝑉 −1 𝑧 escontinuo. Pero si


−1 𝑑 −1
𝑧 ~ Normal(0, 𝑉), 𝑧 ′𝑉 𝑧 ~ 𝑥𝑘2 . 𝑆𝑜 𝑧𝑁′ 𝑉 −1 → 𝑧 ′𝑉 𝑧~ 𝑥𝑘2 .
305. a. Debido Var(𝑦̅𝑁 ) = 𝜎 2 /𝑁, Var [√𝑁(𝑦̅𝑁 − µ)] = 𝑁(𝜎 2 /𝑁) = 𝜎 2 .

𝑎
b. Por el CLT, √𝑁(𝑦̅𝑁 − µ) ~ Normal (0, 𝜎 2 ), y también 𝐴𝑉𝑎𝑟[√𝑁(𝑦̅𝑁 − µ)] = 𝜎 2 .

c. Obtenemos 𝐴𝑉𝑎𝑟(𝑦̅𝑁 ) por divisor 𝐴𝑉𝑎𝑟[√𝑁(𝑦̅𝑁 − µ)] para 𝑁. Por lo tanto,


𝜎2
𝐴𝑉𝑎𝑟(𝑦̅𝑁 ) = .
𝑁

11
Como era de esperar, esto coincide con la variación real de 𝑦̅𝑁 .

d. La desviación estándar asintótica de 𝑦̅𝑁 es la raíz cuadrada de su varianza asintótica, o


𝜎/√𝑁.

e. Para obtener el error estándar asintótico de 𝑦̅𝑁 , necesitamos un estimador consistente de


σ.

𝑁
Por lo general, el estimador no sesgado de 𝜎 2 es utilizado: 𝜎̂ 2 = (𝑁 − 1) −1 ∑ 𝑖=1
(𝑦𝑖 −
𝑦̅𝑁 ) 2 , y a continuación, 𝜎̂ es el positivo square raíz. El error estándar asintótico de𝑦̅𝑁 es
simplemente √𝑁.

3.6. De la definición 3.4, nosotros necesitar a espectáculo que para cualquier 0 ≤ 𝑐 < 1/2,
𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑜𝑝 (1).

Pero
𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑁 [𝑐−(1/2)] √𝑁(𝜃̂ 𝑁 − 𝜃) = 𝑁 [𝑐−(1/2)] ⋅ 𝑂𝑝 (1).
Porque 𝑐 < 1/2, 𝑁 [𝑐−(1/2)] = 𝑜(1) y ademá𝑠 𝑁 𝑐 (𝜃̂ 𝑁 − 𝜃) = 𝑜(1) ⋅ 𝑂𝑝 (1).
3.7.a. Para 𝜃 > 0 el logaritmo natural es una función continua, y así
plim[log(𝜃̂)] = log[plim(𝜃̂)] = log(𝜃) = 𝛾

b. Usaremos el método delta a para encontrar AVar[√𝑁(𝛾̂ − 𝛾)]. En el caso escalar, si


𝛾̂ = g (𝜃̂ ) entonces AVar[√𝑁(𝛾̂ − 𝛾)] = [𝑑g(θ)/𝑑𝜃]2 AVar[√𝑁(𝜃̂ − 𝜃)] Cuando
g (𝜃̂) = log(𝜃) - que es, por supuesto, continuamente diferenciable – Avar[√𝑁(𝛾̂ −
𝛾)] = (1/𝜃)2 AVar[√𝑁(𝜃̂ − 𝜃)].
c. En el caso escalar, el error asintótico estándar de𝛾̂̂ es generalmente |𝑑g(𝜃̂)/𝑑𝜃| ⋅ 𝑠𝑒(𝜃̂) .

Por lo tanto, para g(𝜃), 𝑠𝑒(𝛾̂) = 𝑠𝑒 (𝜃̂)/(𝜃̂) . Cuando 𝜃̂ = 4 y

𝑠𝑒(𝜃̂) = 2, 𝛾̂ = log(𝜃) ≈ 1.39 y 𝑠𝑒(𝛾̂) = 1/2.

d. Los asintótico t estadística para pruebas 𝐻0 : 𝜃 = 1 𝑒s (𝜃̂ − 1)/𝑠𝑒(𝜃̂ ) = 3/2 = 1.5 .

e. Debido 𝛾 𝑙𝑜𝑔(𝜃), la hipótesis nula de interés puede también ser declarado como 𝐻0 ∶
𝛾 = 0 . El estadístico 𝑡 basado en 𝛾̂ es aproximadamente 1. 39 /(.5) = 2.78. Esto
conduce a un fuerte rechazo de 𝐻0 , mientras que el estadístico t basado en ̂𝜃 es, a lo sumo,

12
marginalmente significativa. La lección es que, mediante la prueba de Wald, podemos
cambiar el resultado de las pruebas de hipótesis mediante el uso de transformaciones no
lineales.

3.8 a. Esto se sigue por el teorema de Slutsky desde la función 𝑔(𝜃1 , 𝜃2 ) ≡ 𝜃1 /𝜃2 es
continua en todos los puntos en ℝ2 donde 𝜃2 ≠ 0: 𝑝𝑙𝑖𝑚(𝜃̂1 /𝜃̂2 ) = [𝑝𝑙𝑖𝑚(𝜃̂1 )/
𝑝𝑙𝑖𝑚(𝜃̂2 )] = 𝜃1 /𝜃2 .

b. Para encontrar 𝐴𝑣𝑎𝑟(𝛾̂) necesitamos encontrar ∇ 𝜃 𝑔(𝜃), 𝑔(𝜃1 , 𝜃2 ) = 𝜃1 /𝜃2 . Pero ∇ 𝜃


𝑔(𝜃) = (1/𝜃2 , −𝜃1 /𝜃22 ), y entonces Avar(𝛾̂) = (1/𝜃2 − 𝜃1 /𝜃22 )[Avar(𝜃̂)](1/𝜃2 −
𝜃1 /𝜃22 )'

c. Si 𝜃̂ = (−1.5, .5)′ entonces ∇ 𝜃 𝑔 (𝜃̂ ) = (2,6). Por lo tanto,

̂ (𝛾̂) = (2,6)[𝐴𝑣𝑎𝑟
𝐴𝑣𝑎𝑟 ̂ (𝜃̂)](2,6)’= 66.4. Tomando el square raíz da se(𝛾̂) ≈ 8. 15.

3.9. Por el método delta,

Avar[√𝑁(𝛾̂ − 𝛾)]- Avar[√𝑁(𝛾̂ − 𝛾)] = 𝐺(𝜃)𝑉2 𝐺(𝜃)′ ,

donde 𝐺(𝜃) = ∇𝜃 g(𝜃) es Q x P. Por lo tanto,

Avar[√𝑁(𝛾̂ − 𝛾)]- Avar[√𝑁(𝛾̂ − 𝛾)] = 𝐺(𝜃)(𝑉2 − 𝑉1 )𝐺(𝜃)′ ,

Por supuesto, V2 - V1 es positiva semi-definida, y por lo tanto 𝐺(𝜃)(𝑉2 − 𝑉1 )𝐺(𝜃)′ es


p.s.d. Esto completa la prueba.

3.10. Por supuesto, 𝜎 2 = 𝐸(𝑤𝑖2 ) = 𝑉𝑎𝑟(𝑤𝑖 ) < ∞ .Debido a la suposición de i.id,

1
𝑉𝑎𝑟(𝑥𝑁 ) = (𝑁 −2 ) 2 𝑁𝜎 2 = 𝜎 2

Ahora, la desigualdad de Chebyshev da que para cualquier bε > 0,

𝑉𝑎𝑟(𝑥𝑁 ) 𝜎 2
𝑃[|𝑥𝑁 | ≥ bε] ≤ = 2
𝑏𝜀2 𝑏𝜀

Por lo tanto, en la definición de Op (1), para cualquier ε > 0 elegir bε = σ/√𝜀 y Nε 1 y


luego 𝑃[|𝑥𝑁 | ≥ bε] ≥ ε para todo N ≥ Nε

𝑁
3.11. a. Deje |𝑥𝑁 = 𝑁 −1 𝛴𝑖−1 (𝑤𝑖 − µ𝑖 ), así eso

13
𝑁 𝑁

𝑉𝑎𝑟(𝑥𝑁 ) = 𝑁 −1
∑ 𝑉𝑎𝑟(𝑤𝑖 ) ∑ 𝜎𝑖2
𝑖=1 𝑖=1

Por la desigualdad de Chebyshev, para cualquier 𝜀 > 0,

𝑁
𝑉𝑎𝑟(𝑥𝑁 ) 𝑁 −2 𝛴𝑖−1 𝜎𝑖2
𝑃[|𝑥𝑁 |> ε] ≤ =
𝜀2 𝜀2

De ello se deduce que 𝑃[|𝑥𝑁 |> ε]→ 0 cuando N → ∞ 0 → 0 como N → ∞.

b. Si 𝜎𝑖2 < 𝐵 < ∞ para todo i - es decir, la secuencia de las diferencias está delimitada - a
continuación,

𝑁
𝑏
𝑁 −2 ∑ 𝜎𝑖2 ≤ → 0, 𝑁 → ∞
𝑁
𝑖=1

Por lo tanto, de manera uniforme varianzas limitado es suficiente para secuencias INID
para satisfacer el WLLN.

14
Las soluciones a los problemas Capítulo 4

4.1.a. Exponentiating la ecuación (4.49) da

𝑆𝑎𝑙𝑎𝑟𝑖𝑜 = exp(𝛽0 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾 + 𝑢)

= exp(𝑢) 𝑒𝑥𝑝(𝛽0 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾).

Por lo tanto,

𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑜|𝑥) = 𝐸[exp(𝑢) |𝑥] exp(𝛽0 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾),

donde x denota todas las variables explicativas. Ahora bien, si u y x son independientes
entonces, 𝐸[exp(𝑢) |𝑥] = 𝐸 [exp(𝑢)] = 𝛿0 por ejemplo. Por lo tanto

𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑜|𝑥) = 𝛿0 exp(𝛽0 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾)

Si fijamos casados 𝑚𝑎𝑟𝑟𝑖𝑒𝑑 = 1 y 𝑚𝑎𝑟𝑟𝑖𝑒𝑑 = 0 en este expecation (manteniendo todo


lo demás igual) y encontrar el aumento proporcional obtenemos

𝛿0 exp(𝛽0 + 𝛽1 𝑐𝑎𝑠𝑎𝑑𝑜 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾) − 𝛿0 exp(𝛽0 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾)


= exp(𝛽1 ) − 1
𝛿0 exp(𝛽0 + 𝛽2 𝑒𝑑𝑢𝑐 + 𝑧𝛾)

Por lo tanto, la diferencia porcentual es 100 ⋅ [exp(𝛽1 ) − 1].


b. Desde 𝜃1 = 100 ⋅ [exp(𝛽1 ) − 1] = g(𝛽1 )] , necesitamos la derivada de g con respecto
(𝛽1): 𝑑𝑔/𝑑𝛽1 = 100 ⋅ 𝑒𝑥𝑝(𝛽1 ). El error estándar asintótico de𝛽̂1utilizando el delta
̂1 ):
metroétodo es obtenido como el valor absoluto de 𝑑ĝ/𝑑𝛽1 veces se (𝛽

̂1 ) = 100 ⋅ [exp(𝛽̂1)] ⋅ 𝑠𝑒(𝛽̂1 ).


se (𝜃

c. Podemos evaluar la expectativa condicional, en parte, en dos niveles de la educación, por


ejemplo educ0 y educ1, todo lo demás fijo. El cambio proporcional en el salario esperado
de educ0 a educ1 es
[exp(𝛽2 𝑒𝑑𝑢𝑐1 ) − exp(𝛽2 𝑒𝑑𝑢𝑐0 )]/exp(𝛽2 𝑒𝑑𝑢𝑐0 )

15
= exp[(𝛽2(𝑒𝑑𝑢𝑐1 − 𝑒𝑑𝑢𝑐0 )] − 1 = [exp(𝛽2 ∇𝑒𝑑𝑢𝑐 ) − 1.

Utilizando el mismo argumentos en la parte 𝑏, 𝜃̂2 = 100 ⋅ [exp(𝛽2 ∆𝑒𝑑𝑢𝑐 ) − 1] y

𝑠𝑒(𝜃̂2 ) = ⋅ |∆𝑒𝑑𝑢𝑐|exp(𝛽̂2 ∆𝑒𝑑𝑢𝑐 )𝑠𝑒(𝛽̂ ).

d. Por el estimado versión de ecuación (4.29), 𝛽̂1 = .199, 𝑠𝑒(𝛽̂ ) = .039, 𝛽̂2 =
.065, y se(𝛽̂2 ) = .006 . Por lo tanto, ̂
𝜃1 = 22.01 y se ( ̂
𝜃1 ) = 4.76. 𝑃ara
̂
𝜃2 𝑤𝑒 𝑠𝑒𝑡 ∆𝑒𝑑𝑢𝑐 = 4. Luego

𝜃̂2 = 29.7 𝑦 𝑠𝑒𝜃̂2 ) = 3.11

4.2.a. Para cada 𝑖 que tenemos, por OLS.2, 𝐸(𝑢𝑖 |𝑥) = 0. Por independencia en 𝑖 y
Propiedad CE.5, 𝐸(𝑢𝑖 |𝑋) = 𝐸(𝑢𝑖 |𝑥𝑖 ) porque (𝑢𝑖 , 𝑥𝑖 ) es independiente de las variables
explicativas para todas las demás observaciones. Dejando U ser el 𝑁𝑥1 vector de todos los
errores, esto implica 𝐸(𝑈|𝑋) = 0. Pero 𝛽̂ = 𝛽 + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑈

Y entonces 𝐸(𝛽̂|𝑋) = 𝛽̂ + (𝑋 ′ 𝑋)−1 𝑋 ′ 𝐸(𝑈|𝑋) = 𝛽̂ + (𝑋 ′ 𝑋)−1 𝑋 ′ . 0 = 𝛽̂ .

b. De la expresión 𝛽̂ en parte tenemos

𝑉𝑎𝑟(𝛽̂|𝑋) = 𝑉𝑎𝑟[(𝑋 ′ 𝑋)−1 𝑋 ′ (𝑈|𝑋)] = (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑉𝑎𝑟(𝑈|𝑋)𝑋(𝑋 ′ 𝑋)−1

Ahora, porque 𝐸(𝑈|𝑋) = 0, 𝑉𝑎𝑟(𝑈|𝑋) = 𝐸(𝑈𝑈 ′ |𝑋) Para los términos diagonales,
𝐸(𝑢𝑖2 |𝑋) = 𝐸(𝑢𝑖2 |𝑥𝑖 ) = 𝜎 2 , dondela ultima igualdad es homocedastica. Para los términos
covariantes, tenemos que mostrar que 𝐸(𝑢𝑖 𝑢ℎ |𝑋) = 0 para todo 𝑖 ≠ ℎ, 𝑖, ℎ = 1, … , 𝑁
De nuevo usando la propiedad CE5. 𝐸(𝑢𝑖 𝑢ℎ |𝑋) = 𝐸(𝑢𝑖 𝑢ℎ |𝑥𝑖 𝑥ℎ ) y 𝐸(𝑢𝑖 |𝑋𝑖 𝑈ℎ 𝑋ℎ ) =
𝐸(𝑢𝑖 |𝑋𝑖 ) = 0. Pero luego 𝐸(𝑢𝑖 |𝑥𝑖 𝑢ℎ 𝑥ℎ ) = 𝐸(𝑢𝑖 |𝑥𝑖 𝑢ℎ 𝑥ℎ )𝑢ℎ = 0. Sigue
inmediatamente por expectativas iteradas de que el acondicionamiento en el conjunto más
pequeño también produce un cero media condicional: 𝐸(𝑢𝑖 𝑢ℎ |𝑥𝑖 𝑥ℎ ) = 0. Esto completa
la prueba

4.3.a No en general. La varianza condicional puede ser escrita como


𝑉𝑎𝑟(𝑢|𝑥) = 𝐸(𝑢2 |𝑥𝑖 ) − [𝐸(𝑢2 |𝑥)]2 ; 𝑆𝑖 𝐸(𝑢𝑖 |𝑥) ≠ 0, luego 𝐸(𝑢2 |𝑥) ≠ 𝑉𝑎𝑟(𝑢|𝑥).
b. Puede ser que 𝐸(𝑥 ′ 𝑢) = 0, en cada caso OLS es consistente y 𝑉𝑎𝑟(𝑢|𝑥) es constante

16
Pero, generalmente, los usuales errores estándar no podrían ser validos hasta 𝐸(𝑢|𝑥) − 0
porque 𝐸(𝑢2 |𝑥) que debería ser constante

4.4 Para cada 𝑖, 𝑢̂𝑖 − 𝑦𝑖 − 𝑥𝑖 𝛽̂ − 𝑢𝑖 − 𝑥𝑖 (𝛽̂ − 𝛽), y entonces 𝑢̂𝑖2 − 𝑢𝑖2 − 2𝑢𝑖 𝑥𝑖 (𝛽̂ − 𝛽) +
[𝐸(𝑢2 |𝑥)]2. Ademàs podemos escribir

𝑁 −1 ∑𝑁 ̂ 𝑖2 𝑥𝑖′ 𝑥𝑖 − 𝑁 −1 ∑𝑁
𝑖=1 𝑢
2 ′
𝑖=1 𝑢𝑖 𝑥𝑖 𝑥𝑖 − 2𝑁
−1 ∑𝑁 ̂ ′
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖 +
2
𝑁 −1 ∑𝑁 ̂ ′
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖

omitiendo el “-2”, el segundo término puede ser escrito como la suma de k términos de la
forma ∑𝑁 ̂ ′ ̂
𝑖=1 [𝑢𝑖 𝑥𝑖 (𝛽 − 𝛽)] 𝑥𝑖 𝑥𝑖 − (𝛽𝑗 − 𝛽𝑖 )𝑁
−1 ∑𝑁 ′
𝑖=1 (𝑢𝑖 𝑥𝑖𝑗 )𝑥𝑖 𝑥𝑖 − 𝑜𝑝 (1). 𝑂𝑝 (1)

Donde tenemos que usar 𝛽̂𝑗 − 𝛽𝑖 − 𝑜𝑝 (1) 𝑦 ∑𝑁 ′


𝑖=1 (𝑢𝑖 𝑥𝑖𝑗 )𝑥𝑖 𝑥𝑖 − 𝑂𝑝 (1) cuando

𝐸[𝑢𝑖 , 𝑥𝑖𝑗 𝑥𝑖ℎ 𝑥𝑖𝑘 ]‹ ∝ 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑗, ℎ 𝑦 𝑘 (como asumimos). Similarmente, el tercer termino
puede ser escrito como suma de 𝐾 2 terminos de la forma

𝑁
̂𝑗 − 𝛽𝑖 )(𝛽
(𝛽 ̂ℎ − 𝛽𝑘 )𝑁 −1 ∑(𝑥𝑖𝑗 , 𝑥𝑖𝑘 )𝑥𝑖′ 𝑥𝑖 − 𝑜𝑝 (1). 𝑜𝑝 (1). 𝑂𝑝 (1) − 𝑜𝑝 (1)
𝑖=1

Donde tenemos que usar 𝑁 −1 ∑𝑁 ′


𝑖=1(𝑥𝑖𝑗 , 𝑥𝑖𝑘 )𝑥𝑖 𝑥𝑖 − 𝑜𝑝 (1) 𝑐𝑢𝑎𝑛𝑑𝑜𝐸[𝑥𝑖𝑗 𝑥𝑖ℎ 𝑥𝑖𝑘 𝑥𝑖𝑚 ]‹ ∝

Para todo 𝑗, ℎ 𝑦 𝑘 𝑦 𝑚 . Donde tenemos que demostrar 𝑁 −1 ∑𝑁 ̂ 𝑖2 𝑥𝑖′ 𝑥𝑖 −


𝑖=1 𝑢
𝑁 −1 ∑𝑁 ̂ 𝑖2 𝑥𝑖′ 𝑥𝑖 + 𝑜𝑝 (1), que es lo que se querìa demostrar
𝑖=1 𝑢

4.5 Escribir la ecuación (4.50) como 𝐸(𝑦|𝑤) − 𝑤𝛿 𝑑𝑜𝑛𝑑𝑒 𝑤 − (𝑥, 𝑧).


. 𝐷𝑒𝑠𝑑𝑒 𝑉𝑎𝑟(𝑦|𝑤) − 𝜎 2 seguido por el teorema 4.2 que
̂ importante porque
𝐴𝑣𝑎𝑟√𝑁(𝛿̂ − 𝛿)𝑒𝑠 𝜎 2 [𝐸(𝑤 ′ 𝑤] donde 𝛿̂ − (𝛽̂′ . 𝑦)′

𝐸(𝑥 ′ 𝑧) − 0. 𝐸(𝑤 ′ 𝑤) es de bloque diagonal, con bloque superior 𝐸(𝑥 ′ 𝑥) y el bloque bajo
𝐸(𝑧 2 ) Invirtiendo 𝐸(𝑤 ′ 𝑤) y enfocándose en la parte superior kxk.

𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) − 𝜎 2 [𝐸(𝑥 ′ 𝑥)]−1

Necesitamos encontrar 𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) será útil escribir 𝑦 = 𝑥𝛽 + 𝑣 𝑑𝑜𝑛𝑑𝑒 𝑣 = 𝑦𝑧 +


𝑢 y 𝑢 = 𝑦 − 𝐸(𝑦|𝑥, 𝑧). Porque 𝐸(𝑥 ′ 𝑧) = 0 𝑦 𝐸(𝑥 ′ 𝑢) = 0 Siguiendo,
𝐸(𝑣 2 |𝑥) = 𝑦 2 𝐸(𝑧 2 |𝑥) + 𝐸(𝑢2 |𝑥) + 2𝑦𝐸(𝑧𝑢|𝑥) = 𝑦 2 𝐸(𝑧 2 |𝑥) + 𝜎 2
Donde usamos 𝐸(𝑧𝑢|𝑥, 𝑧) = 𝑧𝐸(𝑢|𝑥, 𝑧) = 0 𝑦 𝐸(𝑢2 |𝑥, 𝑧) = 𝑉𝑎𝑟(𝑦|𝑥, 𝑧) = 𝜎 2

17
A menos que 𝐸(𝑧 2 |𝑥) es constante, la ecuación 𝑦 = 𝑥𝛽 + 𝑣 generalmente viola la
homocedasticidad asumida OLS.3. Entonces sin suposiciones

𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − β) = [𝐸(𝑥 ′ 𝑥)]−1 𝐸(𝑣 2 𝑥 ′ 𝑥) [𝐸(𝑥 ′ 𝑥)]−1

Ahora podemos mostrar 𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) − 𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) es positivo semi definido


escrito

𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) − 𝐴𝑣𝑎𝑟√𝑁(𝛽̂ − 𝛽) = [𝐸(𝑥 ′ 𝑥)]−1 𝐸(𝑣 2 𝑥 ′ 𝑥)[𝐸(𝑥 ′ 𝑥)]−1 − 𝜎2 [𝐸(𝑥 ′ 𝑥)]−1

Porque [𝐸(𝑥 ′ 𝑥)]−1 es positivo definido, lo satisface oara demostrar que

𝐸(𝑣 2 𝑥 ′ 𝑥) − 𝜎 2 [𝐸(𝑥 ′ 𝑥)] is.ps.d Para tal fin, dejamos ℎ(𝑥) = 𝐸(𝑧 2 |𝑥) Luego para la ley
de expectativas iteradas, 𝐸(𝑣 2 𝑥 ′ 𝑥) = E[𝐸(𝑢2 |𝑥)𝑥 ′ 𝑥] = 𝑦 2 𝐸[ℎ(𝑥)𝑥 ′ 𝑥] + 𝜎 2 𝐸(𝑥 ′ 𝑥)

Para eso 𝐸(𝑣 2 𝑥 ′ 𝑥) − 𝜎 2 𝐸(𝑥 ′ 𝑥) = 𝑦 2 𝐸[ℎ(𝑥)𝑥 ′ 𝑥] que significa cuando 𝑦 ≠ 0 es una


matriz definida positiva. En particular si 𝐸(𝑧 2 |𝑥) = 𝐸(𝑧 2 ) = 𝑛2 > 0 (en el caso 𝑦 = 𝑥𝛽 +
𝑣 satisface la homocedasticidad asumida OI.S.3) ,

𝐸(𝑣 2 𝑥 ′ 𝑥) − 𝜎 2 𝐸(𝑥 ′ 𝑥) = 𝑦 2 𝑛2 𝐸(𝑥 ′ 𝑥) que es definifa positiva

4.6 Como no blanco se determina al nacer, no tenemos que preocuparnos por no blanco
siendo determinado simultáneamente con cualquier tipo de variable de respuesta. Error de
medición es ciertamente una posibilidad, ya que un indicador binario para ser caucásico es
una manera muy cruda de medir carrera. Aún así, muchos estudios esperan aislar las
diferencias sistemáticas entre los clasificados como blanco frente a otras razas, en cuyo caso
un indicador binario podría ser un buen proxy. Por supuesto, 18 siempre es posible que las
personas estén mal clasificadas en los datos de la encuesta. Pero un punto importante es
que el error de medición en no blanco no seguiría el supuesto clásico de errores en las
variables. Por ejemplo, si el problema es simplemente registrar la entrada incorrecta,
entonces el indicador verdadero, no blanco, es binario. Luego hay 4 resultados posibles: que
no sea blanco =1 y blanco =1; que no sea blanco =0 y blanco =1; que no sea blanco =1 y blanco =0;
que no sea blanco =0 y blanco =0.
En el primer y ultimo caso no se produce ningun error. Generalmen no tiene sentido
escribir que no sea blanco = que no sea blanco + e , donde e significa cero, error de medición que
es independiente de no blanco *
Probablemente en aplicaciones que buscan estimar un efecto racial, estaríamos más
preocupados sobre variables omitidas. Si bien la raza se determina al nacer, no es
independiente de otros factores que generalmente afectan los resultados económicos y
sociales.

18
Por ejemplo, quisiéramos incluir ingreso familiar y riqueza en una ecuación para evaluar la
discriminación en las solicitudes de préstamos. Si nosotros no puede, y la raza se
correlaciona con el ingreso y la riqueza, luego un intento de probar la discriminación puede
fallar Muchas otras aplicaciones podrían sufrir de endogeneidad causada por variables
omitidas Al mirar las tasas de criminalidad por raza, también necesitamos controlar a la
familia características de fondo.

4.7. a. Un factor importante omitido en usted es el ingreso familiar: estudiantes que


provienen de las familias más ricas tienden a mejorar en la escuela, otras cosas son iguales.
Ingreso familiar y PC propiedad se correlacionan positivamente porque aumenta la
probabilidad de poseer una PC ingresos familiares. Otro factor en ti es la calidad de la
escuela secundaria. Esto también puede correlacionarse con PC: un estudiante que tuvo
más exposición con computadoras en la escuela secundaria puede ser más propenso a
poseer una computadora.
b.. Is 3 es probable que tenga un sesgo alcista debido a la correlación positiva entre usted y
PC, pero no está claro debido a las otras variables explicativas en la ecuación. Si escribimos
la proyección lineal

u  𝛿0 + 𝛿1 hsGPA+𝛿2 SAT+𝛿3 PC + r

Entonces el sesgo es hacia arriba si δ3 es mayor que cero. Esto mide la correlación parcial
entre usted (por ejemplo, ingreso familiar) y PC, y es probable que sea positivo.
c. Si se pueden recopilar datos sobre el ingreso familiar, entonces se puede incluir en la
ecuación. Si el ingreso familiar no está disponible a veces el nivel de educación de los
padres es. Otra posibilidad es usar el valor promedio de la casa en el código postal de cada
estudiante, ya que el código postal a menudo forma parte de los archivos de la escuela. Los
proxys para la calidad de la escuela secundaria pueden ser proporciones entre facultad -
proporción de estudiantes, el gasto por alumno estudiante, salario promedio de maestro,
etc.

4.8. a. ∂E(y|𝑥1 , 𝑥2 )/∂ 𝑥1  𝛽1  𝛽3 𝑥2 . Tomando el valor esperado de esta ecuación con


respecto a la distribución de 𝑥2 da 𝛼1 ≡ 𝛽1  𝛽3 𝜇2. Similar,

∂E(y|𝑥1 , 𝑥2 )/∂ 𝑥2  𝛽2  𝛽3 𝑥1 +2𝛽4 𝑥2 , y su valor esperado es da 𝛼2 ≡ 𝛽2  𝛽3 𝜇1+2𝛽4 𝜇2

b. Una forma de escribir E(y|𝑥1 , 𝑥2 ) es


E(y|𝑥1 , 𝑥2 ) =𝛿0 +𝛼1 𝑥1 +𝛼2 𝑥2 +𝛽3(𝑥1 − 𝜇1 ) (𝑥2 − 𝜇2 ) +𝛽4 (𝑥2 − 𝜇2 )2 ,
donde 𝛿0 = 𝛽0 + 𝛽3 𝜇1 𝜇2 − 𝛽4 𝜇2 2 (como se puede verificar haciendo coincidir las
intersecciones en los dos ecuaciones).

c. Regresionar 𝑦𝑖 en 1, 𝑥𝑖1 , 𝑥𝑖2 , (𝑥𝑖1 − 𝜇1 )(𝑥𝑖2 − 𝜇2 )2 , i =1,2,…,N. Si no conocemos


𝜇1 y 𝜇2 , podemos estimar estos utilizando los promedios de la muestra, ̅̅̅ 𝑥̅1 y 𝑥̅2 .

19
d. La siguiente sesión de Stata puede usarse para responder esta parte:

En la ecuación donde educ y exper son degradados antes de crear la interacción y los
términos al cuadrado, los coeficientes en educ y exper parecen razonables.

20
Por ejemplo, el coeficiente en educ significa que, en el nivel promedio de experiencia, el
regreso a otro año de educación es de alrededor del 8.4%.
A medida que la experiencia aumenta por encima de su valor promedio, el retorno a

educación también aumenta (en .45 puntos porcentuales por cada año de experiencia por
encima de 11.56).
En el modelo que contiene educ • exper y 𝑒𝑥𝑝𝑒𝑟 2 , el coeficiente de educ es el retorno a
educación cuando exper = 0 − no es un segmento especialmente interesante de la
población, y ciertamente no representativo de los hombres en la muestra. (Observe que el
error estándar de 𝛽̂𝑒𝑑𝑢𝑐 en la segunda regresión es casi tres veces el error estándar en la
primera regresión.
Esta diferencia ilustra que podemos estimar el efecto marginal en los valores promedio de
la covariables mucho más precisamente que en los valores extremos de las covariables).
El coeficiente en exper en la primera regresión es el regreso a otro año de experiencia en los
valores promedio de tanto educ como exper.
Entonces, para un hombre con aproximadamente 13.5 años de educación y 11.6 años de
experiencia, se estima que otro año de experiencia vale aproximadamente 2.2%.
En la segunda regresión, donde educ y exper no se degradan primero, el coeficiente en exper
es el retorno al primer año de experiencia para un hombre sin escolaridad.
Esta no es una parte interesante de población de EE. UU, y en una muestra en la que el
grado completado más bajo es noveno, no tenemos esperanza de estimar tal efecto, de
todos modos.
El negativo, gran coeficiente en exper en la segunda regresión es desconcertante solo
cuando olvidamos lo que realmente estima.

Tenga en cuenta que el estándar error en 𝛽̂𝑒𝑥𝑝𝑒𝑟𝑡 en la segunda regresión es


aproximadamente 10 veces más grande que el error estándar en la primera regresión.
4.9. a. Simplemente resta log(𝑦 − 1) de ambos lados y define ∆ log(𝑦) − log(𝑦 − 1):
∆ log(𝑦) = 𝛽0 + 𝐱𝛃 + (𝛼1 − 1) log(𝑦−1 ) + 𝑢
Claramente, las estimaciones de intersección y pendiente en x serán las mismas. El
coeficiente en log(𝑦−1 ) se convierte en 𝛼1 − 1
b. Para simplificar, deje 𝑤 = log(𝑦) y 𝑤−1 = log(𝑦−1 ) , Entonces el coeficiente de la
pendiente de la población en una regresión simple siempre es
𝛼1 = Cov(𝑤−1 , 𝑤)/Var(𝑤−1 )

21
Por suposición,
Var(𝑤) = Var(𝑤−1 ), lo que significa que podemos escribir 𝛼1 = Cov(𝑤−1 , 𝑤)/𝜎𝑤−1 𝜎𝑤 ),
donde 𝜎𝑤−1 = 𝑠𝑑(𝑤−1 ) y 𝜎𝑤 = 𝑠𝑑(𝑤). Pero Corr(𝑤−1 , 𝑤) = Cov(𝑤−1 , 𝑤)/𝜎𝑤−1 𝜎𝑤 ),
y dado que un coeficiente de correlación está siempre entre −1 y 1, el resultado sigue.
4.10. Escribe la proyección lineal de 𝑥𝐾∗ en las otras variables explicativas como
𝑥𝐾∗ = 𝛿0 + 𝛿1 𝑥1 + 𝛿2 𝑥2 + ⋯ + 𝛿𝑘−1 𝑥𝑘−1 + 𝑟𝐾∗ . Ahora porque 𝑥𝑘 = 𝑥𝐾∗ + 𝑒𝑘 ,
L(𝑥𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 ) + L(𝑒𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 )
= L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 )
porque 𝑒𝑘 tiene cero media y no está correlacionado con 𝑥1 , … , 𝑥𝐾−1 [y así
L(𝑒𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = 0]. Pero el error de proyección lineal 𝑟𝑘 es
𝑟𝑘 ≡ 𝑥𝑘 − L(𝑥𝑘 |1, 𝑥1 , … , 𝑥𝐾−1 ) = [𝑥𝐾∗ − L(𝑥𝐾∗ |1, 𝑥1 , … , 𝑥𝐾−1 )] + 𝑒𝑘 = 𝑟𝐾∗ + 𝑒𝑘 .
Ahora podemos usar la fórmula de proyección de dos pasos: el coeficiente de 𝑥𝑘 en
L(𝑦|1, 𝑥1 , … , 𝑥𝐾 ) es el coeficiente en L(𝑦|𝑟𝑘 ), digamos 𝜋1 . Pero
𝜋1 = Cov(𝑟𝑘 , 𝑦)/Var(𝑟𝑘 ) = 𝛽𝑘 Cov(𝑟𝐾∗ , 𝑥𝐾∗ )/Var(𝑟𝑘 )
ya que 𝑒𝑘 no está correlacionado con 𝑥1 , … , 𝑥𝐾−1 , 𝑥𝐾∗ , y v por suposición y 𝑟𝐾∗ no está
correlacionado con 𝑥1 , … , 𝑥𝐾−1 , por definición. Ahora Cov(𝑟𝐾∗ , 𝑥𝐾∗ ) = Var(𝑟𝐾∗ ) y
Var(𝑟𝑘 ) = Var(𝑟𝐾∗ ) + Var(𝑒𝑘 )
[porque Cov(𝑟𝐾∗ , 𝑒𝑘 ) = 0]. Por lo tanto, 𝜋1 viene dada por la ecuación (4.47), que es lo que
queríamos mostrar.
4.11. Aquí hay algunos resultados de Stata obtenidos para responder esta pregunta:

22
a. El retorno estimado a la educación utilizando IQ y KWW como proxies para la
habilidad es de aproximadamente 5%. Cuando no utilizamos proxy, la rentabilidad
estimada fue de aproximadamente 6.5%, y con solo IQ como proxy, fue de
aproximadamente 5.4%. Por lo tanto, tenemos un retorno de la educación aún más bajo,
pero sigue siendo prácticamente no trivial y estadísticamente muy significativo.
b. Podemos ver a partir de las estadísticas t que estas variables van a ser conjuntamente
significativas.
La prueba F verifica esto, con el valor p-value = .0002.
c. La diferencia salarial entre no negros y negros no desaparece. Se estima que los
negros ganan aproximadamente un 13% menos que los no negros, manteniendo otros
factores en la regresión corregida.
d. Agregar los términos de interacción descritos en el problema proporciona los
siguientes resultados:

23
La interacción educkww0 es estadísticamente significativa, y las dos interacciones son
conjuntamente significativas al nivel de significación del 2%. El rendimiento estimado de la
educación en los valores promedio de IQ y KWW (en la población y la muestra,
respectivamente) es algo menor ahora: alrededor del 4,5%. Además, a medida que KWW
aumenta por encima de su media, el retorno a la educación aumenta. Por ejemplo, si KWW
tiene aproximadamente una desviación estándar (7.64) por encima de su media, el retorno a
la educación es de alrededor de .045 + .0022(7.6) = .06172, o alrededor del 6.2%.
Entonces, el "conocimiento del mundo del trabajo" interactúa positivamente con los
niveles de educación.
4.12. Aquí está la salida de Stata cuando se agrega unión a ambas ecuaciones:

24
La historia básica no cambia: inicialmente, se estima que el subsidio esencialmente no tiene
ningún efecto, pero agregar l𝑜𝑔(𝑠𝑐𝑟𝑎𝑝−1 ) otorga al subsidio un fuerte efecto que es
marginalmente estadísticamente significativo. Curiosamente, se estima que las empresas
sindicalizadas tienen mayores tasas de chatarra; más del 25% más en la segunda ecuación.
El efecto es significativo al nivel del 10%.
4.13. a. Usando los 90 condados para 1987 da

Debido a la forma funcional log-log, todos los coeficientes son elasticidades.

25
Las elasticidades del crimen con respecto a las probabilidades de arresto y condena son el
signo que esperamos, y ambos son práctica y estadísticamente significativos.
Las elasticidades con respecto a la probabilidad de cumplir una pena de prisión y la
duración promedio de la sentencia son positivas pero estadísticamente insignificantes.
b. Para agregar la tasa de criminalidad del año anterior, primero generamos el primer
retraso de lcrmrte:

Hay algunos cambios notables en los coeficientes en las variables originales.


Las elasticidades con respecto a prbarr y prbconv son mucho más pequeñas ahora, pero
todavía tienen signos predicho por una historia de efecto disuasivo.
La probabilidad de condena ya no es estadísticamente significativo.
La adición de la tasa de criminalidad rezagada cambia los signos de las elasticidades con
respecto a prbpris y avgsen, y la última es casi estadísticamente significativa al nivel del 5%
frente a una

alternativa de dos lados (p-value = .056). No es sorprendente que la elasticidad con respecto
a la tasa de criminalidad rezagada es grande y muy significativa estadísticamente. (La
elasticidad también es estadísticamente menos que la unidad)

26
c. Agregar los registros de las nueve variables salariales da lo siguiente:

Las nueve variables salariales son conjuntamente insignificantes, incluso al nivel del 15%.
Además, las elasticidades
no son consistentemente positivos o negativos Las dos elasticidades más grandes, que
también tienen la mayor estadística absoluta de t, tienen el signo opuesto. Estos son con
respecto a la inconstrucción salarial (-.285) y el salario para los empleados federales (.336).

27
d. El siguiente resultado de Stata da la a la heterosedasidad-robust F estadistica:

Por lo tanto, rechazaríamos el valor nulo en el nivel de significación del 5%. Pero podemos
dudar en confiar en la teoría asintótica, que requiere la prueba de heteroscedasticidad
robusta, con los parámetros N = 90 y K = 15 para estimar. (Esta estadística F robusta a la
heterocedasticidad es la Heterocedasticidad-robusto estadística de Wald dividido por el
número de restricciones que se están probando, que es nueve en este ejemplo. La división
por el número de restricciones convierte la estadística de chi-cuadrado asintótica en una
que se puede tratar como si tuviera aproximadamente una distribución de F.)
4.14. a. Antes de hacer la regresión, es útil conocer algunas estadísticas de resumen para las
variables de interés principal:

Debido a que el puntaje del examen final se ha estandarizado, tiene una media cercana a
cero y es

la desviación estándar es cercana a uno. Los valores no están más cerca de cero y uno,
respectivamente, porque la estandarización se realizó con un conjunto de datos más grande
que incluía estudiantes con valores perdidos en otras variables clave. Podría tener sentido
redefinir el puntaje de prueba estandarizado usando la media y la desviación estándar en la
muestra de 680, pero el efecto debería ser menor.

28
La regresión que controla solo por año en la escuela además de la tasa de asistencia es la
siguiente:

Si atndrte aumenta en 10 puntos porcentuales (digamos, de 75 a 85), se estima que el puntaje


de la prueba estandarizada aumenta aproximadamente en .082 desviaciones estándar.
b. Ciertamente hay un potencial para la autoselección. Los mejores estudiantes también
pueden ser los que asistan a la conferencia con más regularidad. Entonces, el efecto
positivo de la tasa de asistencia simplemente podría reflejar el hecho de que los mejores
estudiantes tienden a mejorar en los exámenes. Es poco probable que el control solo por
año en la universidad (frosh y soph) resuelva la endogeneidad de atndrete.
c. Agregar priGPA y ACT da

exper | 935 11.56364 4.374586 1 23


Total 664.763568 679 .979033237 Root MSE =.88506

Stndfnl Coef. Std.Err. t P ˃|t| [95% Interval


Conf.

Atndfnl .0052248 .0023844 2.19 0.029 .000543 .0099065

29
Model 153.974309 7 21.9963299

Frosh -.0494692 .1078903 -0.46 0.647 -.2613108 .1623724


Soph -.1596475 .0897716 -1.78 0.076 -.3359132 .0166181
Pri .4265845 .0819203 5.21 0.000 .2657348 .5874343
GPA
ACT .0844119 .0111677 7.56 0.000 .0624843 .1063395
_cons -3.297342 .308831 -10.68 0.000 -3.903729 -2.690956

El efecto de 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 ha disminuido, que es lo que esperamos si pensamos mejor, más


inteligente los estudiantes también asisten a clases con mayor frecuencia. La estimación
ahora es que un 10 punto porcentual
el aumento en 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 aumenta el puntaje de prueba estandarizado en .052 desviaciones
estándar; el efecto es estadísticamente significativo al nivel habitual del 5% frente a una
alternativa de dos lados, pero el estadístico 𝑡 es mucho más bajo que en la parte a. Los
fuertes efectos positivos de los puntajes anteriores de GPA y ACT también son esperados.

d. El control de 𝑝𝑟𝑖𝐺𝑃𝐴 y 𝐴𝐶𝑇 causa el efecto de segundo año (en relación con los
estudiantes de año tres y más allá) para obtener un poco más grande en magnitud y más
significativo estadísticamente. Estos datos corresponden a un curso impartido en el
segundo trimestre, por lo que cada estudiante de 𝑓𝑟𝑜𝑠ℎ tiene un GPA: su GPA para el
primer semestre en la universidad. La adición de 𝑝𝑟𝑖𝐺𝑃𝐴 en particular causa la "Efecto de
primer año" para esencialmente desaparecer. Esto no es demasiado sorprendente porque el
promedio anterior. El GPA para estudiantes de primer año es notablemente menor que el
promedio general de 𝑝𝑟𝑖𝐺𝑃𝐴.

e. Aquí está la sesión de Stata para agregar cuadrados en las variables proxy. Porque no
estamos interesados en los efectos de los proxies, no los degradamos antes de crear el
cuadrado condiciones:

Source SS df MS . 𝑔𝑒𝑛 𝑝𝑟𝑖𝐺𝑃𝐴𝑠𝑞 = 𝑝𝑟𝑖𝐺𝑃𝐴^2


. 𝑔𝑒𝑛 𝐴𝐶𝑇𝑠𝑞 = 𝐴𝐶𝑇^2
. 𝑟𝑒𝑔 𝑠𝑡𝑛𝑑𝑓𝑛𝑙 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 𝑓𝑟𝑜𝑠ℎ 𝑠𝑜𝑝ℎ 𝑝𝑟𝑖𝐺𝑃𝐴 𝐴𝐶𝑇 𝑝𝑟𝑖𝐺𝑃𝐴𝑠𝑞 𝐴𝐶𝑇𝑠𝑞
𝑁𝑟𝑜 𝑜𝑏𝑠. = 680
𝐹(7,672) = 28.94

30
Residual 510.789259 672 .760103064
Total 664.763568 679 .979033237
Stndfnl Coef. Std.Err. t P˃| t [95%Conf. Interval
|
Atndrte .0062317 .0023583 2.64 0.008 .0016011 .0108623
Frosh -.1053368 .1069747 -0.98 0.325 -.3153817 .1047081
Soph -.1807289 .0886354 -2.04 0.042 -.3547647 -.0066932
PriGPA -1.52614 .4739715 -3.22 0.001 -2.456783 -.5954966
ACT -.1124331 .098172 -1.15 0.253 -.3051938 .0803276
priGPAsq .3682176 .0889847 4.14 0.000 .1934961 .5429391
ACTsq .0041821 .0021689 1.93 0.054 -.0000766 .0084408
_cons 1.384812 1.239361 1.12 0.264 -1.048674 3.818298

Agregar los términos al cuadrado – uno de los cuales es muy significativo, el otro es
marginalmente significativo – en realidad aumenta el efecto de la tasa de asistencia. Y lo
hace mientras reduciendo ligeramente el error estándar en 𝑎𝑡𝑛𝑑𝑟𝑡𝑒, lo que resulta en una
estadística 𝑡 que es notablemente mas significativo que en la parte c.
f. No se justifica agregar la tasa de asistencia al cuadrado, ya que es muy insignificante
. 𝑔𝑒𝑛 𝑎𝑡𝑛𝑑𝑟𝑡𝑒𝑠𝑞 = 𝑎𝑡𝑛𝑑𝑟𝑡𝑒^2
. 𝑟𝑒𝑔 𝑠𝑡𝑛𝑑𝑓𝑛𝑙 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 𝑓𝑟𝑜𝑠ℎ 𝑠𝑜𝑝ℎ 𝑝𝑟𝑖𝐺𝑃𝐴 𝐴𝐶𝑇 𝑝𝑟𝑖𝐺𝑃𝐴𝑠𝑞 𝐴𝐶𝑇𝑠𝑞 𝑎𝑡𝑛𝑑𝑟𝑡𝑒𝑠𝑞
Source SS df MS Num. obs = 680
F(8,671) = 25.28
Model 153.975323 8 19.2469154 Prob ˃ F = 0.000
Residual 510.788245 671 .761234344 R-squared = 0.2316
Adj R-squar = 0.2225
Total 664.763568 679 .979033237 Root MSE = .87249

Stndfnl Coef. Std. Err. 𝑡 P˃ |t| [95% Conf Interval


Atndrte .0058425 .0109203 0.54 0.593 -.0155996 .0272847
Frosh -.1053656 .1070572 -0.98 0.325 -.3155729 .1048418
Soph -.1808403 .0887539 -2.04 0.042 -.355109 -.0065716
PriGPA -1.524803 .475737 -3.21 0.001 -2.458915 -.5906902
ACT -.1123423 .0982764 -1.14 0.253 -.3053087 .080624
priGPAsq .3679124 .0894427 4.11 0.000 .192291 .5435337
ACTsq .0041802 .0021712 1.93 0.055 -.0000829 .0084433
Atndrtesq 2.87e-06 .0000787 0.04 0.971 -.0001517 .0001574
_cons 1.394292 1.267186 1.10 0.272 -1.093835 3.88242

El gran aumento en el error estándar en 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 sugiere que 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 y 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 2

31
son altamente colineales. De hecho, su correlación de muestra se trata 983. Es importante
destacar que el coeficiente 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 ahora tiene una interpretación poco interesante: mide
el efecto parcial de 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 comenzando desde 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 = 0. La tasa de asistencia más
baja en la muestra es 6.25, con la gran mayoría de los estudiantes (94.3%) asistieron al
50% o más de las clases. Si el término cuadrático fue significativo, es posible que desee
centrar 𝑎𝑡𝑛𝑑𝑟𝑡𝑒 sobre su media o mediana antes de crear el cuadrado.O bien, se podría
necesitar una forma funcional más sofisticada. Puede ser mejor definir varios intervalos
para 𝑎𝑡𝑛𝑑𝑟𝑟𝑡𝑒 e incluyen variables ficticias para esos intervalos

4.15. a. Porque cada 𝑥𝑗 tiene un segundo momento finito, Var(𝐱𝛃)˂∞ . Ya que


Var(𝑢)˂∞, Cov(𝐱𝛃, 𝑢)está bien definido. Pero cada 𝑥𝑗 no está correlacionado con 𝑢 ,
entonces Cov(𝐱𝛃, 𝑢) = 0. Por lo tanto Var(𝑦) = Var(𝐱𝛃) + Var(𝑢) o 𝜎𝑦2 = Var(𝐱𝛃) +
𝜎𝑢2 .

b. Esto no tiene sentido cuando vemos 𝐱 𝑖 como un sorteo al azar junto con 𝑦𝑖 . La
declaración Var(𝑢𝑖 ) = 𝜎 2 = Var (𝑦𝑖 ) para todos 𝑖 asume que los regresores son no
aleatorios (o 𝛽 = 0, cual no es un caso muy interesante). Este es otro ejemplo de cómo la
suposición de lo no aleatorio los regresores pueden llevar a conclusiones contradictorias.
Supongamos que un elemento del termino de error, es decir 𝑧, que no está correlacionado
con cada 𝑥𝑗 , de repente se observa. Cuando agregamos 𝑧 a la lista de regresores, el error
cambia, y también lo hace la varianza del error. En la gran mayoría de aplicaciones
económicas, no tiene sentido pensar que tenemos acceso a todo el conjunto de factores que
alguna vez querría controlar, por lo que deberíamos permitir que las variaciones de error
cambien a través de diferentes conjuntos de variables explicativas que podríamos usar para
la misma variable de respuesta.
Evitamos problemas al enfocarnos en distribuciones conjuntas en la población.

c. Escribir 𝑅 2 = 1 − SSR/SST = 1 − SSR/𝑁)/(SST/𝑁). Por lo tanto, plim(𝑅 2 ) =


1 − plim[(SSR /𝑁)/(SST/𝑁)] = 1 − [plim(SSR/𝑁)]/ [plim(SST/𝑁)] = 1 −
𝜎𝑢2 /𝜎𝑦2 = donde usamos el hecho de que SST/𝑁 es un estimador consistente de 𝜎𝑢2 y
SST/𝑁 es un estimador consistente de 𝜎𝑦2 .

d. La derivación en la parte c no asumió nada sobre Var(𝑢|𝐱).La poblacion de R-


cuadrado depende solo de las varianzas incondicionales de 𝑢 y 𝑦 . Por la tanto,
independientemente de la naturaleza de la heterocedasticidad en Var(𝑢|𝐱), la 𝑅- cuadrado
habitual estima sistemáticamente la población 𝑅 -cuadrado. Ni el 𝑅 -cuadrado ni el 𝑅 -
cuadrado ajustado tienen la muestra finita – propiedades deseables, como la imparcialidad,
por lo que el único análisis que podemos dar en cualquier generalidad implica asintóticos.
La declaración en el problema es simplemente incorrecta.

32
4.16. a. La prueba es bastante similar a la del muestreo aleatorio. Primero, tome en
𝑝
cuenta las suposiciones 𝑁 −1 ∑𝑁 ´ ´
𝑖=1[𝐱 𝑖 𝐱 𝑖 − E( 𝐱 𝑖 𝐱 𝑖 )] → 0 – que es como se declara la
WLLN para secuencias i.n.i.d y 𝑁 −1 ∑𝑁 ´
𝑖=1 E( 𝐱 𝑖 𝐱 𝑖 ) → 𝑨 − que no es crucial peroes
bastante inofensivo y simplifica la prueba – implica

𝑁 𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 → 𝑨
𝑖=1

En adicion,E(𝐱 𝑖´ 𝑢𝑖 ) = 0 y la suposición de que 𝑁 −1 ∑𝑁 ´


𝐼=1 𝐱 𝑖 𝑢𝑖 satisface la ley de grandes
números implican

𝑁 𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝑢𝑖 → 𝟎
𝑖=1

También se nos da que 𝐀 es positivo definido, lo que significa que 𝐗 ´ 𝐗/𝑁 es invertible con
𝑝
una probabilidad cercana a uno y (𝐗 ´ 𝐗/𝑁) −1 → 𝐀−𝟏 . Por lo tanto,
𝑁 𝑁
̂ ) = 𝛃 + plim [(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 )−1 𝑁 −1 ∑ 𝐱 𝑖´ 𝑢𝑖 ]
plim𝑁→∞ (𝛃
𝑖=1 𝑖=1

𝑁 −1 𝑁

= 𝛃 + plim [(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) ] plim(𝑁 −1 ∑ 𝐱 𝑖´ 𝑢𝑖 )


𝑖=1 𝑖=1

= 𝛃 + 𝐀−1 . 𝟎 = 𝛃

𝑑
b. Porque 𝑁 −1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 → Normal(𝟎, 𝐁), la sequencia 𝑁
−1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 es 𝑂𝑝 (1).
Ya usamos en parte un
𝑁 −1

(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) − 𝐀−1 = 𝑂𝑝 (1)
𝑖=1

Ahora, como en el caso i.i.d, escribir

33
𝑁 −1 𝑁
̂ − 𝛃) =
√𝑁(𝛃 (𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) (𝑁 −1/2 ∑ 𝐱 𝑖´ 𝑢𝑖 )
𝑖=1 𝑖=1

𝑁 −1 𝑁 𝑁

= [(𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 ) − 𝐀−1 ] (𝑁 −1/2 ∑ 𝐱 𝑖´ 𝑢𝑖 ) + 𝐀−1 (𝑁 −1/2 ∑ 𝐱 𝑖´ 𝑢𝑖 )


𝑖=1 𝑖=1 𝑖=1

= 𝑜𝑝 (1). 𝑶𝑝 (1) + 𝐀−1 (𝑁 −1/2 ∑ 𝐱 𝑖´ 𝑢𝑖 )


𝑖=1

𝑑
→ Normal(𝟎, 𝐀−1 𝐁𝐀−1 )

𝑑
Donde usamos la suposición 𝑁 −1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 → 𝑁𝑜𝑟𝑚𝑎𝑙(𝟎, 𝑩). La varianza asintótica de
̂ − 𝛃) tiene la forma habitual de sándwich, 𝐀−1 𝐁𝐀−1 .
√𝑁(𝛃
c. Ya sabemos que
𝑁
𝑝
𝑁 −1 ∑ 𝐱 𝑖´ 𝐱 𝑖 → 𝐀
𝑖=1

Además, por la WLLN y la suposición de que 𝐁𝑁 → 𝐁


𝑁
𝑝
𝑁 −1 ∑ 𝑢𝑖2 𝐱 𝑖´ 𝐱 𝑖 → 𝐁
𝑖=1

la parte difícil - al igual que con el caso i.i.d – es mostrar que reemplazando el 𝑢𝑖 con
MCO, 𝑢̂𝑖 , no afecta la consistencia. Sin embargo, bajo supuestos generales se sigue

𝑁
𝑝
𝑁 −1
∑ 𝑢̂𝑖2 𝐱 𝑖´ 𝐱 𝑖 → 𝐁
𝑖=1

Naturalmente, podemos usar el mismo ajuste de grados de libertad que en i.i.d. caso:
reemplazar 𝑁 −1 con (𝑁 − 𝐾)−1.
d. El objetivo de este ejercicio es que nos conduzca exactamente a la misma
heterocedasticidad – estimador robusto si suponemos i.i.d obsevaciones o i.n.i.d
observaciones. En particular, incluso si las variaciones incondicionales son constantes - ya
que deben estar en el caso i.i.d – aún podríamos necesitar errores estándares robustos de

34
heterocedasticidad. En el caso i.n.i.d en la sólida matriz de varianza el estimador permite
cambiar las varianzas incondicionales asi como las varianzas condicionales dependen de 𝐱 𝑖
4.17. Sabemos que, en general,

−1 −1
̂ − 𝛃) = [E(𝐱 ´ 𝐱)] E(𝑢2 𝐱 ´ 𝐱)[E(𝐱 ´ 𝐱)]
Avar√𝑁 (𝛃
Ahora solo aplicamos las expectativas iteradas a la matriz en el medio:

E(𝑢2 𝐱 ´ 𝐱) = E[E(𝑢2 𝐱 ´ 𝐱|𝐱)] = E[E(𝑢2 |𝐱)𝐱 ´ 𝐱] = E[ℎ(𝐱)𝐱 ´ 𝐱]


4.18. a. Este es un concepto erróneo bastante común - o al menos error. Recuerde que
la distribución de cualquier sorteo al azar, 𝑢𝑖 , es la distribución de la población de 𝑢. Pero,
por supuesto, la distribución de la población de 𝑢 es lo que es; no cambia con el tamaño de
muestra. De hecho, no tiene nada que ver con el tamaño de muestra. Por lo tanto, los
sorteos aleatorios en 𝑢𝑖 tienen la misma distribución independientemente de 𝑁 . Una
declaración correcta es que el promedio estandarizado de los errores, 𝑁 −1/2 ∑𝑁 𝑖=1 𝑢𝑖 =
√𝑁𝑢̅ se aproxima a la normalidad como𝑁 → ∞. Esta es una declaración muy diferente (En
análisis de regresión, utilizamos el hecho de que 𝑁 −1/2 ∑𝑁 ´
𝑖=1 𝐱 𝑖 𝑢𝑖 generalmente converge a
distribución multivariante normal, lo que implica la convergencia de 𝑁 −1/2 ∑𝑁 𝑖=1 𝑢𝑖 a la
normalidad cuando 𝐱 𝑖 contiene la unidad.)
b. Es tentador, pero incorrecto, pensar que un único residuo cuadrado MCO puede ser
consistentemente estimar una media condicional, E(𝑢𝑖2 |𝐱 𝑖 ) ≡ ℎ(𝐱 𝑖 ) pero no tiene sentido
que esta afirmación sea cierta. Ni siquiera está claro que queremos decir con eso, pero
podemos avanzar un poco al escribir 𝑢̂𝑖2 = 𝑢𝑖2 − 2𝑢𝑖 𝐱 𝑖 (𝛃 ̂ − 𝛃)]2 . Ahora,
̂ − 𝛃) + [𝐱 𝑖 (𝛃
𝑝 𝑝
podemos concluir 𝑢̂𝑖2 − 𝑢𝑖2 → 0 y 𝑁 → ∞ porque 𝛃 ̂ → 𝛃. Pero recuerda 𝑢𝑖2 = ℎ(𝐱 𝑖 ) +
𝑣𝑖 donde E(𝑣𝑖 |𝐱 𝑖 ) = 0 . No tiene sentido que 𝑢𝑖2 sea un estimador consistente de
ℎ(𝐱 𝑖 );ni siquiera dependen del tamaño de muestra 𝑁.

Era la opinión que necesitábamos de 𝑢̂𝑖2 para hacer una buena estimación de E(𝑢𝑖2 |𝐱 𝑖 ) que
posiblemente se sostuvo en progreso en las matrices de covarianza consistentes con
heterocedasticidad. Afortunadamente, todo lo que necesitamos estimar consistentemente es
la media de la población

𝐁 = E(𝑢2 𝐱 ´ 𝐱)
Para lo cual el estimador obvio consistente (e imparcial) es
𝑁

𝑁 −1
∑ 𝑢𝑖2 𝐱 𝑖´ 𝐱 𝑖
𝑖=1

̂ conserva ( no
El resto está demostrando que se reemplaza la consistencia implícita 𝛃 con 𝛃
imparcialidad). Como sabemos, esto requiere un algebra complicada con 𝑜𝑝 (1) y 𝑂𝑝 (1),
pero el trabajo no es demasiado oneroso.

35
SOLUCIONES DE PROBLEMAS DEL CAPITULO 5

̂ = (𝛃
5.1. Defina 𝐱1 ≡ (𝐳𝟏 , 𝑦2 ) y 𝑥2 ≡ 𝑣̂2 , y 𝛃 ̂1´ , 𝜌̂1 ) es el estimador MCO (5.52),

Donde 𝛃 ̂1 = (𝛅
̂1´ , 𝛼̂1 ). Usando la sugerencia, 𝛽̂1 también se puede obtener por regresión
particionada:

(i) Regresione 𝐱1 a 𝑣̂2 y guarde los residuos, digamos 𝐱̈ 1 .


(ii) Regresione 𝑦𝑖 a 𝐱̈ 1 .

Pero cuando regresamos 𝐳1 a 𝑣̂2 los residuos son solo 𝐳1 porque 𝑣̂2 es ortogonal en la
muestra a 𝐳. (Más precisión, ∑𝑁 ´
̂𝑖2 = 0). Además, porque podemos escribir 𝑦2 =
𝑖=1 𝐳𝑖1 𝑣
𝑦̂2 + 𝑣̂2 , donde 𝑦̂2 y 𝑣̂2 son ortogonales en la muestra, los residuos de regresión 𝑦2 en 𝑣̂2
son simplemente los primeros valores ajustados de escenario, 𝑦̂2 . En otras palabras, 𝐱̈ 1 =
(𝐳1 , 𝑦̂2 ). Pero el estimador 2MCO de 𝛃1 se obtiene exactamente de la regresión MCO
𝑦1 en 𝐳1 , 𝑦̂2 .
5.2. a. Los factores 𝑛𝑜𝑡 observados que tienden a hacer que un individuo sea más
saludable también tienden a hacer que una persona se ejercite más. Por ejemplo, si la
ℎ𝑒𝑎𝑙𝑡ℎ es una medida cardiovascular, las personas con una historia de los problemas del
corazón son probablemente menos propensos a hacer ejercicio. Factores no observados
como la salud previa o los antecedentes familiares están contenidos en 𝑢1 , por lo que nos
preocupa la correlación entre el 𝑒𝑥𝑒𝑟𝑐𝑖𝑠𝑒 y 𝑢1 . La autoselección en el ejercicio predice que
los beneficios del ejercicio serán, en promedio, sobreestimado. Idealmente, la cantidad de
ejercicio podría ser aleatorio en una muestra de personas, pero esto puede ser difícil.
b. Si las personas no eligen sistemáticamente la ubicación de sus hogares y trabajos en
relación con clubes de salud basados en características de salud no observadas, entonces es
razonable creer que 𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 y 𝑑𝑖𝑠𝑡𝑤𝑟𝑜𝑘 no están correlacionados con 𝑢1 . Pero la
ubicación de los clubes de salud no es necesariamente exógena. Los clubes pueden tender
a construirse cerca de vecindarios donde los residentes tienen mayores ingresos y riquezas,
en promedio, y estos factores ciertamente pueden afectar la salud general. Puede tener
sentido elegir residentes de barrios con características muy similares, pero donde un
vecindario se encuentra cerca de un club de salud.
c. La forma reducida del 𝑒𝑗𝑒𝑟𝑐𝑖𝑐𝑖𝑜 es

𝑒𝑗𝑒𝑟𝑐𝑖𝑐𝑖𝑜 = 𝜋0 + 𝜋1 𝑒𝑑𝑎𝑑 + 𝜋2 𝑝𝑒𝑠𝑜 + 𝜋3 𝑎𝑙𝑡𝑢𝑟𝑎 + 𝜋4 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜 + 𝜋5 𝑡𝑟𝑎𝑏𝑎𝑗𝑜


+ 𝜋6 𝑑𝑖𝑠𝑡ℎ𝑜𝑚𝑒 + 𝜋7 𝑑𝑖𝑠𝑡𝑤𝑜𝑟𝑘 + 𝑢1

36
Para la identificación necesitamos que al menos uno de 𝜋6 y 𝜋7 sea diferente de cero. Esta
suposición puede fallar si la cantidad de personas no están sistemáticamente relacionadas
con las distancias al club de salud más cercano.
d. Una prueba 𝐹 de 𝐻0 ∶ 𝜋6 = 0 , 𝜋7 = 0 es la forma más sencilla de probar la
suposición de identificación en la parte c. Como de costumbre, sería una buena idea
calcular una versión robusta de heterocedasticidad.
5.3. a. Puede haber factores de salud no observados relacionados con el comportamiento
de fumar que afecta el peso del nacimiento infantil. Por ejemplo, las mujeres que fuman
durante el embarazo pueden, en promedio, beber más café o alcohol, o comer comidas
menos nutritivas.
b. la economía básica dice que los 𝑝𝑎𝑐𝑘𝑠 deben correlacionarse negativamente con el
precio del cigarrillo, aunque la correlación puede ser pequeña (especialmente cuando un
precio se agrega en el estado nivel). A primera vista, parece que el precio debería ser
exógeno en la ecuación (5.54), pero debemos ser un poco cuidadosos. Uno de los
componentes del precio del cigarrillo es el impuesto estatal sobre los cigarrillos. Los
estados que tienen impuestos más bajos sobre los cigarrillos pueden tener una menor
calidad de la atención de la salud, en promedio. La calidad de la atención médica está en 𝑢,
por lo que tal vez el precio del cigarrillo no cumple con los requisitos de exogeneidad para
un IV
c. MCO es seguido por (IV, en este caso):
. 𝑟𝑒𝑔 𝑙𝑏𝑤𝑔ℎ𝑡 𝑚𝑎𝑠𝑐𝑢𝑙. 𝑝𝑎𝑟𝑖𝑑𝑎𝑑 𝑙𝑓𝑎𝑚𝑖𝑛𝑐 𝑝𝑎𝑐𝑘𝑠

Fuente SS df MS Núm. Obs.


=1388
Model 1.76664363 4 .441660908 F(4,1388)
=12.55
Prob ˃ F
=0.000

Residuos 48.65369 1383 .035179819 R- =0.0350


cuadrado =0.0322
Total 50.4203336 1387 .036352079 AdjR- =.18756
cuadr
Root
MSE
Lbwght Coef. Std. Err. t P˃ | t | [95% Interval
Conf.
Mascul. .0262407 .0100894 2.60 0.009 .0064486 .0460328
Paridad .0147292 .0056646 2.60 0.009 .0036171 .0258414
Lfaminc .0180498 .0055837 3.23 0.001 .0070964 .0290032

37
Packs -.0837281 .0171209 -4.89 0.000 -.1173139 -.0501423
_cons 4.675618 .0218813 213.68 0.000 4.632694 4.718542

. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑏𝑤𝑔ℎ𝑡 𝑚𝑎𝑠𝑐𝑢𝑙. 𝑝𝑎𝑟𝑖𝑑𝑎𝑑 𝑙𝑓𝑎𝑚𝑖𝑛𝑐 (𝑝𝑎𝑐𝑘𝑠 = 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒)


Regresión de variables instrumentales (2SLS):
Fuente SS df MS
Modelo - 4 - 22.837506 Núm. Obs. 1388
91.35002 7 F(4,1383)= 2.39
7
Residuos 141.7703 1383 .102509299 Prob˃F =
61 0.0490
R-cuad =
Total 50.42033 1387 .036352079 AdjR-cuad =
36 Root MSE
=.32017
Lbwght Coef. Std. t P˃ | t | [95%Co Interval
Err. nf. .
Packs .7971063 1.08627 0.73 0.463 - 2.92803
5 1.333819 1
Mascul. .0298205 .017779 1.68 0.094 - .064697
.0050562 2
Paridad -.0012391 .021932 -0.06 0.955 -.044263 .041784
2 8
Lfaminic .063646 .057012 1.12 0.264 - .175486
8 .0481949 9
_cons 4.467861 .258828 17.26 0.000 3.960122 4.97560
9 1
Instrumenta Packs
do:
Instrumentos: masculino paridad lfaminic cigprice

La diferencia entre MCO y IV en el efecto estimado de los 𝑝𝑎𝑐𝑘𝑠 en 𝑏𝑤𝑔ℎ𝑡 es enorme.


Con la estimación de MCO, se estima que un paquete más de cigarrillos se reducirá 𝑏𝑤𝑔ℎ𝑡
aproximadamente 8.4 %, y es estadísticamente significativo. La estimación IV tiene el signo
opuesto, es enorme en magnitud, y no es estadísticamente significativo. El signo y el
tamaño del efecto de fumar no son realistas.
d. Podemos ver el problema con IV estimando la forma reducida de los paquetes.

. 𝑟𝑒𝑔 𝑝𝑎𝑐𝑘𝑠 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜 𝑝𝑎𝑟𝑖𝑑𝑎𝑑 𝑙𝑓𝑎𝑚𝑖𝑛𝑖𝑐 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒

Fuente SS df MS Num. Obs =1388


F(4, 1383) =10.86

38
Modelo 3.76705108 4 .94176277 Prob ˃ F =0.000
Residuos 119.929078 1383 .086716615 R- cuadr =0.0305
Adj R- =0.0276
cuad =.29448
Total 123.696129 1387 .089182501 Root
MSE

Packs Coef. Std. Err t P ˃ |t| [95% Interval.


Conf.

Mascul. -.0047261 .0158539 -0.30 0.766 -.0358264 .0263742


Paridad .0181491 .0088802 2.04 0.041 .0007291 .0355692
Lfaminic -.0526374 .0086991 -6.05 0.000 -.0697023 -.0355724
cigprice .000777 .0007763 1.00 0.317 -.0007459 .0022999
_cons .1374075 .1040005 1.32 0.187 -.0666084 .3414234

Las estimaciones de forma reducida muestran que 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒 no afecta significativamente


𝑝𝑎𝑐𝑘𝑠. De hecho, el coeficiente en 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒 no tiene el signo que esperamos. Por lo
tanto, 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒 falla como IV para 𝑝𝑎𝑐𝑘𝑠 porque 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒 no se correlaciona
parcialmente con 𝑝𝑎𝑐𝑘𝑠 con un signo sensible para la correlación. Esto está separado del
problema que 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒 puede no ser realmente exógeno en la ecuación del peso al nacer.
5.4. a. Estos son los resultados de MCO:
. 𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑑𝑢𝑐 𝑒𝑥𝑝𝑒𝑟 𝑒𝑥𝑝𝑒𝑟𝑠𝑞 𝑏𝑙𝑎𝑐𝑘 𝑠𝑜𝑢𝑡ℎ 𝑠𝑚𝑠𝑎 𝑟𝑒𝑔661 − 𝑟𝑒𝑔668 𝑠𝑚𝑠𝑎66
Fuente SS df MS Num. Obs =3010
Modelo 177.695591 15 11.8463727 F(15, =85.48
2994) =0.000
Prob ˃ F =0.2998
R-cuadr
Residuos 414.946054 2994 .138592536 Adj R- =0.2963
cuad
592.641645 3009 .196956346 Root MSE =.37228
Total

Lwage Coef. Std. Err. t P ˃ |t| [95% Interval.


Conf.
Educ .0746933 .0034983 21.35 0.000 .0678339 .0815527
Exper .084832 .0066242 12.81 0.000 .0718435 .0978205
Expersq -.002287 .0003166 -7.22 0.000 -.0029079 -.0016662
Black -.1990123 .0182483 -10.91 0.000 -.2347927 -.1632318
South -.147955 .0259799 -5.69 0.000 -.1988952 -.0970148
Smsa .1363845 .0201005 6.79 0.000 .0969724 .1757967
Reg661 -.1185698 .0388301 -3.05 0.002 -.194706 -.0424335

39
Reg662 -.0222026 .0282575 -0.79 0.432 -.0776088 .0332036
Reg663 .0259703 .0273644 0.95 0.343 -.0276846 .0796251
Reg664 -.0634942 .0356803 -1.78 0.075 -.1334546 .0064662
Reg665 .0094551 .0361174 0.26 0.794 -.0613623 .0802725
Reg666 .0219476 .0400984 0.55 0.584 -.0566755 .1005708
Reg667 -.0005887 .0393793 -0.01 0.988 -.077802 .0766245
Reg668 -.1750058 .0463394 -3.78 0.000 -.265866 -.0841456
Smsa66 .0262417 .0194477 1.35 0.177 -.0118905 .0643739
_cons 4.739377 .0715282 66.26 0.000 4.599127 4.879626

El rendimiento estimado de la educación es de alrededor del 7.5 %, con una estadística 𝑡


muy grande. Estos reproducen las estimaciones de la Tabla 2, columna (2) en card (1995).

b. La forma reducida para 𝑒𝑑𝑢𝑐 es:


. 𝑟𝑒𝑔 𝑒𝑑𝑢𝑐 𝑒𝑥𝑝𝑒𝑟 𝑒𝑥𝑝𝑒𝑟𝑠𝑞 𝑏𝑙𝑎𝑐𝑘 𝑠𝑜𝑢𝑡ℎ 𝑠𝑚𝑠𝑎 𝑟𝑒𝑔661 − 𝑟𝑒𝑔668 𝑠𝑚𝑠𝑎66 𝑛𝑒𝑎𝑟𝑐4
Fuente SS df MS Num. =3010
Modelo 10287.6179 15 685.841194 Obs. =182.13
F(15, =0.0000
2994)
Prob ˃ F
Residuos 11274.4622 2994 3.76568542 R-cuadr =0.4771
Adj R- =0.4745
cuad
21562.0801 3009 7.16586243 Root MSE =1.9405
Total

Educ Coef. Std. Err. t P˃|t| 95[% Interval.


Conf.
Exper -.4125334 .0336996 -12.24 0.000 -.4786101 -.3464566
Expersq -.0008686 .0016504 0.53 0.599 -.0023674 .0041046
Black -.9355287 .0937348 -9.98 0.000 -1.11932 -.7517377
South -.0516126 .1354284 -0.38 0.703 -.3171548 .2139296
Smsa .4021825 .1048112 3.84 0.000 .1966732 .6076918
Reg661 -.210271 .2024568 -1.04 0.299 -.6072395 .1866975
Reg662 -.2889073 .1473395 -1.96 0.050 -.5778042 -.0000105
Reg663 -.2382099 .1423395 -1.67 0.095 -.5178838 .0414639
Reg664 -.093089 .1859827 -0.50 0.617 -.4577559 -.2715779
Reg665 -.4828875 .1881872 -2.57 0.010 -.8518767 -.1138982
Reg666 -05130857 .2096352 -2.45 0.014 -.9241293 -.1020421
Reg667 -.42708887 .2056208 -2.08 0.038 -.8302611 -.0239163
Reg668 .3136204 .2416739 1.30 0.194 -.1602434 .7874841
Smsa66 .0254805 .1057692 0.24 0.810 -.1819071 .2328682
Nearc4 .3198989 .0878638 3.64 0.000 .1476194 .4921785
_cons 16.84852 .2111222 79.80 0.000 16.43456 17.26248

40
El coeficiente importante está en 𝑛𝑒𝑎𝑟𝑐4 . Estadísticamente, 𝑒𝑑𝑢𝑐 y 𝑛𝑒𝑎𝑟𝑐4 estan
parcialmente correlacionados, y de una manera que tiene sentido: manteniendo fijos otros
factores en la forma reducida , alguien que vive cerca de una universidad de 4 años a los 16
años tiene, en promedio, casi un tercio al año más educación que una persona que no está
cerca de una universidad de 4 años a los 16. Esto no es un efecto trivial, por lo que 𝑛𝑒𝑎𝑟𝑐4
pasa el requisito de que esta parcialmente correlacionado con 𝑒𝑑𝑢𝑐.
c. estas son las estimaciones IV:
𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑒𝑥𝑝𝑒𝑟𝑠𝑞 𝑏𝑙𝑎𝑐𝑘 𝑠𝑜𝑢𝑡ℎ 𝑠𝑚𝑠𝑎 𝑟𝑒𝑔661 − 𝑟𝑒𝑔668 𝑠𝑚𝑠𝑎66 (𝑒𝑑𝑢
= 𝑛𝑒𝑎𝑟𝑐4
Regresión de variables instrumentales (2SLS):
Fuente SS df MS Num. =3010
Obs
Modelo 141.146813 15 9.40978752 F(15,2994) =51.01
Prob ˃F =0.0000
Residual 451.494832 2994 .150799877 R- cuad =0.2382
Adj. R- =0.343
cuad
Total 592.641645 3009 .196956346 Root MSE =.38833

Lwage Coef. Std. Err. t P˃ | t [95% Interval.


| Conf.
Educ .1315038 .0549637 2.39 0.017 0.237335 .2392742
Exper .1082711 .0236586 4.58 0.000 0.618824 .1546598
Expersq -.0023349 .0003335 -7.00 0.000 -.0029888 -.001681
Black -.1467757 .0538999 -2.72 0.007 -.2524603 -.0410912
Sur -.1446715 .0272846 -5.30 0.000 -.19817 -.091173
Smsa .1118083 .031662 3.53 0.000 .0497269 .1738898
Reg661 -.1078142 .0418137 -2.58 0.010 -.1898007 -.0258278
Reg662 -.0070465 .0329073 -0.21 0.830 -.0715696 .0574767
Reg663 .0404445 .0317806 1.27 0.203 -.0218694 .1027585
Reg664 -.0579172 .0376059 -1.54 0.124 -.1316532 .0158189
Reg665 .0384577 .0469387 0.82 0.413 -.0535777 .130493
Reg666 .0550887 .0526597 1.05 0.296 -.0481642 .1583416
Reg667 .026758 .0488287 0.55 0.584 -.0689832 .1224992
Reg668 -.1908912 .0507113 -3.76 0.000 -.2903238 -.0914586
Smsa66 .0185311 .0216086 0.86 0.391 -.0238381 .0609003
_cons 3.773965 .934947 4.04 0.000 1.940762 5.607169
Instrumentado
Instrumentos: exper expersq black south smsa reg661 reg662 reg663

El rendimiento estimado de la educación ha aumentado a aproximadamente el 13.2 %, pero


observe cuan amplio es el intervalo de confianza del 95%: del 2.4% al 23.9%. Por el
contrario, el intervalo de confianza de MCO se trata de 6.8% a 8.2%, que es mucho más
ajustado. Por supuesto, MCO podría ser inconsistente, en cuyo caso un IC más estricto es

41
de poco valor. Pero el retorno estimado a la educación es mayor con IV, algo que parece
un poco contradictorio.
Una posible explicación es que 𝑒𝑑𝑢𝑐 sufre de errores de variables clásicos. Por lo tanto,
mientras que MCO tendería a sobreestimar el retorno a la educación debido a la
“capacidad” omitida el error de medición clásico en 𝑒𝑑𝑢𝑐 conduce a un sesgo de
atenuación. El error de medición puede ayudar a explicar por qué la estimación IV es más
grande, pero no es del todo convincente. Parece poco probable que 𝑒𝑑𝑢𝑐 satisfaga las
suposiciones de CEV. Por ejemplo, si pensamos que el error se debe al truncamiento – se
pregunta a las personas sobre el grado más alto completado, no los años reales de
escolaridad – entonces 𝑒𝑑𝑢𝑐 siempre es menor o igual que 𝑒𝑑𝑢𝑐 ∗ .y el error de medición
no podria ser independiente de 𝑒𝑑𝑢𝑐 ∗ . Si pensamos que la mala medición se debe a que no
se observa la calidad de la educación, parece probable que la calidad de la escolaridad –
parte del error de medición – se correlacione positivamente con la cantidad real de
escolaridad. Esto también viola las suposiciones de CEV.
Otra posibilidad para la estimación IV mucho más alta proviene de la literatura reciente
sobre el efecto del tratamiento, que se trata en la Sección 21.4. Por supuesto, también
debemos recordar que las estimaciones puntuales – particularmente la estimación IV –
están sujetas a una variación sustancial del muestreo. En este punto, ni siquiera sabemos si
MCO e IV son estadísticamente diferentes entre sí. Vea el problema 6.1
d. Cuando se agrega 𝑛𝑒𝑎𝑟𝑐2 a la forma reducida de 𝑒𝑑𝑢𝑐 tiene un coeficiente (error
estándar) de .123 (.077), en comparación con .321 (.089) para 𝑛𝑒𝑎𝑟𝑐4 . Por lo
tanto, 𝑛𝑒𝑎𝑟𝑐4n tiene una relación ceteris paribus mucho más fuerte con 𝑒𝑑𝑢𝑐; 𝑛𝑒𝑎𝑟𝑐2 es
solo marginalmente estadísticamente significativo una vez que se ha incluido 𝑛𝑒𝑎𝑟𝑐4. La
prueba conjunta 𝐹 da 𝐹 = 7.89 con 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = .004
La estimación 2SLS del retorno a la educación se convierte en alrededor del 15.7%, con CI
del 95% dado por 5.4% al 26%. El CI sigue siendo muy amplio.
5.5. Bajo la hipótesis nula de que 𝑞 y 𝐳2 no están correlacionados, 𝐳1 y 𝐳2 son exógenos
en (5.5) porque cada uno no está correlacionado con 𝑢1 . Desafortunadamente, 𝑦2 se
correlaciona con 𝑢1 , por lo que la regresión de 𝑦1 en 𝐳1 , 𝑦2 , 𝐳2 no produce un estimador
consistente de 0 en 𝐳2 incluso cuando E(𝐳2´ 𝑞) = 0. Podríamos encontrar que ѱ ̂ 1 de esta
regresión es estadísticamente diferente de 0 incluso cuando 𝑞 y 𝐳𝟐 no están
correlacionados – en cuyo caso concluiríamos erróneamente que 𝐳𝟐 no es un candidato
valido para IV. O bien, podríamos no rechazar 𝐻0 : ѱ1 = 0 cuando 𝐳𝟐 y 𝑞 están
correlacionados – en cuyo caso concluimos incorrectamente que los elementos en 𝐳𝟐 son
válidos como instrumentos
El objetivo de este ejercicio es que uno no puede simplemente agregar candidatos variables
instrumentales en la ecuación estructural y luego probar la significancia de estas variables
usando la estimación MCO.

42
Este es el sentido en el cual la identificación no puede ser probada: no podemos probar si
todos los candidatos IV no están correlacionados con 𝑞. Con una sola variable endógena,
debemos considerar que al menos un elemento de 𝐳𝟐 no está correlacionado con 𝑞.

5.6. a. Por definición, la forma reducida es la proyección lineal


L(𝑞1 |1, 𝐱, 𝑞2 ) = 𝜋0 + 𝐱𝛑1 + 𝜋2 𝑞2
y queremos mostrar que 𝛑1 = 0 cuando 𝑞2 no está correlacionado con 𝐱. Ahora, como 𝑞2
es una función lineal de 𝑞 y 𝑎2 , y 𝑎2 no está correlacionada con 𝐱 , 𝑞2 no está
correlacionada con 𝐱 si y solo si 𝑞 no está correlacionado con 𝐱. . Suponiendo que 𝑞 y 𝐱 no
están correlacionados, 𝑞1 tampoco está correlacionado con 𝐱. Un hecho básico acerca de
las proyecciones lineales es, porque 𝑞1 y 𝑞2 estan cada uno sin correlacion con el vector 𝐱,
𝜋1 = 0 . Esta afirmación se desprende de la Propiedad LP. 7: , 𝛑1 se puede obtener
proyectando primero 𝐱 en 1, 𝑞2 y obteniendo los residuales de la población, digamos 𝐫.
Luego, proyecta 𝑞1 en 𝑟. Pero como 𝐱 y 𝑞2 son ortogonales, 𝐫 = 𝐱 − 𝛍𝐱 . Proyectar 𝑞1 en
(𝐱 − 𝛍𝐱 ) simplemente da el vector cero porque E[(𝐱 − 𝛍𝐱 )´ 𝑞1 ] = 0. Por lo tanto, 𝛑1 = 0.

b. Si 𝑞2 y 𝐱 están correlacionados, entonces 𝜋0 ≠ 0, y 𝐱 aparece en la forma reducida


para 𝑞1 . No es realista suponer que 𝑞2 y 𝐱 no están correlacionados. Bajo los supuestos del
indicador múltiple, suponiendo que 𝐱 y 𝑞2 no están correlacionados es lo mismo que
suponer que 𝑞 y 𝐱 no están correlacionados. Si creemos que 𝑞 y 𝐱 no están
correlacionados, entonces no hay necesidad de recopilar indicadores en 𝑞 para estimar
consistentemente 𝛃: podríamos simplemente poner 𝑞 en el termino de error y estimar 𝛽 a
partir de una regresión MCO de 𝑦 en 1, 𝐱. (Por supuesto, si 𝑞 y 𝐱 no están correlacionados
podríamos, en general, ganar eficiencia para estimar 𝛃 incluyendo 𝑞 como un regresor
extra).
5.7. a. Si conectamos 𝑞 = (1 /𝛿1 )𝑞1 − (1 /𝛿1 )𝑎1 en la ecuación (5.45) obtenemos

𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜂1 𝑞1 + 𝑣 − 𝜂1 𝑎1
(5.56)
Donde 𝜂1 = (1 /𝛿1 ) . Ahora, como los 𝑧ℎ son redundantes en (5.45), no están
correlacionados con el error estructural, 𝑣 (por definición de redundancia). Además, hemos
supuesto que los 𝑧ℎ no están correlacionados con 𝑎1 . Como cada 𝑥𝑗 tampoco está
correlacionado con 𝑣 − 𝜂1 𝑎1 podemos estimar (5.56) por 2SLS usando los instrumentos
(1, 𝑥1 , … , 𝑥𝑘 , 𝑧1 , 𝑧2 , … , 𝑧𝑚 )para obtener consistencia de 𝛽𝑗 y 𝜂1 .

Dadas todas las suposiciones de correlación cero, lo que necesitamos para la identificación
es que al menos una de las 𝑧ℎ aparece en la forma reducida para 𝑞1 . Más formalmente en la
proyección lineal
𝑞1 = 𝜋0 + 𝜋1 𝑥1 + ⋯ + 𝜋𝐾 𝑥𝐾 + 𝜋𝐾+1 𝑧1 + ⋯ + 𝜋𝐾+𝑀 𝑧𝑀 + 𝑟1,

43
Al menos uno de 𝜋𝐾+1 , … , 𝜋𝐾+𝑀 debe ser diferente de cero.
b. Necesitamos que las variables de antecedentes familiares sean redundantes en la
ecuación 𝑙𝑜𝑔(𝑤𝑎𝑔𝑒) una vez que se haya controlado la capacidad (y otros factores, como
𝑒𝑑𝑢𝑐 y 𝑒𝑥𝑝𝑒𝑟 ). La idea aquí es que los antecedentes familiares puedan influir en la
capacidad, pero no deberían tener un efecto parcial en 𝑙𝑜𝑔(𝑤𝑎𝑔𝑒) una vez que se haya
tenido en cuenta la habilidad. Para que la condición de rango se mantenga, necesitamos que
las variables de antecedentes familiares se correlacionen con el indicador, 𝑞1 decir 𝐼𝑄, una
vez que 𝑥𝑗 se ha eliminado. Es probable que esto sea cierto si pensamos que los
antecedentes familiares y la capacidad están (parcialmente) correlacionados.
c. Al aplicar el procedimiento al conjunto de datos en NLS80.RAW da los siguientes
resultados:
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑑𝑢𝑐 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏 𝑏𝑙𝑎𝑐𝑘 (𝑖𝑞
= 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐 𝑠𝑖𝑏𝑠)
Regresión de variables instrumentales (2SLS)
Fuente SS df MS Núm. Obs =722
F(8, 713) 25.81
Modelo 19.6029198 8 2.45036497 Prob ˃ F =0.0000

Redisuos 107.208996 713 .150363248 R – cuad. =0.1546


Total 126.811916 721 .175883378 Adj.R- =0.1451
cua =.38777
Root
MSE

Lwage Coef Std. Err. t P ˃ | t [95% Interval.


| Conf
Iq .0154368 .0077077 2.00 0.046 .0003044 .0305692
Exper .0162185 .0040076 4.05 0.000 .0083503 .0240867
Tendencia .0076754 .0030956 2.48 0.013 .0015979 .0137529
Educ .0161809 .0261982 0.62 0.537 -.035254 .0676158
Casado .1901012 .0467592 4.07 0.000 .0982991 .2819033
Sur -.047992 .0367425 -1.31 0.192 -.1201284 .0241444
Urba .1869376 .0327986 5.70 0.000 .1225442 .2513311
Black .0400269 .1138678 0.35 0.725 -.1835294 .2635832
_cons 4.471616 .468913 9.54 0.000 3.551 5.392231

Instrumentado: Iq
Instrumentos: exper tendencia educ casado sur urban black meduc feduc sibs

44
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑑𝑢𝑐 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏𝑎𝑛 𝑏𝑙𝑎𝑐𝑘 (𝑘𝑤𝑤
= 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐)

Regresión de variables instrumentales (2SLS)


Fuente SS df MS Núm. Obs =722
F (8, 713) =25.70
Modelo 19.820304 8 2.477538 Prob ˃ F =0.0000
Residuos 106.991612 713 .150058361 R- cuadr =0.1563
Total 126.811916 721 .175883378 Adj.R-cua =0.1468
Root MSE =.38737

Lwage Coef. Std. Err. T P ˃ | t [95%Conf. Interval.


|
Kww .0249441 .0150576 1.66 0.098 -.0046184 .0545067
Exper .0068682 .0067471 1.02 0.309 -.0063783 .0201147
Tendencia .0051145 .0037739 1.36 0.176 -.0022947 .0125238
Educ .0260808 .0255051 1.02 0.307 -.0239933 .0761549
Casado .1605273 .0529759 3.03 0.003 .0565198 .2645347
Sur -.091887 .0322147 -2.85 0.004 -.1551341 -.0286399
Urba .1484003 .0411598 3.61 0.000 .0675914 .2292093
Black -.0424452 .0893695 -0.47 0.635 -.2179041 .1330137
_cons 5.217818 .1627592 32.06 0.000 4.898273 5.537362
Instrumentado: Kww
Instrumentos: exper tendencia educ casado sur urban black meduc feduc sibs

A pesar de que hay 935 hombres en la muestra, solo se usan 722 para la estimación porque
faltan datos en 𝑚𝑒𝑑𝑢𝑐 y 𝑓𝑒𝑑𝑢𝑐.
Se estima que el rendimiento de la educación es pequeño e insignificante, ya sea que se
utilice como indicador el 𝐼𝑄 o 𝐾𝑊𝑊. Esto podría deberse a que las variables de fondo
familiar no satisfacen la condición de redundancia adecuada, o podrían correlacionarse con
𝑎1 . ( en ambas regresiones de la primera etapa, el estadístico 𝐹 para la significación
conjunta de 𝑚𝑒𝑑𝑢𝑐,𝑓𝑒𝑑𝑢𝑐 y 𝑠𝑖𝑏𝑠 tiene valores 𝑝 por debajo de .002, por lo que parece
que las variables de antecedentes familiares tienen alguna correlación parcial con los
indicadores de capacidad.)
5.8. a. Conecte el indicador 𝑞1 para 𝑞 y la medida 𝑥𝐾 para 𝑥𝐾∗ , asegurándose de realizar
un seguimiento de los errores:
𝑦 = 𝛾0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝐾 𝑥𝐾 + 𝛾1 𝑞1 + 𝑣 − 𝛽𝐾 𝑒𝐾 + 𝛾1 𝑎1
≡ 𝛾0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝐾 𝑥𝐾 + 𝛾1 𝑞1 + 𝑢
Donde 𝛾1 = (1/𝛿1 ) Ahora, si las variables 𝑧1 , …, 𝑧𝑀 son redundantes en la ecuación
estructural ( entonces no están correlacionados con 𝑣), y no están correlacionados con el
error de medición 𝑒𝐾 y el error del indicador 𝑎1 podemos usarlo como IV para 𝑥𝐾 y 𝑞1 en

45
2SLS. Necesitamos 𝑀 ≥ 2 porque tenemos dos variables explicativas, 𝑥𝑞 y 𝑞1 , que
posiblemente estén correlacionadas con el error compuesto 𝑢.
b. Los resultados de stata son:
. 𝑖𝑣𝑟𝑒𝑔 𝑙𝑤𝑎𝑔𝑒 𝑒𝑥𝑝𝑒𝑟 𝑡𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑐𝑎𝑠𝑎𝑑𝑜 𝑠𝑢𝑟 𝑢𝑟𝑏𝑎𝑛 𝑏𝑙𝑎𝑐𝑘 (𝑒𝑑𝑢𝑐 𝑖𝑞
= 𝑘𝑤𝑤 𝑚𝑒𝑑𝑢𝑐 𝑓𝑒𝑑𝑢𝑐)
Regresión de variables instrumentales (2SLS)
Fuente SS df MS Num.obs =722
Modelo -.29542999 8 -.03692874 F (8, 713) =18.74
Prob ˃F =0.000
Residuos 127.107346 713 .178271172 R-cuadr =
Total 126.811916 721 .175883378 Adj.R-cuad =
Root MSE =.42222

Lwage Coef. Std. Err t P ˃| t| [95%Conf. Interval.


Educ .1646904 .1132659 1.45 0.146 -.0576843 .3870651
Iq -.0102736 .0200124 -0.51 0.608 -.0495638 .0290166
Exper .0313987 .0122537 2.56 0.011 .007341 .0554564
Tendencia .0070476 .0033717 2.09 0.037 .0004279 .0136672
Casado .2133365 .0535285 3.99 0.000 .1082442 .3184289
Sur -.0941667 .0506389 -1.86 0.063 -.1935859 .0052525
Urban .1680721 .0384337 4.37 0.000 .0926152 .2435289
black -.2345713 .2247568 -1.04 0.297 -.6758356 .2066929

_cons 4.932962 .4870124 10.13 0.000 3.976812 5.889112


Instrumentado: Educ iq
Instrumentos: exper tendencia casado sur urban black kww meduc feduc sibs

El rendimiento estimado de la educación es muy grande, pero se estima imprecisamente. El


intervalo de confianza del 95% es muy amplio y fácilmente incluye cero. Curiosamente, el
coeficiente en 𝑖𝑞 es realmente negativo, y no estadísticamente diferente de cero. La gran
estimación IV del retorno a la educación y al indicador de capacidad insignificante dan
cierto respaldo a la idea de que la capacidad omitida es un problema menor que el error de
medición de la escolaridad en el modelo log(𝑤𝑎𝑔𝑒) estimado por MCO. Pero la evidencia
no es muy convincente dado el intervalo de confianza muy amplio para el coeficiente de
𝑒𝑑𝑢𝑐.
5.9. Definir 𝜃4 = 𝛽4 − 𝛽3 , de modo que 𝛽4 = 𝛽3 + 𝜃4 . Tapar esta expresión en la
ecuación y reorganizar da:
log(𝑤𝑎𝑔𝑒) = 𝛽0 + 𝛽1 𝑒𝑥𝑝𝑒𝑟 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 2 + 𝛽3 (𝑡𝑤𝑜𝑦𝑟 + 𝑓𝑜𝑢𝑟𝑦𝑟) + 𝜃4 𝑓𝑜𝑢𝑟𝑦𝑟 + 𝑢
= 𝛽0 + 𝛽1 𝑒𝑥𝑝𝑒𝑟 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 2 + 𝛽3 𝑡𝑜𝑡𝑐𝑜𝑙𝑙 + 𝜃4 𝑓𝑜𝑢𝑟𝑦𝑟 + 𝑢

46
Donde 𝑡𝑜𝑡𝑐𝑜𝑙𝑙 = 𝑡𝑤𝑜𝑦𝑟 + 𝑓𝑜𝑢𝑟𝑦𝑟. Ahora, simplemente calcule la última ecuación por
2SLS usando 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 , 𝑑𝑖𝑠𝑡2𝑦𝑟 y 𝑑𝑖𝑠𝑡4𝑦𝑟 como el conjunto completo de
instrumentos. Podemos usar la estadística 𝑡 en 𝜃̂4 para la prueba 𝐻0 : 𝜃4 > 0.

5.10.a. Para 𝛽̂1, el elemento de la mano derecha inferior en la formula general (5.24)
con 𝐱 = (1, 𝑥) y 𝐳 = (1, 𝑧)es:
𝜎 2 [Cov(𝑧, 𝑥)2 / Var(𝑧)]
Alternativamente puede derivar esta fórmula directamente escribiendo:
𝑁 𝑁

√𝑁(𝛽̂1 − 𝛽1 ) = (𝑁 ∑(𝑧𝑖 − 𝑧̅)(𝑥𝑖 − 𝑥̅ ))


1 −1
[𝑁 −1/2
∑(𝑧𝑖 − 𝑧̅)𝑢𝑖 ]
𝑖=1 𝑖=1

2
Ahora, 𝜌𝑧𝑥 = [Cov(𝑧, 𝑥)]2 /(𝜎𝑧2 𝜎𝑥2 ) , por lo que él algebra simple muestra que la varianza
asintótica es 𝜎 2 /(𝜌𝑧𝑥
2 2
𝜎𝑥 ). La varianza asintótica para el estimador MCO es 𝜎 2 / 𝜎𝑥2 . Por lo
2
tanto, la diferencia es la presencia de 𝜌𝑧𝑥 en el denominador de la varianza asintótica IV.
b. Naturalmente, a medida que aumenta la varianza del error 𝜎 2 también aumenta la
varianza asintótica del estimador IV. Mayor varianza en 𝑥 en l población es mejor para
estimar 𝛽1 : a medida que 𝜎𝑥2 aumenta la varianza asintótica disminuye. Estos efectos son
idénticos a los hallazgos de MCO. Una correlación mayor entre 𝑧 y 𝑥 reduce la varianza
asintótica del estimador IV. Como 𝜌𝑧𝑥 → 0 la varianza asintótica aumenta sin límite. Esto
ilustra por qué un instrumento que solo esta débilmente correlacionado con 𝑥 puede
conducir a estimadores IV muy imprecisos.

5.11. Siguiendo la sugerencia, deje que 𝑦20 sea la proyección lineal de 𝑦2 en 𝐳2 , deje que
𝑎2 sea el error de proyección, y suponga que 𝜆2 es conocido. (Los resultados sobre los
regresores generados en la Seccion 6.1.1 muestran que el argumento se traslada al caso
cuando 𝜆2 es estimado). Conectar en 𝑦2 = 𝑦20 + 𝑎2 da

𝑦1 = 𝐳1 𝛿1 + 𝛼1 𝑦20 + 𝛼1 𝑎2 + 𝑢1
Efectivamente, regresamos 𝑦1 en 𝐳1 ,𝑦20 . La condición de consistencia clave es que cada
explicación es ortogonal al error compuesto, 𝛼1 𝑎2 + 𝑢1 . Por supuesto, E(𝐳1´ 𝑢1 ) = 0 .
Además , E(𝑦20 𝑎2 ) = 0 ppor construcción. El problema es que, en general E(𝐳1´ 𝑎2 ) ≠ 0
porque 𝐳1 no se incluyo en la proyección lineal para 𝑦2 . Por lo tanto, MCO será
inconsistente para todos los parámetros en general. Compare esta conclusión con 2SLS
cuando𝑦2∗ es la proyección en 𝐳1 y 𝐳2 :
𝑦2 = 𝑦2∗ + 𝑟2 = 𝐳𝛑2 + 𝑟2

E(𝐳 ´ 𝑟2 ) = 0

La regresión del segundo paso (suponiendo que 𝛑2 se conoce) es

47
𝑦1 = 𝐳1 𝛅1 + 𝛼1 𝑦2∗ + 𝛼1 𝑟2 + 𝑢1

Por construcción 𝑟2 no está correlacionado con 𝐳, y así Ε(𝐳1′ 𝑟2 ) = 0 y Ε(𝑦2∗ 𝑟2 ) = 0.


La lección es que hay que tener mucho cuidado si se realiza manualmente 2SLS
explícitamente haciendo las regresiones de primera y segunda etapa: todas las variables
exógenas deben incluirse en primera etapa

5.12. Este problema es esencialmente probado por la sugerencia. Dada la descripción de


𝚷 la única forma en que las columnas 𝐾 de 𝚷 él sólo forma en que las columnas K de 
pueden ser linealmente dependientes es si la última columna se puede escribir como una
combinación lineal de las primeras columnas 𝐾 − 1. Esto es cierto si y solo si cada Ѳ𝑗 es
cero. Así, si al menos una Ѳ𝑗 es diferente de cero, Rango (𝚷)  𝐾.

5.13. a. En un modelo de regresión simple con una sola IV, la estimación IV de la


pendiente puede ser
Escrito como

𝛽̂1 = (∑𝑁 𝑁
𝑖=1(𝑧𝑖 − 𝑧) (𝑦𝑖 − 𝑦)/(∑𝑗=1(𝑧𝑖 − 𝑧) (𝑥𝑖 − 𝑥))
𝑁 𝑁
= ∑𝑖=1 𝑧𝑖 (𝑦𝑖 − 𝑦)/ ∑𝑖=1 𝑧𝑖 (𝑥𝑖 − 𝑥))

Ahora el numerador puede ser escrito como

∑𝑁 𝑁 𝑁
𝑖=1 𝑧𝑖 (𝑦𝑖 − 𝑦) = ∑𝑖=1 𝑧𝑖 𝑦𝑖 − (∑𝑗=1 𝑧𝑖 )𝑦 = 𝑁1 𝑦1 − 𝑁1 𝑦 = 𝑁1 (𝑦1 − 𝑦)

Donde 𝑁1 = ∑𝑁 𝑖=1 𝑧𝑖 es un numero de observación en el ejemplo con 𝑧𝑖 = 1 𝑦 𝑦1 es el


promedio de la 𝑦𝑖 sobre las observaciones con 𝑧𝑖 = 1. Luego escriba 𝑦 como un promedio
ponderado

𝑁0 𝑁1
𝑦=( ) 𝑦0 + ( )𝑦
𝑁 𝑁

donde la notación debe ser clara. El álgebra directa muestra que

𝑁 − 𝑁1 𝑁0 𝑁0
𝑦1 − 𝑦 = [ ] 𝑦 − ( ) 𝑦0 = ( ) (𝑦1 − 𝑦0 )
𝑁 𝑁 𝑁

El mismo argumento muestra que el denominador es (𝑁0 𝑁1 /𝑁)(𝑥1 − 𝑥0 ) tomando el


ratio que provee el resultado.

b. Si x también es binario, lo que representa algún "tratamiento", 𝑥1 es la fracción de


observaciones recibiendo tratamiento cuando 𝑧𝑖 = 1 y 𝑥0 es la fracción que recibe
tratamiento cuando 𝑧𝑖 = 0.

Supongamos que 𝑥𝑖 = 1 si la persona i participa en un programa de capacitación laboral, y


deja 𝑧𝑖 = 1 si la persona i es elegible para participar en el programa. Entonces 𝑥1 es la
fracción de personas que participan en el programa de entre los elegibles, y 𝑥0 es la fracción

48
de personas que participan que no son elegible. (Cuando la elegibilidad es necesaria para la
participación, 𝑥0 = 0.) En general, 𝑥1 − 𝑥0 es el diferencia en las tasas de participación
cuando z  1 yz  0. Entonces la diferencia en la respuesta media entre los grupos z  1 y z
 0 se divide por la diferencia en las tasas de participación en los dos grupos

5.14. a. Tomando la proyección lineal de (5.1) bajo la suposición de que (𝑥1 , … ,


𝑥𝑘−1 , 𝑧𝑖 , … . , 𝑧𝑀 ) no están correlacionados con usted 𝐿(y|z) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 +
𝛽𝑘 𝐿(𝑥𝑘 |z) + 𝐿(u|z)
= 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 + 𝛽𝑘 𝑥𝑘∗

Porque 𝐿(u|z) = 0
b. Po la ley de proyecciones iteradas,
𝐿 (y|1, 𝑥1 … . . , 𝑥𝑘−1 , 𝑥∗𝑘 ) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘−1 𝑥𝑘−1 + 𝛽𝑘 𝑥∗𝑘

Consistencia de OLS para el 𝛽𝐽 de la regresión y en 1, 𝑋1 , … , 𝑋𝐾−1 , 𝑋𝑘∗ Sigue


inmediatamente de nuestro tratamiento de MCO del Capítulo 4: MCO estima
consistentemente los parámetros en una proyección lineal siempre que no haya una
colinealidad perfecta en (1, 𝑋1 , … , 𝑋𝐾−1 , 𝑋𝑘∗ )

C. Debería haber dicho explícitamente que asumir E (z 'z) es no singular, es decir,


2SLS.2a se mantiene.
Entonces, 𝑋𝑘∗ no es una combinación lineal perfecta de 𝑋1 , … , 𝑋𝐾−1 si y solo si al menos
un elemento de 𝑧1 , ..., 𝑧𝑀 tiene un coeficiente distinto de cero en
𝐿 (𝑋𝑘 |1, 𝑥1 … . . , 𝑥𝑘−1 , 𝑧1 , … . , 𝑧𝑀 ) . En el modelo con Una única variable explicativa
endógena, sabemos que esta condición es equivalente a la Asunción 2SLS.2b, la condición
de rango estándar.

5.15 ln 𝐿 (x|z) = 𝑧п podemos escribir


п11 0
п = (п 𝐼𝐾2 )
12

Donde 𝐼𝐾2 es el 𝐾2 𝑥 𝐾2 matriz indentidad, 0 es el 𝐿1 𝑥 𝐾2 matriz 0 п11 es 𝐿1 𝑥 𝐾1 y п12 es


𝐾2 𝑥 𝐾1 . Como un problema 5.12 el rango condición mantiene si y solo si rango (п) = 𝐾
Si por algún 𝑥𝑗 el vector es 𝑧1 no aparece en 𝐿 (𝑥𝑗 |z), entonces п11 tiene una columna que
es completamente ceros. Entonces, esa columna de п se puede escribir como una
combinación lineal del último 𝐾2 columnas de п - porque cualquier vector 𝐾2 𝑥 1 en п12 se
puede escribir como una combinación lineal del columnas de 𝐼𝐾2 . Esto implica rango
(п) K . Por lo tanto, una condición necesaria para el rango condición es que ninguna
columna de п11 sea exactamente cero, lo que significa que al menos una 𝑍𝐻 debe aparecen
en la forma reducida de cada 𝑥𝐽 , 𝑗 = 1, . . , 𝐾1.,

49
b. Supongamos que 𝐾1 = 2 𝑦 𝐿1 = 2, donde 𝑧1 aparece en la forma reducida de 𝑥1 y
𝑥2 , pero 𝑧2 aparece en ninguna forma reducida. Entonces la matriz 2  2 tiene ceros en su
segunda fila, lo que significa que la segunda fila de п es todo ceros. En ese caso, no puede
tener rango K. Intuitivamente, mientras comenzamos con dos instrumentos, solo uno de
ellos resultó ser parcialmente correlacionado con 𝑥1 y 𝑥2 ,

c. Sin pérdida de generalidad, supongamos que 𝑧𝑗 aparece en la forma reducida para 𝑥𝑗 ;


podemos simplemente reordenar los elementos de 𝑧1 para asegurar que este sea el caso.
Entonces п11 es una diagonal 𝐾1 𝑥 𝐾1 matriz con elementos diagonales distintos de cero.
Mirando a

п11 0
п = (п 𝐼𝐾2 )
12

Vemos que si п11 es diagonal con todas las diagonales distintas de cero, entonces п es
triangular inferior con todos elementos diagonales distintos de cero. Por lo tanto, rango
п = 𝑘.

5.16. a. La discusión a continuación de la ecuación (5.24) implica directamente que

𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) = 𝜎𝑢2 /𝑉𝑎𝑟(𝑤 ∗ )

Porque no hay otras variables explicativas, exógenas o endógenas, en la ecuación.


Recuerde, la expresión

𝜎2𝑢[𝐸(𝑤∗`𝑥∗]−1

Tiene la misma forma como OLS pero con 𝑥 ∗ reemplazando x. Entonces cualquier algebra
derivado por OLS pues ser aplicado para 2SL2
b. Podemos escribir 𝑣 = 𝑢 − hγ
Entonces si 𝐸 = (g ′ v) = E(g ′ u) − E(g ′ h)γ = 0

c. Para que la sugerencia aquí sea completamente correcta, debería haber indicado que
𝐸(𝑤) = 0 Como lo haremos ver, cuando w tiene una media distinta de cero, 𝑟̅ difiere de
w * por una constante aditiva [que, por supuesto, implica 𝑉𝑎𝑟(𝑟̅ ) = 𝑉𝑎𝑟 (𝑤 ∗)

Nuevamente usando la discusión siguiendo la ecuación (5.24),

𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) = 𝜎𝑢2 /𝑉𝑎𝑟(𝑟̅ )

50
Donde 𝜎𝑢2 = 𝑉𝑎𝑟 (𝑣), 𝑟̅ es la población residual de la regresión w̆ en 1, h, y 𝑤
̅ son la
valores ajustados de población a partir de la proyección lineal de w on g, h.
Porque E(g ′ h) = 0, podemos escribir

𝑤
̅ = g𝜋1 + h𝜋2

Donde 𝜋1 = [E(g ′ g)]E(g ′ w)


𝜋2 = [E (h′ h)] E (h′w)

Notar que 𝑤∗ = 𝐿 (𝑤|g) = g𝜋1

Siguiente 𝐿 ( 𝑤
̅|1, h) = 𝐿 ( g𝜋1 + h𝜋2|1, h) = 𝐿 ( g|1, h)𝜋1 + h𝜋2

= 𝐿 ( g|1)𝜋1 + h𝜋2

porque 𝐸(h) = 0 y E(g ′ h) = 0 son asumidos. Ahora 𝐿 ( g|1) = 𝐸(g) y entonces


𝐿(𝑤
̅|1, h) = 𝑛1 + h𝜋2

Donde 𝑛1 = µ2 𝜋1 por tanto


𝑟̅ = 𝑤
̅ −𝐿(𝑤
̅ |1, h) = ( g𝜋1 + h𝜋2) − (𝑛1 + h𝜋2) = −𝑛1 + g𝜋1

= −𝑛1 + 𝑤 ∗

Sigue que 𝑉𝑎𝑟 (𝑟̅ ) = 𝑉𝑎𝑟 (𝑤 ∗) entonces tenemos que mostrar

𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) = 𝜎𝑢2 /𝑉𝑎𝑟(𝑤 ∗ )

d. Porque E(h′ v) = 0 por definición tenemos


𝑁
𝜎2𝑢 = 𝑉𝑎𝑟(hγ) + 𝜎2𝑢 = γ′ ∑ hγ + 𝜎2𝑣 ≥ 𝜎2𝑣
𝑗=1

Con estricta igualdad si ∑ h es positivo definido y γ ≠ 0 incluso en casos donde ∑ h =


𝑉𝑎𝑟(h) no es definida positiva. Esto significa que, asintóticamente, generalmente
obtenemos un menor varianza asintótica para la estimación  mediante la inclusión de
variables exógenas que son no correlacionado con los instrumentos g:

𝜎𝑢2 𝜎𝑣2
𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) − 𝐴𝑣𝑎𝑟 √𝑁(𝛽 − 𝛽) = −
𝑉𝑎𝑟 (𝑤 ∗ ) 𝑉𝑎𝑟 (𝑤 ∗ )

γ′ ∑ hγ
= 𝑉𝑎𝑟 (𝑤 ∗ ) ≥ 0

51
Soluciones al Capítulo 6 Problemas

6.1. a. Aquí se abrevia la salida de Stata para probar la hipótesis nula de que educ es
exógena

. use card . qui reg educ nearc4 nearc2 exper expersq black south smsa reg661-reg668
smsa66
.predict v2hat, resid . reg lwage educ exper expersq black south smsa reg661-reg668 smsa66
v2hat

̂ es -1.71, que no es significativa al nivel de 5% contra una de dos


La estadística t en 𝑉2
lados alternativos. La correlación negativa entre 𝑢1 y educ es esencialmente el mismo
hallazgo que el rendimiento estimado de 2SLS para la educación es mayor que el estimado
de MCO. En cualquier caso, lo haría llama a esta evidencia marginal de que educ es
endógeno. El dilema es que el OLS y 2SLS las estimaciones puntuales son bastante

52
diferentes. Segundo. Para probar la restricción de indentificación simple, obtenemos los
residuos 2SLS:

. qui reg lwage educ exper expersq black south smsa reg661-reg668 smsa66 (nearc4 nearc2
exper expersq black south smsa reg661-reg668 smsa66) . predict uhat1, resid
. qui reg u1hat exper expersq black south smsa reg661-reg668 smsa66 nearc4 nearc2
. di e(r2) .00041467 . di 3010*e(r2) 1.2481535 . di chiprob(1,3010*e(r2)) .26390545

El estadístico de prueba es el tamaño de muestra multiplicado por el R cuadrado de esta


regresión, o aproximadamente 1.25. El valor de p, obtenido de 𝑥 2 distribución, es
aproximadamente .264, por lo que los instrumentos pasan la prueba de identificación

6.2. Primero obtenemos los residuales de forma reducida, 𝑣21 y 𝑣22 , para educ y IQ,
respectivamente.
La salida de regresión está suprimida:

. qui reg educ exper tenure married south urban black kww meduc feduc sibs . predict
v21hat, resid (213 missing values generated)
. qui reg iq exper tenure married south urban black kww meduc feduc sibs . predict v22hat,
resid (213 missing values generated)
. qui reg lwage exper tenure married south urban black educ iq v21hat v22hat . test v21hat
v22hat ( 1) v21hat  0 ( 2) v22hat  0

F( 2, 711)  4.20 Prob  F  0.0153

El valor p de la prueba F conjunta, que se justifica asintóticamente, es .0153. Por lo tanto,


la prueba encuentra evidencia bastante fuerte para la endogeneidad de al menos uno de
educ e IQ, aunque esto
La conclusión se basa en que los instrumentos son verdaderamente exógenos. Si mira hacia
atrás en el problema 5.8, esta solución intravenosa no parecía funcionar muy bien.
Entonces todavía no sabemos qué debería tratarse como exógeno en este método.

6.3. a. Necesitamos precios para satisfacer dos requisitos. Primero, las calorías y las
proteínas deben ser parcialmente correlacionadas con los precios de los alimentos. Si bien
esto es fácil de probar por separado, al estimar el dos formas reducidas, la condición de
rango aún podría ser violada. (El problema 5.15c contiene una condición suficiente para
mantener la condición de rango). Además, también debemos suponer que los precios son
exógenos en la ecuación de productividad. Idealmente, los precios varían debido a cosas
como costos de transporte que no están sistemáticamente relacionados con las variaciones
regionales en el individuo productividad. Un problema potencial es que los precios reflejan
la calidad de los alimentos y las características de alimentos que no sean calorías y proteínas
aparecen en la perturbación 𝑢1 .

53
b. Como hay dos variables explicativas endógenas, necesitamos al menos dos precios.

c.. Primero estimaríamos las dos formas reducidas de calorías y proteínas mediante
regresión cada uno sobre una constante, exper, exper2, educ, y los precios M, 𝑝1, , ..., 𝑝𝑀 ,
obtenemos los residuales, 𝑣21 , 𝑣22 . Luego ejecutaríamos el log de regresiónproduc en
1, exper, exper2, educ, 𝑣21 , 𝑣22 y hacer una prueba de significación conjunta en 𝑣21 , 𝑣22 .
Podríamos usar una prueba F estándar o usar una prueba resistente a la heterocedasticidad

6.4.a. Dado que y  𝑥  q  v se deduce que

𝐸( y|x) = xβ + 𝐸( q|x) + 𝐸( v|x) − xβ + xδ − x(β + δ) = xγ

Dado que 𝐸( y|x) es lineal en x, no hay ninguna forma funcional de especificación


incorrecta en este condicional expectativa. Por lo tanto, ninguna prueba de forma funcional
detectará la correlación entre q y x, no importa cuán fuerte sea: δ puede ser cualquier cosa.

Desde 𝐸( v|x, q) = 0  0, 𝑉𝑎𝑟( v|x, q) = 𝐸( 𝑣 2 |x, q) = 𝜎𝑣2 = 𝐸( 𝑣 2 |x) = 𝑉𝑎𝑟( v|x).


Por tanto, 𝑉𝑎𝑟( v|x) = 𝑉𝑎𝑟( q + v|x) = 𝑉𝑎𝑟( q|x) + 𝑉𝑎𝑟( v|x) + 2𝐸(qv|x) donde
usamos
𝐶𝑜𝑣(q, v|x) = 𝐸(q v|x) 𝑝𝑜𝑟𝑞𝑢𝑒 𝐸( v|x) = 0. Ahora

𝐸(q v|x) = 𝐸[𝐸(qv|x, q)|𝑥] = 𝐸[𝑞𝐸( 𝑣|𝑥, 𝑞) |x] = E[q. 0 | x] = 0.

Por lo tanto, 𝑉𝑎𝑟( v|x) = 𝑉𝑎𝑟( q|x) + 𝑉𝑎𝑟( v|x) = 𝜎𝑞2 + 𝜎𝑣2 , , por lo que γ es
condicionalmente homoscedástico Pero si 𝐸( γ|𝑥) = 𝑥γ y 𝑉𝑎𝑟( y|x) son constantes, se
realizará una prueba de heterocedasticidad, siempre tendrá una distribución de chi-
cuadrado limitante. No tendrá poder para detectar variables omitidas.

b. Desde 𝐸( 𝑢2 |𝐱) = 𝑉𝑎𝑟( 𝑢|𝐱) + [𝐸( 𝑢|𝐱)]2 𝑦 𝑉𝑎𝑟( 𝑢|𝐱x) es constante, 𝐸( 𝑢2 |𝐱) es
constante si y solo si[𝐸( 𝑢|𝐱)]2 es constante. Si 𝐸( u|𝐱) ≠ 𝐸(𝑢) luego 𝐸( u|𝐱) no es
constante, entonces [𝐸( 𝑢|𝐱)]2 generalmente será una función de x. Entonces 𝐸( 𝑢2 |𝐱)
depende de x, lo que significa que 𝑢2 puede estar correlacionado con funciones de x,
digamos h(x). Se deduce que las pruebas de regresión de la forma (6.36) pueden tener, al
menos en algunos casos, detectar "heteroscedasticidad". (Si el objetivo es determinar
cuando se requiere inferencia robusta de heterocedasticidad, las pruebas basadas en
regresión hacen lo correcto)

6.5. a. Para simplificar, absorba la intersección en 𝐱, entonces y  𝐱  u, Eu | x  0,


Varu | x | 2. En estas pruebas,  2 es implícitamente SSR / N - no hay ajuste de
grados de libertad. (En todo caso, el ajuste df no hace ninguna diferencia asintóticamente.)
Entonces ûi 2 -  2 tiene un promedio de muestra cero.

54
1
𝑁 − 2 ∑𝑁 ̂ 2 − 𝜎 2 ) = 𝑂𝑝 (1) • 𝑜𝑝 (1). Por lo tanto, hasta ahora tenemos
𝑖=1(𝐡𝑖 − 𝛍ℎ )′(𝜎
1 1
𝑁 − 2 ∑𝑁 ′
̂ 2 ) = 𝑁 − 2 ∑𝑁
̂ 𝑖2 − 𝛔
𝑖=1 𝐡𝑖 (𝑢 ̂ 𝑖2 − 𝜎̂ 2 ) + 𝑜𝑝 (1).
𝑖=1(𝐡𝑖 − 𝜇ℎ )′(𝑢

Hemos terminado con esta parte si mostramos


1 1
𝑁 − 2 ∑𝑁 ̂ 𝑖2 = 𝑁 −2 ∑𝑁
𝑖=1(𝐡𝑖 − 𝜇ℎ )′𝑢 𝑖=1(𝐡𝑖 − 𝜇ℎ )′𝑢̂ 𝑖2 + 𝑜𝑝 (1). Ahora, como en el problema
̂ − 𝛃)]]2 , entonces
̂ − 𝛃) + [𝐱 𝑖 (𝛃
4.4, podemos escribir 𝑢̂𝑖2 = 𝑢𝑖2 − 2𝑢𝑖 𝐱 𝑖 (𝛃
1 1 1
𝑁 − 2 ∑𝑁 ̂ 𝑖2 = 𝑁 −2 ∑𝑁
𝑖=1(𝐡𝑖 − 𝛍ℎ )′𝑢 ̂ 𝑖2 − 2 [𝑁 −2 ∑𝑁
𝑖=1(𝐡𝑖 − 𝛍ℎ )′𝑢
′ ̂
𝑖=1(𝐡𝑖 − 𝛍ℎ ) 𝐱 𝑖 ] (𝛃 −
1 ′
𝛃) + [𝑁 −2 ∑𝑁 ′ ̂ ̂
𝑖=1(𝐡𝑖 − 𝛍ℎ ) 𝐱 𝑖 ⊗ 𝐱 𝑖 ] {𝑣𝑒𝑐 [(𝛃 − 𝛃)(𝛃 − 𝛃) ]} , (6.62)

donde la expresión del tercer término se deriva de


2 ′ ′
̂ − 𝛃)] = 𝐱 𝑖 (𝛃
[𝐱 𝑖 (𝛃 ̂ − 𝛃)(𝛃
̂ − 𝛃) 𝐱 𝑖′ = 𝐱 𝑖 ⊗ 𝐱 𝑖 • vec [(𝛃
̂ − 𝛃)(𝛃
̂ − 𝛃) ]. Dejar caer el
"-2" el segundo término se puede escribir como (𝑁 −1 ∑𝑁 ′ ̂
𝑖=1 𝑢𝑖 (𝐡𝑖 − 𝛍ℎ ) 𝐱 𝑖 )√𝑁(𝛃 − 𝛃) =
𝑜𝑝 (1) • 𝑂𝑝 (1) porque √𝑁(𝛃 ̂ − 𝛃) = 𝑂𝑝 (1) y, bajo E(𝑢𝑖 |𝐱 𝑖 ) = 0, E[𝑢𝑖 (𝐡𝑖 − 𝜇ℎ )′ 𝐱 𝑖 ] = 0
; la ley de los grandes números implica que el promedio de la muestra es 𝑜𝑝 (1). El tercer
término se puede escribir como
1 ′ 1
𝑁 −2 [𝑁 −1 ∑𝑁 ′ ̂ ̂
𝑖=1(𝐡𝑖 − 𝛍ℎ ) (𝐱 𝑖 ⊗ 𝐱 𝑖 )] {vec [√𝑁(𝛃 − 𝛃)√𝑁(𝛃 − 𝛃) ]} = 𝑁

2 • 𝑂 (1) •
𝑝
𝑂𝑝 (1), donde nuevamente usamos el hecho de que los promedios de muestra son 𝑂𝑝 (1)
̂ − 𝛃)√𝑁(𝛃
según la ley de grandes números y vec [√𝑁(𝛃 ̂ − 𝛃)′ ] = 𝑂𝑝 (1). Hemos
demostrado que los dos últimos términos en (6.62) son 𝑜𝑝 (1), lo que prueba la parte a.
1
b. Por la parte a, la varianza asintótica de 𝑁 −2 ∑𝑁 ′
̂ 𝑖2 − 𝛔
𝑖=1 𝐡𝑖 (𝑢 ̂2 ) es Var[(𝐡𝑖 −
𝛍ℎ )′ (𝑢𝑖2 − 𝜎 2 )] = E[(𝑢𝑖2 − 𝜎 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )]. Ahora (𝑢𝑖2 − 𝜎 2 )2 = 𝑢𝑖4 −
2𝑢𝑖2 𝜎 2 + 𝜎 4 . Bajo el nulo, E(𝑢𝑖2 |𝐱 𝑖 ) = Var(𝑢𝑖 |𝐱 𝑖 ) = 𝜎 2 [Desde E(𝑢𝑖 |𝐱 𝑖 ) = 0 se asume]
y por lo tanto, cuando agregamos (6.37), E[(𝑢𝑖2 − 𝜎 2 )2 |𝐱 𝑖 ] = 𝜅 2 − 𝜎 4 ≡ 𝜂2 . Un
argumento estándar de expectativas iteradas da E[(𝑢𝑖2 − 𝜎 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )] =
E{E[(𝑢𝑖2 − 𝜎 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )]|𝐱 𝑖 } = E{E[(𝑢𝑖2 − 𝜎 2 )2 | que es lo que queríamos
mostrar. (Si llevamos a cabo el cálculo para un sorteo aleatorio 𝑖 o para las variables
aleatorias que representan a la población es una cuestión de gusto).
c. De la parte b y Lemma 3.8, la siguiente estadística tiene una distribución asintótica 𝜒𝑄2 :
1 1
[𝑁 −2 ∑𝑁
𝑖=1(𝑢 ̂2 ) 𝐡𝒊 ] {𝜂2 E[(𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )]}−1 [𝑁 −2 ∑𝑁
̂ 𝑖2 − σ ′
̂ 𝑖2 − σ
𝑖=1 𝐡𝑖 (𝑢 ̂2 ) ].
Usando de nuevo el hecho de que ∑𝑁 ̂2 ) = 0 podemos reemplazar 𝐡𝑖 con 𝐡𝑖 − 𝐡̅
̂ 𝑖2 − σ
𝑖=1(𝑢
en los dos vectores que forman la forma cuadrática. Entonces, nuevamente mediante el
Lema 3.8, podemos reemplazar la matriz en la forma cuadrática con un estimador
consistente, que es

55

𝜂2 [𝑁 −1 ∑𝑁 ̅ ̅
𝑖=1(𝐡𝑖 − 𝐡) (𝐡𝑖 − 𝐡)],

Donde 𝜂2 = 𝑁 −1 ∑𝑁 ̂ 𝑖2 − 𝜎̂ 2 )2 . La estadística computable, después del álgebra simple,


𝑖=1(𝑢
se puede escribir como
𝑁 𝑁 −1 𝑁
′ ′
𝜂 −2
(∑(𝑢̂𝑖2 − ̂2 )(𝐡𝑖
σ − 𝐡̅)) (∑(𝐡𝑖 − 𝐡̅) (𝐡𝑖 − 𝐡̅)) (∑(𝐡𝑖 − 𝐡̅) (𝑢̂𝑖2 − σ
̂ 2 ))
𝑖=1 𝑖=1 𝑖=1

Ahora 𝜂2 es simplemente la suma total de cuadrados de la 𝑢̂𝑖2 dividida por 𝑁. El


numerador de la estadística es simplemente la suma de cuadrados explicada de la regresión
𝑢̂𝑖2 en 1, 𝐡𝑖 , 𝑖 = 1, … 𝑁. Por lo tanto, el estadístico de prueba es 𝑁 veces el 𝑅 cuadrado
habitual (centrado) de la regresión 𝑢̂𝑖2 en 1, 𝐡1 , 𝑖 = 1, … 𝑁 o 𝑁𝑅𝑐2.

̂ 𝑖2 − 𝜎̂ 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ )] en
d. Sin suposición (6.37) necesitamos estimar E[(𝑢
general. Afortunadamente, el enfoque es ahora bastante claro. Reemplazamos el valor
esperado de la población con el promedio de la muestra y reemplazamos cualquier
parámetro desconocido - 𝛽, 𝜎 2 y 𝛍ℎ en este caso - con sus estimadores consistentes (bajo
1
𝐻0 ). Entonces, un estimador generalmente consistente de Avar (𝑁 −2 ∑𝑁 ′
̂ 𝑖2 − σ
𝑖=1 𝐡𝑖 (𝑢 ̂2 ) )
es
𝑁

𝑁 −1
∑(𝑢̂𝑖2 − 𝜎̂ 2 )2 (𝐡𝑖 − 𝛍ℎ )′ (𝐡𝑖 − 𝛍ℎ ),
𝑖=1

y la estadística de prueba robusta a heterocurtosis se puede escribir como


𝑁 𝑁 −1

̂2 )(𝐡𝑖 − 𝐡̅)) (∑(𝑢̂𝑖2 − 𝜎̂ 2 )2 (𝐡𝑖 − 𝐡̅) (𝐡𝑖 − 𝐡̅))
(∑(𝑢̂𝑖2 − σ
𝑖=1 𝑖=1
𝑁

• (∑(𝐡𝑖 − 𝐡̅) (𝑢̂𝑖2 − σ
̂2 )),
𝑖=1

que se ve fácilmente como la suma explicada de cuadrados de la regresión de 1 en


̂2 )(𝐡𝑖 − 𝐡̅), 𝑖 = 1, … 𝑁 (sin un intercepto). Dado que la suma total de cuadrados,
(𝑢̂𝑖2 − σ
sin degradación, de la unidad es simplemente 𝑁, la estadística es equivalente a 𝑁 − 𝑆𝑆𝑅0 ,
donde 𝑆𝑆𝑅0 es la suma de los residuos al cuadrado.
6.6. Aquí está mi sesión de Stata usando los datos NLS80.RAW:
. qui reg lwage exper tenure married south urban black educ

. predict lwageh
(option xb assumed; fitted values)

. gen lwagehsq lwageh^2

. predict uhat, resid

56
. gen uhatsq uhat^2

. reg uhatsq lwageh lwagehsq

Source | SS df MS Number of obs = 935

Una prueba asintóticamente válida para la heterocedasticidad es solo el estadístico 𝐹 para la


significación conjunta de 𝑦̂ y 𝑦̂ 2 , y esto arroja un valor 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = .088 (aunque esta versión cita
el Supuesto (6.37) bajo el nulo, junto con la homoscedasticidad). Por lo tanto, solo hay evidencia
modesta de heterocedasticidad. Se puede ignorar o se pueden usar estadísticas de prueba y errores
estándar robustos de heterocedasticidad.
6.7. a. Los resultados de regresión simple son:

Esta regresión sugiere un fuerte vínculo entre el precio de la vivienda y la distancia desde el
incinerador (a medida que aumenta la distancia, también lo hace el precio de la vivienda). La
elasticidad es .365 y la estadística t es 5.55. Sin embargo, esta no es una buena regresión causal: para
empezar, el incinerador se pudo haber puesto cerca de hogares con valores más bajos. Si es así,
esperaríamos la relación positiva encontrada en la regresión simple, incluso si el nuevo incinerador
no tuviera ningún efecto en los precios de la vivienda.

b. El parámetro 𝛿3 debe ser positivo: una vez construido el incinerador, una casa debería valer
relativamente más cuanto más lejos esté del incinerador. Aquí está la sesión de Stata:

57
El coeficiente en 𝑙𝑑𝑖𝑠𝑡 revela la deficiencia de la regresión en la parte a. Este coeficiente mide la
relación entre 𝑙𝑝𝑟𝑖𝑐𝑒 y 𝑙𝑑𝑖𝑠𝑡 en 1978, incluso antes de que el incinerador se rumoreara. El efecto
del incinerador viene dado por el coeficiente de interacción, 𝑦81𝑙𝑑𝑖𝑠𝑡. Si bien la dirección del
efecto es la esperada, no es especialmente grande, y de todos modos es estadísticamente
insignificante. Por lo tanto, en este punto, no podemos rechazar la hipótesis nula de que la
construcción del incinerador no tuvo ningún efecto en los precios de la vivienda.
c. Agregar las variables enumeradas en el problema da

El efecto del incinerador es ahora más grande (la elasticidad es de aproximadamente .062) y el
estadístico 𝑡 es más grande, pero el valor 𝑝 para el término de interacción sigue siendo bastante
grande, .214. Contra una alternativa unilateral, el valor 𝑝 es .107, por lo que es casi significativo al
nivel del 10%. Aún así, utilizando estos dos años de datos y controlando los factores enumerados,
la evidencia de que los precios de la vivienda se vieron afectados negativamente por el nuevo
incinerador es algo débil.
6.8. a. La siguiente es mi sesión de Stata:

58
El cálculo indica que una mujer con aproximadamente ocho años más de educación tiene
aproximadamente un hijo menos (obtenida de .128(8) = 1.024), otros factores corregidos. El
coeficiente es estadísticamente significativo. Además, ha habido un descenso secular notable en la
fertilidad durante este período: en promedio, con otros factores mantenidos fijos, una mujer en
1984 tenía alrededor de medio hijo menos (.545) que una mujer similar en 1972, el año base. El
efecto también es estadísticamente significativo con el valor de 𝑝 = .002.

b. Estimar la forma reducida para 𝑒𝑑𝑢𝑐 da

59
La prueba 𝐹 conjunta muestra que 𝑒𝑑𝑢𝑐 se correlaciona significativamente de forma parcial con
𝑚𝑒𝑑𝑢𝑐 y 𝑓𝑒𝑑𝑢𝑐; las estadísticas 𝑡 también muestran esto claramente. Si hacemos que la prueba sea
robusta a la heterocedasticidad de forma desconocida, la estadística 𝐹 cae a 131,37 pero el valor 𝑝
todavía es de cero a cuatro lugares decimales.

Para probar el nulo que 𝑒𝑑𝑢𝑐 es exógeno, necesitamos reducir los residuos de forma y luego
incluirlos en la regresión MCO. Yo suprimo la salida aquí:

60
La estadística 𝑡 en 𝑣2ℎ𝑎𝑡 es .702, por lo que hay poca evidencia de que 𝑒𝑑𝑢𝑐 sea endógeno en la
ecuación. Aún así, podemos ver si 2SLS produce estimaciones muy diferentes:

61
El coeficiente estimado en 𝑒𝑑𝑢𝑐 es de mayor magnitud que antes, pero la prueba de endogeneidad
muestra que podemos atribuir razonablemente la diferencia entre MCO y 2SLS al error de
muestreo.

c. Como hay poca evidencia de que 𝑒𝑑𝑢𝑐 sea endógeno, podríamos simplemente usar MCO. Lo
hice en ambos sentidos. Primero, acabo de agregar interacciones 𝑦74 • 𝑒𝑑𝑢𝑐, 𝑦76 •
𝑒𝑑𝑢𝑐, . . . , 𝑦84 • 𝑒𝑑𝑢𝑐 al modelo en la parte a y usé MCO. Algunas de las interacciones,
particularmente en los últimos dos años, son marginalmente significativas y negativas, mostrando
que el efecto de la educación se ha fortalecido con el tiempo. Pero la prueba 𝐹 conjunta para los
términos de interacción arroja un 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = .180, por lo que no rechazamos el modelo sin las
interacciones. Aun así, la posibilidad de que el vínculo entre la fertilidad y la educación se haya
fortalecido con el tiempo merece atención, especialmente si se utilizan datos más recientes.
Para estimar el modelo completo por 2SLS, obtuve instrumentos interactuando con los dummies
de todos los años tanto con 𝑚𝑒𝑑𝑢𝑐 como con 𝑓𝑒𝑑𝑢𝑐. El comando Stata es entonces

Cualitativamente, los resultados son similares a las estimaciones MCO. El valor 𝑝 para la prueba 𝐹
conjunta sobre las interacciones es .205 - nuevamente, esto tiene justificación asintótica bajo la

62
Asunción 2SLS.3, la suposición de homoscedasticidad - así que de nuevo no hay evidencia fuerte
que favorezca la inclusión de las interacciones entre las variables dicotómicas y la educación.

6.9. a. Los resultados de Stata son

El coeficiente estimado en el término de interacción es en realidad más alto ahora - .231 -


que en la ecuación (6.54), y tiene una gran estadística de 5 𝑡 (3.32 en comparación con
2.78). Agregar las otras variables explicativas solo aumentó ligeramente el error estándar en
el término de interacción.
b. El pequeño 𝑅 cuadrado, del orden de 4.1%, o 3.9% si usamos el 𝑅 cuadrado ajustado,
significa que no explicamos gran parte de la variación en el tiempo en la compensación de
los trabajadores usando las variables incluidas en la regresión. Este es a menudo el caso en
las ciencias sociales: es muy difícil incluir la multitud de factores que pueden afectar algo así
como 𝑑𝑢𝑟𝑎𝑡. El bajo 𝑅 cuadrado significa que hacer predicciones de log(𝑑𝑢𝑟𝑎𝑡) sería
muy difícil dados los factores que hemos incluido en la regresión: la variación en los no
observables prácticamente empantana la variación explicada. Sin embargo, el bajo 𝑅
cuadrado no significa que tenemos un estimador sesgado o inconsistente del efecto del
cambio de política. Siempre que el cambio de política de Kentucky proporcione un buen
experimento natural, el estimador MCO es consistente. Con más de 5,000 observaciones,
podemos obtener una estimación razonablemente precisa del efecto, aunque el intervalo de
confianza del 95% es bastante amplio.
c. Usando los datos de Michigan para estimar la regresión básica da

63
El coeficiente en el término de interacción, .192, es notablemente similar al de Kentucky.
Desafortunadamente, debido a las muchas observaciones menos, la estadística 𝑡 es
insignificante al nivel del 10% frente a una alternativa unilateral. La teoría asintótica
aproximadamente predice que el error estándar para Michigan será aproximadamente
(5,626/1,524)1/2 ≈ 1.92 más grande que el de Kentucky (asumiendo la misma varianza
de error y la misma fracción de observaciones en los diferentes grupos). De hecho, la
proporción de errores estándar es de aproximadamente 2.23. La precisión de la diferencia
en los casos de KY e IM muestra la importancia de un tamaño de muestra grande para este
tipo de análisis de políticas.

6.10. a. Como sugiere la sugerencia, podemos escribir √𝑁(𝛃 ̂ − 𝛃) =


𝑁 −1/2 ∑𝑁 −1 ′ ′
𝑖=1 𝐀 𝐳𝑖 𝑢𝑖 , donde 𝐀 ≡ E(𝐳 𝐳) más un término que podemos ignorar por el lema
de equivalencia asintótica. Además, √𝑁(𝐱̅ − 𝜇) = 𝑁 −1/2 ∑𝑁 𝑖=1(𝐱 𝑖 − 𝛍) Cuando apilamos
estas dos representaciones, vemos que la covarianza asintótica entre √𝑁(𝛃 ̂ − 𝛃) y
√𝑁(𝐱̅ − 𝜇) es E[𝐀−1 𝐳𝑖′ 𝑢𝑖 (𝐱 𝑖 − 𝛍)] = 𝐀−1 E[𝑢𝑖 𝐳𝑖′ (𝐱 𝑖 − 𝛍)]. Porque E(𝑢𝑖 |𝐱 𝑖 ) = 0, el
argumento estándar de expectativas iteradas muestra que E[𝑢𝑖 𝐳𝑖′ (𝐱 𝑖 − 𝛍)] = 0 porque 𝐳𝑖
es una función de 𝐱 𝑖 . Esto completa la prueba.
b. Si bien el método delta conduce al mismo lugar, no es necesario debido a la linealidad
de 𝛃̂ en los datos. Podemos escribir 𝛼̂1 = 𝛽̂1 + 𝛽̂3 𝑥̅2 = 𝛽̂1 + 𝛽̂3 𝜇2 + 𝛽̂3 (𝑥̅2 − 𝜇2 ) ≡
𝛼̃1 + 𝛽̂3 (𝑥̅2 − 𝜇2 ), y entonces √𝑁(𝛼̂1 − 𝛼1 ) = √𝑁(𝛼̃1 − 𝛼1 ) + 𝛽̂3 [√𝑁(𝑥̅2 − 𝜇2 )].
Ahora 𝛽̂3 [√𝑁(𝑥̅2 − 𝜇2 )] = 𝛽3 [√𝑁(𝑥̅2 − 𝜇2 )] + 𝑜𝑝 (1) porque 𝛽̂3 − 𝛽3 = 𝑜𝑝 (1) y

√𝑁(𝑥̅2 − 𝜇2 ) = 𝑂𝑝 (1). Entonces tenemos

√𝑁(𝛼̂1 − 𝛼1 ) = √𝑁(𝛼̃1 − 𝛼1 ) + 𝛽3 [√𝑁(𝑥̅2 − 𝜇2 )] + 𝑜𝑝 (1).

En la parte a, sabemos que √𝑁(𝛽̂ − 𝛽) y √𝑁(𝑥̅2 − 𝜇2 ) son asintóticamente comunes y


asintóticamente independientes (no correlacionados). Porque √𝑁(𝛼̂1 − 𝛼1 ) es solo una
combinación lineal determinista de √𝑁(𝛃 ̂ − 𝛃) se deduce que √𝑁(𝛼̃1 − 𝛼1 ) y √𝑁(𝑥̅2 −
𝜇2 ) están asintóticamente no correlacionados. Por lo tanto;

64
Avar[√𝑁(𝛼̂1 − 𝛼1 )] = Avar[√𝑁(𝛼̃1 − 𝛼1 )] + 𝛽32 Avar[√𝑁(𝑥̅2 − 𝜇2 )]

= Avar[√𝑁(𝛼̃1 − 𝛼1 )] + 𝛽32 𝜎22 ,

Donde 𝜎22 = Var(𝑥2 ). Por lo tanto, según la convención introducida en la Sección 3.5,
escribimos
𝜎2
Avar(𝛼̂1 ) = Avar(𝐶) + 𝛽32 ( 𝑁2 ),

que es lo que queríamos mostrar.


c. Como se indica en la sugerencia, el error estándar que obtenemos de la regresión en el
problema 4.8d es realmente se(𝛼̃1 ),ya que no tiene en cuenta la variación de muestreo en
𝑥̅2 . Entonces
1/2
𝜎̂22 1/2
2
se(𝛼̂1 ) = {[se(𝛼̃1 )] + 𝛽̂3 ( )}
2
= {[se(𝛼̃1 )]2 + 𝛽̂32 [se(𝑥̅2 )]2 }
𝑁

desde se(𝑥̅2 ) = 𝜎 2 /√𝑁.


El error estándar informado para la variable de educación en el problema 4.8d, se(𝛼̂1 ), es
aproximadamente .00698, el coeficiente en el término de interacción 𝛽̂3 es
aproximadamente .00455, y la desviación estándar de la muestra de 𝑒𝑥𝑝𝑒𝑟 es
aproximadamente 4.375. Pegar estos números en la fórmula de la parte c da
se(𝛼̂1 ) = [(. 00698)2 + ( .00455)2 (4.375)2 /935]1/2 ≈ .00701. Para fines prácticos,
esto no es mucho más grande que .00698: el efecto de contabilizar la estimación de la
media poblacional de 𝑒𝑥𝑝𝑒𝑟 es muy modesto.
6.11. Lo siguiente son resultados de Stata para responder las primeras tres partes:

65
a. El retorno a otro año de educación aumentó aproximadamente .0185, o 1.85 puntos
porcentuales, entre 1978 y 1985. La estadística 𝑡 sobre 𝑦85𝑒𝑑𝑢𝑐 es 1.97, que es
marginalmente significativa al nivel de 5% frente a una alternativa de dos lados.
b. El coeficiente en 𝑦85𝑓𝑒𝑚 es positivo y muestra que la brecha de género estimada
disminuyó en aproximadamente 8.5 puntos porcentuales. Todavía es muy grande, con la
diferencia de género en 𝑙𝑤𝑎𝑔𝑒 en 1985 estimada en aproximadamente -.232. La estadística
𝑡 en 𝑦85𝑓𝑒𝑚 solo es significativa a aproximadamente el nivel del 10% frente a una
alternativa de dos lados. Aún así, esto sugiere un cierto cierre de las diferencias salariales
entre mujeres y hombres a niveles dados de educación y experiencia laboral.
c. Solo el coeficiente en 𝑦85 cambia si los salarios se miden en dólares de 1978. De
hecho, puede verificar que cuando se utilizan los salarios de 1978, el coeficiente en 𝑦85 sea
de aproximadamente −.383 = .118 − log(1.65) ≈ .118 − .501.
Para responder a esta pregunta, simplemente tomé los residuales de MCO al cuadrado y
regresé aquellos en el dummy del año, y85. El coeficiente es aproximadamente .042 con un
error estándar de aproximadamente .022, lo que da una estadística t de aproximadamente
1.91. Entonces, hay alguna evidencia de que la varianza de la parte no explicada de los
salarios de registro (o incluso de los salarios reales) ha aumentado con el tiempo.
e. Como la ecuación está escrita en el problema, el coeficiente 𝛿0 es el crecimiento en los
salarios nominales para un hombre sin años de educación. Para un hombre con 12 años de
educación, queremos 𝜃0 ≡ 𝛿0 + 12𝛿1 .
Muchos paquetes tienen comandos simples que entregan errores estándar y pruebas para
combinaciones lineales. Pero una forma general de obtener el error estándar para
𝜃̂0 ≡ 𝛿̂0 + 12𝛿̂1 es reemplazar 𝑦85 • 𝑒𝑑𝑢𝑐 con 𝑦85 • (𝑒𝑑𝑢𝑐 − 12) y volver a estimar la
ecuación. El álgebra simple muestra que, en la nueva ecuación, 𝜃0 es el coeficiente de
𝑒𝑑𝑢𝑐. En Stata tenemos

66
Entonces, el crecimiento en los salarios nominales para un hombre con 𝑒𝑑𝑢𝑐 = 12 es de
aproximadamente .339, o 33.9%. [Podríamos usar la estimación más precisa, .404, obtenida
de exp(. 339) − 1 = .404]. El intervalo de confianza del 95% va de aproximadamente
27.3 a 40.6.
Los usuarios de Stata pueden verificar que el comando

después de la estimación de la ecuación original se obtiene la misma estimación e


inferencia.
6.12. Bajo los supuestos enumerados, E(𝐱 ′ 𝑢) = 0, E(𝐳 ′ 𝑢) = 0 , y las condiciones de
rango son válidas para MCO y 2SLS, por lo que podemos escribir
𝑁
̂ 2𝑆𝐿𝑆 − 𝛃) = 𝐀−1
√𝑁(𝛃 ∗ (𝑁
−1/2
∑ 𝐱 𝑖∗′ 𝑢𝑖 ) + 𝑜𝑝 (1)
𝑖=1

𝑁
̂ 𝑀𝐶𝑂 − 𝛃) = 𝐀−1 (𝑁 −1/2 ∑ 𝐱 𝑖′ 𝑢𝑖 ) + 𝑜𝑝 (1)
√𝑁(𝛃
𝑖=1

Donde 𝐀 = E(𝐱𝑖′ 𝐱 𝑖 ), 𝐀 ∗ = E(𝐱 𝑖∗′ 𝐱 𝑖∗ ), y 𝐱 𝑖∗ = 𝐳𝑖 𝚷 Además, debido a los supuestos de


homoscedasticidad, E(𝑢𝑖2 𝐱 𝑖′ 𝐱 𝑖 ) = 𝜎 2 𝐀, E(𝑢𝑖2 𝐱 𝑖∗′ 𝐱 𝑖 ) = 𝜎 2 𝐀 ∗ , y E(𝑢𝑖2 𝐱𝑖∗′ 𝐱 𝑖 ) =
𝜎 2 E(𝐱 𝑖∗′ 𝐱 𝑖∗ ). Pero sabemos por el Capítulo 5 que E(𝐱 ∗′ ∗
𝑖 𝐱 𝑖 ) = 𝐀 ∗ . A continuación,
podemos apilar las ecuaciones anteriores para obtener que MCO y 2SLS, cuando están
apropiadamente centrados y escalados, sean conjuntamente asintóticamente normales con
la matriz de varianza-covarianza
𝐕 𝐂
( 1′ ),
𝐂 𝐕2

Donde 𝐕1 = Avar[√𝑁(𝛃 ̂ 2𝑆𝐿𝑆 − 𝛃)], 𝐕2 = Avar[√𝑁(𝛃 ̂ 𝑀𝐶𝑂 − 𝛃)] y 𝐂 =


2 ∗′
𝐀−1 −1
∗ E(𝑢𝑖 𝐱 𝑖 𝐱 𝑖 )𝐀 . Por lo tanto, podemos escribir la matriz de varianza asintótica de
ambos estimadores como
𝐀−1 𝐀−1
𝜎2 ( ∗ ).
𝐀−1 𝐀−1
Ahora, la varianza asintótica de cualquier combinación lineal es fácil de obtener. En
̂ 2𝑆𝐿𝑆 − 𝛃) − √𝑁(𝛃
particular, la varianza asintótica de √𝑁(𝛃 ̂ 𝑀𝐶𝑂 − 𝛃) es simplemente
𝜎 2 (𝐀−1
∗ +𝐀
−1
− 𝐀−1 − 𝐀−1 ) = 𝜎 2 𝐀−1 2 −1
∗ − 𝜎 𝐀 , cuál es la diferencia en las varianzas
asintóticas, como queríamos mostrar.
6.13. Esta es una aplicación simple de la ley de expectativas iteradas. La declaración del
problema debería agregar el requisito 𝜌1 ≠ 0. Por la LIE
E(𝑢𝑖 |𝐳) = E[E(𝑢𝑖 |𝐳, 𝑣2 )|𝐳] = E(𝜌1 𝑣2 |𝐳) = 𝜌1 E(𝑣2 |𝐳)

67
y entonces si E(𝑢𝑖 |𝐳) = 0 entonces E(𝑣2 |𝐳) = 0, también.
6.14. a. Primero, 𝑦2 es una función de (𝐳, 𝑣2 ), y así, de la ecuación estructural,
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + E(𝑢1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + E(𝑢1 |𝑣2 ),
Donde
E(𝑢1 |𝐳, 𝑣2 ) = E(𝑢1 |𝑣2 )
sigue porque E(𝑢1 , 𝑣2 ) es independiente de 𝐳. (Tenga en cuenta que, en general, no es
suficiente suponer que 𝑢1 y 𝑣2 son independientes de 𝐳; se necesita independencia
conjunta).
b. E(𝑢1 , 𝑣2 ) = 𝜌1 𝑣2 entonces, bajo los supuestos previos,
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + 𝜌1 𝑣2
Por lo tanto, en el primer paso, ejecutaremos MCO de 𝑦𝑖2 en 𝐳𝑖 , 𝑖 = 1, . . . , 𝑁, y
obtendremos los residuales de MCO, 𝑣̂𝑖2. En el segundo paso, retrocederíamos 𝑦𝑖1 en
𝐳𝑖1 , 𝐠(𝑦𝑖2 ), 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁. Según los resultados habituales de la estimación en dos pasos,
todos los coeficientes son √𝑁 constantes y asintóticamente normales para el parámetro de
población correspondiente. Lo interesante de este método es que, si 𝐺1 > 1 tenemos más
de una variable explicativa endógena 𝑔1 (𝑦1 ), … , 𝑔𝐺1 (𝑦2 ) pero al agregar un único regresor,
𝑣̂𝑖2 , se limpia la endogeneidad. Esto ocurre porque todos los regresores endógenos son una
función de 𝑦2 , y hemos supuesto que 𝑦2 es una función aditiva de 𝐳 y un error
independiente, lo que prácticamente restringe a 𝑦2 para que sea continua. (Podemos
reemplazar fácilmente la función lineal 𝐳𝛑2 con funciones no lineales conocidas de 𝐳).
Como ejemplos específicos, la regresión de la segunda etapa podría ser
2 3
𝑦𝑖1 o 𝐳𝑖1 , 𝑦𝑖2 , 𝑦𝑖2 , 𝑦𝑖2 , 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁
o
𝑦𝑖1 o 𝐳𝑖1 , 1[𝑎1 < 𝑦𝑖2 ≤ 𝑎2 ], … ,1[𝑎𝑚−1 < 𝑦𝑖2 ≤ 𝑎𝑚 ], 1[𝑦𝑖2 > 𝑎𝑀 ], 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁.
En el último caso, las variables ficticias para si 𝑦𝑖2 cae en uno de los intervalos
(−∞, 𝑎1 ], (𝑎1 , 𝑎2 ], … , (𝑎𝑀−1 , 𝑎𝑀 ], (𝑎𝑀 , ∞) aparecen en el modelo estructural.

c. Si 𝜌1 = 0, no se necesita ningún ajuste para la varianza asintótica, por lo que podemos


usar la estadística 𝑡 habitual en 𝑣̂𝑖2 como una prueba de endogeneidad de 𝑦2 , donde la nula
es exogeneidad: 𝐻0 : 𝜌1 = 0.
En realidad, nada garantiza que Var(𝑦1 |𝐳, 𝑣2 ) no dependa de 𝑣2 , y, bajo suposiciones más
débiles, también podría depender de 𝐳, por lo que hay buenas razones para hacer que la
prueba sea robusta a la heterocedasticidad
d. La ecuación de estimación se convierte
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝑦2 )𝛂1 + 𝜌1 𝑣2 + 𝜉1 (𝑣22 − 𝜏22 )

68
y ahora, para implementar un procedimiento de función de control de dos pasos,
obtenemos 𝜏22 , la estimación de varianza de error MCO usual, junto con 𝛑2 . Los residuos
se construyen como antes, 𝑣̂𝑖2 = 𝑦𝑖2 − 𝐳1 𝛑̂ 2 . La regresión de segundo paso es ahora
2
𝑦𝑖1 en 𝐳𝑖1 , 𝐠(𝑦𝑖2 ), 𝑣̂𝑖2 , (𝑣̂𝑖2 − 𝜏22 ), 𝑖 = 1, . . . , 𝑁
Ahora podemos usar una prueba de Wald robusta a la heterocedasticidad de importancia
2
conjunta de 𝑣̂𝑖2 y (𝑣̂𝑖2 − 𝜏22 ). Bajo el nulo 𝐻0 : 𝜌1 = 0, 𝜉1 = 0, no tenemos que ajustar la
estadística para la estimación del primer paso.
e. Utilizaríamos 2SLS tradicional, donde necesitamos al menos una IV para cada 𝐠 𝑗 (𝑦2 ).
Los métodos para idear tales IV se discuten en la Sección 9.5. Brevemente, serán funciones
no lineales de 𝐳, por lo que se debe suponer E(𝑢1 , 𝐳) = 0. Generalmente, agregamos
suficientes funciones no lineales, por ejemplo 𝐡(𝐳), a la lista de instrumentos original 𝐳.
Entonces, haga 2SLS de 𝑦1 en 𝐳1 , 𝐠 2 usando IVs [𝐳, 𝐡(𝐳)]. 2SLS será más robusto que el
método descrito en la parte b porque la forma reducida para 𝑦2 no está restringida de
ninguna manera, y no es necesario suponer que 𝑢1 sea independiente de 𝐳.
6.15. a. Porque 𝑦2 = 𝐳𝛑2 + 𝑣2 , podemos encontrar E(𝑦1 |𝐳, 𝑣2 ) o E(𝑦1 |𝐳, 𝑦2 ); son lo
mismo.
Ahora
E(𝑦1 |𝐳, 𝑣2 ) = 𝐳1 𝛅1 + 𝐠(𝐳1 𝑦2 )𝛂1 + 𝐠(𝐳1 𝑦2 )E(𝐯1 |𝐳, 𝑣2 ) + E(𝑢1 |𝐳, 𝑣2 )
= 𝐳1 𝛅1 + 𝐠(𝐳1 𝑦2 )𝛂1 + 𝐠(𝐳1 𝑦2 )𝑣2 𝛉1 + 𝜌1 𝑣2
b. El primer paso es hacer una regresión de 𝑦𝑖2 en 𝐳𝑖 y obtener los residuos, 𝑣̂𝑖2 . Segundo,
ejecuta la regresión
𝑦𝑖1 en 𝐳𝑖1 , 𝐠(𝐳𝑖1 , 𝑦𝑖2 ), 𝐠(𝐳𝑖1 , 𝑦𝑖2 )𝑣̂𝑖2 , 𝑣̂𝑖2
lo que significa que 𝑣̂𝑖2 aparece por sí mismo e interactuó con todos los elementos de
𝐠(𝐳𝑖1 , 𝑦𝑖2 ).
c. El nulo es 𝐻0 : 𝛉1 = 0, 𝜌1 = 0, lo que significa que podemos calcular una prueba de
Wald robusta a la heterocedasticidad de importancia conjunta de 𝐠(𝐳𝑖1 , 𝑦𝑖2 )𝑣̂𝑖2 y 𝑣̂𝑖2
d. Para el modelo específico da, la regresión del segundo paso es
2
𝑦𝑖1 en 𝐳𝑖1 , 𝑦𝑖2 , 𝑦𝑖2 , 𝐳𝑖1 𝑦𝑖2 , 𝑦𝑖2 𝑣̂𝑖2 , 𝑣̂𝑖2 , 𝑖 = 1, . . . , 𝑁
En otras palabras, 𝑣̂𝑖2 aparece por sí mismo e interactuó con 𝑦𝑖2 , como en Garen (1984).

69
Soluciones al Capítulo 7 Problemas
7.1. Escribir (con probabilidad acercándose a uno)
𝑁 −1 𝑁
̂ = 𝛃 + (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 )
𝛃 (𝑁 −1
∑ 𝐗 ′𝑖 𝐮𝑖 )
𝑖=1 𝑖=1

De la suposición SOLS. 2, la ley débil de grandes números, y el Teorema de Slutsky,


𝑁 −1

plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 ) = 𝐀−1
𝑖=1

Además, bajo SOLS.1, la WLLN implica que plim(𝑁 −1 ∑𝑁 ′


𝑖=1 𝐗 𝑖 𝐮𝑖 ) = 𝟎. Así,

𝑁 −1 𝑁
̂ ) = 𝛃 + plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐗 𝑖 )
plim(𝛃 • plim (𝑁 −1 ∑ 𝐗 ′𝑖 𝐮𝑖 ) = 𝛃 + 𝐀−1 • 𝟎 = 𝛃
𝑖=1 𝑖=1

7.2. a. Bajo SOLO. 1 y SOULS.2, el Teorema 7.2 implica que Avar(𝛃 ̂ 𝑂𝐿𝑆 ) = 𝐀−1 𝐁𝐀−1 /𝑁,
donde 𝐀 = E(𝐗 ′𝑖 𝐗 𝑖 ) y 𝐁 = E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ). Pero hemos supuesto que E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ) =
E(𝐗 ′𝑖 𝛀𝐗 𝑖 ) lo que prueba la afirmación. Efectivamente, esto es lo que podemos esperar de
la varianza asintótica de OLS bajo la versión del sistema de homoscedasticidad. [Tenga en
cuenta que el Supuesto SGLS. 3 y E(𝐗 𝑖 𝐮𝑖 𝐮′𝑖 𝐗 𝑖 ) = E(𝐗 ′𝑖 𝛀𝐗 𝑖 ) no son lo mismo, pero
ambos están implicados por la condición (7.53). Hay otros casos en los que se reducen a la
misma suposición, como en un modelo SUR cuando 𝛀 es diagonal].
b. El estimador en (7.28) es siempre válido. Un estimador que usa la estructura de
Avar(𝛃 ̂ 𝑆𝑂𝐿𝑆 ) obtenida en la parte a se obtiene de la siguiente manera. Dejemos
̂ = 𝑁 −1 ∑𝑁
𝛀 𝑖=1 𝐮 ̂ ′𝑖 , donde 𝐮
̂𝑖 𝐮 ̂ 𝑖 son los residuos del MCO del sistema 𝐺 × 1. Entonces
𝑁 −1 𝑁 𝑁 −1

̂ (𝛃
Avar ̂ 𝑆𝑂𝐿𝑆 ) = (∑ 𝐗 ′𝑖 𝐗 𝑖 ) ̂ 𝐗 𝑖 ) (∑ 𝐗 ′𝑖 𝐗 𝑖 )
(∑ 𝐗 ′𝑖 𝛀
𝑖=1 𝑖=1 𝑖=1

es un estimador válido siempre que se cumpla la hipótesis de homoscedasticidad.


c. Usando la pista y dejando caer la división por 𝑁 en el lado derecho, tenemos

70
̂ 𝐹𝐺𝐿𝑆 )]−1 − [Avar(𝛃
[Avar(𝛃 ̂ 𝑆𝑂𝐿𝑆 )]−1 = E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) − E(𝐗 ′𝑖 𝐗 𝑖 )[E(𝐗 ′𝑖 𝛀𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝐗 𝑖 )

Define 𝐙𝑖 = 𝛀−1/2 𝐗 𝑖 y 𝐖𝑖 = 𝛀−1/2 𝐗 𝑖 . Entonces la diferencia puede escribirse como


E(𝐙𝑖′ 𝐙𝑖 ) − E(𝐙𝑖′ 𝐖𝑖 )[E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 )
Ahora, definimos 𝐑 𝑖 ≡ 𝐙𝑖 − 𝐖𝑖 𝚷, donde 𝚷 ≡ [E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ); 𝐑 𝑖 es la matriz
𝐺 × 𝐾 de residuos de población a partir de la proyección lineal de 𝐙𝑖 en 𝐖𝑖 . La
multiplicación directa muestra que
E(𝐙𝑖′ 𝐙𝑖 ) − E(𝐙𝑖′ 𝐖𝑖 )[E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ) = E(𝐑′𝑖 𝐑 𝑖 ),
que es necesariamente positivo semi-definido. Hemos demostrado que si (7.53) se mantiene
junto con SGLS.1 y las condiciones de rango para SGLS y SOLS, entonces FGLS es más
eficiente que MCO.

d. Si 𝛀 = 𝜎 𝟐 𝐈𝐺 ,
̂ 𝑆𝑂𝐿𝑆 − 𝛃)] = [E(𝐗 ′𝑖 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝛀𝐗 𝑖 )[E(𝐗 ′𝑖 𝐗 𝑖 )]−1 = 𝜎 𝟐 [E(𝐗 ′𝑖 𝐗 𝑖 )]−1 y
Avar[√𝑁(𝛃
̂ 𝑆𝑂𝐿𝑆 − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1 = [E(𝐗 ′𝑖 (𝜎 𝟐 𝐈𝐺 )−1 𝐗 𝑖 )]−1 = 𝜎 𝟐 [E(𝐗 ′𝑖 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
e. Esta afirmación es verdadera siempre que consideremos solo la eficiencia asintótica
bajo el supuesto de que SGLS.1 es válida. En otras palabras, bajo SGLS.1, las condiciones
de rango estándar, y E(𝐮𝑖 𝐮′𝑖 |𝐗 𝑖 ) = 𝛀 , no hay nada que perder asintóticamente mediante el
uso de FGLS. Por supuesto, SOLS es más robusto ya que solo requiere SOLS.1 para la
coherencia (y la normalidad asintótica). Las pequeñas propiedades de muestra son otro
problema porque es difícil caracterizar las propiedades exactas de FGLS en condiciones
generales.
7.3. a. Como la ecuación de MCO por ecuación es la misma que la de GLS cuando 𝛀 es
diagonal, basta con mostrar que los estimadores de GLS para diferentes ecuaciones están
asintóticamente no correlacionados. Esto sigue si la matriz de varianza asintótica es de
bloque diagonal (ver Sección 3.5), donde el bloqueo es por el vector de parámetro para
cada ecuación. Para establecer la diagonalidad de bloques, usamos el resultado del Teorema
7.4: bajo SGLS. 1, SGLS.2 y SGLS.3,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃

Ahora, podemos usar la forma especial de 𝐗 𝑖 para SUR (ver Ejemplo 7.1), el hecho de que
𝛀−1 es diagonal y SGLS.3. En el modelo SUR con diagonal 𝛀, SGLS.3 implica que
2 ′ ′
E(𝑢𝑖𝑔 𝐱 𝑖𝑔 𝐱 𝑖𝑔 ) = 𝜎𝑔2 E(𝐱 𝑖𝑔 𝐱𝑖𝑔 ) para todo 𝑔 = 1, … , 𝐺 y
′ ′
E(𝑢𝑖𝑔 𝑢𝑖ℎ 𝐱 𝑖𝑔 𝐱 𝑖ℎ ) = E(𝑢𝑖𝑔 𝑢𝑖ℎ )E(𝐱 𝑖𝑔 𝐱 𝑖ℎ ) = 0, todo 𝑔 ≠ ℎ.

Por lo tanto, tenemos



𝜎1−2 E(𝐱 𝑖1 𝐱𝑖𝑙 ) 𝟎 0
′ −1
E(𝐗 𝑖 𝛀 𝐗 𝑖 ) = ( 0 ⋱ 0 )
−2 ′
0 0 𝜎𝐺 E(𝐱 𝑖𝐺 𝐱 𝑖𝐺 )

71
Cuando esta matriz está invertida, también es diagonal de bloque. Esto muestra que
Avar[√𝑁(𝛃 ̂ − 𝛃)] es diagonal a bloques y, por lo tanto, √𝑁(𝛃̂ 𝑔 − 𝛃𝒈 ) están
asintóticamente no correlacionados.
b. segundo. Para probar cualquier hipótesis lineal, podemos construir la Estadística de
Wald o podemos usar la suma ponderada de la forma de los residuales cuadrados de la
estadística como en (7.56) o (7.57). Para la SSR restringida debemos estimar el modelo con
la restricción 𝛃1 = 𝛃2 impuesta. Vea el problema 7.6 para una forma de imponer
restricciones lineales generales.
c. En realidad, para que la conclusión se sostenga sobre la equivalencia asintótica,
necesitamos asumir SGLS.1 junto con SOLS.2 y SGLS.2. Cuando 𝛀 es diagonal en un
sistema SUR, el sistema OLS y GLS son iguales. En SGLS.1 y SGLS.2, GLS y FGLS son
asintóticamente equivalentes (independientemente de la estructura de 𝛀) si se cumple
SGLS.3 o no. Ahora si 𝛃 ̂ 𝑆𝑂𝐿𝑆 = 𝛃̂ 𝐺𝐿𝑆 y √𝑁(𝛃
̂ 𝐹𝐺𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ) = 𝑜𝑝 (1), entonces
√𝑁(𝛃 ̂ 𝑆𝑂𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ). Por lo tanto, cuando 𝛀 es diagonal, OLS y FGLS son asintóticamente
equivalentes bajo la suposición de exogeneidad SGLS.1, incluso si 𝛀 ̂ se estima de manera
no restringida e incluso si la asunción de homoscedasticidad del sistema SGLS.3 no se
cumple.

Si solo SOLS.1 es válido, no podemos concluir √𝑁(𝛃 ̂ 𝐹𝐺𝐿𝑆 − 𝛃̂ 𝐺𝐿𝑆 ) = 𝑜𝑝 (1), y así
√𝑁(𝛃 ̂ 𝑆𝑂𝐿𝑆 − 𝛃
̂ 𝐺𝐿𝑆 ) no es generalmente 𝑜𝑝 (1). Es cierto que FGLS sigue siendo
consistente bajo SOLS.1 porque su plim es
′ −1
𝜎1−2 E(𝐱𝑖1 𝐱 𝑖𝑙 ) 𝟎 0 ′
𝜎1−2 E(𝐱𝑖1 𝑢𝑖1 )
( 0 ⋱ 0 ) ( ⋮ )
−2 ′ −2 ′
0 0 𝜎𝐺 E(𝐱 𝑖𝐺 𝐱 𝑖𝐺 ) 𝜎𝐺 E(𝐱 𝑖𝐺 𝑢𝑖𝐺 )

y E(𝐱 𝑖𝑔 𝑢𝑖𝑔 ) = 0, 𝑔 = 1, … , 𝐺.
̌ para indicar el estimador SOLS,
7.4. Para hacer que la notación se alinee con el texto, use 𝛃
y deje que 𝐮
̌ 𝑖 denote el vector 𝐺 × 1 de los residuos de SOLS que se usan para obtener 𝛀 ̂.
Entonces es suficiente para mostrar que

𝑁 −1/2 ∑𝑁
𝑖=1 𝐮 ̌ ′𝑖 = 𝑁 −1/2 ∑𝑁
̌𝑖 𝐮 𝑖=1 𝐮𝑖 𝐮𝑖 + 𝑜𝑝 (1) (7.82)

y esto sigue si, cuando sumamos a través de 𝑁 y dividimos por √𝑁, los últimos tres
términos en (7.42) son 𝑜𝑝 (1). Como el tercer término es la transposición del segundo,
basta con considerar solo el segundo y el cuarto término. Ahora

𝑁 𝑁

̌−
𝑁 −1/2 ∑ vec [𝐮𝑖 (𝛃 𝛃) 𝐗 ′𝑖 ] ̌ − 𝛃)
= 𝑁 −1/2 ∑(𝐗 𝑖 ⊗ 𝐮𝑖 ) • (𝛃
𝑖=1 𝑖=1

= [𝑁 −1 ∑𝑁 ̌
𝑖=1(𝐗 𝑖 ⊗ 𝐮𝑖 )]√𝑁(𝛃 − 𝛃) = 𝑜𝑝 (1) • 𝑂𝑝 (1) = 𝑜𝑝 (1).

72
También,
𝑁
̂ − 𝛽)′ 𝐗 ′ ]
̂ − 𝛽) (𝛃
𝑁 −1/2 ∑ vec [𝐗 𝑖 (𝛃 𝑖
𝑖=1
𝑁

= [𝑁 −1
∑(𝐗 𝑖 ⊗ 𝐗 𝑖 )] vec {√𝑁(𝛃 ̌ − 𝛃)′ } /√𝑁 =
̌ − 𝛃)√𝑁(𝛃
𝑖=1
= 𝑂𝑝 (1) • 𝑂𝑝 (1) • 𝑁 −1/2 = 𝑜𝑝 (1)

Juntos, estos implican 𝑁 −1/2 ∑𝑁


𝑖=1 𝐮 ̌ ′𝑖 = 𝑁 −1/2 ∑𝑁
̌𝑖 𝐮 𝑖=1 𝐮𝑖 𝐮𝑖 + 𝑜𝑝 (1) y entonces

𝑁 𝑁

𝑁 −1/2 ∑(𝐮 ̌ ′𝑖 − 𝛀) = 𝑁 −1/2 ∑(𝐮𝑖 𝐮𝑖 − 𝛀) + 𝑜𝑝 (1)


̌𝑖 𝐮
𝑖=1 𝑖=1

7.5. Esto es fácil con la sugerencia. Tenga en cuenta que


−1 −𝟏
𝑁 𝑁
̂ −𝟏 ⊗ (∑ 𝐱 𝒊′ 𝐱 𝑖 ))
(𝛀 ̂ ⊗ (∑ 𝐱 𝒊′ 𝐱 𝑖 )
=𝛀
𝑖=1 𝑖=1

Por lo tanto,
𝑁 𝑁

−𝟏
∑ 𝐱𝒊′ 𝑦𝑖1 −𝟏
∑ 𝐱𝒊′ 𝑦𝑖1
𝑁 𝑁
𝑖=1 𝑖=1
̂ = (𝛀
𝛃 ̂ ⊗ (∑ 𝐱𝒊′ 𝐱𝑖 ) ̂ −𝟏 ⊗ 𝐈𝐾 )
) (𝛀 ⋮ = (𝐈𝐺 ⊗ (∑ 𝐱𝒊′ 𝐱𝑖 ) ) ⋮
𝑁 𝑁
𝑖=1 𝑖=1
∑ 𝐱𝒊′ 𝑦𝑖𝐺 ∑ 𝐱𝒊′ 𝑦𝑖𝐺
( 𝑖=1 ) ( 𝑖=1 )
𝑁 −𝟏
𝑁
(∑ 𝐱𝒊′ 𝐱𝑖 ) 𝟎 … 𝟎 ∑ 𝐱𝒊′ 𝑦𝑖1
𝑖=1 𝑖=1
−𝟏
̌
𝛃
𝑁 𝑁 1
𝟎 (∑ 𝐱𝒊′ 𝐱𝑖 ) 𝟎 ⋮ ∑ 𝐱𝒊′ 𝑦𝑖2 ̌
𝛃
= = 2
𝑖=1 𝑖=1 ⋮
⋱ 𝟎 ⋮ ̌
𝛃
−𝟏 𝑁 ( 𝐺)
⋮ 𝟎 𝑁
𝟎 ⋯ 𝟎 (∑ 𝐱𝒊′ 𝐱𝑖 ) ∑ 𝐱𝒊′ 𝑦𝑖𝐺
( 𝑖=1 ) ( 𝑖=1 )

̌ 𝑔 es el estimador OLS para la ecuación 𝑔.


donde 𝛃

7.6. El modelo para un sorteo al azar de la población es 𝐲𝑖 = 𝐗 𝑖 𝛃 + 𝐮𝑖 , que se puede


escribir como
𝐲𝑖 = 𝐗 𝑖1 𝛃1 + 𝐗 𝑖2 𝛃2 + 𝐮𝑖 ,
donde la partición de 𝐗 𝑖 se define en el problema. Ahora, si 𝛃1 = 𝐑−1
1 (𝐫 − 𝐑 2 𝛃2 ),
simplemente conectamos esto en la ecuación anterior:

73
𝐲𝑖 = 𝐗 𝑖1 𝛃1 + 𝐗 𝑖2 𝛃2 + 𝐮𝑖 = 𝐗 𝑖1 𝐑−1
1 (𝐫 − 𝐑 2 𝛃2 ) + 𝐗 𝑖2 𝛃2 + 𝐮𝑖

= 𝐗 𝑖1 𝐑−1
1 𝐫 + (𝐗 𝑖2 − 𝐗 𝑖1 𝐑 2 )𝛃2 + 𝐮𝑖

Llevar 𝐗 𝑖1 𝐑−1
1 𝐫 al lado izquierdo da

𝐲𝑖 − 𝐗 𝑖1 𝐑−1
1 𝐫 = (𝐗 𝑖2 − 𝐗 𝑖1 𝐑 2 )𝛃2 + 𝐮𝑖

Si definimos 𝐲̃𝑖 = 𝐲𝑖 − 𝐗 𝑖1 𝐑−1 ̃


1 𝐫 y 𝐗 𝑖2 ≡ 𝐗 𝑖2 − 𝐗 𝑖1 𝐑 2 , obtenemos la ecuación deseada:

̃ 𝑖2 𝛃2 + 𝐮𝑖
𝐲̃𝑖 = 𝐗
̃ 𝑖2 son funciones de los datos para la observación 𝑖 y las
(Tenga en cuenta que 𝐲̃𝑖 y 𝐗
matrices conocidas 𝐑1 , 𝐑 2 y el vector conocido 𝐫).
Este resultado general es muy conveniente para calcular la forma de SSR ponderada de la
̂ denotar la estimación de Ω basada en la estimación del
estadística F (en SGL.3). Deje 𝛀
sistema no restringido; típicamente, 𝛀 ̂ = 𝑁−1 ∑𝑁 𝑖=1 𝐮 ̌ ′𝑖 donde 𝐮
̌𝑖𝐮 ̌ 𝑖 son los residuos OLS del
sistema. Usando esta matriz, estimamos 𝐲𝑖 = 𝐗 𝑖1 𝛃1 + 𝐗 𝑖2 𝛃2 + 𝐮𝑖 y luego
𝐲̃𝑖 = 𝐗̃ 𝑖2 𝛃2 + 𝐮𝑖 por FGLS usando 𝛀 ̂ . Deje 𝐮
̂ 𝑖 denotar los residuos FGLS del modelo no
restringido y que 𝐮 ̃2 denoten los residuos de FGLS restringidos, donde 𝛃
̃ 𝑖2 𝛃
̃ 𝑖 = 𝐲̃𝑖 − 𝐗 ̃2 es
el estimador FGLS de la estimación restringida. Entonces el estadístico 𝐹 calculado a partir
de (7.57) tiene una distribución 𝔉𝑄,𝑁𝐺−𝐾 aproximada bajo 𝐻0 (suponiendo que SGLS.1,
SGLS.2 y SGLS.3 se mantienen).
7.7. a. Primero, los elementos diagonales de 𝛀 se encuentran fácilmente porque
2 2
E(𝑢𝑖𝑡 ) = E[E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 )] = 𝜎𝑡2 por expectativas iteradas. Ahora, considere E(𝑢𝑖𝑡 𝑢𝑖𝑠 ), y
tome 𝑠 < 𝑡 sin pérdida de generalidad. Bajo E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0, E(𝑢𝑖𝑡 |𝑢𝑖𝑠 ) = 0 ,
porque 𝑢𝑖𝑠 es un subconjunto del conjunto de acondicionamiento más grande. Aplicando
LIE de nuevo tenemos
E(𝑢𝑖𝑡 𝑢𝑖𝑠 ) = E[E(𝑢𝑖𝑡 𝑢𝑖𝑠 |𝑢𝑖𝑠 )] = E[E(𝑢𝑖𝑡 |𝑢𝑖𝑠 )𝑢𝑖𝑠 ] = 0
Entonces
𝜎12 0 … 0
𝛀= 0 𝜎22 0 ⋮
⋮ 0 ⋱ 0
(0 ⋯ 0 𝜎𝑇2 )
b. El estimador de GLS es
𝑁 −1 𝑁

𝛃∗ ≡ (∑ 𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) (∑ 𝐗 ′𝑖 𝛀−1 𝐲𝑖 )
𝑖=1 𝑖=1

𝑁 𝑇 −1 𝑁 𝑇
′ ′
= (∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 ) (∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝑦𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1

74
que es un estimador de mínimos cuadrados ponderados con cada observación para el
período de tiempo 𝑡 ponderado por 𝜎𝑡−2 , el inverso de la varianza.
c. Si, digamos, 𝑦𝑖𝑡 = 𝛽0 + 𝛽1 𝑦𝑖,𝑡−1 + 𝑢𝑖𝑡 , entonces 𝑦𝑖𝑡 está claramente correlacionado
con 𝑢𝑖𝑡 , que dice que 𝐱 𝑖,𝑡−1 = 𝑦𝑖𝑡 está correlacionado con 𝑢𝑖𝑡 . Por lo tanto, SGLS.1 no
puede contener. En general, SGLS.1 no se mantiene cuando hay comentarios de 𝑦𝑖𝑡 a
𝐱 𝑖𝑡 , 𝑠 > 𝑡. Sin embargo, debido a que 𝛀−1 es diagonal, 𝐗 ′𝑖𝑡 𝛀−1 𝐮𝑖 = ∑𝑇𝑡=1 𝐱 𝑖𝑡
′ −2
𝜎𝑡 𝑢𝑖𝑡 , y así
𝑇
′ −1 ′
E(𝐱𝑖𝑡 𝛀 𝐮𝑖 ) − ∑ 𝜎𝑡−2 E(𝐱𝑖𝑡 𝑢𝑖𝑡 ) = 0
𝑡=1

donde usamos E(𝐱 𝑖𝑡 𝑢𝑖𝑡 ) = 0 bajo E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0. De esto se deduce que el
estimador de GLS es GLS es consistente en este caso sin SGLS.1.

d. Primero, dado que 𝛀−1 es diagonal, 𝐗 ′𝑖𝑡 𝛀−1 = (𝜎1−2 𝐱 𝑖𝑙′ , 𝜎2−2 𝐱 𝑖2
′ ′ ′
, … , 𝜎𝑇−2 𝐱 𝑖𝑇 ),y
entonces
𝑇 𝑇

E(𝐗 ′𝑖 𝛀−1 𝐮𝑖 𝐮′𝑖 𝛀−1 𝐗 𝑖 ) ′


= ∑ ∑ 𝜎𝑡−2 𝜎𝑠−2 E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐱 𝑖𝑡 𝐱 𝑖𝑠 )
𝑡=1 𝑠=12

Primero considere los términos para 𝑠 ≠ 𝑡. En E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0,



E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖𝑠 , 𝐱 𝑖𝑠 ) = 0 para 𝑠 < 𝑡, y así por LIE, E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐱 𝑖𝑡 𝐱 𝑖𝑠 ) = 0 , todos los 𝑡 ≠ 𝑠.
A continuación, para cada 𝑡,
2 ′ 2 ′ 2 ′
E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 𝐱 𝑖𝑡 ) = E[E(𝑢𝑖𝑡 𝐱 𝑖𝑡 𝐱 𝑖𝑡 |𝐱 𝑖𝑡 )] = E[E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 )𝐱 𝑖𝑡 𝐱 𝑖𝑡 ]
′ ′
= E(𝜎𝑡2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 ) = 𝜎𝑡2 E(𝐱 𝑖𝑡 𝐱𝑖𝑡 ), 𝑡 = 1,2, … 𝑇
Resulta que
𝑇

E(𝐗 ′𝑖 𝛀−1 𝐮𝑖 𝐮′𝑖 𝛀−1 𝐗 𝑖 ) = ∑ 𝜎𝑡−2 E(𝐱 ′𝑖𝑡 𝑢𝑖𝑡 ) = E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )
𝑡=1

e. En primer lugar, ejecute MCO agrupados en todos los 𝑖 y 𝑡 y deje que 𝑢̌𝑖𝑡 denoten los
residuos MCO agrupados. Luego, para cada 𝑡, defina
𝑁
2
𝜎̂𝑡2 =𝑁 −1
∑ 𝑢̌𝑖𝑡
𝑖=1

(Podríamos reemplazar 𝑁 con 𝑁 − 𝐾 como un ajuste de grado de libertad.) Por


𝑝
argumentos estándar, 𝜎̂𝑡2 → 𝜎𝑡2 como 𝑁 → ∞.
f. Lo que necesitamos mostrar es que reemplazar el 𝜎𝑡2 con el 𝜎̂𝑡2 no afecta la distribución
√𝑁 asintótica del estimador FGLS. Esto lo sabemos generalmente bajo SGLS.1, pero
hemos relajado esa suposición. Para mostrar que se mantiene en la configuración actual,
tenemos que mostrar

75
𝑁 𝑇 𝑁 𝑇
−1 ′ ′
𝑁 ∑ ∑ 𝜎̂𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 =𝑁 −1
∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝐱 𝑖𝑡 + 𝑜𝑝 (1)
𝑖=1 𝑡=1 𝑖=1 𝑡=1
𝑁 𝑇 𝑁 𝑇
−1/2 ′ ′
𝑁 ∑ ∑ 𝜎̂𝑡−2 𝐱 𝑖𝑡 𝑢𝑖𝑡 =𝑁 −1/2
∑ ∑ 𝜎𝑡−2 𝐱 𝑖𝑡 𝑢𝑖𝑡 + 𝑜𝑝 (1)
𝑖=1 𝑡=1 𝑖=1 𝑡=1

El primero se deduce de la consistencia de cada 𝜎̂𝑡2 usando argumentos estándar que


hemos utilizado anteriormente. El segundo requisito se deriva de
𝑁 𝑇 𝑁 𝑇 𝑇 𝑁
1 1
′ − −
𝑁 −1/2
∑ ∑ 𝜎̂𝑡−2 𝐱 𝑖𝑡 𝑢𝑖𝑡 −𝑁 2 ∑ ∑ 𝜎𝑡−2 𝐱 ′ 𝑢𝑖𝑡 = ∑ [𝑁 2 ∑ 𝐱 ′ 𝑢𝑖𝑡 ] (𝜎
̂𝑡−2 − 𝜎𝑡−2 )
𝑖𝑡 𝑖𝑡
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑡=1 𝑖=1
𝑇

= ∑ 𝑂𝑝 (1) • 𝑜𝑝 (1) = 𝑜𝑝 (1)


𝑡=1
1
porque 𝑁 −2 ∑𝑁 ′
𝑖=1 𝐱 𝑖𝑡 𝑢𝑖𝑡 satisface el CLT bajo Under E(𝑢𝑖𝑡 |𝐱 𝑖𝑡 , 𝑢𝑖,𝑡−1 , … ) = 0 y
suposiciones de segundo momento.
Entonces, ahora sabemos que toda inferencia es como si estuviéramos aplicando OLS
agrupados para (𝑦𝑖𝑡 ⁄𝜎𝑡 ) = (𝐱 𝑖𝑡 ⁄𝜎𝑡 )𝛃 + 𝑒𝑖𝑡 , 𝑡 = 1,2, … 𝑇
donde esta ecuación satisface POLS.1, POLS.2 y POLS.3. Por lo tanto, podemos usar las
estadísticas habituales (errores estándar, intervalos de confianza, estadísticas 𝑡 y 𝐹) de la
regresión
(𝑦𝑖𝑡 ⁄𝜎̂𝑡 ) = (𝐱 𝑖𝑡 ⁄𝜎̂𝑡 ), 𝑡 = 1, … , 𝑇; 𝑖 = 1, … , 𝑁

Para la prueba 𝐹, tenga en cuenta que la 𝜎𝑡2 se debe obtener utilizando los residuos MCO
agrupados para el modelo no restringido.
g. Si 𝜎𝑡2 = 𝜎 2 para toda la inferencia 𝑡 = 1, … , 𝑇 es muy fácil porque con el método de
mínimos cuadrados ponderados se reduce a OLS agrupados. Por lo tanto, podemos usar
los errores estándar y las estadísticas de prueba informadas por una regresión MCO
estándar agrupadas en 𝑖 y 𝑡.
7.8. Aquí hay algunos resultados de Stata:
. use fringe

. gen hrvac  vacdays/annhrs

. gen hrsick  sicklve/annhrs

. gen hrins  insur/annhrs

. gen hrpens  pension/annhrs

. sureg (hrearn hrvac hrsick hrins hrpens  educ exper expersq tenure
tenuresq union south nrtheast nrthcen married white male), corr
Seemingly unrelated regression

76
77
La primera prueba muestra que hay alguna evidencia de que el estado civil afecta al menos
una de las cinco formas de compensación. De hecho, tiene el mayor efecto económico
sobre las ganancias por hora: .642, pero su estadística 𝑡 es solo de aproximadamente 1.54.

78
El efecto más estadísticamente significativo es en ℎ𝑟𝑖𝑛𝑠: .037 con 𝑡 = 2.42. Es
marginalmente significativo y positivo para ℎ𝑟𝑣𝑎𝑐 también.

El comando lincom prueba si otro año de educación tiene el mismo efecto en ℎ𝑟𝑝𝑒𝑛𝑠 y
ℎ𝑟𝑖𝑛𝑠. La estadística 𝑡 es 10.11 y el valor 𝑝 es efectivamente cero. La estimación en la
ecuación ℎ𝑟𝑝𝑒𝑛𝑠 (con error estándar) es .039 (.004) mientras que la estimación en la
ecuación ℎ𝑟𝑖𝑛𝑠 es .008 (.003). Por lo tanto, cada uno es positivo y estadísticamente
significativo, y son significativamente diferentes entre sí.
Todos los errores y estadísticas estándar informados anteriormente suponen que SGLS.3 es
válido, por lo que no puede haber heterocedasticidad del sistema. Esto es poco probable
que se mantenga en este ejemplo.
7.9. Sigue la sesión de Stata, que incluye una prueba de correlación serial antes de calcular los
errores estándar completamente robustos:

El efecto estimado de la concesión, y su retraso, son ahora el signo esperado (si pensamos
que el programa de capacitación laboral debería reducir la tasa de rechazo), pero ninguno es
estadísticamente significativo. La variable 𝑔𝑟𝑎𝑛𝑡 sería si usamos un nivel de significancia
del 10% y una prueba de un solo lado. Los resultados son ciertamente diferentes de cuando
omite el retraso de log(𝑠𝑐𝑟𝑎𝑝).
Ahora prueba la correlación serial 𝐴𝑅(1):

79
La estimación de 𝜌 es aproximadamente .28, y es marginalmente significativa con 𝑡 =
1.77. (Tenga en cuenta que estamos confiando en las características asintóticas con 𝑁 =
54). Probablemente podría justificarse ignorando la correlación serial. Pero es bastante fácil
obtener los errores estándar robustos de correlación serial y heterocedasticidad:

Los errores estándar robustos para 𝑔𝑟𝑎𝑛𝑡 y 𝑔𝑟𝑎𝑛𝑡−1 son en realidad más pequeños que
los habituales, pero cada uno aún no es estadísticamente significativo en el nivel del 5%
frente a una alternativa unilateral. Además, no son conjuntamente significativos, ya que el
valor 𝑝 es aproximadamente .33:
. test grant grant_1

( 1) grant = 0
( 2) grant_1 = 0

F( 2, 53) = 1.14
Prob > F = 0.3266

80
7.10. Los resultados de Stata son:

Algunos de los errores estándar completamente robustos son en realidad más pequeños
que el error estándar no robusto correspondiente, aunque el de 𝑐𝑢𝑚𝑔𝑝𝑎 es bastante más
grande y descarta la estadística t de 10.25 a 6.12.. Ninguna variable que fue estadísticamente
significativa en función del estadístico 𝑡 habitual se vuelve estadísticamente insignificante,

81
aunque la duración de algunos intervalos de confianza cambia. Las estadísticas 𝑡 para la
variable clave, 𝑠𝑒𝑎𝑠𝑜𝑛, son similares y muestra que 𝑠𝑒𝑎𝑠𝑜𝑛 no es estadísticamente
significativa.
7.11. a. La siguiente salida de Stata debe ser autoexplicativa. Existe una fuerte correlación
serial positiva en los errores del modelo estático (𝜌̂ = .792, 𝑡𝜌̂ = 28.84) y los errores
estándar completamente robustos son mucho más grandes que los no robustos. No, por
ejemplo, que la estadística t en el registro de la probabilidad de condena, 𝑙𝑝𝑟𝑏𝑐𝑜𝑛𝑣 va de -
20.69 a -7.75.

82
b. Perdemos el primer año, 1981, cuando agregamos el retraso de log(𝑐𝑟𝑚𝑟𝑡𝑒):

No es sorprendente que el coeficiente de la tasa de delincuencia rezagada sea muy grande y


estadísticamente significativo. Además, incluirlo hace que todos los demás coeficientes sean
mucho más pequeños en magnitud. La variable log(𝑝𝑟𝑏𝑝𝑟𝑖𝑠) ahora tiene un signo
negativo, aunque es insignificante. Agregar el índice de delincuencia rezagado no cambia el
coeficiente positivo en el tamaño de la fuerza policial: es más pequeño, pero ahora es aún
más significativo estadísticamente.
c. Hay poca evidencia de correlación serial en el modelo con una variable dependiente
rezagada. El coeficiente en 𝑢̂𝑡−1 es pequeño y estadísticamente insignificante:

83
d. Ninguna de las variables log(𝑤𝑎𝑔𝑒) es estadísticamente significativa, y las magnitudes
son muy pequeñas en todos los casos. El valor de 𝑝 para la prueba conjunta, totalmente
robusto, es .33, lo que significa que las variables log(𝑤𝑎𝑔𝑒) tampoco son conjuntamente
insignificantes. (Además, los diferentes signos sobre las variables salariales son difíciles de
explicar, excepto para concluir que cada uno se estima con un error de muestreo
sustancial).

84
7.12. La riqueza al comienzo del año no puede ser estrictamente exógena en una ecuación
de ahorro: si el ahorro aumenta inesperadamente este año, para que la perturbación en el
año 𝑡 sea positiva, la riqueza del comienzo del año será mayor el próximo año. Esto es
análogo al Ejemplo 7.8, donde el promedio acumulativo de calificaciones al inicio del
semestre no puede ser estrictamente exógeno en una ecuación para explicar el GPA del
término actual.
7.13. a. La salida de Stata está debajo. Se estima que los hombres casados tienen un
promedio de puntaje de aproximadamente 1.2 puntos más alto, y las asistencias son 0.42
más altas. El coeficiente en la ecuación de 𝑟𝑒𝑏𝑜𝑢𝑛𝑑𝑠 es -.24, pero no es estadísticamente

85
significativo. El coeficiente en la ecuación de 𝑎𝑠𝑠𝑖𝑠𝑡 es significativo al nivel de 5% contra
una alternativa de dos lados (valor de 𝑝 = 048).

b. El comando de prueba Stata da

El rechazo es muy fuerte, presumiblemente proviene principalmente de los puntos y ayuda


a las ecuaciones. En lugar de pensar que estar casado hace que un jugador de baloncesto

86
sea más productivo, es posible que los jugadores más productivos, al menos en lo que se
refiere a puntos y asistencias, tengan más probabilidades de estar casados.
̂ el estimador que usa 𝛀
7.14. Sea 𝛃 ̌ the el estimador que usa 𝚲
̂ y sea 𝛃 ̂ . Debido a SGLS.1
a SGLS.3 mantener,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃
Además, sabemos por el resultado general de FGLS,
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝚲−1 𝐮𝑖 𝐮′𝑖 𝚲−1 𝐗 𝑖 )[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃

Ahora, porque E(𝐮𝑖 𝐮′𝑖 |𝐗 𝑖 ) = 𝛀, resulta que


E(𝐗 ′𝑖 𝚲−1 𝐮𝑖 𝐮′𝑖 𝚲−1 𝐗 𝑖 ) = E(𝐗 ′𝑖 𝚲−1 𝛀𝚲−1 𝐗 𝑖 )
por un simple argumento de expectativas iteradas. Entonces, tenemos que mostrar que
[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝚲−1 𝛀𝚲−1 𝐗 𝑖 )[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1 − [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
es positivo semi-definido Usamos el truco estándar de mostrar que
E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) − E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )[E(𝐗 ′𝑖 𝚲−1 𝛀𝚲−1 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )

es positivo semi-definido Para este fin, defina 𝐙𝑖 ≡ 𝛀−1/2 𝐗 𝑖 y 𝐖𝑖 ≡ 𝛀−1/2 𝚲−1 𝐗 𝑖 . Luego,
el álgebra directa muestra que la diferencia anterior se puede escribir como
E(𝐙𝑖′ 𝐙𝑖 ) − E(𝐙𝑖′ 𝐖𝑖 )[E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ) que se ve fácilmente como E(𝐑′𝑖 𝐑 𝑖 ), donde
𝐑 𝑖 es la matriz 𝐺 × 𝐾 de residuos de población de la regresión de 𝐙𝑖 en 𝐖𝑖 : 𝐑 𝑖 = 𝐙𝑖 −
𝐖𝑖 𝚷 donde 𝚷 = [E(𝐖𝑖′ 𝐖𝑖 )]−1 E(𝐖𝑖′ 𝐙𝑖 ) Las matrices de la forma E(𝐑′𝑖 𝐑 𝑖 ), son siempre
positivas semi-definidas porque para un vector no aleatorio 𝐚, 𝐚′ E(𝐑′𝑖 𝐑 𝑖 )𝐚 =
E[(𝐚𝐑 𝑖 )′ (𝐚𝐑 𝑖 )] ≥ 0.
̂ = (𝛃
7.15. Deje 𝛅 ̂ ′ , 𝛄̂′ )′ ser el estimador FGLS del modelo completo. Entonces, debido
a que SGLS.1 a SGLS.3 se mantiene, sabemos
̂ − 𝛅)] = [E(𝐖𝑖′ 𝛀−1 𝐖𝑖 )]−1
Avar[√𝑁(𝛅

donde 𝐖𝑖 = (𝐗 𝑖 , 𝐙𝑖 ). Usando la multiplicación de matrices particionadas,

E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) E(𝐗 ′𝑖 𝛀−1 𝐙𝑖 )


E(𝐖𝑖′ 𝛀−1 𝐖𝑖 ) = ( )
E(𝐙𝑖′ 𝛀−1 𝐗 𝑖 ) E(𝐙𝑖′ 𝛀−1 𝐙𝑖 )

Además, debido a que E(𝐗 𝑖 ⊗ 𝐙𝑖 ) = 0, se sigue que E(𝐗 ′𝑖 𝛀−1 𝐙𝑖 ) = 0. Por lo tanto,
E(𝐖𝑖′ 𝛀−1 𝐖𝑖 ) tiene una diagonal de bloque y es igual a

E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 ) 0
( ′ −1 )
0 E(𝐙𝑖 𝛀 𝐙𝑖 )
Invertir esta matriz da

87
[E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1 0
̂ − 𝛅)] = (
Avar[√𝑁(𝛅 )
0 [E(𝐙𝑖′ 𝛀−1 𝐙𝑖 )]−1
̂ − 𝛃)] es el bloque superior izquierdo:
y Avar[√𝑁(𝛃
̂ − 𝛃)] = [E(𝐗 ′𝑖 𝛀−1 𝐗 𝑖 )]−1
Avar[√𝑁(𝛃

Ahora sea 𝛃̃ el estimador FGLS de 𝐲𝑖 = 𝐗 𝑖 𝛃 + 𝐯𝑖 . Sabemos que este estimador es


consistente para 𝛃 porque 𝐯𝑖 = 𝐙𝑖 𝛄 + 𝐮𝑖 , y así
E(𝐗 𝑖 ⊗ 𝐯𝑖 ) = 0
Porque E(𝐗 𝑖 ⊗ 𝐙𝑖 ) = 0 y E(𝐮𝑖 |𝐗 𝑖 , 𝐙𝑖 ) = 0. Ahora, FGLS de 𝐲𝑖 = 𝐗 𝑖 𝛃 + 𝐯𝑖 . usando un
estimador consistente de 𝚲 = E(𝐯𝑖 𝐯𝑖 ) = generalmente tiene varianza asintótica
[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1 E(𝐗 ′𝑖 𝚲−1 𝐯𝑖 𝐯𝑖′ 𝚲−1 𝐗 𝑖 )[E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 )]−1

Deje que 𝐫𝑖 = 𝐙𝑖 𝛄 para que podamos escribir


𝐯𝑖 𝐯𝑖′ = (𝐫𝑖 + 𝐮𝑖 )(𝐫𝑖 + 𝐮𝑖 )′ = 𝐫𝑖 𝐫𝑖′ + 𝐫𝑖 𝐮′𝑖 + 𝐮′𝑖 𝐫𝑖 + 𝐮𝑖 𝐮′𝑖
Ahora E(𝐫𝑖 𝐮′𝑖 |𝐗 𝑖 ) = 0 porque E(𝐮𝑖 |𝐗 𝑖 , 𝐙𝑖 ) = 0 y 𝐫𝑖 es una función de 𝐙𝑖 . Por lo tanto,
E(𝐯𝑖 𝐯𝑖′ |𝐗 𝑖 ) = E(𝐫𝑖 𝐫𝑖′ |𝐗 𝑖 ) + E(𝐮𝑖 𝐮′𝑖 |𝐗 𝑖 ) = E(𝐫𝑖 𝐫𝑖′ |𝐗 𝑖 ) + 𝛀
Usando expectativas iteradas,
E(𝐗 ′𝑖 𝚲−1 𝐯𝑖 𝐯𝑖′ 𝚲−1 𝐗 𝑖 ) = E[E(𝐗 ′𝑖 𝚲−1 𝐯𝑖 𝐯𝑖′ 𝚲−1 𝐗 𝑖 |𝐗 𝑖 )] = E[𝐗 ′𝑖 𝚲−1 E(𝐯𝑖 𝐯𝑖′ |𝐗 𝑖 )𝚲−1 𝐗 𝑖 ]
= E[𝐗 ′𝑖 𝚲−1 E(𝐫𝑖 𝐫𝑖′ |𝐗 𝑖 )𝚲−1𝐗 𝑖 ] + E(𝐗 ′𝑖 𝚲−1 𝛀𝚲−1 𝐗 𝑖 )
= E(𝐗 ′𝑖 𝚲−1 𝐫𝑖 𝐫𝑖′ 𝚲−1 𝐗 𝑖 ) + E(𝐗 ′𝑖 𝚲−1 𝐫𝑖 𝐫𝑖′ 𝚲−1 𝐗 𝑖 )
Hemos demostrado que
̃ − 𝛃)] = 𝐀−1
Avar[√𝑁(𝛃 ′ −1 ′ −1 ′ −1 ′ −1 −1
2 {E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 ) + E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )}𝐀2

′ −1 ′ −1 ′ −1 ′ −1
= 𝐀−1 −1 −1 −1
2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀 2 + 𝐀 2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀 2
′ −1 ′ −1
= 𝐂2 + 𝐀−1 −1
2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀2

Donde 𝐀 2 ≡ E(𝐗 ′𝑖 𝚲−1 𝐗 𝑖 ) y 𝐂2 ≡ 𝐀−1 ′ −1 ′ −1 −1


2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀 2 . Tenga en cuenta que 𝐂2
es positivo semi-definido.
Ahora, el problema 7.14 estableció que
′ −1
𝐀−1 −1 −1 −1
2 E(𝐗 𝑖 𝚲 𝛀𝚲 𝐗 𝑖 )𝐀2 − 𝐀1

es positivo semi-definido Por lo tanto,


̃ − 𝛃)] − Avar[√𝑁(𝛃
Avar[√𝑁(𝛃 ̂ − 𝛃)] = 𝐂2 + [𝐀−1 ′ −1 ′ −1 −1
2 E(𝐗 𝑖 𝚲 𝐫𝑖 𝐫𝑖 𝚲 𝐗 𝑖 )𝐀2 ]

y cada matriz es positiva-semi-definida. Hemos mostrado el resultado.

88
Curiosamente, la prueba muestra que la ineficiencia asintótica de 𝛃̃ tiene dos fuentes.
Primero, hemos omitido variables que no están correlacionadas con 𝐗 𝑖 . La segunda pieza
se debe al uso de la matriz de varianza incorrecta, 𝚲. Si pudiéramos utilizar efectivamente 𝛀
para obtener el estimador con 𝐙𝑖 omitido, lo que podemos hacer en principio si
observamos 𝐙𝑖 , entonces la única fuente de ineficiencia sería la omisión de 𝐙𝑖 (como ocurre
en el caso de una sola ecuación).

Soluciones a problemas del Capítulo 8


8.1. Dejar que 𝑄(𝐛) denote la función objetivo en la ecuación (8.27), se deduce del cálculo
multivariable que
𝑁 ′ 𝑁
𝜕𝑄(𝐛)′
̂ (∑ 𝐙𝑖′ (𝐲𝑖 − 𝐗 𝑖 𝐛))
= −2 (∑ 𝐙𝑖′ 𝐗 𝑖 ) 𝐖
𝜕𝐛
𝑖=1 𝑖=1

̂ da
La evaluación de la derivada en la solución 𝛃
𝑁 ′ 𝑁

(∑ 𝐙𝑖′ 𝐗 𝑖 ) 𝐖 ̂ )) = 𝟎
̂ (∑ 𝐙𝑖′ (𝐲𝑖 − 𝐗 𝑖 𝛃
𝑖=1 𝑖=1

89
En términos de matrices de datos completos, podemos escribir, después del álgebra simple,

(𝐗 ′ 𝐙𝐖 ̂ = (𝐗 ′ 𝐙𝐖
̂ 𝐙′ 𝐗)𝛃 ̂ 𝐙′ 𝐘)

̂ da (8.28).
Resolviendo para 𝛃
8.2. a. Podemos aplicar la teoría general de GMM para obtener consistencia y normalidad
√𝑁 asintótica del estimador 3SLS (versión GMM). Las cuatro suposiciones dadas en el
′̂ −1
problema son suficientes para SIV.1 a SIV.3, donde 𝐖̂ = (𝑁 −1 ∑𝑁 𝑖=1 𝐙𝑖 𝛀𝐙𝑖 ) y𝐖≡
′ −𝟏 ̂ ̂ ′
[E(𝐙𝑖 𝛀𝐙𝑖 )] = plim(𝐖). (Esto supone plim𝛀 = 𝛀 ≡ E(𝐮𝑖 𝐮𝑖 ), algo que se cumple de
manera bastante general). Sin embargo, sin SIV.5, 3SLS no es necesariamente un estimador
GMT asintóticamente eficiente.
b. La varianza asintótica del estimador 3SLS se da en la ecuación (8.29) con la elección de
𝐖 en la parte a:
̂ 3𝑆𝐿𝑆 − 𝛃) = (𝐂 ′ 𝐖𝐂)−1 (𝐂′ 𝐖𝚲𝐖𝐂)−1 (𝐂 ′ 𝐖𝐂)−1
Avar√𝑁(𝛃

donde 𝚲 ≡ E(𝐙𝑖′ 𝐮𝑖 𝐮′𝑖 𝐙𝑖 ), como en el texto. (Tenga en cuenta que esta expresión colapsa a
(𝐂 ′ 𝐖𝐂)−1 cuando 𝚲 = 𝐖 −1 , como sucede en SIV.5.)

c. Un estimador consistente de Avar√𝑁(𝛃 ̂ 3𝑆𝐿𝑆 − 𝛃) se da en la ecuación (8.31) con 𝚲


̂≡
𝑁 −1 ∑𝑁 ′ ′
𝑖=1 𝐙𝑖 𝐮𝑖 𝐮𝑖 𝐙𝑖 y 𝐮
̂ 3𝑆𝐿𝑆 los residuos 3SLS:
̂ 𝑖 = 𝐲𝑖 − 𝐗 𝑖 𝛃
𝑁
′ ̂ (𝐙′ 𝐗/𝑁)]−𝟏 (𝐗 ′ 𝐙/𝑁)𝐖
[(𝐗 𝐙/𝑁)𝐖 ̂ (𝑁 −1 ∑ 𝐙𝑖′ 𝐮𝑖 𝐮′𝑖 𝐙𝑖 ) 𝐖 ̂ (𝐙′ 𝐗/𝑁)]−𝟏
̂ (𝐙′ 𝐗/𝑁)[(𝐗 ′ 𝐙/𝑁)𝐖
𝑖=1

El estimador de Avar(𝛃 ̂ 3𝑆𝐿𝑆 ) es simplemente esta expresión dividida por 𝑁. Aunque la


fórmula parece complicada, se puede programar con bastante facilidad en un lenguaje
basado en matriz. Por supuesto, si dudamos de SIV.5 en primer lugar, probablemente
usemos el estimador de chi-cuadrado mínimo más general, ya que es asintóticamente más
eficiente. (Si tuviéramos que obtener de todos modos la estimación robusta de la matriz de
varianza para 3SLS, no es más difícil obtener la estimación mínima de chi-cuadrado y su
estimación de varianza asintótica).
8.3. Primero, siempre podemos escribir 𝐱 como su proyección lineal más un error: 𝐱 =
𝐱 + 𝐞, donde 𝐱 ∗ = 𝐳𝚷 y E(𝐳 ′ 𝐞) = 0. Por lo tanto, E(𝐳 ′ 𝐱) = E(𝐳 ′ 𝐱 ∗ ), que verifica la

primera parte de la sugerencia. Para verificar el segundo paso, deje 𝐱 ≡ 𝐡(𝐳), y escriba la
proyección lineal como
L(𝐲|𝐳, 𝐡) = 𝐳𝚷1 + 𝐡𝚷2
donde 𝚷1 es 𝑀 × 𝐾 y 𝚷2 es 𝑄 × 𝐾. Entonces debemos mostrar que 𝚷2 = 0. Pero, desde
el teorema de proyección de dos pasos (ver Propiedad LP.7 en el Capítulo 2)
𝚷2 = [E(𝐬′ 𝐬)]−𝟏 E(𝐬′ 𝐫), donde 𝐬 ≡ 𝐡 − L(𝐡|𝐳) y 𝐫 ≡ 𝐱 − L(𝐱|𝐳)
Ahora, suponiendo que E(𝐱|𝐳) = L(𝐱|𝐳), 𝐫 también es igual a 𝐱 − E(𝐱|𝐳). Por lo tanto,
E(𝐫|𝐳) = 0, y entonces 𝐫 no está correlacionado con todas las funciones de 𝐳. Pero 𝐬 es

90
simplemente una función de 𝐳 desde 𝐡 ≡ 𝐡(𝐳) Por lo tanto, E(𝐬′ 𝐫) = 0, y esto muestra
que 𝚷2 = 0.

8.4.a. Para el sistema en (8.12), mostramos que, para cada 𝑔, rango E[(𝐳|𝐡)′ 𝐱𝑔 ] =
rango E(𝐳 ′ 𝐱𝑔 ) para cualquier función 𝐡 = 𝐡(𝐳). Ahora, por el problema 8.3,
L(𝐱𝑔 |𝐳, 𝐡) = L(𝐱𝑔 |𝐳) = 𝐳𝚷1 cuando E(𝐱𝑔 |𝐳) es lineal en 𝐳 y 𝐡 es cualquier función de 𝐳.
Como en el problema 8.3, E(𝐳 ′ 𝐱𝑔 ) = E(𝐳 ′ 𝐱𝑔∗ ) = E(𝐳 ′ 𝐳)𝚷1 . Además, si dejamos 𝐞𝑔 =
𝐱𝑔 − 𝐱𝑔∗ , entonces E(𝐡′ 𝐞𝑔 ) = 0, y así E[(𝐳, 𝐡)′ 𝐱𝑔 ] = E[(𝐳, 𝐡)′ 𝐱𝑔∗ ] = E[(𝐳, 𝐡)′ 𝐳]𝚷1 . Pero
rango E[(𝐳|𝐡)′ 𝑧] = rango E(𝐳 ′ 𝐳), lo que significa que rango E[(𝐳|𝐡)′ 𝐳]𝚷1 =
rango E(𝐳 ′ 𝐳)𝚷1. Hemos demostrado que rango E[(𝐳|𝐡)′ 𝐱𝑔 ] = rango E(𝐳 ′ 𝐱𝑔 ),lo que
significa que la adición de 𝐡 a la lista de instrumentos no ayuda a satisfacer la condición de
rango.

b. Si E(𝐱𝑔 |𝐳), no es lineal en 𝐳, entonces L(𝐱𝑔 |𝐳, 𝐡) generalmente dependerá de 𝐡. Esto


sin duda puede ayudar a satisfacer la condición de rango. Por ejemplo, si 𝐾𝑔 < 𝑀 (la
dimensión de 𝐳) entonces la condición de orden falla para igualar g usando instrumentos z.
Pero podemos agregar funciones no lineales de 𝐳 a la lista de instrumentos que están
parcialmente correlacionadas con 𝐱𝑔 y satisfacen las condiciones de orden y rango. Usamos
este hecho en la Sección 9.5.
8.5. Esto sigue directamente de la sugerencia. El álgebra matricial directa muestra que
(𝐂 ′ 𝚲−1 𝐂) − (𝐂 ′ 𝐖𝐂)(𝐂 ′ 𝐖𝚲𝐖𝐂)−1 (𝐂 ′ 𝐖𝐂) Se puede escribir como

𝐂 ′ 𝚲−1/2 [𝐈𝐿 − 𝐃(𝐃′ 𝐃)−1 𝐃′ ]𝚲−1/2 𝐂


Donde 𝐃 ≡ 𝚲−1/2 𝐖𝐂 Dado que se trata de una forma cuadrática matricial en 𝐿 × 𝐿
simétrica, matriz idempotente 𝐈𝐿 − 𝐃(𝐃′ 𝐃)−1 𝐃′ , es necesariamente ella misma positiva
semidefinida.
8.6. a. Primero, 𝛀−1 𝐮𝑖 = (𝜎 11 𝑢𝑖1 + 𝜎 12 𝑢𝑖2 , 𝜎 12 𝑢𝑖1 + 𝜎 22 𝑢𝑖2 )′ Por lo tanto,

𝐳𝑖1 𝟎
𝐙𝑖′ 𝛀−1 𝐮𝑖 = ( 11 12 12 22
′ ) (𝜎 𝑢𝑖1 + 𝜎 𝑢𝑖2 , 𝜎 𝑢𝑖1 + 𝜎 𝑢𝑖2 )

𝟎 𝐳𝑖2

𝐳𝑖1 (𝜎 11 𝑢𝑖1 + 𝜎 12 𝑢𝑖2 )
=( ′ )
𝐳𝑖2 (𝜎 12 𝑢𝑖1 + 𝜎 22 𝑢𝑖2 )
′ ′ ′ ′
El valor esperado de este vector depende de E(𝐳𝑖1 𝑢𝑖1 ), E(𝐳𝑖1 𝑢𝑖2 ), E(𝐳𝑖2 𝑢𝑖1 ) y E(𝐳𝑖2 𝑢𝑖2 ).
′ ′
Si E(𝐳𝑖1 𝑢𝑖2 ) ≠ 0 o E(𝐳𝑖1 𝑢𝑖2 ) ≠ 0 entonces E(𝐙𝑖′ 𝛀−1 𝐮𝑖 ) ≠ 𝟎 excepto por casualidad. De
′ ′
hecho, si E(𝐳𝑖1 𝑢𝑖1 ) = 0, E(𝐳𝑖2 𝑢𝑖2 ) = 𝟎 y 𝜎 12 ≠ 0 entonces E(𝐙𝑖′ 𝛀−1 𝐮𝑖 ) ≠ 𝟎 si
′ ′
E(𝐳𝑖1 𝑢𝑖2 ) ≠ 0 o E(𝐳𝑖1 𝑢𝑖2 ) ≠ 0.
′ ′
b. Cuando 𝜎12 = 𝟎, 𝜎 12 = 𝟎, en cuyo caso E(𝐳𝑖1 𝑢𝑖1 ) = 0 y E(𝐳𝑖2 𝑢𝑖2 ) = 𝟎 implican
′ −1
E(𝐙𝑖 𝛀 𝐮𝑖 ) = 𝟎.
c. Si los mismos instrumentos son válidos en cada ecuación, entonces E(𝐳𝑖′ 𝑢𝑖1 ) =
E(𝐳𝑖′ 𝑢𝑖2 ) = 𝟎, entonces E(𝐙𝑖′ 𝛀−1 𝐮𝑖 ) = 𝟎, sin restricciones en 𝛀.

91
8.7. Cuando 𝛀̂ es diagonal y 𝐳𝑖 tiene la forma en (8.15), ∑𝑁 ′ ̂ ′
𝑖=1 𝐙𝑖 𝛀𝐙𝑖 = 𝐙 (𝐈𝑁 ⊗ 𝛀)𝐙 es
̂
una matriz diagonal de bloque con bloque 𝑔𝑡ℎ σ ̂𝑔2 (∑𝑁 ′
𝑖=1 𝐳𝑖𝑔 𝐳𝑖𝑔 ) ≡ σ̂𝑔2 𝐳𝑔′ 𝐳, donde 𝐙𝑔
denota la matriz de observación 𝑁 × 𝐿𝑔 de instrumentos para la ecuación 𝑔𝑡ℎ . Además,
𝐙′ 𝐗 es una diagonal de bloques con el bloque 𝑔𝑡ℎ 𝐙𝑔′ 𝐗𝑔 . Usando estos datos, ahora es
sencillo mostrar que el estimador 3SLS consiste en
−1 −1 −1
[𝐗𝑔′ 𝐙𝑔 (𝐙𝑔′ 𝐙𝑔 ) 𝐙𝑔′ 𝐗𝑔 ] 𝐗𝑔′ 𝐙𝑔 (𝐙𝑔′ 𝐙𝑔 ) 𝐙𝑔′ 𝐘𝑔 apilados en 𝑔 = 1, … 𝐺. Este es solo el
estimador 2SLS del sistema o, equivalentemente, ecuación por ecuación 2SLS.
′ ′ ′ ′ ′ ′
8.8. a. Con 𝐙1 = (𝐳𝑖1 , 𝐳𝑖2 , … , 𝐳𝑖𝑇 )′ y 𝐱 𝑖 = (𝐱 𝑖1 , 𝐱 𝑖2 , … , 𝐱 𝑖𝑇 ),

𝐙𝑖′ 𝐙𝑖 = ∑𝑇𝑡=1 𝐳𝑖𝑡



𝐳𝑖𝑡 , 𝐙𝑖′ 𝐗 𝑖 = ∑𝑇𝑡=1 𝐳𝑖𝑡

𝐱 𝑖𝑡 , y 𝐙𝑖′ 𝐲𝑖 = ∑𝑇𝑡=1 𝐳𝑖𝑡

𝐲𝑖𝑡
Sumando todo 𝑖 da

𝐙 ′ 𝐙 = ∑𝑁 𝑇 ′ ′ 𝑁 𝑇 ′ ′ 𝑁 𝑇 ′
𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝐳𝑖𝑡 , 𝐙 𝐗 = ∑𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝐱 𝑖𝑡 y 𝐙 𝐘 = ∑𝑖=1 ∑𝑡=1 𝐳𝑖𝑡 𝑦𝑖𝑡

b. rango E(∑𝑇𝑡=1 𝐳𝑖𝑡 𝐱 𝑖𝑡 ) = 𝐾.

c. Deje 𝐮
̂ 𝑖 ser el vector 𝑇 × 1 de residuos 2SLS agrupados, 𝐮 ̂. Luego usamos
̂ 𝑖 = 𝐲𝑖 − 𝐗 𝑖 𝛃
(8.31) con 𝐖 ̂ = (𝐙′ 𝐙/𝑁)−𝟏 y 𝚲 ̂ = 𝑁−1 ∑𝑁𝑖=1 𝐙′𝑖 𝐮̂ 𝑖 𝐮̂ ′ 𝐙𝑖 , cancelando 𝑁 en todas partes:
𝑖
𝑁
[(𝐗 ′ ′
𝐙)(𝐙 𝐙) −1 (𝐙 ′ −𝟏
𝐗)] ′
(𝐗 𝐙)(𝐙 𝐙) ′ −1
(∑ 𝐙𝑖′ 𝐮 ̂ ′𝑖 𝐙𝑖 ) • (𝐙′ 𝐙−𝟏 )(𝐙′ 𝐗)[(𝐗 ′ 𝐙)(𝐙 ′ 𝐙)−1 (𝐙′ 𝐗)]−𝟏
̂𝑖 𝐮
𝑖=1

(8.67)

d. El uso de un razonamiento casi idéntico al problema 7.7, (8.65) implica que, para 𝑠 <
𝑡,
′ ′
E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ) = E[E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 |𝐳𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑠 )]
′ ′
= E[E(𝑢𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖𝑠 , 𝐳𝑖𝑠 )𝑢𝑖𝑠 , 𝐳𝑖𝑡 , 𝐳𝑖𝑠 ]

= E[0 • 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ] = 𝟎
porque E(𝑢𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖𝑠 , 𝐳𝑖𝑠 ) = 0 para 𝑠 < 𝑡. Un argumento similar funciona para 𝑡 > 𝑠.
Entonces para todos los 𝑡 ≠ 𝑠,

E(𝑢𝑖𝑡 𝑢𝑖𝑠 𝐳𝑖𝑡 𝐳𝑖𝑠 ) = 𝟎
Del mismo modo, (8.66) y las expectativas iteradas implican que
2 ′ 2 ′
E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = E[E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 |𝐳𝑖𝑡 )]
2
= E[E(𝑢𝑖𝑡 ′
|𝐳𝑖𝑡 )𝐳𝑖𝑡 ′
𝐳𝑖𝑡 ] = σ𝟐 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ), 𝑡  1, … 𝑇.
En conjunto, estos resultados implican que
𝑇
var(𝐳𝑖′ 𝐮𝑖 ) = σ𝟐 ∑ ′
E[(𝐳𝑖𝑡 𝐳𝑖𝑡 )]
𝑡=1

92
𝑇 ̂2
Un estimador consistente de esta matriz es σ ̂𝟐 (𝐙′ 𝐙/𝑁), donde σ ̂𝟐 = 1/(𝑁𝑇) ∑𝑁 𝑖=1 ∑𝑡=1 𝑢 𝑖𝑡 ,
según la ley usual de las grandes números argumentos. Un ajuste de grados de libertad
reemplaza 𝑁𝑇 con 𝑁𝑇 − 𝐾. Reemplazando ∑𝑁 ′
̂ ′𝑖 𝐙𝑖 en (8.67) con σ
̂𝑖 𝐮
𝑖=1 𝐙𝑖 𝐮 ̂𝟐 (𝐙′ 𝐙) [puesto
que σ ̂ bajo los supuestos mantenidos] y cancelar da la
̂𝟐 (𝐙′ 𝐙/𝑁) puede jugar el el papel de 𝚲
varianza asintótica estimada de 𝛃̂ como

σ𝟐 [(𝐗 ′ 𝐙)(𝐙′ 𝐙)−1 (𝐙′ 𝐗)]−𝟏


̂
Este es exactamente el estimador de varianza que se computaría a partir de la estimación
2SLS combinada. Esto significa que los errores estándar usuales de 2SLS y las estadísticas
de prueba son asintóticamente válidos.
e. Si la varianza incondicional cambia en 𝑡, el enfoque más simple es ponderar las
variables en cada período de tiempo en 1/σ̂ 𝑡 , donde σ̂ 2𝑡 es un estimador consistente de
σ2𝑡 = Var(𝑢𝑖𝑡 ). Un estimador consistente de σ ̂ 2𝑡 es
𝑁

̂ 2𝑡
σ =𝑁 −1
∑ 𝑢̂ 2𝑖𝑡
𝑖=1

Ahora, aplique 2SLS agrupados a la ecuación


(𝑦𝑖𝑡 /σ̂ 𝑡 ) = (𝐱 𝑖𝑡 /σ̂ 𝑡 )𝛃 + 𝑒𝑟𝑟𝑜𝑟𝑖𝑡
utilizando instrumentos 𝐳𝑖𝑡 /σ̂ 𝑡 . Las estadísticas usuales de este procedimiento son
asintóticamente válidas: se puede demostrar que tiene la misma distribución √𝑁 -asintótica
que si supiéramos el σ2𝑡 . Este estimador es un estimador de variables instrumentales
generalizadas (GIV), excepto que es consistente bajo el suposición de exogeneidad
contemporánea solamente. Resulta ser idéntico al estimador de GMM que usa la matriz de
ponderación (𝑁−1 ∑𝑁 𝑇
𝑖=1 ∑𝑡=1 σ ̂ 2𝑡 𝐳𝑖𝑡

𝐳𝑖𝑡 )−1 la matriz de ponderación óptima bajo los
supuestos del problema. Ver Im, Ahn, Schmidt y Wooldridge (1999, Sección 2) para la
discusión de un resultado más general.
8.9 Los instrumentos óptimos se dan en el Teorema 8.5, con 𝐺 = 1:

𝐳𝑖∗ = [𝜔(𝐳𝑖 )]−1 E(𝐱 𝑖 |𝐳𝑖 ), 𝜔(𝐳𝑖 ) = E(𝑢2𝑖 |𝐳𝑖 )

Si E(𝑢2𝑖 |𝐳𝑖 ) = σ𝟐 y E(𝐱 𝑖 |𝐳𝑖 ) = 𝐳𝑖 𝚷, entonces los instrumentos óptimos son σ−𝟐 𝐳𝑖 𝚷. El
múltiplo σ−𝟐 constante claramente no tiene ningún efecto en el estimador IV óptimo, por
lo que los instrumentos óptimos son 𝐳𝑖 𝚷. Estas son las IV óptimas subyacentes a 2SLS,
excepto que 𝚷 se reemplaza por su estimador NLS consistente en √𝑁. El estimador 2SLS
tiene la misma varianza asintótica si se usa 𝚷 o 𝚷 ̂ , y así 2SLS es asintóticamente eficiente.

Si E(𝑢|𝐱) = 𝟎 y E(𝑢𝟐 |𝐱) = σ𝟐, los instrumentos óptimos son σ−𝟐 E(𝐱|𝐱) = σ−𝟐 𝐱 y esto
conduce al estimador OLS.
8.10.a. Escriba 𝑢𝑖𝑡 = 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖 , y conéctelo a 𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝑢𝑖𝑡 para obtener

𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖 , 𝑡 2, … , 𝑇.

93
Bajo el supuesto

E(𝑢𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖𝑡,𝑡−1 , 𝐱 𝑖,𝑡−1 , 𝐳𝑖,𝑡−1 , 𝐱 𝑖,𝑡−2 , … , 𝑢𝑖1 , 𝐱 𝑖1 , 𝐳𝑖1 ) = 0 (8.68)

la suposición anterior satisface la suposición de integridad dinámica cuando 𝜌 = 0. Si


suponemos que E(𝑢2𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖,𝑡−1 ) es constante en 𝐻0 , entonces también satisface la
suposición de homoscedasticidad requerida. Como se muestra en el problema 8.8, la
estimación combinada de 2SLS de esta ecuación utilizando instrumentos (𝐳𝑖𝑡 , 𝑢𝑖,𝑡−1 ) da
como resultado estadísticas de pruebas válidas.
Ahora aplicamos los resultados de la Sección 6.1.3: cuando 𝜌 = 0, reemplazando 𝑢𝑖,𝑡−1
con los residuales iniciales 2SLS 𝑢̂𝑖,𝑡−1 no tiene efecto ya que 𝑁 se hace grande, siempre
que (8.68) se mantenga. Por lo tanto, podemos estimar
𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛽 + 𝜌𝑢̂𝑖,𝑡−1 + 𝑒𝑟𝑟𝑜𝑟𝑖𝑡 , 𝑡 2, … , 𝑇.

agrupando 2SLS usando los instrumentos (𝐳𝑖𝑡 , 𝑢̂𝑖,𝑡−1 ), y obteniendo el estadístico 𝑡


habitual para 𝜌̂.

b. Si E(𝑢2𝑖𝑡 |𝐳𝑖𝑡 , 𝑢𝑖,𝑡−1 ) no es constante, podemos usar el estadístico 𝑡 robusto de


heterocedasticidad habitual de 2SLS agrupados para 𝜌̂. Esto permite formas dinámicas de
heterocedasticidad, como ARCH y GARCH, así como formas estáticas de
heterocedasticidad.
8.11. a. Esta es una aplicación simple del Teorema 8.5 cuando 𝐺 = 1. Sin el subíndice 𝑖,
𝐱1 = (𝐳1 , 𝑦2 ) y así E(𝐱1 |𝐳) = [𝐳1 , E(𝑦2 |𝐳)]. Además, 𝛀(𝐳) = Var(𝑢1 |𝐳) = 𝜎12 . Se
deduce que los instrumentos óptimos son (1/𝜎12 )[𝐳1 , E(𝑦2 |𝐳)]. Efectuar la división por 𝜎12
claramente no afecta los instrumentos óptimos.
b. Si 𝑦2 es binario, entonces E(𝑦2 |𝐳) = P(𝑦2 = 1|𝐳) = 𝐹(𝐳), y entonces los IV óptimos
son [𝐳1 , 𝐹(𝐳)].

8.12. a. Siempre que E(𝐙′ 𝐮) = 0 mantenga el estimador es consistente. Después de todo,


es un estimador de GMM con una matriz de ponderación particular que satisface todas las
condiciones de regularidad de GMM.

b. A menos que la matriz de ponderación óptima 𝐖 ̂ estimule consistentemente


′ −1
[Var(𝐙𝑖 𝐮𝑖 )] , la estadística no puede ser asintóticamente chi-cuadrado.

c. Como 𝛀 ̂ y𝚲̂ convergen en la misma matriz constante 𝚲 = 𝛀, no hay diferencia en la


eficacia asintótica (al menos utilizando la distribución √𝑁 asintótica habitual).
8.13. a. La variable instrumental óptima es
𝐳 ∗ = [E(𝑢12 |𝐳)]−𝟏 • E[𝐳1 , 𝑦2 , 𝐳1 𝑦2 |𝐳] = (𝜎12 )−𝟏 [𝐳1 , E(𝑦2 |𝐳), 𝐳1 , E(𝑦2 |𝐳)] = (𝜎12 )−𝟏 [𝐳1 , 𝐳𝛑2 , 𝐳1 , (𝐳𝛑2 )]

b. Los coeficientes 𝛑2 se pueden estimar ejecutando un OLS de 𝑦2 en 𝐳. Como la inversa


de la varianza es un escalar que no depende de 𝐳, se anula en la estimación IV. Por lo tanto,

94
podemos hacer operativo el estimador IV óptimo utilizando [𝐳1 , 𝐳𝛑 ̂ 2 )] como los IV.
̂ 2 , 𝐳1 , (𝐳𝛑
El estimador como la misma distribución √𝑁 -asintótica como si supiéramos 𝛑2 .

8.14. a. Con 𝐲𝑖𝑡2 = 𝐳𝑖𝑡 𝚷2 + 𝐯𝑖𝑡2 y E(𝐳𝑖𝑡 𝑢𝑖𝑡1 ) = 𝟎, 𝑡 = 1, . . . , 𝑇 mantenido,
′ ′
E(𝐲𝑖𝑡2 𝑢𝑖𝑡1 ) = 𝟎 es lo mismo que E(𝐲𝑖𝑡2 𝑢𝑖𝑡1 ) = 𝟎 . Podemos siempre escriba la
proyección lineal de 𝑢𝑖𝑡1 en 𝐯𝑖𝑡2 como
𝑢𝑖𝑡1 = 𝐯𝑖𝑡2 𝛒𝟏 + 𝑒𝑖𝑡1

E(𝐯𝑖𝑡2 𝑒𝑖𝑡1 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
donde suponemos que los coeficientes 𝛒𝟏 no cambian con el tiempo. Por lo tanto,
podemos escribir la ecuación extendida
𝑦𝑖𝑡1 = 𝜂𝑡1 + 𝐳𝑖𝑡1 𝛅1 + 𝐲𝑖𝑡2 𝛂2 + 𝐯𝑖𝑡2 𝛒𝟏 + 𝑒𝑖𝑡1 , 𝑡 = 1, . . . , 𝑇
Ahora el procedimiento de la función de control es claro. (1) Estime la forma reducida
𝐲𝑖𝑡2 = 𝐳𝑖𝑡 𝚷2 + 𝐯𝑖𝑡2 por MCO combinado (ecuación por ecuación si es necesario cuando
𝐲𝑖𝑡2 es un vector) y obtener los residuos, 𝐯̂𝑖𝑡2 . (2) Ejecute la regresión MCO combinada
𝑦𝑖𝑡1 en 1, 𝑑2𝑡 , … , 𝑑𝑇𝑡 , 𝐳𝑖𝑡1 , 𝐲𝑖𝑡2 , 𝐯̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; 𝑖 = 1, . . . , 𝑁
y use una prueba Wald completamente robusta de 𝐻0 : 𝛒𝟏 = 𝟎. La prueba tiene 𝐺1 grados
de libertad en la distribución de chi-cuadrado, o uno puede usar una aproximación 𝐹
dividiendo la estadística de chi cuadrado por 𝐺1 .
b. Extendiendo la discusión en el texto alrededor de la ecuación (6.32), particione 𝐳𝑖𝑡2 =
(𝐠 𝑖𝑡2 , 𝐡𝑖𝑡2 ), donde 𝐠 𝑖𝑡2 es 1 × 𝐺1 (la misma dimensión que 𝐲𝑖𝑡1 ) y 𝐡𝑖𝑡2 es 1 × 𝑄1 .
Obtenga los valores ajustados 𝐲̂𝑖𝑡2 de las regresiones de la primera etapa. Luego, obtenga
los residuos, 𝐫̂𝑖𝑡2 de la regresión OLS combinada
𝐡𝑖𝑡2 en 𝐳𝑖𝑡1 , 𝐲̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; 𝑖 = 1, . . . , 𝑁
Deje 𝑢̂𝑖𝑡1 ser los residuos P2SLS. A continuación, ejecute la regresión MCO combinada
𝑢̂𝑖𝑡1 en 𝐫̂𝑖𝑡2 , 𝑡 = 1, . . . , 𝑇; = 1, . . . , 𝑁
y prueba el 𝐫̂𝑖𝑡2 para significancia conjunta. Una prueba Wald completamente robusta es la
más apropiada, y su distribución límite bajo el nulo de que todos los elementos de 𝐳𝑖𝑡 son
2
exógenos es 𝑋𝑄1 .
8.15. a. El coeficiente muestra que una tarifa más alta reduce la demanda de pasajeros para
los vuelos. La elasticidad estimada es -.565, que es bastante grande. Incluso el intervalo de
confianza del 95% totalmente robusto es bastante estrecho, de -.696 a -.434.
Incidentalmente, el error estándar que es robusto solo para la heterocedasticidad y no para
la correlación serial es aproximadamente .0364, que en realidad es un poco más pequeño
que el error estándar habitual de OLS. Entonces, es importante usar la versión
completamente robusta.
CUADRO

95
b. Utilizo la prueba que permite que las variables explicativas sean no estrictamente
exógenas. La estimación de 𝜌 es esencialmente una. En un contexto de series de tiempo
puro, tendríamos que preocuparnos de cómo esta cantidad de persistencia en los errores
afecta la inferencia. Aquí, la inferencia es estándar porque está con 𝑇 fijo y 𝑁 →∞. Pero la
"raíz unitaria" en {𝑢𝑖𝑡 : 𝑡 = 1, . . . , 𝑇} es preocupante porque cuestiona si existe una relación
significativa entre la demanda de pasajeros y las tarifas aéreas. Si el término de error rara
vez vuelve a su valor medio (que podemos considerar cero), ¿En qué sentido los
movimientos del pasaje aéreo en el tiempo causan movimientos en la demanda de
pasajeros?
CUADRO
c. El coeficiente de 𝑐𝑜𝑛𝑐𝑒𝑛𝑖𝑡 es .360 y la estadística t que da cuenta de la
heterocedasticidad y la correlación serial es 6.15. Por lo tanto, la correlación parcial entre
𝑙𝑓𝑎𝑟𝑒 y 𝑐𝑜𝑛𝑐𝑒𝑛 es suficiente para implementar un procedimiento IV.
CUADRO
d. Las estimaciones IV se dan a continuación. La elasticidad estimada es enorme, -1.78.
Esto parece muy grande. El error estándar completamente robusto es aproximadamente
dos veces más grande que el error estándar de OLS habitual, y el intervalo de confianza del
95% completamente robusto es de -2.71 a -.84, que es muy amplio, pero excluye la
estimación puntual del MCO combinado (-. 5.65).
CUADRO

e. Para calcular el error estándar asintótico de √𝑁(𝛽̂1,𝑃2𝑆𝐿𝑆 − 𝛽̂1,𝑃𝑂𝐿𝑆 ) usando el enfoque


tradicional de Hausman, debemos mantener suficientes suposiciones para que POLS sea
relativamente eficiente bajo el nulo. Dejar

𝐰𝑖𝑡 = (1, 𝑦98𝑡 , 𝑦99𝑡 , 𝑦00𝑡 , 𝑙𝑓𝑎𝑟𝑒𝑖𝑡 , 𝑙𝑑𝑖𝑠𝑡𝑖 , 𝑙𝑑𝑖𝑠𝑡2𝑖 , 𝑐𝑜𝑛𝑐𝑒𝑛𝑖𝑡 )


tendríamos que asumir, bajo H0 ,

E(𝐳𝑖𝑡 𝑢𝑖𝑡1 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
2
E(𝑢𝑖𝑡1 |𝐰𝑖𝑡 ) = 𝜎 2 , 𝑡 = 1, . . . , 𝑇
E(𝑢𝑖𝑡1 𝑢𝑖𝑟1 |𝐰𝑖𝑡 , 𝐰𝑖𝑟 ) = 𝟎, 𝑟 ≠ 𝑡
La primera suposición debe mantenerse bajo el nulo para que la prueba tenga sentido. La
segunda suposición, la homoscedasticidad, nunca puede garantizarse, por lo que siempre es
una buena idea hacer que las pruebas sean robustas para la heterocedasticidad. La
aplicación actual es una ecuación estática, por lo que la suposición de que no existe una
correlación serial es especialmente fuerte. De hecho, de la parte b ya tenemos buena
evidencia de que existe una correlación serial sustancial en los errores (aunque esta prueba
mantiene la exogeneidad contemporánea de 𝑙𝑓𝑎𝑟𝑒𝑖𝑡 , junto con las variables de distancia).

96
f. Los comandos Stata se dan a continuación. El estadístico 𝑡 completamente robusto en
𝐯̂𝑖𝑡2 es 2.92, que es un fuerte rechazo de la nulidad de que 𝑙𝑓𝑎𝑟𝑒𝑖𝑡 es (contemporáneo)
exógeno, suponiendo que el 𝑐𝑜𝑛𝑐𝑒𝑛𝑖𝑡 sea contemporáneamente exógeno.
CUADRO
8.16 (Pregunta Bonus). Considere el estimador GIV con restricciones incorrectas
𝑝
̂ en lugar de 𝛀 con 𝚲
impuestas en el estimador de 𝛀. Es decir, en (8.47) use 𝚲 ̂ → 𝚲 ≠ 𝛀.

a. Si se cumple la Asunción GIV.1, es decir, E(𝐙𝑖 ⊗ 𝐮𝑖 ) = 𝟎, argumenta que el


estimador de GIV sigue siendo consistente bajo una condición de rango apropiada (y
establece la condición de rango).
̂ es √𝑁 -
b. Sostiene que, bajo los supuestos de la parte a, el estimador GIV que usa 𝚲
asintóticamente equivalente al estimador GIV (no factible) que usa 𝚲.
̂ pero quieres protegerte de inferencias inapropiadas, ¿qué harías?
c. Si insistes en usar 𝚲
Solución
a. De la ecuación (8.47), y aplicando la ley de los números grandes, la condición de
ortogonalidad clave para la consistencia es

E(𝐙𝑖′ 𝚲−𝟏 𝐮𝑖 ) = 𝟎
𝑝
porque 𝚲̂ → 𝚲. Pero si la Asunción GIV.1 se cumple, cualquier combinación lineal de 𝐙𝑖
no está correlacionada con 𝐮𝑖 , incluyendo 𝚲−𝟏 𝐙𝑖 . La condición de rango tiene dos partes,
siendo la primera la más importante:

rango E(𝐙𝑖′ 𝚲−𝟏 𝐙𝑖 ) = 𝐿


rango E(𝐙𝑖′ 𝚲−𝟏 𝐗 𝑖 ) = 𝐾
b. Esto sigue la misma línea de razonamiento que usamos para FGLS en el Capítulo 7.
Primero, usando el mismo truco con el producto Kronecker
𝑁 𝑁
𝑝
𝑁 −1 ̂−𝟏 𝐙𝑖
∑ 𝐙𝑖′ 𝚲 =𝑁 −1
∑ 𝐙𝑖′ 𝚲−𝟏 𝐙𝑖 + 𝑜𝑝 (1) → E(𝐙𝑖′ 𝚲−𝟏 𝐙𝑖 )
𝑖=1 𝑖=1
𝑁 𝑁
𝑝
𝑁 −1 ̂ −𝟏 𝐗 𝑖
∑ 𝐙𝑖′ 𝚲 =𝑁 −1
∑ 𝐙𝑖′ 𝚲−𝟏 𝐗 𝑖 + 𝑜𝑝 (1) → E(𝐙𝑖′ 𝚲−𝟏 𝐗 𝑖 )
𝑖=1 𝑖=1

Segundo,
𝑁 𝑁 𝑁
1
̂−𝟏 𝐮𝑖 − ̂−𝟏 − 𝚲−𝟏 )
𝑁 −1/2
∑ 𝐙𝑖′ 𝚲 −𝑁 2 ∑ 𝐙 ′ 𝚲−𝟏 𝐮𝑖
𝑖 =𝑁 −1/2
∑(𝐮𝑖 ⊗ 𝐙𝑖 )′ vec(𝚲
𝑖=1 𝑖=1 𝑖=1

= 𝑂𝑝 (1) • 𝑜𝑝 (1) = 𝑜𝑝 (1)

97
La combinación de estas equivalencias asintóticas muestra que reemplazar 𝚲 con el
̂ no afecta la distribución √𝑁-limitante del estimador GIV.
estimador consistente 𝚲
c. Use un estimador de la matriz de varianza asintótica robusta y completa. Escribir

Avar ̂ − 𝛃)] = 𝐀
̂ [√𝑁(𝛃 ̂−𝟏 𝐁
̂𝐀̂−𝟏

Donde
𝑁 𝑁 −𝟏 𝑁
̂ = (𝑁 −1 ∑ 𝐗 ′𝑖 𝚲
𝐀 ̂ −𝟏 𝐙𝑖 ) (𝑁 −1 ∑ 𝐙𝑖′ 𝚲
̂−𝟏 𝐙𝑖 ) ̂−𝟏 𝐗 𝑖 )
(𝑁 −1 ∑ 𝐙𝑖′ 𝚲
𝑖=1 𝑖=1 𝑖=1

𝑁 𝑁 −𝟏 𝑁
̂ = (𝑁
𝐁 −1 ̂−𝟏 𝐙𝑖 ) (𝑁 −1 ∑ 𝐙𝑖′ 𝚲
∑ 𝐗 ′𝑖 𝚲 ̂−𝟏 𝐙𝑖 ) (𝑁 −1 ̂ −𝟏 𝐮̂ 𝑖 𝐮̂ ′ 𝚲
∑ 𝐙𝑖′ 𝚲 ̂−𝟏 𝐙𝑖 )
𝑖
𝑖=1 𝑖=1 𝑖=1

𝑁 −𝟏 𝑁
̂−𝟏 𝐙𝑖 )
• (𝑁 −1 ∑ 𝐙𝑖′ 𝚲 ̂−𝟏 𝐗 𝑖 )
(𝑁 −1 ∑ 𝐙𝑖′ 𝚲
𝑖=1 𝑖=1

donde 𝐮 ̂ son los residuos GIV. Este estimador de matriz de varianza asintótica
̂ 𝑖 = 𝐲𝑖 − 𝐗𝑖 𝛃
le permite a E(𝐮𝑖 𝐮′𝑖 ) ≠ 𝚲 y a la heterocedasticidad del sistema, es decir, E(𝐮𝑖 𝐮′𝑖 |𝐙𝑖 ) ≠
̂ (𝛃
E(𝐮𝑖 𝐮′𝑖 ). Por supuesto, obtenemos Avar ̂ ) como 𝐀 ̂−𝟏 𝐁̂𝐀̂−𝟏 , por lo que todas las
divisiones por 𝑁 desaparecen.
8.17 (Pregunta de bonus). Considere un modelo de datos de panel con instrumentos
contemporáneos exógenos 𝐳𝑖𝑡 :
𝑦𝑖𝑡1 = 𝐱𝑖𝑡 𝛃 + 𝑢𝑖𝑡

E(𝐳𝑖𝑡 𝑢𝑖𝑡 ) = 𝟎, 𝑡 = 1, . . . , 𝑇
donde 𝐱𝑖𝑡 es 1 × 𝐾 y 𝐳𝑖𝑡 es 1 × 𝐿 para todo 𝑡, 𝐿 ≥ 𝐾
a. Si mantenemos las suposiciones

SUPUESTO P2SLS.1: E(𝐳𝑖𝑡 𝑢𝑖𝑡 ) = 𝟎, 𝑡 = 1, . . . , 𝑇

′ ′
SUPUESTO P2SLS.2: (a) rango ∑𝑇𝑡=1 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝐿; (b) rango ∑𝑇𝑡=1 E(𝐳𝑖𝑡 𝐱 𝑖𝑡 ) = 𝐾,
argumentan que el estimador agrupado 2SLS (P2SLS) es generalmente consistente (como
siempre con 𝑇 fijo, 𝑁 → ∞, y muestreo aleatorio en 𝑖).
b. Explicar cómo estimar la matriz de varianza asintótica del estimador P2SLS bajo los
supuestos del inciso a.
c. Supongamos que agregamos la suposición

98
2 ′ ′ ′
SUPUESTO P2SLS.3: (a) E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝜎 2 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ), 𝑡 = 1, . . . , 𝑇; (b) E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑠 ) =
𝟎, 𝑡 ≠ 𝑟.
Sostiene que el estimador de matriz de varianza 2SLS habitual que asume la
homoscedasticidad e ignora el componente de la serie temporal es válido.
d. ¿Qué harías si se cumple la Asunción P2SLS.3 (b) pero no necesariamente P2SLS.3
(a)?
Solución
a. Usando la fórmula general para el estimador S2SLS, podemos escribir el estimador
P2SLS (con la probabilidad acercándose a uno) como
−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
̂ = [(𝑁−1 ∑ ∑ 𝐱 𝑖𝑡
𝛃 ′ ′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) ′
(𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
′ ′ ′
• (𝑁−1 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝑦𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
′ ′ ′
= 𝛃 + [(𝑁−1 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
−1 ′ ′ ′
• (𝑁 ∑ ∑ 𝐱 𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1
∑ ∑ 𝐳𝑖𝑡 𝑢𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

Observe cómo la ley de los grandes números implica


𝑁 𝑇 𝑇
𝑝
𝑁 −1
∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 → ∑ E(𝐳′𝑖𝑡 𝐳𝑖𝑡 )

𝑖=1 𝑡=1 𝑡=1


𝑁 𝑇 𝑇
𝑝
𝑁 −1
∑ ∑ 𝐳𝑖𝑡 𝐱𝑖𝑡 → ∑ E(𝐳′𝑖𝑡 𝐱𝑖𝑡 )

𝑖=1 𝑡=1 𝑡=1

y la condición de rango establece que estas matrices de los rangos 𝐿 y 𝐾, respectivamente.


Por lo tanto, el plim puede pasar a través de todas las inversas. También aplicamos WLLN
y Asunción P2SLS.1 para obtener
𝑁 𝑇 𝑇
𝑝
𝑁 −1
∑ ∑ 𝐳𝑖𝑡 𝑢𝑖𝑡 → ∑ E(𝐳′𝑖𝑡 𝑢𝑖𝑡 )

=0
𝑖=1 𝑡=1 𝑡=1
𝑝
̂→𝛃
Ahora pasamos la plim usando el Teorema de Slutsky para obtener 𝛃

99
b. Tenemos
̂ − 𝛃)] = 𝐀−𝟏 𝐁𝐀−𝟏
Avar[√𝑁(𝛃
Donde
𝑇 𝑇 −1 𝑇

𝐀= (∑ E(𝐱 ′𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡



𝐳𝑖𝑡 )) ′
(∑ E(𝐳𝑖𝑡 𝐱 𝑖𝑡 ))
𝑡=1 𝑡=1 𝑡=1

𝑇 𝑇 −1 𝑇 𝑇
′ ′ ′
𝐁= (∑ E(𝐱𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )) (∑ ∑ E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ))
𝑡=1 𝑡=1 𝑡=1 𝑟=1

𝑇 −1 𝑇
′ ′
• (∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐱 𝑖𝑡 ))
𝑡=1 𝑡=1

Podemos estimar consistentemente cada una de estas matrices:


𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
̂ = (𝑁
𝐀 −1
∑ ∑ 𝐱 𝑖𝑡′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 ′
𝐳𝑖𝑡 ) (𝑁 −1 ′
∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇 𝑇
̂ = (𝑁
𝐁 −1
∑ ∑ 𝐱 𝑖𝑡′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 ′
𝐳𝑖𝑡 ) ′
(∑ ∑ ∑ E(𝑢̂𝑖𝑡 𝑢̂𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ))
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝒊=𝟏 𝑡=1 𝑟=1

𝑁 𝑇 −𝟏 𝑁 𝑇
−1 ′ −1 ′
• (𝑁 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1

̂ son los residuos P2SLS.


donde 𝑢̂𝑖𝑡 = 𝑦𝑖𝑡 − 𝐱 𝑖𝑡 𝛃
c. Con Supuesto P2SLS.3,
𝑇 𝑇 𝑇 𝑇
′ 2 ′ ′
∑ ∑ E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ) = ∑ E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝜎 2 ∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )
𝑡=1 𝑟=1 𝑡=1 𝑡=1

donde la primera igualdad se sigue de E(𝑢𝑖𝑡 𝑢𝑖𝑟 𝐳𝑖𝑡 𝐳𝑖𝑟 ) = 𝟎, 𝑡 ≠ 𝑟, y la segunda sigue de
2 ′ 2 ′
E(𝑢𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 ) = 𝜎 E(𝐳𝑖𝑡 𝐳𝑖𝑡 ), 𝑡 = 1, . . . , 𝑇. Por lo tanto,
𝑇 𝑇 −1 𝑇
′ ′ ′
𝐁 = 𝜎 2 (∑ E(𝐱𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐳𝑖𝑡 )) (∑ E(𝐳𝑖𝑡 𝐱 𝑖𝑡 )) = 𝜎 2 𝐀
𝑡=1 𝑡=1 𝑡=1

y entonces
̂ − 𝛃)] = 𝜎 2 𝐀−𝟏
Avar[√𝑁(𝛃

100
Cuando usamos 𝐀 ̂ de la parte b y un estimador consistente de 𝜎 2 (con ajuste de grados de
libertad opcional pero estándar),
𝑁 𝑇
1 2
𝜎̂ 2 = ∑ ∑ 𝑢̂𝑖𝑡
𝑁𝑇 − 𝐾
𝑖=1 𝑡=1

entonces obtenemos
−𝟏 −𝟏
𝑁 𝑇 𝑁 𝑇 𝑁 𝑇
̂ (𝛃
Avar ̂ ) = 𝜎̂ 2 [(∑ ∑ 𝐱 𝑖𝑡
′ ′
𝐳𝑖𝑡 ) (∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) ′
(∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )]
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

que es exactamente la fórmula estándar para 2SLS tratar el conjunto de datos del panel
como una sección transversal larga.
d. Necesitamos hacer que la matriz de varianza sea robusta a la heterocedasticidad
solamente. Así que
𝑁 𝑇 𝑁 𝑇 −𝟏 𝑁 𝑇
̂ = (𝑁−1 ∑ ∑ 𝐱 𝑖𝑡
𝛃 ′ ′
𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) 2 ′
(𝑁−1 ∑ ∑ 𝑢̂𝑖𝑡 𝐳𝑖𝑡 𝐳𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1 𝑖=1 𝑡=1

𝑁 𝑇 −𝟏 𝑁 𝑇
′ ′
• (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐳𝑖𝑡 ) (𝑁−1 ∑ ∑ 𝐳𝑖𝑡 𝐱 𝑖𝑡 )
𝑖=1 𝑡=1 𝑖=1 𝑡=1

̂ (𝛃
El resultado Avar ̂ ) es exactamente lo que se calcularía tratando el conjunto de datos del
panel como una sección transversal larga con inferencia robusta a la heterocedasticidad.
8.18 (Pregunta Bonus). Considere el modelo de datos del panel
𝑦𝑖𝑡 = 𝐱 𝑖𝑡 𝛃 + 𝑢𝑖𝑡 , 𝑡  1, . . . , 𝑇,
donde 𝐱 𝑖𝑡 es un vector de 1 × 𝐾 y los instrumentos en el tiempo 𝑡 son 𝐳𝑖𝑡 , a 1 × 𝐿 vector
para todos los 𝑡. Supongamos que los instrumentos son estrictamente exógenos en el
sentido de que
E(𝑢𝑖𝑡 |𝐳𝑖1 , 𝐳𝑖2 , … , 𝐳𝑖𝑇 ) = E(𝑢𝑖𝑡 |𝐳𝑖 ) = 0, 𝑡  1, . . . , 𝑇
Supongamos que E(𝐮𝑖 𝐮′𝑖 |𝐳𝑖 ) = E(𝐮𝑖 𝐮′𝑖 ) = 𝛀, donde 𝐳𝑖 es el vector todas las variables
exógenas en todos los períodos de tiempo. Además, supongamos que 𝛀 tiene la forma AR
(1):
1 𝜌 𝜌2 … 𝜌𝑇−1
𝜌 1 𝜌 … 𝜌𝑇−2
2
𝛀 = 𝛔𝑒 𝜌2 𝜌 ⋱ ⋱ ⋮ 𝛔2𝑒 𝚿
⋮ ⋱ ⋱ 1 𝜌
(𝜌𝑇−1 𝜌𝑇−2 … 𝜌 1 )
Donde 𝑢𝑖𝑡 = 𝜌𝑢𝑖,𝑡−1 + 𝑒𝑖𝑡 , 𝑡  1, . . . , 𝑇

101
a. Si 𝐙𝑖′ = (𝐳𝑖1
′ ′
, … , 𝐳𝑖𝑇 ), encuentra la matriz de instrumentos transformados, 𝚿 −𝟏/𝟐 𝐙𝑖 .
b. Describa cómo implementar el estimador GIV como una estimación agrupada de 2SLS
cuando 𝛀 tiene la estructura AR (1).
c. Si cree que el modelo AR (1) puede ser incorrecto o que la suposición de
homoscedasticidad del sistema no es válida, proponga un método simple para obtener
errores estándar válidos y estadísticas de prueba
solución
De la Sección 7.8.6, sabemos que cuando 𝚿 tiene la estructura AR (1) dada anteriormente,

(1 − 𝜌2 )1/2 𝐳𝑖1
𝐳 − 𝜌𝐳𝑖1
𝚿−𝟏/𝟐 𝐙𝑖 = ( 𝑖2 )

𝐳𝑖𝑇 − 𝜌𝐳𝑖,𝑇−1

de modo que, para 𝑡 ≥ 2, la transformación resulta en cuasi diferencia. Para 𝑡 = 1, la


transformación asegura que los errores transformados tendrán varianec común para todos
𝑡 = 1, . . . , 𝑇.
b. Necesitamos estimar 𝜌, así que usaríamos 2SLS agrupados para obtener residuos,
digamos 𝑢̂𝑖𝑡 . Luego, estime 𝜌 a partir de la regresión MCO combinada
𝑢̂𝑖𝑡 en 𝑢̂𝑖,𝑡−1 , , 𝑡  2, . . . , 𝑇 ; 𝑖  1, . . . , 𝑁.
La ecuación transformada GIV es

(1 − 𝜌2 )1/2 𝑦𝑖1 = (1 − 𝜌2 )1/2 𝐱𝑖1 𝛃 + (1 − 𝜌2 )1/2 𝑢𝑖1

𝑦𝑖𝑡 − 𝜌𝑦𝑖,𝑡−1 = (𝐱 𝑖𝑡 − 𝜌𝐱 𝑖,𝑡−1 )𝛃 + 𝑢𝑖𝑡 − 𝜌𝑢𝑖,𝑡−1 , 𝑡  2, . . . , 𝑇.

El estimador GIV se obtiene reemplazando 𝜌 con 𝜌̂ y estimando

𝑦̃𝑖𝑡 = 𝐱̃ 𝑖𝑡 𝑒𝑟𝑟𝑜𝑟𝑖𝑡 , 𝑡  1, . . . , 𝑇 ; 𝑖  1, . . . , 𝑁.
utilizando IVs 𝐳̃𝑖𝑡 , donde

𝐳̃𝑖1 = (1 − 𝜌̂2 )1/2 𝐳𝑖1


𝐳̃𝑖𝑡 = 𝐳𝑖𝑡 − 𝜌̂𝐳𝑖,𝑡−1 , 𝑡  2, . . . , 𝑇

y donde definiciones similares se mantienen para 𝑦̃𝑖𝑡 y 𝐱̃ 𝑖𝑡 . Como siempre, la estimación de


𝜌 no tiene ningún efecto sobre la distribución √𝑁 -asintótica bajo la suposición estricta de
exogeneidad en los IV. Las estadísticas P2SLS habituales de la estimación de las variables
transformadas son asintóticamente válidas.
c. Si hemos especificado mal Var(𝐮𝑖 |𝐳𝑖 ), entonces debemos hacer que la inferencia
P2SLS de la parte b sea completamente robusta, a heterocedasticidad y correlación serial.
En otras palabras, los errores transformados

102
𝑒𝑖1 = (1 − 𝜌2 )1/2 𝑢𝑖1
𝑒𝑖𝑡 = 𝑢𝑖𝑡 − 𝜌𝑢𝑖,𝑡−1 , 𝑡  2, . . . , 𝑇.
tendrá una correlación serial si el modelo AR (1) es incorrecto, y tales errores siempre
pueden tener heterocedasticidad si {𝑢𝑖𝑡 } lo hace. Sabemos que el estimador GIV que usa
una estructura de varianza incorrecta sigue siendo consistente y √𝑁 es asintóticamente
normal. Podríamos obtener un estimador más eficiente suponiendo una estructura simple
de AR (1) que usar P2SLS en el original: en todo caso, la contabilidad de la correlación
serial sería mejor que ignorarla en la estimación. Esta es la misma motivación subyacente a
la literatura de ecuaciones de estimación generalizada cuando las variables explicativas son
estrictamente exógenas.

Soluciones al Capítulo 9 Problemas


9.1. a. No. ¿Qué inferencia causal podría extraerse de esto? Podemos estar interesados en la
compensación entre salarios y beneficios, pero luego cualquiera de estos puede tomarse
como la variable dependiente y la estimación de cualquier ecuación sería por OLS. Por
supuesto, si hemos omitido algunos factores importantes, o tenemos un problema de error
de medición, el MCO podría ser inconsistente para estimar la compensación. Pero no hay
un problema de simultaneidad: los salarios y los beneficios se determinan conjuntamente,
pero no tiene sentido que una ecuación de salario y otra de beneficios satisfagan el requisito
de autonomía.
b. Sí. Ciertamente podemos pensar en un cambio exógeno en los gastos de la aplicación
de la ley que causa una reducción en la delincuencia, y ciertamente estamos interesados en
tales contrafactuales. Si pudiéramos hacer el experimento apropiado, donde los gastos se
asignan aleatoriamente a través de las ciudades, entonces podríamos estimar la ecuación del
crimen por MCO. El modelo de ecuaciones simultáneas reconoce que las ciudades eligen
los gastos de la aplicación de la ley en parte en función de lo que esperan que sea la tasa de
criminalidad. Un SEM es una manera conveniente de permitir que los gastos dependan de
factores no observables (para el econométrico) que afectan el delito.
c. No. Estas son ambas variables de elección de la empresa, y los parámetros en un
sistema de dos ecuaciones que modelan uno en términos del otro, y viceversa, no tienen
ningún significado económico. Si queremos saber cómo un cambio en el precio de la
tecnología extranjera afecta las compras de tecnología extranjera (FT), ¿por qué queremos
mantener un gasto fijo en I + D? Claramente, las compras de FT y el gasto en I + D se
eligen simultáneamente, pero deberíamos usar una configuración de SUR de dos ecuación
donde ninguna de las dos es una variable explicativa en la ecuación de la otra.
d. Sí. Podemos estar interesados en el efecto causal del consumo de alcohol en la
productividad y, por lo tanto, en el salario. El salario por hora está determinado por la
productividad y otros factores; el consumo de alcohol se determina por elección individual,
donde un factor es el ingreso.

103
e. No. Estas son variables de elección del mismo hogar. No tiene sentido pensar cómo
los cambios exógenos en uno afectarían al otro. Además, supongamos que observamos los
efectos de los cambios en las tasas del impuesto a la propiedad local. No desearíamos tener
un ahorro familiar fijo y luego medir el efecto de cambiar los impuestos a la propiedad en
los gastos de vivienda. Cuando el impuesto a la propiedad cambia, una familia
generalmente ajustará los gastos en todas las categorías. Un sistema SUR con impuestos a la
propiedad como una variable explicativa es la estrategia adecuada.
f. No. Ambos son elegidos por la empresa, presumiblemente para maximizar las
ganancias. No tiene sentido mantener fijos los gastos de publicidad mientras se analiza
cómo afectan otras variables al margen de precios.
g. Sí. Las variables de resultado - cantidad demandada y gastos de publicidad - están
determinadas por diferentes agentes económicos. Tiene sentido modelar la cantidad
demandada como una función de los gastos de publicidad, reflejando que una mayor
exposición al público puede afectar la demanda, y al mismo tiempo reconocer que la
cantidad de una empresa que gasta en publicidad puede determinarse por la cantidad de
producto que puede vender.
h. Sí. La tasa de infección por VIH está determinada por muchos factores, y el uso del
condón es uno. Fácilmente podemos imaginarnos interesados en los efectos de hacer que
los condones estén más disponibles en la incidencia del VIH. La segunda ecuación, que
modela la demanda de condones en función de la incidencia del VIH, captura la idea de
que más personas podrían usar condones a medida que aumenta el riesgo de infección por
el VIH. Cada ecuación se sostiene por sí misma.
9.2. a. Escribe el sistema como

1 −𝛾1 𝑦1 𝐳(1) 𝛅(1) + 𝑢1


( ) (𝑦 ) = ( )
−𝛾2 1 2 𝐳(2) 𝛅(2) + 𝑢2

Las soluciones únicas para 𝑦1 y 𝑦2 existen solo si la matriz premultiplicada (𝑦1 , 𝑦2 )′ es no


singular. Pero su determinante es 1 − 𝛾1 𝛾2, por lo que una condición necesaria y suficiente
para que existan las formas reducidas es 𝛾1 𝛾2 ≠ 1.
b. La condición de rango se cumple para la primera ecuación si y solo si 𝐳(2) contiene un
elemento que no está en 𝐳(1) y el coeficiente en 𝛅(2) sobre esa variable no es cero. De
manera similar, la condición de rango se cumple para la segunda ecuación si y solo si 𝐳(1)
contiene un elemento que no está en 𝐳(2) y el coeficiente en 𝛅(1) sobre esa variable no es
cero.
9.3. a. Podemos aplicar la parte b del problema 9.2. Primero, la única variable excluida de
la ecuación 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 es la variable 𝑚𝑟𝑒𝑚𝑎𝑟𝑟; dado que la ecuación 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 contiene una
variable endógena, esta ecuación se identifica si y solo si 𝛿21 ≠ 0. Esto asegura que hay una
variable exógena que cambia la función de reacción de la madre que no cambia también la
función de reacción del padre.

104
La ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠 se identifica si y solo si al menos uno de los términos 𝑓𝑖𝑛𝑐 y
𝑓𝑟𝑒𝑚𝑎𝑟𝑟 aparece realmente en la ecuación de 𝑠𝑢𝑝𝑝𝑜𝑟𝑡; es decir, necesitamos
𝛿11 ≠ 0 o 𝛿13 ≠ 0
b. Cada ecuación puede estimarse mediante 2SLS utilizando instrumentos
1, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑚𝑟𝑒𝑚𝑎𝑟𝑟.
c. Primero, obtenga el formulario reducido para visitas:
𝑣𝑖𝑠𝑖𝑡𝑠 = 𝝅20 + 𝝅21 𝑓𝑖𝑛𝑐 + 𝝅22 𝑓𝑟𝑒𝑚𝑎𝑟𝑟 + 𝝅23 𝑑𝑖𝑠𝑡 + 𝝅24 𝑚𝑟𝑒𝑚𝑎𝑟𝑟 + 𝑣2
Estime esta ecuación mediante OLS y guarde los residuos, 𝑣̂2 . Luego, ejecute la regresión
OLS
𝑠𝑢𝑝𝑝𝑜𝑟𝑡 en 1, 𝑣𝑖𝑠𝑖𝑡𝑠, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑣̂2
y realice una prueba 𝑡 (resistente a heterocedasticidad) de que el coeficiente en 𝑣̂2 es cero.
Si esta prueba rechaza, concluimos que las 𝑣𝑖𝑠𝑖𝑡𝑠 son de hecho endógenas en la ecuación
de 𝑠𝑢𝑝𝑝𝑜𝑟𝑡.
d. Hay una restricción sobreidentificante en la ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠, suponiendo que 𝛿11 y
𝛿12 son ambos diferentes de cero. Asumiendo homoscedasticidad de 𝑢2 , la forma más fácil
de probar la restricción de identificación es primero estimar la ecuación de 𝑣𝑖𝑠𝑖𝑡𝑠 por
2SLS. como en la parte b. Deje 𝑢̂2 ser los residuos 2SLS. Luego, ejecute la regresión
auxiliar
𝑢̂2 en 1, 𝑓𝑖𝑛𝑐, 𝑓𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡, 𝑚𝑟𝑒𝑚𝑎𝑟𝑟
el tamaño de la muestra multiplicado por el 𝑅-cuadrado habitual de esta regresión se
distribuye asintóticamente como 𝜒12 bajo la hipótesis nula de que todos los instrumentos
son exógenos.
̂
Una prueba robusta de heterocedasticidad también es fácil de obtener. Deje que 𝑠𝑢𝑝𝑝𝑜𝑟𝑡
denote los valores ajustados de la regresión de forma reducida para 𝑠𝑢𝑝𝑝𝑜𝑟𝑡. A
continuación, regrese 𝑓𝑖𝑛𝑐 (o 𝑓𝑟𝑒𝑚𝑎𝑟𝑟) en 𝑠𝑢𝑝𝑝𝑜𝑟𝑡 ̂ , 𝑚𝑟𝑒𝑚𝑎𝑟𝑟, 𝑑𝑖𝑠𝑡 y guarde los
residuos, digamos 𝑟1. Luego, ejecute la regresión simple (sin intersección) de 𝑢̂2 en 𝑟1 y use
la estadística robusta de heterocedasticidad en 𝑟1. (Tenga en cuenta que no se necesita
interceptar en esta regresión final, pero incluir uno es inofensivo).
9.4. a. Debido a que la tercera ecuación no contiene variables endógenas del lado derecho,
existe una forma reducida para el sistema si y solo si las primeras dos ecuaciones se pueden
resolver para 𝑦1 y 𝑦2 como funciones de 𝑦3 , 𝑧1 , 𝑧2 , 𝑧3 , 𝑢1 y 𝑢2 . Pero esto es equivalente a
preguntar cuándo el sistema
1 −𝛾12 𝑦1 𝑐1
( ) (𝑦 ) = (𝑐 )
1 −𝛾22 2 2

tiene una solución única en 𝑦1 e 𝑦2 . Esta matriz no es singular si y solo si 𝛾12 ≠ 𝛾22. Esto
implica que la 3 × 3 matriz Γ en la notación general SEM es no singular.

105
b. La tercera ecuación satisface la condición de rango porque no incluye variables
endógenas del lado derecho. La primera ecuación falla la condición de orden porque no hay
variables exógenas excluidas en ella, pero hay una variable endógena incluida. Esto significa
que también falla la condición de rango. La segunda ecuación solo se identifica según la
condición de orden porque contiene dos variables endógenas y también excluye dos
variables exógenas. Para examinar la condición de rango, escriba la segunda ecuación como
𝐲𝛄2 + 𝐳𝛅2 + 𝑢2 = 𝟎, donde 𝛄2 = (−1, 𝛾22 , 𝛾23 )′ y 𝛅2 = (𝛿21 , 0,0)′. Escribir 𝛃2 =
(−1, 𝛾22 , 𝛾23 , 𝛿21 , 𝛿22 , 𝛿23 )′ como el vector de parámetros para la segunda ecuación con
solo la normalización 𝛾21 = −1 impuesta. Entonces, las restricciones 𝛿22 = 0 y 𝛿23 = 0
pueden escribirse como 𝐑 2 𝛃2 = 0, donde
0 0 0 0 1 0
𝐑2 = ( )
0 0 0 0 0 1
Ahora, dejando que B sea la matriz 6×3 de todos los parámetros, e imponiendo todas las
restricciones de exclusión en el sistema,
𝛿 𝟎 𝛿32
𝐑 2 𝐁 = ( 12 )
𝛿13 𝟎 𝛿33
La condición de rango requiere que esta matriz tenga un rango igual a dos. Siempre que el
vector (𝛿32 , 𝛿33 )′ no sea un múltiplo de (𝛿12 , 𝛿13 )′ , o 𝛿12 𝛿33 ≠ 𝛿13 𝛿32 , se cumple la
condición de rango.
9.5. a. Deje 𝛃1 denotar el vector de parámetros 7×1 en la primera ecuación con solo la
restricción de normalización impuesta:
𝛃1′ = (−1, 𝛾12 , 𝛾13 , 𝛿11 , 𝛿12 , 𝛿13 , 𝛿14 )
Las restricciones 𝛿12 = 𝟎 y 𝛿13 + 𝛿14 = 𝟏 se obtienen eligiendo
0 0 0 1 0 0)
𝐑𝟏 = (
1 0 0 0 1 1
Como 𝐑 𝟏 tiene dos filas, y 𝐺 − 1 = 2, se cumple la condición de orden. Ahora
necesitamos verificar la condición de rango. Dejar que 𝐁 denote la matriz 7×3 de todos los
parámetros estructurales con solo las tres normalizaciones, la multiplicación directa de la
matriz da
𝛿12 𝛿22 𝛿32
𝐑𝟏𝐁 = ( )
𝛿13 + 𝛿14 − 𝟏 𝛿23 + 𝛿24 − 𝛾21 𝛿33 + 𝛿34 − 𝛾31
Por definición de las restricciones en la primera ecuación, la primera columna de 𝐑 𝟏 𝐁 es
cero. A continuación, usamos las restricciones en el resto del sistema para obtener la
expresión de 𝐑 𝟏 𝐁 con toda la información impuesta. Pero 𝛾23 = 𝟎, 𝛿22 = 𝟎, 𝛿23 = 𝟎,
𝛿24 = 𝟎, 𝛾31 = 𝟎, y 𝛾32 = 𝟎, y entonces 𝐑 𝟏 𝐁 se convierte
𝟎 𝟎 𝛿32
𝐑𝟏𝐁 = ( )
𝟎 −𝛾21 𝛿33 + 𝛿34 − 𝛾31
La identificación requiere 𝛾21 ≠ 0 y 𝛿32 ≠ 0.

106
b. Es fácil ver cómo estimar la primera ecuación bajo los supuestos dados. Establezca
𝛿14 = 𝟏 − 𝛿13 y conéctelo a la ecuación. Después del álgebra simple obtenemos
𝑦1 − 𝑧4 = 𝛾12 𝑦2 + 𝛾13 𝑦3 + 𝛿11 𝑧1 + 𝛿13 (𝑧3 − 𝑧4 ) + 𝑢1

107

Potrebbero piacerti anche