Microeconometr A Aplicada JM Benavente

Microeconometra Aplicada
Notas de Clases
Jos Miguel Benavente H.1
8 de marzo de 2010
1
Departamento de Economa. Universidad de Chile. e-mail : jbenaven@econ.uchile.cl.
Quisiera agradecer la eficiente ayuda de Javiera Vsquez en la transcripcin de estos apuntes co-
mo tambin los comentarios de Emerson Melo, Gonzalo Leyton y Osvaldo Larraaga a versiones
previas de estas notas. Todos los errores son responsabilidad del autor.
Captulo 1
Modelos de Eleccin Discreta
1.1. Introduccin
En muchos contextos, el fenmeno que se quiere modelar no es continuo sino discre-

to. As por ejemplo,la decisin de participar en el mercado del trabajo, opinin sobre
un tipo de legislacin, tipo de auto escogido por el consumidor entre varios modelos
posibles. En general, todos los modelos que estudiaremos en este contexto tienen en
comn que en ellos la variable dependiente toma los valores 0, 1, 2 ....En ocasiones
estos valores tendrn significado en si mismo como el numeros de patentes a los que
denominaremos datos de recuento. Pero en la mayora de los casos los valores que toma
la variable dependiente no son mas que cdigos utilizados para representar un resultado
cualitativo. Por ejemplo, en el caso de la participacin de mercado, un 0 puede significar
no participar y un 1 puede significar si participar.
Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar el

anlisis de regresin clsico. Sin embargo, en todos ellos es posible construir modelos
que enlazan la decisin o resultado con un conjunto de factores bajo la misma filosofa
que en el modelo de regresin. Lo que haremos ser analizar cada uno de estos casos
dentro del marco general de los modelos de probabilidad.
Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y
multinomial, dependiendo de si el resultado es la eleccin entre dos alternativas o entre
ms. Si bien el segundo tipo es una extensin del primero, se pueden distinguir en estos
ltimos situaciones donde los resultados son no ordenados, como el caso de la eleccin
del auto o bien ordenados como el caso de las patentes.
En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de

eleccin binaria para luego continuar con casos de eleccin mltiples.
3
4 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
1.2. Modelo Bsico de Eleccin Binaria

Supuesto bsico:
latent variable threshold model
yi = x0i + i
con:
1 si yi > 0;
yi =
0 si yi 0
Luego,
0 0
P [yi = 1]=P [xi + i > 0] = F (xi )
Modelos Alternativos para F():
Probit:
Z z
1
(z) = exp(u2 /2)du
2
Logit:
1
(z) =
1 + ez
1.3. Estimacin por Mxima Verosimilitud
n
Y 0 0
L= F (xi )yi [1 F (xi )]1yi
i=1
Tomando logaritmo a la expresin anterior:
n n
X o
0 0
logL = yi logF (xi ) + (1 yi ) log[1 F (xi )]
i=1
Maximizando con respecto a beta obtenemos la funcin "score":
n
logL X yi fi (1 yi ) fi
= xi
Fi 1 Fi |{z}
i=1 | {z } vector
escalar
1.3. ESTIMACIN POR MXIMA VEROSIMILITUD 5
0 0
con Fi = F (xi ) y fi = f (xi ); donde f es la densidad correspondiente a F.
Entonces:
n
logL X yi Fi
= fi xi
Fi (1 Fi )
i=1
y as, el estimador ML b es aquel que resuelve las ecuaciones de verosimilitud:
n
X yi Fi
fi xi = 0
Fi (1 Fi )
i=1
1.3.1. Modelo Logit

Para este caso, si se considera la forma funcional antes vista, se tiene que :
1
(z) =
1 + ez
entonces al derivar se puede obtener la siguiente expresin :
f (z) = (z)[1 (z)]
Demostracin :
F (z) = (z) = (1 + ez )1
d(z)
= 1(1 + e1 )2 (1 ez ) = (z)[1 (z)]
dz
Y en consecuencia las ecuaciones de verosimilitud son:

n
logL X
= (yi i ) xi

i=1
0
donde i = (xi ).
La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidad

con que se acerca al mximo)
X n
2 logL
H= = i (1 i ) xi x0i
0 | {z }
i=1
escalar
Demostracin:
n
X
logL yi Fi
= fi xi
Fi (1 Fi )
i=1
Xn
yi i
= i (1 i ) xi
i (1 i )
i=1
Xn
= (yi i ) xi
i=1
n
X
2 logL i
= xi
0
i=1
n
X
= i (1 i ) xi x0i
i=1
La que es definida negativa para todos los , asumiendo que los xs no son perfec-
tamente colineales ( si lo fueran H no es invertible, explota). As, la log-likelihood es
globalmente cncava. La esperanza de H es ella misma y no depende de y, por lo tanto
la matriz de informacin muestral es:
n
X
Jn() = i (1 i ) xi x0i
i=1
1.3.2. Modelo Probit o Normit

En este caso, se tiene que :
n
logL X yi i
= i xi = 0
i (1 i )
i=1
donde i = (x0i )) y i = (x0i ) con la densidad de la normal estndar. Tambin

se puede escribir como:
logL X i X i
= xi + xi
1 i i
yi =0 yi =1
1.4. MEDIAS CONDICIONALES DEL TRMINO DE ERROR 7
1.4. Medias condicionales del trmino de error
0
E(i |yi = 1) = E(i |xi + i > 0)
0
(xi )
= 0
(xi )
y por otra parte:
0
E(i |yi = 0) = E(i |xi + i 6 0)
0
(xi )
= 0
1 (xi )
Si z v N(0,1):
Figura 1
Distribucin Normal(0,1)
densidad:
1
(z) = exp(1/2z 2 )
2
Medias Condicionales:
Z k
1
E(z|z < k) = z (z)dz
P (z < k)
Z k
1 1
= z exp(1/2z 2 )dz
(k) 2
k
1 1 2
= exp(1/2z )
(k) 2
(k)
=
(k)
De la misma manera:
Z +
1
E(z|z > k) = z (z)dz
1 (k) k
Z +
1 1
= z exp(1/2z 2 )dz
1 (k) k 2
+
1 1 2
= exp(1/2z )
1 (k) 2 k
(k)
=
1 (k)
As, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir

de la siguiente forma:
n
X
E(i |yi ) xi = 0
|i=1 {z }
condicin de ortogonalidad
La matriz Hessiana correspondiente es la siguiente:
2 logL X i X i
0 0 0 0
= [i xi (1 i )] xi x i + 2 [i + xi i ] xi xi
0 (1 i )2 i
y =0
i y =1
i
Dadas las expresiones para las medias condicionales, los valores entre parntesis
cuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa defini-
da, es decir, la log-likelihood es globalmente cncava.
Tomando esperanzas, la matriz de informacin muestral para el modelo Probit es la
1.5. PROPIEDADES ASINTTICAS DEL ESTIMADOR ML 9
siguiente:
n
X 2i
Jn() = xi x0i
i (1 i )
i=1
1.5. Propiedades Asintticas del estimador ML

Bajo condiciones de regularidad generales, el estimador ML es consistente y asin-
tticamente normal con una matriz de varianzas y covarianzas dada por el inverso de
la matriz de informacin. Esta inversa es la cota inferior de Cramer-Rao y entonces, el
estimador ML es tambin asintticamente eficiente.
La varianza del vector Score:
Para ambos modelos el Score tiene la siguiente forma:
n
logL X yi Fi
= fi xi
Fi (1 Fi )
i=1
Donde Fi = F (x0i ) y fi = f (x0i ). As, la varianza viene dada por:
0 n
X 2
logL logL yi Fi
E = E fi2 xi x0i
Fi (1 Fi )
i=1
n
X fi2
= xi x0i
Fi (1 Fi )
i=1
Dado que la Var(yi )=Fi (1 Fi ).
Demostracin:
V ar(yi ) = E(yi Fi )2 = E(yi2 2Fi yi + Fi2 )
Dado que: E(yi ) = Fi
V ar(yi ) = E(yi ) Fi2 = Fi (1 Fi )
Notar que esta ltima expresin es la misma que la matriz de informacin muestral
derivada para cada uno de los modelos anteriores.
Nota : Mximo Global: Aproximacin de Taylor de logL() alrededor de bM LE

logL 2 logL
b +
logL() = logL() (b ) + 0,5(b )0 (b )
0 b 0 b
| {z } | {z }
=0 <0
b
logL() < logL()
1.6. Propiedades de las densidades regulares y verosimili-

tudes
Considere una muestra aleatoria obtenida de una funcin de densidad g(y:), la que
depende del parmetro (extendible al caso de un vector). El logaritmo de la funcin
de verosimilitud viene dado por:
n
X
logL = log(g(yi ; ))
i=1
La densidad g es Regular de primer orden si la diferenciacin con respecto a y la

integracin sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado.
(es decir, la integral de la derivada es igual a la derivada de la integral).
Z Z
d d
g(y; )dy = g(y; )dy
d y y d
La densidad es Regular de segundo orden es lo mismo si se cumple para la segunda

derivada.
Si es un vector las condiciones anteriores deben cumplirse para todas las derivadas
con respecto a cada uno de los elementos de .
Propiedades:
1.
Z +
g(y; )dy = 1

As, si g es regular de primer orden, entonces:
Z +
g 0 (y; )dy = 0

1.6. PROPIEDADES DE LAS DENSIDADES REGULARES Y VEROSIMILITUDES11
y entonces:

g 0 (y; )
E =0
g(y; )
es decir,

log(g(y; ))
E =0

y entonces

logL
E = 0 score

2. Ahora consideremos la segunda derivada del logaritmo de g:
0
2 log(g(y; )) g 00 (y; ) g (y; ) 2
=
2 g(y; ) g(y; )
Si g es regular de segundo orden, entonces:
Z +
g 00 (y; ) dy = 0

es decir,

g 00 (y; )
E =0
g(y; )
y as,

2 log(g(y; )) g 0 (y; ) 2
E = E
2 g(y; )

log(g(y; )) 2
= E

3.
2 " n
#2 n
logL X log(g(yi ; )) X log(g(yi ; )) 2
E =E =E

i=1 i=1
Ya que el valor esperado de todos los trminos cruzados (fuera de la diagonal) son
cero. Ello debido al supuesto de independencia de las observaciones y el hecho de
que:

log(g(y; ))
E =0

As entonces:

2 logL logL 2
E = E
2
Para el caso en que es vector:

2 logL logL logL 0
E = E
2
4. Sumando sobre las observaciones el vector equivalente al de la propiedad (2) es:
2
logL
Jn() = E = E(Q)
0
Donde:
n
X
log(g(yi ; )) log(g(yi ; )) 0
Q=

i=1
Generalmente es ms til usar Q en vez de E(Q) para muestras grandes.

1.7. NOTA TCNICA 13
1.7. Nota Tcnica

Estimacin de la varianza asinttica del estimador ML
Si la forma del valor esperado de la segunda(s) derivada(s) de la log-likelihood es cono-
cida, entonces:
2 1
1 logL
[Jn()] = E
0
Evaluada en bM L entrega un estimador de la matriz de covarianzas del MLE. Sin em-

bargo, este estimador rara vez esta disponible dado que son complicadas funciones no
lineales de los datos. Existen dos alternativas:
1.
h i1 2 logL 1
c b
Jn() =
0
La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada)

con el valor de MLE mximo obtenido. No obstante, a veces es difcil obtener las
segundas derivadas y programarlas en el computador.
2.
" n #
h i1 X log(g(yi ; )) log(g(yi ; )) 0
Jn( b
c ) =

i=1
el que esta basado en el resultado de que el valor esperado de la matriz de segun-

das derivadas es la matriz de covarianzas del vector de primeras derivadas.
[BHHH OPG (outer product of gradients)]
Este ltimo estimador es muy conveniente pues no se necesita ningn clculo ms

all que estimar ecuacin de verosimilitud. Adems es siempre no negativa definida.
1.7.1. Ejemplo : Ingreso y Educacin

Tabla 1. Observaciones de Ingreso y Educacin.
Observacin Ingreso Educacin Observacin Ingreso Educacin
1 20.5 12 11 55.8 16
2 31.5 16 12 25.2 20
3 47.7 18 13 29.0 12
4 26.2 16 14 85.5 16
5 44.0 12 15 15.1 10
6 8.28 12 16 28.5 18
7 30.8 16 17 21.4 16
8 17.2 12 18 17.7 20
9 19.9 10 19 6.42 12
10 9.96 12 20 84.9 16
Los datos fueron generados por la siguiente funcin:

1
f (yi , xi , ) = exp(yi /( + xi ))
+ xi
Donde y=Ingreso [miles de pesos] y x=Educacin [aos].
n
X n
X yi
logL = log( + xi )
+ xi
i=1 i=1
Score:
X 1 n X n
logL yi
= + =0
+ xi ( + xi )2
i=1 i=1
Con la solucin (nica) bM LE =15.60275.
Para Computar la varianza asinttica del estimador MLE, se requiere:

n n
2 logL X 1 X yi
2
= 2
2 (1.1)
( + xi ) ( + xi )3
i=1 i=1
Dado que E(yi )=+xi es conocido, la forma exacta del valor esperado de (1) es conocida
(algo no comn). Reemplazamos + xi por yi e invirtiendo obtenemos 44.255 como
b
estimador de la varianza. Al insertar =15.60275 e invirtiendo obtenemos el segundo
estimador de la varianza: 46.164. Finalmente, al computar el inverso de la suma de los
cuadrados de la primera derivada de la densidad evaluada en bM LE :
1
\ b 1
Jn() =P h i2
n 1 yi
i=1 b + b 2
(+xi ) (+xi )
Se obtiene un BHHH de 100.512.
Los tres estimadores son asintticamente equivalentes, pero BHHH es mucho ms fcil
de obtener. Pero cuidado con los valores en muestras finitas:
Ho: =0 sera rechazada solo con los estimadores de la varianza.
1.8. Violaciones de regularidad y propiedades

i. Discontinuidades de L
ii. Observaciones estn correlacionadas
iii. Observaciones no estn distribuidas idnticamente
iv. La densidad escogida no contiene la verdadera densidad
v. densidad g tiene un rango que depende de
vi. nmero de parmetros aumenta con el nmero de observaciones.
1.9. COMPARACIN ENTRE MODELOS PROBIT Y LOGIT 15
1.9. Comparacin entre modelos Probit y Logit

La mayora de los textos sugiere que un anlisis detallado acerca de la eleccin
entre un modelo u otro, no rinde muchos frutos.
modelos predicen en forma similar; estimadores (una vez corregidos para hacerlos
comparables) son estadsticamente indistinguibles.
Si las muestras son muy grandes pueden aparecer diferencias ya que la distribucin
logstica tiene colas ms altas (anchas) que la distribucin normal (ver grficos).
Para que los parmetros entre los modelos sean comparables, se deben realizar
ciertos ajustes:

3
probit = logit

probit = logit 0,625

1.10. EFECTOS MARGINALES 17
1.10. Efectos Marginales

Sabemos que:
P [yi = 1] = F (x0i )
P [yi = 1]
= f (x0i )
xi
estos son los llamados efectos marginales:
Probit: (x0i )
Logit: (x0i )[1 (x0i )]
Tambin se pueden calcular los errores standard de estos efectos marginales. Si defini-
b = fb b donde fb = f (x0i ),
mos b entonces:
0
b
b

V ar.Asin.(b
) = V
b
0 b
0
b
Donde V= Var. Asin. ().
La matriz de derivadas viene dada por:

! !
b b
fb z
= fb + b
b0 b0 z b0
!
fb b 0
= fbI + b x
z
Para los dos modelos:
Probit: df
dz = z , con z = x0 b
b x
)probit = 2 [I (x0 )
V ar.Asin.(b b 0 ]V [I (x0 )
b x
b 0 ]0
df
Logit: dz = (1 2)(1 )
V ar.Asin.(b b ))
)logit = ((1 b 2 [I + (1 2) b 0 ]V [I + (1 2)
b x b 0 ]0
b x
Al igual que los efectos marginales, los errores standard asintticos tambin dependen
del vector de variables x utilizado.
1.10.1. Comentarios sobre las estimacin de los efectos marginales en

Modelos Probit y Logit
Efecto marginal: evaluar en la media o la media de las evaluaciones individ-
uales?.
Segn el teorema de Slutsky debera dar lo mismo ( plim g(xn )=g(plim xn )),
pero en la prctica para muestras pequeas se recomienda calcular los efectos
marginales individuales y luego promediarlos.
Efecto marginal de variables dummies: La forma correcta de estimar el efecto

marginal de una variable independiente binaria, por ejemplo d, sera:
P rob[Y = 1/x , d = 1] P rob[Y = 1/x , d = 0]
Donde x es la media de todo el resto de las variables independientes. En general,

tomando la derivada con respecto a la variable binaria como si fuera continua en-
trega resultados sorprendentemente certeros. Pero lo anterior solo es vlido cuando
se evala el efecto marginal para la media del resto de las variables independi-
entes. Podemos analizar el efecto de la variable dummy en toda la distribucin al
calcular Prob[Y=1] sobre el rango de x para los valores de la variable binaria.
1.10.2. Ejemplo: Efectos Marginales en Probit

GRADE: indicador si los alumnos mejoraron sus notas despus de realizar un curso
especial PSI.
GPA: promedio de notas.
TUCE: resultado de una prueba de diagnostico previo al programa.
PSI: indicador si el estudiante realiz el curso o no.

Probit Logit
Variable bM LE fbb bM LE fbb
constante -7.425 - -13.021 -
GPA 1.626 0.533 2.826 0.534
TUCE 0.052 0.017 0.091 0.018
PSI 1.426 0.469 2.379 0.499
f (x0 ) 0.328 0.189
Usando estos coeficientes, tenemos las siguientes probabilidades como funcin de GPA
(evaluadas en la media de TUC):
PSI=0: Prob[GRADE=1]=[-7.45+1.62GPA+0.052(21.938)]
PSI=1: Prob[GRADE=1]=[-7.45+1.62GPA+0.052(21.938)+1.4263]
Prob(GRADE=1)
con PSI
0.571
sin PSI
0.106
3.117
GPA
El efecto marginal de PSI es la diferencia entre las dos funciones, el que va desde 0.06
en GPA=2 hasta 0.5 en GPA=0.35. As, la probabilidad de que el estudiante aumente
sus notas dado que sigui PSI es ms alta si mejores son sus notas!!. (Efecto marginal
de PSI en x es 0.468).
1.10.3. Clculo de errores estndar en Probit y Logit (repaso)

Efectos marginales:
Probit: (x0i )
Logit: (x0i )[1 (x0i )]
b = fb b donde fb = f (x0i ),
si definimos b entonces:
0
b
b

V ar.Asin.(b
) = V
b
0 b
0
b
Donde V= Var. Asin. ().
Entonces:
Probit:
b x
)probit = 2 [I (x0 )
V ar.Asin.(b b 0 ]V [I (x0 )
b x
b 0 ]0
Logit:
V ar.Asin.(b b ))
)logit = ((1 b 2 [I + (1 2) b 0 ]V [I + (1 2)
b x b 0 ]0
b x
As, se pueden realizar todas las pruebas de hiptesis ya conocida para los parmet-
ros. Por ejemplo, los tradicionales test-t para restricciones simples los que estn basados
en los errores estndar calculados a partir de la matriz de informacin (BHHH u otra).
Logit Probit
Variable Coef. t ratio Pendiente t ratio Coef. t ratio Pendiente t ratio
Constante -13.021 -2.64 - - -7.452 -2.930 - -
(4.931) (2.542)
GPA 2.826 2.238 0.534 2.252 1.626 2.343 0.533 1.761
(1.263) (0.237) (0.694) (0.303)
TUCE 0.095 0.672 0.018 0.685 0.052 0.617 0.017 0.587
(0.142) (0.026) (0.084) (0.029)
PSI 2.379 2.234 0.449 2.284 1.426 2.397 0.468 1.695
(2.234) (0.197) (0.595) (2.276)
En general, para un conjunto de restricciones R=q, el estadstico de prueba es:
n o1
W = (Rb q)0 R(Est.V ar.Asin())R
b 0 (Rb q)
Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (por
ejemplo: los L ltimos) el test de Wald requiere que:
R = [0|IL ] y q=0
con W= bL0 VL1 bL
donde el subndice L indica el subvector o submatriz correspondiente a las L variables

y V es la matriz de varianzas y covarianzas de b estimada.
De igual manera, el test de razn de verosimilitud puede ser realizado:
b r log L]
b 2 a
LR = 2[log L r
donde L br y L
b son las funciones log-likelihood evaluadas con los estimadores restringui-
dos y no restringuidos respectivamente. Por ejemplo, la prueba tpica de que todos los
coeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F).
Para esta prueba, slo no se restringe el coeficiente de la constante. En este caso, el caso
no restringuido es el mismo para Logit y Probit:
LogL0 = n[P logP + (1 P )log(1 P )]
donde P es la proporcin de variables dependientes igual a 1.
Ejemplo anterior (ver tabla 19.1 Greene): P=11/32 logL0 =-20.5917, se sabe que
b probit =-12.819 y logL
logL b logit =-12.890, 2 2 2
probit =15.546 y logit =15.404, con crit(3) =7.81,
0
por lo tanto se rechaza la hiptesis nula de que todos los s son igual a cero.
1.10.4. Problemas de estimacin en Probit

(1) Supongamos que tenemos una variable (observada) zi tal que:

yi = 1 si zi > 0;
yi = 0 si zi 0
z se denomina clasificador perfecto. esto implica que el modelo no puede ser estimado
(esta es una propiedad de los datos). Esto ocurre pues existe una combinacin lineal
zi = x0i de tal forma que zi es un clasificador perfecto y entonces no puede ser
identificado.
(2) Otro problema de identificacin ocurre cuando tenemos una combinacin de muestra
pequea con un gran nmero de parmetros a ser estimados.
La regla que aplica aqu es la siguiente:
Si min[ny, n(1 y)]<k, entonces no se pueden estimar los s. Donde n es el tamao

de muestra, k es la dimensin de , ny es el nmero de unos y n(1 y) es el nmero
de ceros.
Lo anterior pues no existe una solucin finita para las condiciones de primer orden
y por lo tanto no puede ser identificado.
1.11. Test de Diagnstico para el modelo Probit

Los temas aqu tratados son anlogos para el caso del modelo Logit.
1.11.1. Residuos Generalizados

Para el caso de modelos con variable latente, los residuos generalizados se definen
como:
i = E(i |yi )
= E(yi |yi ) x0i
= E(yi |yi ) E(yi )
En el modelo Probit habamos visto que la media condicional tenia la siguiente estruc-
tura:
(x0i )
E(i |yi = 1) =
(x0i )
(x0i )
E(i |yi = 0) =
1 (x0i )
De esta forma,
(x0i ) (x0i )
i = yi (1 yi )
(x0i ) 1 (x0i )
(yi i )
= i
i (1 i )
Tambin vimos que las ecuaciones de verosimilitud (score) podran escribirse como:
n
logL X
= E(i |yi ) xi = 0

i=1
o bien
n
logL X
= i xi = 0 (1.2)

i=1
donde la ecuacin (2) es la condicin de ortogonalidad.
La matriz Hessiana en el modelo Probit esta dada por:

2 logL X i X i
0
= 2
[i x0i (1 i )] xi x0i + 0 0
2 [i + xi i ] xi xi
(1 i ) i
y =0
i y =1
i
o bien:
n
X
H= {i (x0i + i )} xi x0i
i=1
1.11. TEST DE DIAGNSTICO PARA EL MODELO PROBIT 23
Recordemos que habamos definido:

logL logL 0
Q=

entonces este estimador puede escribirse como:

n
X
Q= i2 xi x0i
i=1
2
Notar que E(i ) = 0 y V ar(i ) = i (1
i
i)
(demostrar !!), i se conoce como el residuo
del primer momento (i es la contribucin de cada observacin i al score!!).
1.11.2. Pruebas que se pueden realizar con el Score

(i) Variable Omitida: Supongamos el siguiente Modelo de Variable Latente:
yi = x0i + zi0 + i
La hiptesis a testear es =0. El vector Score con respecto a es el siguiente:

n
logL X
= i zi

i=1
Si usamos Q para estimar la matriz de varianzas, entonces el test puede ser calculado
como:
c0 R(R0 R)1 R0 c 2(p)
Donde p es el nmero de restricciones, c es un vector de dimensin n de unos y R una

matriz cuyas fila i es: (i x0i , i zi0 ). Este estadstico puede ser obtenido al regresionar c
sobre R. Si se trata de una sola variable omitida, el test t asociado a i zi0 al cuadrado
es el estadstico 21 .
Alternativamente, se puede regresionar por MCO i zi sobre i xi y una constante (p

regresiones) y calcular el estadstico:
W
1+ W
n
donde W es el estadstico de Wald para la hiptesis que todos los interceptos son cero.
(De nuevo, si p=1, entonces Wald=t2 sobre la constante).
Algunas aplicaciones adicionales de variables omitidas:

Reset-test: es decir, forma funcional correcta.

E(yi ) = [h(x0i )]
b
aqu zi son potencias de (x0i )
Endogeneidad: probar correlacin entre xi y el error (ortogonalidad).
(ii) Heterocedasticidad: Suponga que bajo la hiptesis alternativa:
yi = x0i + i
con i N(0,1), entonces:
n
logL X
= E(2i 1|yi )
2
i=1
El trmino al interior de la sumatoria es el residuo del segundo momento. Para el caso

de Probit:
n
logL X
= i x0i
2
i=1
Ahora bien, si consideramos un modelo heterocedstico ms general:

yi = xi + i i

2 0 h(zi0 )
con i =h(zi ) con h tal que h(0)=1 y = zi (por ejemplo si h(zi0 )=1+zi0 ).
=0
Entonces, bajo la hiptesis nula:

n
logL X
= (i x0i )zi

i=1
De esta forma, el estadstico de prueba puede calcularse como:

c0 R(R0 R)1 R0 c 2(p)
donde, en esta ocasin la i-fila de R es:
(i x0i , i (x0i )zi )
el que puede ser obtenido al regresionar c sobre R. O bien, como mecanismo alternativo,
regresionar i (x0i )zi sobre i xi y una constante y testear con Wald.
(iii) Aplicaciones adicionales: Test de Normalidad (Pagan y Vella 1989):
Una forma de probar normalidad de los errores es asumir que zi =[(x0i )2 (x0i )3 ] y
probar mediante un Reset-test la significancia de estos trminos. (tambin en Ruud
1984).
1.11. TEST DE DIAGNSTICO PARA EL MODELO PROBIT 25
1.11.3. Pruebas sobre restricciones sobre los momentos

Todas las pruebas anteriores descansan sobre un concepto mas general, a saber, re-
stricciones sobre los momentos.
En un modelo de regresin lineal:

yi = x0i + ui
se tiene que :
i E(zi ui )=0
ii E(zi (u2i 2 ))=0 restriccin sobre el segundo momento.
iii E(u3i )=0 tercer momento, distribucin simtrica.
iv E(u4i ) 3 4 =0 cuarto momento/ kurtosis.
Si el modelo est correctamente especificado entonces los momentos poblacionales de-
beran ser igual a cero.
A partir de la informacin muestral, se pueden obtener los anlogos muestrales:

n
1 X
b1 = zi u
bi
n
i=1
1
b2 = u2i
zi (b b2 )
n
para el caso particular del Probit:
yi = (x0i ) + vi
con vi = yi E(yi ) el cual tiene media cero y varianza i (1 i ) con i = (x0i ).
De esta manera:
n
1 X zi bi vbi
b1 =
n b i (1
b i)
i=1
n
1 X zi bi (yi b i)
=
n b i (1
b i)
i=1
Xn
1
= zi bi
n
i=1
De esta forma se construye entonces la prueba sobre los momentos, que en este caso
utiliza los residuos generalizados. En particular, esta ltima expresin es la covarianza
entre los residuos generalizados y z. As, al regresionar zi bi sobre xi bi y una constante
es equivalente a un estadstico de prueba sobre la importancia de la variable z(Idntico
al test de score LM).
Consecuencias de la heterocedasticidad y variable omitida en Probit (Logit): incon-

sistencia, a pesar de que no existe correlacin en los errores.
1.11.4. Ejemplo de estas Pruebas:

t-statistic
Test Moment Restriction Eligible Ineligible
Omitted E(SAL80 )=0 1.427 1.145
Variables E(DSA79 )=0 1.101 1.365
RESET E(PRED2 )=0 2.404 2.6
E(PRED3 )=0 2.287 0.525
Heteroskedasticity E(SAL80 PRED )=0 1.364 0.891
E(MOVES PRED H)=0 2.879 7.670
E(RACE PRED )=0 1.090 1.855
E(LSA79 PRED )=0 1.647 1.349
E(MLE PRED )=0 1.449 5.869
E(ATBATS PRED )=0 2.258 1.043
E(ADJS PRED )=0 2.194 0.083
E(DFN PRED )=0 1.981 4.626
E(BYR PRED )=0 2.197 2.595
E(YSRM PRED )=0 2.541 3.557
Otra Aplicacin: Mroz data: participation equation as in applied Econometrics.
Probit
Variable Coeficiente s.e
LWW1 0.240 0.094
KL6 -0.879 0.115
K618 -0.0321 0.0407
WA -0.0345 0.0077
WE 0.132 0.026
UN -0.0107 0.0160
CIT 0.0115 0.1075
PRIN/104 -0.212 0.047
Constant 0.538 0.481
logL=-450.72, Jt. sig.=128.31(2(8) )
Diagnostic Test statistic:

1.12. PROBIT HETEROCEDSTICO 27
Funcional Form: (square term only) 2(1) =9.42.
Heteroskedasticity: (all RHS variables) 2(8) =25.44.
Non.normality: 2(2) =9.48.
1.12. Probit Heterocedstico

La idea aqu es incorporar la estructura de la forma funcional esperada o presunta
de la heterocedasticidad en la estimacin del modelo. Parecida a la idea de la correccin
de heterocedasticidad en OLS pero ahora en un contexto no lineal utilizando ML.
yi = x0i + i i N (0, 2 ) con i2 = [exp(zi0 )]2
n
X
x0i x0i
logL = yi log + (1 yi ) log 1
exp(zi0 ) exp(zi0 )
i=1
con la probabilidad predicha:

x0i
pi =
exp(zi0 )
En general, (no demostrado aqu) los coeficientes obtenidos son un poco mayores y los
intervalos de confianza (errores standard) mas amplios. Aunque algunos resultados em-
pricos sugieren que el sesgo no es importante (ver Horowitz, Econometrica 1977).
1.13. Medidas del grado de ajuste

Si bien en modelos no lineales no se puede aplicar la idea de ajuste en la forma
tradicional de verla (i.e. cuanto de la variacin total de la variable dependiente es ex-
plicada por la variacin de las variables independientes ponderadas por los betas) una
forma sencilla de tener una idea acerca de si las variables escogida como exgenas son
relevantes es asumir que todas estas son cero excepto la constante y compararlas con
una especificacin en que se incluyan todas las variables relevantes.
Likelihood ratio index:

logL
LRI = 1
logL0
con logL0 : verosimilitud calculado solo con una constante (es decir, asumir que todos
los betas son cero).
Propiedades:
Acotado entre 0 y 1
si Fi es siempre 1 cuando yi es uno y 0 cuando yi es 0, entonces logL es igual a

cero LRI=1. (Pero cuidado con los predictores perfectos).
difcil la interpretacin para los valores entre 0 y 1, recordar que ML no est

diseado para maximizar un criterio de ajuste, como el R2 en OLS.
Captulo 2
Econometra Semi y No
Paramtrica
2.1. Introduccin
Como se ha visto hasta el momento, la forma mas tradicional para estimar modelos
de eleccin discreta es mediante la maximizacin de la funcin de verosimilitud. Ello
pues la funcin a ser maximizada no es del tipo lineal en los parmetros y por tanto no
es factible utilizar el mecanismo inherente al estimador por Mnimos Cuadrados Ordi-
narios.
Sin embargo, esta forma de estimacin la cual surge de encontrar los parmetros
de una funcin conocida que permita describir de la mejor manera posible la muestra
de datos que se tiene, descansa, entre otras cosas justamente en el supuesto de que se
conoce la distribucin de probabilidades que est detrs de los datos. En consecuencia,
la tarea se tratara principalmente de obtener los parmetros que la identifican de la
familia de funciones posibles.
La pregunta natural que surge es, qu sucede si o bien desconocemos la distribucin

de probabilidades que est detrs de los datos de nuestra muestra o si al utilizar la
estimacin por MV nos equivocamos en la distribucin escogida ?
El objetivo de este captulo es introducirnos al mundo de las estimaciones semi y

no paramtricas que responden en alguna medida a estas dos preguntas anteriores. El
objetivo de ste es responderlas en el contexto de problemas con variable dependiente
binaria y/o discreta. Pero para ello debemos revisar desde un comienzo los conceptos
bsicos de estimaciones no paramtricas de densidades, funciones de valor esperado para
finalmente terminar en los tpicos que han motivado este captulo.
Dentro de la econometra, este es un tema relativamente nuevo y no existe mucha

literatura que resuma los avances de estos aspectos en la disciplina. No obstante lo
29
30 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
anterior, existen dos buenos textos al respecto los cuales utilizaremos como gua para
este captulo:
A. Pagan y A. Ullah (1999) Non Parametric Econometrics. Cambridge University

Press.
A. Yatchew (2003)Semiparametric Regression for the Applied Econometricians.

Cambridge University Press.
En el caso de ciertos temas puntuales, en estas notas se sugieren trabajos especficos

publicados en journals especializados.
El temario de este captulo comprende los sigientes aspectos:
Estimacin de densidades (Pagan y Ullah, Capitulo 2; Yatchew Captulo 3)
Mtodos de Kernel
Mtodos tericos de informacin
Estimacin de momentos condicionales (Pagan y Ullah, Capitulo 3; Yatchew,

Captulo 5). Regresin no paramtrica.
Modelos de eleccin discreta (Pagan y Ullah, Capitulo 7; Yatchew, Captulo 7)
2.2. Estimacin de densidades

Una forma de estimar una densidad es la siguiente: tenemos observaciones de i=1,......,n
para zi ={yi , xi } las que son obtenidas (son una realizacin) de una densidad f (z). La
pregunta que queremos resolver es: cual ser una buena estimacin de f (z), trabajando
solamente con los zi s?
La descomposicin de z en y y x, cada una multivariada sugiere que algunas de estas

variables pueden ser consideradas como dependientes (es decir, de x), ser explicadas
quizs endgenas. No obstante, por ahora no haremos prejuicios sobre este asunto.
De forma similar, la poca claridad de la aseveracin del primer prrafo no nos dice
nada acerca de si las observaciones son independientes e idnticamente distribuidas. El
relajo de este supuesto de idntica no ser una gran barrera a lo que veremos ms
adelante, no obstante, el relajo del supuesto de independencia es un tema mucho ms
complejo.
Si llegamos a tener una buena estimacin de f (z), por ejemplo fb(z), entonces muchas
preguntas convencionales de la econometra pueden ser respondidas. Por ejemplo, una
estimacin de E(y1 |x1 , x2 ) puede ser derivada a partir de la integracin apropiada de
fb(z).
2.2. ESTIMACIN DE DENSIDADES 31
Para hacer las cosas ms fciles comenzaremos con la estimacin de la densidad de

una sola variable: x. Veamos las metodologas alternativas para realizar esta tarea.
2.2.1. Estimacin de Densidad I: Kernel

Una estimacin naive de f (x) sera dar un peso 1/n a cada punto xi , i=1,...n. La
funcin de distribucin correspondiente a este procedimiento, se conoce como funcin
de distribucin emprica. Una debilidad aparente de esta propuesta es que no asigna
probabilidades o valores de la densidad a valores de x que no ocurrieron o que no estn
presentes en la muestra, con la agravante que para la mayora de los casos que estudi-
amos en econometra se asume que f (x) hace un dominio (support) continuo.
Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto xi sobre
un area cercana a xi . Una forma de hacer esto podra ser estimar f (x) como una com-
binacin de densidades normales, cada una con una desviacin standard centrada en
cada punto x. Usando (x; , 2 ) para denotar la densidad normal estndar con media
y varianza 2 evaluada en cada x, entonces el estimador de f (x) tendra la siguiente
forma:
n
X n
X
1 1 1 (x xi ) 2
fb(x) = 2
(x; xi , ) = (2)1/2
e 1/2 (2.1)
n n
i=1 i=1
donde, si es muy pequeo entonces tendramos una estimacin de la funcin con pun-
tas agudas en cada xi . Si es mas grande, la estimacin resultante es mas suave. Dado
que la ecuacin anterior es una mezcla de funciones de densidad, entonces fb(x) tambin
es una densidad.
Para simplificar un poco la notacin, hpodemos

i
ver que la expresin ms a la derecha
(xxi ) 2
1/2
de la ecuacin anterior, (2)1/2 e
puede ser reemplazado por:

x xi x xi
K K
h
donde ha sido reemplazado por h sin alterar las propiedades fundamentales de fb(x),
h i
(xxi ) 2
1/2
ello mientras K() comparta ciertas propiedades con e (2)1/2
como ser:
simtrica, no-negativa y que la integral sobre x sea igual a 1. Tambin resulta natural
que K(0) K(x) x.1 De esta manera la expresin en la ecuacin anterior puede ser
reescrita como:
n
X
1 x xi
fb(x) = K (2.2)
nh h
i=1
1
R
La condicin de simetra implica que y K(y)dy = 0, la que usaremos despus
donde K() se denomina la funcin Kernel.
Estimador Kernel con un Kernel normal y dos observaciones

para tres ancho de banda: pequeo (izquerda), intermedio
(centro) y largo (derecha)
Estimacin Kernel para la densidad de una muestra de tamao 15 de una

densidad normal estndar para tres diferentes ancho de banda h=0.68
(izquerda), h=1.82 (centro) y h=4.5 (derecha), usando Kernel Normal
Criterios para la eleccin de h

Pagan y Ullah (pag. 23-26) y la literatura en general, considera dos criterios para
elegir h; aquel que minimiza el error cuadrtico integrado (ISE) o aquel que minimiza
el error cuadrtico integrado promedio (MISE)
integrated square error ISE:

Z
min [fb(x) f (x)]2 dx
mean integrated square error MISE:

Z
minE [fb(x) f (x)]2 dx
las que corresponden a la nocin de prdida y riesgo respectivamente, donde la

primera depende de los datos que se tiene en la muestra pero la segunda no.
Para el caso de MISE se tiene que :

Z
b
M ISEf (f ) = Ef [fb(x) f (x)]2 dx (2.3)
Z Z
= varf f (x)dx + [Ef fb(x) f (x)]2 dx
b
| {z } | {z }
varianza sesgo2
P
Dado que fb = fb(x) = nh1
ni=1 K xxh
i
, entonces, considerando la expresin anteri-
or, es claro que si escogemos un h pequeo, el sesgo en la estimacin de la densidad es
pequeo pero la varianza (ruido) es grande. Por otra parte, un h muy pequeo significa
que no habrn suficientes puntos en x para promediar o suavizar y en consecuencia, ob-
tendremos una estimacin de la densidad que presente saltos u ondas (sinusoidales).
Por otra parte, si escogemos un h grande el sesgo ser grande pero la varianza (rui-
do) menor, resultando en una estimacin de densidad sobre suavizada y en conclusin
con una fuerte distorsin sobre la verdadera estructura de la densidad. En la prctica h
se debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza,
lo que necesita de algn criterio.
Este criterio puede ser entregado por lo ques e conoce como AMISE, esto es una
aproximacin de MISE mediante una expansin de Taylor la cual tiene la siguiente
caracterstica:
Z Z Z
h4 2 (2) 2 1
AM ISE = 2 [f (x)] dx + (nh) f (x)dx K 2 ()d (2.4)
4
1
= 1 h4 + 2 (nh)1
4
donde:
Z
1 = 22 [f (2) (x)]2 dx
Z
2 = [K 2 ()d

x xi
=
h
Z
2 = 2 K()d
para el caso de funcin kernel. Para obtener h tal que minimize AMISE, diferenciamos
la expresin anterior con respecto a h e igualamos a 0.
1
h3 1 2 = 0 h = c n1/5
n h2
donde c=(2 /1 )1/5 el que depende del kernel y de la curvatura de la densidad (ver-
dadera).
Eleccin de h en la prctica
R
Podemos notar que x depende de la varianza del Kernel y de [f (2) (x)]2 dx el que
indica el grado de variabilidad de la densidad. As, por ejemplo, si la verdadera densi-
dad es ms bien plana entonces 1 0 y c (ancho de banda muy grande). En
contraste, si la verdadera funcin es altamente variable, 1 y c 0 (h pequeo).
Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidad
normal estndar y f(x) N(, 2 ). Algebraicamente se puede determinar que c 1.06
y entonces h=1.06 n1/5 .
En Silverman (1986) se compara este ltimo resultado con el h ptimo si la distribu-

cin desconocida realmente fuera una mezcla de dos normales o que fueran funciones
altamente simtricas, encontrandose que esta frmula es una muy buena aproximacin.
Una mejora a este mtodo es reemplazar por un estimador robusto de la dispersion
de la muestra, por ejemplo:
h = 0,9A n1/5 donde A = min{

, (R/1,34)}
con R, el rango intercuartil.

Una forma alternativa y muy utilizada en muchas aplicaciones semi y no paramtricas

es la Validacin Cruzada Generalizada (GCV). Cuando una decisin como suavizacin
debe realizarse, esta metodologa sugiere que escoja el parmetro que optimiza el crite-
rio de la funcin jackknife.
Jackknifing es un procedimiento general donde una cantidad desconocida se estima

al dejar fuera cada observacin sucesivamente y estimar, usando las n 1 observa-
ciones restantes, algo acerca del n-simo punto. Por ejemplo, al dejar fuera x1 usamos
los restantes puntos para estimar logfb(x1 ) el que denotaremos por fb[1] (x1 ). De esta
forma, escogemos h de tal modo de:
n
X
max log fb[i] (xi )
{h}i=1
i=1
Eleccin de K()
Cabe hacer notar, que en trminos de nomenclatura, Pagan y Ullah usan K() mien-
tras que Van der Vaart usa K(y). Pagan y Ullah - supuesto A.2 (Pg 21) - impone las
condiciones estndar para K() la que debe ser una funcin simtrica (no negativa ?) y
que satisfaga los siguientes criterios:
Z
(i) K()d = 1
Z
(ii) K 2 ()d = 2 6= 0
Z
(iii) K 2 ()d <
bajo estas condiciones, se demuestra (pg. 27-28) que AMISE puede ser minimizado
para el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel:
3 2
K() = 4 (1 ) || 1;
0
conocido como Kernel Epanechnikov(1969).2
Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parbola.
Existe una extensa literatura comparando el MISE de este Kernel con el de otros posibles
Kernels. Los resultados indican que la diferencia entre estos es pequea. Consecuente-
mente, considerando simplicidad, costos computacionales y la velocidad de convergencia
2
xxi
Recordar que = h
.
del estimador de la densidad pueden determinar que Kernel escogemos como apropiado
al problema que estemos analizando. No obstante, cabe hacer notar que la eleccin de
h tiene mucho mayor impacto que la eleccin de K().
Eleccin de K(), Aspectos Adicionales

Si abandonamos el requerimiento que K() sea no negativo podemos reemplazar el
supuesto A.2 por A.6 y reducir el AMISE de fb(x) en una cantidad apreciable ( O(n4/5 )
O(n2r/(2r+1) )), con r el valor del orden del Kernel. Sea K perteneciente a la clase
de Kernels simtricos, tal que:
Z
j K()d = 1 si j = 0
= 0 si j = 1, , r 1; r2
< si j = r
(momentos de orden (r-1) son cero pero el r-simo momento es finito). Estos Kernels se
conocen como Kernels de orden superior (orden r). Para emplearlos debemos asumir
que la derivada de orden r es continua.
Se puede demostrar que Kernels de orden superior reducen su AMISE a O(n2r/(2r+1) )

el cual para r grandes es cercano a la tasa paramtrica de O(n1 ), ello al extender los
trminos en la expansin de Taylor). 3
Ejemplo:
Como se mencion, Kernels de orden superior pueden necesitarse para:
reducir el sesgo en muestras pequeas.
asegurar que la distribucin asinttica de (nh)1/2 (fb f ) esta centrado en cero.
as debemos generar Kernels cuyos r 1 momentos sean cero. Si r = 3 y K()=(a0 +

a1 + a2 2 )R () donde ()
R es una densidad NR (0,21), a0 , a1 , a2 deben determinarse
de modo que K()d = 1 y K()d = 0 = K()d.
Del hecho que los momentos impares de una normal (0,1) son cero y los pares son:

2j 2j 2j + 1
E =
2
3
La secuencia {xn } de nmeros se dice que es de orden nk , xn =O(nk ), si xn
nk
c mientras n
y c es constante.
tenemos que:
Z
K()d = 0 a0 + a2 = 1
Z
K()d = 0 a1 = 0
Z
2 K()d = 1 a0 + 3a2 = 0
donde las soluciones son: a0 = 3/2; a1 = 0, a2 = 1/2. As, el Kernel es:
1
K() = (3 2 )()
2
cuyos primeros momentos son cero. Este Kernel incluye una mezcla de polinomio de
grado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez de
sumar, datos lejanos se restan).
Otros Tipos de Kernels: bandwidth variable o estimadores de Kernel adap-

tativo
Puede la reduccin del sesgo lograrse sin tener que utilizar kernels de orden superi-
or?. La respuesta es SI al escoger diferentes h para xi . En general, si xi esta en una area
densa, hi deber ser pequeo; mientras las observaciones outlying debern recibir un
hi mayor. Hecho de manera correcta O(n8/9 ) puede lograrse con Kernels adaptativos,
no negativos (equivalente a kernels con r = 4). Pero, en la prctica, kernels adaptativos
son ms lentos que h uniforme y la teora es muy compleja.
2.2.2. Estimacin de Densidad II: Balanceo Exponencial

La funcin Kernel, a pesar de su popularidad y facilidad de uso, no permite repro-
ducir momentos mayores de las muestras observadas. Por ejemplo, medianas, intercuar-
tiles u otros similares no son posible de estimar utilizando Kernels.
Una forma novedosa y poco convencional de estimacin de funciones de densidad, es

una variante de aquella propuesta por Barron y Sheu (1991) conocida como Balanceo
exponencial (Exponencial Tilting).
Para ello definimos una funcin de densidad arbitraria f0 (x) como tambin tambin
(x) como un vector de funciones de x con una dimensin m (es decir, pensar en un
momento como E(x), E(x2 ), E(x3 ), si m=3); y t un vector de m parmetros. Consider-

emos la siguiente densidad:
et(x) f0 (x)
f (x; t) = R t(x) (2.5)
e f0 dx
Aqu t transforma f0 (x) en otra densidad. Ahora, suponga que utilizamos la densidad
f (x; t) como un modelo paramtrico de un conjunto de datos, con parmetro t descono-
cido y a ser estimado. El logaritmo de la densidad es:
Z
logf (x; t) = t (x) + logf0 (x) log et(x) f0 (x)dx
= t (x) + logf0 (x) K(t)
Donde el ltimo trmino de la derecha representa la funcin generadora de momentos

acumulada. Entonces el log-likelihood es:
n
X n
X n
X
logL(t) = log[f (x; t)] = t (xi ) + logf0 (xi ) n K(t)
i=1 i=1 i=1
La F.O.C para maximizar logL(t) con respecto a t:
n Pn
logL(t) X K(t) i=1 (xi ) K(t)
= (xi ) n o = (2.6)
t t n t
i=1
As la media de se define para que sea igual a K(t) t . Aquellos familiarizados con
funciones generadoras de momentos reconocern que la ecuacinP anterior plantea que
el estimador MLE de t es aquel donde Ef (x;t) (x) = n1 ni=1 (xi ), es decir que la
media poblacional de esta distribucin "t-tilde"se iguala a la media muestral para cada
componente de .
Ello se puede obtener del siguiente clculo:

Z
K(t)
= log et(x) f0 (x)dx
t t
R
(x)et(x) f0 (x)dx
= R
et(x) f0 (x)dx
Z ( )
et(x) f0 (x)dx
= (x) R t(x) dx
e f0 (x)dx
Z
= (x) f (x; t)dx
= Ef (x;t) (x)
la idea es obtener una representacin paramtrica que tiene la propiedades de la muestra

obtenida. Por ejemplo, si en la muestra =1 entonces:
1 = x 1 ; 2 = (x 1)2 ; 3 = (x 1)3 ; 4 = (x mediana)
En el trabajo original de Barron y Sheu las funciones base (x) eran secuencias de las
funciones polinomiales, trigonomtricas o spline y x fue reescalado para que estuviera
en el rango [0, 1]. As, tomando f0 (x) como la densidad uniforme sobre [0, 1], uno puede
usar polinomios ortogonales de la funcin uniforme para definir (x). Pero cuantas de
estas s deberan considerarse?. Si se sabe queR el logaritmo de la verdadera densidad
tiene r derivadas cuadrticamente integrables, ( |Dr logf (x)|dx < 0) entonces definien-
1 2r
do m = n 2r+1 alcanza una tasa de convergencia de fb a f igual a Op (n 2r+1 ) el cual es
similar al alcanzado por los Kernels adaptativos (o de orden superior)
Algunas Propiedades del Estimador de Balance Exponencial

Los datos solo entran en la construccin del estimador a travs de las medias mues-
trales de las funciones bases (x). En la prctica, de aplicaciones economtricas
construimos las funciones base de tal forma que tengan media cero y las denomi-
namos condiciones de momentos. Por ejemplo, (xi ) = x3i (x3 ) (el cual tiene
media cero) en vez de (xi ) = x3i .
La formulacin de fuera de la nocin estadstica de funciones "base"nos permiten

ser flexibles para imponer propiedades sobre la densidad estimada. Por ejemplo,
podemos imponer una condicin de mediana:
(x) = 1(x > ) 1(x < )
donde es la mediana a ser impuesta.
La eleccin del nmero de condiciones de momentos m a ser impuestas es anlogo

a la eleccin del bandwidth de la estimacin por Kernel. A menor m mayor es la
influencia de f0 (x) de la estimacin fb(x). A mayor m, mayor la influencia que
tiene la secuencia de momentos en la apariencia de fb(x). En el lmite, a medida
que m se acerca a n (tamao muestral) la funcin estimada tiende a reproducir
la distribucin emprica (no obstante cuando m = n los clculos colapsan).
Estimacin de Densidades Multivariadas

La extensin de la estimacin de densidad por Balance Exponencial para el caso
multivariado es simple: x ahora es multidimensional y (x) deber incluir momentos
como xa1 xb2 para pequeos valores de a y b, tambin como xa1 xb2 xc3 y as sucesivamente
(notar tambin que la media de x puede ser restada de las expresiones anteriores para
imponer condiciones de momentos). No obstante, a medida que la dimensin aumenta,
la integracin numrica que define K(t) se hace mas compleja.
En general, para todos los mtodos de estimacin incluidos el de Kernel, la dificul-

tad para obtener estimaciones de densidades precisas crece muy rpidamente con el
nmero de dimensiones.
Para el caso de funciones Kernel, la expansin a dimensiones mayores es bastante di-

recta:
n
X
1 zi z
fb(y, x) = fb(z) K1
n hq+1 h
i=1
donde x tiene dimensin q e y es un escalar.
La ecuacin anterior usa el mismo h para cada variable. Una prctica habitual es o
bien reescalar los datos componente a componente con el fin de obtener una varianza
unitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es uti-
lizar un Kernel normal multivariado con una matriz de covarianzas no diagonal donde
la eleccin natural para la matriz de covarianzas sera proporcional a la matriz de co-
varianzas muestral.
Por otra parte, la funcin Kernel multivariada K1 puede incluir la densidad normal
estndar multivariada o bien el producto de q + 1 kernels univariados. Sorprendente-
mente, Epanechmikov demostr que el Kernel normal multivariado ( y no el producto de
Kernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Kernels.
Cabe sealar que si tenemos fb(x) podemos manipularlo y obtener:

Z
fb(x) = fb(y, x)dy
o bien:
fb(y, x)
fb(y|x) =
fb(x)
y as sucesivamente. De esto ltimo se desprende que podremos calcular, entre otros

E(y|x) aunque no todos los estimadores no paramtricos de E(y|x) se obtienen de esta
forma.
2.2.3. Ejemplos de Estimaciones de Densidad

Densidad de Retornos Accionarios: (Pagan y Schwart 1990)
Uno de los primeros trabajos que utiliza la estimacin de densidades est relaciona-
do con los retornos mensuales de activos financieros entre 1834 y 1925, con un total de
1104 observaciones para xi . Despus de determinar los valores mnimos y mximos, un
grupo de 100 observaciones fueron seleccionadas las que pertenecan a este rango. La
figura 2.1. presenta la estimacin de densidad para estos 100 puntos para una funcin
Gaussiana :
1 2
K() = (2)1/2 e 2
y una Espanechnikov:
K() = 34 (1 2 ) si || 1
xi x
donde = h y h=n1/5
bx , con n=1104.
Se observa que slo hay pequeas diferencias entre estimadores sugiriendo que la elec-
cin entre tipos de kernel no es fundamental.
La figura 2.2 contrasta la densidad estimada con una Normal de una variable aleatoria
con la misma varianza muestral. Tambin se entrega la cota inferior del intervalo de
confianza al 95 %, el cual se calcula como :
(nh)1 ( 0,2821 fb(x))

R
| {z }
K 2 ()d
No hay duda de que la densidad es diferente a la Normal y una de sus caractersticas

principales es sus colas ms anchas y gran peak en torno al valor cero. Esto significa que
hay demasiados retornos o muy grandes o muy pequeos para que sean consistentes con
una distribucin Normal. Adicionalmente, pareciera ser que hay mas retornos positivos
que negativos dando una idea de que la distribucin no es exactamente simtrica.
Complementario a lo anterior, sabemos que :
Z
d
c))
(nh) 1/2
(fb E (f N 0, f (x) 2
K ()d cuando n
es decir, que asintticamente sera una Normal si (nh)1/2 h2 0 mientras n

pero sabemos que h = n1/5 x no cumple con este requerimiento y por tanto hay que
dar cuenta de este sesgo asinttico de alguna forma.
La utilizacin de Kernels de mayor orden puede ser una forma de solucionar este prob-
lema. En la Figura 2.3 muestra que el ajuste no mejora mucho existiendo un estimacin
con mas sinusoidales. Otra forma de solucionarlo es mediante Kernels adaptativos (ver
forma de estimacin en pg. 74 de Pagan y Ullah). Los resultados que se presentan en

la Figura 2.4 tampoco arrojan resultados satisfactorios.
Estimacin de Densidad Dickey-Fuller

Como se mencion, el output de experimentos de Monte Carlo pueden ser utilizados
para realizar anlisis no paramtrico particularmente cuando se desea tener una visin
completa de la densidad de un estimador en particular. Un caso interesante es el anlisis

de la densidad para el estimador del parmetro en un proceso autorregresivo de primer
orden cuando el verdadero valor del parmetro es la unidad. Esto es :
yt = yt1 + et donde = 1
Fuller (1976) entrega tablas para la densidad n(b

ols 1) las que son ampliamente uti-
lizadas para determinar el orden de integracin de una serie.
De esta forma, este experimento es estimar por Montecarlo la densidad n(b 1) con
n = 1000 series de yt , t = 1, 1000, y y0 y et obtenida de una N (0, 1). Si cada serie yt
(i)
es designada como {yt }1000i=1 , entonces:
"1000 # 1000
X (i) X (i) (i)
(i) 2
b = (yt=1 ) yt1 yt , (i) 1)
xi = 1000(b
t=1 t=1
y donde {xi }1000

i=1 .
La figura 2.5 muestra la estimacin de la densidad de n(b

ols 1) cuando = 1 usando
R
Gaussian y Epanechnikov kernels con h = 0,9An1/5 , donde A=min{ , 1,34 } = 0,31 y
bx = 3,47. Como se aprecia, existen pocas diferencias entre ambas.

2.2.4. Estimacin de Densidad Univariada por Balanceo Exponencial

Suponga que queremos construir una densidad g(x) con ciertas propiedades y cuen-
to con una estimacin preliminar o densidad "base"f0 (x) la que puede o no tener las
propiedades deseadas. En particular, las "propiedades"son condiciones sobre los mo-
mentos, las que pueden ser expresadas como:
Z
(x)g(x)dx = M (2.7)
donde asumiremos que el dominio de x es conocido (por ahora). Podemos reescribir la

ecuacin anterior como sigue:
Z Z
((x) M ) g(x)dx = 0 o bien (x)g(x)dx = 0
donde (x) es una condicin de momento construida deliberadamente (no confundir

con (x) = ( xx
h )) la que se iguala a cero. Notar que (x) puede tener una dimensin
i
m.
Considere:
e(x) f0 (x)
f (x; t) = R
e(x) f0 (x)dx
Definiendo:
Z
Mo (t) = et(x) fo (x)dx
Z
= et(x) f (x; o)dx
y, en forma similar:
Z
M (t) = et(x) f (x; )dx
Z
e(x) f0 (x)
= et(x) dx
M0 ()
Para hacer las cosas ms fciles, definamos:
logM0 (t) K0 (t)
Ahora, podemos definir en f (x; ) de tal modo que f (x; ) es la (o una) funcin g(x)
que buscamos. Estos requiere que:
Z
e(x) f0 (x)
(x) dx = 0 (2.8)
M0 ()
donde podemos observar el trmino anterior es idntico a K

0 ()
(ver notas anteriores).
K0 ()
De esta manera resolviendo = 0 para nos entrega valores para que tenga las
propiedades requeridas.
Para el caso univariado, suponga que tomamos una secuencia de funciones (x) y cal-
culamos su media muestral de forma de determinar . Si definimos (x) = (x)
y seguimos el procedimiento anterior para calcular f (x, ), entonces si se escoge ade-
cuadamente la secuencia (x) - la que incluye el nmero de funciones a medida que la
muestra aumenta, el estimador fb(x) = f (x; ) converge a la verdadera densidad a la

misma velocidad que los Kernels reducidores de sesgo, independientemente de la forma
escogida para f0 (x).
Ejemplos de condiciones de Momentos:
mediana: 1(x < ) 1(x > ) = 0

quantil: 1(x < ) (1 ) 1(x > ) = 0
2.2.5. Estimacin por Kernels: puntos adicionales
Deaton(1997), pg 174.
"....an adequate procedure is to consider a number of different bandwidths, to plot the

associate density estimates, and to judge by eye weather the plots are under smoothed
or over smoothed...there should also be some preference for undersmoothing when using
graphical methods; the eye can readly ignore variability that it judge to be spurious,
but it cannot discern features than have been covered up by oversmoothing".
Ejemplo prctico : log PCE (per capita expenditure) en Sudfrica
Este caso est ilustrado en el libro de Deaton, antes citado.
n
1X x xi
fbw (x) = vn K K = Epanechnikov
h h
i=1
vn : pesos normalizados (pesos normalizados por su suma, es decir que sumen 1).
Veamos algunos puntos respecto a estos grficos.

Posiblemente en la realidad sea como A pues estn incluidos blancos y negros con
claras diferencias en sus PCEs.
h0 s grandes o oversmoothing pueden esconder propiedades verdaderas de los datos.
Pero h0 s pequeos hacen que la serie tenga muchos saltos, quizs exagerando la
verdadera distribucin de los datos.
2.3. Estimacin de los Momentos Condicionales

2.3.1. Estimadores Tradicionales
Una vez revisado los aspectos generales de estimacin no paramtrica de una den-
sidad de probabilidades, el siguiente paso que debemos dar est relacionado con la
estimacin de funciones de momentos condicionales. Ello debido a que en general, los
modelos economtricos pueden ser visto como una funcin de momento condicional, en
particular como un valor esperado condicional. De esta manera, a diferencia de una
estimacin de densidad bivariada o multivariada nos interesa determinar la forma que
tiene la relacin entre un conjunto de variables x y su contraparte y. Con este fin,
adoptaremos la siguiente notacin:
Y = E(Y |X = x) + u = m(x) + u
donde, en general diremos que Y , X son variables aleatorias poblacionales y xi , yi

pueden ser ya sea variables aleatorias o valores particulares de la muestra dependiendo
del contexto.
En primer lugar, debemos notar que si tenemos valores repetidos de x, podemos prome-
diar los valores correspondientes de y para obtener un estimador de m(x). No obstante
2.3. ESTIMACIN DE LOS MOMENTOS CONDICIONALES 51
lo anterior, si no tenemos varias observaciones de x, podemos tomar valores muestrales

{yi , xi } donde xi esta cercano a x y promediar los y 0 s correspondientes. O bien, mas
sofisticado an, tomar un promedio ponderado de los y 0 s dependiendo cuan cerca esta
el correspondiente xi de x.
La idea en general, es analizar la estructura o dispersion que tienen los valores de y,

los cuales son obtenidos a partir de los x en relacin de como estn distribuidos dichos x.
Veamos esto formalmente. A la luz de lo anterior, podemos definir el valor esperado

de y condicional en x como :
Z
f (x, y)
m(x) = y dy (2.9)
f1 (x)
donde f1 (x) es la densidad marginal de X en x. Si sustituimos estimadores de Kernels,

los que se obtiene de la muestra, con ancho de ventana fijo h para f (y, x) y para f1 (x),
entonces obtenemos (despus de un tortuoso camino algebraico, p. 83-84 de Pagan y
Ullah), la siguiente expresin para el estimador de dicha esperanza condicional.
Pn x x
i=1 K yi
i
m(x)
b = Pn hx x (2.10)
i=1 K
i
h
el que se conoce como el estimador de Nadaraya-Watson.
Bajo este esquema, para estimar m(x) se pondera cada observacin yi en proporcin a
la contribucin que los x0 s de cada yi hacen para la estimacin de la densidad marginal
de X a x.
El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aque-
llos yi s que corresponden a xi en una vecindad de x.
Una generalizacin de esta idea es la de estimar m(x) de la siguiente forma:
n
X
m(x)
e = wni (x) yi (2.11)
i=1
donde wni = wn (xi , x). Si los wni son no negativos y suman 1, podemos pensar en ellos
como pesos probabilsticos.
Veamos esta situacin en el siguiente grfico donde se han considerado slo dos puntos.
yj
m(x)
yi
xi X xj
n
X
m(x)
e = wni (x) yi
i=1
ahora, si n=2, tenemos que :
= yi wn (xi , x) + yj wn (xj , x)

x x
K xihx yi + K jh yj
=
x x
K xihx + K jh
Pues bien, pensando ahora ms en el contexto de un modelo de regresin, donde la

especificacin tiene la estructura de una esperanza condicional, podramos pensar en
m(x) como una forma funcional conocida con parmetro . De esta manera, el estimador
OLS de se encontrara al minimizar la siguiente expresin:
n
X
(yi m(xi , ))2
i=1
De esta forma, podramos considerar el siguiente criterio:

n
X
wn i (x) [yi m(x)]2
i=1
mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos xi que
estn mas cerca de x. Si m(x) es considerado como un solo parmetro a estimar (pensar
en la constante en un modelo de regresin), entonces tenemos que:
n
X
wn i (x) [yi m]2 (2.12)
i=1
con una solucin teniendo una estructura como en (2.11) donde:

wn (x)
wni = Pn i
i=1 wni (x)
Notar, que lo que hacemos es tratar de estimar los para lo que necesitamos una
estimacin (en este caso no paramtrica) de la esperanza condicional. Para el caso
del estimador de Nadaraya-Watson los pesos para la estimacin de dicha esperanza
condicional son de tal forma que - al sustituir (2.12) en (2.14), escogemos los m de tal
forma de minimizar:
X
x xi
[yi m]2 K
h
Una extensin natural a esta forma de estimacin es la denominada "locally linear
regression". En sta se escoge m y con el fin de minimizar la siguiente expresin :
X n
x xi
[yi m (xi x)]2 K
h
i=1
De esta manera, mientras el estimador Nadaraya-Watson ajusta una constante a los

datos cercanos a x, el estimador LLR ajusta una lnea recta. Claramente, funciones ms
complejas, por ejemplo, polinomios de (xi x) pueden ser agregadas a esta formulacin
para as obtener "locally polynomial regression".
El siguiente grfico muestra una de estas LPR en que se han utilizados polinomios
de Hermite para aproximar la funcin.
f3(x)
f2(x)
1
f1(x)=1
donde, en esta caso, f1 (x) = 1, f2 (x) = a + bx y f3 (x) = c + dx + ex2 . As, la linea

continua se aproxima mediante una combinacin de las funciones fi (x).
Formalmente :
" q #
X
m(x) = E[Y |X = x] = G fk (xk )
k=1
con q=nmero de funciones
En el caso particular de utilizacin de polinomios de Hermite, se debe cumplir que

:
Z
f1 (x) (x) = 1
Z Z
f2 (x) f1 (x) (x) = 1 pero f2 (x) f1 (x) = 0
y as sucesivamente, donde se imponen condiciones de ortogonalidad entre las funciones

escogidas.
Entre las ventajas de los modelos de LLR podemos destacar las siguientes:
pueden ser analizados con las tcnicas de regresin estndar.
tiene las mismas propiedades estadsticas independientemente si xi son estocsti-

cas o determinsticas.
2.3.2. Estimacin de momentos condicionales mediante series

Una forma alternativa de estimar m(x) = E(y|x) es aproximar m(x) por una funcin
lineal de un vector z de dimensin M , con z = z(x) donde el conjunto de funciones z
se denomina "base". Elecciones obvias de la base pueden ser x, x2 , x3 , o similares
o bien varios sistemas de polinomios ortogonales (por ejemplo, los ya mencionados
Hermite). Una forma ms compleja son series trigonomtricas sin(kx), cos(kx) para
k = 1, ...., M/2.
En general, la idea es estimar en el modelo:

n
X
y= zik n + ui
i=1
PM
De esta manera, m(x) puede ser aproximada por m(x)
b = k=1 zk (x)k .
Esta forma "funcionaen el sentido asinttico si M crece en forma proporcional a n y si

m(x)
b se aproxima a m(x) suficientemente bien. Una sugerencia de base que funciona
bastante bien es una forma funcional flexible de series de Fourier donde las funciones
base tienen las siguientes formas:
sin(x1 + x2 ), sin(x1 + x3 ), sin(x1 x3 ),.....
sin(2(x1 + x2 )), sin(2(x1 + x3 )), sin(2(x1 x3 )),....

junto con trminos en cosenos y polinomios (ver Pagan y Ullah p.124-125).
En general, la aproximacin multivariada mediante series de Fourier tiene la siguiente

forma;
L X
X J
yi = [jl cos(jkl0 xi ) + jl sin(jkl0 xi )]
l=1 j=1
con kl0 vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J relacionados con M/2.
La idea central de esta forma flexible, desarrollada por Gallant (1981), es que dichas
series aproximan bastante bien m(x) para el caso multivariado. En particular bajos
ciertos supuestos (B1-B7, en teorema 3.9 Pagan y Ullah), se cumple que:
u1/2 [E(m(x))
b m(x)] 0 mientras n
con u = 2 (Z 0 (Z 0 Z)1 Z).

Conditional Moment Estimation

Tabla3.1. Multi-indices {kl } for q=3. K =3
k 1 2 3
(1,0,0) (1,1,0) (1,1,1)
(0,1,0) (1,0,1) (1,-1,1)
(0,0,1) (0,1,1) (1,1,-1)
(1,-1,0) (1,-1,-1)
(1,0,-1) (0,1,2)
(0,1,-1) (0,2,1)
(1,2,0)
(1,0,2)
(2,1,0)
(2,0,1)
(0,1,-2)
(0,2,-1)
(1,-2,0)
(1,0,-2)
(2,-1,0)
(2,0,-1)
Comparacin entre regresin paramtrica y no paramtrica:
1. No es posible calcular la esperanza condicional para valores de x donde la densidad

es cero. Si x no puede ocurrir no tiene sentido condicionar, y en su ocurrencia el
intento de calcular la regresin en estos caso implica dividir por cero.
2. No obstante, clculos para valores cercanos a cero pueden ser obtenidos pero con
intervalos de confianza (varianza) muy altos y por lo tanto, la imposicin ser
alta.
3. A diferencia de la regresin paramtrica, es imposible utilizar regresiones no

paramtricas para calcular predicciones fuera de la muestra.
4. La gran ventaja de la regresin no paramtrica es el hecho que no asume for-

ma funcional alguna permitiendo no solo que los datos .escojan"los parmetros
estimados sino que la forma de la curva tambin.
2.3.3. Sesgos en las regresiones usando Kernels
Existen dos fuentes de sesgos en una regresin mediante Kernel. Estos se ilustran
en el siguiente grfico.
Bandwidth m2
y3*
y2* m1
y3
y2
y1
x1 x2 xa xb x3
Sources of Bias in kernel regressions
Los puntos x1 , x2 , x3 estn igualmente espaciados y donde tenemos dos funciones de

regresin, a saber, m1 la que es una lnea recta y m2 una curva.
Partamos con el caso de la funcin m2. Dado el ancho de banda h los puntos x1 ,
x2 y x3 contribuyen a la estimacin de y2 . En consecuencia, este valor ser un promedio
ponderado entre y1 , y2 e y3 donde y2 captura la mayor parte del peso y con y1 e y3
tomando el mismo peso y con los pesos sumando 1.
Dado que la funcin de regresin es cncava, este promedio ponderado ser menor que
y2 y por lo tanto la estimacin estar sesgada hacia abajo. Si la verdadera funcin fuera
convexa, el sesgo ser hacia arriba; slo en el caso lineal no existira sesgo. No obstante,
el sesgo sera cada vez menor a medida que el tamao de la muestra aumentara ya que
el bandwidth ser cada vez ms chico y, en el lmite, slo x2 contribuir a estimar la
media condicional.
En consecuencia, transformaciones previas de los datos que tiendan a la linealizacin de

la relacin (como logs) sern tiles para eliminar esta clase de sesgo en la regresin por
kernel. Desafortunadamente, no todo el sesgo puede ser eliminado mediante un modelo
lineal.
Al considerar los valores extremos tambin cierto sesgo puede aparecer. Suponga que
x1 es el valor menor de las xs en la muestra. Cuando tratamos de estimar la regresin
por kernel en x1 , el promedio de los puntos vecinos slo incluirn aquellos que estn
a la derecha y por lo tanto existir un sesgo hacia arriba en la estimacin (si la regre-
sin tiene pendiente positiva). Un problema anlogo se observar en la otra parte de la
muestra. Este sesgo disminuye a medida que nos movemos de las puntas hacia el centro
pero si el bandwidth es amplio este sesgo puede ser distorsionador.
La pregunta que surge es, si a pesar de tener una relacin lineal, la cual evita el primer
sesgo ya discutido, cmo se puede eludir el segundo sesgo. La respuesta sera ampliar
la muestra (es decir, n ). Pero qu sucede si no podemos hacer esto en la prctica.
Una forma, es la ya discutida aproximacin utilizando series, pero existen otras, veamos.
Una forma es imponer una estructura de los momentos condicionales, el cual, entre
otras cosas nos ayuda a solucionar el problema del urse of dimensionality"que surge al
utilizar las aproximaciones por series.
Por una parte, existen un tipo de aproximaciones que se denominan Modelos Aditivos
Generalizados los que tiene la siguiente estructura :
q
X
yi = mj (xij ) + ui
j=1
donde mj son funciones de variables unitarias con E[mq (xq )] = 0 condicin necesaria
para su identificacin. Supongamos que el nmero de regresores q, es igual a 2.
m(x1 , x2 ) = m1 (x1 ) + m2 (x2 )
entonces, al aplicar valor esperado tenemos que:

Z Z
m(x1 , x2 )f (x2 )dx2 = {m1 (x1 ) + m2 (x2 )}f (x2 )dx
= m1 (x1 ) + 0
y de esta manera, estimadores de f (x2 ) y m(x1 , x2 ) entregan un estimador de m1 (x1 ).

Este procedimiento se puede realizar en forma anloga con el fin de obtener m2 (x2 ) y
as sucesivamente.
Por otra parte, si bien sabemos que :

Z
m1 (x1 ) = m(x1 , x2 )f (x2 )dx2
R
ya que m(x2 )f (x2 ) = 0 dado el supuesto de que E(m2 (x2 ))
P= 0. Entonces, m(x1 , x2 )
puede ser estimado en forma no paramtrica m(xb 1 , x2 ) = nj=1 wj (x1 , x2 )yj dejando
slo el problema de que hacer con f2 (x2 ).
Una forma de llevar a cabo esta ltima etapa es mediante el reemplazo de f (x2 ) por
una funcin determinstica f (x2 ) con la condicin que integre a la unidad.
De esta forma, finalmente, el estimador de m1 (x1 ) ser:

Z
mb 1 (x1 ) = m(x
b 1 , x2 )f (x2 )dx2
n
X Z
= yj wj (x1 , x2 )dF (x2 )
j=1
Xn
= wj (x1 )yj
j=1
R
donde: wj (x1 ) = wj (x1 , x2 )f (x2 )dx2 .
Otra forma alternativa de la estimacin de momentos condicionales es el modelo "Lineal

Parcial". Supongamos que la variable y depende nuevamente de dos variables aleatorias
x1 y x2 estructura que puede ser descrita de la siguente forma:
yi = x01i + g1 (x2i ) + ui
Dado que E(yi |x2i ) = E(x1i /x2i ) + g1 (x2i ), tenemos que:
yi E(yi /x2i ) = [x1i E(x01i /x2i )]0 + ui
donde puede ser estimado va OLS una vez que E(yi |x2i ) y E(x01i |x2i ) han sido
reemplazados por sus estimadores tipo kernel u otro similar. As, g1 (x2i ) puede ser
recobrado de la siguiente manera:
g1 (x2i ) = E(yi |x2i ) E(x01i |x2i )0
Notar la aparicin de en estas dos ltimas ecuaciones. Ello nos lleva al mundo de
la .estimacin semi-paramtrica", donde existen parmetros de inters econmico en un
modelo de caractersticas no paramtricas.
2.3.4. Ejemplos de aplicaciones de estimacin de momentos condi-

cionales
Habilidad y Salarios (Di Nardo y Tobias, JEP 2001
La pregunta esty relacionada en la forma en que la habilidad cognitiva, medida por
un aprueba estndar, y nivel de educacin, medida como el mximo nivel de educacin
alcanzado por los individuos entrevistados afecta al salario por hora (en logaritmos).
Con este fin, se realiza una estimacin por por kernel del tipo
yi = m(xi ) + ui
donde el estimador de m(x0 ) es denotado por o , el cual minimiza el siguiente problema

de mnimos cuadrados ponderados:
n
X
2 xi x0
mn (yi 0 1 (xi x0 )) K
0 ,1 h
i=1
Para este caso particular, la variable educacin, fue separada en 5 categoras y para la
variable habilidad cognitiva se creo una grilla de 20 puntos separados uniformemente
los que denotaban aquellos individuos desde 0,3 desviaciones estndar bajo la media de
esta variable hasta 1,5 desviaciones estndar sobre la media.
De esta manera se necesitaron cinco regresiones no paramtricas con el fin de describir

la relacin entre habilidad y (el log) de los salarios por hora al interior de cada grupo
educativo. Estos 5 valores estimados se agruparon de modo de graficar la esperanza
condicional del logaritmo de salario sobre el espacio habilidad-educacin.
Comentarios acerca de la estimacin realizada:

Con respecto al Bandwidth: el grfico de la izquierda se obtuvo con un h ptimo
de acuerdo con los criterios ya vistos. Aquel de la derecha es con h ms pequeo,
y por ende, ms "saltos".
Con respecto a los resultados: salarios suben a medida que la educacin sube
dado un nivel de habilidad; excepto en habilidad baja y educacin alta, lo que
es un problema de disponibilidad de datos ms que de inconsistencia econmica.
Tambin para niveles altos de educacin existen retornos crecientes a los niveles
de educacin ms bajos donde tiene forma de U invertida.
Otro ejemplo
Ahora bien, veamos resultados mediante el uso del modelo semi paramtrico par-
tially linear model entre otras cosas, para ver el aumento del curse of dimensionality y
los beneficios en trminos de ahorro de costos computacionales. Para ellos consideremos
este sencillo modelo:
yi = zi + m(xi ) + i
Una forma de estimar un modelo como este, es la siguiente:

(i) Ordenar los datos por valores ascendentes de x (aquellos que deseamos tratar no
paramtricamente). Calcular primeras diferencias de todos los datos ordenados.
(ii) Obtener un estimador de usando diferencias de las variables z e y [esto es :yi =

0 zi + ui ]
(iii) Ajustar la variable dependiente original yi al sacar el efecto de las variables z.
yi = yi zi0 0
(iv) Obtener una regresin lineal local no paramtrica usando yi y xi para obtener un
estimador de m.
Veamos una aplicacin prctica de este modelo para el cual se ha generado 300 puntos el
que incluye componentes paramtricos como tambin no paramtricos con la siguiente
estructura:
y = 2z1 + z2 + m(x) +
donde m(x) = 0,3exp[4(x + 1)2 ] + 0,7exp[16(x 1)2 ] y con N (0, 0,01In ).
Adems x es generado uniformemente en el intervalo [-2,2] y z1i N (0,5xi , 1) y z2

independientemente generado a partir de una t-student con 4 grados de libertad.
Los siguientes grficos muestran la verdadera as como los resultados de las variadas
estimaciones, concentrndose en la parte no paramtrica.
2.4. Estimacin Semiparamtrica de modelos de eleccin

discreta
Finalmente retornamos al punto que habamos dejado durante el primera seccin
de estas notas y que tena que ver con la estimacin de modelos con variable depen-
diente binaria. Recordando lo que se haba mencionado, los modelos analizados para
modelar la eleccin discreta descansan en forma importante sobre los supuestos que se
asuman acerca de la distribucin de los errores. Particularmente, dada la no linealidad
en los parmetros que resultan de escoger la funcin logstica o normal acumulada para
estimar, la violacin del supuesto acerca de la distribucin de los errores generarn al
menos estimadores ineficientes y en algunos casos inconsistentes (Amemiya, 1985).
Lo anterior motiv la bsqueda de especificaciones mas flexibles acerca de la distribu-

cin de los errores. El mundo no paramtrico ofrece una alternativa de solucin para
2.4. ESTIMACIN SEMIPARAMTRICA DE MODELOS DE ELECCIN DISCRETA63
estos casos.
No obstante lo anterior, vimos que si utilizamos especificaciones no paramtricas para

determinar valores esperados condicionales nos enfrentaremos al problema de la maldicin
de la dimensionalidad, el cual se agrava mientras mas regresores incorporamos en las
estimaciones.
Como vimos, una forma de salir al paso es realizar estimaciones del tipo semiparamtrica
pues as esquivamos este ltimo problema y nos concentramos en la variable de inters
aquella generadora del problema.
Retornemos a la estimacin paramtrica del modelo de eleccin binaria MEB el cual

utilizaremos como benchmark.
yi = x0i + ui
donde yi es la variable no observada o latente y el econometrista slo observa si y es
positivo o no (o yi es 1 o 0). Si asumimos que ui es i.i.d independiente de x, entonces:
P [yi = 1] = P [yi > 0] = P [x0i + ui > 0]
= P [ui > x0i ]
= F [x0i ] =: Fi
bajo la condicin que u esta simtricamente distribuido entorno a 0.4 .
Como vimos, cuando u se distribuye normal, F () es la distribucin normal acumu-

lada y el modelo se denomina Probit; cuando u es una distribucin logstica F () es
eu
(1+eu ) y el modelo se denomina Logit.
La funcin de verosimilitud para en ambos casos 5 viene dada por:

n
X
logL = {(1 yi ) log(1 Fi ) + yi logFi } (2.13)
i=1
con las condiciones de primer orden siguientes:

n
logL X Fi
= Fi1 (1 Fi )1 (yi Fi ) = 0 (2.14)

i=1
Alternativamente, podramos estimar el modelo no-lineal yi = F (x0i ) + ui , el cual

presume una forma funcional conocida para F (), por mnimos cuadrados no-lineales,
el cual tiene las siguientes condiciones de primer orden:
Xn
Fi
(yi Fi ) = 0 (2.15)

i=1
4
Si no deseamos imponer simetra, entonces P (yi = 1) = 1 F (x0i ) = g(x0i ))
5
y en general, para cualquier modelo de eleccin binaria
Una forma de interpretar las condiciones de primer orden del estimador mximo verosmil
es que en ellas se "pesan"las FOC del mnimo cuadrado no lineales (NLS) en forma
apropiada para corregir la heterocedasticidad presente del error (yi Fi ).
Es importante notar que F () es una funcin del escalar x0i ; de ah el nombre de

modelo ndice unitario (single-index model).
Debido a esta dependencia, la esperanza condicional est basada en este ndice x0i
y no en xi . Si fuera conocido, y deseramos estimar la probabilidad de una decisin
positiva (es decir, yi = 0 yi > 0) dadas las caractersticas del individuo xi , mtodos
no- paramtricos podran ser empleados para estimar dicha esperanza condicional al
usar yi y zi = x0i como datos (Notar que no se debera usar yi , xi pues no captarn la
naturaleza de ndice nico del modelo).
2.4.1. Normalizacin de los parmetros en un contexto semi-paramtrico.

En el mundo paramtrico, la escala de los errores se ha normalizado a 1 y una me-
dida de su ubicacin central.6 Si no deseamos imponer restricciones o supuesto alguno
sobre el error en el mundo no paramtrico, deberemos imponer, eso si, algn tipo de
normalizacin sobre los parmetros a estimar (despus de todo, menos restricciones so-
bre los errores no pueden incrementar el nmero de parmetros identificables).
La normalizacin ms conveniente (ver Pagan y Ullah) es imponer la condicin de

constante igual a cero y escalar el coeficiente de uno de las componentes de x como 1,
donde esta ltima variable escogida debe ser continua. As, tenemos :
x0i = x2i 2 + + xqi q

= 2 (x2i + x3i 1 + + xqi q2 )
= 2 v(xi , )
donde
v(xi , ) = x2i + x3i 1 + + xqi q2

con j = j+22
j=1, , q 2 y donde es identificable. Todo esto depender de si
se puede identificar correctamente una variable independiente continua con coeficiente
no-cero (es decir 2 6= 0). La funcin v(xi , ) es denominada el ndice y no tiene nece-
sariamente que ser lineal. Lo esencial es que la forma funcional entre los parmetros,
sea conocida y uno de estos parmetros puede ser normalizado a 1.
No olvidar que los modelos donde P (y = 1|x) = P (y = 1|v(x, ) se denominan modelos

de ndice nico (i.e. propensity score, el cual veremos mas trade en el curso !).
6
en logit y probit la medida se define como cero
Existen dos formas principales para evaluar semiparametricamnte, una al resolver

las condiciones de primer orden como (2.14) o (2.15), bien al maximizar (2.13) donde
F () y sus derivadas son reemplazadas por las estimaciones no paramtricas correspon-
dientes de la media de yi condicional en v(xi , ). El primero de ellos se denomina esti-
mador Ichimura (1993) y el segundo el estimador de Klein y Spady (1993) donde ambos
alcanzan el limite de eficiencia no paramtrica.7 .
2.4.2. Estimador de Ichimura: Mnimos Cuadrados Semiparamtricos

La idea central de este estimador es la siguiente:
yi E(y|xi ) = yi F (v(xi , 0 ))
= yi m(v(xi , 0 ))
donde F es desconocida y v es conocida, y 0 es el verdadero valor del parmetro . En

b puede surgir al aplicar mnimos cuadrados
consecuencia, un estimador de (es decir, )
a la siguiente expresin:
n
X
2
{yi m(v(x
b i , ))}
i=1
donde mb puede ser estimado, por ejemplo, por Nadaraya-Watson asumiendo una forma
funcional arbitraria para v. Aqu, m
b es el estimador no paramtrico de E(y|v(x, )).
Las condiciones de primer orden para son:

n
X m[v(x
b i , )]
(yi m[v(x
b i , )] = 0

i=1
La eficiencia de esta tcnica depende de la habilidad para estimar m[v(xi , )], es decir, de
la velocidad de estimacin. Ello impone ciertas restricciones sobre los anchos de banda h
si se utilizan mtodos de kernel. No obstante, si son bien seleccionados se podr obtener
consistencia n1/2 y normalidad. Esto es:
d
n1/2 (b 0 ) N (0, D1 V D1 )
con V = var(n1/2 v(0 , o ) (ver Pagan y Ullah p.280).
2.4.3. Estimador de Klein-Spady

Dado que v(x, ) tiene un coeficiente no cero en una variable continua, entonces posee
una distribucin continua, por ejemplo, f (v). Usando v para abreviar v(x, ) podemos
7
anlogo al lmite de eficiencia de Cramer-Rao (Pagan y Ullah p.277, 280)
escribir la siguiente relacin:
P (y = 1|x) = P (y = 1|v)
f (y = 1|v)
=
f (v)
f (v|y = 1) P (y = 1)
=
f (v|y = 1) P (y = 1) + f (v|y = 0) P (y = 0)
Todas las cantidades que aparecen en este ltimo trmino pueden ser estimadas; las
densidades condicionales por estimadores de densidad no paramtrica y las probabili-
dades incondicionales por las medias muestrales.
Usando Pb(y = 1|v) para denotar un estimador obtenido a partir de la sustitucin

de los estimadores anteriores, una forma funcional anloga al ML paramtrico puede
ser escrita de la siguiente manera:
n
X
logL = (1 yi )log(1 Pb(y = 1|v)) + yi log(Pb(y = 1|v)) (2.16)
i=1
Diferenciando con respecto a , tenemos :

!
n
logL X Pb(y = 1|vi ) h i1 h i
= Pb(y = 1|vi )1 1 Pb(y = 1|vi ) yi Pb(y = 1|vi ) = 0

i=1
De nuevo este estimador depender de la velocidad en la estimacin de P (y = 1|v). De

ser as, el estimador encontrado alcanzar el lmite de eficiencia NP.
Cmo se hace esto en la prctica?

Todos los estimadores se obtienen de procesos iterativos. En el caso de KSE,
(0)
primero se escoge un , digamos bks , el cual permite obtener f (v|y = 1 y f (v|y =
0). Notar que los estimadores de P (y = 1) y P (y = 0) se pueden obtener de la
muestra.
A partir de ellos se obtiene un Pb(y = 1|v) en cual se incluye en (2.16) y se

(1)
maximiza obteniendo bks .
(0)
Este ltimo se compara con bks y si es muy distinto se hace todo esto de nuevo.
Notar que en cada iteracin se deben estimar los kernels de vuelta ahora con
distintos v. En particular, para KSE:
n
X
1 v x0i bks
f (v|y = 1) = yi K
n P (y = 1) hn hi
i=1
n
X
1 v x0i bks
f (v|y = 0) = (1 yi )K
n (1 P (y = 1)) hn hi
i=1
con n siendo el nmero de observaciones, hn el bandwidth correspondiente y K el

kernel escogido.
Para extensiones del KSE ver Lee(95) especialmente en el caso de tener varias elec-
ciones (policotmica), aspecto que se ver en el captulo siguiente teniendo eso si, en
consideracin, que el KSE en estos casos no llega al lmite inferior NP.
Estimadores No Paramtricos Alternativos para los modelos de eleccin bi-

naria
Obviamente los dos estimadores anteriormente descritos no son los nicos que pro-
pone la literatura. Aqu entregamos una lista acotada de otros estimadores sugeridos
aunque no son muy utilizados en la prctica. Una revisin detallada de stos se pre-
senta en Gerfin (1996) los que sern discutidos como parte de la primera tarea del curso.
1. Manski: Maximum Score Estimator

Esta basado en la siguiente funcin objetivo:
n
X
Qn () = yi 1(x0i > 0) + (1 yi ) 1(x0i < 0)
i=1
el cual es n1/3 consistente, distribucin lmite no-normal y candidato natural para

hacer inferencia va bootstrap, la consistencia depende de F (0) = 0,5 (mediana).
2. Horowitz: Smoothed Maximum Score Estimator

La idea bsica es reemplazar la funcin indicador (1()) en el estimador de Manski
por una funcin suavizante la cual se acerque a la funcin indicador a medida que
n crece.
Captulo 3
Extensiones del Modelo Bsico
Una vez que ya hemos analizado con cierto grado de detalle modelos de eleccin
binaria, tanto en su dimensin paramtrica como tambin no paramtrica, en este cap-
tulo revisaremos algunas extensiones del modelo bsico binario. Comenzaremos con el
anlisis de datos grupales para luego continuar con modelos para situaciones con mas
de dos elecciones.
3.1. Anlisis de datos Grupales

En general, existen dos formas de analizar respuestas binarias. Una en forma individ-
ual, es decir, cada observacin esta formada por la respuesta del individuo y un vector
de regresores asociados a l [yi , xi ] la cual es la que hemos analizado hasta ahora. La
segunda alternativa es en forma grupal. Bajo este marco, los datos consisten en propor-
ciones de observaciones, los que se obtienen observando la respuesta de ni individuos,
todos ellos con los mismos valores para el vector de caractersticas x.
Existen a lo menos dos formas de estimar modelos de datos grupales. Un mecanismo es

mediante Mxima Verosimilitud y la otra es utilizando el estimador de Chi-Cuadrado.
3.1.1. Mxima Verosimilitud

Para este estimador, se asume que existen J clases de grupos de individuos donde
las caractersticas de stos x son las mismas al interior de cada clase, entonces se tiene
que :
P (yi = 1) = F (x0i )
pero cuidado, ahora xi es un conjunto de variables las que slo difieren entre grupos y
no al interior de ellos.
En forma anloga al caso individual, podemos definir la funcin de verosimilitud (en
69
70 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
logaritmos) para cada individuo, de la siguiente forma :

n
X
logL = yi log(F (x0i )) + (1 yi ) log(1 F (x0i ))
i=1
Ahora, si los x son constantes al interior de cada clase j entonces la funcin anterior
puede ser re escrita como sigue :
J
X
logL = pj log(F (x0j )) + (1 pj ) log(1 F (x0j )) (3.1)
j=1
Pnj
donde pj = n1j j=1 yi es la proporcin de respuestas igual a "1.en la clase j y con n1 ,
, nj el nmero de observaciones al interior de cada clase j. Notar que la suma del
MLE es solo sobre j trminos y donde F puede ser la Normal o la Logstica.
Ahora, dado que J < n tenemos lo que se denomina un modelo completamente satura-
do con J parmetros. Esto significa que para cada clase de x asignamos un parmetro
diferente. Por ejemplo, j con j = 1, ...J no imponiendo condicin alguna de cmo las
covarianzas entre los j pueden afectar las probabilidades.
De ser as, el log-likehood tiene la siguiente forma:
J
X
logL = [pj log(j ) + (1 pj ) log(1 j )] nj
j=1
donde bj M LE = pj . Ahora, supongamos que la verdadera probabilidad de que la clase j

tenga la experiencia del evento, sea j . Entonces, se tiene que :
j = F (x0j )
donde dim() = K con K < J. Si el modelo de datos agrupados es exitoso es porque

resume las J celdas o grupos en forma parsimoniosa como funcin de un nmero limi-
tado de variables x.
Una forma de probar esto es realizar un prueba de Razn de Verosimilitud entre el

modelo completamente saturado y el original (3.1).
X
LR = 2[ nj pj log(F (x0j )) + (1 pj ) log(1 F (x0j ))]
j
X
[ nj pj log(pj ) + (1 pj ) log(1 pj )]
j
el cual se distribuye 2[JK]

3.1. ANLISIS DE DATOS GRUPALES 71
3.1.2. Estimacin por mnimos 2

La idea es que en datos grupales debemos ajustar un nmero fijo de clases indepen-
dientemente del nmero de observaciones. No olvidar que en el caso individual el nmero
de observaciones crece en la misma proporcin que la muestra. La idea es transformar
la variable dependiente y usar Mnimos Cuadrados Ponderados (WLS). En la siguiente
tabla se presentan algunos modelos con sus formas funcionales correspondientes.
Varios modelos de minimos 2 para datos agrupados
Modelo Probabilidad Variable Dependiente Varianza()
pj (1pj )
Lineal pj = X pj nj
(1pj )
Log-lineal pj = exp(X) log(pj ) nj pj
pj (1pj )
Probit pj = (X) 1 (pj ) n(pj )2

pj 1
Logit pj = (X) log 1p j nj pj (1pj )
El procedimiento consiste en regresionar por OLS la variable dependiente de acuerdo a

la tabla y donde se utilizan como pesos, la inversa de la raz cuadrada de la varianza
dada en la ltima columna de la tabla.
No obstante, debemos recordar que al ser los coeficientes de ponderacin funciones

de parmetros desconocidos, stos se deben estimar previamente (dos etapas). Ello me-
diante un OLS en la primera etapa (sin pesos) donde los estimadores sern consistentes
pero no eficientes. Y luego, en la segunda etapa, con los pesos. Amemiya 1985: 275-280
demuestra que el estimador 2 de tiene las mismas propiedades que el estimador
MLE, esto es, E(pj ) = j con la misma varianza.
Una derivacin ms formal (ver Amemiya 275 Greene 769)
pj = F (x0j ) + j = j + j
j (1j )
donde E(j )=0 y V(j ) = nj

1 1 1 dF 1 (j )
F (pj ) = F (j + j ) F (j ) + j
dj
la ltima expresin corresponde a una expansin de Taylor en torno al punto j = 0.
Pero, sabemos que

F 1 (j ) = x0j
y adems se tiene que,
dF 1 (j ) 1
=
dj f (x0j )
luego se tinee que :

j
F 1 (pj ) xj0 +
fj
obtenindose as, el modelo de regresin lineal heterocedstico :
F 1 (pj ) = zi = x0j + uj
Fj (1Fj )
con E(uj ) = 0 y V (uj ) = nj fj2
Para el caso de logit (ver tabla anterior), si se sabe que :
exp(x0j )
j =
1 + exp(x0j )
entonces,
j
x0j = log
1 j
Un ejemplo
Veamos un ejemplo ilustrativo de la estimacin de modelos binarios con datos agru-
pados. Warner (1978) considera el problema de prediccin de desercin para los enlis-
tados en la marina de los EEUU. Para ello define las siguientes variables:
y = 1 si la persona deja la marina antes de terminar primer ao de enlistamiento.
y = 0 en otro caso.
Warner estima cuatro modelos alternativos:
(a) un modelo de probabilidad lineal con observaciones individuales.

(b) modelo de probabilidad lineal con observaciones en grupo.
(c) modelo logit con observaciones individuales.
(d) modelo logit con datos grupales.
La variable dependiente era si la persona se retir anticipadamente del programa; no

lo termin. En este estudio, las variables independientes son : aos de educacin, ha-
bilidad mental (Test AFQT), estado civil, edad y raza. La educacin se dividi en tres
categoras: menos de 12 aos, 12 aos y ms de 12 aos. El puntaje del test de habili-
dad se dividi en cinco categoras. La edad en tres categoras (menos de 18, 18 19 y
mas de 19 aos). Las distintas combinaciones de nivel de educacin, habilidad mental,
edad, raza y estado civil arrojaron un total de (3x5x3x2x2) 180 categoras o celdas en
las que los individuos pueden clasificarse. Estos son los datos grupales. La muestra con-
sisti en 30.000 individuos extrado de un total de 67.000 reclutas hombres durante 1973.
3.2. MODELOS CON MS DE UNA ELECCIN 73
Para la estimacin del modelo de probabilidad lineal se aplic el mtodo de correc-

cin de heterocedasticidad sugerido por Goldberger. No obstante, en los casos que la
estimacin de p por OLS es menor que 0, Warner usa un pb = 0,02, sugerido por Nerlove
y Press (1973). Si bien este ltimo procedimiento puede salir al paso del problema de
los pesos negativos en la estimacin por GLS de los , los problemas de interpretacin
del modelo como una de probabilidad an persisten.
En la siguiente tabla se presentan los resultados alcanzados para las cuatro especifi-
caciones empricas.
Comparacin entre los parmetros estimados: datos individuales y por grupos
Variable Lineal Individual Lineal Grupal Logit Individual Logit Grupal
Ed<12 -0.105 (17.04) -0.109 (14.14) -0.672 (21.23) -0.656 (14.42)
Ed>12 0.028 (3.88) 0.032 (3.79) 0.349 (4.51) 0.284 (2.87)
Mental group I 0.084 (9.95) 0.084 (9.65) 1.179 (9.32) 1.040 (6.00)
Mental group II 0.021 (3.96) 0.020 (3.09) 0.201 (4.50) 0.208 (3.6)
Mental group III -0.053 (7.70) -0.052 (6.20) -0.345 (7.71) -3.42 (6.00)
Mental group IV -0.098 (12.46) -0.097 (10.04) -0.581 (12.98) -0.571 (9.75)
Dependents -0.046 (4.82) -0.039 (3.61) -0.349 (5.52) -0.403 (5.21)
Age<18 -0.031 (4.16) -0.024 (2.56) -0.145 (3.24) -0.166 (3.14)
Age>19 -0.027 (4.30) -0.022 (3.51) -0.185 (4.13) -0.169 (3.24)
Race 0.027 (3.61) 0.037 (4.15) 0.136 (3.04) 0.081 (1.28)
Constant 0.881 (25.70) 0.882 (20.79) 1.959 (61.96) 1.950 (40.87)
N 30.000 137 30.000 137
(t values entre parntesis)
Como se observa, las variaciones entre el modelo estimado en forma grupal y aquel
individual son poco significativas. Notar, eso s, la menor cantidad de datos necesarios
para la estimacin de los datos en forma agrupada.
3.2. Modelos con ms de una eleccin

Hasta el momento nos hemos concentrado en modelos donde la variable dependi-
ente puede tener solo dos valores. No obstante, en la vida real nos podemos encontrar
con situaciones donde existan fenmenos que pueden ser descritos como procesos que
involucran mas de una decisin.
En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de una
eleccin, a saber: (i) individuos que tienen que tomar varias decisiones cada una de
ellas entre dos alternativas o bien (ii)una eleccin donde hay mas de dos alternativas
(ordenadas o no ordenadas).
Para el primer caso se aplica generalmente modelos probit o logit multietpicos mien-
tras que para el segundo caso se aplican los denominados multinomial logit cuando
las alternativas no tienen un orden pre establecido (no ordenados) o ordered probit
cuando el orden de las alternativas importa (caso ordenado).
Comenzaremos con la revisin de aquellos casos donde existen mas de dos alternati-
va de eleccin pero donde hay slo una eleccin. Como se mencion, en este caso existen
a lo menos dos situaciones:
1. donde las probabilidades de eleccin de cada alternativa dependen solo de las car-
actersticas de quien decide. Bajo esta situacin modelamos dichas probabilidades
con un Multinomial Logit (MNL).
2. donde adems de lo anterior, las caractersticas de las alternativas en s mismas

tambin influyen en la probabilidad de cada alternativa. Este caso ser abordado
por el Conditional Logit atribuible a McFadden (1976).
3.2.1. Modelos para alternativas mltiples no ordenadas

Multinomial Logit Model
Suponga que hay m categoras, donde pj con j = 1, ..., m las probabilidades asoci-
adas a la eleccin de estas m categoras. La idea detrs del multinomial logit es expresar
estas probabilidades en forma binaria. Esto es, la probabilidad de escoger una alterna-
tiva j o de no hacerlo. Veamos.
Sea:
p1
= F (10 X)
p1 + pm
p2
= F (20 X)
p2 + pm
pm1 0
= F (m1 X)
pm1 + pm
esto implica que:
pj F (j0 X)
= = G(j0 X) j = 1, 2, , m 1.
pm 1 F (j0 X)
ya que,
m1
X pj 1 pm 1
= = 1
pm pm pm
j=1
tenemos que:
1
m1
X
pm = 1 + G(j0 X) (3.2)
j=1
y entonces:
G(j0 X)
pj = Pm1 (3.3)
1 + j=1 G(j0 X)
Podemos considerar que las observaciones son obtenidas de una distribucin multino-
mial con las probabilidades dadas segn (3.2) y (3.3). Desde el punto de vista computa-
cional la distribucin logstica para el error hacen que G(j0 X) sea igual a exp(j0 X) y
entonces:1
0
ej X
pj = j = 1, 2, ...m 1 (3.4)
D
Pm1 0
con D = 1 + k=1 ej X
este modelo se conoce como multinomial logit.
Estimacin del MNL

Cada uno de los n individuos escoger la alternativa k con probabilidad dada por (3.4).
Si xi es el vector de observaciones para el individuo i, entonces pij con j = 1, 2, ...m 1
son las probabilidades para el individuo i de escoger j.
As yij = 1 si el individuo escoje la categora j y yij = 0 en otro caso. De esta manera,

la funcin de verosimilitud del MNL es la siguiente:
n
Y
L= pyi1i1 pyi2i2 pyim
im
i=1
transformando en logaritmos, la funcin tiene la siguiente estructura:

n X
X m
logL = yij logpij
i=1 j=1
donde i representa al individuo y j la alternativa.
Dado que :
exp(x0 j )
pij = Pm1 i j = 1, 2, ....m 1.
1 + k=1 exp(x0i k )
y tambin que :
1
pim = Pn1
1 + k=1 exp(x0i k )
1
aunque tcnicamente se puede asumir cualquier distribucin para u en el modelo y = 0 X + u
podemos obtener las siguientes expresiones ms simples:

pij
= pij (1 pij ) xi j, k = 1, 2, ......m 1
j
pij
= pij pik xi
k
pim
= pij pim xi
j
Entonces el score viene dado por:

n
X yik X yij
logL
= pik (1 pik ) + (pij pik ) xi
k pik pij
i=1 j=1
j6=k
n
X
= (yik pik )xi = 0
i=1
Pm
despus de simplificar y recordando que j=1 yij = 1, las ecuaciones del vector score
pueden escribirse como :
n
X
(yik pik )xi = 0 k = 1, 2, ....m 1 (3.5)
i=1
con una interpretacin anloga que el caso del logit simple.
Las ecuaciones en (3.5) son no lineales en k pues pik es una funcin no lineal de
todos los 0 s y en consecuencia se aplican mtodos numricos (i.e. Newton-Raphson).
Por su parte, la matriz de segundas derivadas se obtiene a partir de:
X n
2 logL
0 = pik (1 pik ) xi x0i
k k
i=1
X n
2 logL
0 = pik pil xi x0i
k l
i=1
La cual es negativa definida lo que asegura una nica solucin. La estimacin de sta
puede realizarse segn los mtodos ya vistos donde el estimador BHHH es un a alter-
nativa sencilla.
Finalmente, para la iteracin de las rutinas para encontrar los valores ptimos a partir
del score se pueden considerar como valores iniciales para obtener los 0 s aquellos re-
sultantes de los modelos logit simples para cada alternativa j bien los coeficientes de
una funcin discriminante.
Conditional Logit Model

Como se advirti, este modelo desarrollado por McFadden (1976) considera ciertas
caractersticas de las opciones (vista por los individuos) como los determinantes de la
probabilidades asociadas a cada eleccin, mas que las caractersticas de los individuos
en s.
Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo. Supon-
ga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valor
presente de ganancias potenciales, (ii) costos de entrenamiento sobre ganancias netas y
(iii) valor presente del tiempo en desempleo.
Sea yij : vector de valores de estas caractersticas para la ocupacin j percibida por
el individuo i.
As, la probabilidad para el individuo i de escoger la alternativa j viene dado por

la siguiente expresin :
exp( 0 yij )
pij = Pm 0
(3.6)
i=1 exp( yij )
Notar que en el caso del MNL (ecuacin 3.4), los pj tienen diferentes vectores de coefi-
ciente j . En cambio, en el conditional logit (ecuacin 3.6) el vector entrega el vector
de precios implcitos para las caractersticas. 2
Uno de los mejores usos de (3.6) es la de predecir la probabilidad que un individuo

decida por una alternativa en particular (tipo de trabajo), para la cual tenemos el vec-
tor de caractersticas de las alternativas yij .
Para el ejemplo anterior, un MNL modela la probabilidad de que un individuo con

caractersticas xi escoja el tipo de profesin i con i = 1, ....m, de la siguiente forma:
exp(j0 xi )
pij = Pm 0 (3.7)
k=1 exp(k xi )
Cabe sealar que en (3.6) el nmero de parmetros a estimar es igual al nmero de

caractersticas de las ocupaciones (alternativas). Pero en (3.7) el nmero de parmetros
a estimar es igual al nmero de caractersticas individuales multiplicadas por m 1
donde m es el nmero de alternativas. As, en (3.7) dado un nuevo individuo, podemos
predecir la probabilidad que escoja una de las m.
Por supuesto que uno puede combinar ambas cosas y escribir (3.6) y (3.7) como:
exp( 0 yij + j xi )
pij = Pm 0 0
k=1 exp( yij + k xi
2
Aunque se necesita un tipo de normalizacin por ejemplo que el primer elemento de sea igual a 1
donde la probabilidad de escoger la alternativa j por el individuo i depende de las

caractersticas del decisor xi y de las caractersticas de la alternativa j percibidas por
el individuo i, a saber yij .
Ejemplo
Veamos un ejemplo de un modelo conditional (tomado del caso 19.16 del Greene).
Hensher (1986) estima un modelo de eleccin de viajes urbanos para una muestra de
Sydney. Las cuatro elecciones eran: auto/conductor (C/D), auto/pasajero (C/P), tren
y bus. Para el modelo bsico, los atributos eran (1) constante especifica de C/D, (2)
una constante especifica de C/P, (3) una constante especifica de tren, (4) tiempo de
viaje, (5) tiempo de espera, (6) tiempo caminando, (7) costos de viaje, (8) costos de
estacionamiento, (9) nmero de vehiculos requeridos para la familia y (10) porcentaje
de los gastos de transporte cubiertos por fuentes que no sean de la familia. La muestra
consisti en 1455 observaciones. Un resumen de los datos se presenta en la siguiente
tabla.
Resumen Estadsticas
In-Vehicle In-Vehicle Walk Wait Number
Cost (dol) Time (min) Time (min) Time (min) Choosing
C/D 64.56 28.65 0.76 0.15 953
C/P 4.37 28.32 0.71 2.89 78
Train 98.23 43.84 10.50 8.37 279
Bus 81.61 38.15 7.47 7.11 145
Las estimaciones de los parmetros asociados a cada alternativa se presentan en la sigu-

iente tabla :
Parmetros estimados (t values entre parntesis)

(1) 0.8973 (4.86) (2) -2.2154 (-10.36)
(3) 1.3286 (9.10) (4) -0.0227 (-4.7)
(5) -0.1336 (-6.68) (6) -0.0672 (-5.44)
(7) -0.0063 (-5.03) (8) -0.0086 (-5.05)
(9) 0.4524 (1.83) (10) -0.0119 (3.71)
Log likelihood para =0, = -2017.1
Log likelihood at convergence=-598.2
A partir de la informacin anterior se pueden determinar las probabilidades asociadas

a la eleccin de cada alternativa junto a la prediccin sobre la cantidad de personas que
las escogen.
Probabilidades predichas y frecuencias
C/D C/P Train Bus
Probability 0.88625 0.03799 0.01390 0.06186
Predicted N 1290 55 20 90
Actual N 953 78 279 145
Nota Precautoria: Independencia de alternativas irrelevantes

Se haba sealado que en el multinomial logit y en el conditional logit los coeficientes
de las probabilidades eran independientes del resto de las alternativas. Esta caracters-
tica se conoce como la propiedad de independencia de alternativas irrelevantes.
En el ejemplo anterior, a la luz de los resultados presentados en la ltima tabla, pode-

mos concluir que existen C/D 0,89
bus = 0,06 14,8 a 1 mayores probabilidades de manejar un
auto propio en vez de tomar el bus.
Ahora bien, si la mitad de los autos que existen en el pas son nacionales (o azules)
entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o ir
en bus es ahora 7.4 a 1. Ello, ya que la relacin de 14 a 1 se mantiene, errneamente
podra asignarse el otro 7.4 al tren o como pasajeros en un auto.
Dicho de otro modo, si la utilidad relativa de viajar en auto versus viajar en bus es
alta, no necesariamente implica que la utilidad relativa de viajar en tren versus viajar
en bus ser alta tambin. Pero si dicha utilidad es alta entre un auto rojo versus bus
aumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a vi-
ajar en bus.
De esta manera podemos notar que en el MNL se asume que la eleccin entre dos
alternativas es independiente de las alternativas restantes. Especficamente se asume
que los trminos de error en la ecuacin de eleccin subyacente son independientes en-
tre s.
En general, la exclusin de variables irrelevantes genera ineficiencia pero no inconsis-

tencia. La hiptesis de independencia es consecuencia de la hiptesis inicial de que las
perturbaciones son independientes y homocedsticas.
Hausman y McFadden (1984) indican que si un subconjunto de alternativas posibles

es verdaderamente irrelevante, omitirlo del modelo no llevar cambios sistemticos en
los estimadores de los parmetros. Ahora bien, si son relevantes las alternativas y se
deja(n) fuera, entonces los parmetros sern inconsistentes obtenidos mediante el MNL.
Siguiendo el espritu de las pruebas de Hausman, se define el siguiente estadstico :
2 = (bs bf )0 [Vbs Vbf ]1 (bs bf ) 2[k]
donde :
s: conjunto restringuido.
f : conjunto de todas las alternativas posibles.
k: rango de la matriz [Vbs Vbf ]
Si no se puede rechazar la hiptesis de independencia de las alternativas irrelevantes,

ser necesario utilizar un modelo alternativo al logit multinomial ya que este ltimo
ser inconsistente. Existen a lo menos dos formas de resolver este problema. Una forma
es mediante un Probit Multivariado y la otra, es mediante la utilizacin de un Logit
Anidado (Nested Logit). Veamos cada uno de ellos.
Logit Anidado
El principio subyacente a este enfoque es modelar, de ser posible, la decisin entre
las alternativas como siguiendo un proceso de etapas consecutivas. Bajo este esquema,
se agrupan las alternativas en subgrupos permitiendo que la varianza sea diferente en
cada grupo, relajando as el supuesto de homocedasticidad del logit condicional, pero
manteniendo la hiptesis de independencia de alternativas irrelevantes dentro de cada
grupo. El modelamiento implica que el decisor puede escoger entre L subgrupos y luego
escoger entre una de las alternativas dentro del grupo, generndose una estructura de
rbol.
Eleccin
Rama 1 Rama 2
C1/1 C2/1 C1/2 C2/2
Cabe sealar que este modelo surge, generalmente, como modificacin de la especifi-
cacin estocstica del modelo logit condicional y no necesariamente como un modelo de
comportamiento.
Supongamos que tambin los datos estn formados por observaciones con atributos
de las alternativas yj|l y atributos de los conjuntos alternativos zl con l = 1, ....L
As:
0 0
e yj|l + zl
P [subramaj , ramal ] = pjl = PL Pj 0 yj|l + 0 zl
j=1 e
l
l=1
la cual puede ser escrita como pjl = pj|l pl donde

0
e yj|l
pj|l = Pj 0 yj|l
j=1 e
l
y
0
e zl +l Il
pl = PL
0 zl +l Il
l=1 e
P l 0y
donde Il = log jj=1 e j|l valor inclusivo de la l-esima rama y donde si l = 1, entonces
se recupera el modelo original.
La estimacin de un modelo logit anidado puede ser realizada por dos mtodos al-
ternativamente. En el primero de ellos, se estiman los considerando la eleccin dentro
de cada rama como un modelo logit condicional sencillo. As se calculan los valores
inclusivos de todas las ramas del modelo. Y luego, se estima y todos los parmetros
considerando la eleccin entre ramas como un modelo logit condicional con atributos
zl y Il . Este mtodo se conoce como mxima verosimilitud con informacin incompleta
(LIML).
La otra forma es utilizando toda la informacin disponible (FIML) donde la funcin

de verosimilitud viene dada por:
n
X
logL = log[P (subrama|rama) P (rama)]i
i=1
siendo esta ltima ms eficiente que la estimacin en dos etapas con Informacin Limi-
tada.
Veamos un ejemplo de aplicacin de Logit Anidado. Hesher y Greene (1995) reportan

estimaciones de un modelo de eleccin de modos de viaje entre Sydney y Melbourne,
Australia. La base de datos contiene 75 observaciones sobre la eleccin de cuatro alter-
nativas: Aire, Tren, Bus y Auto. Los atributos usados para este ejemplo son constantes
especificas de las elecciones y dos medidas continuas: CG, una medida de el costo gen-
eralizado del viaje y TTIME, tiempo de viaje. Adems se utiliza el ingreso del hogar,
HINC.
Se estima un modelo logit anidado con dos ramas: FLY=(aire) y GROUND=(tren,

bus, auto). Notar que una de las ramas tiene solo una eleccin, entonces la probabil-
idad condicional pj|f ly = pavin|f ly = 1. El modelo se estima por FIML y LIML como
as tambin con un conditional logit con cuatro alternativas a modo comparativo. Los
resultados encontrados se presentan en la siguiente tabla :
Nested Logit Models (Standard Errors in Perenthesis)
FIML estimates Unconditional LIML estimates
train 3.8895 (0.52374) 3.6630 (0.70882) 3.5029 (1.0511)
bus 1.0133 (1.5734) 0.84625 (0.97896) -0.03645 (1.4389)
gcost -0.0233 (0.01026) -0.01968 (0.007572) -0.07256 (0.02121)
ttime -0.066356 (0.01337) -0.06093 (0.015472) -0.02071 (0.02723)
air 3.8826 (0.1104) 3.3869 (1.1503) -1.8367 (0.7478)
hinc 0.02164 (0.01521) 0.02308 (0.01539) 0.03023 (0.01379)
0.7758 (0.24159) 1.0000 (0.0000) 0.05578 (0.11453)
logL -65.40806 -65.73624 -
logL0 -82.68496
Como se mencion, el LIML se estima en dos etapas. Hay dos pruebas acerca del
anidamiento. El LR entre las dos formas de estimacin -2(65.73-65.41)=0.65 resulta
ser bastante menor que el 2 crtico de 3.84. Y la segunda prueba basada en un test de
2
Wald del FIML con 2 = (0,77581)
(0,24159)2
= 0,861 entregando la misma conclusin.
Multinomial Probit
Una solucin alternativa al problema de la no independencia de alternativa irrele-
vantes es estimar un MP en el cual, las alternativas irrelevantes son generadas por una
distribucin normal multivariada interdependiente conjunta.
Veamos el caso de tres alternativas:
Y1 = V1 + 1
Y2 = V2 + 2
Y3 = V3 + 3
con Vj vector de atributos de la variable j.
Asuma que los residuos (1 , 2 , 3 ) tiene una distribucin trivariada normal con me-
dia cero y matriz de covarianzas .
2 2 2

11 12 13
= 12 2 2
22 2
23
2
13 232 2
33
Considere la probabilidad que la primera alternativa sea escogida:
P (Y1 > Y2 , Y1 > Y3 ) = P (2 1 < V1 V2 , 3 1 < V1 V3 )
si 21 = 2 1 , 31 = 3 1 , V12 = V1 V2 y V13 = V1 V3 .
Entonces 21 y 31 tiene una distribucin normal bivariada con matriz de varianza

y covarianza:

12 + 22 212 12 13 12 + 23
= 2
1 13 12 + 23 12 + 32 213
As la probabilidad de que la alternativa 1 sea escogida viene dada por:

Z V12 Z V13
P1 = f (21 31 ) d21 d31

donde f (21 31 ) tiene una distribucin normal bivariada con matriz de covarianza igual
a y media cero.
Para el caso de cuatro (4) alternativas terminaramos con la evaluacin de integrales

triples (tres variables).
Resumen
El siguiente cuadro nos permite contextualizar la discusin de los modelos que hemos
analizados hasta ahora y los que an nos quedan por analizar.
Probit
Logit
Dicotmica
Lineal
variable No y semiparamtrico
discreta
multinomial logit
no ordenada
conditional logit
Policotmica ordenada ordered probit
secuencial
En las siguientes lneas, tambin se resumen algunas propiedades ya discutidas para

modelos de multiples alternativas no ordenadas.
No ordenado:
Multinomial Logit: probabilidades de escoger alternativa j dependen de las caracters-

ticas del individuo i. Inters en estimar la probabilidad de que el individuo i escoja la
alternativa j: Yij =P
1 si i escoge j (j=1, 2, ....m). Denotaremos ij = E(Yij )=probabilidad
que i escoja j con j ij = 1.
MNL:
e(j +j xi )
E(yij = 1) = ij = Pm ( + x )
j=1 e
j j i
Theil Normalization 1 = 1 = 0 notar que e0 = 1 permite una interpretacin con-

veniente de los datos.
MNL(N ):
1
E(yi1 ) = i1 = Pm (j +j xi )
1+ j=2 e
e(2 +2 xi )
E(yi2 ) = i2 = Pm ( + x )
1 + j=2 e j j i
..
.
esta normalizacin permite expresar la probabilidad relativa de observar el resultado

j=2 en contraposicin a j=1.
i2
= exp(2 + 2 xi )
i1
bien:

i2
log = 2 + 2 xi
i1
mas general

ij
log = x0i (j n )
in
Conditional Logit Model: Incorpora a la probabilidad de escoger j por el individuo
i, las caractersticas de la opcin j junto a las caractersticas de i.
e(j +j xi +zi zj )
E(yij ) = ij = Pm ( + x + ) (3.8)
zi zj
j=1 e
j j i
Efectos Marginales en MNL y CLM:
MNL:
" K
#
j X
= j j k k
xk
k=0

= j j
donde K es el nmero de variables independientes y con j la probabilidad predicha de

obtener la escogencia de la alternativa j evaluada en la media del vector x. Notar que

puede suceder que xkj no tenga el mismo signo que k .
CLM:
j j
= j (1 j ) e y = j k e
zj zk
donde e es el vector de coeficientes estimados de (3.8).
Nested Logit: otra forma de salir al paso ante la situacin de rechazo de la hiptesis
de independencia de las alternativas irrelevantes.
Aqu "desarmbamos"la eleccin en varias ramas y asumamos que exista indepen-

dencia al interior de cada rama o grupos, pero no necesariamente entre grupos (ramas).
Aqu los datos estn conformados por observaciones con atributos de las alternativas
yj/l y atributos de los conjuntos de alternativas zl
0 0
e yj/l + zl
P [subramaj , ramal ] = Pjl = PL PJ 0 yj/l + 0 zl
j=1 e
i
l=1
que para la estimacin se utiliza la propiedad de que Pjl = Pj/l Pl .

Vimos los mtodos de LIML y FIML para estimar dichas probabilidades.
3.2.2. Modelos para alternativas mltiples ordenadas

A diferencia de los casos estudiados hasta el momento, en esta seccin consider-
aremos situaciones donde existe un orden natural entre las alternativas. Asumiremos
que existe una variable latente :
yi = x0i + i
donde la variable observada indica en cual intervalo o categora cae la variable y no

observada por el econometrista. Una forma de esquematizar el valor de la variable
observada es la siguiente :

1 si yi < 1 ;

2 si 1 yi < 2

..
yi = .

J si j1 yi 1 < 2 < . . . j1

| {z }
umbrales
el lgebra se simplifica bastante si se considera que:
0 = j = +
As, la variable dependiente observada puede ser definida de la siguiente forma :
yi = j si j1 yi < j j : 1...J
Para estos casos, se utiliza un modelo denominado Probit Ordenado para estimar esta
ecuacin donde se asume que los errores se distribuyen:
i N (0, 2 )
los que no son observables y luego deben ser estimados; es decir, son parmetros del
modelo.
Dado que los umbrales 0 s y los valores de y no son observados, la escala y origen
de y son arbitrarios. As, podemos llevar a cabo la siguiente normalizacin: =1 y
1 =0.
De esta manera, tenemos :
P [yi = j] = P [j1 yi < j ]

= P j1 x0i i < j x0i
= (j x0i ) (( j 1) x0i )
es decir,
P [yi = 1] = (x0i ) = 1 (x0i )

P [yi = 2] = (2 x0i ) (x0i )
..
.
P [yi = J] = 1 (j1 x0i )
Como en el caso de los modelos no ordenados, podemos definir arbitrariamente:

1 si yi = j;
yij =
0 si
Entonces el log-likelihood de la muestra viene dado por:

n X
X J

logL = yij log (j x0i ) (j1 x0i )
i=1 j=1
Las condiciones de primer orden son entonces:

n J
logL X X (j1 x0i ) (j x0i )
= yij
(j x0i ) (j1 x0i )
i=1 j=1
y tambin :
n J
logL X X 1(j = k) (j x0i ) 1(j 1 = k) (j1 x0i )
= yij
k (j x0i ) (j1 x0i )
i=1 j=1
Para el caso de las segundas derivadas -ver Maddala 1986:49, el Hessiano es negativo
definido, y por lo tanto, el mtodo de iteracin usado (i.e. Newton-Raphson) converger
al mximo global del log-likelihood.
Cabe sealar que la funcin de verosimilitud se debe maximizar con respecto a (,

2 , 3 , . . ., J1 ) es decir hay k + J 2 parmetros por estimar.
Los efectos marginales del modelo probit ordenado son los siguientes:
P [yi = j]
= (j1 x0i ) (j x0i )
xi
P [yi = 1]
= (x0i )
xi
P [yi = J]
= (j1 x0i )
xi
donde los dos ltimos casos son aquellos en el extremo de la distribucin. Si se asume
que el obtenido es positivo entonces el signo de estas derivadas ser negativo para el
primer umbral y positivo para el ltimo. Para aquellas categoras o alternativas en el
centro, el efecto es ambiguo. Veamos lo que ocurre grficamente para el caso de tener
tres alternativas ordenadas (i.e. dos umbrales).3
f(e)
y=0 y=1 y=2

-x'beta u1-x'beta e
P [y = 0] = 1 (x0 )
P [y = 1] = (1 x0 ) (x0 )
P [y = 2] = 1 (1 x0 )
3
aunque con la normalizacin slo queda un solo umbral por estimar.
El siguiente grfico ilustra los efectos marginales asociados al cambio en una de las
variables independientes xi .
f(e)
Del grfico anterior se observa que al aumentar una de las x manteniendo constante los
y equivale a desplazar la distribucin hacia la derecha. Si el asociado a esta x es
positivo, entonces inequivocamente P (y = 0) tendr menos masa y P (y = 2) aumen-
tar, no obstante en el medio el efecto no es concluyente Px
(y=1)
i < 0.
Ejemplo
El siguiente ejemplo muestra una aplicacin de un modelo de probit ordenado. Mar-
cus y Greene (1985) estimaron un modelo probit ordenado para estudiar como la armada
estadounidense asigna empleos entre sus reclutas. La armada intenta colocar a cada re-
cluta en el puesto de trabajo en el que vaya a resultar ms productivo. Los empleos se
dividen en tres grupos genricos: "de especializacin media", de especializacin alta y
de especializacin alta con conocimiento de energa nuclear.
Puesto que la asignacin se hace tanto de factores especficos de los individuos como de
las propias necesidades y criterios de la armada, se utilizo un modelo probit ordenado
con las siguientes variables explicativas: (1) FP=variable binaria que indica si el recluta
ha obtenido previamente algn diploma en un instituto de formacin profesional o no;
(2) EM=nivel educativo de la madre del recluta; (3) EX=calificacin obtenida en un ex-
amen de ingreso; (4) AE=aos de educacin del recluta; (5) CAS=variable binaria que
indica si el individuo estaba casado o no en el momento que se alist; (6) EDAD=edad
del recluta en el momento que se alist. La muestra obtenida fue de 5.641 observaciones.
La siguiente tabla muestra los resultados obtenidos.
Estimacin de la ecuacin de asignacin de empleos

Variable Estimador Estadstico La variable
Constante -4.34 - -
FP 0.057 1.7 0.66
EM 0.007 0.8 12.1
EX 0.039 39.9 71.2
AE 0.190 8.7 12.1
CAS -0.48 -9.0 0.08
EDAD 0.0015 0.1 18.8
1.79 80.8 -
Es lgico el enorme valor del estadstico t asociado a la variable EX, pues la Armada
tiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo.
Por otra parte, si se quieren obtener los efectos marginales de las variables continuas,
es necesario evaluar la densidad normal estndar en 0 x=-0.8479 y en 0 x=0.9421.
De esta manera podemos obtener las probabilidades estimadas, las que son (0,8479) =
0,198, (0,9421)(0,8479)=0.628 y 1-(0,9421)=0.173. Por su parte, las frecuencias
relativas observadas eran: 0.25, 0.52 y 0.23. Las dos densidades son (0,8479)=0.278
y (0,9421)=0.255. Por lo tanto, las derivadas con respecto a las tres probabilidades
con respecto a la variable EX, por ejemplo, son:
P0
= (0,278)0,039 = 0,01084
EX
P1
= (0,278 0,255)0,039 = 0,0009
EX
P2
= (0,255)0,039 = 0,00995
EX
Obsrvese que la suma de los efectos marginales es cero, lo que es consecuencia de que
la suma de las probabilidades sea igual a 1. Este enfoque no resulta apropiado para
evaluar el efecto marginal de una variable binaria. Podemos analizar el efecto de estas
comparando las probabilidades que se obtienen cuando la variable binaria se evala en
cada uno de sus dos valores posibles y las dems variables se evalan en sus medias
muestrales.
Por ejemplo, en la siguiente tabla se entregan los resultados que se obtienen para la
variable CAS.
Efecto marginal de una variable binaria.
0 x b b0 x P[y=0] P[y=1] P[y=2]

CAS=0 -0.8863 0.9037 0.187 0.629 0.184
CAS=1 -0.4063 1.3837 0.342 0.574 0.084
cambio 0.155 -0.055 -0.100
Test de Diagnstico para Modelos Probit Ordenados

El modelo de variable dependiente latente, yi , puede ser especificado como:
yi = x0 + i i N (0, 1)
La informacin observada nos da J intervalos en los cuales yi puede caer:

yi = j si j1 < yi < j j = 1, . . . , J
donde 0 = y j = . Para los datos de 1980 que son usados J=3, y para 1984
J=5. Dado que el vector x contiene una constante, el conjunto completo de no esta
identificado. La normalizacin 1 = 0 es adoptada. La log-likelihood est dada por:
J X
X
logL = log (j x0i ) (j1 x0i )
j=1 yi =j
Este modelo difiere del modelo de variable dependiente en grupos (GDV) considerado
por Stewart (1983) en donde j eran parmetros a estimar y no conocidos y constantes.
El test score de GDV fue derivado por Chester y Irish (1987).
Los errores generalizados para este modelo estn dados por:

(j1)i ji
E(yi x0i /yi = j, xi ) =
ji (j1)i
donde ji = (wij ) y wij = j x0i . Entonces los residuos generalizados o primer
momento de los residuos estn dados por:
(1) b(j1)i bji

ebi =
b ji
b (j1)i
donde (b) denota que el parmetro desconocido ha sido reemplazado por su estimacin
MLE.
La "threshold score contribution.est dada por:

ji
ji (j1)i si yi = j;

ij = ji
si yi = j + 1
ji (j1)i
0
para j=1, ....2.
Momentos condicionales de orden mayor para la variable latente pueden ser especifi-
cados en trmino de las funciones definidas por Stewart (1983) como:

w(j1)i
(j1)i wji ji
M i =
ji (j1)i
Los primeros cuatro momentos residuales son definidos como:
(1) 0i
ei = M
(2) 1i
ei = M
(3) (1) 2i
ei = 2
ei + M
(4) (2) 3i
ei = 3
e +Mi
El estadstico del test score reportado en este paper toman la forma de:
= 10 F (F 0 F )1 F 0 1
donde 1 es un vector de unos de dimensin n y F una matriz de orden n, cada fila

contiene la contribucin del score de todos los parmetros del modelo. es simplemente
n veces el R2 de una regresin de 1 sobre las columnas de F.
Test estadsticos:
Variable explicativas omitidas: El modelo general se asume que es:
yi = x0i + qi0 + i
donde q es de dimensin q y no incluye la constante. Un test score es construido para

la hiptesis nula de que =0, el test estadstico es de la forma de arriba, donde las
filas de F estn dadas por:
(1) (1)
Fi = (
ei xi , . . . , (J1)i , ei qi )
Bajo la hiptesis nula se distribuye como 2(k) .
Forma pseudo-funcional: forma modificada del test RESET (Ramsey), construido como
un caso particular del test previo donde qi contienen potencias de yi = x0i
Heterocedasticidad:
la varianza de se asume de la siguiente forma:
i2 = 1 + q/
las filas de F para el test score de que =0 son:

(1) (2)
Fi = (
ei xi , 2i . . . , (J1)i , ei qi )
bajo la hiptesis nula se distribuye como 2(k)
Normalidad:
Las filas de F en el test usual 2(2) para asimetra y/o Kurtosis estn dadas por:
(1) (3) (4)

Fi = (
ei xi , 2i . . . , (J1)i , ei , ei )
Heterogeneidad en los umbrales: bajo la hiptesis alternativa, los umbrales pueden vari-
ar sistemticamente sobre las observaciones.
ij = ej + q/j
y el test score puede ser construido para la nula de que j = 0, j=1, 2,.....,J-1. Las filas
de F en este caso estarn dadas por:
(1)
Fi = (
ei xi , 2i . . . , (J1)i , 2i qi , . . . , (J1)i qi )
Bajo la hiptesis nula se distribuye como 2k(J2)
3.3. Tpicos Especiales con Variable Dependiente Binaria

En este corto captulo revisaremos dos aspectos adicionales de modelos de eleccin
binaria. Uno de ellos es el conocido anlisis discriminante y el otro el modelamiento
mediante datos de panel de variables binarias. Si bien los aspectos de datos de panel
sern abordados en un captulo separado, se asume slo un conocimiento bsico de este
tema.
3.3.1. Anlisis Discriminante

El problema que se trata de modelar en esta situacin es el de clasificar un individuo
en una de las dos poblaciones posibles 1 2 basada en un vector de caractersticas X =
(x1 , x2 , ...., xk ). De esta forma, se utiliza una combinacin lineal de las observaciones:
y = 1 x1 + 2 x2 + . . . k xk
donde y es una variable binaria que representa si el individuo pertenece a un grupo en

particular. El objetivo entonces ser escoger los coeficientes, de tal manera de maximizar:
[0 (1 2 )]2
=
0
donde 1 y 2 son la media del vector X en ambos grupos y donde es la matriz de
varianzas y covarianzas en cada grupo, la cual se asume igual para ambos.
= 1 (1 2 )
Si los parmetros poblacionales no son conocidos, como generalmente ocurre, los parmet-
ros pueden ser estimados de la siguiente manera :
= S 1 (X 1 X 2 )

con
" #
1 X X
S= (X1i X 1 )(X1i X 1 )0 + (X2i X 2 )(X2i X 2 )0
n1 + n2 2
i i
donde X 1 y X 2 son las medias muestrales de cada grupo respectivamente.

3.3. TPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 93
Probabilidades previas y costos por clasificacin errnea

Sea p1 la proporcin del grupo 1 y p2 la proporcin del grupo 2 . Sea C1 el costo de
clasificar errneamente a un miembro de 1 en 2 y C2 el costo de clasificar errneamente
a un miembro de 2 en 1 . De esta forma, el costo esperado total CE viene determinado
por la siguiente expresin :
Z Z
CE = C1 p1 f1 (x)dx + C2 p2 f2 (x)dx
R1 R2
donde R1 y R2 son regiones de tal manera que si la observacin muestral cae en esta
regin, se clasifica al individuo en el grupo 1 o bien 2 respectivamente. Adicional-
mente, f1 (x), f2 (x) son las densidades de las distribuciones de caractersticas X en cada
una de las dos poblaciones.
Dado que:
Z Z
f2 (x)dx + f1 (x)dx = 1
R2 R1
entonces se tiene que el costo esperado total es :

Z
CE = C1 p1 + [C2 p2 f2 (x) C1 p1 f1 (x)] dx
R1
en consecuencia, el costo esperado total C es minimizado si se escoge una regin R1 tal

que se cumpla lo siguiente :
C2 p2 f2 (x) < C1 p1 f1 (x) (3.9)
o bien
f2 (x) C2 p2
> (3.10)
f1 (x) C1 p1
Ahora si X se distribuye normal con media 1 y 2 y covarianza , la misma para
ambas poblaciones, entonces se tiene que :

1
fi (x) = (2)n/2 ||1/2 exp (x 1 )0 1 (x 2 )
2
y en consecuencia:

f1 (x) 1
= exp (x 1 )0 1 x (1 2 )0 1 (1 + 2 ) (3.11)
f2 (x) | {z } 2| {z }
f (x) constante
y as, la condicin sobre R1 para que C sea minimizada queda determinada de la sigu-
iente forma :
C2 p2 1 0
0 x > ln + (1 + 2 )
C1 p1 2
ahora si 1 6= 2 , entonces la expresin anterior tiene la siguiente forma :

f1 (x) 1
ln = x0 (1 1 0 1 1
1 2 )x + x (1 1 2 2 ) + constante (3.12)
f2 (x) 2
la que es una funcin discriminante cuadrtica en X la cual se reemplazo en (27).
Datos no normales y discriminacin logstica

El modelo discriminacin lineal que hemos revisado descansa en los siguientes supuestos:
tanto f1 (x) como f2 (x) son normales multivariadas.
las matrices de covarianzas (1 = 2 ) son iguales.
las probabilidades p1 y p2 son conocidas de antemano.
las medias 1 , 2 y son conocidas.
Pero si sustituimos por los valores muestrales, los dos ltimos supuestos estn resueltos.
Si usamos la ecuacin (28) entonces el segundo supuesto tambin est resuelto. Veamos
que hacemos con el primer supuesto:
Por Bayes, sabemos que :

P (x|i ) pi
P (i |x) = i = 1, 2
P (x|1 ) p1 + P (x|2 ) p2
Si P (x|i ) es normal multivariada con media i y matriz de covarianzas entonces se

tiene que :
P (1 |x) P (1 |x) p1
= = exp( + 0 x) (3.13)
P (2 |x) P (2 |x) p2
con
p1 1
= log (1 2 )0 1 (1 + 2 ) (3.14)
p2 2
= 1 (1 2 )
lo que se obtiene de (29). De esta manera reemplazando en (31) se tiene que :
exp( + 0 x)
P (1 |x) =
1 + exp( + 0 x)
1
P (2 |x) =
1 + exp( + 0 x)
donde el modelo representado en la ecuacin (29) se conoce como modelo logstico, dis-
tinto de modelo logit).
Estimacin:
Sea :
yi = 1 si xi 1
yi = 0 si xi 2
entonces la funcin de verosimilitud vienen dada por la siguiente expresin :

Y exp( + 0 x) Y 1
L= 0
(3.15)
1 + exp( + x) 1 + exp( + 0 x)
yi =1 yi =0
Diversos autores sealan que si X no proviene de una normal entonces los estimadores
ML de (3.15) son preferibles a aquellos de una funcin discriminante ; ms an si X
son dummies ya que no es consistente. Cuando son ms de dos grupos los que se
analizan, el modelo es anlogo a un logit. Ver Maddala (p. 379) sobre si las muestras de
yi = 1 y yi = 0 son muy diferentes en tamao, lo que significa un ajuste en la constante.
3.3.2. Datos de Panel con Variable Discreta Binaria

Como se mencion, si bien los temas de datos de panel sern revisados mas adelante,
aqu analizaremos someramente la estimacin de este tipo de estructura de datos cuan-
do la variable dependiente es binaria. Partamos con un ejemplo presentado en Heckman
y Willis (1977) denominado : Participacin secuencial de mujeres en el mercado del
trabajo.
Sea yit = 1 si la persona i trabaja en el tiempo t e yit =0 en otra situacin. Por otra
parte, se define xit como el vector de caractersticas observadas de quien decide partic-
ipar en el mercado laboral o no.
De esta manera, se puede determinar P (yit = 1) = F (x0it ) con i = 1, 2, ...n para

un t fijo como la probabilidad que el individuo i decida participar. Como puede notarse,
aqu solo se especifica una probabilidad marginal para un t fijo y por tanto, se necesita
especificar la probabilidad conjunta P(yi1 , yi2 ,...yiT ) con el fin de dar cuenta de toda la
historia temporal de decisiones del individuo.
La forma ms simple de especificar la probabilidad conjunta es asumir independencia

entre las decisiones. De esta manera, la probabilidad conjunta de observar la historia
de decisiones viene dada por la siguiente expresin :
T
Y
P (yi1 , yi2 , ....., yiT ) = P (yit )
t=1
lo que representa un modelo de eleccin discreta igual a los ya estudiado, con la nica
diferencia que tenemos N T observaciones.
Cabe sealar que el supuesto de independencia implica lo siguiente :
P (yit = 1|yit1 = 1) = P (yit = 1)
o sea, una vez que obtenemos xit el que la seora halla trabajado o no en el periodo
anterior no nos dar ninguna informacin acerca de la situacin de hoy; poco sostenible
empricamente!!.
Existen a lo menos dos situaciones de porqu P (yit = 1|yit1 = 1) 6= P (yit = 1),

es decir que no sea creble el supuesto de independencia:
Heterogeneidad: existen variables no observadas para el econometrista las que

pueden afectar a las personas en forma diferente con respecto a tendencia a tra-
bajar.
Dependencia entre estados: para cada persona, el estado presente influye en el

estado futuro. Siguiendo la idea de cadenas de Markov.
Veamos cada una en forma separada.
Heterogeneidad
Para atacar el problema de la heterogeneidad no observable, supongamos el siguiente
modelo :
i = 1, . . . , n
P (yit = 1|ui ) = F (x0it + ui ) (3.16)
t = 1, . . . , T
asumiendo que los {yit } son serialmente independientes (sobre t) condicionales a ui ,
entonces se tiene que (descartando el subindice i):

E F (x0t + u) F (x0t1 + u) 0

P (yt = 1|yt1 ) P (yt = 1) = E F (xt + u)
E F (x0t1 + u)

COV F (x0t + u), F (x0t1 + u)
=
E F (x0t1 + u)
De esta manera, la probabilidad conjunta de {yit } con t = 1, 2, ...T viene dada por la
siguiente expresin :
(T )
Y 1y
P (yi1 , yi2 , ...yiT ) = Eui F (x0it + ui )yit 1 F (x0it + ui ) it
(3.17)
t=1
donde la funcin de verosimilitud del modelo es el producto de esta ecuacin sobre to-
dos los individuos i = 1, 2, ...n. Para ello se asume que {ui } son i.i.d sobre los individuos.
En general si F = y se distribuye normal, el clculo del valor esperado en (3.17) es

la nica alternativa computacionalmente factible, por ejemplo con n = 1500 y T = 10,
aunque muy demandante de tiempo de computador. Una forma mas simple de expresar
esta esperanza es como el producto y razn de funciones gama (Beta Logistic Model).
En este caso, sea :

i = 1, . . . , n
P (yit = 1|ui ) = ui (3.18)
t = 1, . . . , T
con ui distribuido beta, de la siguiente forma :
(ai + bi ) ai > 0
fi (ui ) = uai 1 (1 ui )bi 1 0 ui 1
(ai ) (bi ) i bi > 0
R
donde (z) = 0 xz1 ex dx.
Notando que {yit } son serialmente independientes condicionales a ui , y que la inde-

pendencia entre individuos existe, entonces se tiene que (omitiendo el subindice i) :
P (yt = 1, yt1 = 1) E(u2 )

P (yt = 1|yt1 = 1) = =
P (yt1 = 1) E(u)
| {z }
beta
donde
E(u2 )
> E(u)
E(u)
ya que E(u) est definido como P (yt = 1) donde se sabe que V (u) > 0. Heckman y
Willis sugieren que ai = exp(x0i ) y bi = exp(x0i ), donde xi es un vector de caracters-
ticas de los decisores el que no depende del tiempo para i.
As reemplazando en (3.18) se obtiene :
P (yit = 1) = [x0i ( )]
ello pues la media de una beta es (a + b)1 a. Si solo consideramos probabilidades

marginales, tenemos un modelo logit y en este sentido un modelo beta logstico en una
generalizacin del modelo logit.
Al maximizar la siguiente expresin :

n Y
Y T
L= [x0i ( )]
i=1 t=1
podremos obtener un estimador consistente de . Sin embargo, podemos estimar y

consistentemente y tambin ms eficientemente al estimar la funcin de verosimilitud
completa. Si la persona trabaj si periodos de un total de T entonces la funcin de

verosimilitud del modelo beta logstico viene dada por :
n
Y
L = E usi i (1 ui )T si
i=1
n
Y (ai + bi ) (ai + bi ) (bi + T si )
=
(ai ) (bi ) (ai + bi + T )
i=1
Pudiendo estimarse entonces , en forma ms eficiente. Cabe sealar, eso s, que an

persiste el problema acerca del supuesto de que los xi son independientes del tiempo.
Modelos con Heterogeneidad y dependencia de estado

En esta seccin generalizaremos an ms el modelo anterior incoporando no slo la
heterogeneidad, sino que tambin la dependencia del estado.
Para ello definiremos la siguiente relacin :

i = 1, . . . , n
P (yit = 1|ui ) = F (x0it + ui ) (3.19)
t = 1, . . . , T
donde se asume que existe una variable latente no observable la cual determina el
resultado observado para yit mediante la siguiente regla:
> 0;
1 si yit
yit =
0 si
Heckman 1981 sugiere la siguiente especificacin para este modelo:

yit = x0it + yi,t1 + vit
donde si existe dependencia de estado entonces 6= 0 y si existe heterogeneidad, habra
correlacin serial en {vit }. De esta manera el modelo especificado en (3.19) surge si
= 0 y adems si vit = ui + it con {it } serialmente independientes. Este modelo
restringido no solo asume que no existe dependencia de estado sino que tambin asume
una forma especial de heterogeneidad (one factor-model).
Por de pronto se asumir que que {vit } est serialmente correlacionado pero donde
{yit } se mantiene independiente entre individuos i. La funcin de verosimilitud por lo
tanto es el producto de las funciones individuales.
Formalmente,
1 si yi,t1 + x0it + ui + it > 0
yit =
0 si
donde ui iid(0, u2 ) y it iid(0, 2 ) sobre i y sobre t. Adems ui y it son indepen-
dientes y para cualquier (t, s), se tiene que xit es independiente de is .
Algunos comentarios:
el trmino yi,t1 representa la existencia de dependencia entre estados. Por lo

tanto, si >0, se tiene que :
P [yi,t |xi,t , ui , yi,t1 = 1] > P [yi,t |xi,t , ui , yi,t1 = 0]
por otra parte, x0it puede capturar parte de la heterogeneidad. Sin embargo,
aquella heterogeneidad no observada ser capturada por ui .
si existe heterogeneidad no-observada, esto es var(ui ) 6= 0 pero no se controla

por ella en la estimacin, el estimador de estar sesgado hacia arriba. Esto es,
concluiremos que toda la persistencia, una vez que controlamos por xit , se debe
a una "verdadera dependencia entre estadosuando ello no es cierto. De hecho,
puede que no exista tal dependencia.
Una importante diferencia con el modelo esttico es que tenemos una variable
explicativa yi,t1 la que no es exgena fuerte con respecto a uit . Es una variable
predeterminada: independiente de valores actuales y futuros de u pero dependiente
de valores previos de u.
Identificacin de Problemas entre Heterogeneidad versus Dependencia

Si tenemos un panel largo, esto es con muchas observaciones por individuo, el prob-
lema de identificacin entre heterogeneidad y dependencia sera trivial. El problema
radica en que generalmente este no es el caso.
Por ejemplo, cul de las siguientes historias de eleccin puede ser generada por un
modelo verdadero de dependencia entre estados?
A = {0, 0, 0, 1, 1, 1} B = {0, 0, 0, 1, 0, 0}
Historia A: con una verdadera dependencia entre estados esperaramos encontrar per-
sistencia en los dos estados. Con heterogeneidad esperaramos encontrar persistencia en
solo un estado.
De esta manera, necesitaramos a lo menos cuatro observaciones por individuo para

poder identificar estos dos efectos.
{0,0} {0,0,0} {0,1,0}
con T=2 {0,1} con T=3 {0,0,1} {1,0,1}
{1,0} {0,1,0} {1,1,0}
{1,1} {1,0,0} {1,1,1}
Captulo 4
Variable Dependiente Limitada
4.1. Introduccin
Dentro del trabajo emprico propiamente tal, existen muchos casos donde debido a
la forma en como recolectamos datos, disponemos de informacin incompleta acerca de
la conducta de ciertos elementos o unidades de la muestra. Si esta informacin faltante
fuera sistemtica entonces aquellos modelos economtricos que ignoren este hecho po-
dran estar sesgados. Veamos algunos casos donde este fenmeno ocurre.
Truncamiento: en este caso, la muestra est sistemticamente restringida a solo una

parte de la poblacin. Por ejemplo, una muestra puede solo incluir personas que estn
empleadas, o gente sobre una cierta edad. Ahora, el que el truncamiento sea importante
depender del tipo de pregunta que el investigador se haga.
Censuramiento (censura): este caso ocurre cuando la variable dependiente, pero

no as las variables independientes, son observadas dentro de un rango restringido. Bajo
esta situacin, todas las observaciones de la variable dependiente que estn en o bajo
el nivel lmite son tratadas como si estuvieran en el nivel limite.
Seleccin Muestral o Truncamiento Accidental: esta situacin combina aspec-

tos de las dos anteriores y ocurre cuando el proceso por el cual la muestra es truncada
influencia los parmetros del modelo estimando sobre la muestra restringida. Por ejem-
plo, supongamos que estamos interesados en examinar los determinantes de los salarios
de inmigrantes. El problema estriba en que los salarios son uno de los factores que ex-
plicara la decisin de migrar. Esto es claramente una forma de truncamiento, es decir,
la muestra solo incluye a inmigrantes, pero es una forma donde los factores que deter-
minan el truncamiento no son independientes de la conducta de la variable dependiente
dentro de la muestra truncada.
En los acpites que siguen revisaremos la forma de estimar modelos que incorporen
explcitamente estas situaciones. No obstante lo anterior, previo a esto revisaremos al-
101
102 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
guna propiedades de la distribucin normal que son fundamentales para entender los
problemas antes sealados.
4.2. Algunas propiedades de la distribucin Normal

Sabemos que si la variable aleatoria x N (, 2 ), entonces :
1 (x)2
f (x) = e 22
2 2
x
en el caso de que z N (0, 1) con z = , se tiene que :
1 z 2
(z) = e 2
2
Lo anterior permite determinar ciertas propiedades de esta variable aleatoria.
(z) = (z)
d(z)
dz = z (z)
h i
f (x) = 1 (x)
= 1
(z)
Ra
(a) = P (z < a) = (z)dz
(a) = 1 (a) = P (z a)
con estas propiedades a la mano discutiremos los aspectos problemticos mencionados

en la introduccin.
4.3. Truncamiento
Como se mencion, este fenmeno se observa cuando la muestra est restringida a
una parte de la poblacin de tal forma que slo observamos las variables X e Y dentro
de una rango restringido. Por ejemplo, si estamos interesados en examinar el efecto de
la escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingre-
sos altos. O bien, si examinamos los determinantes de los ingresos a nivel de hogares
usando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares, ya
que la primera incluye, por definicin, solo aquellos que estn trabajado o aquellos que
pagan impuestos.
Para analizar y con ello generar una forma de estimar un modelo cuya variable de-
pendiente tenga esta caracterstica debemos revisar las propiedades de una distribucin
truncada.
4.3. TRUNCAMIENTO 103
4.3.1. Propiedades de la Distribucin Truncada

La densidad de una variable que es truncada a partir de a viene dada por la siguiente
expresin :
f (x)
f (x|x > a) =
p(x > a)
esta definicin asegura que la densidad truncada sume uno sobre el rango restringido.
f(x)
-0.5 0.0 0.2 E(x/x>0.2) x

E(x/x>-oo) E(x/x>-0.5)
de esta forma sabemos que :

(a )
P (x > a) = 1

= 1 ()
esto ltimo se obtiene de la ltima propiedad de la distribucin normal ya vistas, donde

= a
.
As tenemos entonces :
f (x)
f (x|x > a) =
[1 ()]
1 (z) x
= con z =
[1 ()]
en el grfico anterior podemos observar que si el truncamiento es por abajo, la media
de la distribucin truncada ser mayor que la media de aquella sin truncar. Si ahora la
distribucin estuviera truncada por arriba, sera anlogo a lo anterior.
De esta forma, el valor esperado de una distribucin truncada tiene la siguiente for-
ma :
E(x|truncamiento) = + ()
donde,
()
() =
[1 ()]
si el truncamiento es del tipo x > a, o bien,
()
() =
()
si el truncamiento es del tipo x < a
En ambos casos, () se conoce como el inverse mills ratio ( hazard rate), la que
est asociada a la probabilidad condicional de observar condicional en que est
en la muestra. En otras palabras, mide el grado de ajuste requerido para la media sin
truncar .
Por otro lado, la varianza de la distribucin truncada viene determinada por la siguiente
expresin :
V (x|truncamiento) = 2 (1 ())
donde
()
() = con 0 < < 1
[() ]
lo que implica que la varianza de la distribucin truncada siempre es menor que aquella
de la distribucin sin truncar.
En general, nos referimos al truncamiento en trminos del grado de truncamiento, lo que

representa la probabilidad de que x sea menor que a. Si el valor de a aumenta el grado
de truncamiento aumenta ya que la probabilidad de que x sea menor que a aumenta.
As, una mayor proporcin de la distribucin se descarta y por consiguiente la media
de la distribucin truncada aumenta.
E(x/x>a)
0
P(x>a)
4.3. TRUNCAMIENTO 105
4.3.2. Regresin Truncada

Una vez definido el truncamiento y las propiedades de una distribucin truncada,
analizaremos a continuacin la forma de estimacin de un modelo en que la variable
dependiente tiene esta caracterstica. Para ello definiremos la siguiente regresin :
yi = xi + i i N (0, 2 )
donde si yi es truncada de algn modo, sabemos que:
(a xi )
E(yi |yi > a) = xi + i (i ) con i =

No olvidar que a es el punto de truncamiento y i es el valor estandarizado (pero no es
la constante del modelo la cual esta incorporada en x).
De esta manera, el valor esperado de yi viene dado por la siguiente forma :
[(a xi )/]
E[yi |yi > a] = xi +
1 [(a xi )/]
expresin que sugiere que la media de la distribucin truncada es una funcin no lineal
de x, y y el punto de truncamiento a.
A partir de la frmula de la varianza se puede determinar que:
V (yi |yi > a) = 2 [1 i (i )]

i (i )
con (i ) = [i (i )i ] y adems 0 < i (i ) < 1,
donde i (i ) = (i )/(1 (i )) es el inverse Mills ratio.
4.3.3. Efectos Marginales

Para el caso de un modelo de regresin truncado, los efectos marginales pueden ser
obtenidos de la siguiente manera :

E[yi |yi > a] i i
= j +
xj i xj

j
= j + 2i i i

= j (1 2i + i i )
= j (1 (i ))
ya que (i )) < 1, , el efecto marginal de un cambio en xj sobre E(yi ) cuando yi

tiene una distribucin truncada es siempre menor que el correspondiente a j .
Tambin es importante notar que si estamos tratando de realizar inferencia sobre la

sub-poblacin entonces el parmetro relevante es j (1 ()). Ahora, si el inters est
sobre inferencias concernientes a toda la poblacin, entonces el coeficiente relevante ser
.
verdadera
+
+ + + OLS
+ +
+ + +
+ +
+ +
a
(+) (+)
(+) (+) (+): no observado
(+)
(+) (+) + : observado
Del grfico podemos notar que ajustando un OLS a los datos truncados (muestra trun-
cada) sesgar los coeficientes hacia cero. 1
4.3.4. Estimacin:
Como se mencion, si estimamos el siguiente modelo :
yi = xi + i i N (0, 2 )
por OLS, pero usando una muestra truncada, entonces tendramos un problema de ses-
go por omisin de variable (el inverse Mills Ratio) relacionado con el truncamiento. As
los s estarn sesgados y sern inconsistentes.
Mas an, dado que el trmino de error en el modelo OLS est tambin truncado (es
decir, es una funcin de ) entonces el modelo anterior tendr un trmino de error
heterocedstico con la siguiente estructura :
V (i ) = 2 (1 2i + i i )
el cual es una funcin de xi (ya que i es funcin de xi ).
Una forma alternativa de estimacin es por Mxima Verosimilitud. Dada la funcin

de densidad de yi , entonces se tiene que :
1
[(yi xi )/]
f (yi |yi > a) =
1 [(a xi )/]
1
el caso de truncamiento por arriba es anlogo
4.4. DATOS CENSURADOS 107
y en consecuencia, en logaritmos tenemos que :

n n
n 2
1 X 2
X a xi
logL = log(2) + log 2 (yi xi ) log 1
2 2
i=1 i=1
Maximizando con respecto a y 2 se obtiene lo siguiente :
logL X yi xi i
= xi = 0
2
i
logL X 1 (yi xi )2 i i

= 2+ =0
2 2 2 4 2 2
i
(axi ) (i )
donde i = y i = 1(i ) .
4.4. Datos Censurados

Como se haba mencionado, en este caso observamos el vector de variables indepen-
dientes x sobre todo el rango pero la variable dependiente y slo es observada sobre un
subconjunto restringido de valores de la distribucin. Por ejemplo, el gasto del hogar en
bienes durables (Tobin 1958) u horas dedicadas al trabajo en Investigacin y Desarrollo.
Notar que el sesgo introducido mediante la restriccin del rango observado para y ser
serio si la probabilidad de que y caiga por debajo del umbral no es despreciable.
f(y)
toda la probabilidad se concentra

. en un punto
a u y
Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo trunca-
do (muestra truncada). Por lo tanto, debemos entonces ver un mtodo para incorporar
la presencia de censura. El problema de sacar los datos es que se pierde informacin
importante. Con este fin primero estudiaremos la distribucin de probabilidades cuando
la variable analizada presenta censura.
4.4.1. Distribucin Normal Censurada

Veamos nuevamente el modelo de variable latente:
y N (, 2 )

a si y a;
y=
y
en este caso y es slo observable para los valores sobre el umbral a. La distribucin de
una variable censurada puede pensarse como la combinacin de dos partes. La primera
es un componente discreto la cual otorga todo el peso del componente censurado de la
distribucin en un slo punto. En cambio, la segunda comprende el componente contin-
uo para el rango de valores de y para el que existe una distribucin (truncada).
As, el valor esperado de esta variable aleatoria esta compuestos por dos partes :
E(y) = P (y = a) E(y|y = a) + P (y > a) E(y|y > a)

= P (y a) a + P (y > a) E(y|y > a)
= () a + [1 ()] [ + ()]
(a)
donde = y () es el Inverse Mills Ratio.
4.4.2. Modelo Tobit

En general, los modelos que tratan muestras censuradas se denominan modelos de
regresin censurada donde el punto de censura puede cambiar entre observaciones. El
Modelo Tobit (Tobins Probit Model) opera bajo la idea de que existe un nico punto
de censura el cual es fijo y generalmente normalizado a cero.
La estructura del modelo es la siguiente:
yi = xi + i i N (0, 2 )
yi =0 si yi 0
yi =1 si yi > 0
donde la media esta dada por: (aqu se asume que a = 0):
E(yi ) = P (yi = 0) E(yi |yi = 0) + P (yi > 0) E(yi |yi > 0)
Veamos con mas detencin esta ltima expresin:
si a = 0 entonces se tiene que E(yi |yi = 0) = 0
y en consecuencia, E(yi |yi > 0) = xi + i

donde:
[(0 xi )/]
i =
1 [(0 xi )/]
(xi /)
=
(xi /)
por otro lado, se tiene que:
P (yi > 0) = P (xi + i > 0)

= P (i > xi )
= P (i < xi )
= (xi /)
Combinando los puntos anteriores se tiene que el valor esperado de yi viene dado por
la siguiente expresin :
E(yi ) = P (yi > 0) E(yi |yi > 0)

xi
E(yi ) = [(xi + i )]

donde:
(xi /)
i =
(xi /)
4.4.3. Efectos Marginales

En general, los efectos marginales dependern si estamos interesados en saber algo sobre
la media en la distribucin censurada o los coeficientes del modelo latente. Por ejemplo,
si tomamos el caso de los salarios de reserva, debemos preguntarnos si queremos estimar
el cambio en las ganancias y en la educacin (sea xj ) para solo los que trabajan (muestra
censurada) o bien la relacin entre educacin y ganancias (esperadas) para toda la oferta
de trabajo.
E(yi |xi )
= j (xi /)
xj
| {z }
parte censurada
E(yi /xi )
= j
xj
| {z }
toda la poblacin
As, si xj aumenta (educacin medida como nmero de aos en el colegio) primero

afecta la media condicional del valor de y en la parte positiva de la distribucin. El se-
gundo efecto es que un aumento en xj va aumentar la probabilidad de que la observacin
caiga en la parte positiva de la distribucin.
verdadera
+ OLS muetra
censurada
+
+ OLS
+ +
+ + muestra
+ + truncada
+ +
(+) (+)
(+) (+)(+)
(+)
4.4.4. Estimacin Tobit

Considerando una distribucin normal para los errores, la funcin de verosimilitud para
el modelo Tobit tiene la siguiente forma :
X 1 (yi xi )2
X
xi

2
logL = log(2) + log( ) + + log 1
2 2
yi >0 yi =0
La cual es una mezcla de observaciones con distribucin continua (no censurada) y ob-
servaciones con distribucin discreta censurada. Esta es una expresin compleja pero
manejable. Generalmente, los estimadores OLS se reportan tambin con fines compar-
ativos.
Del grfico anterior se puede observar que los parmetros OLS son menores en valor
absoluto, a aquellos obtenidos por MLE. Resultados empricos sugieren que los esti-
madores MLE pueden aproximarse al dividir los estimadores OLS por la proporcin de
observaciones no limitadas en la muestra.
No obstante, existe una forma ms adecuada de corregir los estimadores OLS cuando
los datos son censurados: mtodo de Heckman en dos etapas, el cual discutiremos con
ms detalle en "sesgo de seleccin".
4.4.5. Residuos Generalizados

Al igual que en los modelos de eleccin binaria, el supuesto de la distribucin de los
errores as como tambin la presencia de heteroscedasticidad y autocorrelacin generan
estimadores inconsistentes. Como se discuti anteriormente, ello se debe a la no lineal-

idad presente en este tipo de modelos.
Dado esto, se desarroll una batera de test basados en los residuos generalizados de las
estimaciones mximo verosmiles las que ahora se explican para el caso de un modelo
Tobit.
Sabemos que E(yi ) = x0i y adems que las esperanzas condicionales son:
(i)
E(yi |yi = 0) = E(yi 0)

= x0i + E(i |x0i + i 0)

0 i x0i i
= xi E |

0
= xi (i )
con:

x0i

(i ) =
x0i
1
(ii) Adems, E(yi |yi > 0) = yi
Uniendo ambos trminos se tiene lo siguiente :

yi si yi 6= 0;
i = E(yi |yi ) = 0
xi i si yi = 0
o bien, como una forma alternativa de re escribirlo, se tiene :
i = Di yi + (1 Di ) (x0i i )
donde
1 si yi > 0;
Di =
0
De esta manera, los residuos generalizados del modelo Tobit vienen dados por la sigu-
iente expresin :
0 yi x0i si yi 6= 0;
i = i xi =
i si yi = 0
La funcin de verosimilitud asociada a estos residuos, tiene la siguiente forma :
Xn 0
yi x0i xi
logL = Di log log() + (1 Di ) log 1

i=1
A partir de esta expresin se pueden obtener los primeros momentos de los residuos los
cuales tienen la siguiente forma :
(1) i
ei =

! !
y x0 2 x 0
(2) i i i i
ei = Di 1 + (1 Di )

!3 !2
0
yi xi 0
ei
(3)
= Di i 2 + xi
(1 Di )

! ! !3
y x0 4 x0 x0
(4) i
ei = Di i
3 + (1 Di ) i 3 i
+ i

4.4.6. Pruebas basadas en el Score

Siguiendo los aspectos metodolgicos discutidos para el caso del Probit, en lo que sigue
se discuten algunas pruebas basadas en el score para el caso particular del modelo de
censura Tobit.
1. Variable Omitida:
Se asume que el modelo correctamente especificado tiene la siguiente forma :
yi = x0i + zi0 + i
donde la prueba nula, acerca de la inclusin de una variable relevante es Ho: = 0

1 Pn
donde logL
= 2 i=1 i zi
En general, para el caso del Tobit, se tiene que :

n
X
logL yi x0i xi
= Di + (1 Di )(i )

i=1
n
1 X
= i xi
2
i=1
a diferencia del caso Probit el vector de score incluye adicionalmente un trmino

con respecto a y por lo tanto debe ser este incluido en las pruebas de hetero-
cedasticidad y/o normalidad mediante el segundo momento de los residuos.
Como en el caso de probit, para probar variable omitida definimos el siguiente

estadstico:
c0 R(R0 R)1 R0 c 2(p) p : #restricciones

donde c es un vector de unos con dimensin n y por su parte R una matriz cuya
(1) (1) (2)
ei x0i , ei zi0 , ei ), el cual se obtiene al regresionar c sobre R. Si se trata
fila i es: (
(1)
de una sola variable omitida, el estadstico de student asociado a ei zi0 al cuadrado
es el 21 necesario para la prueba. Recordar que:
(1) i
ei =

( (1)
(2) ei ]2 1 si y > 0;
[
ei =
i xi
0

si y = 0
2. Heterocedasticidad: aqu se aplica la misma idea que el caso anterior pero ahora
(1) (2) (2)
ei x0i , ei , ei zi ) si se asume que el modelo
la fila i del vector R es la siguiente : (
es:
yi = x0i + i
h(zi0 )
con 2 = h(zi0 ) donde =0
= zi . Por ejemplo, exp(zi ).
3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de la
distribucin de los errores generalizados. Veamos esto en detalle.
Tercer momento:

i 3
E |yi = 0

(
(1)
(3) ei ]3 si y > 0;
[
ei =
(2 + z 2 ) si y = 0
o bien
!3 !2
(3) yi x0i i 2 + x0i
ei = Di (1 Di )

como ya lo habamos visto. Por su parte, el cuarto momento tiene la siguiente

estructura:

i 4
E |yi = 0

(
(1)
(4) [ei ]4 3 si y > 0;
ei =
i (3z + z 3 ) si y = 0
o bien
!4 ! !3
0
yi xi 0 0
(4)
ei = Di i 3 xi + xi
3 + (1 Di )

Para testear la normalidad de los residuos, se deben utilizar el tercer y cuarto

momento conjuntamente. La prueba estadstica es anloga a las dos ya vistas y
tiene la siguiente forma:
c0 R(R0 R)1 R0 c 2(p)
donde, en este caso c es un vector columna de unos y la fila i de la matriz R tiene

(1) (1) (2) (3) (4)
los siguientes elementos : [
ei , ei xi , ei , ei , ei ].
Sabemos que si esta prueba de normalidad es rechazada entonces Tobit no es

un modelo apropiado porque los s sern inconsistentes. No obstante lo anterior,
ello depender del grado de censura en la variable endgena. Por otra parte, es
posible realizar pruebas acerca de restricciones sobre el tercer y cuarto momento
en forma separada pero ello no constituye una prueba de normalidad.
Existe una forma de testear normalidad y heterocedasticidad del tipo White

(de forma desconocida) mediante un procedimiento similar al anterior pero ahora
(1) (2) (2) (3) (4)
ei x0i , ei , ei xi x0i , ei , ei ].
donde la fila i de la matriz R es la siguiente: [
4.4.7. Ejemplo: Heterocedasticidad Multiplicativa en el modelo

Tobit
Utilizado datos de corte transversal, Petersen y Waldman analizaron el volumen

de los intereses pagados a corto plazo por diferentes acciones. Los regresores de
su modelo eran una medida de la componente de las expectativas heterogneas
de la compaa determinada por el mercado, similar a lo que se denomina coe-
ficiente BETA; una medida de las expectativas heterogneas especifica de cada
compaa, que llamaremos NO-MERCADO; el NUMERO de la compaa dedica-
dos a predecir ganancias; el nmero de acciones comunes emitidas para adquirir
otras empresas, variable denominada FUSION; y la variable binaria que indican
si existen o no OPCIONES. Los autores presentan resultados que se presentan
en la siguiente tabla en un modelo que supone que la varianza es de la forma
i2 = exp(0 xi ). Los valores que se dan entre parntesis son los errores estndar
asintticos estimados.
Estimadores de un Modelo Tobit

Homocedstico Heterocedstico

Constante -18.28 (5.10) -4.11 (3.28) -0.47 (0.60)
BETA 10.97 (3.61) 2.22 (2.00) 1.20 (1.81)
NO-MERCADO 0.65 (7.41) 0.12 (1.90) 0.08 (7.55)
NUMERO 0.75 (5.74) 0.33 (4.50) 0.15 (4.58)
FUSION 0.50 (5.90) 0.24 (3.00) 0.06 (4.17)
OPCIONES 2.256 (1.51) 2.96 (2.99) 0.83 (1.70)
LogL -547.30 -466.27
Tamao muestral 200 200
4.5. MODELOS ALTERNATIVOS PARA CENSURA 115
El efecto de la heterocedasticidad sobre los estimadores es muy importante. Puede

contrastarse la hiptesis = 0 utilizando un estadstico de cocientes de verosimil-
itudes. Con estos resultados el estadstico es -2[-547.3-(-466.27)]=162.06. La dis-
tribucin asinttica del estadstico es 2(5) . El valor muestral es muy superior al
valor crtico que aparece en las tablas, por lo que se rechaza la hiptesis nula.
4.5. Modelos alternativos para censura

Como se discuti previamente, los estimadores del modelo Tobit son inconsistentes si
los supuestos sobre los que descansan no se cumplen. Existen a los menos dos soluciones
en la literatura orientadas a estimar modelos con variables censurada cuando el Tobit
es inconsistente. Powell (1984, 1986) ha sugerido dos soluciones posibles, las que a
continuacin revisaremos.
4.5.1. Symmetrically Trimmed Least Squares

La idea detrs de este estimador puede resumirse de la siguiente manera. Suponga
que pudiramos observar la variable latente y en todo su espectro y que el trmino
de error, en consecuencia, estar simtricamente distribuido en torno a cero. As la
estimacin por OLS nos dara estimadores consistentes. De esta forma, la censura lo
que hace es introducir una asimetra a la distribucin.
Densidad de xi'beta + e
xi'beta 2xi'beta e
Para una observacin dada xi , solo podemos obtener el area a la derecha de 0. As todas
las observaciones donde ei <xi estn omitidas. En un modelo del tipo:
y = x + e

yi si yi > 0;
yi =
0 si yi 0
bien
yi si ei > xi ;
yi =
0 si ei xi
Suponga ahora que truncamos las observaciones tales que ei >xi. Esto significa tomar
los puntos a la derecha de 2xi en la figura anterior, y en consecuencia tendramos
nuevamente una distribucin del error que sera simtrica.
Powell (Econometrica 1986) sugiere que si conociramos el verdadero valor del parmetro
(por ejemplo, 0 ) podramos reemplazar yi por la mnima cantidad entre {yi , 2xi 0 } y
generar de esta forma un estimador consistente para 0 . Otra forma de hacer lo mismo
es:
ei = max(ei , xi 0 )
y reemplazar ei por el min{yi , 2xi 0 } si xi 0 >0 o bien borrar la observacin si esto no

se cumple.
En consecuencia, el verdadero valor del coeficiente 0 debera satisfacer la siguiente
ecuacin normal:
Xn
1(xi 0 ) (min{yi , 2xi 0 } xi 0 )x0i = 0 (4.1)
i=1
Cabe hacer notar que 0 no es observado, pero Powell hace uso de la nocin de auto
consistencia para demostrar que un estimador de 0 , consistente al ser solucin de (38)
nos entrega un estimador consistente del verdadero .
En trminos prcticos, es relativamente sencillo encontrar un estimador consistente de

, el que denominaremos al usar el siguiente algoritmo iterativo:
1. Calcular un estimador inicial por OLS a partir de los datos originales.
2. Calcular el valor predicho para todas las observaciones
si el valor predicho es negativo, hacer la observacin como missing.

si el valor de la variable dependiente es mayor que dos veces el valor predicho,
entonces reemplazar el valor de la variable dependiente por 2xi
3. Correr un OLS sobre los nuevos datos alterados.
4. Volver a realizar la rutina hasta que el valor de ya no cambie.
La matriz de varianza de puede ser determinada de la siguiente forma. Definiendo :

n
1 X
Cn = E[1(xi 0 < i < xi 0 ) x0i xi ] (4.2)
n
i=1
y por otra parte :

n
1 X
Dn = E[1(xi 0 > 0) min{2i , (xi 0 )2 }x0i xi ] (4.3)
n
i=1
As la matriz de varianza covarianza puede ser estimada como :

b 1 D
C bCb 1
byD
donde C b son estimadores consistentes de (39)y (40) respectivamente.
Una caracterstica atractiva de este mtodo es que es robusta ante la presencia de

heterocedasticidad siempre y cuando la distribucin del error sea simtrica. Este mto-
do es ms til, es decir, eficiente, mientras menor sea el grado de censura y mayor el
tamao de la muestra.
4.5.2. Censured Least Absolute Deviations (CLAD)

Esto es una forma alternativa de estimar Tobit simple cuando existen problemas con
los supuestos. Este estimador es un poco menos restringido con respecto a los errores
comparado con el STLS.
De nuevo supondremos que y puede ser observada en el modelo.
y = x +
as:
E[yi |xi ] = xi + E[i /xi ] = xi
su estimador consistente puede ser obtenido por OLS, el cual es la solucin al siguiente
programa :
" n #
X
mn
(yi xi )2
i=1
esto es es aquel estimador que minimiza la suma de errores al cuadrado.
Suponga que en vez de minimizar los errores al cuadrado, se minimiza la suma del
valor absoluto de los errores.
" n #
X
mn
|yi xi |
i=1
este estimador se conoce como desviaciones absolutas mnimas (LAD). Otra forma de
escribir este modelo es:
n
X
mn signo(y xi )
(yi xi )
i
i=1
donde signo () toma el valor de 1, 0, -1 dependiendo si el argumento es positivo, cero

o negativo. La ecuacin normal correspondiente es:
n
X
=0
x0i signo(yi xi )
i=1
de esta manera, es el signo de los residuos y no su magnitud lo que importa para

Como puede inferirse, la regresin LAD corresponde a la regresin sobre
determinar .
la mediana de la muestra ya que :
q50 [yi |xi ] = xi + q50 [i |xi ] = xi

4.6. MODELOS PARA SESGO DE SELECCIN 121
No olvidar que OLS corresponde a la regresin sobre la media, la cual ser inconsistente
en un modelo de regresin censurada pues :
E[max{0, yi }|xi ] = xi + E[|xi , i > xi ] 6= xi
La mediana, a diferencia de la media, no es afectada por la transformacin max. De

esta manera, se puede demostrar que: (ver Powell 1984)
q50 [max{0, yi }|xi ] = xi + q50 [|xi , i > xi ] = xi
ello es cierto independientemente de la forma de los errores. En particular si son hete-

rocedsticos y/o no normales.
La representacin prctica de este estimador exige regresiones cuantiles en q = 50,

qreg en STATA). Veamos esto:
1. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar un
valor inicial de .
2. Use este estimador para sacar las observaciones para las cuales su prediccin es
negativa.
3. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador de
.
4. Repita (b) y (c) hasta que converja.
Notar que pueden existir problemas con el mnimo global. As, deber probar distintos
valores iniciales. La matriz de covarianzas se estima por bootstrap del proceso completo.
4.6. Modelos para Sesgo de Seleccin

Recordemos que la principal diferencia entre un modelo censurado y un modelo de sesgo
seleccin (censura accidental) estaba en que la presencia de la observacin en la muestra
(slo la variable dependiente) estaba determinada por variables que haban sido recogi-
das en la muestra.
Para ilustrar este ltimo punto veamos el siguiente modelo :
y2i = zi + v2i (a)

y1i = xi + v1i si y2i >0 (b)
y1i no obs. si y2i 0
D2i = 1 si y2i >0
D2i = 0 si y2i 0
La ecuacin para y1i es una ecuacin de regresin comn. Sin embargo, bajo ciertas
condiciones no observamos la variable dependiente de esta ecuacin. Denotaremos si
observamos o no esta variable mediante una variable dummy D2i . La observacin de la
variable dependiente y1i es funcin del valor de otra regresin : la ecuacin de seleccin
que relaciona la variable latente y2i con algunas caractersticas observadas zi ). Puede
que las variables en xi y zi puedan traslaparse incluso ser las mismas aunque esto puede
generar problemas de identificacin.
Algunos ejemplos:
1. Oferta de trabajo de madres casadas: primera ecuacin son las horas y la segunda
es sobre la diferencia de salario de mercado y el salario de reserva no observado.
2. Relacin entre tamao de la firma y crecimiento: primera ecuacin relaciona crec-

imiento y tamao y la segunda describe la probabilidad de salida entre el primer
y el segundo perodo.
4.6.1. Anlisis del Sesgo

Suponga que estimamos la ecuacin (b) por OLS usando solo los datos observados.
Existe algn sesgo en los s ?.
Sin asumir una distribucin en particular para los errores v, el valor esperado de y1
condicional en x y la probabilidad de observar y1 viene dado por :
E[y1 |x, y2 > 0] = x + E[v1 |v2 > z]
De esta manera, ser insesgado si y solo si v1 es independiente de v2 lo que implica

que los datos estn aleatoriamente faltantes o que el proceso de seleccin es gnor-
able"(caso poco realista).
Ahora, asumiremos que v1 y v2 estn distribuidos conjuntamente f (v1 , v2 , ) donde

es un conjunto finito de parmetros : media, varianza y correlacin entre las variables
aleatorias.
Usando Bayes tenemos que el valor esperado de v1 condicional es el siguiente :

R R
zi v1 f (v1 , v2 , )dv2 dv1
E[v1 |v2 > zi ] = R R (4.4)
zi f (v1 , v2 , )dv2 dv1
= (z, )
De esta manera se desprende que la esperanza condicional de y1 dado x y la probabilidad

de observar y1 ser igual a la regresin comn de y1 en funcin de x mas una funcin
no lineal de los regresores z de la ecuacin de seleccin, la cual no tendr una media
igual a cero (anlogo a IMR). De esta forma, y con respecto a las estimaciones de los
parmetros en el modelo de sesgo de seleccin, se puede determinar lo siguiente:
1. El intercepto estimado ser sesgado pues la media del trmino de error no es cero.
De hecho es igual a Ei [(zi ; )].
2. Si las variables x y z no son distribuidas completamente independientes, es decir,

tienen variables en comn o estn correlacionadas, los coeficientes de pendiente
estimados estarn sesgados pues existe un problema de omisin de variable en
la regresin. La variable omitida es (zi ; ) la cual est correlacionado con las
variables incluidas x.
Notar que aunque x y z sean independientes, el hecho de que los datos faltantes no lo
sean aleatoriamente introduce heterocedasticidad al trmino de error y as OLS no es
eficiente.
Existen a lo menos dos formas de solucin al problema de sesgo de seleccin dentro

del mundo paramtrico.2 Uno es el mtodo en dos etapas atribuible a Heckman (1979)
y el otro es mediante Mxima Verosimilitud (Amemiya 1981). Antes de analizar estos
dos mtodos en detalle discutiremos previamente las propiedades de una distribucin
normal bivariada truncada.3
4.6.2. Propiedades de una Distribucin Normal Bivariada Truncada

Asumiendo que la distribucin conjunta entre dos variables aleatorias x e y es normal
bivariada, esto puede ser especificado de la siguiente manera :
2
x x x x y
N ,
y y x y y2
donde es la correlacin entre ambas variables aleatorias, y en consecuencia x y es la

covarianza entre ambas variables. Una de las tantas ventajas de la distribucin normal
es que la distribucin condicional tambin es normal. Veamos esto :

x y
f (y|x) N y + 2 (x x ), y2 (1 2 )
x
o bien, estandarizando, queda :
!
y y x 2 y (x x )
f (y|x) p x
N (0, 1)
y 1 2
As, la distribucin de y dado x es normal con una media mayor que su media sin
condicionar y si las variables x e y estn positivamente correlacionados y mientras x
sea mayor que su media sin condicionar. Anlogamente, la media condicional de y es
menor que su media incondicional cuando x e y estn negativamente correlacionados y
x es mayor que su media. 4 En general, y condicional en x tiene una varianza menor
2
ya discutiremos mas adelante aquellas provenientes del mundo semi paramtrico
3
la normal truncada univariada fue discutida previamente
4
lo contrario se cumple cuando x es menor a su media
que la distribucin incondicional de y independientemente de la correlacin entre x e y.
Usando este resultado podemos mostrar que la esperanza condicional de y, condicional

que x es mayor que un valor dado, tiene la siguiente forma:

a x
E[y|x > a] = y + y
x
donde
()
() =
1 ()
()
=
()
a () se le conoce como el hazard rate de x evaluado en a.
4.6.3. Heckman (1979) two-step estimator

Este autor asume que existe una distribucin normal bivariada de los errores en las
ecuaciones (a) y (b) con la siguiente estructura :
2
v1 0 1 1
N ,
v2 0 1 1
de esta forma, la ecuacin de seleccin se convierte en un modelo Probit. Por su parte,

recordemos que la varianza de la distribucin en la ecuacin Probit puede ser normal-
izada a uno sin prdida de informacin ya que la escala de la variable dependiente no
es observada.
De esta manera, usando el supuesto de normalidad y las propiedades de la normal

bivariada truncada podemos calcular E[y1 |y2 > 0] como sigue:
E[y1 |y2 > 0] = x + E[v1 |v2 > z] (4.5)

z
= x + 1
1
(z)
= x + 1
1 (z)
(z)
= x + 1
(z)
ya que el IMR siempre es positivo, la regresin de y sobre x estar sesgada dependiendo

del valor de .
As la magnitud del sesgo depender de la magnitud de la correlacin entre los errores
(), la varianza relativa del error (1 ) y la severidad del truncamiento (IMR es mayor
cuando z es menor). As, si = 0 entonces no habr sesgo de seleccin.
Cabe sealar que en el caso del Tobit simple, donde y1 es igual a y2 , = 1 y por
lo tanto se tiene que el valor esperado condicional es :
(x)
E[y1 |y1 > 0] = x + 1
(x)
con el sesgo siempre hacia abajo.
Estimacin utilizando el mtodo de Heckman

La idea es utilizar la especificacin en (42)
(zi )
E[y1i |y2i > 0] = xi + 1
(zi )
(zi )
y estimar en (b) por OLS incluyendo una medida de (zi ) en dicha ecuacin.
Con este fin Heckman (1979) sugiere realizar los siguientes pasos:
1. Estimar consistentemente usando un probit para la probabilidad de observar los

datos en funcin de z.
2. Calcular su valor ajustado para la funcin ndice o variable latente y2i = zi y

i como funcin de y2i .
calcular enseguida el IMR,
i en la regresin de y1i sobre xi para aproximar (zi ). El coeficiente de
3. Incluir

i ser una medida de 1 y de esta forma una estimacin de y 1 puede ser
obtenida a partir de all.
Los valores resultantes (estimadores) de , y 1 son consistentes pero asintticamente

ineficientes bajo el supuesto de normalidad. La gran gracia de este mtodo es su sencillez
puesto que slo se necesita un probit y un OLS.
No obstante lo anterior, existen a lo menos tres aspectos que se deben considerar con
respecto a este estimador en dos etapas:
1. El estimador del error estndar convencional en (a) es inconsistente pues el modelo

de regresin en (42) es intrnsecamente heterocedstico debido a la seleccin. Una
forma de solucionar esto es mediante el uso de los estimadores de los errores
estndar robustos los cuales son, al menos consistentes.
2. El mtodo no impone la condicin que || 1 lo cual esta implcitamente asumido

en el modelo. Esta condicin es a menudo violada.
3. El supuesto de normalidad es necesario para la consistencia de los estimadores.

4.6.4. Estimacin por Mxima Verosimilitud

Cabe sealar que uno de los principales problemas que existan por ese entonces era la
capacidad computacional para estimar modelos no lineales sofisticados. De esta man-
era, el tener acceso a un paquete computacional que pueda maximizar la funcin de
verosimilitud con respecto a un vector de parmetros dado un conjunto de datos per-
mite salvar esta valla tcnica. De esta forma, quiz el desafo ms grande sea definir la
funcin de verosimilitud acorde al problema economtrico que se nos presenta.
Para el caso particular del Tobit generalizado (Tobit tipo II segn la nomenclatura
de Amemiya 1985), primero se debe especificar el modelo completo como lo hemos he-
cho en (a) y (b). A su vez, es necesario incluir una especificacin general y completa de
la distribucin de las variables aleatorias en el modelo, como lo hicimos en (42).
El paso siguiente es dividir las observaciones en grupos de acuerdo al tipo de dato

observado. Considerando el problema de sesgo de seleccin, cada grupo tendr una for-
ma distinta de verosimilitud. En este caso puntual tenemos dos tipos de observaciones.
1. Aquellas donde y1 es observada, para lo cual sabemos que y2 > 0 se cumple. Para
estas observaciones, la funcin de verosimilitud es la probabilidad del evento y1 y
que tambin ocurra que y2 > 0.
P (y1i , y2i > 0|x, z) = f (y1i ) P (y2i > 0|y1i , x, z)

= f (v1i ) P (v2i > zi |v1i , x, z)
Z
1 y1i xi
= f (v2i |v1i )dv2i
1 1 zi
Z " #
1 y1i xi v2i 1 (y1i xi )
= p dv2i
1 1 zi 1 2
" !#
1 y1i xi zi + 1 (y1i xi )
= 1 p
1 1 1 2
!
1 y1i xi zi + 1 (y1i xi )
= p
1 1 1 2
As, la probabilidad de una observacin para la cual observamos efectivamente sus

datos es la densidad en el punto y1 multiplicada por la probabilidad condicional
para y2 dado el valor de y1 fue observado.
2. Para aquellos y1 no observados, sabemos que y2 0 y por ende no tenemos

informacin independiente para y1 .
P (y2i 0) = P (v2i zi )
= (zi )
= 1 (zi )
De esta manera, juntando ambos trminos, se tiene que la loglikelihood de la muestra

completa de observaciones ser la siguiente:
N0
X
logL(, , , 1 ; datos) = log [1 (zi )]
i=1
N
"
!#
X y1i xi zi + 1 (y1i xi )
+ log1 + log + log p
1 1 2
i=N0 +1
donde existe N0 observaciones para las cuales no observamos y1 y N1 observaciones,

donde si lo hacemos, con N = N0 + N1 . Los parmetros estimados pueden obtenerse al
maximizar la funcin de verosimilitud con respecto a sus argumentos.
Estos estimadores sern consistentes y asintticamente eficientes bajo el supuesto de

normalidad y homocedasticidad de los trminos de error no censurados. 5 Aunque uno
de los problemas que tiene la estimacin por ML es que la funcin no es estrictamente
cncava y en consecuencia, no necesariamente existe una nica solucin.
5
Ver Amemiya 85 para la demostracin.
4.6.5. Pruebas de normalidad en el Tobit generalizado

Como habamos visto, el modelo de Tobit generalizado (tipo II) pueder ser escrito de
la siguiente forma :

y1i = x01i 1 + 1i

y1i si y2i > o 1 si Y2i > 0;
yi = Di =
0 otro caso 0 otro caso
con

y2i = x02i 2 + 2i
La segunda etapa en el modelo de Heckman est basado en:
y1i = x01i 1 + E(1i |Di = 1) + 1i
Ahora, si (1i , 2i ) se distribuyan normal bivariada, entonces se tiene que :

x2i 2
12 2
E(1i |Di = 1) = i , con i = x0
2 2i 2 2
Notar que generalmente se normaliza 2 = 1 el cual no afecta a los parmetros.
Prueba de Normalidad de la distribucin marginal de 1i

Partiremos con una expresin generalizada de distribucin conjunta para los errores
de ambas ecuaciones desarrolada por Gallant y Nychka (Economtrica 1987).

X J
K X
f (1 , 2 ) = kj k1 j2 b(1 , 2 )

k=0 j=0
donde b es la densidad normal bivariada con 00 = 1. Si K = 0, reemplazando en la

expresin anterior se obtiene lo siguiente :
E(1i |Di = 1) = E(2i |Di = 1) + 01 E(2i |Di = 1) + .......0j E(j2i |Di = 1)
Los cuatro primeros trminos del lado derecho, corresponden a:
i , 1 Zi i , i (Zi2 + 2), 3 3Zi i Zi3 i
donde
0
X2i (Zi )
2
Zi = y i =
2 (Zi )
respectivamente.
Pagan y Vella (1989) basada en esta descomposicin, sugieren agregar Zij i con
(j = 1, 2, 3) a la ecuacin en el segundo paso del estimador de Heckman y probar por su
significancia conjunta. En otras palabras, sugieren agregar el IM R, IM R2 y IM R3 a la
ecuacin de intensidad y testear su significancia conjunta. Si se rechaza entonces no ex-

iste sospecha de no normalidad y por lo tanto los estimadores del Tobit son consistentes.
Cabe recordar que en el modelo de Heckman la distribucin de los errores de la ecuacin

de seleccin, aquella que se estima utilizando un Probit, se asume normal. De esta for-
ma, una prueba indirecta acerca de la validez de los estimadores de Heckman es testear
la normalidad de los errores en el Probit mediante residuos generalizado.
Pues bien, si los errores son normales en el Probit o la expansin de IMRs en la ecuacin
de intensidad sugerida por Pagan y Vella no son significativos, entonces el modelo Tobit
generalizado debera estimarse por ML.
Recordemos que la estimacin de Heckman es ineficiente comparada con ML y segn
Davidson y Mackinnon, representa una buena prueba para estudiar la presencia de sesgo
de seleccin pero no para estimar parmetros.
4.6.6. Estimacin modelo de sesgo de seleccin con errores no nor-

males
La pregunta que surge ahora es qu pasa si las pruebas de normalidad son rechazadas.
Cabe recordar que debido a la no linealidad del modelo, el rechazo de f (1 , 2 ) se dis-
tribuya normal bivariada significa que los estimadores tanto de la ecuacin de intensidad
(1 ) como aquellos de la ecuacin de seleccin (2 ) sern inconsistentes. Ya sea si fueron
estimados por ML o bien por Heckman).
Existen dos formas generales para solucionar este problema. Una es seguir en el mundo
paramtrico, asumiendo que se conoce la distribucin de los errores en ambas ecua-
ciones. Y la otra es moverse al mundo no paramtrico, estrictamente hablando, al semi-
paramtrico.Veamos cada uno de ellos.
Mundo paramtrico
Supongamos que 2 , los errores de la ecuacin de seleccin no son normales. Bajo lo
que se denomina "Modelo de Seleccin Generalizado"podemos redefinir el trmino del
error como sigue:

y1i = x01i 1 + 1 01i

y2i = x02i 2 + 02i
Suponga que 02i tiene una distribucin F conocida. Entonces, podemos obtener una
nueva variable normal al aplicar la siguiente funcin sobre los errores originales :
2i = J(02i ) = 1 F (02i )
y, en consecuencia :
2i N ()
Tambin se puede relajar el supuesto de normalidad de 1i . La nica condicin es que

F sea conocida y continua.
De esta forma, el modelo de Heckman en dos etapas tiene la siguiente forma:

0 (J(x02i 2 ))
y1i = x1i 1 + 1 + i (4.6)
F (x02i 2 )
con =cor(01i , 2i ) la correlacin entre los errores.
Notar que las probabilidades ajustadas de la primera etapa son F (x02i 2 ) y en con-
secuencia, el trmino entre corchetes en (43) ser:
[1 (pi )]
con pi = F (x02i 2 )
pi
Entre otras propiedades de esta forma de estimacin esta que puede ser aplicado para
un caso mas general, donde existan mas de dos alternativas. Por ejemplo, a travs de
un multinomial logit y se calcula las probabilidades predichas para cada alternativa y
luego se corrige la ecuacin de intensidad utilizando la correccin propuesta para cada
alternativa. No obstante, solo se puede aplicar si F es conocida y continua.
Mundo No Paramtrico
La mayora de los modelos no paramtricos continan la idea propuesta por Heckman
de estimacin en dos etapas. De esta forma, la segunda etapa viene definida por:
y1i = x01i 1 + E(1i |Di = 1) + 1i
donde se relaja el supuesto paramtrico sobre el trmino de correccin, es decir, la nor-

malidad de 2i .
De esta manera tenemos :
y1i = x01i 1 + (x02i 2 ) + 1i
donde si asumimos normalidad en 2i entonces () es conocida e igual al IMR. Sin

realizar ningn supuesto distribucional lo nico que sabemos es que depende de x02i 2
(x02i 2 ) = E(1i |2i > x02i 2 )
Existen dos formas dentro del mundo semiparamtrico para estimar estos casos:
Pensar en como un ruido.
Aproximar .
En general, existen mas formas de tratarlo, pero stas son las mas frecuentes en la lit-
eratura.
1. Tratar a como un ruido.

La idea es tratar a este parmetro como un ruido y por lo tanto hay que trtar
de eliminarlo. Este tratamiento se expone en Robinson (Econometrica 1988) y
tambin en Pagan y Ullah (p. 304 y 198) Teniendo la ecuacin de nivel :
y1i = x01i 1 + E(1i |xi , y2i

> 0) + 1i (4.7)
y1i = x01i 1 + g(x02i 2 ) + 1i (4.8)
la idea es aplicar el valor esperado |E(|x02i 2 ), obtenendose lo siguiente :
E(y1i |x02i 2 ) = E(x01i |x02i 2 ) 1 + g(x02i 2 ) (4.9)
As, restando los dos ltimas ecuaciones (45)-(46) se obtiene lo siguiente :
y1i E(y1i |x02i 2 ) = [x01i E(x01i |x02i 2 )] 1 + 1i
ecuacin que tiene las propiedades de un modelo de regresin lineal con variable
dependiente igual a :
y1i E(y1i |x02i 2 )
Notar que :
g(x02i 2 ) = E(y1i |x02i 2 ) E(x01i |x02i 2 ) 1
Un estimador no paramtrico de ser (ver Pagan y vella pg. 199)

" n #1 " n #
X X
1 = (x1i m 12i )0
12i )(x1i m (x1i m
12i )(y1i m
2i )
i=1 i=1
donde m
12i y m
2i son los estimadores por Kernel de
m12i = E(x1i |x2i 2 ) y m2i = E(y1i |x02i 2 )
Todo lo anterior suponiendo que 2 es conocido. De no serlo tambin puede ser

estimado no paramtricamente a partir de la ecuacin de seleccin. Ver Pagan y
Vella p.305).
Adicionalmente, se tiene que :
g(x02i 2 ) = m 012i 1
2i m
2. La otra forma es tratar de aproximar

Lee (Journal of Econometrics,1994) plantea la siguiente relacin :
J
X
(x02i 2 ) j bj (x02i 2a )
j=1
donde, bajo ciertas restricciones, esta expresin es equivalente al test de Pagan y

Vella (1989) donde se agregan potencias del IMR en la ecuacin de intensidad.
Es decir:
y1i = x01i 1 + IM R + IM R2 + IM R3 + 1i
o bien,
(x02i 2 ) j
(x02i ) (j = 1, ..., 3)
0
(x 2 )
2i
Ver resultados con datos de Mroz.

Existe una forma alternativa de estimar el modelo Tobit Generalizado en forma
no paramtrica y es por Mxima Verosimilitud. Dado que el supuesto clave aqu
es acerca de la distribucin conjunta de los errores tanto de la ecuacin de se-
leccin como la de intensidad f (1i , 2i ) Gallant y Nychka proponen la siguiente
aproximacin para la distribucin conjunta :

X M
M X
f(1i , 2i ) = jk j1i k2i exp{(1i |1 )2 (2i |2 )2 }
j=0 k=0
la cual es incorporada en la funcin de ML y estimada posteriormente. Para de-

talles, ver Pagan y Vella p.311
Captulo 5
Mtodos Basados en Simulacin
5.1. Introduccin
La estimacin por Mxima Verosimilitud (ML) asume que la funcin de densidad
f (y|X, ) tiene una forma cerrada. Por su parte, la distribucin del estimador se basa
en la linealizacin de las ecuaciones de estimacin.
Si f (y|X, ) no tiene una forma cerrada (o su solucin) an as puede ser obtenido por
ML. En este caso, se necesitara una buena aproximacin de f (y|X, ) por f(y|X, ).
De esto precisamente tratan estas notas.
5.2. Ejemplo General

Considere el siguiente caso :
Z
f (y|X, ) = h(y|X, , u)g(u)du (5.1)
donde las formas funcionales de h() y g() son conocidas y u denota una variable aleato-
ria (no necesariamente un error) el cual tiene que ser integrado.
De no existir una solucin analtica para la integral, es decir, no existe una forma o
expresin cerrada de la funcin de verosimilitud, entonces aquellos mtodos basados en
simulacin aparecen como una buena solucin.
5.2.1. Aplicacin : Modelos de Variable Dependiente Limitada (LDV)

Suponga que tiene un problema el que puede ser caracterizado por tres alternativas
excluyentes de eleccin. En este caso sea Ui con i : 1, 2, 3 la utilidad derivada de cada
eleccin las que NO son observadas. Aunque observamos y = 1, 2, 3 dependiendo de
cada eleccin.
137
138 CAPTULO 5. MTODOS BASADOS EN SIMULACIN
Suponga ahora que la alternativa 1 es escogida pues tiene para quien decide, un may-
or nivel de utilidad. Si definimos la funcin de (masa) probabilidad p1 P r[y = 1]
entonces se deriva que si esta alternativa fue elegida :
p1 = P r[U1 U2 0, U1 U3 0]
= P r[(x1 x2 )0 + 1 2 0, (x1 x3 )0 + 1 3 0
bajo el supuesto de que la utilidad Uj = x0j + j , j = 1, 2, 3 con el vector x capturando

los diferentes atributos de cada alternativa. Adicionalmente, (, +). Si se define
u1 = U1 U2 y u2 = U1 U3 se tiene entonces que :
Z Z
p1 = g(u1 , u2 )du1 du2 (5.2)
0 0
donde g(u1 , u2 ) o mas formalmente g(u1 , u2 |X, ) es una densidad bivariada, o, equiva-
lentemente :
Z Z
p1 = 1[u1 0, u2 0]g(u1 , u2 )du1 du2 (5.3)

con 1[] la funcin indicador.
Notar que la ecuacin (3) es del tipo particular de la ecuacin (1). Dado que la in-
tegral es slo sobre parte del rango de (u1 , u2 ) tal como esta RenR la ecuacin (2) una
solucin cerrada puede que no exista. No debemos olvidar que g(u1 , u2 )du1 du2 = 1
si la integracin es sobre todo el rango de (u1 , u2 )
En particular, si los errores estn distribudos de forma Normal tal como es el ca-
so del Modelo Multinomial Probit, la integral en la ecuacin (2) es sobre el ortante
positivo de una distribucin Normal Bivariada (y no sobre (, +). As, la solucin
para p no tiene una forma cerrada y luego no existe una expresin manejable (analti-
camente) para la densidad f (y|X, ). Notar que esta situacin se hace mas compleja
entre mas alternativas existan. En particular, si existen m alternativas excluyentes, la
integral tiene dimensin m 1.
5.2.2. Estimacin por Maxima Verosimilitud

Asuma independencia entre las observaciones y que y tiene una densidad condicional
del tipo f (y|X, ). Dado que, como en el ejemplo anterior, la estimacin por ML no es
factible ya que no existe una expresin cerrada para f (y|X, ) la que sea definida por
una integral que no se puede simplificar, podemos entonces reemplazar dicha integral
por una aproximacin numrica de sta, la que denotaremos por f(y|X, ). De esta
forma lo que deberemos maximizar es :
N
X
N () =
lnL lnf(yi |xi , )
i=1
5.3. MTODOS PARA CALCULAR INTEGRALES 139
con respecto a .
Este estimador SM L ser consistente y tendr la misma distribucin asinttica del MLE
si f(y|X, ) es una buena aproximacin de f (y|X, ). Las condiciones de primer orden
resultantes son generalmente no lineales y deben ser resueltas por mtodos numricos.
Dado que f(yi |xi , ) vara con i y con , la evaluacin de la gradiente usando las
derivadas numricas requerir de N q r evaluaciones, con N el tamao de la muestra, q
la dimensin de y con r el nmero de iteraciones. Todo lo anterior debe ser multiplicado
por el nmero de evaluaciones necesarias para calcular una adecuada aproximacin de
la integral f (y|X, ). De all la importancia de los mtodos de evaluacin como tambin
acerca de la capacidad computacional necesaria para realizar este trabajo.
5.3. Mtodos para Calcular Integrales

Considere la siguiente integral :
Z b
I= f (x)dx
a
con la funcin f () continua en [a, b] pudiendo ser estos lmites infinito. Existen dos
mecanismos generales para calcular el valor de dicha integral, a saber :
integracin numrica o cuadratura (midpoint rule y Simpson rule) la que se uti-
lizan sobretodo cuando la integral tiene pocas dimensiones.
integracin por muestreo de MonteCarlo, la que es recomendable cuando las di-
mensiones de la integral son considerables.
Estos mtodos sern revisados en ayudanta.
5.4. Estimacin por ML Simulado

Consideremos ahora estas ideas para la estimacin por ML cuando no se cuenta con
una expresin analtica para la densidad. El resultado clave es que la simulacin puede
entregar un estimador con la misma distribucin que el MLE bajo el supuesto que el
nmero de muestras de simulacin (sumulation draws) hechas para calcular la densidad
para cada observacin tiene a infinito.
Suponga que la densidad condicional para una observacin en particular incluye una
integral que no se puede manejar en forma analtica tal como en (1):
Z
f (yi |xi , ) = h(yi |xi , , ui )g(ui )dui
la que debe ser estimada ya que no tiene una forma cerrada de solucin (manejable).
El simulador directo (direct simulator) de f (yi |xi , ) puede ser el estimador de Mon-
teCarlo de dicha integral :
S
1X
f(yi |xi , uiS , ) = h(yi |xi , , usi ) (5.4)
S
s=1
donde uiS es un vector de S draws usi , s = 1 . . . S los que son independientes de una fun-
cin g(ui ). Esto lo que hace es simplemente promediar h(yi |xi , , usi sobre S draws. Se
puede demostrar (ver ayudanta) que fi es un estimador insesgado para fi y consistente
para fi a medida de que S . Notar que existen otros mecanismos que permiten
que fi se aproxime rpidamente a fi para un nmero finito de draws o muestras (lo que
veremos mas adelante).
P
Dada la independencia de i, sabemos que MLE M L maximiza lnLN () = N
i=1 lnf (yi |xi , ).

En cambio, el estimador maximum simulated likelihood (MSL)M SL maximiza el
log likelihood basado en una estimacin simulada de la densidad :
N
X
N () =
lnL lnf(yi |xi , uiS , )
i=1
Se puededemostrar que M SL es asintticamente equivalente a M L si N, S y

adems SN . Por otra parte se puede demostrar que (Gourieroux y Monfort,
1991) :

N (M SL 0 ) d N (0, A1 (0 ))
Veamos un ejemplo. Suponga que yi N (i , 1) donde el parmetro escalar i vara entre

individuos y con i = + ui con ui representando una heterogeneidad no observada
pero con distribucin conocida. De este modo, la densidad de y condicional en u es
simplemente :
1
f (y|u, ) = exp{(y u)2 /2} (5.5)
2
Sin embargo, la inferencia sobre se basa sobre la densidad marginal de y (es decir
marginal con respecto a u), lo que requiere integrar sobre u. Supongamos que u tiene
una densidad como la siguiente :
g(u) = eu exp(eu ) (5.6)
distribucin que no es simtrica con una media diferente de cero y que, por simplicidad,
no depende de parmetros desconocidos.
En este caso la estimacinR de por ML no es posible ya que la distribucin marginal de

f (y|, la que equivale a f (y|, u)g(u)d(u) no tiene una solucin analtica o cerrada.
5.4. ESTIMACIN POR ML SIMULADO 141
De esta forma podemos usar el estimador MSL usando el simulador directo tal como
fue presentado en (4), de tal forma que el M SL maximiza la siguiente expresin :
N S
N () = 1 X 1X 1
lnL ln( exp{(yi usi )2 /2})
N S 2
i=1 s=1
donde usi , s = 1 . . . S son draws the una funcin de densidad extreme value g(ui ) tal
como se plantea en (6).De esta manera, el estimador MSL, M SL , es la solucin de las
siguientes condiciones de primer orden :
N P
N ()
lnL 1 X Ss=1 (yi usi )exp{(yi usi )2 /2}
= PS =0
N s=1 exp{(y i u s )2 /2}
i
i=1
Cabe sealar que no existe una solucin cerrada para pero con mtodos iterativos
estndares se puede calcular M SL .
La consistencia del estimador MSL requiere que el nmero de draws S adems

de la ya clsica condicin de que ojal el tamao de la muestra N tambin. LO
anterior sugiere que el mtodo es muy intensivo en tiempo computacional. Tal como se
mencion, el estimador MSL es asintticamente normal con unja varianza asinttica que
puede ser calculada de varias maneras, la mas fcil es mediante el estimador BHHH, el
que tiene la siguiente estructura:
XN PS
(yi M SL usi )exp{(yi M SL usi )2 /2} 2 1
V [M SL ] = ( [ s=1 PS ] )
s 2
i=1 s=1 exp{(yi M SL ui ) /2}
Para ilustrar este ejemplo, consideremos una muestra y1 . . . , y100 de tamao N = 100
generada a partir de un modelo como en (5) y (6) con = 1. La siguiente tabla entrega
los valores estimados a medida que el nmero de draws aumenta.
Tabla 1. Resultados del Ejemplo.

Nmero Simulaciones S=1 S = 10 S = 100 S = 1000 S = 10000
Estimador MSL 1,1828 1,1845 1,1775 1,0594 1,0416
Error Estndar (0,0968) (0,1093) (0,1453) (0,1448) (0,0091)
lnL(
) -136,31 -174,38 -190,44 -192,43 -192,35
Tal como se observa, para pequeos S el MSL es inconsistente. Para valores de S =

10,000 el estimador M SL ya se ha estabilizado aunque el error estndar presenta una
dinmica un opco errtica para estabilizase al final. Por su parte, el log likelihood decrece
conforme S crece aunque tambin eventualmente se estabiliza. Esta cada es esperada
ya que el simulador es insesgado para f (y|) pero es sesgado hacia arriba para lnf (y|)
ya que por la desigualdad de Jensen, se tiene que lnE[f(y|] > E[lnf(y|)] ya que la
funcin logaritmo natural es globalmente cncava.
5.5. Otros Mtodos

Si bien est fuera del alcance de este curso, existe al menos otros dos mtodos de es-
timacin de parmetros basados en simulacin. El primero de ellos se denomina Moment
Based Simulation Estimation (MSM). Basado en el mismo principio que el estimador
GMM, la evidencia sugiere que si bien este estimador necesita menos draws S para
obtener un estimador insesgado de , los resultados muestran que este estimador MSM
es bastante inestable.
Por ora parte, estn aquellos estimadores basados en inferencia indirecta o conocidos
tambin como estimadores de matching de momentos (Gourieroux, Monfort y Renault,
1993). La idea central es estimar los valores de mediante una modelo auxiliar y a partir
de este y mediante una equivalencia entre los parmetros del modelo auxiliar y aquellos
del modelo original, obtener los parmetros originales. La idea es similar al estimador
por minima distancia o tambin denominados Mnimos Cuadrados Asintticos (ALS),
ver tambin Smith(1993) o Gallant y Tauchen (1996).
5.6. Simuladores
Tal como se vio en ayudanta, estamos interesados en calcular la siguiente expresin
:
Z
I = E[h(x)] = h(x)g(x)dx (5.7)
donde, por simplicidad, x es generalmente un escalar la cual se desea integrar (integrate

out). En el contexto economtrico generalmente u est asociado como la variable a in-
tegrar mientras que x denota el vector de regresores.
Se define un simulador como un mtodo para calcular I. Existen variadas formas

de hacerlo, mas all del mtodo de integracin de Monte Carlo Directo presentado en la
seccin 4. La literatura sugiere un conjunto adicional de simuladores que han resultado
ser mas estables, incluso reduciendo los errores estndar. Veamos algunos de ellos.
5.6.1. Simulador de Frecuencias

Este simulador normalmente utilizado en modelos discretos ilustra claramente parte
de los problemas que se pueden encontrar en simulaciones.
Suponga que h(x) es una funcin indicador la cual toma el valor de 1 si xA y 0

en otro caso. De esta forma, deseamos calcular la siguiente integral :
Z
I= 1(xA)g(x)dx
5.6. SIMULADORES 143
el estimador MC Directo tendra la siguiente estructura :

S
1X
I= 1(xA)
S
s=1
donde xs , s = 1 . . . S son S draws de la funcin g(x). Se denomina simulador de frecuen-

cias, ya que estima I por frecuencias relativas por las cuales los S draws of xs caen en
A. La principal aplicacin de este mtodo es justamente el ejemplo descrito en (2.1), el
modelo de eleccin discreta multinomial. Para el caso de tres alternativas de eleccin,
la probabilidad p1 de escoger la primera alternativa viene dada por la expresin en la
ecuacin (2), una integral sobre el ortante positivo de una distribucin Normal bivaria-
da. De esta manera, p1 es la proporcin de draws (us1 , us2 ) de una Normal bivariada con
us1 0 y us2 0.
A pesar de su uso, este estimador tiene una serie de limitaciones. En primer lugar,
si se usa un numero moderado de replicaciones, el simulador promedio tiene una prob-
abilidad importante de tener valores iguales a 0. Esto es un problema en el caso del
SML ya que tenemos que calcular el logaritmo natural de esta cantidad. En segundo
lugar, este simulador no es diferenciable (y mas an, discontinuo) con respecto a los
parmetros que aparecen tanto en 1(xA) y/o en g(x). Por lo que no pueden ser uti-
lizadas las condiciones de primer orden introducindose problemas tanto tericas como
numricas.Y, en tercer lugar, este simulador no es tan bueno para aproximar cuando la
probabilidad asociada a una eleccin es baja. El simulador es muy inestable ante estas
situaciones, or ejemplo si un pj es muy cercano a 0.
5.6.2. Simulador de Importancia Muestral

Este simulador parte de la idea de rescribir (7) de la siguiente manera :
Z
h(x)g(x)
I = p(x)dx (5.8)
p(x)
Z
= w(x)p(x)dx (5.9)
donde p(x) es una densidad escogida de tal manera que (a) sea fcil obtener muestras
a partir de ella, (b) tenga el mismo soporte que el dominio original de integracin y (c)
donde h(x)g(x)/p(x) sea fcil de evaluar, que sea acotada y que tenga varianza finita.
A partir de all, se utiliza el estimador MC Directo de la integral basado en (8) y ya no
en (7):
S
1X
IIS = w(xs )
S
s=1
donde xs , s = 1 . . . S son S draws de la funcin p(x) y n de g(x). El trmino de impor-

tancia de muestreo o muestral se utiliza ya que w(x) determina el peso o importancia
de los diferentes puntos en el espacio muestral.
Entre sus ventajas est que es genera un estimador mas estable o suave si w(x) es
suave con respecto a los parmetros a ser estimados. Mas an, es muy til si los draws
de g(x) son muy difciles de obtener lo que es el caso cuando x es un vector de variables
aleatorias que estn correlacionadas.
Dentro del grupo de estimadores de importancia muestral se pueden destacar el sim-

ulador de Stern (Stern, 1992) y el simulador de GHK propuesto por Geweke (1992),
Hajivassiliou y McFadden (1994) y Keane (1994), ambos sern estudiados en la tarea
de esta seccin aplicados en un contexto de modelos de eleccin discreta.
5.7. Mtodos para Generar Nmeros Aleatorios

Como habrn notado, la obtencin de los simuladores anteriormente discutidos,
descansan en la necesidad de obtener draws de variables aleatorias. El objetivo de esta
seccin es justamente revisar algunos mtodos para obtener estos draws a partir de una
densidad como g(x) o p(x) la cual generalizaremos por f (x). Generalmente es suficiente
obtener draws de una densidad uniforme o normal donde softwares populares como
Excel ya lo traen incorporado. Ello pues draws de distribuciones mas complejas pueden
ser obtenidos a partir de estas distribuciones mas comunes.
5.7.1. Generadores de Pseudo-Nmeros Aleatorios Uniforme

Primero que nada, tcnicamente los computadores tiene mecanismos determinsticos
para generar estos nmeros aleatorios. De all que sean mejor descritos como pseudo.
Ello sin embargo, constituye una ventaja ya que se pueden repetir las simulacionmes
usando exactamente los mimos nmeros a partir de una semilla (seed) determinada.
En particular, pseudo random nmeros uniformes son obtenidos usando una secuen-
cia determinstica que imita las propiedades estadsticas de una secuencia de nmeros
aleatorios uniformes. Un buen generador se caracteriza por tener un perodo o ciclo largo,
una distribucin parecida a una uniforme y que produce draws independientes. Como
veremos mas adelante casi la totalidad de numeros pseudo aleatorios de cualquier dis-
tribucin pueden ser obtenidos a partir de transformaciones de numeros pseudo aleato-
rios uniformes.
Un generador estndar de este tipo de secuencias tiene la siguiente estructura :

Xj = (kXj1 + c)modm
donde el operador modulo amodb captura el residuo de la divisin entre a y b. Este
proceso genera una secuencia de nmeros entre el 0 y m por lo que la realizacin de una
variable uniforme es Rj = Xj /m. El valor de X0 se necesita para iniciar el proceso el
cual se denomina seed o semilla.
5.7. MTODOS PARA GENERAR NMEROS ALEATORIOS 145
5.7.2. Generadores de Variables no Uniformes

Tal como se mencion, realizaciones o draws de variables aleatorias de otras dis-
tribuciones incluida la Normal, pueden ser obtenidas a partir de realizaciones de ua
distribucin uniforme. Existen cuatro mtodos para ello (1) Transformacin Inversa,
(2) Transformacin, (3) mtodos de Aceptacin/Rechazo y (4) mtodos Mixtos o de
Composicin. En esta seccin veremos los dos primeros, dada su popularidad, dejando
al lector la revisin de los otros dos de ser su inters (para ello ver Ripley, 1987).
Transformacin Inversa
Sea F (x) la funcin de distribucin acumulada de la variable aleatoria continua x,

de tal manera que :
F (x) = P r[X x]
Dada una realizacin de la variable uniforme r, con 0 r 1, la Transformacin Inversa

:
x = F 1 (r)
entrega un valor nico de x ya que F es continua y montona creciente.
Por ejemplo, la cdf de una exponencial es 1 ex . Resolviendo para r = 1 ex

se obtiene que x = ln(1 r). De esta manera si tenemos una realizacin de una dis-
tribucin uniforme [0, 1] y obtenemos un 0,64 entonces x = ln(1 0, 64) = 1, 0217.
Este mtodo es particularmente fcil de utilizar si la forma analtica de F () es conoci-

da y x es una variable aleatoria continua. Si no se cuenta con una forma cerrada este
mtodo an sigue siendo factible aunque costoso desde el punto de vista computacional,
ya que comnmente las inversas cdfs estn disponibles como funciones en algunos soft-
wares.
El mtodo puede ser extendido para el caso de variables aleatorias discretas con cdf
que sean escalonadas o step. Por ejemplo, si x puede tomar valores enteros, entonces
una realizacin uniforme r = 0, 312 genera una realizacin x = j donde el entero j es
tal que F (j 1) < 0, 312 y F (j) 0, 312.
Un mtodo estndar para generar realizaciones normales es el mtodo de Box-Muller.

Este utiliza el mtodo de transformacin inversa el cual es aplicado a dos variables
normales independientes
en vez de que a una sola. Especficamente,
si r1 y r2 son iid
uniformes entonces x1 = 2lnr1 cos(2r2 ) y x2 = 2lnr1 sen(2r2 ) los que son iid
N [0, 1].
Transformacin
En algunos casos una variable aleatoria con una densidad deseada puede ser obtenida
por una transformacin de una variable aleatoria cuya distribucin sea fcil de obtener
realizaciones. De esta manera realizaciones se pueden obtener mediante transforma-
ciones simples.
Este mtodo es muy til cuando se requieren obtener realizaciones a partir de una
distribucin Normal. Ejemplo incluyen el cuadrado de una normal estndar la que gen-
era realizaciones Chi-Cuadrado ; o sumando el cuadrado de normales estndar la que
genera una realizacin Chi-Cuadrado con grados de libertad igual al nmero de nor-
males estndar que se estn sumando. Y as para el caso de la distribucin F. Cabe
sealar que esto no es exclusivo de la distribucin Normal.
5.7.3. Distribucin Multivariadas

Realizaciones o draws de distribuciones multivariadas es en general un ejercicio mu-
cho mas complicado que el caso de distribuciones univariadas, revisadas hasta ahora.
Por ejemplo, los dos mtodos de transformacin y transformacin inversa ya no pueden
ser aplicados en este contexto. En algunos casos el mtodo de composicin o mixto
pueden ser tiles ya que muchas distribuciones multivariadas son distribuciones mixtas.
Existen a su vez mtodos muy generales basados en los principios de la Estadstica

Bayesiana, tales como el muestreo de Gibbs u otros mtodos de Monte Carlo aplicados
a Cadenas de Markov. Estos mtodos no sern discutidos en estas notas pero para el
lector interesado puede partir leyendo Cameron y Trivedi, 2005 seccin 13.5 como tam-
bin en Gourieroux y Monfort, 1996 : 109-112.
Aqu nos concentraremos en el caso de la distribucin Normal Multivariada. En es-

ta situacin, realizaciones de esta distribucin pueden ser obtenidas de realizaciones
de distribuciones normal estndar univariadas. Especficamente, suponga que deseamos
obtener draws de una distribucin normal q-variada o de q dimensiones, de tal manera
que x N (0, ). Esto puede ser realizado por l mtodo de Transformacin basado en
el resultado de que la matriz tenga una descomposicin de Choleski del tipo :
= LL0
donde L es una matriz triangular inferior. Por ejemplo, para q = 2, la descomposicin

de Choleski es la siguiente :

11 12 l11 0 l11 l21
=
12 22 l21 l22 0 l22
2 = , l l
la que genera tres ecuaciones l11 2 2
11 11 21 = 12 y la tercera, l21 + l22 = 22
las que pueden ser resueltas para l11 , l21 y para l22 . Ahora bien, dada un vector ,
5.7. MTODOS PARA GENERAR NMEROS ALEATORIOS 147
q-dimensional cuyos elementos tiene una distribucin estndar Normal, no es muy dif-
cil verificar que si N (0, I) entonces x = L la que es una combinacin lineal de
normales, tiene una distribucin N (0, ). Especficamente, se tiene que E[L] = 0 y
que V ar[L] = E[L0 L0 ] = LL0 = . La clave de este mtodo es que combinaciones
lineales de distribuciones normales genera una variable que se distribuye tambin nor-
mal (multivariada), resultado que, no obstante, no aplica para otras distribuciones no
normales.
Captulo 6
Modelos de Duracin
En este captulo nos concentraremos en el anlisis y estimacin de modelos en que la

variable dependiente es el tiempo en que un individuo, familia u hogar permanece en un
estado determinado. En general, los se debe sealar que los modelos de duracin pueden
ser vistos como de duracin discreta o continua. Por fines explicativos se considerar el
modelo de datos de duracin discreta.
A lo largo de este captulo se recurrir frecuentemente al caso del desempleo, como

modo de ejemplo. Entonces, es ilustrativo comenzar el estudio de los modelos de du-
racin pensando en la duracin del desempleo como variable a ser explicada.
6.1. Datos de Duracin Discreta

Sea T una variable aleatoria entera no negativa la que representa el tiempo de salida
de un estado (situacin de desempleo) de un individuo perteneciente a una poblacin
homognea donde el tiempo se mide a partir del comienzo del fenmeno (momento en
el cual el individuo pierde su trabajo y pasa a ser desempleado).
La distribucin de probabilidades de esta variable aleatoria puede ser especificada de

diversas maneras, todas las cuales se encuentran relacionadas. Estas son: la funcin de
densidad de probabilidades, la funcin de sobrevivencia1 y la funcin de riesgo.2 Es
importante tener presente que al especificar una de ellas, las otras quedan automtica-
mente determinadas.
El concepto central, tanto en modelos tericos como estadsticos sobre duracin, es

la probabilidad condicional de salida (es decir, la probabilidad de que el evento, en este
caso desempleo, finalice). Definamos t como la probabilidad de finalizacin del perodo
de desempleo (es decir, la probabilidad de que el individuo encuentre trabajo) al tiempo
t, condicional a estar an desempleado en t 1. Este concepto es conocido como la tasa
1
Survivor function.
2
Hazard function.
149
150 CAPTULO 6. MODELOS DE DURACIN
de riesgo:3
t = P (T = t|T t) (6.1)
para t = 1, 2, 3... Intuitivamente se puede definir a la funcin de sobrevivencia, S(t),

como la probabilidad de seguir desempleado hasta al menos el perodo t:4
S(t) = P (T t) = 1 F (t) (6.2)
Esta funcin puede ser escrita como:
t1
Y
S(t) = (1 s ) (6.3)
s=0
con t 1 y con S(0) = 1. De (5.2) es posible notar que la funcin de distribucin

acumulada se define como:
F (t) = 1 S(t) (6.4)
La funcin de densidad de probabilidades de T entrega la probabilidad de que una

duracin completa sea exactamente igual a t, es decir, P (T = t):
t1
Y
f (t) = t (1 s ) = t S(t) (6.5)
s=0
Es decir, corresponde al producto entre la probabilidad condicional de dejar de estar

desempleado en el tiempo t (tasa de riesgo) y la probabilidad de mantenerse desempleado
en t (funcin de sobrevivencia). De (5.3) se sabe que:
S(t + 1) = S(t)(1 t ) = S(t) S(t)t
Reemplazando y ordenando se tiene que:
f (t) = S(t) S(t + 1) (6.6)
Note que la distribucin de T puede ser especificada en trminos de la funcin de den-

sidad, o de la funcin de sobrevivencia, o bien de la tasa de riesgo.
Generalmente, los modelos de anlisis de duracin son especificados en trminos de

la funcin de riesgo. Los datos para estimar el modelo sern duraciones, algunas com-
pletas otras incompletas (algunas personas dejaron de ser desempleadas, mientras que
otras an permanecen en esa condicin). As, la funcin de verosimilitud (esto es, la
probabilidad de observar los datos que se tienen dado el modelo) ser especificado en
trminos de la funcin de sobrevivencia y de la funcin de densidad.
3
Hazard rate.
4
Algo as como la probabilidad de que el fenmeno dure hasta al menos t.
6.2. DATOS DE DURACIN CONTINUA 151
6.2. Datos de Duracin Continua

Considere ahora el caso en que T es una variable aleatoria no negativa continua.
Denotando f (t), F (t) y S(t) como las funciones de densidad, acumulada y sobrevivencia,
respectivamente, se tiene que:
Z
S(t) = P (T t) = f (u)du (6.7)
t
Note que:
S(t)
f (t) = (6.8)
t
La funcin de riesgo es ahora la probabilidad instantnea de dejar de ser desempleado
en el tiempo t condicional a que el individuo lo ha estado hasta t. Corresponde a la
probabilidad de dejar el estado (de desempleo) en un intervalo de tiempo breve, digamos
entre t y t + t, dado que se encuentra desempleado en t es:
P (t T < t + t|T t) (6.9)
La funcin de riesgo se define como:5
F (t + t) F (t) f (t)
(t) = lm P (t T < t + t|T t) = lm = (6.10)
t0 t0 tS(t) S(t)
Un aspecto interesante respecto de la probabilidad de salida del estado (desempleo)
ser si esta vara a medida que transcurre el tiempo. Por ejemplo, a medida que pasa
el tiempo, ms difcil es para la persona desempleada encontrar trabajo (histresis). Se
dice que la funcin de riesgo presenta dependencia en la duracin si:
(t)
6= 0 (6.11)
t
Al igual que en el caso discreto, la distribucin de T puede ser especificada tanto en
trminos de f (t) como de S(t), o bien, de (t).
Reemplazando (5.8) en (5.10) se tiene:

1 S(t) logS(t)
(t) = = (6.12)
S(t) t t
Por lo tanto: Z
t
S(t) = exp (u)du = exp{(t)} (6.13)
0
donde (t) se denomina funcin integrada de riesgo. Nuevamente, estas relaciones per-
miten escribir la funcin de verosimilitud para una muestra dada en trminos de un
modelo de riesgo especfico.
5
En trminos ms formales, esta se define como:
f (t)
(t) =
1 F (t)
que corresponde a la densidad de una variable aleatoria truncada.
6.3. Estimacin no paramtrica de la Distribucin

6.3.1. Tiempo Discreto
Considere una muestra de n individuos de una distribucin dada para la cual ob-
servamos un conjunto de personas las cuales han completado su duracin (encontraron
trabajo) y otras para las cuales slo observamos el perodo vigente de desempleo (siguen
buscando trabajo).
Sea ti la duracin observada para el individuo i. Definiremos ci = 1 si el perodo de

desempleo se ha completado y ci = 0 si no. Para aquellos con duracin completa, la
probabilidad de la informacin observada viene dada por la funcin de densidad, f (t), y
para aquellos con duracin censuradas por la funcin de sobrevivencia. La verosimilitud
de la muestra observada viene dada por:
n
( t 1 )
Y Y
i
L= ctii (1 s ) (6.14)
i=1 s=0
Sea J la duracin mas larga en la muestra6 (es decir, el individuo que estuvo o est
ms tiempo desempleado) y definiendo nj como el nmero de salidas en tiempo igual
a j (nmero de personas que encontraron trabajo en la ltima semana) y rj como el
nmero de potenciales salidas en j (nmero de personas que pudieron haber encontrado
trabajo en la ltima semana), es decir, el nmero de individuos con duraciones j.
Entonces podemos reescribir la verosimilitud como sigue:
J
Y n
L= j j (1 j )rj nj (6.15)
j=0
Maximizando log(L) con respecto a j se tiene:

j = nj
(6.16)
rj
para j = 0, ....., J. Este es el estimador natural de j : la razn entre el nmero de salidas
en la duracin j y el nmero potencial de salidas en ese punto del tiempo. El estimador
correspondiente para la funcin de sobrevivencia es:
j1
Y j1
Y
k ) = r k nk
S(j) = (1 (6.17)
rk
k=0 k=0
6.3.2. Tiempo Continuo

Aqu habr un universo finito de distintas duraciones completas en la muestra, por
ejemplo, J. Ordenando estas duraciones de menor a mayor se tiene:
t1 < t2 < ... < tj (6.18)
6
Piense en J como medida en semanas: una semana, dos semanas, etc.
6.4. MODELOS PARAMTRICOS 153
Al igual que en el caso anterior, definiremos nj como el nmero de salidas en tj y rj

como el nmero potencial de salidas en tj . As, el estimador de mxima verosimilitud
para la funcin de riesgo en estos puntos ser como la ya definida y el estimador de la
funcin de sobrevivencia vendr dada por:
Y rj nj
=
S(t) (6.19)
rj
j|tj <t
Esta es conocida como la funcin Kaplan-Meier o el estimador de producto lmite y

tiene la forma de una funcin step declinante.
Ejemplo: Encuesta de desempleo (por cohortes) en UK. No incluye aquellos que se

retiran (ver grficos Stewart).
6.4. Modelos Paramtricos

La partida natural al considerar modelos paramtricos es aquel modelo donde la
funcin de riesgo es constante, (t) = t. La probabilidad condicional de dejar el
desempleo no vara en el ciclo, es decir, no depende de cunto tiempo el individuo ha
estado desempleado. Es posible mostrar que en este caso T (tiempo del ciclo) tiene una
distribucin exponencial. De las relaciones discutidas anteriormente, podemos observar
que para este caso:
(t) = t (6.20)
a lo cual se llega solucionando una sencilla integral. Adems:
S(t) = exp(t) (6.21)
f (t) = exp(t) (6.22)
La ecuacin (5.20) proporciona una grfica muy til para analizar lo adecuado del mod-
elo exponencial como representacin de los datos. La funcin de riesgo integrada es
(t) 7 , donde S(t)

= log[S(t)] es el estimador Kaplan-Meier de la funcin de sobre-
vivencia. La grfica de esta en funcin de t debiese ser una lnea recta que parte del
origen. Como una ilustracin, se presenta el grfico de los datos de observaciones de
desempleo de UK (ver figura 3).
7
Ver (13).
Existe una marcada curvatura en el grfico, sugiriendo que una representacin expo-
nencial de T puede no ser adecuada.8 La duracin media en el modelo exponencial es
1 y la varianza es 2 (la mediana
2 de la distribucin de duracin viene dada por la
solucin de S(t) = 0,5 y es log ). El modelo puede ser escrito en su forma log-lineal
como sigue:9
log(T ) = log() + (6.23)
donde tiene una distribucin extrema del tipo I (e tiene una distribucin exponencial
unitaria). As:
media : E(logT ) = log + (1) (6.24)
varianza : V (logT ) = 0 (1) (6.25)
donde (1) y 0 (1) son constantes conocidas 0,5772 y 1,6449, respectivamente. As,
log(T ) tiene una varianza conocida, la cual no depende de .
Una generalizacin simple pero importante de la distribucin exponencial, la cual per-

mite dependencia temporal10 de la duracin es la distribucin Weibull. Su funcin de
riesgo viene dada por:
(t) = (t)1 (6.26)
con , > 0. Esta funcin crece o decrece monotnicamente dependiendo si > 1 o
< 1 y se reduce a la exponencial si = 1.
8
De hecho, es posible testear si la linealidad es o no rechazada.
9
Por conveniencia en la estimacin.
10
Es decir, la probabilidad de finalizar el ciclo va cambiando conforme pasa el tiempo.
Considerando las relaciones antes vistas podemos observar que para el caso Weibull
se tiene que:
(t) = (t) (6.27)
S(t) = exp[(t) ] (6.28)
f (t) = (t)1 exp[(t) ] (6.29)
Para el caso de la distribucin Weibull se tiene que:

1 1
media : E(T ) = 1 + (6.30)

2 2 2 1
varianza : V (T ) = 1+ 1+ (6.31)

donde () es la funcin Gamma completa (para un ejemplo ver Lancaster 1990 Apndice
1).
Las funciones (1) y 0 (1) antes mencionadas son la primera y segunda derivada de
log(), respectivamente. Al igual que en el caso anterior, existe un test grfico muy til
basado en la transformacin Kaplan-Meier de la estimacin de la funcin de sobreviven-

cia. Dado que log((t)) = log()+log(t), un grfico entre log((t))
= log[log[S(t)]]
contra log(t) debera dar aproximadamente una lnea recta. Veamos el caso de UK (figu-
ra 4).
Observamos que se parece bastante a la lnea recta o por lo menos tiene menos curvatu-
ra que el grfico anterior. En el caso especial de la exponencial la lnea recta tambin
debera estar sobre la recta de 45 .
En forma similar al caso exponencial, podemos escribir el modelo Weibull como:
log(T ) = log() + 1 (6.32)

donde es la distribucin de valor extremo tipo I. Lo anterior implica que:

(1)
media : E(logT ) = log() + (6.33)

0 (1)
varianza : V (logT ) = (6.34)
2
Weibull introduce su parmetro en la varianza definida por la exponencial.
6.4.1. Estimacin
Considere una muestra de n individuos con una distribucin de duracin particular.
Sea ti la duracin observada para el individuo i y sea ci la variable indicadora, que toma
el valor 1 si el ciclo o racha es completada (el perodo de desempleo termin) y 0 si no.
La contribucin a la verosimilitud del individuo i viene dada por:
log(Li ) = ci log(f (ti )) + (1 ci )log(S(ti ))
log(Li ) = ci log((ti )) + ci log(S(ti )) + (1 ci )log(S(ti ))
log(Li ) = ci log((ti )) + log(S(ti ))
log(Li ) = ci log((ti )) (ti ) (6.35)
En el caso del modelo exponencial la funcin de verosimilitud para la muestra viene
dada por:
Xn
log(L()) = {ci log() ti } (6.36)
i=1
La primera derivada es:
n n
logL() 1X X
= ci ti (6.37)

i=1 i=1
As: Pn
M LE = Pi=1 ci
n (6.38)
i=1 ti
Ante la ausencia de censura esta expresin equivale simplemente a la inversa de la
duracin promedio en la muestra. La varianza asinttica viene dada por:
2 1
log(L())
V () = (6.39)
2
2
= Pn
V () (6.40)
i=1 ci
la cual crece a medida que aumenta el grado de censura.
Para el caso de la distribucin Weibull la log-likelihood es la siguiente:

n
X
logL(, ) = {ci log() + ci log() + ci ( 1)log(ti ) (ti ) } (6.41)
i=1
Se requieren tcnicas iterativas para maximizar esta expresin con respecto a y . La

inversa de la matriz Hessiana (con signo cambiado) puede ser utilizada para aproximar
la varianza del estimador y as calcular los errores estndar de los coeficientes.
A continuacin se presentan los resultados de estos modelos aplicados a los datos de UK:
Exponencial Weibull

100 0.55 (0.02) 0.56 (0.02)
1.0 0.86 (0.03)
log(L) -1905.1 -1888.9
Mediana (das) 127.2 117.4
La duracin est medida en das, luego los estimadores de estn en trminos diarios.
Ambos estimadores de son similares entre s e indican que existe una probabilidad
cercana al 4 % para salir del ciclo o racha (de desempleo) por semana. El modelo expo-
nencial ( = 1) se rechaza con test LR a favor de Weibull. Los modelos difieren en su
prediccin en la mediana de la distribucin. La duracin mediana de desempleo en la
muestra es alrededor de 101 das. As, ambos predicen una mediana un poco mayor a
la verdadera aunque la distorsin es reducida al utilizar el modelo Weibull.
6.4.2. Impacto de Factores Explicativos

Obviamente uno de los principales objetivos del modelamiento es examinar el im-
pacto de varios factores explicativos sobre la probabilidad de dejar la situacin de de-
sempleo. Por ejemplo, el ingreso individual dentro y fuera del trabajo o las condiciones
de demanda que existen en el mercado laboral local.
Una manera natural de incorporar estos factores al contexto paramtrico ya descrito, es

especificar uno de los parmetros en el modelo homogneo como funcin de un vector
de variables explicativas Z. En el caso de Weibull (recordar que la exponencial es un
caso especial), pensando en el requerimiento de no-negatividad, podemos especificar:
= exp{0 + Z 0 } (6.42)
Esto proporciona una funcin de riesgo del siguiente tipo:
(t; Z) = t1 exp{(0 + Z 0 )} (6.43)
(t; Z) = t1 exp{0 + Z 0 } (6.44)

As, este caso pertenece a la clase de modelos de riesgo proporcional. En estos modelos
una variable explicativa tiene el mismo efecto proporcional en todos los puntos del riesgo.
En forma alternativa, recordemos que el modelo de Weibull puede ser escrito como
un modelo lineal para el logaritmo de T :
log(T ) = log() + 1 (6.45)

con teniendo distribucin valor extremo tipo I. De esta forma, al incluir las variables
explicativas tenemos
log(T ) = 0 Z 0 + 1 (6.46)
log(T ) = 0 + Z 0 + (6.47)
que corresponde a una regresin log-lineal para T con un error distribuido valor ex-
tremo. En consecuencia, las variables explicativas tienen un efecto multiplicativo sobre
T.
Este modelo tambin pertenece a la clase general de los modelos log-lineales denom-
inados modelos de tiempo de falla acelerado. En estos modelos, los regresores aceleran el
tiempo de dejar el desempleo. De esta forma, con el fin de generalizar el modelo, tanto
el modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecen
como rutas naturales a este fin. Veamos cada uno en detalle donde los modelos de riesgo
proporcionales han sido los mas utilizados en la literatura economtrica sobre duracin.
Modelo de Riesgo Proporcionales

En este modelo, el riesgo (la probabilidad de dejar el desempleo en t dado que se est
desempleado en t 1) se especifica como el producto de un trmino que depende slo
de la duracin que haya transcurrido, conocido como el riesgo base (baseline hazard ), y
un trmino dependiente del vector de variables explicativas Z:
(t; Z) = 0 (t)(Z, ) (6.48)
Dado el requerimiento de no-negatividad, una expresin comnmente usada para es:
(Z, ) = exp(Z 0 ) (6.49)
lo que implica que:
0
(t; Z) = 0 (t)eZ (6.50)
y as:
log((t; Z))
= (6.51)
Z
entregando un efecto proporcional constante de cada variable explicativa sobre la prob-
abilidad condicional de dejar el desempleo.
Una propiedad interesante de la funcin de riesgo integrada es que, independientemente

de la distribucin de T , esta tiene una distribucin exponencial unitaria. En el caso del
modelo de riesgo proporcional, este puede ser escrito como
log(0 (t)) = log((Z, )) + (6.52)
Rt
donde 0 (t) = 0 0 (u)du es la funcin integrada de riesgo base y tiene una distribu-
cin valor extremo, la cual no depende de (Z, ). En el caso de que especifiquemos
(Z, ) = exp(z 0 ) entonces:
log0 (t) = Z 0 + (6.53)
entrega una regresin lineal para la variable transformada t = log(0 (t)) (conocer la
distribucin de ser fundamental para la construccin de pruebas especficas una vez
que el modelo ha sido estimado).
Notar que en el modelo de riesgo proporcional asumimos una distribucin conocida

para y estimamos la transformacin 0 junto con . La forma alternativa, que nos
conduce a los modelos de falla acelerada, asumen una transformacin conocida de t y
as estima la distribucin de junto con los . Veamos primero el tema de estimacin
paramtrica del riesgo base.
Especificacin Paramtrica
Utilizaremos una especificacin Weibull para el riesgo base. Como se vio anteriormente,
esto nos entregar:
i (ti ; Zi ) = t1
i exp{0 + Zi0 } (6.54)
Asumiendo nuevamente una muestra aleatoria, la contribucin a la log-likelihood del
i-simo individuo viene dada por:11
log(Li ) = ci logi (ti ) i (ti ) (6.55)

| {z } | {z }
log(riesgo) log(sobrevivencia)
As, la log-likelihood para la muestra observada es:

n
X
logL(, 0 , ) = {ci log()+ci (1)log(ti )+ci 0 +ci Zi0 ti exp(0 +Zi0 )} (6.56)
i=1
el cual puede ser maximizando con respecto a (, 0 , ) por un mtodo iterativo, como
por ejemplo, el de Newton-Raphson. Veamos un ejemplo utilizando el caso de empleo
en UK. El vector Z contiene variables como edad, dummy casado, tasa de desempleo,
el logaritmo del ingreso predicho mientras estuvo empleado, el logaritmo del ingreso
predicho si estuviese empleado. Los coeficientes , es decir, los efectos en el logaritmo
del riesgo, son presentados en la siguiente tabla. Para obtener los efectos en el logaritmo
de la duracin ( ) se debe invertir el signo y dividir por
:
Exponencial Weibull
0.90 (0.30)
1.0
Age/ 10 -0.32 (0.03) -0.30 (0.030)
Married 0.16 (0.12) 0.16 (0.12)
local unemployment rate -1.72 (0.60) -1.61 (0.60)
log(employment income) 1.53 (0.14) 1.46 (0.14)
log(unemployment income) -0.55 (0.06) -0.53 (0.06)
0 -9.28 (0.57) -8.56 (0.57)
log(L) -1816.6 -1809.3
Median (in days) 122.3 116.2
11
Ver (35).
La hiptesis = 1 es rechazada nuevamente (LR test). No obstante, el estimador es

ms cercano a 1 que en el modelo sin regresores ( = 0,86(0,03)). Como veremos ms
adelante,
est sesgado hacia abajo por la exclusin de regresores relevantes.
Los estimadores muestran un efecto fuerte de la edad (ceteris paribus). La probabil-

idad de salida (del desempleo) de una persona de 60 aos es aproximadamente 1/4 con
respecto a un tipo de 20 aos comparable. Un residente de un mercado laboral que ten-
ga la tasa de desempleo mas baja tiene una tasa de salida cercana a un 45 % mas alta
comparada con una persona que resida en un mercado laboral con la tasa de desempleo
ms alta. Por otra parte, existen fuertes efectos asociados al ingreso. Dada la forma
funcional estos coeficientes representan elasticidades.
Una distribucin alternativa puede obtenerse seleccionado una especificacin distinta

para el riesgo base. La estimacin sera la misma que la anterior bajo la especificacin
de la forma funcional apropiada para las funciones de riesgo y riesgo integrado corre-
spondientes.
Vimos anteriormente que un modelo Weibull puede tambin escribirse como:

0 1
log(T ) = Z0 + (6.57)

con distribuido valor extremo tipo I. Lo anterior puede reescribirse como:
(1) 0
log(T ) = Z0 + (6.58)

0
con E() = 0 y V () = (1)
2 . Ante la ausencia de censura, este modelo podra estimarse
por mnimos cuadrados ordinarios (MCO), el cual entregara un estimador insesgado de
. Pero MCO es inapropiado ante censura y debe ser estimado por mxima verosimili-
tud (ML).
Estimador de Verosimilitud Parcial de Cox

Este estimador entrega un mtodo para estimar sin tener que especificar la forma del
riesgo base. Considere el caso ms simple de no censura y todas las duraciones con un
tiempo nico, con duraciones completadas ordenadas ti < t2 < ... < tn . La probabil-
idad condicional de que el individuo i-simo deje de estar desempleado en ti dado los
individuos que pudieron haber salido en ese punto (es decir, an estn desempleados)
es:
(t ; Z )
Pn i i (6.59)
j=1 (ti ; Zj )
La ecuacin anterior es la probabilidad condicional (riesgo) del individuo i dada la

probabilidad existente para salir, la que puede ser escrita, dada la especificacin de
riesgo proporcional como:
exp(Zi0 )
Pn 0 (6.60)
j=i exp(Zj )
dado que el trmino 0 (ti ) se cancela. La log-likelihood a ser maximizada viene dada
por:
Xn Xn
log(L()) = Zi0 log exp(Zj0 ) (6.61)

i=1 j=i
El estimador puede fcilmente extenderse para casos de censura y empate (es decir, mas
de un individuo con la misma duracin). Una vez que ha sido estimado el riesgo base
puede ser estimado en forma no paramtrica como en el caso de Kaplan-Meier.
Los resultados de la estimacin con el estimador parcial de Cox para la misma base
de datos y con el mismo vector de variables explicativas Z, es el siguiente:

Age/ 10 -0.29 (0.03)
Married 0.18 (0.12)
Local unemployment rate -1.50 (0.60)
log(employment income) 1.42 (0.14)
log(unemployment income) -0.52 (0.06)
Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramtri-
cos. Dentro de las ventajas de estos modelos es que no se necesita ningn supuesto sobre
0 (t), la que en este caso particular, no influye mucho sobre los coeficientes estimados.
La desventaja es que 0 (t) debe ser estimado no paramtricamente.
6.4.3. Heterogeneidad Omitida y Modelos Mixtos

A pesar de que hemos introducido heterogeneidad, la cual puede resultar de las
diferencias en las caractersticas observadas (las cuales se mantienen constantes en el
tiempo), es esperable que existan otras caractersticas (no observables) que pueden in-
fluenciar la probabilidad de dejar la situacin de desempleo.
Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados. In-
tuitivamente, trabajadores ms diestros o que trabajan en sectores mas empleables son
los primeros en dejar de estar desempleados dejando a aquellos con menor probabilidad
de salida, y en consecuencia, creando la ilusin de una fuerte dependencia negativa de
la duracin que actualmente existe.
Existe un problema de identificacin entre la verdadera dependencia de duracin y

la dependencia de duracin esprea como resultado de la heterogeneidad no controlada.
Cmo podemos abordar este problema? Una forma natural es incorporar un escalar
el cual representa regresores omitidos en forma anloga a aquellos donde se introduce
heterogeneidad observada:
0
(t; Z, ) = 0 (t)eZ + (6.62)
Z 0
(t; Z, ) = 0 (t) e|{z}
|{z} (6.63)
| {z }
riesgo base no obs. obs.
donde = e . Usando las relaciones ya vistas la funcin de sobrevivencia se puede

escribir como:12 Z t
0
S(t; Z, ) = exp(eZ 0 ( )d( )) (6.64)
0
No obstante, no es observable. La funcin de sobrevivencia condicional slo en ob-
servables es: Z
S(t; Z) = S(t; Z, )g()d (6.65)
0
donde g() es la funcin de densidad de probabilidades de . As, podemos notar el
problema de identificacin. Combinaciones diferentes de 0 (t) y g() pueden entregar
el mismo S(t; Z), es decir, la misma distribucin de los datos observados. Dos enfoques
han sido considerados para la estimacin de modelos mixtos de este tipo: paramtricos
y no-paramtricos.
En el modelo paramtrico se especifica una distribucin para y los parmetros de

la distribucin se estiman conjuntamente con aquellos del riesgo individual. Una forma
comnmente adoptada es la distribucin gamma para con media unitaria y varianza
2 . As, la integracin que resulta para la funcin de sobrevivencia condicional slo en
observables es: h i 1
0
2
S(t; Z) = 1 + 2 eZ 0 (t) (6.66)
A medida que 2 0 se vuelve al modelo homogneo. Al diferenciar se puede demostrar

que la funcin de riesgo condicional slo en observables es:
0 2
(t; Z) = 0 (t)eZ S(t; Z) (6.67)
donde tambin est el problema de identificacin.
Veamos el caso de los datos para UK nuevamente, donde junto con las anteriores ver-
siones homogneas, se ha incluido una forma de heterogeneidad distribuida gamma.
Exponencial Weibull Weibull/Gamma

1.0 0.90 (0.03) 1.35 (0.08)
:
Age/ 10 0.32 (0.03) 0.34 (0.03) 0.36 (0.04)
Married -0.16 (0.10) -0.18 (0.12) -0.38 (0.15)
Local unemployment rate 1.72 (0.51) 1.78 (0.60) 1.13 (0.71)
log(employment income) -1.53 (0.12) -1.61 (0.15) -2.00 (0.18)
log(unemployment income) 0.55 (0.05) 0.59 (0.05) 0.82 (0.07)
0 9.28 (0.51) 9.48 (0.61) 10.03(0.73)
2 0 0 1.18 (0.19)
logL -1816.6 -1809.3 -1777.7
Median (in days) 122.3 116.2 99.9
12
Ver (13).
El modelo Weibull homogneo es rechazado en favor del gamma mixto: 2 es significa-

tivamente mayor que cero. El estimador del parmetro de dependencia de duracin ,
es significativamente mayor que 1 en el modelo de gamma de heterogeneidad, mientras
que era significativamente menor que 1 en los modelos que no controlaban por hetero-
geneidad.
Existen tambin diferencias en los estimadores (efectos de duracin): casados ahora

tienen una duracin significativamente mas corta que aquellos solteros comparables. El
efecto de la tasa de desempleo local es insignificante.
Ambas elasticidades ingreso son un poco mayores en el modelo gamma heterogneo.

La mediana predicha es mas cercana a la muestral en este ltimo modelo.
Captulo 7
Datos de Panel
7.1. Introduccin
Un conjunto de datos de panel o longitudinales es aquel que sigue individuos
(firmas, pases) a travs del tiempo y en consecuencia entrega mltiples observaciones
para cada individuo. As, datos de panel es la unin de datos en serie de tiempo y de
corte transversal. El anlisis de la de conductas utilizando datos de panel es una de
las reas ms atractivas de la econometra. En esta y la siguiente clase daremos una
introduccin a este tema.
7.1.1. Porqu usar Datos de Panel ?

Mas observaciones : Un panel contiene NT observaciones. Por convencin, in-
dexaremos la dimensin temporal como t = 1 T y la dimensin transversal
como n = 1 N . Tpicamente T es relativamente pequeo mientras N es rela-
tivamente mayor. Notar que incluso si T = 2 tendremos un panel que puede ser
utilizado para realizar estimaciones. El aumento en el nmero de observaciones
aumentar el nmero de grados de libertad, reducir el grado de colinealidad
muestral y aumentar la eficiencia de cualquier estimador que se obtenga.
Discriminacin entre hiptesis : Al utilizar el componente de series de tiempo de

los datos puede ser posible discriminar entre hiptesis aspecto que no es posible
realizar al utilizar solo datos de corte transversal
Ejemplo: Considere el efecto de la sindicalizacin sobre los salarios. Suponga que

observaciones de corte transversal sugieren que firmas donde existen sindicatos,
sus trabajadores tienen salarios mas altos. Esto es consistente con a lo menos dos
hiptesis. Primero, que los sindicatos hacen aumentar los salarios por encima de
la productividad marginal de la mano de obra. Segundo, que diferentes niveles
de sindicalizacin reflejan factores diferentes al poder del sindicato, como ser la
productividad de la mano de obra individual. Estas dos apreciaciones no pueden
ser distinguibles en el caso de que slo contramos con datos de corte transversal.
165
166 CAPTULO 7. DATOS DE PANEL
Sin embargo, si pudiramos seguir a los trabajadores durante el tiempo entonces

podramos determinar si el salario de un trabajador con una habilidad constante
sube o no cuando pasa de no estar sindicalizado a estarlo.
Controlando por heterogeneidad individual no observable: Similar al caso anteri-

or el que lo ilustraremos mediante un ejemplo. Suponga que estamos estudiando
la utilizacin (consumo) de bienes pblicos entre pases e imagine que existe un
factor que vara entre los pases pero que no es fcilmente medible : uno de estos
factores puede ser actitudes polticas con respecto a la provisin pblica de ser-
vicios. Dado que en una poltica pro-estado (estado benefactor) es esperable que
el consumo de bienes pblicos aumente, en el caso de estados benefactores como
Suecia, uno esperara encontrar una diferencia significativa en la propensin al
consumo de bienes pblicos con respecto al promedio del resto de los pases. En
una regresin de corte transversal, podramos manejar este problema al utilizar
una variable dummy para Suecia. Esto, sin embargo, lo que logra es sacar com-
pletamente a Suecia de la muestra lo que no es satisfactorio. Este no ser el caso
para datos de panel, como veremos en seguida.
Considere el siguiente proceso de generacin de datos (bivariado):
yit = i + i xit + uit i = 1....N t = 1, ....T (7.1)
donde, en principio, tanto i como i pueden variar entre individuos. Suponga

que agrupamos las NT observaciones y estimamos el modelo clsico de regresin
(con y fijos) :
yit = + xit + uit (7.2)
Esta especificacin ignora la heterogeneidad entre individuos. Cules son las

implicancias de esto ?
(i) Interceptos heterogneos (i 6= ). Tanto los coeficientes de la pendiente co-

mo de los interceptos estarn sesgados al ser estimados por OLS y el sesgo
no tendr signo determinado. Datos de panel pueden ser tiles en este caso.
Ver Figura.
7.1. INTRODUCCIN 167
OLS
X
X
alfa 3 X
X
X
X X
X
X
X
alfa 2 X
X X
X X
X
alfa 1
(ii) Pendientes e interceptos heterogneos (i 6= y i 6= ). Los estimadores

OLS de las pendientes e interceptos sern sesgados y sin sentido. Tambin
se sigue de que modelos estndar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
i=3
OLS
i=2
i=1
i=4
Controlando por variables omitidas (no observadas o mal medidas): Datos de panel
permiten al investigador usar los elementos tanto dinmicos como de individuali-
dad de los elementos de un set de datos para controlar por los efectos de variables
faltantes o inobservables. Esta es una de las principales atracciones acerca del uso
de datos de panel.
Considere el siguiente modelo :
yit = + 0 xit + 0 zit + uit , it N (0, u2 ) (7.3)
Bajo los supuestos usuales, la estimacin por OLS de (3) entregar estimadores
insesgados y consistentes del vector de parmetros y . Suponga, sin embargo,
de que el vector de variables Z no es observable pero donde la matriz de covarianza

entre X y Z no es cero. En este caso, los estimadores OLS de estarn sesgados,
dado que zit representara el caso clsico de omisin de variable.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisin de variable.
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que slo difieren entre individuos. As, podemos
tomar las primeras diferencias de (114) con respecto al tiempo para obtener
:
(yit yit1 ) = 0 (xit xit1 ) + (it it1 ) (7.4)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal man-
era que ahora se pueden obtener estimadores insesgados y consistentes de
.
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviacin de la observacin de cada individuo sobre la media entre todos
los individuos (en cada perodo), de la siguiente forma :
yit yt = 0 (xit xt ) + (it t ) (7.5)

P
donde yt = N1 N i=1 yit representa la media grupal (el valor promedio de la
variable del grupo i = 1 N en cada perodo t )
En ambos casos las transformaciones han "sacado"la variable-problema no

observada (o mal medida) Z. Como consecuencia, la estimacin por OLS de
(117) o (118) entregar estimadores insesgados y consistentes de los que no
podran haber sido obtenidos mediante series de corte transversal o en series
de tiempo en forma aislada.
Modelamiento de la Dinmica de Ajuste: Datos de panel son particularmente

tiles para el anlisis de la duracin de situaciones econmicas como desempleo
o pobreza. Dependiendo del largo del panel estos nos pueden dar luces sobre la
velocidad de ajuste a shock exgenos. Aunque estos deben ser modelados con
largos datos de panel mediante tcnicas denominadas Datos de Panel Dinmicos
(DPD), los que veremos en la prxima clase.
7.1.2. Algunos Problemas de los Datos de Panel

Costos de recoleccin de los datos : Algunos datos de panel son terriblemente
costosos en su recoleccin y requieren largos horizontes de investigacin. Ellos
presentan todos los problemas clsicos de recoleccin de datos como cobertura, no
respuesta, seleccin endgena (i.e. truncamiento endgeno), etc.
7.1. INTRODUCCIN 169
Medicin del Error Compuesto : En aquellas situaciones en que medir el trmino

de error es un problema, esto puede simplificarse o bien exacerbarse cuando se
utilizan datos de panel.
Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiem-

po t por el hogar i con cierto error :
xit = xit + it (7.6)
donde it es una medida del error con media cero y varianza seccional igual a .
Si asumimos de que Cov(x, ) = 0 entonces V ar(xit ) = V ar(xit ) + . Ahora,

si vamos a utilizar estos datos para eliminar algunos efectos no observables (como
en la ecuacin (117)) entonces tenemos lo siguiente :
xit = xit + it
V ar(xit ) = V ar(xit ) + 2 2 (1 ) (7.7)
donde es la correlacin entre el error de medicin de dos perodos. Ello puede

sugerir dos casos extremos:
Caso (i) Errores Independientes del Tiempo (autocorrelacin perfecta) Suponga de

que un hogar comete el mismo error ao tras ao ( por ejemplo el hogar se
equivocan en ingresar el valor de su casa). En este caso tender a uno y en
consecuencia :
xit xit
V ar(xit ) V ar(xit ) (7.8)
De esta manera, datos de panel permiten que los errores de medicin sean
.eliminados"de los datos y as los parmetros de inters sean estimados sin
sesgo.
Caso (ii) Suponga que los errores de medicin no estn correlacionados en el tiempo
( = 0 ). En este caso, encontraremos de que al diferenciar la varianza en
el error de medicin ser duplicada. Si la varianza del verdadero valor de
X es relativamente baja (e.g. existe una persistencia en el tiempo en X)
entonces, al diferenciar los datos significar que la "seal.es absorbido por el
ruido". En general, notar de que si < 0,5 al diferenciar los datos tendr un
efecto desproporcionado sobre la varianza del error en la medicin relativo a
la varianza propia de la variable en s.
Sesgo de Respuesta Sistemtica y Reduccin Sistemtica : El primer sesgo surge

al tener que visitar en forma reiterada al mismo individuo y las respuestas pueden
entonces ser endgenas; las personas tienden a exagerar. El segundo sesgo est
relacionado con el hecho de que las los hogares o individuos entrevistados en el
pasado pueden ya no serlo en el presente ya que o bien murieron, quebraron,

dejaron de ser pobres, etc, lo que puede introducir un sesgo hacia atrs. Esto
se puede corregir con los denominados pseudo-paneles, tpico que est fuera del
alcance de este curso.
7.2. Un Modelo Lineal General para Datos de Panel

El modelo bsico de datos de panel combina series de tiempo con datos en corte transver-
sal en un solo modelo el cual puede ser escrito de la siguiente forma :
yit = + Xit + uit , i = 1....N, t = 1.....T (7.9)
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelos
de datos de panel dependern de los supuestos que se realicen sobre los errores no ob-
servados uit . Existen principalmente dos alternativas :
El one-way error component model (modelo de error de componente en un so-

lo sentido) el cual asume de que la estructura del error se define como sigue:
uit = i + it , it iid(0, 2 ) (7.10)
donde i denota efectos especficos al individuo que no son observables y it son los
denominados efectos idiosincrticos. Los i son invariantes en el tiempo y dan cuenta
de cualquier tipo de efecto individual no incluido en la regresin. Un ejemplo estn-
dar en ecuaciones de ganancia es la habilidad; en funciones de produccin agrcola uno
de estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobre
crecimiento de pases se pueden incluir normas culturales (e.g. con respecto al ahorro o
riesgo).
El two way error component model se asume de que la estructura del error se
define de la siguiente manera :
uit = i + t + it , it iid(0, 2 ) (7.11)
donde, nuevamente, i denota efectos individuales especficos no observables y donde

t denota efectos temporales no observables. Estos efectos se asumen que son comunes
entre individuos pero que varan en el tiempo. Ejemplos incluiran variaciones en el
clima o cambios en la poltica econmica en general.
7.2.1. El One Way Error Component Model

Podemos re escribir (122) en forma vectorial de la siguiente forma :
Y = 1N T + X + u = Z + u (7.12)
7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 171
donde las dimensiones de las matrices son Y = [N T 1], X = [N T K], Z = [1N T X]

y 0 = [0 0 ] en donde 1N T es un vector de unos de dimension N T . De esta forma
(123) puede ser expresado como sigue:
u = Z + (7.13)
donde u0 = (u11 , ...u1T , u21 , ...u2T , ....uN 1 , ...uN T ) y Z = IN 1T , con IN la matriz

identidad y el producto Kronecker.
De esta manera Z es la matriz de seleccin la que est compuesta de ceros y unos

y que captura los efectos de i . Usaremos estos resultados para calcular dos matrices
adicionales. La primera es :
P = Z (Z0 Z )1 Z0
N T N T
la cual es la matriz de proyeccin sobre Z ; matriz que promedia las observaciones

en el tiempo para cada individuo. La segunda matriz es :
Q = IN T P
la cual permite obtener las desviaciones sobre las medias individuales.

PT uit
De esta forma P u, tiene el tpico elemento ui = t=1 T y la matriz Qu tiene este
como elemento tpico uit ui
Estas relaciones se usan extensivamente para derivar los modelos de datos de panel.
Ahora consideraremos dos supuestos sobre los efectos individuales i .
Modelo de Efectos Fijos

El modelo de efectos fijos asume que los efectos individuales i son parmetros
determinsticos los que debern ser estimados. Este sera el caso si N representa la
"poblacin"tal como el conjunto de pases o estados o firmas, y que nuestras inferencias
es solamente relacionada sobre las N observaciones que se dispone. As la inferencia es
condicional sobre las N observaciones en particular : no estaremos utilizando los resul-
tados para inferir aspectos relacionados a otro conjunto de pases/firmas/individuos.
Al sustituir (126) en (125) tenemos que:
y = 1N T + X + Z + = Z + Z + (7.14)
Podemos usar OLS sobre (127) para generar estimadores de y el vector de y al

incluir (N 1) variables dummy para los efectos fijos no observados. Esta estimacin
generalmente se conoce con Estimador Mnimo Cuadrtico de Variables Dum-
my (LSDV). Cada uno de los coeficientes sobre i miden la diferencia de los efectos
individuales con respecto a un individuo base de comparacin ( representado por ).
Sin embargo, si N es grande con respecto a N T existirn demasiados parmetros a

estimar (, y los N 1 efectos individuales especficos) en (127). Comnmente, el in-
ters del investigador estar en saber los valores de , y en consecuencia, desearemos
simplemente controlar, y no estimar, los efectos individuales los que, despus de todo,
son una amalgama de diferentes aspectos de la heterogeneidad.
La alternativa mas comn para estimar esta situacin es el estimador de efectos fijos.
Primero, deberemos pre multiplicar el modelo (124) por la matriz de seleccin Q la cual
calcula las desviaciones con respecto a la media grupal (de individuos). La observacin
representativa para el individuo i en el tiempo t es :
(yit y i ) = ( i ) + (Xit X i ) + (i i ) + (vit v i ) (7.15)
P
donde y i = T1 Tt=1 yit es la media del valor y para el individuo i sobre todo el perodo de
observaciones (t = 1 T ). Notar de que por definicin de que el primer y tercer trmino
de la parte derecha de (128) son cero. En una notacin vectorial mas conveniente queda
de la siguiente forma :
Qy = QX + Q (7.16)
donde hacemos uso del hecho de que QZ = Q1N T = 0 dado que el promedio temporal
del efecto invariante en el tiempo es simplemente el efecto en si mismo. De esta forma,
podemos estimar como sigue :
eW = (X 0 QX)1 X 0 Qy (7.17)
donde
V ar(eW ) = 2 (X 0 QX)1 = 2 (X
e 0 X)
e 1 (7.18)
y donde podemos recuperar el valor estimado de como :
eW = y X eW

donde aqu, P
el promedio se calcula sobre todas las observaciones basados en la restric-
cin de que N i=1 i = 0 el cual es un supuesto estndar para las variables dummy.
Resultados
Si (127) es el verdadero modelo, el estimador de efectos fijos es BLUE slo mientras
vit tenga las caractersticas Gaussianas estndar. A medida de que T tiende a infinito,
entonces el modelo es consistente para todos los parmetros del modelo. Sin embargo,
si T es fijo y N tiende a infinito, entonces el estimador FE de ser consistente. El
estimador FE de los efectos individuales (+i ) no son consistentes dado que el nmero
de parmetros aumenta a medida de que N aumenta.
Pruebas de Efectos Fijos

Podemos testear para la existencia de efectos fijos al usar un test F estndar donde la
nula es que :
Ho : 1 = 2 = N 1 = 0 (7.19)
La suma de cuadrados de residuos restringidas viene dado por la suma de los cuadrados
de los residuos del modelo OLS sobre los datos agrupados y el modelo sin restringir son
la suma de los residuos al cuadrado del modelo de efectos fijos. La prueba es la siguiente
:
(rrss urss)/(n 1)
FF E = F[n1,ntnk] (7.20)
urss/(nt n k)
Generalmente nos referiremos a esta como la restriccin de agrupamiento sobre la het-
erogeneidad no observable en el modelo.
Modelo de Efectos Aleatorios

Suponga ahora que los efectos individuales no son determinsticos sino que cada uno
de ellos son una variable aleatoria. Esto sera un supuesto mas razonable en el caso de
que nuestros datos fuera una muestra genuina utilizada con el fin de realizar inferencias
sobre la poblacin como un todo. Estos efectos aleatorios no observables pueden ser
pensados a nivel de individuos como habilidades mientras que a nivel de firma podemos
pensar en trminos de capacidad administrativa. Asumiremos de que i iid(0, 2 ) y
que ambos, i , vit son independientes de Xit para todo i y t. Ahora, siendo los efectos
individuales aleatorios la varianza del trmino de error ser :
V ar(uit ) = 2 + 2 (7.21)
El aspecto clave de esta varianza es que a pesar de ser homocedstica, tiene correlacin
serial al interior de cada unidad de corte transversal (dado que cada .efecto individual"de
cada persona persiste en el tiempo). En particular, sea :
Cov(uit , ujs ) = (i + vit )(j + vjs ) (7.22)
As, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = 2 + v2 . Por otro lado, si

i = j pero t 6= s entonces se tiene que la Cov(uit , ujs ) = 2 y cero en otro caso. Por
extensin, tenemos lo siguiente :
= Corr(uit , ujs ) = 1 para i = j; t=s
2
= Corr(uit , ujs ) = 2 para i = j; t 6= s
( + 2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz de
varianzas covarianzas para el modelo de datos de panel no ser del tipo "Gaussiano".
Para proceder con la estimacin necesitaremos analizar la estructura de esta matriz.
Para examinar el estimador de efectos aleatorios necesitaremos introducir una nueva

matriz de seleccin. Sea JT una matriz de unos de dimensin T de tal forma de que
Z Z 0 = I N JT .
De esta manera, a partir de (126) podemos calcular la matriz de varianza covarian-

za (la cual es ahora de N T N T )
= E(uu0 ) = Z E(0 )Z0 + E( 0 ) (7.23)
la cual se puede simplificar en la siguiente expresin :
= (T 2 + 2 )(IN J T ) + 2 (IN ET ) = 12 P + 2 (7.24)
donde J T = JT /T , ET = (IT J T ) y 12 = T 2 + v2 .
Con esta definicin podemos entonces aplicar a (127) el estimador GLS estndar para
derivar los estimadores de los coeficientes de , bajo el supuesto de efectos aleatorios:
bGLS = [X 0 1 X]1 [X 0 1 y] (7.25)
El nico problema (y uno no trivial) es que es de rango (N T N T ) y la inversin

de esta matriz es extremadamente difcil. Un sinnmero de trucos se han desarrollado
para salvar esta traba.
La forma de resolucin a este problema mas popular introduce los denominados es-
timadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consis-
tentes en el promedio a travs del tiempo para cada una de las N observaciones :
0
y i. = + X i. + ui i = 1, ...N (7.26)
donde :
T
1X
y i. = yit
T
t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelo
bsico en (127) :
P y = P 1N T + P X + P (Z + ) (7.27)
el cual entrega el siguiente estimador :
eB = [X 0 (P J N T )X]1 [X 0 (P J N T )y] (7.28)
Este estimador se denomina entre grupos pues ignora cualquier variacin al interior del
grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la in-
formacin de corte transversal simple sobre la variacin entre los grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresa-
do como :
(X 0 QX) X 0 (P J N T )X 1 (X 0 Qy) X 0 (P J N T )y
bGLS = [ + ] [ + ] (7.29)
2 12 2 12
Podemos simplificar la expresin anterior mediante la siguiente notacin. Sea WXX =

X 0 QX, WXY = X 0 Qy, BXX = X 0 (P J N T )X, BXY = X 0 (P J N T ) y finalmente,
2
2 = 2 .
1
Usando estas definiciones podemos re-expresar (142) como :
bGLS = [WXX + 2 BXX ]1 [WXY + 2 BXY ] (7.30)
el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.
1
Finalmente, notar de (130) de que WXX WXY es simplemente el estimador al interi-
1
or del grupo (o intra grupo, WG) y de (141) de que BXX BXY es el estimador entre
grupos (BG) de tal forma que :
bGLS = eW + (1 )eB (7.31)
con = [WXX +2 BXX ]1 WXX . El estimador GLS en (144) es un promedio ponderado

entre los estimadores entre grupos e intra grupo. El parmetro clave en la ponderacin
es . Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces 2 tender a cero, y por tanto a
la unidad. En este caso, el estimador GLS tender al estimador intra grupo o el
estimador LSDV.
(ii) Si 2 tiende al infinito entonces tender a cero y en consecuencia el estimador

GLS converger al estimador entre grupos.
(iii) Si 2 = 0 (i.e. los efectos individuales son determinsticos) entonces 2 = 1 y as

el estimador GLS tender al estimador OLS (el cual entrega igual ponderacin a
la variacin intra grupo y inter grupos).
Podemos pensar, en consecuencia, a los estimadores LSDV (FE) y el estimador OLS

con los datos agrupados como casos especiales del estimador GLS donde el estimador
LSDV trata a todos los efectos individuales como fijos y diferentes y donde el estimador
OLS asume de que todos son fijos pero idnticos. El estimador GLS de efectos variables
permite a los datos considerar una posicin intermedia.
Estimacin Factible del estimador GLS

Como en todos los casos de estimadores GLS, necesitamos un procedimiento para
estimar los componentes de la matriz de varianzas y covarianzas de tal manera de que la
podamos utilizar para estimar los parmetros del GLS. Necesitamos, en consecuencia,
estimaciones de 2 y 2 .
La primera opcin es usar una estimacin mxima verosmil interativa. Bajo los supuestos
de normalidad para i y it podemos escribir la funcin de verosimilitud de la siguiente

manera:
NT N 1
log L(, , 2 , 2 ) = constante log 2 + log 2 2 u0 1 u (7.32)
2 2 2
y maximizarla en la forma usual, utilizando los estimadores entre grupos como los val-
ores iniciales de .
Alternativamente 1 , valores consistentes de 2 pueden ser derivados a partir de los

estimadores intra grupos ( ya que este estimador suprime los efectos entre grupos) y los
estimadores de 2 pueden ser obtenidos a partir de los estimadores entre grupos ( ya que
suprime el efecto intra grupo). Estos estimadores consistentes pueden ser sustituidos en
el estimador GLS.
Si el modelo de efectos aleatorios es correcto, entonces el estimador GLS basado en

las componentes verdaderas de varianzas es BLUE. Todos los estimadores FGLS sern
consistentes a medida de que N o T tiendan a infinito.
Resumen
El mtodo de estimacin a ser usado depender en si asumimos de que los efectos in-
dividuales sean fijos o aleatorios. Resulta ser de que los valores para los parmetros
pueden variar dramticamente, en el caso mas comn donde N es grande y T pequeo,
entre estimadores intra o entre grupos. Cuando slo existen pocas observaciones en el
tiempo resulta mejor usar los elementos de corte transversal de los datos para estimar
aquella parte de la relacin que contenga variables que difieren entre un individuo al
otro (el estimador entre grupos). Ello permite de que la parte de serie de tiempo de los
datos sea usada en forma eficiente de tal manera de rescatar la parte comn de dicha
relacin entre individuos.
Problemas de Especificacin
Hasta el momento se ha asumido de que los efectos individuales son o bien fijos
(i.e. no estocsticos) o si estos eran aleatorios, la covarianza entre los efectos no observ-
ables y las variables xi es cero. Esto puede no ser muy realista. Por ejemplo, en una
funcin de produccin las capacidades administrativas no observables podran estar cor-
relacionadas con la eleccin de los insumos.
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuando los efec-
tos i son tratados como variables aleatorias pero la varianza entre estos y las variables
xi no son cero, el estimador de efectos aleatorios GLS ser sesgado e inconsistente. Da-
do que el estimador intra grupo .eliminaompletamente el efecto de los i , entonces el
estimador de efectos fijo intra grupo es insesgado y consistente.
1
ver la rutina existente en STATA
Un corolario del resultado anterior es el siguiente. Por una parte, si Cov(ui , xi ) 6= 0

entonces W es BLUE y por lo tanto GLS = B + (1 )W estar sesgado. Por
otra parte, si Cov(ui , xi ) = 0 entonces se tiene que GLS = b + (1 )W es BLUE
y asintticamente eficiente.
El test de especificacin de Hausman puede ser tambin utilizado en este caso. De

no existir covarianza (i.,e. bajo la nula) entonces el estimador GLS ser BLUE y asin-
tticamente eficiente; pero bajo la alternativa de que existe covarianza entre los efectos
y las variables xi , el estimador GLS ser sesgado. En contraste, el estimador intra grupo
(efecto fijo) ser consistente y BLUE (pero no asintticamente eficiente) bajo la alterna-
tiva y consistente bajo la nula. La prueba de Hausman pregunta simplemente si existen
diferencias significativas entre los estimadores GLS y intra grupo y viene denotado de
la siguiente forma :
m = (bW bGLS )0 V ar(bW bGLS )1 (bW bGLS ) 2[k] (7.33)
donde la hiptesis nula es que la covarianza es cero. Covarianza significativa entre los
efectos i y las variables xi har que el valor de m sea grande lo que rechazar el test
y deber estimarse, entonces, utilizando el estimador de efectos fijos intra grupo.
7.2.2. El Two Way Error Component Model

Suponga de que el trmino de error tienen dos efectos sistemticos no observables
de la siguiente manera :
uit = i + t + it it iid(0, 2 ) (7.34)
Podemos re escribir esto en forma vectorial como :
u = Z + Z + (7.35)
donde Z fue anteriormente definido y Z = 1N IT es la matriz de variables dummies

temporales que capturan el efecto t si estos son parmetros fijos.
El Estimador de Efectos Fijos

Como fue definido anteriormente, si i y t son determinsticos (y vit es indepen-
diente de los xit ) podemos utilizar el estimador LSDV el cual incluye N 1 variables
dummy para cada efecto individual y T 1 variables dummy para los efectos temporales.
Esto, sin embargo, consume una gran cantidad de grados de libertad los que pueden
hacer invlida la estimacin.
Podemos usar no obstante, una versin modificada del estimador intra grupo mediante
una transformacin que "saque"los efectos de i y t . Re definiendo la transformacin
Q tenemos :
Q = IN IT IN J T J N IT + J N J T (7.36)
Esta transformacin significa que el tpico elemento del vector y viene dado por :
ye = (yit y i. y .t + y) (7.37)
donde el segundo trmino de la expresin a la derecha promedia a travs del tiempo (

y en consecuencia saca el efecto temporal); el tercer trmino promedia entre individ-
uos para el mismo perodo ( as sacando el efecto individual); mientras que la ltima
expresin promedia los efectos entre los individuos y entre los perodos de tiempo (recu-
perando la variacin no explicada de los efectos individuales y temporales). Aplicando
esta transformacin al trmino de error tenemos el siguiente resultado importante :
u
eit = (uit ui. u.t + u.. ) = (it i. .t + .. ) (7.38)
Podemos entonces estimar los parmetros de inters como :
e = (X 0 QX)1 X 0 y (7.39)
con la estimacin del intercepto comn como sigue :
e ..
e = y .. X (7.40)
(ver Baltagi pp.28 para una derivacin completa )
Prueba de Efectos Fijos

Como en el caso del one way eror component model, podemos testear por la presencia
de efectos fijos usando la prueba F estndar sobre la nula :
Ho = 1 = n1 = 1 T 1 = 0 (7.41)
Modelo de Efectos Aleatorios

Ahora suponga que ambos efectos individuales y temporales son no determinsticos,
es decir podemos tratarlas como variables aleatorias estocsticas. Podemos asumir de
que i iid(0, u2 ), t iid(02 ) independiente entre cada uno de ellas y con it ,
y que i , t , it son independientes de xit para todo i y t. Ahora siendo los efectos
aleatorios, la varianza del trmino de error ser :
V ar(uit ) = 2 + 2 + 2 (7.42)
El aspecto clave de esta varianza es que siendo de nuevo homocedstica tendr dos tipos
de correlacin serial : entre cada unidad de corte transversal (un efecto fijo individual
que persiste en el tiempo) y uno a travs del tiempo. As :
Cov(uij , ujs ) = 2 si i = j, t 6= s
Cov(uij , ujs ) = 2 si i 6= j, t=s

7.3. EXTENSIONES 179
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el caso

del modelo de one way error component, podemos utilizar el estimador ponderado de
Maddala en el cual tenemos dos estimadores .entre". As existir e tradicional estimador
Intra Grupo (usando la ecuacin (151)) derivado a partir de la aplicacin del la matriz
de seleccin Q1 ; el estimador intergrupos individual el cual es derivado de la regresin:
(y i. y .. ) sobre (xi. x.. ) utilizando la matriz de seleccin Q2 ; y el tercer estimador
intergrupos temporal el cual se deriva de la regresin entre(y .t y .. ) sobre (x.t x.. )
utilizando la matriz de seleccin Q3 .
Definiendo WXX = X 0 Q1 X; BXX = X 0 Q2 X; CXX = X 0 Q3 X, y en forma anloga

2 2
para WXY , BXY y CXY donde adems se tiene que 22 = v2 ; 23 = v3 ; 2 = T 2 + 2
y 3 = n2 + v2 , Maddala (Econometrica, 1971) demuestra de que el estimador GLS
puede ser expresado mediante un rearreglo de (142) como :
bGLS = [WXX + 22 BXX + 23 CXX ]1 [WXY + 22 BXY + 23 CXY ] (7.43)

1
el cual puede ser simplificado un paso ms al notar de que WXX WXY es simplemente
1
el estimador intragrupo y que BXX BXY es el estimador intergrupo individual y que
1
CXX CXY es el estimador intergrupo temporal. As, se tiene que la siguiente expresin :
bGLS = 1 eW + 2 eB + 3 bC (7.44)
donde :
1 = [WXX + 22 BXX + 23 CXX ]1 WXX

2 = [WXX + 22 BXX + 23 CXX ]1 (22 BXX )
3 = [WXX + 22 BXX + 23 CXX ]1 (23 CXX )
A partir de lo anterior, finalmente se tiene que :
Si 2 = 2 = 0 implica de que 22 = 23 = 1 y as el estimador GLS tender al

OLS.
Si T y N tienden al infinito entonces esto implica de que 22 , 23 tiendan a cero y

as el estimador GLS tienda al estimador intra grupo.
Si 22 (23 ) tienden a infinito entonces el estimador GLS tender al estimador

intergrupo individual (intergrupo temporal).
7.3. Extensiones
El modelo bsico puede ser extendido en varias direcciones. Estas son discutidas en
forma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la prxima
clase. Entre las mas interesantes se tiene :
Tratar la Heterocedasticidad y Correlacin Serial en Datos de Panel.

Modelos de Sistemas con Datos de Panel.
Variables con variable Dependiente Discreta en datos de panel.
Modelos de Datos de Panel Dinmicos.
7.4. Datos de Panel Dinmicos

2
7.4.1. Introduccin
El uso de datos de panel dinmico es una de las areas de mayor desarrollo en la
actualidad en el trabajo economtrico tanto en trminos tericos como aplicados. Las
ventajas que se derivan del uso de estos son evidentes, ya que permite estimar relaciones
econmicas que presentan una naturaleza dinmica y que es imposible estimarla usando
datos de corte transversal. Por otra parte en la prctica es raro poseer observaciones
para periodos de tiempo prolongados de una unidad de anlisis, como requerira el poder
trabajar con series de tiempo. De esta manera es comn tener en el trabajo aplicado
paneles con perodos de tiempo corto y con un gran numero de unidades. Sin embargo,
el trabajar con paneles dinmicos con estas caractersticas involucra una serie de de-
safos en la estimacin de los parmetros, ya que deseamos que estos sean consistentes
y eficientes, al menos en trminos asintticos.
Las tcnicas tradicionales de estimacin como son Mnimos Cuadros Ordinarios (OLS)
y el estimador Within Group (W G) han demostrado tener un pobre desempeo debido a
que presentan sesgos los cuales no desaparecen cuando la muestra crece (N ). Una
alternativa sugerida para hacer frente a este problema es trabajar con los estimadores
de variables instrumentales (VI) que proponen Anderson y Hsiao (1982). Estos autores
instrumentalizan la variable dependiente rezagada a travs del uso de la misma variable
dependiente pero con un orden mayor de rezago.
Como una respuesta a los estimadores anteriores se ha desarrollado toda una liter-
atura la cual esta basada en el Mtodo Generalizado de los Momentos (GM M ), el cual
trata de obtener estimadores consistentes y eficientes en trminos asintticos. Entre los
estimadores que se han desarrollado podemos mencionar el estimador de una etapa,
de dos etapas y el estimador sistemas el cual trata de explotar toda la informacin
disponible a travs de las combinacin de las condiciones de momento para la ecuacin
en niveles y en sus primeras diferencias. En este captulo nos concentramos en dar una
revisin a los diversos mtodos de estimacin enfatizando cuales son los posibles sesgos
en que se incurre y la eficiencia que muestran dichos mtodos.
2
Captulo escrito junto a Emerson Melo.
7.4. DATOS DE PANEL DINMICOS 181
7.4.2. El estimador de OLS, WG y IV

El modelo en el cual nos concentramos, es uno del siguiente tipo:
yit = yit1 + (i + it ); || < 1; i = 1 . . . N; t = 1...T (7.45)
donde i representa el efecto individual el cual es invariante en el tiempo, it representa

el efecto aleatorio que varia de manera individual a travs del tiempo. Se asume que
ambos son variables aleatorias y sus dos primeros momentos vienen dados por:
E(i ) = E(it ) = 0; y E(i2 ) = 2 ; 2

E(it ) = 2 ; E(it is ) = 0 i 6= s
Por otra parte se asume que N es grande y T es pequeo y fijo, por tanto las propiedades
asintticas de los estimadores vendrn dadas en la medida que N .
Dado lo anterior el primer estimador que estamos interesados es el estimador de OLS

el cual viene dado por: PN PT
i=1 t=2 yit yit1

bOLS = P N PT
(7.46)
2
i=1 t=2 yit1
El estimador anterior puede ser expresado de la siguiente manera :
PN PT
(yit1 + i + it )yit1
bOLS = i=1 t=2
PN PT 2
i=1 t=2 yit1
Por tanto tenemos que:

PN PT
i=1 (i + it )yit1

bOLS = + PNt=2PT 2
i=1 t=2 yit1
El estimador anterior resulta ser inconsistente, debido a que yit1 esta correlacionado
positivamente con i . Es posible demostrar que el plimb
OLS viene dado por la siguiente
expresin:
2
2 1
plim(b
OLS ) = (1 ) 2 ; con k = (7.47)

+k 1+
2
De esta forma el estimador OLS de la especificacin original est sesgado hacia arriba,
en donde se tiene que < plimb OLS < 1.3 Existen dos formas de afrontar el prob-
lema anterior, las cuales consisten en eliminar el efecto individual el cual es la fuente
de inconsistencia. La primera es transformar el modelo en desviaciones de medias de
manera de poder obtener el tradicional estimador W G. La transformacin a utilizar es
la siguiente :
ee0
Q = IT 1 (7.48)
T 1
3
Notar que si la distribucin de i es degenarada, la ecuacin (160) se convierte en plimb
OLS =
y por tanto no existria sesgo.
donde IT 1 es una matriz identidad de rango T 1 y e es un vector de t 1 unos Si

multiplicamos (158) por (161) tenemos que se obtiene:
yit y i = (yit1 y i,t1 ) + (it i ) (7.49)

P
con y i = T1 Tt=1 yit , esto es anlogo para el caso de y i,t1 y i . Si aplicamos OLS a
(162) el estimador W G viene dado por:
PN PT
i=1 t=2 (yit y i )(yt1 y i,t1 )

bW G = PN PT (7.50)
2
i=1 t=2 (yt1 y i,t1 )
El estimador W G si bien elimina el efecto individual i , mediante la aplicacin de la

matriz de transformacin dada por Q, igual resulta ser inconsistente. Para ver porque
se produce esto, analicemos los trminos (yit1 y i,1 ) y (it i ) en la ecuacin (162).
Si escribimos dichos trminos de manera extendida se tiene que :
1
yit1 y i,1 = yit1 ( (yi1 + ....yit + ..... + yiT 1 ))
T 1
por otra parte el termin de error es :
1
it i = it ( (i2 + ..... + it1 + ....... + iT ))
T 1
A partir de lo anterior es fcil darse cuenta que yit1 est correlacionado con el trmino
1 1
T 1 it1 y que el trmino T 1 yit lo est con it . De esta manera existe una correlacin
negativa entre la variable dependiente rezagada y el termin de error en la ecuacin
(162), por tanto el estimador W G de resulta ser inconsistente, plimb W G es entregado
por la ecuacin (164)
1+ 1T
(T 1) (1 T (1) )
plimb
W G = 2 1T
(7.51)
1 (1)(1T ) (1 T (1) )
El sesgo es hacia abajo y por tanto W G subestima a . De esta forma tanto OLS como
W G entregan estimadores inconsistentes de en la estimacin de (158) y la direccin
de los sesgos van en direcciones opuestas.
La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimar
un modelo en primeras diferencias el cual viene dado por la siguiente ecuacin:
yit = yit1 + it (7.52)
En donde yit = yit yit1 , yit1 = yit1 yit2 y por ltimo it = it it .
Si estimamos (165) mediante OLS, se obtendr nuevamente un estimador sesgado de-

bido al hecho que yit1 est correlacionado con upsilonit1 . Anderson y Hsiao (1982)
proponen instrumentalizar yit1 usando como instrumentos4 yit2 bien (yit2

yit3 ).
De esta forma, el estimador de variables instrumentales, cuando usamos yit2 como

instrumento, viene dado por la siguiente expresin :
PN PT
(yit yit1 )yit2
bV I = PNi=1PT t=2
(7.53)
i=1 t=2 (yit1 yit2 )yit2
y cuando usamos (yit2 yit3 ) como instrumento tiene la siguiente expresin alternativa
: PN PT
(yit y i )(yit2 yit3 )
bV I = PN i=1
PT t=2 (7.54)
i=1 t=2 (y it1 y it2 )(yit2 yit3 )
El estimador dado por (166) tiene la ventaja que identifica a cuando T > 2, en cambio
(167) funciona cuando T > 3.
Los criterios para usar (166) (167) vienen dados por el instrumento que presente
una mayor correlacin con yit1 , as como tambin por consideraciones de eficiencia
asintotica.
No obstante lo anterior Arellano y Bond (1991) a partir de un experimento de Monte-

carlo, muestran el pobre desempeo que presentan los estimadores de IV antes men-
cionados, en particular el estimador entregado por (167) presenta un gran sesgo hacia
bajo y una gran imprecisin.
7.4.3. Usando GMM en la estimacin de Paneles Dinamicos

Considerando la inconsistencia de los estimadores hasta ahora descritos, Arellano y
Bond sugieren la utilizacin del Mtodo de los Momentos Generalizado (GMM) para la
estimacin de la ecuiacin (158).
En esta seccin se describen los estimadores sugeridos por estos autores basados en
el concepto de estimacin consistente mediante la utilizacin de un vector de instru-
mentos.
El mtodo de Arellano y Bond

El mtodo considera las siguientes condiciones de momento:
E(g(Xi , 0 )) = E(gi (0 )) = 0
4
Un instrumento debe cumplir que este altamente correlacionado con el regresor al cual esta
instrumentalizando, y que no este correlacionado con el termino de error. A partir del supuesto
E(it is ) = 0 i 6= s los instrumentos sealados son vlidos
donde g(.) es un vector de orden q y 0 es un vector de orden k, en donde q > k. El

estimador GMM b para 0 , minimiza el siguiente criterio:
"N
#0 " N
#
1 X 1 X
QWN = gi () WN1 gi () (7.55)
N N
i=1 i=1
con respecto a , en donde WN1 es una matriz definida positiva que cumple con
plimN WN1 = W con W una matriz definida positiva.
P PN
GMM asume que limN N1 N i=1 gi () = E(gi ()) y ademas que
1
N i=1 gi (0 )
N (0, ). LO ltimo se conoce como condiciones de regularidad.

) y 0 = (0 ), entonces N (b 0 ) tiene
Por otra parte sea () = E(gi ()/0
una distribucin normal limite dada por N (b 0 ) N (0, VW ), donde :
VW = (00 W 1 0 )1 00 W 1 W 1 0 (00 W 1 0 ) (7.56)
El estimador GMM de dos etapas eficiente, elige la matriz de ponderaciones WN de

manera tal que plimN WN = y por tanto se tiene que VW = (00 W 1 0 )1 . La
matriz que cumple con las condiciones anteriores es la siguiente :
N
1 X b
WN (b1 ) = gi (1 )gi (b1 )0 (7.57)
N
i=1
en donde 1 es un estimador consistente de 0 , el cual es obtenido en una primera etapa.
Para ver cmo funciona GMM retomemos el modelo dado por (165) el cual esta ex-
presado en primeras diferencias, y asumamos que T > 3 de manera tal que el modelo
est sobreidentificado, en particular asumamos T = 4.
En dicho caso se tiene que para t = 4 los instrumentos disponibles son yi2 y yi1 , y
para t = 3 solo tenemos disponibles yi1 como instrumento. De esta manera se puede
deducir que para t = T se tiene que los instrumentos disponibles son (yi1 , yi2 , .......yiT 2 ).
A partir de lo anterior y siguiendo a Arellano y Bond (1991), podemos escribir las

condiciones de momento para la ecuacion (165), de la siguiente manera:
E(it yits ) = 0 i = 1 . . . N ; t = 3...T; s = 2...t 1 (7.58)

(T 1)(T 2)
Las condiciones de momento disponibles son m = 2 .
Denotando las condiciones anteriores en trminos matriciales tenemos que :
E(Zi0 i ) = 0 (7.59)
con i0 = (i3 , i4 , .....iT )0 y Zi es una matriz de instrumentos definida de la siguiente

manera :
yi1 0 0... ... 0
0 yi1 yi2 . . . ... 0
Zi = .

(7.60)
. . ... ... .
0 0 0 yi1 . . . yiT 2
la cual es de (T 2)m en donde m representa las condiciones de momento disponibles.

El estimador GMM basado en las condiciones entregadas por (171), minimiza el siguiente
criterio " # "N #
N
1 X 0 1
X
0
Q= i Zi WN Zi (7.61)
N
i=1 i=1
La eleccin de la matriz da lugar a dos estimadores los cuales son asintticamente equiv-
alentes.
Para el estimador de una etapa utilizamos la siguiente matriz de ponderaciones :

"
N
#1
1 X 0
WN 1 = Zi HZi (7.62)
N
i=1
en donde H es una matriz que contiene dos en la diagonal principal y menos uno en las
dos primeras subdiagonales y ceros en todo los dems lugares.
La ecuacin (176) muestra el estimador que se obtiene al minimizar (174) con respecto
a :

c1GM M = [y1 0
ZWN11 Z 0 y1 ]1 [y1
0
ZWN11 Z 0 y] (7.63)
en donde y1 es un vector de N (T 2) 1 dado por y1 0 = (y 0 0 0

1(1) , ....yN (1) ) ,
del mismo modo se tiene que y 0 = (y10 , ....yN 0 )0 el cual es tambin es de orden
0 0 0 0
N (T 2) 1, y finalmente Z = (Z1 , ........ZN ) , la cual es una matriz de m N (T 2).
El estimador c1 GM M es consistente en la medida que N , aunque no es eficiente.
El estimador eficiente el cual denominamos como c2 GM M surge del hecho de elegir

la matriz de ponderaciones ptimas la cual tiene la siguiente forma :
"N
#1
1 X 0 d d0
WN 2 = Zi i i Zi (7.64)
N
i=1
di son los residuos estimados a partir de un estimador consistente de ,

en donde
el cual usualmente es el estimador c1GM M . Asi se tiene que el c2GM M es el mismo
estimador que el sealado por la ecuacin (176) con la diferencia que la matriz WN 1 es
reemplazada por WN 2 .
Comparando la eficiencia de
c1 GM M yc
2 GM M
Un punto central en la decisin de ocupar c1 GM M o bien
c2 GM M es saber cmo
se comportan en trminos de eficiencia, en particular cuando trabajamos con muestras
finitas.5
La varianza asinttica para

c1 GM M es estimada por :
V[
AR(c 0 ZW 1 Z 0 y )1 y 0 ZW 1 W
1 GM M ) = N (y1 N1 1 1 N 1 N 1 (c
1 GM M ) (7.65)
0 ZW 1 Z 0 y )1
Z 0 y1 (y1 N1 1
donde se tiene que :

N
1 X 0 d d0
WN 1 (c
1 GM M ) = Zi i i Zi
N
i=1
di = yi
c1 GM M y1
Por otra parte la varianza para el estimador de dos etapas viene dada por la siguiente
expresin :
V[AR(c 0
2 GM M ) = N (y1 2 GM M )Z 0 y1 )
ZWN 2 (c (7.66)
Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos eta-
pas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto las
estadsticas de prueba tienen un mayor poder tendindose a sobrerechazar la hiptesis
nula.
De esta manera se sugiere el uso del estimador de una etapa para la realizacin de
inferencias. La fuente de sesgo en los errores estndar del estimador de dos etapas
proviene del hecho que en el clculo de (178) est presente el estimador de una etapa.
Windmeijer (2000) muestra este hecho y propone una correccin para muestras fini-
tas a partir de una expansin de Taylor de primer orden.
7.4.4. Algunos test de especificacin

Uno de los supuestos sobre it es que estos son serialmente no correlacionados lo que
viene expresado por :
E(it is ) = 0 t 6= s (7.67)
por tanto cuando diferenciamos (158) para remover i , el termino de error it que
resulta, esta por construccin serialmente correlacionado.
En particular se tiene que:
E(it its ) = 2 , si s = 1
5
Sabemos que
c2GM M es asintticamente eficiente en la medida que N .
de esta forma se tiene un M A(1) de coeficiente unitario en el termino de error. La

consistencia de GM M depende fuertemente de que se cumpla (180), por tanto una vez
que se ha estimado (158) esta condicin debe ser testeada, ya que de no cumplirse, las
condiciones de momento establecidas por (171) son invlidas.
Una forma de saber si se cumple o no dicha condicin es saber si existe no correlacin

serial de segundo orden. Para esto definamos lo siguiente :
bit = yit
byit1 (7.68)
A partir de (181) podemos ver que una manera fcil de entender el problema es con-
centrar nuestra atencin solamente en una unidad i y ver si se cumple la condicin. De
esta manera se sabe que:
0
i = i(2) i (7.69)
donde i(2) y i son de vectores de (T 4)1. Bajo la hiptesis nula de no correlacin,
i tiene media cero y podemos construir test para saber si efectivamente E(i ) = 0. As
a partir de la simple idea anterior el test para saber si existe o no correlacin serial de
segundo orden es el siguiente:
b 0
i(2) bi
m1 = 1/2
(7.70)
b
1/2
donde m1 tiende a una normal de media cero y varianza uno6 . Por otra parte b viene
dado por:
N
X
0
b = i(2) bi i bi(2)
i=1
XN
0
2b
2 X (X 0 ZWN ZX)1 X 0 ZAN ( Zi0 bi bi0 bi(2) )
i=1
+b0
2 X a[ b 0 b2
var()X
Lo interesante de (183) est en el hecho que es flexible ya que esta definida en trminos
de un estimador consistente y no necesariamente eficiente. Sin embargo, la potencia que
alcance m1 depender de la eficiencia asinttica del estimador que se utilice.
Si los errores no estn serialmente correlacionados, entonces no se rechaza la hipte-

sis de ausencia de correlacin serial de segundo orden en it ; no obstante lo anterior,
llegaramos a la misma conclusion si estos fueran autocorrelacionados pero el proceso
fuera un Random Walk.
Una forma para discriminar entre ambas situaciones seria la de construir un estadstico
denominado como m2 pero para probar si existe o no correlacin serial de primer orden
en it .
6
Arellano y Bond (1991) demuestran la normalidad asintotica de este estadstico
El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguen
un Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias,
ambos entregaran estimadores consistentes y por tanto se tiene que esto dara origen a
un test de Hausman de especificacin.
Test de Sargan de sobreidentificacion
Este test busca establecer si las condiciones de momento impuestas son o no validas
en donde si m son las condiciones de momento y k los parmetros a estimar diremos
que el modelo esta sobreidentificado si p > k.
El test propuesto por Sargan viene dado por :
0 Z(Z 0 b
S = b 0 Z)1 Z 0 b
b a2pk (7.71)
donde b es construido a partir del estimador de dos etapas, para una matriz de in-
strumentos Z dada, que no necesariamente es la matriz de instrumentos ptimas. La
hiptesis nula de este test es que las condiciones de momento son validas.
Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puede
ser modificado de manera de poder trabajar con distintas hiptesis para el termino de
error it , en particular para el tema de correlacin serial.
Para entender esto, consideremos una matriz de instrumentos la cual la denominamos

por Z1 y que contiene p1 columnas que corresponden a las condiciones de momento
cuando se tiene que el trmino de error en niveles presenta un proceso M A(1).
El test de Sargan para las condiciones de momento anteriormente sealadas es el sigu-

iente :
10 Z1 (Z10 b
S1 = b 10 Z1 )1 Z10 b
1 b 1 a2p1 k (7.72)
donde b 1 son obtenidos a partir de un estimador de dos etapas basado en la matriz

de instrumentos Z1 . De esta forma (185) puede ser comparada con (184) y por tanto
formar :
DS = S S1 a2p1 p
Los grados de libertad p1 p estn reflejando el hecho que existen condiciones de mo-
mento adicionales lo cual se explica porque la matriz de instrumentos Z es construida
asumiendo ausencia de correlacin serial en it .
Si se rechaza H0 , estamos diciendo que existen condiciones de momento mal especi-

ficadas y por tanto se tendra que usar Z1 en vez de Z.
7.4.5. El caso de instrumentos dbiles

Como se mencion, sabemos que una de las condiciones que debe cumplir un instru-
mento es la de estar correlacionado con la variable a la cual se va a instrumentalizar.7
Sin embargo en la estimacin de paneles dinmicos usando GM M , se ha encontra-

do que en ocasiones los instrumentos muestran una dbil correlacin con las variables
que estn instrumentalizando, lo que lleva a que las estimaciones de los parmetros del
modelo se realice con poca precision y con sesgos.
Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches y
Mairesse(1997), quienes sealan para el caso de la estimacin de una funcin de pro-
duccin Cobb-Douglas:
En la practica, la aplicacin de mtodos de panel a microdatos producen
resultados muy insatisfactorios; coeficientes para el capital bajo y usualmente
insignificantes junto estimadores poco contradictorios para los retornos con-
stantes a escala
-Griliches y Mairesse (1997) Para entender
el porque se produce este problema consideremos el caso donde T = 3, de manera tal
que las condiciones de momento se reducen solamente a una condicin de ortogonalidad.
En este caso GMM se convierte en 2SLS. En particular en la primera etapa tenemos :
yi2 = d yi1 + ri i = 1, ....N (7.73)
Si el instrumento es dbil, implicara que en (186), d ser no significativo, y por tanto

no cumple una de las condiciones para ser instrumento. El que yi1 este dbilmente
correlacionado con y2 depender de dos factores :
1. En la medida que 1, en la ecuacin (158).
2. El tamao relativo de la varianza de i respecto a la varianza de it .
En efecto si consideramos el modelo original en T = 2 y restando a ambos lados yi1 se
tiene que :
yi2 = ( 1)yi1 + i + it (7.74)
El estimador de M CO para ( 1) en (187) estar sesgado hacia arriba, es decir, hacia
cero en la medida que esperamos que E(yi1 i ).
Asumiendo estacionariedad en covarianza se tiene que el plimc

d viene dado por :
k 1
plimc
d = ( 1) 2 con k = (7.75)

+k 1+
2
7
La otra condicin es la de no estar correlacionada con el termino de error, esto al menos en trminos
asintticos.
De (188) se desprende el hecho que plimc

d 0 en la medida que 1 o en la medida
2 2
que / .
Blundell y Bond (1999) muestran que el sesgo de GM M en presencia de instrumentos

dbiles es similar al sesgo que tiene el estimador W G. La solucin que se propone es
utilizar el denominado estimador GM M de sistemas el cual mezcla condiciones de mo-
mento para la ecuacin en primeras diferencias y para la ecuacin en niveles.
El estimador usando condiciones en primeras diferencias ya lo conocemos, por tan-

to debemos derivar un estimador para condiciones de momento en niveles, para luego
combinar ambas condiciones.
Condiciones iniciales y un estimador en niveles

Consideremos la siguiente condicin :
E(i yi2 ) = 0 i = 1, ....N (7.76)
La condicin anterior es una restriccin sobre el proceso que genera los datos, y a partir
de esta tendremos las siguientes condiciones de momento adicionales:
E((i + it )yit1 ) = 0 t = 3, ...T (7.77)
Lo anterior proviene de (189) y seala que si yi2 no est correlacionado con i entonces
llevar a que yit tambin no lo est.
Esto puede ser visto en (165), donde si comenzamos a reemplazar al lado derecho de
esta ecuacin, se llega a una expresin del siguiente tipo :
t3
X
yit = t2 yi2 + s its (7.78)
s=0
donde it = (i + it ) (i + it1 ) = it .
Por tanto de (191) se deriva el hecho que yit estar no correlacionado con i en
la medida que yi2 no lo est.
El estimador GM M en niveles puede ser obtenido mediante el uso de las siguientes

condiciones de momento:
E(yits (i + it )) = 0 s = 2......t 1
En trminos matriciales tenemos lo siguiente :
E(Zli i ) = 0 t = 2....T (7.79)

en donde Zli viene dada por la siguiente expresin :

yi2 0 0... ... 0
0 yi2 yi3 . . . ... 0
Zi =
.

(7.80)
. . ... ... .
0 0 0 yi2 . . . yiT 1
la cual tiene dimension de (T 2) ml con ml = 0,5(T 1)(T 2).
Para la obtencin de los estimadores de una y dos etapas procedemos de la misma

manera que para el estimador GM M con las condiciones de momento para la ecuacin
en diferencia.
7.4.6. GMM de sistemas

Al tener las condiciones de momento en niveles y en primeras diferencias la pregunta
obvia que nos surge es como combinamos estas condiciones de la manera mas eficiente
posible?.
Arellano y Bover(1995) responden esta pregunta a partir de un modelo mas general

donde se incluyen variables que pueden estar correlacionadas con i .8
El estimador GMM en este caso resulta de combinar las condiciones en niveles y en

primeras diferencias en forma simultanea, de manera que el sistema resultante tiene
2(T 2) ecuaciones. Las condiciones a utilizar en la estimacin son las siguientes :
E(yits it ) = 0 t = 2...T s = 2.....t 1 (7.81)

E(yit1 it ) = 0 t = 3...T (7.82)
con it = i + it . Haciendo uso de matrices se tiene que :

0
E(Zsi qi ) = 0
en donde Zs es :

Zdi 0 0 0 0 0
0 yi2 0 ... ... 0

Zdi 0 0 0 yi3 . . . . . . 0
Zs = = (7.83)
0 ZliP .. .. .. .. ..
0 . . . . .
0 0 . . . . . . 0 yiT 1
Al igual que en los casos anteriores, el estimador de una y de dos etapas se obtiene con
el procedimiento descrito en las secciones precedentes.
8
La seccin siguiente se discute el caso cuando se tiene regresores adicionales a la variables depen-
diente rezagada.
Lo interesante del estimador GM M de sistemas, es que puede ser entendido como una
combinacin del estimador en primeras diferencias y del estimador en niveles usando
solo algunas condiciones de momento para este.9
Por otra parte, para el estimador en 2SLS en sistemas se puede demostrar que :
0

bs = (q1 Zs (Zs0 Zs )1 Zs0 )1 q1
0
Zs (Zs0 Zs )1 Zs0 q
0 = [y , y ]. Y por otra parte se tiene que :
en donde q1 1 1
0
q1 Zs (Zs0 Zs )1 Zs0 q1 = y1
0
Zd (Zd0 Zd )1 Zd0 y1 + y1
0
Zlp (Zlp0 Zlp )1 Zlp0 y1
Usando estas dos expresiones se llega al hecho de que :

bs = lp
bd + (1 )b (7.84)
definiendo blp el esti-

bd el estimador 2SLS para la ecuacin en primeras diferencias y
mador en niveles utilizando solamente las T 2 condiciones de momento.
Finalmente puede ser definido como :

0 Z (Z 0 Z )1 Z 0 y
y1 d d d d 1
= 0 Z (Z 0 Z )1 Z 0 y 0 p p0 p 1 p0
y1 d d d d 1 + y1 Zl (Zl Zl ) Zl y1
arreglando la expresin anterior se tiene que :
bd0 Zd0 Zd
bd
=
0 0
bd Zd Zd
bd + bl0 Zlp0 Zd0
bl
con
bd y
bl son los estimadores de OLS en la primera etapa.
De esta forma si tenemos el caso de que 1 o 2 /2 se producir que

0 y el estimador en sistemas permanece entregando informacin ya que en (197)
bs blp y por tanto se soluciona el caso de instrumentos dbiles al utilizar el estimador

de sistemas.
7.4.7. Analisis Multivariado

Hasta el momento nos hemos concentrado en un modelo donde como variable del
lado derecho slo observamos la variable endgena rezagada. Como en la mayora de
los trabajos empricos esta variable rezagada puede ser importante en la estructura del
modelo como un mecanismo que da cuenta de los costos de ajuste, deber existir la
posibilidad que orto conjunto de variables exgenas tambin sean importantes en la
explicacin de la variable de inters.
9
En particular solo usamos la diagonal de la matriz Zli .
De esta manera, el modelo que estamos interesados en esta seccin es uno del sigu-
iente tipo :
yit = yit1 + xit + it , t = 2.....T (7.85)
donde it = i + it y xit es un escalar. Asumiremos que xit est correlacionado con i .
Por otra parte sabemos que xit puede estar correlacionado de tres maneras distintas
con it , lo que dar origen a diversas condiciones de momento.
En primer lugar asumiremos que xit es estrictamente exgeno, lo cual puede ser repre-
sentado de la siguiente manera :
E(xis it ) = 0 con s = 1.....T, t = 1......T
El segundo caso que podemos tener es que xit sea predeterimanda o dbilmente exgena
donde bajo esta situacin :
E(xis it ) = 0 con s = 1....t, t = 1...T
y
E(xis it ) 6= 0 para s = t + 1, ...T
Finalmente xit puede estar determinado endgenamente en cuyo caso se tiene que :
E(xis it ) = 0 s = 1, ....t 1, t = 1, ......T
y
E(xis it ) 6= 0 s = t, ....T, t = 1, ......T
Con lo anterior tendremos distintas condiciones de momento para cada caso, en donde
las condiciones dadas por (171) se mantienen, pero para cada caso de xit tendremos
condiciones adicionales.
De esta forma, si xit es estrictamente exgena las condiciones de momento son las
siguientes :
E(xis it ) = 0 s = 1......T, t = 3, ......T (7.86)
lo cual origina que existen T (T 2) condiciones de momento adicionales.
Por otra parte cuando tenemos el caso que xit es predeterminada tenemos que :
E(xis it ) = 0 s = 1....., t 1 t = 3.....T (7.87)
en donde las condiciones de momento adicionales son 0,5(T 2)(t 1).
Por ultimo para el caso de xit endogena tenemos que :

E(xis it ) = 0 s = 2....., t 1 t = 3.....T (7.88)
las condiciones disponibles son 0,5(T 2)(T 1).
De esta forma el estimador de sistemas se obtiene combinando las condiciones en

primeras diferencias y en niveles. Para ejemplificar esto asumamos que xit es endgeno,
de esta forma las condiciones en primera diferencias son las siguientes :
E(yits it ) = 0
y
E(yit1 (i + it ))
con t = 3...T y s = 2, ....., t 1.
Para el caso de xit tenemos que :
E(xits it ) = 0
y
E(xit1 (i + it )) = 0
para t = 3...T y s = 2, ....., t 1.
7.4.8. El estudio de Kiviet

Durante el anlisis que hemos realizado a lo largo de este captulo se ha asumido de
que la dimensin temporal del panel es relativamente corta pero donde la dimensin en
trminos de individuos es relativamente grande.10
No obstante lo anterior, en la prctica podemos encontrar situaciones donde ningu-

na de las variables es relativamente grande y por lo tanto ninguno de los estimadores
anteriormente revisados entregara resultados consistentes. Por ejemplo, en estudios de
convergencia en crecimiento econmico rara vez la dimensin de T supera las 30 obser-
vaciones y N el valor de 50. O bien, en el caso chileno, un anlisis comunal con datos
de la CASEN no permite un N superior a 240 por decir lo mucho.
Kiviet (1995) desarrolla una correccin al estimador WG el que como ya vimos, presenta
un sesgo sistemtico el cual no desaparece conforme N crece. No obstante lo anterior,
cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura el
valor de T para el cual dicho sesgo desaparece.
El mtodo lo que hace es restarle al estimador por LSDV del modelo original una
expresin que captura el sesgo cometido por este ltimo. Cabe hacer notar que el sesgo
del estimador LSDV es funcin de los verdaderos parmetros del modelo. En conse-
cuencia stos debern ser estimados primeramente tarea que se realiza mediante una
estructura de IV sugerida por Anderson y Hsiao (1981).
10
En efecto, los estimadores de GMM son consistentes asintticamente para N pero con T fijo.
Kiviet con mas detalle

11
Como se adelant, el estimador de Kiviet el cual denominaremos LSDVK se ob-
tiene en dos etapas. En la primera etapa etapa usa un estimador por IV para estimar
los residuos de un estimador consistente y los coeficientes sesgados son obtenidos por
efectos fijos (LSDV). Luego en la segunda etapa se utilizan estos residuos para corregir
el sesgo del estimador por efectos fijos.
Formalmente (198) puede ser re escrita de la siguiente forma :
y = W + (In iT ) + (7.89)
.
donde W = [Y1 ..X] y 0 = (, ). El estimador de efectos fijos (LSDV) ser:
1
= (W 0 AW ) W 0 Ay (7.90)
1 0
donde At = It T iT iT y A = IN AT .
Sin embargo, como se sealo anteriormente este estimador es sesgado por lo cual se
sugiere utilizar el estimador de Kiviet(1995). El sesgo ser en consecuencia :
E( ) = E(W 0 AW )1 W 0 A[W + (In it ) + ]

= E(W 0 AW )1 W 0 A
Aqu se asume que A(IN iT ) = (IN AiT ) = 0, dado AT iT = 0. La expresin anterior

no es fcil de evaluar, ya que W es estocstico y no lineal.
y no
En orden de aproximar esta expectativa se divide W en su parte estocstica W
, es decir
estocstica W

W = E(W ) (7.91)

W = W E(W ) (7.92)
W +W
= W (7.93)
= [Y1 ...X] y W
donde W = [Y1 ...0].
+W
La descomposicin de W puede ser usada para examinar AW = A(W ). Kiviet

deriva la siguiente expresion para AW :
= (IN AT C)q 0
AW (7.94)
donde
11
Deseo agradecer a Jorge Hermann por aportar el material que se presenta en esta seccin

0 0
1 0

1 0

C=
2 1

T 2 1 0
q = (1, 0, ..., 0)0
Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de la
siguiiente forma :
E( ) = E((W +W )0 A(W +W ))1 (W

+W )0 A
1 (g1 + g2 + g3 ) + O(N 1 T 23 )
E( ) = 2 (D) (7.95)
donde :
D = W 0 AW + 2 N tr[C 0 AT C]qq 0
N 0 0 AW (D)
1 q]
g1 = (i CiT )[2q W
T T
g2 = tr[W 0 (IN AT CAT )W (D)
1 ]q
g3 = W 0 (IN AT CAT )W (D)
1 q
1 q [ N (i0T CiT )tr(C 0 AT C) + 2tr(C 0 AT CAT C]q
+2 N q 0 (D)
T
Kiviet muestra que solo g1 es necesario para calcular el sesgo del estimador LSDV.
En consecuencia, el estimador de LSDVK consiste en calcular g1 usando los residuos

de IV para luego computar el sesgo el que luego se utiliza para ajustar los coeficientes
estimados por efectos fijos.
Captulo 8
Mtodos de Evaluacin para Datos

No-Experimentales
Objetivo: La medicin del impacto de una reforma poltica o intervencin sobre

un conjunto de variables (de prediccin) bien definidas.
En general, los individuos pueden ser identificados por ciertas variables observ-
ables, -sexo, edad, educacin, estado civil- y por tanto, el problema de la evaluacin
es medir el impacto del programa en cada tipo de individuo.
Problema: El impacto del programa lo podemos estudiar slo en quienes partic-

iparon y no podemos saber qu habra pasado con ellos si no hubieran participado.
La construccin de los contrafactuales es el aspecto central en los mtodos de evaluacin.

La construccin de los contrafactuales ha sido realizada bajo 5 procesos distintos, pero
relacionados:
1. Experimento Social Aleatorio (puro).
Se relaciona un grupo de potenciales participantes homogneos y se deja fuera

una submuestra, aleatoriamente determinada. Administrndose el programa al
grupo restante y comprando sus perfomances relativas.
Problemas de este mtodo:

- Muy caros raros en la prctica.
- Se necesita un grupo de control que no est afecto, bajo ninguna forma,
por las reformas (programas). No existe spillovers , institucin, efectos
sobre salario de mercado, etc.
197
198CAPTULO 8. MTODOS DE EVALUACIN PARA DATOS NO-EXPERIMENTALES
2. Experimentos Naturales.
Considera la reforma (programa) como un experimento y tratando de encontrar

un grupo comparable en forma natural. Denotado generalmente como Diferencias-
en-diferencias ya que compara la diferencia en la conducta promedio despus y
antes de la reforma para el grupo elegido contrastndola con aquella conducta
promedio -antes y despus- del grupo de comparacin.
Recupera as, el efecto promedio del programa sobre aquellos individuos que par-
ticiparon (o fueron "tratados") capturando el efecto: "The effect of Treatment
on the Treated". Lo anterior , al remover efectos individuales no observables y
factores macro comunes.
Problemas:
- Asume que existen efectos temporales comunes entre los grupos.
- No existen cambios de composicin al interior del grupo.
- As, escoger el grupo de control es muy complejo.
(ya lo veremos)
3. Mtodos de Matching (calce).
Persigue seleccionar factores observables suficientes como para que dos individuos
con los mismos valores para estos factores no presenten diferencias sistemticas
en sus reacciones a las reformas. As, el impacto del programa puede ser aislado al
comparar dos individuos similares (clones); uno que particip y uno que no lo hizo:
Problema:
- La escogencia de las variables que sern utilizadas para definir el clon.
- Si las variables son las equivocadas, el efecto contrafactual estar incorrec-
tamente medido y as el impacto del programa.
4. Modelo de Seleccin.
Basado en el principio de exclusin en que una variable es necesaria para de-

terminar la participacin en el programa pero no en el resultado del programa. A
diferencia del matching, el cual puede ser considerado como una seleccin sobre
observables, este approach (de Heckman) considera la seleccin basada en no-
observables.
5. Modelos de Simulacin Estructural.
Usualmente utilizados para las evaluaciones de reformas impositivas, se modela

199
mediante un marco de eleccin racional el cual separa las preferencias de las re-
stricciones y por lo tanto, puede ser utilizado para simular reformas econmicas
que modifican las restricciones pero que dejan las preferencias inalteradas.
8.0.9. Criterios para escoger una forma u otra

1. Naturaleza del programa: local-nacional, escala pequea o global.
2. Naturaleza de la pregunta que se desea responder -impacto general, efecto del

tratamiento sobre los tratados, extrapolacin u otras reformas, etc.
3. Naturaleza de los datos disponibles.
8.0.10. Qu se desea medir?

1. El impacto del programa sobre individuos con caractersticas particulares como
si fueran asignados aleatoriamente al programa de una poblacin de todos los
individuos con otras caractersticas.
2. El impacto sobre de ciertas caractersticas entre todos que fueron asignados al

programa.
Bajo el supuesto de efecto del tratamiento homogneo estas dos medidas son idnticas.
Pero si los efectos son heterogneos ambas medidas pueden diferir, en particular, 2. se
conoce como .efecto del tratamiento sobre los tratados".
Efectos Homogneos del Tratamiento
Yit = Xit + di + it t>k

Yit = Xit + it tk
E(it ) = 0 E(it , Xit ) = 0
di =1 si individuo i particip en el programa (el cual ocurri en t=k).

: mide el impacto homogneo del tratamiento sobre individuo i.
Con la excepcin del caso de datos experimentales, la asignacin al programa no es
aleatorio.
E(di , it ) 6= 0
pues, puede ser que la decisin de participar, o el ser seleccionado depende de ciertas
caractersticas de los individuos.
Separacin de la decisin de participar.
Ni = Zi + i
donde N: ndice de participacin (VAN, etc).

con di =1 si Ni =0.
di =0 otro caso
Efectos de Tratamiento Heterogneos

Aqu el impacto del programa vara entre individuos. Tambin dichos efectos difer-
enciados pueden influenciar el proceso de decisin (es decir, correlacin con indicador
di ).
Sustituyendo de otros regresores X,
Yit = + di i + it t>k
i : impacto del tratamiento en individuo i.
Si : impacto promedio sobre la poblacin.

i : desviacin del individuo i en la media poblacin.
T : impacto promedio del tratamiento sobre los tratados.
i = + i
T = + E(i |di = 1)
donde E(i |di = 1) desviacin media del impacto entre los participantes. As el impacto:
Yit = + di + [it + di i ]
= + di + [it + di (i )]
Aqu, el problema adicional que surge como consecuencia de la participacin heterognea

es la forma del trmino de error. it + di (i ), el cual cambia de acuerdo a si fue
tratado o no.
La identificacin de es mas difcil en el caso de correlacin con el indicador de
tratamiento (participacin). Notar que si E(i di )6= o tendramos que E(i |di )6= 0 y as:
E(Yit |di ) = + di [ + E(i |di )] + E(it |di )
En este caso, OLS identifica:
E(
) = + E(i |di = 1) + E(it |di = 1) E(it |di = 0)
201
As, an si it no est correlacionado con di , de tal modo que E(it |di = 1)=E(it |di =
0)=0 sigue existiendo el problema de identificacin.
Solo es posible identificar: T = + E(i |di = 1), es decir, el impacto del tratamiento
sobre los tratados.
Ello pues separar de que el trmino de error no este correlacionado con el proceso de
decisin el componente del efecto del programa especfico al individuo i , probablemente
lo est. En general, se espera que los individuos considera sus condiciones especficas en
su decisin y en consecuencia E(i |di = 1)6=0 y por lo tanto, la identificacin de se
hace mas dificultosa.
8.0.11. Datos Experimentales

Si el diseo del programa escoge aleatoriamente una muestra del grupo de personajes
elegibles para participar donde la eleccin es absolutamente es independiente del posible
resultado, entonces
1
= Y t 0t
t>k
(1) (0)
donde Y t y t son los resultados medios en los tratados y no tratados en el tiempo
t despus del programa.
Pero:
- si existen dropouts (non random)
- si se le ofrece otros programas a los no-seleccionados
- si el experimento en si altera la conducta de los tratados/no tratados.
Entonces
- consistencia de
es invalidada.
8.0.12. Non-experimental data

An si el diseo del grupo de control obedece a criterios o reglas de comparacin
basada en informacin observable, lo cual es ya difcil, no podemos garantizar diferencias
en no-observables.
Este es el tpico problema de seleccin.
E(
) = + [E(it |di = 1) E(it |di = 0)]
En el caso en que E(it |di )6= 0, si vemos que los trminos anteriores se cancelan, esta
esperanza ser diferente de . As, estimadores alternativos sern necesarios: IV, selec-
cin, diff-in-diff, matching.
Ejemplo ilustrativo: Estudio de LaLonde (1986), ver tablas:
Comparison of Treatments and Controls:

Characteristics for the NSWD Males
Treatments Controls
Age 24.49 23.99
Years of school 10.17 10.17
Proportional high-school drop-outs 0.79 0.80
Proportional married 0.14 0.13
Proportional black 0.76 0.75
Proportional Hispanic 0.12 0.14
Real earnings one year before treatmenta 1,472 1,558
Real earnings two year before treatmenta 2,860 3,030
Hours worked one year before treatment 278 274
Hours worked two year before treatment 458 469
Number of observation 2,083 2,193
a: Annual earnings in US dollars.
Annual Earnings of Male Treatments and Controls

Treatments Controls
1975 3,066 3,027
1976 4,035 2,121
1977 6,335 3,403
1978 5,976 5,090
Number of observation 297 425
Estimated Treatment Effects for the NSWD Male Participants

using the Control Group and Comparison Groups from
the PSID and the CPS-SSA.
Comparison Unadjusted Adjusted Unadjusted Adjusted Two-step
Group difference of difference of difference-in- difference-in- estimator
mean post- mean post- differences differences
programme programme
earnings earnings
Controls 886 798 847 856 889
PSID 1 -15,578 -8,067 425 -749 -667
PSID 2 -4,020 -3,482 484 -650 -
PSID 3 697 -509 242 -1,325 -
CPS-SSA 1 -8,870 -4,416 1,714 195 213
CPS-SSA 2 -4,095 -1,675 226 -488 -
CPS-SSA 3 -1,300 224 -1,637 -1,388 -
Definitions:
PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55
years old and did not classify themselves as retired in 1975.
PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.
PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of
1960.
CPS-SSA 1 -all males based on Westats criterion except those over 55 years old.
CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.
CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 was
below the poverty level.
203
Revisin principales mtodos para datos no-experimentales.
La metodologa apropiada para trabajar la evaluacin de programas con datos no-

experimentales depende de tres puntos:
1. tipo de informacin disponible
2. modelo subyacente
3. parmetros de inters
IV
para single
cross-section Heckman
two-step
difference-in-difference
Longitudinal o matching
repeated cross
section propensity
scores /
matching / dif
Veamos cada uno de ellos.
Datos de corte transversal

Recordemos el modelo original (caso impacto homogneo)
Yit = Xit + di + it t>k

Ni = Zi + i
con
1 si Ni > 0;
di =
0 otro caso
1. Mtodo por variables instrumentales (IV).
Requiere la existencia de al menos un regresor exclusivo para la regla de decisin

con Z satisfaciendo los siguientas requerimientos
- Z determine la participacin en el programa:

-tiene un coeficiente no-cero en la regla de decisin
- podemos encontrar una transformacin g tal que g(Z ) sea no-correlacionado
con el error dadas las variables exgenas X.
- Z no est completamente determinado por X.
As la(s) variable(s) Z son los instrumentos que entregan la variacin exgena

que aproximan el diseo aleatorio.
Entonces en la regresin por IV, el indicador de tratamiento es reemplazado por
g(Z ) o bien, alternativamente, se usa tanto X como Z para predecir d, creando
una nueva variable d la que se incorpora a la regresin en vez de d.
Problemas de esta metodologa:
- A pesar de su simpleza, la escogencia de los instrumentos no es fcil, particular-

mente para que cumplan con los 3 requerimientos planteados. Una solucin
es considerar valores rezagados de las variables determinantes.
- En el caso de impacto heterogneo a pesar de que Zi puede no estar correla-
cionado con it , si
it + di i = it + di (i )
dado que Zi determina di por definicin, entonces el error estar correlaciona-

do con Zi y por tanto IV no es aplicable en el caso de impacto homogneo.
2. Mtodo de seleccin de Heckman.
Para el caso de impacto homogneo, este mtodo es anlogo a un Tobit general-

izado (tipo II) donde
(Zi )
E(Yit |di = 1) = Xi + +
(Zi )
y
(Zi )
E(Yit |di = 0) = Xi
1 (Zi )
con las mismas salvedades descritas para el Tobit en que Z y X deben tener al
menos una variable diferente y puede ser estimado regresionando N = Zi por
Probit.
Ahora, cuando existen efectos de tratamiento heterogneos, el modelamiento es
un poco ms complejo. Considerando que T = + E(i |di = 1), entonces
Yit = Xi + di + [it + di i ]
puede ser reescrito
Yit = Xi + T di + {it + di [i E(i |di = 1)]}

Yit = Xi + T di + it
205
El procedimiento en dos etapas requiere el conocimiento de la distribucin con-

junta de it , i y i . Si esta es normal con v = 1, entonces
(Zi )
E(it |di = 1) = corr(it + i , i ) V ar(it + i )1/2
(Zi )
(Zi )
= (,,)
(Zi )
anlogamente
(Zi )
E(it |di = 0) = corr(it , i ) V ar(it )1/2
1 (Zi )
(Zi )
= (,)
1 (Zi )
y as, la regresin queda:

(Zi ) (Zi )
Yit = Xi + di T + (,,) + (1 di ) (,) + it
(Zi ) 1 (Zi )
pudiendo identificarse T pero no .
Matching Estimators.
Estos evalan los efectos del tratamiento al comparar los outcomes de las personas
tratadas con aquellos de personas similares en un grupo de control o comparacin.
Esta similitud se determina si tienen caractersticas observables similares las que son
medidas por alguna medida de distancia mtrica.
Notacin.
Y1 = outcome de los tratados.
Y0 = outcome de los no-tratados.
D=1 si la persona recibe tratamiento (D=0 si no).
X: vector de caractersticas utilizadas como variables de condicionamiento.
P(X)= Pr(D=1|X).
Como vimos existen dos tipos de estimadores de pareo (ME):
) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo de
comparacin medidos en algn perodo despus del programa.
ii) difference-in-difference (DID): el que compara el cambio en el outcome de los

tratados con aquellos no tratados, donde el cambio es medido relativo a un pero-
do base previo al programa.
La principal ventaja de DID sobre CS es que considera las diferencias no observables-

contantes en el tiempo-en los tratados y no tratados.
Adicionalmente a los dos estimadores vistos en la clase anterior, aqu veremos tres
a) nearest neighbor cross-sectional matching estimator
b) nearest neighbor DID matching estimator
c) kernel and local linear versions de los dos anteriores

(existe tambin el regression adjusted matching explicado en Heckman, Ichimura, Todd
(97,98)).
Supuestos para la identificacin de los diferentes estimadores.
Como habramos dicho en la clase anterior, un parmetro de inters clave es el impacto

promedio del programa sobre los tratados. Este puede ser definido condicional en
algunas caractersticas X con:
D=1 (X) = E(Y1 Y0 |x, D = 1)
o bien un parmetro promedio puede ser definido sobre un soporte (regin) de X, Sx :

R
E(Y1 Yo |X, D = 1) fx (X|D = 1) dX
D=1 = Sx R
Sx fx (X|D = 1) dX
donde fx (X|D=1) es la densidad de X.
Todos los estimadores que veremos tratan de estimar el impacto medio del tratamiento
en los tratados D=1 .
a) Cross Sectional
Supuestos:
(CS.1) E(Y0 |P(X),D=1)=E(Y0 |P(X),D=0).

(CS.2) 0 < P r(D = 1|X) < 1.
As
n1
X
CS 1 b 0i |P (Xi ), Di = 0)
D=1 = Y1i (Xi ) E(y
n1
i=1
{Di =1}
Con n1 el nmero de individuos tratados con valores de X que satisfacen CS.1.

b 0i |P (Xi ), Di = 0) puede ser estimado en forma no paramtrica por nearest
E(Y
neighbor, kernel o local linear regression (los que ya veremos):
207
b) Difference-in-difference (DID) Matching Estimators.

Para su implementacin se necesita datos cross-sectional repetidos o datos longi-
tudinales tanto para participantes como no participantes. Sea t y t dos perodos
en el tiempo uno antes del comienzo del programa y otro despus del trmino
de este. Y0t es el outcome observado en t. Las condiciones que se necesitan para
implementar de estos estimadores son:
(DID.1) E(Y0t Yot0 |P (X), D = 1) = E(Yot Y0t0 |P (X), D = 0).

(DID.2) 0 < P r(D = 1|X) < 1.
As
n1t
X
b DID = 1
0t |P (Xi ), Di = 0)}
{Y1ti (Xi ) E(Y
D=1 i
n1t
i=1
{Di =1}
n1t0
1 X 0t0 |P (xj ), Dj = 0)}
{Y0t0j (Xj ) E(Y
n1t0 j
j=1
{Dj =1}
Implementacin
Paso 1: Estimar el modelo de participacin en el programa.
Tambin denominado "propensity score.es una manera de reducir la dimensin

del problema de condicionamiento en el matching. Esto es, se reduce el problema
del matching a un problema unidimensional no-paramtrico al estimar E(Y0 |D =
0, P (X)) en vez del problema de dimensin k E(Y0 |D = 0, X).
La estimacin de los PS requiere escoger un conjunto de variables condicionantes
X. Donde es fundamental de que los X no estn influenciados por el programa.
Sino los estimadores por matching no medirn correctamente el efecto del progra-
ma pues no capturarn cambios en la distribucin de las variables X medidas por
el programa.
Por esta razn, las variables X estarn relacionadas con las caractersticas individ-
uales de las personas (firmas, hogares) antes de entrar al programa. En Heckman,
Ichimura y Todd (99) la historia de empleo en el ao anterior al programa de en-
trenamiento es un predictor fundamental en la participacin. En general, entre
mas variables se consideran en X mejor y no considerar variables muy generales
como son caracterstica demogrficas.
Qu pasa si los datos (del grupo de control) no son aleatoriamente determinados?
Por ejemplo, puede suceder que los individuos del grupo de control estn sobre o
subrepresentados en relacin con su frecuencia en una poblacin aleatoria.
Amenija (1985) sugiere que se debe considerar el log [P (Xi )|1 P (Xi )] en vez de
los propensity scores estimados.
Paso 2: Construir los matching outcomes.
Ello requiere estimar E(Y0i |P (Xi ), Di = 0) en el caso de CS y E(Y0ti |P (Xi ), Di =

0) y tambin E(Y0t0i |P (Xi ), Di = 0) para el estimador DID.
Existen variadas formas para estimar estas medias condicionales. En general, co-
mo es demostrado en Heckman, Ichimura y Todd (97):
Loss estimadores de las medias condicionales pueden expresarse como promedio

ponderado de los outcomes observados para aquellos con Di = 0.
As
n0
X
0i |P (Xi ), Di = 0) =
(CS) E(Y [j (P (Xi ))] Y0j
j=1
{Dj =0}
que en el caso de kernel, los puros j vienen dado por

P (Xi )P (Xj )
K hn
j (P (XI )) = no
X p(Xi ) p(Xk )
K
hn
K=1
{DK =0}
con K la funcin kernel y hn bandwidth. En forma particular,

a) Estimadores "simple average nearest neighbor"
Para implementar este estimador se necesita primero determinar cuantos

vecinos sern utilizados (p.e. Z).
Para ello
i) determine |P (Xi ) P (Xj )| para cada observacin tratada i y todos los

miembros del grupo de comparacin j.
ii) ordene las j observaciones en trminos de |P (Xi ) P (Xj )| de menor a
mayor.
iii) Sea Ax un ndice del conjunto de Z observaciones con los menores valores
de |P (Xi ) P (Xj )|. Estos son los vecinos mas cercanos.
iv construya los matched outcomes como un promedio simple sobre los out-
comes de los vecinos mas cercanos.
X Z
0i |P (X0 ), Di = 0) = 1
E(Y Yoj
Z
j=1
{Dj AZ }
209
b) Kernel regression matching estimator.

El estimador anterior o bien asigna un peso de Z1 o 0 a las observaciones del
grupo de control. As, si Z=5 entonces el segundo o tercer vecino mas cercano
reciben el mismo peso en la estimacin del valor esperado condicional.
Un Kernel regression escoge el peso de tal forma de que la observacin mas
cercana en trminos de |P (Xi ) P (Xj )| recibe mayor peso.
Una forma de Kernel es la bi-weight Kernel:
15 2
K(s) = 16 (s 1) para |s| < 1
0 otro caso
conde,
R en general, los
R Kernels escogidos deben cumplir con la condicin de
que K(s)ds = 1 y K(s)sds = 0.
Aqu el ancho hn es anlogo al problema de escoger el nmero Z en el caso
anterior.
Los pesos
a las observaciones Dj = 0 dependern de los valores de
P (X )P (X )
i j
K hn .
En trminos prcticos una forma de definir a hn es hn = |P (Xi ) P (Xj )|
para el z-simo vecino cercano. As, el hn variar dependiendo de la cantidad
de datos (vecinos) que tenga cada punto de P (Xi ) (o en cada i {Di = 1})
otra forma es escoger un hn [0,2,0,4].
c) Local Linear Regression Estimator (LLR).
De nuevo, la diferencia solo yace en los pesos donde en el caso de LLR, stos
vienen determinados por:
P 0 P 0
Kij nK=1 KiK (PK Pi )2 [Kij (Pj Pi )][ nK=1 KiK (Pk Pi )]
j (P (Xi )) = P n0 P no P
2 [ n0 K (P P )]2
K
j=1 ij K
K=1 iK (Pk P i ) j=1 ij j i

P (XI )P (Xj )
donde KiK = K hn
tambin se puede demostrar (Fan (1992,1993)) de que el LLR estimator de E(Y0 i|P (Xi ), Di =
0) puede ser visto como la solucin hata al problema siguiente de regresin pon-
derada:
Xn0
2 P (Xi ) P (Xj )
mn (Y0j a b (P (Xj ) P (Xi ))) K
a,b hn
j=1
{Dj =0}
As, para cada valor P (Xi ) requiere por WLS Y0j sobre una constante y P (Xj )
P (Xi ) usado las personas con Dj = 0 y as el intercepto estimado ser un esti-
mador de E(Y0i |P (Xi ), Di = 0).
Qu pasa si no hay matches cercanos?

Los estimadores no paramtricos de E(Y0i |P (Xi ), Di = 0) esta definido solamente

en los puntos de la densidad f (P (Xi )|D = 0) > 0. Esto significa que deberan
existir valores de P (Xj ) para el grupo de Dj = 0 en la vecindad de los puntos de
evaluacin P (Xi ).
As, observaciones Di = 1 que no tengan un P (XJ ) cercano a P (Xi ) deben ser
excluidas de la estimacin.
En general, deberamos considerar el support para P(X) donde tanto fx (P (X)|D =
1) > 0 como tambin fx (P (X)|D = 0) o sea la regin de overlapping support.
Una forma de determinar este soporte comn es al dibujar el histograma de P (Xi )
tanto para los tratados como los de control e identificar visualmente los rangos
donde no hay matches cercanos.
Una forma mas rigurosa de determinar esta regin de soporte comn es calcular
la densidad F (P (Xi )|D = 0) en cada punto de los P (Xi ) para las observaciones
Di = 1 madiante estimadores de densidad no-paramtrica. Por ejemplo:
Xn0
P (xi ) P (xK )
f (P (Xi )|Di = 0) = K
hn
K=1
{DK =0}
Una vez que los estimadores de las densidades en cada punto son obtenidos se
debe ordenar los estimadores de densidad. As, todos los valores de P (Xi ) para
los cuales las densidades estimadas exceden el limite de 1 o 2 % cuantil son con-
sideradas dentro de la regin de soporte comn. Aquellos por debajo deben ser
excluidos de la estimacin.
(Ahora si la regin de traslape es muy pequea es muy pequea, entonces se deben
recalcular los P(X) al considerar otros X).
Descomposicin del sesgo.
Sesgo =: E(Y1 |X, Di =!) E(Y0 |X, Di = 0) = B1 + B2 + B3

B1 sesgo por non-overlapping support de X
B2 error en la ponderacin incorrecta en el canon support de X pues las distribu-
ciones de los tratados y no tratados no son exactamente iguales an en el
soporte comn.
B3 sesgo de seleccin verdadera (economtrico) resultante de la "seleccin en no
observables"
DID matching con canon support corrigen por los primeros dos y el tercero, se
asume que es cero.
En general, DID con common support es la forma adecuada, en la medida de

lo posible, de aislar el efecto del tratamiento promedio en los tratados.

Microeconometr A Aplicada JM Benavente

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Microeconometr A Aplicada JM Benavente

Caricato da

Copyright:

Formati disponibili

Microeconometra Aplicada

Jos Miguel Benavente H.1

Modelos de Eleccin Discreta

En muchos contextos, el fenmeno que se quiere modelar no es continuo sino discre-

Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar el

En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de

1.2. Modelo Bsico de Eleccin Binaria

latent variable threshold model

Modelos Alternativos para F():

1.3. Estimacin por Mxima Verosimilitud

Tomando logaritmo a la expresin anterior:

Maximizando con respecto a beta obtenemos la funcin "score":

y as, el estimador ML b es aquel que resuelve las ecuaciones de verosimilitud:

1.3.1. Modelo Logit

f (z) = (z)[1 (z)]

Y en consecuencia las ecuaciones de verosimilitud son:

La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidad

1.3.2. Modelo Probit o Normit

donde i = (x0i )) y i = (x0i ) con la densidad de la normal estndar. Tambin

1.4. Medias condicionales del trmino de error

y por otra parte:

As, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir

La matriz Hessiana correspondiente es la siguiente:

1.5. Propiedades Asintticas del estimador ML

La varianza del vector Score:

Para ambos modelos el Score tiene la siguiente forma:

Donde Fi = F (x0i ) y fi = f (x0i ). As, la varianza viene dada por:

Dado que la Var(yi )=Fi (1 Fi ).

V ar(yi ) = E(yi Fi )2 = E(yi2 2Fi yi + Fi2 )

Dado que: E(yi ) = Fi

V ar(yi ) = E(yi ) Fi2 = Fi (1 Fi )

Nota : Mximo Global: Aproximacin de Taylor de logL() alrededor de bM LE

1.6. Propiedades de las densidades regulares y verosimili-

La densidad g es Regular de primer orden si la diferenciacin con respecto a y la

La densidad es Regular de segundo orden es lo mismo si se cumple para la segunda

As, si g es regular de primer orden, entonces:

2. Ahora consideremos la segunda derivada del logaritmo de g:

Si g es regular de segundo orden, entonces:

Para el caso en que es vector:

4. Sumando sobre las observaciones el vector equivalente al de la propiedad (2) es:

Generalmente es ms til usar Q en vez de E(Q) para muestras grandes.

1.7. Nota Tcnica

Evaluada en bM L entrega un estimador de la matriz de covarianzas del MLE. Sin em-

La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada)

el que esta basado en el resultado de que el valor esperado de la matriz de segun-

[BHHH OPG (outer product of gradients)]

Este ltimo estimador es muy conveniente pues no se necesita ningn clculo ms

1.7.1. Ejemplo : Ingreso y Educacin

Los datos fueron generados por la siguiente funcin:

Con la solucin (nica) bM LE =15.60275.

Para Computar la varianza asinttica del estimador MLE, se requiere:

Ho: =0 sera rechazada solo con los estimadores de la varianza.

1.8. Violaciones de regularidad y propiedades

1.9. Comparacin entre modelos Probit y Logit

probit = logit 0,625

1.10. Efectos Marginales

estos son los llamados efectos marginales:

Logit: (x0i )[1 (x0i )]

La matriz de derivadas viene dada por:

Para los dos modelos:

1.10.1. Comentarios sobre las estimacin de los efectos marginales en

Efecto marginal de variables dummies: La forma correcta de estimar el efecto

P rob[Y = 1/x , d = 1] P rob[Y = 1/x , d = 0]