Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Notas de Clases
8 de marzo de 2010
1
Departamento de Economa. Universidad de Chile. e-mail : jbenaven@econ.uchile.cl.
Quisiera agradecer la eficiente ayuda de Javiera Vsquez en la transcripcin de estos apuntes co-
mo tambin los comentarios de Emerson Melo, Gonzalo Leyton y Osvaldo Larraaga a versiones
previas de estas notas. Todos los errores son responsabilidad del autor.
Captulo 1
1.1. Introduccin
Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y
multinomial, dependiendo de si el resultado es la eleccin entre dos alternativas o entre
ms. Si bien el segundo tipo es una extensin del primero, se pueden distinguir en estos
ltimos situaciones donde los resultados son no ordenados, como el caso de la eleccin
del auto o bien ordenados como el caso de las patentes.
3
4 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
yi = x0i + i
con:
1 si yi > 0;
yi =
0 si yi 0
Luego,
0 0
P [yi = 1]=P [xi + i > 0] = F (xi )
Probit:
Z z
1
(z) = exp(u2 /2)du
2
Logit:
1
(z) =
1 + ez
n
Y 0 0
L= F (xi )yi [1 F (xi )]1yi
i=1
n n
X o
0 0
logL = yi logF (xi ) + (1 yi ) log[1 F (xi )]
i=1
n
logL X yi fi (1 yi ) fi
= xi
Fi 1 Fi |{z}
i=1 | {z } vector
escalar
1.3. ESTIMACIN POR MXIMA VEROSIMILITUD 5
0 0
con Fi = F (xi ) y fi = f (xi ); donde f es la densidad correspondiente a F.
Entonces:
n
logL X yi Fi
= fi xi
Fi (1 Fi )
i=1
n
X yi Fi
fi xi = 0
Fi (1 Fi )
i=1
Demostracin :
F (z) = (z) = (1 + ez )1
d(z)
= 1(1 + e1 )2 (1 ez ) = (z)[1 (z)]
dz
Demostracin:
n
X
logL yi Fi
= fi xi
Fi (1 Fi )
i=1
Xn
yi i
= i (1 i ) xi
i (1 i )
i=1
Xn
= (yi i ) xi
i=1
n
X
2 logL i
= xi
0
i=1
n
X
= i (1 i ) xi x0i
i=1
La que es definida negativa para todos los , asumiendo que los xs no son perfec-
tamente colineales ( si lo fueran H no es invertible, explota). As, la log-likelihood es
globalmente cncava. La esperanza de H es ella misma y no depende de y, por lo tanto
la matriz de informacin muestral es:
n
X
Jn() = i (1 i ) xi x0i
i=1
n
logL X yi i
= i xi = 0
i (1 i )
i=1
logL X i X i
= xi + xi
1 i i
yi =0 yi =1
1.4. MEDIAS CONDICIONALES DEL TRMINO DE ERROR 7
0
E(i |yi = 1) = E(i |xi + i > 0)
0
(xi )
= 0
(xi )
0
E(i |yi = 0) = E(i |xi + i 6 0)
0
(xi )
= 0
1 (xi )
Si z v N(0,1):
Figura 1
Distribucin Normal(0,1)
densidad:
1
(z) = exp(1/2z 2 )
2
8 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
Medias Condicionales:
Z k
1
E(z|z < k) = z (z)dz
P (z < k)
Z k
1 1
= z exp(1/2z 2 )dz
(k) 2
k
1 1 2
= exp(1/2z )
(k) 2
(k)
=
(k)
De la misma manera:
Z +
1
E(z|z > k) = z (z)dz
1 (k) k
Z +
1 1
= z exp(1/2z 2 )dz
1 (k) k 2
+
1 1 2
= exp(1/2z )
1 (k) 2 k
(k)
=
1 (k)
condicin de ortogonalidad
2 logL X i X i
0 0 0 0
= [i xi (1 i )] xi x i + 2 [i + xi i ] xi xi
0 (1 i )2 i
y =0
i y =1
i
Dadas las expresiones para las medias condicionales, los valores entre parntesis
cuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa defini-
da, es decir, la log-likelihood es globalmente cncava.
Tomando esperanzas, la matriz de informacin muestral para el modelo Probit es la
1.5. PROPIEDADES ASINTTICAS DEL ESTIMADOR ML 9
siguiente:
n
X 2i
Jn() = xi x0i
i (1 i )
i=1
n
logL X yi Fi
= fi xi
Fi (1 Fi )
i=1
0 n
X 2
logL logL yi Fi
E = E fi2 xi x0i
Fi (1 Fi )
i=1
n
X fi2
= xi x0i
Fi (1 Fi )
i=1
Demostracin:
Notar que esta ltima expresin es la misma que la matriz de informacin muestral
derivada para cada uno de los modelos anteriores.
10 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
b
logL() < logL()
Propiedades:
1.
Z +
g(y; )dy = 1
Z +
g 0 (y; )dy = 0
1.6. PROPIEDADES DE LAS DENSIDADES REGULARES Y VEROSIMILITUDES11
y entonces:
g 0 (y; )
E =0
g(y; )
es decir,
log(g(y; ))
E =0
y entonces
logL
E = 0 score
0
2 log(g(y; )) g 00 (y; ) g (y; ) 2
=
2 g(y; ) g(y; )
Z +
g 00 (y; ) dy = 0
es decir,
g 00 (y; )
E =0
g(y; )
y as,
2 log(g(y; )) g 0 (y; ) 2
E = E
2 g(y; )
log(g(y; )) 2
= E
12 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
3.
2 " n
#2 n
logL X log(g(yi ; )) X log(g(yi ; )) 2
E =E =E
i=1 i=1
Ya que el valor esperado de todos los trminos cruzados (fuera de la diagonal) son
cero. Ello debido al supuesto de independencia de las observaciones y el hecho de
que:
log(g(y; ))
E =0
As entonces:
2 logL logL 2
E = E
2
2 logL logL logL 0
E = E
2
2
logL
Jn() = E = E(Q)
0
Donde:
n
X
log(g(yi ; )) log(g(yi ; )) 0
Q=
i=1
1.
h i1 2 logL 1
c b
Jn() =
0
2.
" n #
h i1 X log(g(yi ; )) log(g(yi ; )) 0
Jn( b
c ) =
i=1
Los tres estimadores son asintticamente equivalentes, pero BHHH es mucho ms fcil
de obtener. Pero cuidado con los valores en muestras finitas:
modelos predicen en forma similar; estimadores (una vez corregidos para hacerlos
comparables) son estadsticamente indistinguibles.
Si las muestras son muy grandes pueden aparecer diferencias ya que la distribucin
logstica tiene colas ms altas (anchas) que la distribucin normal (ver grficos).
Para que los parmetros entre los modelos sean comparables, se deben realizar
ciertos ajustes:
3
probit = logit
P [yi = 1] = F (x0i )
P [yi = 1]
= f (x0i )
xi
Probit: (x0i )
Tambin se pueden calcular los errores standard de estos efectos marginales. Si defini-
b = fb b donde fb = f (x0i ),
mos b entonces:
0
b
b
V ar.Asin.(b
) = V
b
0 b
0
b
Donde V= Var. Asin. ().
Probit: df
dz = z , con z = x0 b
b x
)probit = 2 [I (x0 )
V ar.Asin.(b b 0 ]V [I (x0 )
b x
b 0 ]0
df
Logit: dz = (1 2)(1 )
V ar.Asin.(b b ))
)logit = ((1 b 2 [I + (1 2) b 0 ]V [I + (1 2)
b x b 0 ]0
b x
18 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
Al igual que los efectos marginales, los errores standard asintticos tambin dependen
del vector de variables x utilizado.
Usando estos coeficientes, tenemos las siguientes probabilidades como funcin de GPA
(evaluadas en la media de TUC):
1.10. EFECTOS MARGINALES 19
PSI=0: Prob[GRADE=1]=[-7.45+1.62GPA+0.052(21.938)]
PSI=1: Prob[GRADE=1]=[-7.45+1.62GPA+0.052(21.938)+1.4263]
Prob(GRADE=1)
con PSI
0.571
sin PSI
0.106
3.117
GPA
El efecto marginal de PSI es la diferencia entre las dos funciones, el que va desde 0.06
en GPA=2 hasta 0.5 en GPA=0.35. As, la probabilidad de que el estudiante aumente
sus notas dado que sigui PSI es ms alta si mejores son sus notas!!. (Efecto marginal
de PSI en x es 0.468).
Probit: (x0i )
Logit: (x0i )[1 (x0i )]
b = fb b donde fb = f (x0i ),
si definimos b entonces:
0
b
b
V ar.Asin.(b
) = V
b
0 b
0
b
Donde V= Var. Asin. ().
Entonces:
20 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
Probit:
b x
)probit = 2 [I (x0 )
V ar.Asin.(b b 0 ]V [I (x0 )
b x
b 0 ]0
Logit:
V ar.Asin.(b b ))
)logit = ((1 b 2 [I + (1 2) b 0 ]V [I + (1 2)
b x b 0 ]0
b x
As, se pueden realizar todas las pruebas de hiptesis ya conocida para los parmet-
ros. Por ejemplo, los tradicionales test-t para restricciones simples los que estn basados
en los errores estndar calculados a partir de la matriz de informacin (BHHH u otra).
Logit Probit
Variable Coef. t ratio Pendiente t ratio Coef. t ratio Pendiente t ratio
Constante -13.021 -2.64 - - -7.452 -2.930 - -
(4.931) (2.542)
GPA 2.826 2.238 0.534 2.252 1.626 2.343 0.533 1.761
(1.263) (0.237) (0.694) (0.303)
TUCE 0.095 0.672 0.018 0.685 0.052 0.617 0.017 0.587
(0.142) (0.026) (0.084) (0.029)
PSI 2.379 2.234 0.449 2.284 1.426 2.397 0.468 1.695
(2.234) (0.197) (0.595) (2.276)
n o1
W = (Rb q)0 R(Est.V ar.Asin())R
b 0 (Rb q)
Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (por
ejemplo: los L ltimos) el test de Wald requiere que:
R = [0|IL ] y q=0
b r log L]
b 2 a
LR = 2[log L r
1.10. EFECTOS MARGINALES 21
donde L br y L
b son las funciones log-likelihood evaluadas con los estimadores restringui-
dos y no restringuidos respectivamente. Por ejemplo, la prueba tpica de que todos los
coeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F).
Para esta prueba, slo no se restringe el coeficiente de la constante. En este caso, el caso
no restringuido es el mismo para Logit y Probit:
Ejemplo anterior (ver tabla 19.1 Greene): P=11/32 logL0 =-20.5917, se sabe que
b probit =-12.819 y logL
logL b logit =-12.890, 2 2 2
probit =15.546 y logit =15.404, con crit(3) =7.81,
0
por lo tanto se rechaza la hiptesis nula de que todos los s son igual a cero.
z se denomina clasificador perfecto. esto implica que el modelo no puede ser estimado
(esta es una propiedad de los datos). Esto ocurre pues existe una combinacin lineal
zi = x0i de tal forma que zi es un clasificador perfecto y entonces no puede ser
identificado.
(2) Otro problema de identificacin ocurre cuando tenemos una combinacin de muestra
pequea con un gran nmero de parmetros a ser estimados.
Lo anterior pues no existe una solucin finita para las condiciones de primer orden
y por lo tanto no puede ser identificado.
22 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
o bien
n
logL X
= i xi = 0 (1.2)
i=1
o bien:
n
X
H= {i (x0i + i )} xi x0i
i=1
1.11. TEST DE DIAGNSTICO PARA EL MODELO PROBIT 23
2
Notar que E(i ) = 0 y V ar(i ) = i (1
i
i)
(demostrar !!), i se conoce como el residuo
del primer momento (i es la contribucin de cada observacin i al score!!).
yi = x0i + zi0 + i
Si usamos Q para estimar la matriz de varianzas, entonces el test puede ser calculado
como:
W
1+ W
n
donde W es el estadstico de Wald para la hiptesis que todos los interceptos son cero.
(De nuevo, si p=1, entonces Wald=t2 sobre la constante).
Una forma de probar normalidad de los errores es asumir que zi =[(x0i )2 (x0i )3 ] y
probar mediante un Reset-test la significancia de estos trminos. (tambin en Ruud
1984).
1.11. TEST DE DIAGNSTICO PARA EL MODELO PROBIT 25
1
b2 = u2i
zi (b b2 )
n
yi = (x0i ) + vi
De esta manera:
n
1 X zi bi vbi
b1 =
n b i (1
b i)
i=1
n
1 X zi bi (yi b i)
=
n b i (1
b i)
i=1
Xn
1
= zi bi
n
i=1
26 CAPTULO 1. MODELOS DE ELECCIN DISCRETA
De esta forma se construye entonces la prueba sobre los momentos, que en este caso
utiliza los residuos generalizados. En particular, esta ltima expresin es la covarianza
entre los residuos generalizados y z. As, al regresionar zi bi sobre xi bi y una constante
es equivalente a un estadstico de prueba sobre la importancia de la variable z(Idntico
al test de score LM).
Probit
Variable Coeficiente s.e
LWW1 0.240 0.094
KL6 -0.879 0.115
K618 -0.0321 0.0407
WA -0.0345 0.0077
WE 0.132 0.026
UN -0.0107 0.0160
CIT 0.0115 0.1075
PRIN/104 -0.212 0.047
Constant 0.538 0.481
n
X
x0i x0i
logL = yi log + (1 yi ) log 1
exp(zi0 ) exp(zi0 )
i=1
x0i
pi =
exp(zi0 )
En general, (no demostrado aqu) los coeficientes obtenidos son un poco mayores y los
intervalos de confianza (errores standard) mas amplios. Aunque algunos resultados em-
pricos sugieren que el sesgo no es importante (ver Horowitz, Econometrica 1977).
con logL0 : verosimilitud calculado solo con una constante (es decir, asumir que todos
los betas son cero).
Propiedades:
Acotado entre 0 y 1
Econometra Semi y No
Paramtrica
2.1. Introduccin
Como se ha visto hasta el momento, la forma mas tradicional para estimar modelos
de eleccin discreta es mediante la maximizacin de la funcin de verosimilitud. Ello
pues la funcin a ser maximizada no es del tipo lineal en los parmetros y por tanto no
es factible utilizar el mecanismo inherente al estimador por Mnimos Cuadrados Ordi-
narios.
Sin embargo, esta forma de estimacin la cual surge de encontrar los parmetros
de una funcin conocida que permita describir de la mejor manera posible la muestra
de datos que se tiene, descansa, entre otras cosas justamente en el supuesto de que se
conoce la distribucin de probabilidades que est detrs de los datos. En consecuencia,
la tarea se tratara principalmente de obtener los parmetros que la identifican de la
familia de funciones posibles.
29
30 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
anterior, existen dos buenos textos al respecto los cuales utilizaremos como gua para
este captulo:
Mtodos de Kernel
Mtodos tericos de informacin
De forma similar, la poca claridad de la aseveracin del primer prrafo no nos dice
nada acerca de si las observaciones son independientes e idnticamente distribuidas. El
relajo de este supuesto de idntica no ser una gran barrera a lo que veremos ms
adelante, no obstante, el relajo del supuesto de independencia es un tema mucho ms
complejo.
Si llegamos a tener una buena estimacin de f (z), por ejemplo fb(z), entonces muchas
preguntas convencionales de la econometra pueden ser respondidas. Por ejemplo, una
estimacin de E(y1 |x1 , x2 ) puede ser derivada a partir de la integracin apropiada de
fb(z).
2.2. ESTIMACIN DE DENSIDADES 31
Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto xi sobre
un area cercana a xi . Una forma de hacer esto podra ser estimar f (x) como una com-
binacin de densidades normales, cada una con una desviacin standard centrada en
cada punto x. Usando (x; , 2 ) para denotar la densidad normal estndar con media
y varianza 2 evaluada en cada x, entonces el estimador de f (x) tendra la siguiente
forma:
n
X n
X
1 1 1 (x xi ) 2
fb(x) = 2
(x; xi , ) = (2)1/2
e 1/2 (2.1)
n n
i=1 i=1
donde, si es muy pequeo entonces tendramos una estimacin de la funcin con pun-
tas agudas en cada xi . Si es mas grande, la estimacin resultante es mas suave. Dado
que la ecuacin anterior es una mezcla de funciones de densidad, entonces fb(x) tambin
es una densidad.
donde ha sido reemplazado por h sin alterar las propiedades fundamentales de fb(x),
h i
(xxi ) 2
1/2
ello mientras K() comparta ciertas propiedades con e (2)1/2
como ser:
simtrica, no-negativa y que la integral sobre x sea igual a 1. Tambin resulta natural
que K(0) K(x) x.1 De esta manera la expresin en la ecuacin anterior puede ser
reescrita como:
n
X
1 x xi
fb(x) = K (2.2)
nh h
i=1
1
R
La condicin de simetra implica que y K(y)dy = 0, la que usaremos despus
32 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
P
Dado que fb = fb(x) = nh1
ni=1 K xxh
i
, entonces, considerando la expresin anteri-
or, es claro que si escogemos un h pequeo, el sesgo en la estimacin de la densidad es
pequeo pero la varianza (ruido) es grande. Por otra parte, un h muy pequeo significa
que no habrn suficientes puntos en x para promediar o suavizar y en consecuencia, ob-
tendremos una estimacin de la densidad que presente saltos u ondas (sinusoidales).
Por otra parte, si escogemos un h grande el sesgo ser grande pero la varianza (rui-
do) menor, resultando en una estimacin de densidad sobre suavizada y en conclusin
con una fuerte distorsin sobre la verdadera estructura de la densidad. En la prctica h
se debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza,
lo que necesita de algn criterio.
Este criterio puede ser entregado por lo ques e conoce como AMISE, esto es una
aproximacin de MISE mediante una expansin de Taylor la cual tiene la siguiente
caracterstica:
Z Z Z
h4 2 (2) 2 1
AM ISE = 2 [f (x)] dx + (nh) f (x)dx K 2 ()d (2.4)
4
1
= 1 h4 + 2 (nh)1
4
2.2. ESTIMACIN DE DENSIDADES 35
donde:
Z
1 = 22 [f (2) (x)]2 dx
Z
2 = [K 2 ()d
x xi
=
h
Z
2 = 2 K()d
para el caso de funcin kernel. Para obtener h tal que minimize AMISE, diferenciamos
la expresin anterior con respecto a h e igualamos a 0.
1
h3 1 2 = 0 h = c n1/5
n h2
donde c=(2 /1 )1/5 el que depende del kernel y de la curvatura de la densidad (ver-
dadera).
Eleccin de h en la prctica
R
Podemos notar que x depende de la varianza del Kernel y de [f (2) (x)]2 dx el que
indica el grado de variabilidad de la densidad. As, por ejemplo, si la verdadera densi-
dad es ms bien plana entonces 1 0 y c (ancho de banda muy grande). En
contraste, si la verdadera funcin es altamente variable, 1 y c 0 (h pequeo).
Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidad
normal estndar y f(x) N(, 2 ). Algebraicamente se puede determinar que c 1.06
y entonces h=1.06 n1/5 .
Eleccin de K()
Cabe hacer notar, que en trminos de nomenclatura, Pagan y Ullah usan K() mien-
tras que Van der Vaart usa K(y). Pagan y Ullah - supuesto A.2 (Pg 21) - impone las
condiciones estndar para K() la que debe ser una funcin simtrica (no negativa ?) y
que satisfaga los siguientes criterios:
Z
(i) K()d = 1
Z
(ii) K 2 ()d = 2 6= 0
Z
(iii) K 2 ()d <
bajo estas condiciones, se demuestra (pg. 27-28) que AMISE puede ser minimizado
para el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel:
3 2
K() = 4 (1 ) || 1;
0
Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parbola.
Existe una extensa literatura comparando el MISE de este Kernel con el de otros posibles
Kernels. Los resultados indican que la diferencia entre estos es pequea. Consecuente-
mente, considerando simplicidad, costos computacionales y la velocidad de convergencia
2
xxi
Recordar que = h
.
2.2. ESTIMACIN DE DENSIDADES 37
del estimador de la densidad pueden determinar que Kernel escogemos como apropiado
al problema que estemos analizando. No obstante, cabe hacer notar que la eleccin de
h tiene mucho mayor impacto que la eleccin de K().
(momentos de orden (r-1) son cero pero el r-simo momento es finito). Estos Kernels se
conocen como Kernels de orden superior (orden r). Para emplearlos debemos asumir
que la derivada de orden r es continua.
Ejemplo:
Del hecho que los momentos impares de una normal (0,1) son cero y los pares son:
2j 2j 2j + 1
E =
2
3
La secuencia {xn } de nmeros se dice que es de orden nk , xn =O(nk ), si xn
nk
c mientras n
y c es constante.
38 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
tenemos que:
Z
K()d = 0 a0 + a2 = 1
Z
K()d = 0 a1 = 0
Z
2 K()d = 1 a0 + 3a2 = 0
1
K() = (3 2 )()
2
cuyos primeros momentos son cero. Este Kernel incluye una mezcla de polinomio de
grado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez de
sumar, datos lejanos se restan).
Para ello definimos una funcin de densidad arbitraria f0 (x) como tambin tambin
(x) como un vector de funciones de x con una dimensin m (es decir, pensar en un
2.2. ESTIMACIN DE DENSIDADES 39
et(x) f0 (x)
f (x; t) = R t(x) (2.5)
e f0 dx
Aqu t transforma f0 (x) en otra densidad. Ahora, suponga que utilizamos la densidad
f (x; t) como un modelo paramtrico de un conjunto de datos, con parmetro t descono-
cido y a ser estimado. El logaritmo de la densidad es:
Z
logf (x; t) = t (x) + logf0 (x) log et(x) f0 (x)dx
= t (x) + logf0 (x) K(t)
n
X n
X n
X
logL(t) = log[f (x; t)] = t (xi ) + logf0 (xi ) n K(t)
i=1 i=1 i=1
n Pn
logL(t) X K(t) i=1 (xi ) K(t)
= (xi ) n o = (2.6)
t t n t
i=1
As la media de se define para que sea igual a K(t) t . Aquellos familiarizados con
funciones generadoras de momentos reconocern que la ecuacinP anterior plantea que
el estimador MLE de t es aquel donde Ef (x;t) (x) = n1 ni=1 (xi ), es decir que la
media poblacional de esta distribucin "t-tilde"se iguala a la media muestral para cada
componente de .
En el trabajo original de Barron y Sheu las funciones base (x) eran secuencias de las
funciones polinomiales, trigonomtricas o spline y x fue reescalado para que estuviera
en el rango [0, 1]. As, tomando f0 (x) como la densidad uniforme sobre [0, 1], uno puede
usar polinomios ortogonales de la funcin uniforme para definir (x). Pero cuantas de
estas s deberan considerarse?. Si se sabe queR el logaritmo de la verdadera densidad
tiene r derivadas cuadrticamente integrables, ( |Dr logf (x)|dx < 0) entonces definien-
1 2r
do m = n 2r+1 alcanza una tasa de convergencia de fb a f igual a Op (n 2r+1 ) el cual es
similar al alcanzado por los Kernels adaptativos (o de orden superior)
como xa1 xb2 para pequeos valores de a y b, tambin como xa1 xb2 xc3 y as sucesivamente
(notar tambin que la media de x puede ser restada de las expresiones anteriores para
imponer condiciones de momentos). No obstante, a medida que la dimensin aumenta,
la integracin numrica que define K(t) se hace mas compleja.
La ecuacin anterior usa el mismo h para cada variable. Una prctica habitual es o
bien reescalar los datos componente a componente con el fin de obtener una varianza
unitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es uti-
lizar un Kernel normal multivariado con una matriz de covarianzas no diagonal donde
la eleccin natural para la matriz de covarianzas sera proporcional a la matriz de co-
varianzas muestral.
Por otra parte, la funcin Kernel multivariada K1 puede incluir la densidad normal
estndar multivariada o bien el producto de q + 1 kernels univariados. Sorprendente-
mente, Epanechmikov demostr que el Kernel normal multivariado ( y no el producto de
Kernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Kernels.
o bien:
fb(y, x)
fb(y|x) =
fb(x)
1 2
K() = (2)1/2 e 2
y una Espanechnikov:
K() = 34 (1 2 ) si || 1
xi x
donde = h y h=n1/5
bx , con n=1104.
Se observa que slo hay pequeas diferencias entre estimadores sugiriendo que la elec-
cin entre tipos de kernel no es fundamental.
La figura 2.2 contrasta la densidad estimada con una Normal de una variable aleatoria
con la misma varianza muestral. Tambin se entrega la cota inferior del intervalo de
confianza al 95 %, el cual se calcula como :
2.2. ESTIMACIN DE DENSIDADES 43
Z
d
c))
(nh) 1/2
(fb E (f N 0, f (x) 2
K ()d cuando n
La utilizacin de Kernels de mayor orden puede ser una forma de solucionar este prob-
lema. En la Figura 2.3 muestra que el ajuste no mejora mucho existiendo un estimacin
con mas sinusoidales. Otra forma de solucionarlo es mediante Kernels adaptativos (ver
44 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
yt = yt1 + et donde = 1
De esta forma, este experimento es estimar por Montecarlo la densidad n(b 1) con
n = 1000 series de yt , t = 1, 1000, y y0 y et obtenida de una N (0, 1). Si cada serie yt
(i)
es designada como {yt }1000i=1 , entonces:
"1000 # 1000
X (i) X (i) (i)
(i) 2
b = (yt=1 ) yt1 yt , (i) 1)
xi = 1000(b
t=1 t=1
Z
(x)g(x)dx = M (2.7)
48 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
m.
Considere:
e(x) f0 (x)
f (x; t) = R
e(x) f0 (x)dx
Definiendo:
Z
Mo (t) = et(x) fo (x)dx
Z
= et(x) f (x; o)dx
y, en forma similar:
Z
M (t) = et(x) f (x; )dx
Z
e(x) f0 (x)
= et(x) dx
M0 ()
Ahora, podemos definir en f (x; ) de tal modo que f (x; ) es la (o una) funcin g(x)
que buscamos. Estos requiere que:
Z
e(x) f0 (x)
(x) dx = 0 (2.8)
M0 ()
Para el caso univariado, suponga que tomamos una secuencia de funciones (x) y cal-
culamos su media muestral de forma de determinar . Si definimos (x) = (x)
y seguimos el procedimiento anterior para calcular f (x, ), entonces si se escoge ade-
cuadamente la secuencia (x) - la que incluye el nmero de funciones a medida que la
2.2. ESTIMACIN DE DENSIDADES 49
Deaton(1997), pg 174.
n
1X x xi
fbw (x) = vn K K = Epanechnikov
h h
i=1
vn : pesos normalizados (pesos normalizados por su suma, es decir que sumen 1).
50 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
Y = E(Y |X = x) + u = m(x) + u
En primer lugar, debemos notar que si tenemos valores repetidos de x, podemos prome-
diar los valores correspondientes de y para obtener un estimador de m(x). No obstante
2.3. ESTIMACIN DE LOS MOMENTOS CONDICIONALES 51
Z
f (x, y)
m(x) = y dy (2.9)
f1 (x)
Pn x x
i=1 K yi
i
m(x)
b = Pn hx x (2.10)
i=1 K
i
h
Bajo este esquema, para estimar m(x) se pondera cada observacin yi en proporcin a
la contribucin que los x0 s de cada yi hacen para la estimacin de la densidad marginal
de X a x.
El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aque-
llos yi s que corresponden a xi en una vecindad de x.
n
X
m(x)
e = wni (x) yi (2.11)
i=1
donde wni = wn (xi , x). Si los wni son no negativos y suman 1, podemos pensar en ellos
como pesos probabilsticos.
Veamos esta situacin en el siguiente grfico donde se han considerado slo dos puntos.
52 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
yj
m(x)
yi
xi X xj
n
X
m(x)
e = wni (x) yi
i=1
= yi wn (xi , x) + yj wn (xj , x)
x x
K xihx yi + K jh yj
=
x x
K xihx + K jh
mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos xi que
estn mas cerca de x. Si m(x) es considerado como un solo parmetro a estimar (pensar
en la constante en un modelo de regresin), entonces tenemos que:
n
X
wn i (x) [yi m]2 (2.12)
i=1
2.3. ESTIMACIN DE LOS MOMENTOS CONDICIONALES 53
Notar, que lo que hacemos es tratar de estimar los para lo que necesitamos una
estimacin (en este caso no paramtrica) de la esperanza condicional. Para el caso
del estimador de Nadaraya-Watson los pesos para la estimacin de dicha esperanza
condicional son de tal forma que - al sustituir (2.12) en (2.14), escogemos los m de tal
forma de minimizar:
X
x xi
[yi m]2 K
h
Una extensin natural a esta forma de estimacin es la denominada "locally linear
regression". En sta se escoge m y con el fin de minimizar la siguiente expresin :
X n
x xi
[yi m (xi x)]2 K
h
i=1
El siguiente grfico muestra una de estas LPR en que se han utilizados polinomios
de Hermite para aproximar la funcin.
f3(x)
f2(x)
1
f1(x)=1
Formalmente :
" q #
X
m(x) = E[Y |X = x] = G fk (xk )
k=1
54 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
Z Z
f2 (x) f1 (x) (x) = 1 pero f2 (x) f1 (x) = 0
Entre las ventajas de los modelos de LLR podemos destacar las siguientes:
pueden ser analizados con las tcnicas de regresin estndar.
con kl0 vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J relacionados con M/2.
La idea central de esta forma flexible, desarrollada por Gallant (1981), es que dichas
series aproximan bastante bien m(x) para el caso multivariado. En particular bajos
ciertos supuestos (B1-B7, en teorema 3.9 Pagan y Ullah), se cumple que:
u1/2 [E(m(x))
b m(x)] 0 mientras n
2. No obstante, clculos para valores cercanos a cero pueden ser obtenidos pero con
intervalos de confianza (varianza) muy altos y por lo tanto, la imposicin ser
alta.
Existen dos fuentes de sesgos en una regresin mediante Kernel. Estos se ilustran
en el siguiente grfico.
2.3. ESTIMACIN DE LOS MOMENTOS CONDICIONALES 57
Bandwidth m2
y3*
y2* m1
y3
y2
y1
x1 x2 xa xb x3
Partamos con el caso de la funcin m2. Dado el ancho de banda h los puntos x1 ,
x2 y x3 contribuyen a la estimacin de y2 . En consecuencia, este valor ser un promedio
ponderado entre y1 , y2 e y3 donde y2 captura la mayor parte del peso y con y1 e y3
tomando el mismo peso y con los pesos sumando 1.
Dado que la funcin de regresin es cncava, este promedio ponderado ser menor que
y2 y por lo tanto la estimacin estar sesgada hacia abajo. Si la verdadera funcin fuera
convexa, el sesgo ser hacia arriba; slo en el caso lineal no existira sesgo. No obstante,
el sesgo sera cada vez menor a medida que el tamao de la muestra aumentara ya que
el bandwidth ser cada vez ms chico y, en el lmite, slo x2 contribuir a estimar la
media condicional.
Al considerar los valores extremos tambin cierto sesgo puede aparecer. Suponga que
x1 es el valor menor de las xs en la muestra. Cuando tratamos de estimar la regresin
por kernel en x1 , el promedio de los puntos vecinos slo incluirn aquellos que estn
a la derecha y por lo tanto existir un sesgo hacia arriba en la estimacin (si la regre-
sin tiene pendiente positiva). Un problema anlogo se observar en la otra parte de la
muestra. Este sesgo disminuye a medida que nos movemos de las puntas hacia el centro
pero si el bandwidth es amplio este sesgo puede ser distorsionador.
58 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
La pregunta que surge es, si a pesar de tener una relacin lineal, la cual evita el primer
sesgo ya discutido, cmo se puede eludir el segundo sesgo. La respuesta sera ampliar
la muestra (es decir, n ). Pero qu sucede si no podemos hacer esto en la prctica.
Una forma, es la ya discutida aproximacin utilizando series, pero existen otras, veamos.
Una forma es imponer una estructura de los momentos condicionales, el cual, entre
otras cosas nos ayuda a solucionar el problema del urse of dimensionality"que surge al
utilizar las aproximaciones por series.
Por una parte, existen un tipo de aproximaciones que se denominan Modelos Aditivos
Generalizados los que tiene la siguiente estructura :
q
X
yi = mj (xij ) + ui
j=1
donde mj son funciones de variables unitarias con E[mq (xq )] = 0 condicin necesaria
para su identificacin. Supongamos que el nmero de regresores q, es igual a 2.
R
ya que m(x2 )f (x2 ) = 0 dado el supuesto de que E(m2 (x2 ))
P= 0. Entonces, m(x1 , x2 )
puede ser estimado en forma no paramtrica m(xb 1 , x2 ) = nj=1 wj (x1 , x2 )yj dejando
slo el problema de que hacer con f2 (x2 ).
Una forma de llevar a cabo esta ltima etapa es mediante el reemplazo de f (x2 ) por
una funcin determinstica f (x2 ) con la condicin que integre a la unidad.
2.3. ESTIMACIN DE LOS MOMENTOS CONDICIONALES 59
R
donde: wj (x1 ) = wj (x1 , x2 )f (x2 )dx2 .
yi = x01i + g1 (x2i ) + ui
donde puede ser estimado va OLS una vez que E(yi |x2i ) y E(x01i |x2i ) han sido
reemplazados por sus estimadores tipo kernel u otro similar. As, g1 (x2i ) puede ser
recobrado de la siguiente manera:
Notar la aparicin de en estas dos ltimas ecuaciones. Ello nos lleva al mundo de
la .estimacin semi-paramtrica", donde existen parmetros de inters econmico en un
modelo de caractersticas no paramtricas.
Con este fin, se realiza una estimacin por por kernel del tipo
yi = m(xi ) + ui
60 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
Para este caso particular, la variable educacin, fue separada en 5 categoras y para la
variable habilidad cognitiva se creo una grilla de 20 puntos separados uniformemente
los que denotaban aquellos individuos desde 0,3 desviaciones estndar bajo la media de
esta variable hasta 1,5 desviaciones estndar sobre la media.
Con respecto a los resultados: salarios suben a medida que la educacin sube
dado un nivel de habilidad; excepto en habilidad baja y educacin alta, lo que
es un problema de disponibilidad de datos ms que de inconsistencia econmica.
Tambin para niveles altos de educacin existen retornos crecientes a los niveles
de educacin ms bajos donde tiene forma de U invertida.
Otro ejemplo
Ahora bien, veamos resultados mediante el uso del modelo semi paramtrico par-
tially linear model entre otras cosas, para ver el aumento del curse of dimensionality y
los beneficios en trminos de ahorro de costos computacionales. Para ellos consideremos
este sencillo modelo:
yi = zi + m(xi ) + i
yi = yi zi0 0
(iv) Obtener una regresin lineal local no paramtrica usando yi y xi para obtener un
estimador de m.
Veamos una aplicacin prctica de este modelo para el cual se ha generado 300 puntos el
que incluye componentes paramtricos como tambin no paramtricos con la siguiente
estructura:
y = 2z1 + z2 + m(x) +
Los siguientes grficos muestran la verdadera as como los resultados de las variadas
62 CAPTULO 2. ECONOMETRA SEMI Y NO PARAMTRICA
estos casos.
Como vimos, una forma de salir al paso es realizar estimaciones del tipo semiparamtrica
pues as esquivamos este ltimo problema y nos concentramos en la variable de inters
aquella generadora del problema.
Una forma de interpretar las condiciones de primer orden del estimador mximo verosmil
es que en ellas se "pesan"las FOC del mnimo cuadrado no lineales (NLS) en forma
apropiada para corregir la heterocedasticidad presente del error (yi Fi ).
Debido a esta dependencia, la esperanza condicional est basada en este ndice x0i
y no en xi . Si fuera conocido, y deseramos estimar la probabilidad de una decisin
positiva (es decir, yi = 0 yi > 0) dadas las caractersticas del individuo xi , mtodos
no- paramtricos podran ser empleados para estimar dicha esperanza condicional al
usar yi y zi = x0i como datos (Notar que no se debera usar yi , xi pues no captarn la
naturaleza de ndice nico del modelo).
donde
6
en logit y probit la medida se define como cero
2.4. ESTIMACIN SEMIPARAMTRICA DE MODELOS DE ELECCIN DISCRETA65
yi E(y|xi ) = yi F (v(xi , 0 ))
= yi m(v(xi , 0 ))
donde mb puede ser estimado, por ejemplo, por Nadaraya-Watson asumiendo una forma
funcional arbitraria para v. Aqu, m
b es el estimador no paramtrico de E(y|v(x, )).
La eficiencia de esta tcnica depende de la habilidad para estimar m[v(xi , )], es decir, de
la velocidad de estimacin. Ello impone ciertas restricciones sobre los anchos de banda h
si se utilizan mtodos de kernel. No obstante, si son bien seleccionados se podr obtener
consistencia n1/2 y normalidad. Esto es:
d
n1/2 (b 0 ) N (0, D1 V D1 )
P (y = 1|x) = P (y = 1|v)
f (y = 1|v)
=
f (v)
f (v|y = 1) P (y = 1)
=
f (v|y = 1) P (y = 1) + f (v|y = 0) P (y = 0)
Todas las cantidades que aparecen en este ltimo trmino pueden ser estimadas; las
densidades condicionales por estimadores de densidad no paramtrica y las probabili-
dades incondicionales por las medias muestrales.
Notar que en cada iteracin se deben estimar los kernels de vuelta ahora con
distintos v. En particular, para KSE:
n
X
1 v x0i bks
f (v|y = 1) = yi K
n P (y = 1) hn hi
i=1
2.4. ESTIMACIN SEMIPARAMTRICA DE MODELOS DE ELECCIN DISCRETA67
n
X
1 v x0i bks
f (v|y = 0) = (1 yi )K
n (1 P (y = 1)) hn hi
i=1
Para extensiones del KSE ver Lee(95) especialmente en el caso de tener varias elec-
ciones (policotmica), aspecto que se ver en el captulo siguiente teniendo eso si, en
consideracin, que el KSE en estos casos no llega al lmite inferior NP.
Obviamente los dos estimadores anteriormente descritos no son los nicos que pro-
pone la literatura. Aqu entregamos una lista acotada de otros estimadores sugeridos
aunque no son muy utilizados en la prctica. Una revisin detallada de stos se pre-
senta en Gerfin (1996) los que sern discutidos como parte de la primera tarea del curso.
n
X
Qn () = yi 1(x0i > 0) + (1 yi ) 1(x0i < 0)
i=1
Una vez que ya hemos analizado con cierto grado de detalle modelos de eleccin
binaria, tanto en su dimensin paramtrica como tambin no paramtrica, en este cap-
tulo revisaremos algunas extensiones del modelo bsico binario. Comenzaremos con el
anlisis de datos grupales para luego continuar con modelos para situaciones con mas
de dos elecciones.
P (yi = 1) = F (x0i )
pero cuidado, ahora xi es un conjunto de variables las que slo difieren entre grupos y
no al interior de ellos.
69
70 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
Ahora, si los x son constantes al interior de cada clase j entonces la funcin anterior
puede ser re escrita como sigue :
J
X
logL = pj log(F (x0j )) + (1 pj ) log(1 F (x0j )) (3.1)
j=1
Pnj
donde pj = n1j j=1 yi es la proporcin de respuestas igual a "1.en la clase j y con n1 ,
, nj el nmero de observaciones al interior de cada clase j. Notar que la suma del
MLE es solo sobre j trminos y donde F puede ser la Normal o la Logstica.
Ahora, dado que J < n tenemos lo que se denomina un modelo completamente satura-
do con J parmetros. Esto significa que para cada clase de x asignamos un parmetro
diferente. Por ejemplo, j con j = 1, ...J no imponiendo condicin alguna de cmo las
covarianzas entre los j pueden afectar las probabilidades.
J
X
logL = [pj log(j ) + (1 pj ) log(1 j )] nj
j=1
j = F (x0j )
pj = F (x0j ) + j = j + j
j (1j )
donde E(j )=0 y V(j ) = nj
1 1 1 dF 1 (j )
F (pj ) = F (j + j ) F (j ) + j
dj
la ltima expresin corresponde a una expansin de Taylor en torno al punto j = 0.
F 1 (pj ) = zi = x0j + uj
Fj (1Fj )
con E(uj ) = 0 y V (uj ) = nj fj2
exp(x0j )
j =
1 + exp(x0j )
entonces,
j
x0j = log
1 j
Un ejemplo
Veamos un ejemplo ilustrativo de la estimacin de modelos binarios con datos agru-
pados. Warner (1978) considera el problema de prediccin de desercin para los enlis-
tados en la marina de los EEUU. Para ello define las siguientes variables:
y = 0 en otro caso.
En la siguiente tabla se presentan los resultados alcanzados para las cuatro especifi-
caciones empricas.
Comparacin entre los parmetros estimados: datos individuales y por grupos
Variable Lineal Individual Lineal Grupal Logit Individual Logit Grupal
Ed<12 -0.105 (17.04) -0.109 (14.14) -0.672 (21.23) -0.656 (14.42)
Ed>12 0.028 (3.88) 0.032 (3.79) 0.349 (4.51) 0.284 (2.87)
Mental group I 0.084 (9.95) 0.084 (9.65) 1.179 (9.32) 1.040 (6.00)
Mental group II 0.021 (3.96) 0.020 (3.09) 0.201 (4.50) 0.208 (3.6)
Mental group III -0.053 (7.70) -0.052 (6.20) -0.345 (7.71) -3.42 (6.00)
Mental group IV -0.098 (12.46) -0.097 (10.04) -0.581 (12.98) -0.571 (9.75)
Dependents -0.046 (4.82) -0.039 (3.61) -0.349 (5.52) -0.403 (5.21)
Age<18 -0.031 (4.16) -0.024 (2.56) -0.145 (3.24) -0.166 (3.14)
Age>19 -0.027 (4.30) -0.022 (3.51) -0.185 (4.13) -0.169 (3.24)
Race 0.027 (3.61) 0.037 (4.15) 0.136 (3.04) 0.081 (1.28)
Constant 0.881 (25.70) 0.882 (20.79) 1.959 (61.96) 1.950 (40.87)
N 30.000 137 30.000 137
(t values entre parntesis)
Como se observa, las variaciones entre el modelo estimado en forma grupal y aquel
individual son poco significativas. Notar, eso s, la menor cantidad de datos necesarios
para la estimacin de los datos en forma agrupada.
En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de una
eleccin, a saber: (i) individuos que tienen que tomar varias decisiones cada una de
ellas entre dos alternativas o bien (ii)una eleccin donde hay mas de dos alternativas
(ordenadas o no ordenadas).
Para el primer caso se aplica generalmente modelos probit o logit multietpicos mien-
tras que para el segundo caso se aplican los denominados multinomial logit cuando
las alternativas no tienen un orden pre establecido (no ordenados) o ordered probit
cuando el orden de las alternativas importa (caso ordenado).
Comenzaremos con la revisin de aquellos casos donde existen mas de dos alternati-
74 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
va de eleccin pero donde hay slo una eleccin. Como se mencion, en este caso existen
a lo menos dos situaciones:
1. donde las probabilidades de eleccin de cada alternativa dependen solo de las car-
actersticas de quien decide. Bajo esta situacin modelamos dichas probabilidades
con un Multinomial Logit (MNL).
Sea:
p1
= F (10 X)
p1 + pm
p2
= F (20 X)
p2 + pm
pm1 0
= F (m1 X)
pm1 + pm
pj F (j0 X)
= = G(j0 X) j = 1, 2, , m 1.
pm 1 F (j0 X)
ya que,
m1
X pj 1 pm 1
= = 1
pm pm pm
j=1
tenemos que:
1
m1
X
pm = 1 + G(j0 X) (3.2)
j=1
3.2. MODELOS CON MS DE UNA ELECCIN 75
y entonces:
G(j0 X)
pj = Pm1 (3.3)
1 + j=1 G(j0 X)
Podemos considerar que las observaciones son obtenidas de una distribucin multino-
mial con las probabilidades dadas segn (3.2) y (3.3). Desde el punto de vista computa-
cional la distribucin logstica para el error hacen que G(j0 X) sea igual a exp(j0 X) y
entonces:1
0
ej X
pj = j = 1, 2, ...m 1 (3.4)
D
Pm1 0
con D = 1 + k=1 ej X
i=1
Dado que :
exp(x0 j )
pij = Pm1 i j = 1, 2, ....m 1.
1 + k=1 exp(x0i k )
y tambin que :
1
pim = Pn1
1 + k=1 exp(x0i k )
1
aunque tcnicamente se puede asumir cualquier distribucin para u en el modelo y = 0 X + u
76 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
Las ecuaciones en (3.5) son no lineales en k pues pik es una funcin no lineal de
todos los 0 s y en consecuencia se aplican mtodos numricos (i.e. Newton-Raphson).
Por su parte, la matriz de segundas derivadas se obtiene a partir de:
X n
2 logL
0 = pik (1 pik ) xi x0i
k k
i=1
X n
2 logL
0 = pik pil xi x0i
k l
i=1
La cual es negativa definida lo que asegura una nica solucin. La estimacin de sta
puede realizarse segn los mtodos ya vistos donde el estimador BHHH es un a alter-
nativa sencilla.
Finalmente, para la iteracin de las rutinas para encontrar los valores ptimos a partir
del score se pueden considerar como valores iniciales para obtener los 0 s aquellos re-
sultantes de los modelos logit simples para cada alternativa j bien los coeficientes de
una funcin discriminante.
3.2. MODELOS CON MS DE UNA ELECCIN 77
Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo. Supon-
ga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valor
presente de ganancias potenciales, (ii) costos de entrenamiento sobre ganancias netas y
(iii) valor presente del tiempo en desempleo.
Sea yij : vector de valores de estas caractersticas para la ocupacin j percibida por
el individuo i.
Notar que en el caso del MNL (ecuacin 3.4), los pj tienen diferentes vectores de coefi-
ciente j . En cambio, en el conditional logit (ecuacin 3.6) el vector entrega el vector
de precios implcitos para las caractersticas. 2
exp(j0 xi )
pij = Pm 0 (3.7)
k=1 exp(k xi )
Por supuesto que uno puede combinar ambas cosas y escribir (3.6) y (3.7) como:
exp( 0 yij + j xi )
pij = Pm 0 0
k=1 exp( yij + k xi
2
Aunque se necesita un tipo de normalizacin por ejemplo que el primer elemento de sea igual a 1
78 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
Ejemplo
Veamos un ejemplo de un modelo conditional (tomado del caso 19.16 del Greene).
Hensher (1986) estima un modelo de eleccin de viajes urbanos para una muestra de
Sydney. Las cuatro elecciones eran: auto/conductor (C/D), auto/pasajero (C/P), tren
y bus. Para el modelo bsico, los atributos eran (1) constante especifica de C/D, (2)
una constante especifica de C/P, (3) una constante especifica de tren, (4) tiempo de
viaje, (5) tiempo de espera, (6) tiempo caminando, (7) costos de viaje, (8) costos de
estacionamiento, (9) nmero de vehiculos requeridos para la familia y (10) porcentaje
de los gastos de transporte cubiertos por fuentes que no sean de la familia. La muestra
consisti en 1455 observaciones. Un resumen de los datos se presenta en la siguiente
tabla.
Resumen Estadsticas
In-Vehicle In-Vehicle Walk Wait Number
Cost (dol) Time (min) Time (min) Time (min) Choosing
C/D 64.56 28.65 0.76 0.15 953
C/P 4.37 28.32 0.71 2.89 78
Train 98.23 43.84 10.50 8.37 279
Bus 81.61 38.15 7.47 7.11 145
Ahora bien, si la mitad de los autos que existen en el pas son nacionales (o azules)
entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o ir
en bus es ahora 7.4 a 1. Ello, ya que la relacin de 14 a 1 se mantiene, errneamente
podra asignarse el otro 7.4 al tren o como pasajeros en un auto.
Dicho de otro modo, si la utilidad relativa de viajar en auto versus viajar en bus es
alta, no necesariamente implica que la utilidad relativa de viajar en tren versus viajar
en bus ser alta tambin. Pero si dicha utilidad es alta entre un auto rojo versus bus
aumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a vi-
ajar en bus.
De esta manera podemos notar que en el MNL se asume que la eleccin entre dos
alternativas es independiente de las alternativas restantes. Especficamente se asume
que los trminos de error en la ecuacin de eleccin subyacente son independientes en-
tre s.
donde :
s: conjunto restringuido.
f : conjunto de todas las alternativas posibles.
k: rango de la matriz [Vbs Vbf ]
ser necesario utilizar un modelo alternativo al logit multinomial ya que este ltimo
ser inconsistente. Existen a lo menos dos formas de resolver este problema. Una forma
es mediante un Probit Multivariado y la otra, es mediante la utilizacin de un Logit
Anidado (Nested Logit). Veamos cada uno de ellos.
Logit Anidado
El principio subyacente a este enfoque es modelar, de ser posible, la decisin entre
las alternativas como siguiendo un proceso de etapas consecutivas. Bajo este esquema,
se agrupan las alternativas en subgrupos permitiendo que la varianza sea diferente en
cada grupo, relajando as el supuesto de homocedasticidad del logit condicional, pero
manteniendo la hiptesis de independencia de alternativas irrelevantes dentro de cada
grupo. El modelamiento implica que el decisor puede escoger entre L subgrupos y luego
escoger entre una de las alternativas dentro del grupo, generndose una estructura de
rbol.
Eleccin
Rama 1 Rama 2
Cabe sealar que este modelo surge, generalmente, como modificacin de la especifi-
cacin estocstica del modelo logit condicional y no necesariamente como un modelo de
comportamiento.
Supongamos que tambin los datos estn formados por observaciones con atributos
de las alternativas yj|l y atributos de los conjuntos alternativos zl con l = 1, ....L
As:
0 0
e yj|l + zl
P [subramaj , ramal ] = pjl = PL Pj 0 yj|l + 0 zl
j=1 e
l
l=1
y
0
e zl +l Il
pl = PL
0 zl +l Il
l=1 e
P l 0y
donde Il = log jj=1 e j|l valor inclusivo de la l-esima rama y donde si l = 1, entonces
se recupera el modelo original.
La estimacin de un modelo logit anidado puede ser realizada por dos mtodos al-
ternativamente. En el primero de ellos, se estiman los considerando la eleccin dentro
de cada rama como un modelo logit condicional sencillo. As se calculan los valores
inclusivos de todas las ramas del modelo. Y luego, se estima y todos los parmetros
considerando la eleccin entre ramas como un modelo logit condicional con atributos
zl y Il . Este mtodo se conoce como mxima verosimilitud con informacin incompleta
(LIML).
Como se mencion, el LIML se estima en dos etapas. Hay dos pruebas acerca del
anidamiento. El LR entre las dos formas de estimacin -2(65.73-65.41)=0.65 resulta
ser bastante menor que el 2 crtico de 3.84. Y la segunda prueba basada en un test de
2
Wald del FIML con 2 = (0,77581)
(0,24159)2
= 0,861 entregando la misma conclusin.
Multinomial Probit
Una solucin alternativa al problema de la no independencia de alternativa irrele-
vantes es estimar un MP en el cual, las alternativas irrelevantes son generadas por una
distribucin normal multivariada interdependiente conjunta.
Y1 = V1 + 1
Y2 = V2 + 2
Y3 = V3 + 3
Asuma que los residuos (1 , 2 , 3 ) tiene una distribucin trivariada normal con me-
dia cero y matriz de covarianzas .
2 2 2
11 12 13
= 12 2 2
22 2
23
2
13 232 2
33
si 21 = 2 1 , 31 = 3 1 , V12 = V1 V2 y V13 = V1 V3 .
donde f (21 31 ) tiene una distribucin normal bivariada con matriz de covarianza igual
a y media cero.
3.2. MODELOS CON MS DE UNA ELECCIN 83
Resumen
El siguiente cuadro nos permite contextualizar la discusin de los modelos que hemos
analizados hasta ahora y los que an nos quedan por analizar.
Probit
Logit
Dicotmica
Lineal
variable No y semiparamtrico
discreta
multinomial logit
no ordenada
conditional logit
Policotmica ordenada ordered probit
secuencial
No ordenado:
MNL:
e(j +j xi )
E(yij = 1) = ij = Pm ( + x )
j=1 e
j j i
MNL(N ):
1
E(yi1 ) = i1 = Pm (j +j xi )
1+ j=2 e
e(2 +2 xi )
E(yi2 ) = i2 = Pm ( + x )
1 + j=2 e j j i
..
.
e(j +j xi +zi zj )
E(yij ) = ij = Pm ( + x + ) (3.8)
zi zj
j=1 e
j j i
MNL:
" K
#
j X
= j j k k
xk
k=0
= j j
CLM:
j j
= j (1 j ) e y = j k e
zj zk
3.2. MODELOS CON MS DE UNA ELECCIN 85
Nested Logit: otra forma de salir al paso ante la situacin de rechazo de la hiptesis
de independencia de las alternativas irrelevantes.
yi = x0i + i
0 = j = +
yi = j si j1 yi < j j : 1...J
Para estos casos, se utiliza un modelo denominado Probit Ordenado para estimar esta
ecuacin donde se asume que los errores se distribuyen:
i N (0, 2 )
86 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
los que no son observables y luego deben ser estimados; es decir, son parmetros del
modelo.
Dado que los umbrales 0 s y los valores de y no son observados, la escala y origen
de y son arbitrarios. As, podemos llevar a cabo la siguiente normalizacin: =1 y
1 =0.
es decir,
..
.
y tambin :
n J
logL X X 1(j = k) (j x0i ) 1(j 1 = k) (j1 x0i )
= yij
k (j x0i ) (j1 x0i )
i=1 j=1
Para el caso de las segundas derivadas -ver Maddala 1986:49, el Hessiano es negativo
definido, y por lo tanto, el mtodo de iteracin usado (i.e. Newton-Raphson) converger
3.2. MODELOS CON MS DE UNA ELECCIN 87
Los efectos marginales del modelo probit ordenado son los siguientes:
P [yi = j]
= (j1 x0i ) (j x0i )
xi
P [yi = 1]
= (x0i )
xi
P [yi = J]
= (j1 x0i )
xi
donde los dos ltimos casos son aquellos en el extremo de la distribucin. Si se asume
que el obtenido es positivo entonces el signo de estas derivadas ser negativo para el
primer umbral y positivo para el ltimo. Para aquellas categoras o alternativas en el
centro, el efecto es ambiguo. Veamos lo que ocurre grficamente para el caso de tener
tres alternativas ordenadas (i.e. dos umbrales).3
f(e)
P [y = 0] = 1 (x0 )
P [y = 1] = (1 x0 ) (x0 )
P [y = 2] = 1 (1 x0 )
3
aunque con la normalizacin slo queda un solo umbral por estimar.
88 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
El siguiente grfico ilustra los efectos marginales asociados al cambio en una de las
variables independientes xi .
f(e)
Del grfico anterior se observa que al aumentar una de las x manteniendo constante los
y equivale a desplazar la distribucin hacia la derecha. Si el asociado a esta x es
positivo, entonces inequivocamente P (y = 0) tendr menos masa y P (y = 2) aumen-
tar, no obstante en el medio el efecto no es concluyente Px
(y=1)
i < 0.
Ejemplo
El siguiente ejemplo muestra una aplicacin de un modelo de probit ordenado. Mar-
cus y Greene (1985) estimaron un modelo probit ordenado para estudiar como la armada
estadounidense asigna empleos entre sus reclutas. La armada intenta colocar a cada re-
cluta en el puesto de trabajo en el que vaya a resultar ms productivo. Los empleos se
dividen en tres grupos genricos: "de especializacin media", de especializacin alta y
de especializacin alta con conocimiento de energa nuclear.
Puesto que la asignacin se hace tanto de factores especficos de los individuos como de
las propias necesidades y criterios de la armada, se utilizo un modelo probit ordenado
con las siguientes variables explicativas: (1) FP=variable binaria que indica si el recluta
ha obtenido previamente algn diploma en un instituto de formacin profesional o no;
(2) EM=nivel educativo de la madre del recluta; (3) EX=calificacin obtenida en un ex-
amen de ingreso; (4) AE=aos de educacin del recluta; (5) CAS=variable binaria que
indica si el individuo estaba casado o no en el momento que se alist; (6) EDAD=edad
del recluta en el momento que se alist. La muestra obtenida fue de 5.641 observaciones.
La siguiente tabla muestra los resultados obtenidos.
3.2. MODELOS CON MS DE UNA ELECCIN 89
Es lgico el enorme valor del estadstico t asociado a la variable EX, pues la Armada
tiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo.
Por otra parte, si se quieren obtener los efectos marginales de las variables continuas,
es necesario evaluar la densidad normal estndar en 0 x=-0.8479 y en 0 x=0.9421.
De esta manera podemos obtener las probabilidades estimadas, las que son (0,8479) =
0,198, (0,9421)(0,8479)=0.628 y 1-(0,9421)=0.173. Por su parte, las frecuencias
relativas observadas eran: 0.25, 0.52 y 0.23. Las dos densidades son (0,8479)=0.278
y (0,9421)=0.255. Por lo tanto, las derivadas con respecto a las tres probabilidades
con respecto a la variable EX, por ejemplo, son:
P0
= (0,278)0,039 = 0,01084
EX
P1
= (0,278 0,255)0,039 = 0,0009
EX
P2
= (0,255)0,039 = 0,00995
EX
Obsrvese que la suma de los efectos marginales es cero, lo que es consecuencia de que
la suma de las probabilidades sea igual a 1. Este enfoque no resulta apropiado para
evaluar el efecto marginal de una variable binaria. Podemos analizar el efecto de estas
comparando las probabilidades que se obtienen cuando la variable binaria se evala en
cada uno de sus dos valores posibles y las dems variables se evalan en sus medias
muestrales.
Por ejemplo, en la siguiente tabla se entregan los resultados que se obtienen para la
variable CAS.
Efecto marginal de una variable binaria.
0 x b b0 x P[y=0] P[y=1] P[y=2]
CAS=0 -0.8863 0.9037 0.187 0.629 0.184
CAS=1 -0.4063 1.3837 0.342 0.574 0.084
cambio 0.155 -0.055 -0.100
Este modelo difiere del modelo de variable dependiente en grupos (GDV) considerado
por Stewart (1983) en donde j eran parmetros a estimar y no conocidos y constantes.
El test score de GDV fue derivado por Chester y Irish (1987).
Momentos condicionales de orden mayor para la variable latente pueden ser especifi-
cados en trmino de las funciones definidas por Stewart (1983) como:
w(j1)i
(j1)i wji ji
M i =
ji (j1)i
Los primeros cuatro momentos residuales son definidos como:
(1) 0i
ei = M
(2) 1i
ei = M
(3) (1) 2i
ei = 2
ei + M
(4) (2) 3i
ei = 3
e +Mi
3.2. MODELOS CON MS DE UNA ELECCIN 91
El estadstico del test score reportado en este paper toman la forma de:
= 10 F (F 0 F )1 F 0 1
Test estadsticos:
yi = x0i + qi0 + i
Forma pseudo-funcional: forma modificada del test RESET (Ramsey), construido como
un caso particular del test previo donde qi contienen potencias de yi = x0i
Heterocedasticidad:
i2 = 1 + q/
Normalidad:
Las filas de F en el test usual 2(2) para asimetra y/o Kurtosis estn dadas por:
Heterogeneidad en los umbrales: bajo la hiptesis alternativa, los umbrales pueden vari-
ar sistemticamente sobre las observaciones.
ij = ej + q/j
92 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
y el test score puede ser construido para la nula de que j = 0, j=1, 2,.....,J-1. Las filas
de F en este caso estarn dadas por:
(1)
Fi = (
ei xi , 2i . . . , (J1)i , 2i qi , . . . , (J1)i qi )
y = 1 x1 + 2 x2 + . . . k xk
[0 (1 2 )]2
=
0
donde 1 y 2 son la media del vector X en ambos grupos y donde es la matriz de
varianzas y covarianzas en cada grupo, la cual se asume igual para ambos.
= 1 (1 2 )
Si los parmetros poblacionales no son conocidos, como generalmente ocurre, los parmet-
ros pueden ser estimados de la siguiente manera :
= S 1 (X 1 X 2 )
con
" #
1 X X
S= (X1i X 1 )(X1i X 1 )0 + (X2i X 2 )(X2i X 2 )0
n1 + n2 2
i i
donde R1 y R2 son regiones de tal manera que si la observacin muestral cae en esta
regin, se clasifica al individuo en el grupo 1 o bien 2 respectivamente. Adicional-
mente, f1 (x), f2 (x) son las densidades de las distribuciones de caractersticas X en cada
una de las dos poblaciones.
Dado que:
Z Z
f2 (x)dx + f1 (x)dx = 1
R2 R1
y as, la condicin sobre R1 para que C sea minimizada queda determinada de la sigu-
iente forma :
C2 p2 1 0
0 x > ln + (1 + 2 )
C1 p1 2
94 CAPTULO 3. EXTENSIONES DEL MODELO BSICO
Pero si sustituimos por los valores muestrales, los dos ltimos supuestos estn resueltos.
Si usamos la ecuacin (28) entonces el segundo supuesto tambin est resuelto. Veamos
que hacemos con el primer supuesto:
exp( + 0 x)
P (1 |x) =
1 + exp( + 0 x)
1
P (2 |x) =
1 + exp( + 0 x)
3.3. TPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 95
donde el modelo representado en la ecuacin (29) se conoce como modelo logstico, dis-
tinto de modelo logit).
Estimacin:
Sea :
yi = 1 si xi 1
yi = 0 si xi 2
Diversos autores sealan que si X no proviene de una normal entonces los estimadores
ML de (3.15) son preferibles a aquellos de una funcin discriminante ; ms an si X
son dummies ya que no es consistente. Cuando son ms de dos grupos los que se
analizan, el modelo es anlogo a un logit. Ver Maddala (p. 379) sobre si las muestras de
yi = 1 y yi = 0 son muy diferentes en tamao, lo que significa un ajuste en la constante.
Sea yit = 1 si la persona i trabaja en el tiempo t e yit =0 en otra situacin. Por otra
parte, se define xit como el vector de caractersticas observadas de quien decide partic-
ipar en el mercado laboral o no.
lo que representa un modelo de eleccin discreta igual a los ya estudiado, con la nica
diferencia que tenemos N T observaciones.
o sea, una vez que obtenemos xit el que la seora halla trabajado o no en el periodo
anterior no nos dar ninguna informacin acerca de la situacin de hoy; poco sostenible
empricamente!!.
Heterogeneidad
Para atacar el problema de la heterogeneidad no observable, supongamos el siguiente
modelo :
i = 1, . . . , n
P (yit = 1|ui ) = F (x0it + ui ) (3.16)
t = 1, . . . , T
asumiendo que los {yit } son serialmente independientes (sobre t) condicionales a ui ,
entonces se tiene que (descartando el subindice i):
E F (x0t + u) F (x0t1 + u) 0
P (yt = 1|yt1 ) P (yt = 1) = E F (xt + u)
E F (x0t1 + u)
COV F (x0t + u), F (x0t1 + u)
=
E F (x0t1 + u)
De esta manera, la probabilidad conjunta de {yit } con t = 1, 2, ...T viene dada por la
siguiente expresin :
(T )
Y 1y
P (yi1 , yi2 , ...yiT ) = Eui F (x0it + ui )yit 1 F (x0it + ui ) it
(3.17)
t=1
donde la funcin de verosimilitud del modelo es el producto de esta ecuacin sobre to-
dos los individuos i = 1, 2, ...n. Para ello se asume que {ui } son i.i.d sobre los individuos.
3.3. TPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 97
donde
E(u2 )
> E(u)
E(u)
ya que E(u) est definido como P (yt = 1) donde se sabe que V (u) > 0. Heckman y
Willis sugieren que ai = exp(x0i ) y bi = exp(x0i ), donde xi es un vector de caracters-
ticas de los decisores el que no depende del tiempo para i.
P (yit = 1) = [x0i ( )]
Por de pronto se asumir que que {vit } est serialmente correlacionado pero donde
{yit } se mantiene independiente entre individuos i. La funcin de verosimilitud por lo
tanto es el producto de las funciones individuales.
Formalmente,
1 si yi,t1 + x0it + ui + it > 0
yit =
0 si
donde ui iid(0, u2 ) y it iid(0, 2 ) sobre i y sobre t. Adems ui y it son indepen-
dientes y para cualquier (t, s), se tiene que xit es independiente de is .
Algunos comentarios:
3.3. TPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 99
por otra parte, x0it puede capturar parte de la heterogeneidad. Sin embargo,
aquella heterogeneidad no observada ser capturada por ui .
Una importante diferencia con el modelo esttico es que tenemos una variable
explicativa yi,t1 la que no es exgena fuerte con respecto a uit . Es una variable
predeterminada: independiente de valores actuales y futuros de u pero dependiente
de valores previos de u.
Por ejemplo, cul de las siguientes historias de eleccin puede ser generada por un
modelo verdadero de dependencia entre estados?
A = {0, 0, 0, 1, 1, 1} B = {0, 0, 0, 1, 0, 0}
Historia A: con una verdadera dependencia entre estados esperaramos encontrar per-
sistencia en los dos estados. Con heterogeneidad esperaramos encontrar persistencia en
solo un estado.
4.1. Introduccin
Dentro del trabajo emprico propiamente tal, existen muchos casos donde debido a
la forma en como recolectamos datos, disponemos de informacin incompleta acerca de
la conducta de ciertos elementos o unidades de la muestra. Si esta informacin faltante
fuera sistemtica entonces aquellos modelos economtricos que ignoren este hecho po-
dran estar sesgados. Veamos algunos casos donde este fenmeno ocurre.
En los acpites que siguen revisaremos la forma de estimar modelos que incorporen
explcitamente estas situaciones. No obstante lo anterior, previo a esto revisaremos al-
101
102 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
guna propiedades de la distribucin normal que son fundamentales para entender los
problemas antes sealados.
1 (x)2
f (x) = e 22
2 2
x
en el caso de que z N (0, 1) con z = , se tiene que :
1 z 2
(z) = e 2
2
Lo anterior permite determinar ciertas propiedades de esta variable aleatoria.
(z) = (z)
d(z)
dz = z (z)
h i
f (x) = 1 (x)
= 1
(z)
Ra
(a) = P (z < a) = (z)dz
(a) = 1 (a) = P (z a)
4.3. Truncamiento
Como se mencion, este fenmeno se observa cuando la muestra est restringida a
una parte de la poblacin de tal forma que slo observamos las variables X e Y dentro
de una rango restringido. Por ejemplo, si estamos interesados en examinar el efecto de
la escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingre-
sos altos. O bien, si examinamos los determinantes de los ingresos a nivel de hogares
usando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares, ya
que la primera incluye, por definicin, solo aquellos que estn trabajado o aquellos que
pagan impuestos.
Para analizar y con ello generar una forma de estimar un modelo cuya variable de-
pendiente tenga esta caracterstica debemos revisar las propiedades de una distribucin
truncada.
4.3. TRUNCAMIENTO 103
As tenemos entonces :
f (x)
f (x|x > a) =
[1 ()]
1 (z) x
= con z =
[1 ()]
en el grfico anterior podemos observar que si el truncamiento es por abajo, la media
de la distribucin truncada ser mayor que la media de aquella sin truncar. Si ahora la
distribucin estuviera truncada por arriba, sera anlogo a lo anterior.
De esta forma, el valor esperado de una distribucin truncada tiene la siguiente for-
ma :
E(x|truncamiento) = + ()
104 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
donde,
()
() =
[1 ()]
si el truncamiento es del tipo x > a, o bien,
()
() =
()
si el truncamiento es del tipo x < a
En ambos casos, () se conoce como el inverse mills ratio ( hazard rate), la que
est asociada a la probabilidad condicional de observar condicional en que est
en la muestra. En otras palabras, mide el grado de ajuste requerido para la media sin
truncar .
Por otro lado, la varianza de la distribucin truncada viene determinada por la siguiente
expresin :
V (x|truncamiento) = 2 (1 ())
donde
()
() = con 0 < < 1
[() ]
lo que implica que la varianza de la distribucin truncada siempre es menor que aquella
de la distribucin sin truncar.
0
P(x>a)
4.3. TRUNCAMIENTO 105
yi = xi + i i N (0, 2 )
(a xi )
E(yi |yi > a) = xi + i (i ) con i =
No olvidar que a es el punto de truncamiento y i es el valor estandarizado (pero no es
la constante del modelo la cual esta incorporada en x).
[(a xi )/]
E[yi |yi > a] = xi +
1 [(a xi )/]
expresin que sugiere que la media de la distribucin truncada es una funcin no lineal
de x, y y el punto de truncamiento a.
verdadera
+
+ + + OLS
+ +
+ + +
+ +
+ +
a
(+) (+)
(+) (+) (+): no observado
(+)
(+) (+) + : observado
Del grfico podemos notar que ajustando un OLS a los datos truncados (muestra trun-
cada) sesgar los coeficientes hacia cero. 1
4.3.4. Estimacin:
Como se mencion, si estimamos el siguiente modelo :
yi = xi + i i N (0, 2 )
por OLS, pero usando una muestra truncada, entonces tendramos un problema de ses-
go por omisin de variable (el inverse Mills Ratio) relacionado con el truncamiento. As
los s estarn sesgados y sern inconsistentes.
Mas an, dado que el trmino de error en el modelo OLS est tambin truncado (es
decir, es una funcin de ) entonces el modelo anterior tendr un trmino de error
heterocedstico con la siguiente estructura :
V (i ) = 2 (1 2i + i i )
logL X yi xi i
= xi = 0
2
i
logL X 1 (yi xi )2 i i
= 2+ =0
2 2 2 4 2 2
i
(axi ) (i )
donde i = y i = 1(i ) .
Notar que el sesgo introducido mediante la restriccin del rango observado para y ser
serio si la probabilidad de que y caiga por debajo del umbral no es despreciable.
f(y)
a u y
Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo trunca-
do (muestra truncada). Por lo tanto, debemos entonces ver un mtodo para incorporar
la presencia de censura. El problema de sacar los datos es que se pierde informacin
importante. Con este fin primero estudiaremos la distribucin de probabilidades cuando
la variable analizada presenta censura.
108 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
y N (, 2 )
a si y a;
y=
y
en este caso y es slo observable para los valores sobre el umbral a. La distribucin de
una variable censurada puede pensarse como la combinacin de dos partes. La primera
es un componente discreto la cual otorga todo el peso del componente censurado de la
distribucin en un slo punto. En cambio, la segunda comprende el componente contin-
uo para el rango de valores de y para el que existe una distribucin (truncada).
As, el valor esperado de esta variable aleatoria esta compuestos por dos partes :
yi = xi + i i N (0, 2 )
yi =0 si yi 0
yi =1 si yi > 0
donde:
[(0 xi )/]
i =
1 [(0 xi )/]
(xi /)
=
(xi /)
Combinando los puntos anteriores se tiene que el valor esperado de yi viene dado por
la siguiente expresin :
xi
E(yi ) = [(xi + i )]
donde:
(xi /)
i =
(xi /)
verdadera
+ OLS muetra
censurada
+
+ OLS
+ +
+ + muestra
+ + truncada
+ +
(+) (+)
(+) (+)(+)
(+)
La cual es una mezcla de observaciones con distribucin continua (no censurada) y ob-
servaciones con distribucin discreta censurada. Esta es una expresin compleja pero
manejable. Generalmente, los estimadores OLS se reportan tambin con fines compar-
ativos.
Del grfico anterior se puede observar que los parmetros OLS son menores en valor
absoluto, a aquellos obtenidos por MLE. Resultados empricos sugieren que los esti-
madores MLE pueden aproximarse al dividir los estimadores OLS por la proporcin de
observaciones no limitadas en la muestra.
No obstante, existe una forma ms adecuada de corregir los estimadores OLS cuando
los datos son censurados: mtodo de Heckman en dos etapas, el cual discutiremos con
ms detalle en "sesgo de seleccin".
Dado esto, se desarroll una batera de test basados en los residuos generalizados de las
estimaciones mximo verosmiles las que ahora se explican para el caso de un modelo
Tobit.
Sabemos que E(yi ) = x0i y adems que las esperanzas condicionales son:
(i)
con:
x0i
(i ) =
x0i
1
i = Di yi + (1 Di ) (x0i i )
donde
1 si yi > 0;
Di =
0
De esta manera, los residuos generalizados del modelo Tobit vienen dados por la sigu-
iente expresin :
0 yi x0i si yi 6= 0;
i = i xi =
i si yi = 0
La funcin de verosimilitud asociada a estos residuos, tiene la siguiente forma :
Xn 0
yi x0i xi
logL = Di log log() + (1 Di ) log 1
i=1
112 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
A partir de esta expresin se pueden obtener los primeros momentos de los residuos los
cuales tienen la siguiente forma :
(1) i
ei =
! !
y x0 2 x 0
(2) i i i i
ei = Di 1 + (1 Di )
!3 !2
0
yi xi 0
ei
(3)
= Di i 2 + xi
(1 Di )
! ! !3
y x0 4 x0 x0
(4) i
ei = Di i
3 + (1 Di ) i 3 i
+ i
1. Variable Omitida:
Se asume que el modelo correctamente especificado tiene la siguiente forma :
yi = x0i + zi0 + i
donde c es un vector de unos con dimensin n y por su parte R una matriz cuya
(1) (1) (2)
ei x0i , ei zi0 , ei ), el cual se obtiene al regresionar c sobre R. Si se trata
fila i es: (
(1)
de una sola variable omitida, el estadstico de student asociado a ei zi0 al cuadrado
es el 21 necesario para la prueba. Recordar que:
(1) i
ei =
( (1)
(2) ei ]2 1 si y > 0;
[
ei =
i xi
0
si y = 0
2. Heterocedasticidad: aqu se aplica la misma idea que el caso anterior pero ahora
(1) (2) (2)
ei x0i , ei , ei zi ) si se asume que el modelo
la fila i del vector R es la siguiente : (
es:
yi = x0i + i
h(zi0 )
con 2 = h(zi0 ) donde =0
= zi . Por ejemplo, exp(zi ).
3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de la
distribucin de los errores generalizados. Veamos esto en detalle.
Tercer momento:
i 3
E |yi = 0
(
(1)
(3) ei ]3 si y > 0;
[
ei =
(2 + z 2 ) si y = 0
o bien
!3 !2
(3) yi x0i i 2 + x0i
ei = Di (1 Di )
Densidad de xi'beta + e
xi'beta 2xi'beta e
Para una observacin dada xi , solo podemos obtener el area a la derecha de 0. As todas
las observaciones donde ei <xi estn omitidas. En un modelo del tipo:
y = x + e
yi si yi > 0;
yi =
0 si yi 0
bien
yi si ei > xi ;
yi =
0 si ei xi
116 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
Suponga ahora que truncamos las observaciones tales que ei >xi. Esto significa tomar
los puntos a la derecha de 2xi en la figura anterior, y en consecuencia tendramos
nuevamente una distribucin del error que sera simtrica.
Powell (Econometrica 1986) sugiere que si conociramos el verdadero valor del parmetro
(por ejemplo, 0 ) podramos reemplazar yi por la mnima cantidad entre {yi , 2xi 0 } y
generar de esta forma un estimador consistente para 0 . Otra forma de hacer lo mismo
es:
ei = max(ei , xi 0 )
Cabe hacer notar que 0 no es observado, pero Powell hace uso de la nocin de auto
consistencia para demostrar que un estimador de 0 , consistente al ser solucin de (38)
nos entrega un estimador consistente del verdadero .
y = x +
as:
su estimador consistente puede ser obtenido por OLS, el cual es la solucin al siguiente
programa :
" n #
X
mn
(yi xi )2
i=1
Suponga que en vez de minimizar los errores al cuadrado, se minimiza la suma del
valor absoluto de los errores.
" n #
X
mn
|yi xi |
i=1
este estimador se conoce como desviaciones absolutas mnimas (LAD). Otra forma de
escribir este modelo es:
n
X
mn signo(y xi )
(yi xi )
i
i=1
No olvidar que OLS corresponde a la regresin sobre la media, la cual ser inconsistente
en un modelo de regresin censurada pues :
1. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar un
valor inicial de .
2. Use este estimador para sacar las observaciones para las cuales su prediccin es
negativa.
3. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador de
.
Notar que pueden existir problemas con el mnimo global. As, deber probar distintos
valores iniciales. La matriz de covarianzas se estima por bootstrap del proceso completo.
La ecuacin para y1i es una ecuacin de regresin comn. Sin embargo, bajo ciertas
condiciones no observamos la variable dependiente de esta ecuacin. Denotaremos si
observamos o no esta variable mediante una variable dummy D2i . La observacin de la
variable dependiente y1i es funcin del valor de otra regresin : la ecuacin de seleccin
que relaciona la variable latente y2i con algunas caractersticas observadas zi ). Puede
que las variables en xi y zi puedan traslaparse incluso ser las mismas aunque esto puede
generar problemas de identificacin.
Algunos ejemplos:
1. Oferta de trabajo de madres casadas: primera ecuacin son las horas y la segunda
es sobre la diferencia de salario de mercado y el salario de reserva no observado.
Sin asumir una distribucin en particular para los errores v, el valor esperado de y1
condicional en x y la probabilidad de observar y1 viene dado por :
1. El intercepto estimado ser sesgado pues la media del trmino de error no es cero.
De hecho es igual a Ei [(zi ; )].
As, la distribucin de y dado x es normal con una media mayor que su media sin
condicionar y si las variables x e y estn positivamente correlacionados y mientras x
sea mayor que su media sin condicionar. Anlogamente, la media condicional de y es
menor que su media incondicional cuando x e y estn negativamente correlacionados y
x es mayor que su media. 4 En general, y condicional en x tiene una varianza menor
2
ya discutiremos mas adelante aquellas provenientes del mundo semi paramtrico
3
la normal truncada univariada fue discutida previamente
4
lo contrario se cumple cuando x es menor a su media
124 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
donde
()
() =
1 ()
()
=
()
Cabe sealar que en el caso del Tobit simple, donde y1 es igual a y2 , = 1 y por
lo tanto se tiene que el valor esperado condicional es :
(x)
E[y1 |y1 > 0] = x + 1
(x)
(zi )
E[y1i |y2i > 0] = xi + 1
(zi )
(zi )
y estimar en (b) por OLS incluyendo una medida de (zi ) en dicha ecuacin.
Con este fin Heckman (1979) sugiere realizar los siguientes pasos:
No obstante lo anterior, existen a lo menos tres aspectos que se deben considerar con
respecto a este estimador en dos etapas:
Para el caso particular del Tobit generalizado (Tobit tipo II segn la nomenclatura
de Amemiya 1985), primero se debe especificar el modelo completo como lo hemos he-
cho en (a) y (b). A su vez, es necesario incluir una especificacin general y completa de
la distribucin de las variables aleatorias en el modelo, como lo hicimos en (42).
1. Aquellas donde y1 es observada, para lo cual sabemos que y2 > 0 se cumple. Para
estas observaciones, la funcin de verosimilitud es la probabilidad del evento y1 y
que tambin ocurra que y2 > 0.
P (y2i 0) = P (v2i zi )
= (zi )
= 1 (zi )
4.6. MODELOS PARA SESGO DE SELECCIN 127
N0
X
logL(, , , 1 ; datos) = log [1 (zi )]
i=1
N
"
!#
X y1i xi zi + 1 (y1i xi )
+ log1 + log + log p
1 1 2
i=N0 +1
5
Ver Amemiya 85 para la demostracin.
128 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
4.6. MODELOS PARA SESGO DE SELECCIN 129
130 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
4.6. MODELOS PARA SESGO DE SELECCIN 131
y1i = x01i 1 + 1i
132 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
y1i si y2i > o 1 si Y2i > 0;
yi = Di =
0 otro caso 0 otro caso
con
y2i = x02i 2 + 2i
X J
K X
f (1 , 2 ) = kj k1 j2 b(1 , 2 )
k=0 j=0
donde
0
X2i (Zi )
2
Zi = y i =
2 (Zi )
respectivamente.
Pagan y Vella (1989) basada en esta descomposicin, sugieren agregar Zij i con
(j = 1, 2, 3) a la ecuacin en el segundo paso del estimador de Heckman y probar por su
significancia conjunta. En otras palabras, sugieren agregar el IM R, IM R2 y IM R3 a la
4.6. MODELOS PARA SESGO DE SELECCIN 133
Pues bien, si los errores son normales en el Probit o la expansin de IMRs en la ecuacin
de intensidad sugerida por Pagan y Vella no son significativos, entonces el modelo Tobit
generalizado debera estimarse por ML.
Recordemos que la estimacin de Heckman es ineficiente comparada con ML y segn
Davidson y Mackinnon, representa una buena prueba para estudiar la presencia de sesgo
de seleccin pero no para estimar parmetros.
Existen dos formas generales para solucionar este problema. Una es seguir en el mundo
paramtrico, asumiendo que se conoce la distribucin de los errores en ambas ecua-
ciones. Y la otra es moverse al mundo no paramtrico, estrictamente hablando, al semi-
paramtrico.Veamos cada uno de ellos.
Mundo paramtrico
Supongamos que 2 , los errores de la ecuacin de seleccin no son normales. Bajo lo
que se denomina "Modelo de Seleccin Generalizado"podemos redefinir el trmino del
error como sigue:
y1i = x01i 1 + 1 01i
y2i = x02i 2 + 02i
Suponga que 02i tiene una distribucin F conocida. Entonces, podemos obtener una
nueva variable normal al aplicar la siguiente funcin sobre los errores originales :
2i = J(02i ) = 1 F (02i )
y, en consecuencia :
2i N ()
134 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
Notar que las probabilidades ajustadas de la primera etapa son F (x02i 2 ) y en con-
secuencia, el trmino entre corchetes en (43) ser:
[1 (pi )]
con pi = F (x02i 2 )
pi
Entre otras propiedades de esta forma de estimacin esta que puede ser aplicado para
un caso mas general, donde existan mas de dos alternativas. Por ejemplo, a travs de
un multinomial logit y se calcula las probabilidades predichas para cada alternativa y
luego se corrige la ecuacin de intensidad utilizando la correccin propuesta para cada
alternativa. No obstante, solo se puede aplicar si F es conocida y continua.
Mundo No Paramtrico
La mayora de los modelos no paramtricos continan la idea propuesta por Heckman
de estimacin en dos etapas. De esta forma, la segunda etapa viene definida por:
Existen dos formas dentro del mundo semiparamtrico para estimar estos casos:
Aproximar .
4.6. MODELOS PARA SESGO DE SELECCIN 135
En general, existen mas formas de tratarlo, pero stas son las mas frecuentes en la lit-
eratura.
ecuacin que tiene las propiedades de un modelo de regresin lineal con variable
dependiente igual a :
Notar que :
donde m
12i y m
2i son los estimadores por Kernel de
g(x02i 2 ) = m 012i 1
2i m
136 CAPTULO 4. VARIABLE DEPENDIENTE LIMITADA
Es decir:
y1i = x01i 1 + IM R + IM R2 + IM R3 + 1i
o bien,
(x02i 2 ) j
(x02i ) (j = 1, ..., 3)
0
(x 2 )
2i
5.1. Introduccin
La estimacin por Mxima Verosimilitud (ML) asume que la funcin de densidad
f (y|X, ) tiene una forma cerrada. Por su parte, la distribucin del estimador se basa
en la linealizacin de las ecuaciones de estimacin.
Si f (y|X, ) no tiene una forma cerrada (o su solucin) an as puede ser obtenido por
ML. En este caso, se necesitara una buena aproximacin de f (y|X, ) por f(y|X, ).
De esto precisamente tratan estas notas.
donde las formas funcionales de h() y g() son conocidas y u denota una variable aleato-
ria (no necesariamente un error) el cual tiene que ser integrado.
De no existir una solucin analtica para la integral, es decir, no existe una forma o
expresin cerrada de la funcin de verosimilitud, entonces aquellos mtodos basados en
simulacin aparecen como una buena solucin.
137
138 CAPTULO 5. MTODOS BASADOS EN SIMULACIN
Suponga ahora que la alternativa 1 es escogida pues tiene para quien decide, un may-
or nivel de utilidad. Si definimos la funcin de (masa) probabilidad p1 P r[y = 1]
entonces se deriva que si esta alternativa fue elegida :
p1 = P r[U1 U2 0, U1 U3 0]
= P r[(x1 x2 )0 + 1 2 0, (x1 x3 )0 + 1 3 0
donde g(u1 , u2 ) o mas formalmente g(u1 , u2 |X, ) es una densidad bivariada, o, equiva-
lentemente :
Z Z
p1 = 1[u1 0, u2 0]g(u1 , u2 )du1 du2 (5.3)
Notar que la ecuacin (3) es del tipo particular de la ecuacin (1). Dado que la in-
tegral es slo sobre parte del rango de (u1 , u2 ) tal como esta RenR la ecuacin (2) una
solucin cerrada puede que no exista. No debemos olvidar que g(u1 , u2 )du1 du2 = 1
si la integracin es sobre todo el rango de (u1 , u2 )
En particular, si los errores estn distribudos de forma Normal tal como es el ca-
so del Modelo Multinomial Probit, la integral en la ecuacin (2) es sobre el ortante
positivo de una distribucin Normal Bivariada (y no sobre (, +). As, la solucin
para p no tiene una forma cerrada y luego no existe una expresin manejable (analti-
camente) para la densidad f (y|X, ). Notar que esta situacin se hace mas compleja
entre mas alternativas existan. En particular, si existen m alternativas excluyentes, la
integral tiene dimensin m 1.
con respecto a .
Este estimador SM L ser consistente y tendr la misma distribucin asinttica del MLE
si f(y|X, ) es una buena aproximacin de f (y|X, ). Las condiciones de primer orden
resultantes son generalmente no lineales y deben ser resueltas por mtodos numricos.
Dado que f(yi |xi , ) vara con i y con , la evaluacin de la gradiente usando las
derivadas numricas requerir de N q r evaluaciones, con N el tamao de la muestra, q
la dimensin de y con r el nmero de iteraciones. Todo lo anterior debe ser multiplicado
por el nmero de evaluaciones necesarias para calcular una adecuada aproximacin de
la integral f (y|X, ). De all la importancia de los mtodos de evaluacin como tambin
acerca de la capacidad computacional necesaria para realizar este trabajo.
con la funcin f () continua en [a, b] pudiendo ser estos lmites infinito. Existen dos
mecanismos generales para calcular el valor de dicha integral, a saber :
integracin numrica o cuadratura (midpoint rule y Simpson rule) la que se uti-
lizan sobretodo cuando la integral tiene pocas dimensiones.
integracin por muestreo de MonteCarlo, la que es recomendable cuando las di-
mensiones de la integral son considerables.
Estos mtodos sern revisados en ayudanta.
Suponga que la densidad condicional para una observacin en particular incluye una
integral que no se puede manejar en forma analtica tal como en (1):
Z
f (yi |xi , ) = h(yi |xi , , ui )g(ui )dui
la que debe ser estimada ya que no tiene una forma cerrada de solucin (manejable).
140 CAPTULO 5. MTODOS BASADOS EN SIMULACIN
El simulador directo (direct simulator) de f (yi |xi , ) puede ser el estimador de Mon-
teCarlo de dicha integral :
S
1X
f(yi |xi , uiS , ) = h(yi |xi , , usi ) (5.4)
S
s=1
donde uiS es un vector de S draws usi , s = 1 . . . S los que son independientes de una fun-
cin g(ui ). Esto lo que hace es simplemente promediar h(yi |xi , , usi sobre S draws. Se
puede demostrar (ver ayudanta) que fi es un estimador insesgado para fi y consistente
para fi a medida de que S . Notar que existen otros mecanismos que permiten
que fi se aproxime rpidamente a fi para un nmero finito de draws o muestras (lo que
veremos mas adelante).
P
Dada la independencia de i, sabemos que MLE M L maximiza lnLN () = N
i=1 lnf (yi |xi , ).
En cambio, el estimador maximum simulated likelihood (MSL)M SL maximiza el
log likelihood basado en una estimacin simulada de la densidad :
N
X
N () =
lnL lnf(yi |xi , uiS , )
i=1
distribucin que no es simtrica con una media diferente de cero y que, por simplicidad,
no depende de parmetros desconocidos.
De esta forma podemos usar el estimador MSL usando el simulador directo tal como
fue presentado en (4), de tal forma que el M SL maximiza la siguiente expresin :
N S
N () = 1 X 1X 1
lnL ln( exp{(yi usi )2 /2})
N S 2
i=1 s=1
donde usi , s = 1 . . . S son draws the una funcin de densidad extreme value g(ui ) tal
como se plantea en (6).De esta manera, el estimador MSL, M SL , es la solucin de las
siguientes condiciones de primer orden :
N P
N ()
lnL 1 X Ss=1 (yi usi )exp{(yi usi )2 /2}
= PS =0
N s=1 exp{(y i u s )2 /2}
i
i=1
Cabe sealar que no existe una solucin cerrada para pero con mtodos iterativos
estndares se puede calcular M SL .
XN PS
(yi M SL usi )exp{(yi M SL usi )2 /2} 2 1
V [M SL ] = ( [ s=1 PS ] )
s 2
i=1 s=1 exp{(yi M SL ui ) /2}
Para ilustrar este ejemplo, consideremos una muestra y1 . . . , y100 de tamao N = 100
generada a partir de un modelo como en (5) y (6) con = 1. La siguiente tabla entrega
los valores estimados a medida que el nmero de draws aumenta.
Por ora parte, estn aquellos estimadores basados en inferencia indirecta o conocidos
tambin como estimadores de matching de momentos (Gourieroux, Monfort y Renault,
1993). La idea central es estimar los valores de mediante una modelo auxiliar y a partir
de este y mediante una equivalencia entre los parmetros del modelo auxiliar y aquellos
del modelo original, obtener los parmetros originales. La idea es similar al estimador
por minima distancia o tambin denominados Mnimos Cuadrados Asintticos (ALS),
ver tambin Smith(1993) o Gallant y Tauchen (1996).
5.6. Simuladores
Tal como se vio en ayudanta, estamos interesados en calcular la siguiente expresin
:
Z
I = E[h(x)] = h(x)g(x)dx (5.7)
A pesar de su uso, este estimador tiene una serie de limitaciones. En primer lugar,
si se usa un numero moderado de replicaciones, el simulador promedio tiene una prob-
abilidad importante de tener valores iguales a 0. Esto es un problema en el caso del
SML ya que tenemos que calcular el logaritmo natural de esta cantidad. En segundo
lugar, este simulador no es diferenciable (y mas an, discontinuo) con respecto a los
parmetros que aparecen tanto en 1(xA) y/o en g(x). Por lo que no pueden ser uti-
lizadas las condiciones de primer orden introducindose problemas tanto tericas como
numricas.Y, en tercer lugar, este simulador no es tan bueno para aproximar cuando la
probabilidad asociada a una eleccin es baja. El simulador es muy inestable ante estas
situaciones, or ejemplo si un pj es muy cercano a 0.
donde p(x) es una densidad escogida de tal manera que (a) sea fcil obtener muestras
a partir de ella, (b) tenga el mismo soporte que el dominio original de integracin y (c)
donde h(x)g(x)/p(x) sea fcil de evaluar, que sea acotada y que tenga varianza finita.
A partir de all, se utiliza el estimador MC Directo de la integral basado en (8) y ya no
en (7):
S
1X
IIS = w(xs )
S
s=1
Entre sus ventajas est que es genera un estimador mas estable o suave si w(x) es
suave con respecto a los parmetros a ser estimados. Mas an, es muy til si los draws
de g(x) son muy difciles de obtener lo que es el caso cuando x es un vector de variables
aleatorias que estn correlacionadas.
En particular, pseudo random nmeros uniformes son obtenidos usando una secuen-
cia determinstica que imita las propiedades estadsticas de una secuencia de nmeros
aleatorios uniformes. Un buen generador se caracteriza por tener un perodo o ciclo largo,
una distribucin parecida a una uniforme y que produce draws independientes. Como
veremos mas adelante casi la totalidad de numeros pseudo aleatorios de cualquier dis-
tribucin pueden ser obtenidos a partir de transformaciones de numeros pseudo aleato-
rios uniformes.
Transformacin Inversa
F (x) = P r[X x]
x = F 1 (r)
El mtodo puede ser extendido para el caso de variables aleatorias discretas con cdf
que sean escalonadas o step. Por ejemplo, si x puede tomar valores enteros, entonces
una realizacin uniforme r = 0, 312 genera una realizacin x = j donde el entero j es
tal que F (j 1) < 0, 312 y F (j) 0, 312.
Transformacin
En algunos casos una variable aleatoria con una densidad deseada puede ser obtenida
por una transformacin de una variable aleatoria cuya distribucin sea fcil de obtener
realizaciones. De esta manera realizaciones se pueden obtener mediante transforma-
ciones simples.
Este mtodo es muy til cuando se requieren obtener realizaciones a partir de una
distribucin Normal. Ejemplo incluyen el cuadrado de una normal estndar la que gen-
era realizaciones Chi-Cuadrado ; o sumando el cuadrado de normales estndar la que
genera una realizacin Chi-Cuadrado con grados de libertad igual al nmero de nor-
males estndar que se estn sumando. Y as para el caso de la distribucin F. Cabe
sealar que esto no es exclusivo de la distribucin Normal.
= LL0
2 = , l l
la que genera tres ecuaciones l11 2 2
11 11 21 = 12 y la tercera, l21 + l22 = 22
las que pueden ser resueltas para l11 , l21 y para l22 . Ahora bien, dada un vector ,
5.7. MTODOS PARA GENERAR NMEROS ALEATORIOS 147
q-dimensional cuyos elementos tiene una distribucin estndar Normal, no es muy dif-
cil verificar que si N (0, I) entonces x = L la que es una combinacin lineal de
normales, tiene una distribucin N (0, ). Especficamente, se tiene que E[L] = 0 y
que V ar[L] = E[L0 L0 ] = LL0 = . La clave de este mtodo es que combinaciones
lineales de distribuciones normales genera una variable que se distribuye tambin nor-
mal (multivariada), resultado que, no obstante, no aplica para otras distribuciones no
normales.
148 CAPTULO 5. MTODOS BASADOS EN SIMULACIN
Captulo 6
Modelos de Duracin
149
150 CAPTULO 6. MODELOS DE DURACIN
de riesgo:3
t = P (T = t|T t) (6.1)
t1
Y
S(t) = (1 s ) (6.3)
s=0
t1
Y
f (t) = t (1 s ) = t S(t) (6.5)
s=0
L= ctii (1 s ) (6.14)
i=1 s=0
Sea J la duracin mas larga en la muestra6 (es decir, el individuo que estuvo o est
ms tiempo desempleado) y definiendo nj como el nmero de salidas en tiempo igual
a j (nmero de personas que encontraron trabajo en la ltima semana) y rj como el
nmero de potenciales salidas en j (nmero de personas que pudieron haber encontrado
trabajo en la ltima semana), es decir, el nmero de individuos con duraciones j.
Entonces podemos reescribir la verosimilitud como sigue:
J
Y n
L= j j (1 j )rj nj (6.15)
j=0
Y rj nj
=
S(t) (6.19)
rj
j|tj <t
(t) = t (6.20)
La ecuacin (5.20) proporciona una grfica muy til para analizar lo adecuado del mod-
elo exponencial como representacin de los datos. La funcin de riesgo integrada es
7
Ver (13).
154 CAPTULO 6. MODELOS DE DURACIN
Existe una marcada curvatura en el grfico, sugiriendo que una representacin expo-
nencial de T puede no ser adecuada.8 La duracin media en el modelo exponencial es
1 y la varianza es 2 (la mediana
2 de la distribucin de duracin viene dada por la
solucin de S(t) = 0,5 y es log ). El modelo puede ser escrito en su forma log-lineal
como sigue:9
log(T ) = log() + (6.23)
donde tiene una distribucin extrema del tipo I (e tiene una distribucin exponencial
unitaria). As:
media : E(logT ) = log + (1) (6.24)
varianza : V (logT ) = 0 (1) (6.25)
donde (1) y 0 (1) son constantes conocidas 0,5772 y 1,6449, respectivamente. As,
log(T ) tiene una varianza conocida, la cual no depende de .
8
De hecho, es posible testear si la linealidad es o no rechazada.
9
Por conveniencia en la estimacin.
10
Es decir, la probabilidad de finalizar el ciclo va cambiando conforme pasa el tiempo.
6.4. MODELOS PARAMTRICOS 155
Considerando las relaciones antes vistas podemos observar que para el caso Weibull
se tiene que:
(t) = (t) (6.27)
S(t) = exp[(t) ] (6.28)
f (t) = (t)1 exp[(t) ] (6.29)
Para el caso de la distribucin Weibull se tiene que:
1 1
media : E(T ) = 1 + (6.30)
2 2 2 1
varianza : V (T ) = 1+ 1+ (6.31)
donde () es la funcin Gamma completa (para un ejemplo ver Lancaster 1990 Apndice
1).
Las funciones (1) y 0 (1) antes mencionadas son la primera y segunda derivada de
log(), respectivamente. Al igual que en el caso anterior, existe un test grfico muy til
basado en la transformacin Kaplan-Meier de la estimacin de la funcin de sobreviven-
cia. Dado que log((t)) = log()+log(t), un grfico entre log((t))
= log[log[S(t)]]
contra log(t) debera dar aproximadamente una lnea recta. Veamos el caso de UK (figu-
ra 4).
Observamos que se parece bastante a la lnea recta o por lo menos tiene menos curvatu-
ra que el grfico anterior. En el caso especial de la exponencial la lnea recta tambin
debera estar sobre la recta de 45 .
6.4.1. Estimacin
Considere una muestra de n individuos con una distribucin de duracin particular.
Sea ti la duracin observada para el individuo i y sea ci la variable indicadora, que toma
el valor 1 si el ciclo o racha es completada (el perodo de desempleo termin) y 0 si no.
La contribucin a la verosimilitud del individuo i viene dada por:
log(Li ) = ci log(f (ti )) + (1 ci )log(S(ti ))
log(Li ) = ci log((ti )) + ci log(S(ti )) + (1 ci )log(S(ti ))
log(Li ) = ci log((ti )) + log(S(ti ))
log(Li ) = ci log((ti )) (ti ) (6.35)
En el caso del modelo exponencial la funcin de verosimilitud para la muestra viene
dada por:
Xn
log(L()) = {ci log() ti } (6.36)
i=1
La primera derivada es:
n n
logL() 1X X
= ci ti (6.37)
i=1 i=1
As: Pn
M LE = Pi=1 ci
n (6.38)
i=1 ti
Ante la ausencia de censura esta expresin equivale simplemente a la inversa de la
duracin promedio en la muestra. La varianza asinttica viene dada por:
2 1
log(L())
V () = (6.39)
2
2
= Pn
V () (6.40)
i=1 ci
la cual crece a medida que aumenta el grado de censura.
A continuacin se presentan los resultados de estos modelos aplicados a los datos de UK:
Exponencial Weibull
100 0.55 (0.02) 0.56 (0.02)
1.0 0.86 (0.03)
log(L) -1905.1 -1888.9
Mediana (das) 127.2 117.4
La duracin est medida en das, luego los estimadores de estn en trminos diarios.
Ambos estimadores de son similares entre s e indican que existe una probabilidad
cercana al 4 % para salir del ciclo o racha (de desempleo) por semana. El modelo expo-
nencial ( = 1) se rechaza con test LR a favor de Weibull. Los modelos difieren en su
prediccin en la mediana de la distribucin. La duracin mediana de desempleo en la
muestra es alrededor de 101 das. As, ambos predicen una mediana un poco mayor a
la verdadera aunque la distorsin es reducida al utilizar el modelo Weibull.
= exp{0 + Z 0 } (6.42)
En forma alternativa, recordemos que el modelo de Weibull puede ser escrito como
un modelo lineal para el logaritmo de T :
con teniendo distribucin valor extremo tipo I. De esta forma, al incluir las variables
explicativas tenemos
log(T ) = 0 Z 0 + 1 (6.46)
log(T ) = 0 + Z 0 + (6.47)
que corresponde a una regresin log-lineal para T con un error distribuido valor ex-
tremo. En consecuencia, las variables explicativas tienen un efecto multiplicativo sobre
T.
Este modelo tambin pertenece a la clase general de los modelos log-lineales denom-
inados modelos de tiempo de falla acelerado. En estos modelos, los regresores aceleran el
tiempo de dejar el desempleo. De esta forma, con el fin de generalizar el modelo, tanto
el modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecen
como rutas naturales a este fin. Veamos cada uno en detalle donde los modelos de riesgo
proporcionales han sido los mas utilizados en la literatura economtrica sobre duracin.
entrega una regresin lineal para la variable transformada t = log(0 (t)) (conocer la
distribucin de ser fundamental para la construccin de pruebas especficas una vez
que el modelo ha sido estimado).
Especificacin Paramtrica
Utilizaremos una especificacin Weibull para el riesgo base. Como se vio anteriormente,
esto nos entregar:
i (ti ; Zi ) = t1
i exp{0 + Zi0 } (6.54)
Asumiendo nuevamente una muestra aleatoria, la contribucin a la log-likelihood del
i-simo individuo viene dada por:11
el cual puede ser maximizando con respecto a (, 0 , ) por un mtodo iterativo, como
por ejemplo, el de Newton-Raphson. Veamos un ejemplo utilizando el caso de empleo
en UK. El vector Z contiene variables como edad, dummy casado, tasa de desempleo,
el logaritmo del ingreso predicho mientras estuvo empleado, el logaritmo del ingreso
predicho si estuviese empleado. Los coeficientes , es decir, los efectos en el logaritmo
del riesgo, son presentados en la siguiente tabla. Para obtener los efectos en el logaritmo
de la duracin ( ) se debe invertir el signo y dividir por
:
Exponencial Weibull
0.90 (0.30)
1.0
Age/ 10 -0.32 (0.03) -0.30 (0.030)
Married 0.16 (0.12) 0.16 (0.12)
local unemployment rate -1.72 (0.60) -1.61 (0.60)
log(employment income) 1.53 (0.14) 1.46 (0.14)
log(unemployment income) -0.55 (0.06) -0.53 (0.06)
0 -9.28 (0.57) -8.56 (0.57)
log(L) -1816.6 -1809.3
Median (in days) 122.3 116.2
11
Ver (35).
160 CAPTULO 6. MODELOS DE DURACIN
. Pero MCO es inapropiado ante censura y debe ser estimado por mxima verosimili-
tud (ML).
dado que el trmino 0 (ti ) se cancela. La log-likelihood a ser maximizada viene dada
por:
Xn Xn
log(L()) = Zi0 log exp(Zj0 ) (6.61)
i=1 j=i
El estimador puede fcilmente extenderse para casos de censura y empate (es decir, mas
de un individuo con la misma duracin). Una vez que ha sido estimado el riesgo base
puede ser estimado en forma no paramtrica como en el caso de Kaplan-Meier.
Los resultados de la estimacin con el estimador parcial de Cox para la misma base
de datos y con el mismo vector de variables explicativas Z, es el siguiente:
Age/ 10 -0.29 (0.03)
Married 0.18 (0.12)
Local unemployment rate -1.50 (0.60)
log(employment income) 1.42 (0.14)
log(unemployment income) -0.52 (0.06)
Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramtri-
cos. Dentro de las ventajas de estos modelos es que no se necesita ningn supuesto sobre
0 (t), la que en este caso particular, no influye mucho sobre los coeficientes estimados.
La desventaja es que 0 (t) debe ser estimado no paramtricamente.
Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados. In-
tuitivamente, trabajadores ms diestros o que trabajan en sectores mas empleables son
los primeros en dejar de estar desempleados dejando a aquellos con menor probabilidad
de salida, y en consecuencia, creando la ilusin de una fuerte dependencia negativa de
la duracin que actualmente existe.
Cmo podemos abordar este problema? Una forma natural es incorporar un escalar
el cual representa regresores omitidos en forma anloga a aquellos donde se introduce
heterogeneidad observada:
0
(t; Z, ) = 0 (t)eZ + (6.62)
162 CAPTULO 6. MODELOS DE DURACIN
Z 0
(t; Z, ) = 0 (t) e|{z}
|{z} (6.63)
| {z }
riesgo base no obs. obs.
Veamos el caso de los datos para UK nuevamente, donde junto con las anteriores ver-
siones homogneas, se ha incluido una forma de heterogeneidad distribuida gamma.
Datos de Panel
7.1. Introduccin
Un conjunto de datos de panel o longitudinales es aquel que sigue individuos
(firmas, pases) a travs del tiempo y en consecuencia entrega mltiples observaciones
para cada individuo. As, datos de panel es la unin de datos en serie de tiempo y de
corte transversal. El anlisis de la de conductas utilizando datos de panel es una de
las reas ms atractivas de la econometra. En esta y la siguiente clase daremos una
introduccin a este tema.
165
166 CAPTULO 7. DATOS DE PANEL
OLS
X
X
alfa 3 X
X
X
X X
X
X
X
alfa 2 X
X X
X X
X
alfa 1
i=3
OLS
i=2
i=1
i=4
Controlando por variables omitidas (no observadas o mal medidas): Datos de panel
permiten al investigador usar los elementos tanto dinmicos como de individuali-
dad de los elementos de un set de datos para controlar por los efectos de variables
faltantes o inobservables. Esta es una de las principales atracciones acerca del uso
de datos de panel.
Bajo los supuestos usuales, la estimacin por OLS de (3) entregar estimadores
insesgados y consistentes del vector de parmetros y . Suponga, sin embargo,
168 CAPTULO 7. DATOS DE PANEL
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisin de variable.
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que slo difieren entre individuos. As, podemos
tomar las primeras diferencias de (114) con respecto al tiempo para obtener
:
(yit yit1 ) = 0 (xit xit1 ) + (it it1 ) (7.4)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal man-
era que ahora se pueden obtener estimadores insesgados y consistentes de
.
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviacin de la observacin de cada individuo sobre la media entre todos
los individuos (en cada perodo), de la siguiente forma :
donde it es una medida del error con media cero y varianza seccional igual a .
xit = xit + it
V ar(xit ) = V ar(xit ) + 2 2 (1 ) (7.7)
Caso (ii) Suponga que los errores de medicin no estn correlacionados en el tiempo
( = 0 ). En este caso, encontraremos de que al diferenciar la varianza en
el error de medicin ser duplicada. Si la varianza del verdadero valor de
X es relativamente baja (e.g. existe una persistencia en el tiempo en X)
entonces, al diferenciar los datos significar que la "seal.es absorbido por el
ruido". En general, notar de que si < 0,5 al diferenciar los datos tendr un
efecto desproporcionado sobre la varianza del error en la medicin relativo a
la varianza propia de la variable en s.
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelos
de datos de panel dependern de los supuestos que se realicen sobre los errores no ob-
servados uit . Existen principalmente dos alternativas :
donde i denota efectos especficos al individuo que no son observables y it son los
denominados efectos idiosincrticos. Los i son invariantes en el tiempo y dan cuenta
de cualquier tipo de efecto individual no incluido en la regresin. Un ejemplo estn-
dar en ecuaciones de ganancia es la habilidad; en funciones de produccin agrcola uno
de estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobre
crecimiento de pases se pueden incluir normas culturales (e.g. con respecto al ahorro o
riesgo).
El two way error component model se asume de que la estructura del error se
define de la siguiente manera :
Y = 1N T + X + u = Z + u (7.12)
7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 171
u = Z + (7.13)
P = Z (Z0 Z )1 Z0
N T N T
Q = IN T P
Estas relaciones se usan extensivamente para derivar los modelos de datos de panel.
Ahora consideraremos dos supuestos sobre los efectos individuales i .
y = 1N T + X + Z + = Z + Z + (7.14)
La alternativa mas comn para estimar esta situacin es el estimador de efectos fijos.
Primero, deberemos pre multiplicar el modelo (124) por la matriz de seleccin Q la cual
calcula las desviaciones con respecto a la media grupal (de individuos). La observacin
representativa para el individuo i en el tiempo t es :
(yit y i ) = ( i ) + (Xit X i ) + (i i ) + (vit v i ) (7.15)
P
donde y i = T1 Tt=1 yit es la media del valor y para el individuo i sobre todo el perodo de
observaciones (t = 1 T ). Notar de que por definicin de que el primer y tercer trmino
de la parte derecha de (128) son cero. En una notacin vectorial mas conveniente queda
de la siguiente forma :
Qy = QX + Q (7.16)
donde hacemos uso del hecho de que QZ = Q1N T = 0 dado que el promedio temporal
del efecto invariante en el tiempo es simplemente el efecto en si mismo. De esta forma,
podemos estimar como sigue :
eW = (X 0 QX)1 X 0 Qy (7.17)
donde
V ar(eW ) = 2 (X 0 QX)1 = 2 (X
e 0 X)
e 1 (7.18)
y donde podemos recuperar el valor estimado de como :
eW = y X eW
donde aqu, P
el promedio se calcula sobre todas las observaciones basados en la restric-
cin de que N i=1 i = 0 el cual es un supuesto estndar para las variables dummy.
Resultados
Si (127) es el verdadero modelo, el estimador de efectos fijos es BLUE slo mientras
vit tenga las caractersticas Gaussianas estndar. A medida de que T tiende a infinito,
entonces el modelo es consistente para todos los parmetros del modelo. Sin embargo,
si T es fijo y N tiende a infinito, entonces el estimador FE de ser consistente. El
estimador FE de los efectos individuales (+i ) no son consistentes dado que el nmero
de parmetros aumenta a medida de que N aumenta.
La suma de cuadrados de residuos restringidas viene dado por la suma de los cuadrados
de los residuos del modelo OLS sobre los datos agrupados y el modelo sin restringir son
la suma de los residuos al cuadrado del modelo de efectos fijos. La prueba es la siguiente
:
(rrss urss)/(n 1)
FF E = F[n1,ntnk] (7.20)
urss/(nt n k)
Generalmente nos referiremos a esta como la restriccin de agrupamiento sobre la het-
erogeneidad no observable en el modelo.
V ar(uit ) = 2 + 2 (7.21)
El aspecto clave de esta varianza es que a pesar de ser homocedstica, tiene correlacin
serial al interior de cada unidad de corte transversal (dado que cada .efecto individual"de
cada persona persiste en el tiempo). En particular, sea :
2
= Corr(uit , ujs ) = 2 para i = j; t 6= s
( + 2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz de
varianzas covarianzas para el modelo de datos de panel no ser del tipo "Gaussiano".
Para proceder con la estimacin necesitaremos analizar la estructura de esta matriz.
donde J T = JT /T , ET = (IT J T ) y 12 = T 2 + v2 .
Con esta definicin podemos entonces aplicar a (127) el estimador GLS estndar para
derivar los estimadores de los coeficientes de , bajo el supuesto de efectos aleatorios:
La forma de resolucin a este problema mas popular introduce los denominados es-
timadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consis-
tentes en el promedio a travs del tiempo para cada una de las N observaciones :
0
y i. = + X i. + ui i = 1, ...N (7.26)
donde :
T
1X
y i. = yit
T
t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelo
bsico en (127) :
P y = P 1N T + P X + P (Z + ) (7.27)
el cual entrega el siguiente estimador :
Este estimador se denomina entre grupos pues ignora cualquier variacin al interior del
grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la in-
formacin de corte transversal simple sobre la variacin entre los grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresa-
do como :
(X 0 QX) X 0 (P J N T )X 1 (X 0 Qy) X 0 (P J N T )y
bGLS = [ + ] [ + ] (7.29)
2 12 2 12
7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 175
1
Finalmente, notar de (130) de que WXX WXY es simplemente el estimador al interi-
1
or del grupo (o intra grupo, WG) y de (141) de que BXX BXY es el estimador entre
grupos (BG) de tal forma que :
(i) A medida de que T tienda a infinito, entonces 2 tender a cero, y por tanto a
la unidad. En este caso, el estimador GLS tender al estimador intra grupo o el
estimador LSDV.
La primera opcin es usar una estimacin mxima verosmil interativa. Bajo los supuestos
176 CAPTULO 7. DATOS DE PANEL
y maximizarla en la forma usual, utilizando los estimadores entre grupos como los val-
ores iniciales de .
Resumen
El mtodo de estimacin a ser usado depender en si asumimos de que los efectos in-
dividuales sean fijos o aleatorios. Resulta ser de que los valores para los parmetros
pueden variar dramticamente, en el caso mas comn donde N es grande y T pequeo,
entre estimadores intra o entre grupos. Cuando slo existen pocas observaciones en el
tiempo resulta mejor usar los elementos de corte transversal de los datos para estimar
aquella parte de la relacin que contenga variables que difieren entre un individuo al
otro (el estimador entre grupos). Ello permite de que la parte de serie de tiempo de los
datos sea usada en forma eficiente de tal manera de rescatar la parte comn de dicha
relacin entre individuos.
Problemas de Especificacin
Hasta el momento se ha asumido de que los efectos individuales son o bien fijos
(i.e. no estocsticos) o si estos eran aleatorios, la covarianza entre los efectos no observ-
ables y las variables xi es cero. Esto puede no ser muy realista. Por ejemplo, en una
funcin de produccin las capacidades administrativas no observables podran estar cor-
relacionadas con la eleccin de los insumos.
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuando los efec-
tos i son tratados como variables aleatorias pero la varianza entre estos y las variables
xi no son cero, el estimador de efectos aleatorios GLS ser sesgado e inconsistente. Da-
do que el estimador intra grupo .eliminaompletamente el efecto de los i , entonces el
estimador de efectos fijo intra grupo es insesgado y consistente.
1
ver la rutina existente en STATA
7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 177
donde la hiptesis nula es que la covarianza es cero. Covarianza significativa entre los
efectos i y las variables xi har que el valor de m sea grande lo que rechazar el test
y deber estimarse, entonces, utilizando el estimador de efectos fijos intra grupo.
u = Z + Z + (7.35)
Podemos usar no obstante, una versin modificada del estimador intra grupo mediante
una transformacin que "saque"los efectos de i y t . Re definiendo la transformacin
Q tenemos :
Q = IN IT IN J T J N IT + J N J T (7.36)
178 CAPTULO 7. DATOS DE PANEL
Esta transformacin significa que el tpico elemento del vector y viene dado por :
ye = (yit y i. y .t + y) (7.37)
u
eit = (uit ui. u.t + u.. ) = (it i. .t + .. ) (7.38)
e = (X 0 QX)1 X 0 y (7.39)
e ..
e = y .. X (7.40)
Ho = 1 = n1 = 1 T 1 = 0 (7.41)
V ar(uit ) = 2 + 2 + 2 (7.42)
El aspecto clave de esta varianza es que siendo de nuevo homocedstica tendr dos tipos
de correlacin serial : entre cada unidad de corte transversal (un efecto fijo individual
que persiste en el tiempo) y uno a travs del tiempo. As :
Cov(uij , ujs ) = 2 si i = j, t 6= s
bGLS = 1 eW + 2 eB + 3 bC (7.44)
donde :
7.3. Extensiones
El modelo bsico puede ser extendido en varias direcciones. Estas son discutidas en
forma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la prxima
clase. Entre las mas interesantes se tiene :
7.4.1. Introduccin
El uso de datos de panel dinmico es una de las areas de mayor desarrollo en la
actualidad en el trabajo economtrico tanto en trminos tericos como aplicados. Las
ventajas que se derivan del uso de estos son evidentes, ya que permite estimar relaciones
econmicas que presentan una naturaleza dinmica y que es imposible estimarla usando
datos de corte transversal. Por otra parte en la prctica es raro poseer observaciones
para periodos de tiempo prolongados de una unidad de anlisis, como requerira el poder
trabajar con series de tiempo. De esta manera es comn tener en el trabajo aplicado
paneles con perodos de tiempo corto y con un gran numero de unidades. Sin embargo,
el trabajar con paneles dinmicos con estas caractersticas involucra una serie de de-
safos en la estimacin de los parmetros, ya que deseamos que estos sean consistentes
y eficientes, al menos en trminos asintticos.
Las tcnicas tradicionales de estimacin como son Mnimos Cuadros Ordinarios (OLS)
y el estimador Within Group (W G) han demostrado tener un pobre desempeo debido a
que presentan sesgos los cuales no desaparecen cuando la muestra crece (N ). Una
alternativa sugerida para hacer frente a este problema es trabajar con los estimadores
de variables instrumentales (VI) que proponen Anderson y Hsiao (1982). Estos autores
instrumentalizan la variable dependiente rezagada a travs del uso de la misma variable
dependiente pero con un orden mayor de rezago.
Como una respuesta a los estimadores anteriores se ha desarrollado toda una liter-
atura la cual esta basada en el Mtodo Generalizado de los Momentos (GM M ), el cual
trata de obtener estimadores consistentes y eficientes en trminos asintticos. Entre los
estimadores que se han desarrollado podemos mencionar el estimador de una etapa,
de dos etapas y el estimador sistemas el cual trata de explotar toda la informacin
disponible a travs de las combinacin de las condiciones de momento para la ecuacin
en niveles y en sus primeras diferencias. En este captulo nos concentramos en dar una
revisin a los diversos mtodos de estimacin enfatizando cuales son los posibles sesgos
en que se incurre y la eficiencia que muestran dichos mtodos.
2
Captulo escrito junto a Emerson Melo.
7.4. DATOS DE PANEL DINMICOS 181
Por otra parte se asume que N es grande y T es pequeo y fijo, por tanto las propiedades
asintticas de los estimadores vendrn dadas en la medida que N .
El estimador anterior resulta ser inconsistente, debido a que yit1 esta correlacionado
positivamente con i . Es posible demostrar que el plimb
OLS viene dado por la siguiente
expresin:
2
2 1
plim(b
OLS ) = (1 ) 2 ; con k = (7.47)
+k 1+
2
De esta forma el estimador OLS de la especificacin original est sesgado hacia arriba,
en donde se tiene que < plimb OLS < 1.3 Existen dos formas de afrontar el prob-
lema anterior, las cuales consisten en eliminar el efecto individual el cual es la fuente
de inconsistencia. La primera es transformar el modelo en desviaciones de medias de
manera de poder obtener el tradicional estimador W G. La transformacin a utilizar es
la siguiente :
ee0
Q = IT 1 (7.48)
T 1
3
Notar que si la distribucin de i es degenarada, la ecuacin (160) se convierte en plimb
OLS =
y por tanto no existria sesgo.
182 CAPTULO 7. DATOS DE PANEL
1+ 1T
(T 1) (1 T (1) )
plimb
W G = 2 1T
(7.51)
1 (1)(1T ) (1 T (1) )
El sesgo es hacia abajo y por tanto W G subestima a . De esta forma tanto OLS como
W G entregan estimadores inconsistentes de en la estimacin de (158) y la direccin
de los sesgos van en direcciones opuestas.
La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimar
un modelo en primeras diferencias el cual viene dado por la siguiente ecuacin:
y cuando usamos (yit2 yit3 ) como instrumento tiene la siguiente expresin alternativa
: PN PT
(yit y i )(yit2 yit3 )
bV I = PN i=1
PT t=2 (7.54)
i=1 t=2 (y it1 y it2 )(yit2 yit3 )
El estimador dado por (166) tiene la ventaja que identifica a cuando T > 2, en cambio
(167) funciona cuando T > 3.
Los criterios para usar (166) (167) vienen dados por el instrumento que presente
una mayor correlacin con yit1 , as como tambin por consideraciones de eficiencia
asintotica.
En esta seccin se describen los estimadores sugeridos por estos autores basados en
el concepto de estimacin consistente mediante la utilizacin de un vector de instru-
mentos.
E(g(Xi , 0 )) = E(gi (0 )) = 0
4
Un instrumento debe cumplir que este altamente correlacionado con el regresor al cual esta
instrumentalizando, y que no este correlacionado con el termino de error. A partir del supuesto
E(it is ) = 0 i 6= s los instrumentos sealados son vlidos
184 CAPTULO 7. DATOS DE PANEL
con respecto a , en donde WN1 es una matriz definida positiva que cumple con
plimN WN1 = W con W una matriz definida positiva.
P PN
GMM asume que limN N1 N i=1 gi () = E(gi ()) y ademas que
1
N i=1 gi (0 )
N (0, ). LO ltimo se conoce como condiciones de regularidad.
) y 0 = (0 ), entonces N (b 0 ) tiene
Por otra parte sea () = E(gi ()/0
una distribucin normal limite dada por N (b 0 ) N (0, VW ), donde :
Para ver cmo funciona GMM retomemos el modelo dado por (165) el cual esta ex-
presado en primeras diferencias, y asumamos que T > 3 de manera tal que el modelo
est sobreidentificado, en particular asumamos T = 4.
En dicho caso se tiene que para t = 4 los instrumentos disponibles son yi2 y yi1 , y
para t = 3 solo tenemos disponibles yi1 como instrumento. De esta manera se puede
deducir que para t = T se tiene que los instrumentos disponibles son (yi1 , yi2 , .......yiT 2 ).
E(Zi0 i ) = 0 (7.59)
7.4. DATOS DE PANEL DINMICOS 185
La eleccin de la matriz da lugar a dos estimadores los cuales son asintticamente equiv-
alentes.
en donde H es una matriz que contiene dos en la diagonal principal y menos uno en las
dos primeras subdiagonales y ceros en todo los dems lugares.
La ecuacin (176) muestra el estimador que se obtiene al minimizar (174) con respecto
a :
c1GM M = [y1 0
ZWN11 Z 0 y1 ]1 [y1
0
ZWN11 Z 0 y] (7.63)
Comparando la eficiencia de
c1 GM M yc
2 GM M
Un punto central en la decisin de ocupar c1 GM M o bien
c2 GM M es saber cmo
se comportan en trminos de eficiencia, en particular cuando trabajamos con muestras
finitas.5
V[
AR(c 0 ZW 1 Z 0 y )1 y 0 ZW 1 W
1 GM M ) = N (y1 N1 1 1 N 1 N 1 (c
1 GM M ) (7.65)
0 ZW 1 Z 0 y )1
Z 0 y1 (y1 N1 1
Por otra parte la varianza para el estimador de dos etapas viene dada por la siguiente
expresin :
V[AR(c 0
2 GM M ) = N (y1 2 GM M )Z 0 y1 )
ZWN 2 (c (7.66)
Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos eta-
pas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto las
estadsticas de prueba tienen un mayor poder tendindose a sobrerechazar la hiptesis
nula.
De esta manera se sugiere el uso del estimador de una etapa para la realizacin de
inferencias. La fuente de sesgo en los errores estndar del estimador de dos etapas
proviene del hecho que en el clculo de (178) est presente el estimador de una etapa.
Windmeijer (2000) muestra este hecho y propone una correccin para muestras fini-
tas a partir de una expansin de Taylor de primer orden.
E(it its ) = 2 , si s = 1
5
Sabemos que
c2GM M es asintticamente eficiente en la medida que N .
7.4. DATOS DE PANEL DINMICOS 187
bit = yit
byit1 (7.68)
A partir de (181) podemos ver que una manera fcil de entender el problema es con-
centrar nuestra atencin solamente en una unidad i y ver si se cumple la condicin. De
esta manera se sabe que:
0
i = i(2) i (7.69)
donde i(2) y i son de vectores de (T 4)1. Bajo la hiptesis nula de no correlacin,
i tiene media cero y podemos construir test para saber si efectivamente E(i ) = 0. As
a partir de la simple idea anterior el test para saber si existe o no correlacin serial de
segundo orden es el siguiente:
b 0
i(2) bi
m1 = 1/2
(7.70)
b
1/2
donde m1 tiende a una normal de media cero y varianza uno6 . Por otra parte b viene
dado por:
N
X
0
b = i(2) bi i bi(2)
i=1
XN
0
2b
2 X (X 0 ZWN ZX)1 X 0 ZAN ( Zi0 bi bi0 bi(2) )
i=1
+b0
2 X a[ b 0 b2
var()X
Lo interesante de (183) est en el hecho que es flexible ya que esta definida en trminos
de un estimador consistente y no necesariamente eficiente. Sin embargo, la potencia que
alcance m1 depender de la eficiencia asinttica del estimador que se utilice.
Una forma para discriminar entre ambas situaciones seria la de construir un estadstico
denominado como m2 pero para probar si existe o no correlacin serial de primer orden
en it .
6
Arellano y Bond (1991) demuestran la normalidad asintotica de este estadstico
188 CAPTULO 7. DATOS DE PANEL
El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguen
un Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias,
ambos entregaran estimadores consistentes y por tanto se tiene que esto dara origen a
un test de Hausman de especificacin.
Este test busca establecer si las condiciones de momento impuestas son o no validas
en donde si m son las condiciones de momento y k los parmetros a estimar diremos
que el modelo esta sobreidentificado si p > k.
0 Z(Z 0 b
S = b 0 Z)1 Z 0 b
b a2pk (7.71)
donde b es construido a partir del estimador de dos etapas, para una matriz de in-
strumentos Z dada, que no necesariamente es la matriz de instrumentos ptimas. La
hiptesis nula de este test es que las condiciones de momento son validas.
Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puede
ser modificado de manera de poder trabajar con distintas hiptesis para el termino de
error it , en particular para el tema de correlacin serial.
Los grados de libertad p1 p estn reflejando el hecho que existen condiciones de mo-
mento adicionales lo cual se explica porque la matriz de instrumentos Z es construida
asumiendo ausencia de correlacin serial en it .
Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches y
Mairesse(1997), quienes sealan para el caso de la estimacin de una funcin de pro-
duccin Cobb-Douglas:
En la practica, la aplicacin de mtodos de panel a microdatos producen
resultados muy insatisfactorios; coeficientes para el capital bajo y usualmente
insignificantes junto estimadores poco contradictorios para los retornos con-
stantes a escala
-Griliches y Mairesse (1997) Para entender
el porque se produce este problema consideremos el caso donde T = 3, de manera tal
que las condiciones de momento se reducen solamente a una condicin de ortogonalidad.
La condicin anterior es una restriccin sobre el proceso que genera los datos, y a partir
de esta tendremos las siguientes condiciones de momento adicionales:
Lo anterior proviene de (189) y seala que si yi2 no est correlacionado con i entonces
llevar a que yit tambin no lo est.
Esto puede ser visto en (165), donde si comenzamos a reemplazar al lado derecho de
esta ecuacin, se llega a una expresin del siguiente tipo :
t3
X
yit = t2 yi2 + s its (7.78)
s=0
donde it = (i + it ) (i + it1 ) = it .
Por tanto de (191) se deriva el hecho que yit estar no correlacionado con i en
la medida que yi2 no lo est.
E(yits (i + it )) = 0 s = 2......t 1
en donde Zs es :
Zdi 0 0 0 0 0
0 yi2 0 ... ... 0
Zdi 0 0 0 yi3 . . . . . . 0
Zs = = (7.83)
0 ZliP .. .. .. .. ..
0 . . . . .
0 0 . . . . . . 0 yiT 1
Al igual que en los casos anteriores, el estimador de una y de dos etapas se obtiene con
el procedimiento descrito en las secciones precedentes.
8
La seccin siguiente se discute el caso cuando se tiene regresores adicionales a la variables depen-
diente rezagada.
192 CAPTULO 7. DATOS DE PANEL
Lo interesante del estimador GM M de sistemas, es que puede ser entendido como una
combinacin del estimador en primeras diferencias y del estimador en niveles usando
solo algunas condiciones de momento para este.9
Por otra parte, para el estimador en 2SLS en sistemas se puede demostrar que :
0
bs = (q1 Zs (Zs0 Zs )1 Zs0 )1 q1
0
Zs (Zs0 Zs )1 Zs0 q
0 = [y , y ]. Y por otra parte se tiene que :
en donde q1 1 1
0
q1 Zs (Zs0 Zs )1 Zs0 q1 = y1
0
Zd (Zd0 Zd )1 Zd0 y1 + y1
0
Zlp (Zlp0 Zlp )1 Zlp0 y1
bs = lp
bd + (1 )b (7.84)
bd0 Zd0 Zd
bd
=
0 0
bd Zd Zd
bd + bl0 Zlp0 Zd0
bl
con
bd y
bl son los estimadores de OLS en la primera etapa.
De esta manera, el modelo que estamos interesados en esta seccin es uno del sigu-
iente tipo :
yit = yit1 + xit + it , t = 2.....T (7.85)
donde it = i + it y xit es un escalar. Asumiremos que xit est correlacionado con i .
Por otra parte sabemos que xit puede estar correlacionado de tres maneras distintas
con it , lo que dar origen a diversas condiciones de momento.
En primer lugar asumiremos que xit es estrictamente exgeno, lo cual puede ser repre-
sentado de la siguiente manera :
E(xis it ) = 0 con s = 1.....T, t = 1......T
El segundo caso que podemos tener es que xit sea predeterimanda o dbilmente exgena
donde bajo esta situacin :
E(xis it ) = 0 con s = 1....t, t = 1...T
y
E(xis it ) 6= 0 para s = t + 1, ...T
Finalmente xit puede estar determinado endgenamente en cuyo caso se tiene que :
E(xis it ) = 0 s = 1, ....t 1, t = 1, ......T
y
E(xis it ) 6= 0 s = t, ....T, t = 1, ......T
Con lo anterior tendremos distintas condiciones de momento para cada caso, en donde
las condiciones dadas por (171) se mantienen, pero para cada caso de xit tendremos
condiciones adicionales.
De esta forma, si xit es estrictamente exgena las condiciones de momento son las
siguientes :
E(xis it ) = 0 s = 1......T, t = 3, ......T (7.86)
lo cual origina que existen T (T 2) condiciones de momento adicionales.
Por otra parte cuando tenemos el caso que xit es predeterminada tenemos que :
E(xis it ) = 0 s = 1....., t 1 t = 3.....T (7.87)
en donde las condiciones de momento adicionales son 0,5(T 2)(t 1).
E(yits it ) = 0
y
E(yit1 (i + it ))
con t = 3...T y s = 2, ....., t 1.
E(xits it ) = 0
y
E(xit1 (i + it )) = 0
para t = 3...T y s = 2, ....., t 1.
Kiviet (1995) desarrolla una correccin al estimador WG el que como ya vimos, presenta
un sesgo sistemtico el cual no desaparece conforme N crece. No obstante lo anterior,
cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura el
valor de T para el cual dicho sesgo desaparece.
El mtodo lo que hace es restarle al estimador por LSDV del modelo original una
expresin que captura el sesgo cometido por este ltimo. Cabe hacer notar que el sesgo
del estimador LSDV es funcin de los verdaderos parmetros del modelo. En conse-
cuencia stos debern ser estimados primeramente tarea que se realiza mediante una
estructura de IV sugerida por Anderson y Hsiao (1981).
10
En efecto, los estimadores de GMM son consistentes asintticamente para N pero con T fijo.
7.4. DATOS DE PANEL DINMICOS 195
y = W + (In iT ) + (7.89)
.
donde W = [Y1 ..X] y 0 = (, ). El estimador de efectos fijos (LSDV) ser:
1
= (W 0 AW ) W 0 Ay (7.90)
1 0
donde At = It T iT iT y A = IN AT .
Sin embargo, como se sealo anteriormente este estimador es sesgado por lo cual se
sugiere utilizar el estimador de Kiviet(1995). El sesgo ser en consecuencia :
y no
En orden de aproximar esta expectativa se divide W en su parte estocstica W
, es decir
estocstica W
W = E(W ) (7.91)
W = W E(W ) (7.92)
W +W
= W (7.93)
= [Y1 ...X] y W
donde W = [Y1 ...0].
+W
La descomposicin de W puede ser usada para examinar AW = A(W ). Kiviet
deriva la siguiente expresion para AW :
= (IN AT C)q 0
AW (7.94)
donde
11
Deseo agradecer a Jorge Hermann por aportar el material que se presenta en esta seccin
196 CAPTULO 7. DATOS DE PANEL
0 0
1 0
1 0
C=
2 1
T 2 1 0
Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de la
siguiiente forma :
donde :
D = W 0 AW + 2 N tr[C 0 AT C]qq 0
N 0 0 AW (D)
1 q]
g1 = (i CiT )[2q W
T T
g2 = tr[W 0 (IN AT CAT )W (D)
1 ]q
g3 = W 0 (IN AT CAT )W (D)
1 q
1 q [ N (i0T CiT )tr(C 0 AT C) + 2tr(C 0 AT CAT C]q
+2 N q 0 (D)
T
Kiviet muestra que solo g1 es necesario para calcular el sesgo del estimador LSDV.
En general, los individuos pueden ser identificados por ciertas variables observ-
ables, -sexo, edad, educacin, estado civil- y por tanto, el problema de la evaluacin
es medir el impacto del programa en cada tipo de individuo.
197
198CAPTULO 8. MTODOS DE EVALUACIN PARA DATOS NO-EXPERIMENTALES
2. Experimentos Naturales.
Recupera as, el efecto promedio del programa sobre aquellos individuos que par-
ticiparon (o fueron "tratados") capturando el efecto: "The effect of Treatment
on the Treated". Lo anterior , al remover efectos individuales no observables y
factores macro comunes.
Problemas:
- Asume que existen efectos temporales comunes entre los grupos.
- No existen cambios de composicin al interior del grupo.
- As, escoger el grupo de control es muy complejo.
(ya lo veremos)
Persigue seleccionar factores observables suficientes como para que dos individuos
con los mismos valores para estos factores no presenten diferencias sistemticas
en sus reacciones a las reformas. As, el impacto del programa puede ser aislado al
comparar dos individuos similares (clones); uno que particip y uno que no lo hizo:
Problema:
- La escogencia de las variables que sern utilizadas para definir el clon.
- Si las variables son las equivocadas, el efecto contrafactual estar incorrec-
tamente medido y as el impacto del programa.
4. Modelo de Seleccin.
mediante un marco de eleccin racional el cual separa las preferencias de las re-
stricciones y por lo tanto, puede ser utilizado para simular reformas econmicas
que modifican las restricciones pero que dejan las preferencias inalteradas.
Bajo el supuesto de efecto del tratamiento homogneo estas dos medidas son idnticas.
Pero si los efectos son heterogneos ambas medidas pueden diferir, en particular, 2. se
conoce como .efecto del tratamiento sobre los tratados".
E(di , it ) 6= 0
200CAPTULO 8. MTODOS DE EVALUACIN PARA DATOS NO-EXPERIMENTALES
pues, puede ser que la decisin de participar, o el ser seleccionado depende de ciertas
caractersticas de los individuos.
Ni = Zi + i
Yit = + di i + it t>k
i = + i
T = + E(i |di = 1)
donde E(i |di = 1) desviacin media del impacto entre los participantes. As el impacto:
Yit = + di + [it + di i ]
= + di + [it + di (i )]
E(
) = + E(i |di = 1) + E(it |di = 1) E(it |di = 0)
201
As, an si it no est correlacionado con di , de tal modo que E(it |di = 1)=E(it |di =
0)=0 sigue existiendo el problema de identificacin.
Solo es posible identificar: T = + E(i |di = 1), es decir, el impacto del tratamiento
sobre los tratados.
Ello pues separar de que el trmino de error no este correlacionado con el proceso de
decisin el componente del efecto del programa especfico al individuo i , probablemente
lo est. En general, se espera que los individuos considera sus condiciones especficas en
su decisin y en consecuencia E(i |di = 1)6=0 y por lo tanto, la identificacin de se
hace mas dificultosa.
Pero:
Entonces
- consistencia de
es invalidada.
E(
) = + [E(it |di = 1) E(it |di = 0)]
En el caso en que E(it |di )6= 0, si vemos que los trminos anteriores se cancelan, esta
esperanza ser diferente de . As, estimadores alternativos sern necesarios: IV, selec-
cin, diff-in-diff, matching.
Ejemplo ilustrativo: Estudio de LaLonde (1986), ver tablas:
202CAPTULO 8. MTODOS DE EVALUACIN PARA DATOS NO-EXPERIMENTALES
Definitions:
PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55
years old and did not classify themselves as retired in 1975.
PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.
PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of
1960.
CPS-SSA 1 -all males based on Westats criterion except those over 55 years old.
CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.
CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 was
below the poverty level.
203
2. modelo subyacente
3. parmetros de inters
IV
para single
cross-section Heckman
two-step
difference-in-difference
Longitudinal o matching
repeated cross
section propensity
scores /
matching / dif
con
1 si Ni > 0;
di =
0 otro caso
it + di i = it + di (i )
(Zi )
E(Yit |di = 1) = Xi + +
(Zi )
y
(Zi )
E(Yit |di = 0) = Xi
1 (Zi )
con las mismas salvedades descritas para el Tobit en que Z y X deben tener al
menos una variable diferente y puede ser estimado regresionando N = Zi por
Probit.
Ahora, cuando existen efectos de tratamiento heterogneos, el modelamiento es
un poco ms complejo. Considerando que T = + E(i |di = 1), entonces
Yit = Xi + di + [it + di i ]
Matching Estimators.
Estos evalan los efectos del tratamiento al comparar los outcomes de las personas
tratadas con aquellos de personas similares en un grupo de control o comparacin.
Esta similitud se determina si tienen caractersticas observables similares las que son
medidas por alguna medida de distancia mtrica.
Notacin.
Y1 = outcome de los tratados.
Y0 = outcome de los no-tratados.
D=1 si la persona recibe tratamiento (D=0 si no).
X: vector de caractersticas utilizadas como variables de condicionamiento.
P(X)= Pr(D=1|X).
) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo de
comparacin medidos en algn perodo despus del programa.
Todos los estimadores que veremos tratan de estimar el impacto medio del tratamiento
en los tratados D=1 .
a) Cross Sectional
Supuestos:
As
n1
X
CS 1 b 0i |P (Xi ), Di = 0)
D=1 = Y1i (Xi ) E(y
n1
i=1
{Di =1}
As
n1t
X
b DID = 1
0t |P (Xi ), Di = 0)}
{Y1ti (Xi ) E(Y
D=1 i
n1t
i=1
{Di =1}
n1t0
1 X 0t0 |P (xj ), Dj = 0)}
{Y0t0j (Xj ) E(Y
n1t0 j
j=1
{Dj =1}
Implementacin
{Dj AZ }
209
conde,
R en general, los
R Kernels escogidos deben cumplir con la condicin de
que K(s)ds = 1 y K(s)sds = 0.
Aqu el ancho hn es anlogo al problema de escoger el nmero Z en el caso
anterior.
Los pesos
a las observaciones Dj = 0 dependern de los valores de
P (X )P (X )
i j
K hn .
En trminos prcticos una forma de definir a hn es hn = |P (Xi ) P (Xj )|
para el z-simo vecino cercano. As, el hn variar dependiendo de la cantidad
de datos (vecinos) que tenga cada punto de P (Xi ) (o en cada i {Di = 1})
otra forma es escoger un hn [0,2,0,4].
De nuevo, la diferencia solo yace en los pesos donde en el caso de LLR, stos
vienen determinados por:
P 0 P 0
Kij nK=1 KiK (PK Pi )2 [Kij (Pj Pi )][ nK=1 KiK (Pk Pi )]
j (P (Xi )) = P n0 P no P
2 [ n0 K (P P )]2
K
j=1 ij K
K=1 iK (Pk P i ) j=1 ij j i
P (XI )P (Xj )
donde KiK = K hn
tambin se puede demostrar (Fan (1992,1993)) de que el LLR estimator de E(Y0 i|P (Xi ), Di =
0) puede ser visto como la solucin hata al problema siguiente de regresin pon-
derada:
Xn0
2 P (Xi ) P (Xj )
mn (Y0j a b (P (Xj ) P (Xi ))) K
a,b hn
j=1
{Dj =0}
As, para cada valor P (Xi ) requiere por WLS Y0j sobre una constante y P (Xj )
P (Xi ) usado las personas con Dj = 0 y as el intercepto estimado ser un esti-
mador de E(Y0i |P (Xi ), Di = 0).
Una vez que los estimadores de las densidades en cada punto son obtenidos se
debe ordenar los estimadores de densidad. As, todos los valores de P (Xi ) para
los cuales las densidades estimadas exceden el limite de 1 o 2 % cuantil son con-
sideradas dentro de la regin de soporte comn. Aquellos por debajo deben ser
excluidos de la estimacin.
(Ahora si la regin de traslape es muy pequea es muy pequea, entonces se deben
recalcular los P(X) al considerar otros X).