Sei sulla pagina 1di 36

Modelos eleccin discreta y variable dependiente

limitada:
Modelos censurados y truncados
Profesor: Graciela Sanroman
Facultad de Ciencias Ecnomicas y administracin
Ao 2010
Modelos truncados y censurados
Cuando analizo microdatos tambin tendr casos en los cuales la variable
dependiente tiene un comportamiento en parte cualitativo, en parte
cuantitativo, por ejemplo: las horas trabajadas, la cantidad invertida en
maquinaria por parte de una empresa, los salarios.
Veremos en trminos generales dos tipos de modelos de regresin
truncados,
censurados.
Nos limitaremos a ver el caso de modelos de regresin truncados y
censurados en los cuales el trmino de error del modelo latente sigue una
distribucin normal.
Modelos con variable dependiente truncada
Slo observamos el valor de la variable para un subconjunto de la muestra.
Por ejemplo:
El salario: slo observamos el salario en aquellos casos en los que la
persona est ocupada y eso se da si el salario que obtendra la
persona es mayor que su salario de reserva:
y
i
= y
+
i
si y
+
i
> salario de reserva de i
Cul es sera el salario de los que no trabajan? No es cero
obviamente, pero no observamos ningn valor.
Modelos con variable dependiente censurada
La variable dependiente se observa con censura, por ejemplo:
inversin en maquinarias (censurada inferiormente en cero)
horas de trabajo (censurada inferiormente en cero)
y
i
=
_
y
+
i
y
+
i
> 0
c y
+
i
_ 0
o y
i
= max(0, y
+
i
)
ingreso del hogar en algunas encuestas (censurada superiormente, ya
que si el ingreso es mayor que un determinado valor slo se registra
eso). Por ejemplo
y
i
=
_
y
+
i
y
+
i
< c
c y
+
i
> c
o y
i
= min(c, y
+
i
)
Modelos con variable dependiente censurada
Es necesario distinguir:
censura dada por soluciones de esquina en el problema de decisin
ecnomica del agente
censura por la caractersticas de los datos
Truncamiento simple: densidad y media condicionales
Sea una v.a. con fda Pr ( _ c) = F (c) y funcin de densidad f ().
Supongamos que dicha distribucin est sujeta a truncamiento inferior en
el punto c,
si tenemos una variable aleatoria continua con una funcin de densidad
f (z), la funcin de densidad de la variable truncada a partir del valor c es
la funcin de densidad condicional:
f ( [ > c) =
f ()
P[ > c]
=
f ()
1 F(c)
y la media condicional de una distribucin truncada es
E( [ > c) =
_
+

f ()
1 F(c)
d
mayor que E() y mayor que c
Truncamiento simple inferior: densidad condicional en la Normal
En el caso de que ~ N(,
2
) entonces, suponiendo que hay un
truncamiento inferior tenemos:
f ( [ > c) =
f (

)
1 (
c

)
=
(
1

)(

)
1 (
c

)
denotando
+
=

y c
+
=
c

f ( [ > c) =
1

(
+
)
1 (c
+
)
Truncamiento simple inferior: media condicional en la Normal
En el caso de que ~ N(,
2
) deno
+
tal que = +
+
y

+
~ N(0, 1):
E( [ > c) =
+
_
c
f ( [ > c)d
=
+
_
c
+
( +
+
)
1

(
+
)
1 (c
+
)
d
+
= +
+
_
c
+

+
(
+
)
1 (c
+
)
d
+
se puede demostrar que
E( [ > c) = +
(c
+
)
1 (c
+
)
= +(c
+
)
(c
+
) =
(c
+
)
1(c
+
)
se conoce como la "inversa del ratio de Mills"
Truncamiento simple superior: densidad y media condicional en la
Normal
La densidad con truncamiento superior si la distribucin es normal es
f ( [ < c) =
1

(
+
)
(c
+
)
mientras que la media
E( [ < c) =
(c
+
)
(c
+
)
=
+
(c
+
)

+
(c
+
) =
(c
+
)
(c
+
)
se conoce como el complementario de la "inversa del ratio
de Mills"
Modelos de Regresin Truncada
Los modelos de regresin truncada se concentran en explicar el valor
esperado de una variable endgena y truncada superior o inferiormente
condicional a los valores de las variables explicativas x.
El modelo de regresin truncada reeja un modelo poblacional que cumple
con los supuestos del modeo lineal clsico:
y
+
i
= x
/
i
+
i

i
[x
i
~ N(0,
2
)
y
i
= y
+
i
si y
+
i
> c
si observaramos y
+
i
el procedimiento MCO produce los estimadores lineales
e insesgados de mnima varianza.
El problema es que slo se observarn valores de y cuando sobrepasa un
cierto umbral mnimo c, por lo que para estimar el vector y
necesitamos conocer la distribucin de y dado que y
+
i
> c, en denitiva
una distribucin de probabilidad truncada.
Si c = 0 entonces E(y
i
[x
i
, y
+
i
> 0) = x
/
i
+
i
con

i
=
i
_
x
/
i

_
=

_
x
/
i

_
x
/
i

_
Modelos de Regresin Truncada
Sea
d
i
= 1(y
+
i
> c)
Cuando d
i
= 1 la contribucin del individuo i a verosimilitud (bajo el
supuesto de normalidad de las perturbaciones de la ecuacin estructural)
estar dada por la funcin de densidad de una normal truncada:
f (y
i
[ x
i
, y
i
> c) =
_
1

_
y
i
x
/
i

_
Cuando d
i
= 0 la informacin del individuo i no realizar ninguna
contribucin a la verosimilitud
Notar: slo la informacin de los individuos con y
+
i
> c es utilizada en el
modelo de regresin truncada
Modelos de Regresin Truncada
Por lo que la funcin de verosimilitud de un modelo de regresin truncada,
ser:
/(, ) =
N

i =1
_
_
_
1

_
y
i
x/
i

_
1
_
cx
i

_
_
_
d
i
y la de log-verosimilitud ser (eliminado los trminos constantes):
L(, ) =
N

i =1
d
i
_
1
2
ln(
2
) +
1
2
2
(y
i
x
/
i
)
2
+ ln
_
1 (
c x
/
i

)
__
a partir de esta funcin se obtienen los estimadores mximo verosmiles
para y ; el estimador mximo verosmil de la matriz de covarianzas
puede obtenerse de la inversa de la matriz hessiana.
Notar que hay identicacin separada de y .
Efectos parciales en el modelo de regresin truncada
Tenemos
E(y
+
i
[x
i
)
x
j
=
j
pero aqu estimo un modelo de esperanza condicional E(y
+
i
[x
i
, y
+
i
> c ),
para simplicar supongamos c = 0.
Tenemos
E(y
i
[x
i
, y
+
i
> 0) = x
/
i
+
i
con
i
=
i
_
x
/
i

_
=

_
x
/
i

_
x
/
i

_
, entonces
E(y
i
[x
i
, y
+
i
> 0)
x
j
=
j
+

i
x
j
=
j
_
1
_
x
/
i

+
i
_

i
_
Efectos parciales en el modelo de regresin truncada
Pero podemos estar interesados en
E(y
i
[x
i
)
x
j
siendo
E(y
i
[x
i
) = E(y
i
[x
i
, y
+
i
> 0) Pr (y
+
i
> 0)
ln E(y
i
[x
i
) = ln E(y
i
[x
i
, y
+
i
> 0) + ln Pr (y
+
i
> 0)
la elasticidad puede escribirse como
x
ji
ln E(y
i
[x
i
)
x
j
= x
ji
ln E(y
i
[x
i
, y
+
i
> 0)
x
j
+ x
ji
ln Pr (y
+
i
> 0)
x
j
a estos trminos se le suele denominar "margen intensivo" y "margen
extensivo", para indicar que el efecto de un cambio en x
j
afecta:
la esperanza condicional
la probabilidad de que la observacin pertenezca al intervalo donde es
observable
Nota: Pr(y
+
i
> 0 [x
i
) =
_
x
/
i

_
y
Pr(y
+
i
>0[x
i
)
x
j
=

j


_
x
/
i

_
Distribuciones censuradas (censura inferior)
Existen casos en los cuales se dispone de observaciones de las variables
aleatorias en el punto lmite pero no a la izquierda de ste, lo que se dene
como censura.
La variable censurada inferiormente se dene como:
y
i
=
_
y
+
i
y
+
i
> c
c y
+
i
_ c
o y
i
= max(c, y
+
i
)
La distribucin de una variable censurada es una mezcla de una
distribucin discreta (con punto de acumulacin en c) y una distribucin
de densidad continua.
Recordar que la censura puede estar asociada a
soluciones de esquina
caractersticas de los datos.
Distribuciones censuradas (censura inferior)
Consideremos el caso de una v.a.
+
con fda Pr (
+
_ c) = F(c) y funcin
de densidad f (
+
) con - <
+
< , se cumple
=
_

+

+
> c
c
+
_ c
= max(c,
+
)

+
> c f (
+
) con c <
+
<

+
_ c Pr( = c) = F(c)
la media de
E() = cF(c) +E( [ > c) [1 F(c)]
Si
+
s N
_
,
2
_
E() = + c
+
(c
+
) + (c
+
)
con c
+
=
c

Distribuciones censuradas: modelo Tobit


Cierto tipo de modelos censurados son denominados modelos Tobit, en
honor al economista James Tobin que estudi la demanda de bienes
durables en un artculo de 1959. El modelo Tobit puede ser ms
sencillamente presentado como un modelo de variable latente:
y
+
i
= x
/
i
+ u
i
, u
i
~ N(0,
2
)
y
i
= max(c, y
+
i
) = max(c, x
/
i
+ u
i
)
La variable latente cumple con las suposiciones del modelo lineal clsico.
En el caso de censura a la izquierda la variable observada y es y
+
cuando
y
+
> c, y y es c cuando y
+
< c.
Distribuciones censuradas: modelo Tobit
La distribucin de la variable y es mixta, ya que es discreta en c (cuando
y
+
< c):
P(y
i
= c [ x
/
i
)=P(y
+
i
6 c [ x
/
i
) = P(u
i
6 c x
/
i
)
= P(
u
i

6
c x
/
i

) = (
c x
/
i

)
y continua en los dems valores. Supondremos en adelante que c = 0.
Distribuciones censuradas: modelo Tobit
Sea
d
i
= 1(y
+
i
> 0)
Cuando d
i
= 1 la contribucin del individuo a verosimilitud estar dada
por la funcin de densidad de una normal:
f (y
i
[ x
i
) =
_
1

_
y x
/
i

_
Cuando d
i
= 0 la contribucin del individuo a la verosimilitud estar dada
por
Pr(d
i
= 0 [ x
i
) = Pr(y
+
i
_ 0 [ x
i
)
= Pr(u
i
6 x
/
i
[ x
i
)
= 1 (
x
/
i

)
Distribuciones censuradas: modelo Tobit
De esta forma la funcin de verosimilitud ser:
/(, ) =
N

i =1
_
1 (
x
/
i

)
_
1d
i
_
_
1

_
y x
/
i

__
d
i
y la log-verosimilitud
L(, ) =
N

i =1
_
(1 d
i
) log
_
1
_
x
/
i

__
+ d
i
_
1

_
y
i
x
/
i

___
A partir de la maximizacin de la ecuacin anterior se obtienen los
estimadores y ; el estimador mximo verosmil de la matriz de
covarianzas puede obtenerse de la inversa de la matriz de informacin.
Distribuciones censuradas: modelo Tobit
Si multiplicamos la ecuacin de la verosimilitud antes denida por la
siguiente expresin:
N

i =1
_

_
x
/
i

__
d
i
N

i =1
1
_

_
x
/
i

__
d
i
reacomodando se llega a que:
L(, ) =
N

i =1
_

_
_
1

_
y x
/
i

_
x
/
i

_
_

_
d
i
N

i =1
_
1
_
x
/
i

__
1d
i
_

_
x
/
i

__
d
i
donde la primer productoria es un modelo truncado (cuando c = 0) y la
segunda corresponde a un probit que modela si la observacin es
censurada o no.
Esto sugiere que un modelo tobit es una combinacin de un modelo
probit, que determina las observaciones que son censuradas y las que no, y
un modelo truncado para las observaciones no censuradas.
Modelo Tobit
En el modelo Tobit
y
+
i
= x
/
i
+ u
i
, u
i
~ N(0,
2
)
y
i
= max(c, y
+
i
) = max(c, x
/
i
+ u
i
)
Una expresin de importancia es
E(y
i
[ y
+
i
> 0, x
i
) = x
/
i
+
(
x
/
i

)
1 (
x
/
i

)
= x
/
i
+
i
donde nuevamente aparece la razn
i
= (
x
/
i

) = (r
i
) =
(r
i
)
1(r
i
)
la
inversa del ratio de Mills.
Efectos parciales en el modelo Tobit
Para obtener los efectos parciales, podemos derivar la ecuacin
E(y
i
[ y
+
i
> 0, x
i
) = x
/
i
+
i
respecto a x
j
, .se obtiene que
E(y [ y > 0, x)
x
j
=
j
_
1
i

_
x
/
i

+
i
__
Efectos parciales en el modelo Tobit
Pero otros parmetros de importancia podran ser:
El efecto parcial sobre la variable latente, variable que en ocasiones
tiene un sentido econmico y en otros no:
E(y
+
i
[ x
i
)
x
j
=
j
El efecto parcial sobre la variable y:
E(y
i
[ x
i
) = 0 Pr(y
i
= 0 [ x
i
) + E(y
i
[ y
+
i
> 0, x
i
) Pr(y
i
> 0 [ x
i
)
= E(y
i
[ y
+
i
> 0, x
i
) Pr(y
i
> 0 [ x
i
)
= E(y
i
[ x
i
) = (
x
/
i

)
_
x
/
i
+
i
_
= m(x
/
i
,
2
)
derivando y desarrollando la expresin anterior con respecto a x
j
se
llega a:
E(y
i
[ x
i
)
x
j
=
j

_
x
/
i

_
Modelos de Regresin Censurada
Los modelos de regresin censurada son extensiones del modelo de Tobit,
las generalizaciones pueden ser diferentes:
censura superior
censura inferior y superior
censuras que dependen de caractersticas del individuo
modelos censurados en donde la censura o el truncamiento se da
respecto de otra variable
(ver Amemiya (1985), Wooldridge (2002))
Truncamiento respecto a otra variable
La densidad con truncamiento respecto a otra variable se puede escribir
f (
1
,
2
[
2
> c
2
) =
f (
1
,
2
)
Pr (
2
> c
2
)
<
1
< +
c
2
_
2
< +
Pr (
2
> c
2
) =
_

c
2
_

f (
1
,
2
)d
1
d
2
entonces
f (
1
[
2
> c
2
) = f (
1
)
Pr (
2
> c
2
[
1
)
Pr (
2
> c
2
)
Truncamiento respecto a otra variable: la normal bivariada
Supongamos
_

1

2
_
s N
__

1

2
_
,
_

2
1

12

2
2
__
La media
E(
1
[
2
> c
2
) =
1
+

12

2
2
(
c
2

2

2
)
El modelo generalizado de seleccin (Heckman, 1979)
El modelo Tobit no es apropiado cuando el proceso que genera que algunos
individuos estn en el punto de censura no es aleatorio, por ejemplo
cuando responde a situaciones en las cuales el individuo est restringido
respecto a las decisiones a tomar (por ejemplo desempleo involuntario).
Heckman propone descomponer el modelo censurado en dos procesos, de
manera que tendremos un modelo bivariante con dos ecuaciones:
y
+
1i
= x
/
i
+ u
1i
y
+
2i
= z
/
i
+ u
2i
se observa y
i
, d
i
, x
i
, z
i
:
d
i
= 1 (y
+
2i
> c)
y
i
= y
+
1i
si d
i
= 1
Si u
1i
y u
2i
estn correlacionados estaremos ante un caso de "seleccin
endgena" de la muestra, debido a la seleccin basada en y
+
2i
.
El modelo generalizado de seleccin (Heckman, 1979)
Podemos reescribir
y
i
= d
i
y
+
1i
+ (1 d
i
)c =
_
c si d
i
= 0
y
+
1i
si d
i
= 1
lo cual corresponde a la versin censurada del modelo de seleccin
muestral.
Tambin se puede construir la versin truncada, la cual sera:
y
i
= d
i
y
+
i
El modelo generalizado de seleccin (Heckman, 1979)
Consideremos el caso del modelo censurado con c = 0,
y
+
1i
= x
/
i
+ u
1i
y
+
2i
= z
/
i
+ u
2i
se observa y
i
, d
i
, x
i
, z
i
:
d
i
= 1 (y
+
2i
> 0)
y
i
= y
+
1i
si d
i
= 1
se supone
_
u
1i
u
2i
_
s N
__
0
0
_
, =
_

2
1

12

2
2
__
El modelo generalizado de seleccin (Heckman, 1979)
Cuando d
i
= 1 la contribucin del individuo a verosimilitud estar dada
por la funcin de densidad de una normal:
Pr (d
i
= 1 [ z
i
) f (y
+
1i
[ z
i
, x
i
, d
i
= 1)
= Pr (d
i
= 1 [ z
i
)
_
f (y
+
1i
[ z
i
, x
i
) +
Pr (d
i
= 1 [ u
1
, z
i
)
Pr (d
i
= 1 [ z
i
)
_
=
_
1

1
_

_
y x
/
i

1
_

_
_
z
/
i
+

12

2
2
_
y
i
x
/
i

_
_

2


12

2
2
_
_
Cuando d
i
= 0 la contribucin del individuo a la verosimilitud estar dada
por
Pr (d
i
= 0 [ z
i
) = Pr(u
2i
6 z
/
i
[ z
i
)
= 1
_
z
/
i

2
_
El modelo generalizado de seleccin (Heckman, 1979)
La verosimilitud del modelo la podemos escribir:
/(, , ) =
N

i =1
[Pr (d
i
= 0 [ z
i
)]
1d
i
[Pr (d
i
= 1 [ z
i
) f (y
+
1i
[ x
i
, d
i
= 1)]
d
i
tomando logaritmos y desarrollando obtenemos:
L(, , ) =
N

i =1
_
(1 d
i
) ln
_
1
_
z
/
i

2
__
+d
i
_

1
2
ln
2
1
+ ln
_
y
i
x
/
i

1
__
+d
i
ln
_
_

_
_
z
/
i
+

12

2
2
_
y
i
x
/
i

_
_

2


12

2
2
_
_
_
_
y el modelo se estima por mxima verosimilitud.
El modelo generalizado de seleccin (Heckman, 1979)
Retomemos las ecuaciones:
y
+
1i
= x
/
i
+ u
1i
y
+
2i
= z
/
i
+ u
2i
y
i
= x
/
i
+ u
1i
si y
+
2i
> 0
el modelo de esperanza condicional para las observaciones no censuradas
queda:
E(y
+
1i
[ y
+
2i
> 0) = x
/
i
+

12

2

_
z
/
i

2
_
donde
i
=
_
z
/
i

2
_
es la inversa del ratio de Mills, tambin denominada
en el contexto de este modelo "lambda de Heckman".
El modelo generalizado de seleccin (Heckman, 1979)
Podemos re-escribir el modelo en forma de ecuacin de error como
y
i
= x
/
i
+

12

2

i
+ v
i
Notar que:
el segundo trmino desaparece cuando
12
= 0
el trmino

12

2

_
z
/
i

2
_
se conoce en la literatura como "Sesgo de
seleccin",
se podra estimar en forma consistente y

12

2
si
i
fuera observable.
Procedimiento en dos etapas de Heckman
Normalicemos
2
= 1 entonces

12

2
=
12
y

2
= . Heckman tambin
propone estimar el modelo en un procedimiento bietpico:
ETAPA 1: Estimar en el modelo
y
+
2i
= z
/
i
+ u
2i
d
i
= 1 (y
+
2i
> 0)
mediante un PROBIT de d
i
sobre z
i
y calcular

i
=
_
z
/
i

_
=

_
z
/
i

_
1
_
z
/
i

_
ETAPA 2: Estimar y en
y
i
= x
/
i
+
12

i
+ v
i
a travs de una regresin MCO de y
i
sobre x
i
y

i
usando
UNICAMENTE las observaciones para las cuales d
i
= 1.
Procedimiento en dos etapas de Heckman
Comentarios:
IDENTIFICACION: Restriccin de exclusin z y x pueden compartir
variables, pero z debe contener al menos una variable (continua) que
sea determinante del proceso de seleccin (y
+
2
) pero no de y
+
1
.
Si no se satisface la restriccin de exclusin el modelo est
identicado por "forma funcional"
Contraste de existencia de sesgo de seleccin Ho :
12
= 0
Comparar coecientes directamente con una MCO de y
i
sobre x
i
y

i
usando UNICAMENTE las observaciones para las cuales d
i
= 1.
TERMINO DE ERROR v
i
= u
1i
+
12
(
i

i
): clculo de los errores
estndar caso heterocedstico pero no se corrige con White.

Potrebbero piacerti anche