Tema Selection2

ECONOMETRÍA II
Prof.: Begoña Álvarez 1. MUESTRAS Y POBLACIÓN

2007-2008
El objetivo de esta tema es:
• Mostrar la diferencia entre muestras truncadas y censuradas.
Tema 5
• Explicar por qué la estimación por MCO de un modelo lineal es
sesgada e inconsistente en tales circunstancias.
MODELOS CENSURADOS, TRUNCADOS Y CON
SELECCIÓN MUESTRAL • Proponer métodos para estimar muestras en las que la variable
dependiente es continua pero limitada (bien por censura o
truncamiento).
• También analizaremos el problema del sesgo de selección muestral.
1. MUESTRAS Y POBLACIÓN 2. MUESTRAS TRUNCADAS Y CENSURADAS
La estimación consistente requiere:
- Disponer de una muestra extraída de forma aleatoria y
representativa de la población que se pretende estudiar
- Que los estadísticos (estimadores) converjan a los parámetros Es posible que no observemos datos de la variable dependiente y de
poblacionales que estiman. las variables explicativas para toda la población. En este caso,
tendremos muestras censuradas o truncadas según cómo sea el tipo
de limitación en la información disponible
El problema con las muestras surge cuando se refieren a grupo
de la población que no representa a la población que es objeto de
estudio.
En ese caso, los estimadores convergerán a las características de esa
subpoblación, no a las de la población que se quiere analizar.
2. MUESTRAS TRUNCADAS Y CENSURADAS 2. MUESTRAS TRUNCADAS Y CENSURADAS
FORMALIZACIÓN
2.1 MUESTRAS TRUNCADAS
Una muestra está truncada si los datos sólo están disponibles para un
subconjunto de la población total.
Los valores de las variables explicativas X sólo se observan cuando se
observa Y. MUESTRAS TRUNCADAS
EJEMPLO:
- El gasto médico de una muestra de pacientes entrevistados después
de someterse a un tratamiento dental. En este caso, sólo observamos a
personas con gasto mayor que cero.
MUESTRAS CENSURADAS
FORMALIZACIÓN
2.2 MUESTRAS CENSURADAS 0.5
truncated
Una muestra está censurada si los datos se recodifican para un normal
0.4
subconjunto de la población.
En una muestra censurada, observo las X de toda la población, pero el
valor de la Y se desconoce para un subconjunto de la población. 0.3
0.2
EJEMPLO:
- Oferta de trabajo: si las personas trabajan, sabemos el número de standard
0.1
horas que ofrecen, pero a los que no trabajan les asignamos cero normal
horas…. Sin embargo, podría ser que su oferta de trabajo fuese de 3
horas por semana, pero no encuentra ningún empleo con esas 0.0
-2 0 2 4
características.
X
Truncated normal distribution with truncation from below (at x = -1). Source: Heij et al.
FORMALIZACIÓN Por ejemplo, supongamos que la verdadera relación que tenemos es la que
aparece en el gráfico.
0.6
y*
CENSORE D NORMAL
O 40 y* = −40 + 1.2 x + u
0.4
30
20
0.2 10
0
0 10 20 30 40 50 60 x
-10
0.0
-6 -4 -2 0 2 4 6 -20
-30
X
Censored normal density with censoring from below (at x = 0) with a point mass -40
p(x = 0) = 0.5. Source: Heij et al.
Sin embargo, imaginemos que la variable dependiente está sujeta a una
cota inferior fijada en 0. Entonces los valores de variable observada Y
serán tales que Y=y* si y* > 0; Y = 0 if y* <=0.
¿Por qué la censura o el truncamiento plantean un problema? Por ejemplo, supongamos que tenemos modelo de oferta de trabajo en
que y son las horas de trabajo semanales. No es posible obtener valores
En particular, ¿qué problemas tenemos si especificamos un modelo negativos.
lineal y estimamos por MCO un modelo en el que la variable está
y*
censurada o truncada? 40 y* = −40 + 1.2 x + u
30
Para ilustrar los problemas, vamos a centrarnos en el caso de una
20
muestra censurada.
10
0
-10
0 10 20 30 40 50 60
x
-20
-30
-40
Aquellos individuos con y* negativa simplemente no trabajan. Para ellos, y
el valor de Y es 0
y* = −40 + 1.2 x + u
40
y 30
40
y* = −40 + 1.2 x + u 20
30
10
20
0
10 0 10 20 30 40 50 60 x
-10
0
0 10 20 30 40 50 60 x -20
-10
-30
-20
-40
-30
¿Mejorarían las cosas si borrásemos las observaciones restringidas, es
-40 decir, las correspondientes a los que no trabajan?
En este caso estaría definiendo una MUESTRA TRUNCADA.
¿Qué ocurriría si ajustásemos un modelo lineal y lo estimásemos por y
MCO? En este caso, la pendiente estaría sesgada a la baja.
y* = −40 + 1.2 x + u
40
y 30
40
y* = −40 + 1.2 x + u 20
30
10
20
0
10 0 10 20 30 40 50 60 x
-10
0
0 10 20 30 40 50 60 x -20
-10
-30
-20
-40
-30
De nuevo tendríamos estimaciones del parámetro de la pendiente
-40
sesgadas a la baja.
2. MUESTRAS TRUNCADAS Y CENSURADAS 3. MODELO TOBIT
ESPECIFICACIÓN
El modelo censurado o modelo Tobit (Tobin, 1958)
• Se dispone de datos para toda la muestra, pero la variable
La solución a este problema es plantear un modelo híbrido que utilice la dependiente está censurada en un determinado valor, por ejemplo cero
especificación PROBIT para investigar por qué algunas observaciones
toman valor 0 y otras no y, para aquellas observaciones tales que Y* > 0, • Consideremos la siguiente relación latente
un modelo de regresión que nos cuantifque la relación.
El modelo TOBIT recoge esos dos aspectos.
• Donde y es una variable censurada tal que
3. MODELO TOBIT (Modelo censurado) 3. MODELO TOBIT
ESPECIFICACIÓN
Supongamos una variable en la cual tenemos una solución esquina. Es
decir, esa variable vale cero para una proporción considerable de la • Dada una distribución para u, la probabilidad de observar un dato
población, pero se distribuye de forma aproximadamente continua para censurado es:
los valores positivos.
EJEMPLO: El gasto en alcohol que hace un individuo en un mes
determinado.
• Formalmente, tenemos una variable y que es aproximadamente continua • La probabilidad de las observaciones no censuradas es:
en un rango de valores estrictamente positivos pero que vale cero con
probabilidad positiva.
• Nada impide que utilicemos un modelo lineal para la variable y, es decir,
un modelo lineal para E ( y | z1, x2,…., xk ).
• Sin embargo, podríamos obtener predicciones negativas.
• Por tanto, la función de verosimilitud la escribimos como:
• Debido a que la distribución de y presenta una acumulación de
densidad en cero, no puede tener una distribución condicionada Normal.
Por tanto, la inferencia estadística sólo tendrá justificación asintótica.
3. MODELO TOBIT 3. MODELO TOBIT
INTERPRETACIÓN INTERPRETACIÓN
Los β del modelo Tobit miden los efectos marginales de las variables La expresión de E( y | x, y>0) es
explicativas sobre la variable latente y*. En ocasiones, esta variable tiene
una interpretación económica interesante, pero en la mayoría de los
casos no es así. La variable que queremos explicar es y, que es la que se
=
puede observar.
¿Qué información podemos obtener del modelo estimado? donde Ratio inverso de Mills
Podemos estar interesados en calcular el efecto marginal de las
variables explicativas sobre E ( y | X)
Esta ecuación nos indica que estimamos un modelo de regresión lineal con
las observaciones y>0 no siempre conseguiremos estimaciones
O nos pueden interesar los efectos marginales de las variables consistentes de β. El problema que tenemos es el de omisión de variables
explicativas sobre E ( y | X, y>0) relevantes; en este caso la variable omitida sería el Ratio inverso de Mills
y, generalmente, está correlacionado con los elementos de x.
3. MODELO TOBIT 3. MODELO TOBIT
INTERPRETACIÓN INTERPRETACIÓN
Efectos marginales
Podemos obtener E( y | x) de forma sencilla. Recordamos que:
1. Sobre la variable latente
Pr (yi ≠ 0 | xi ) = y*i > 0
Entonces, 2. Sobre la variable observada sin condicionar a y>0
y*i > 0
3. Sobre la variable condicionada a y>0
EJEMPLO (C. Doughterty, 2002) EJEMPLO
30000 . reg HEQ EXP
Expenditure on household equipment
Source | SS df MS Number of obs = 869

25000 ---------+------------------------------ F( 1, 867) = 353.91
Model | 729289164 1 729289164 Prob > F = 0.0000
Residual | 1.7866e+09 867 2060635.12 R-squared = 0.2899
20000 ---------+------------------------------ Adj R-squared = 0.2891
Total | 2.5159e+09 868 2898456.01 Root MSE = 1435.5
($)
15000
------------------------------------------------------------------------------
HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
10000
EXP | .0471546 .0025065 18.813 0.000 .042235 .0520742
_cons | -397.2088 89.44449 -4.441 0.000 -572.7619 -221.6558
5000
------------------------------------------------------------------------------
0
0 20000 40000 60000 80000 100000 120000 140000 160000
Household expenditure ($)
We will use the Consumer Expenditure Survey data set to illustrate the use of tobit analysis. Here is a regression using all the observations. We anticipate that the coefficient of EXP is
The figure plots annual household expenditure on household equipment, HEQ, on total biased downwards.
household expenditure, EXP, both measured in dollars.
31 33
EJEMPLO EJEMPLO
. tab HEQ if HEQ<10 . reg HEQ EXP if HEQ>0
HEQ | Freq. Percent Cum. Source | SS df MS Number of obs = 783
------------+----------------------------------- ---------+------------------------------ F( 1, 781) = 291.04
0 | 86 89.58 89.58 Model | 656349265 1 656349265 Prob > F = 0.0000
3 | 1 1.04 90.62 Residual | 1.7613e+09 781 2255219.19 R-squared = 0.2715
4 | 2 2.08 92.71 ---------+------------------------------ Adj R-squared = 0.2705
6 | 1 1.04 93.75 Total | 2.4177e+09 782 3091656.59 Root MSE = 1501.7
7 | 1 1.04 94.79
8 | 5 5.21 100.00 ------------------------------------------------------------------------------
------------+----------------------------------- HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total | 96 100.00 ---------+--------------------------------------------------------------------
EXP | .0467672 .0027414 17.060 0.000 .0413859 .0521485
_cons | -350.1704 101.8034 -3.440 0.001 -550.0112 -150.3296
------------------------------------------------------------------------------
For 86 households, HEQ was 0. (The tabulation has been confined to small values of HEQ. Here is an OLS regression with the constrained observations dropped. The estimate of the
We are only interested in finding out how many actually had HEQ = 0.) slope coefficient is almost the same, just a little lower.
32 34
EJEMPLO
3. MODELO TOBIT
. tobit HEQ EXP, ll(0)
Tobit Estimates Number of obs = 869 LIMITACIONES
chi2(1) = 315.41
Prob > chi2 = 0.0000
Log Likelihood = -6911.0175 Pseudo R2 = 0.0223 • El modelo Tobit requiere normalidad y homocedasticidad. Si
cualquiera de estos dos supuestos valla, es difícil saber qué
------------------------------------------------------------------------------
HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval] estaríamos estimando si utilizásemos MV Tobit.
---------+--------------------------------------------------------------------
EXP | .0520828 .0027023 19.273 0.000 .0467789 .0573866
_cons | -661.8156 97.95977 -6.756 0.000 -854.0813 -469.5499 • No obstante, si estos supuestos no se cumplen, pero no nos
---------+-------------------------------------------------------------------- alejamos mucho de ellos, el modelo Tobit nos permite obtener
_se | 1521.896 38.6333 (Ancillary parameter) buenas estimaciones.
------------------------------------------------------------------------------
Obs. summary: 86 left-censored observations at HEQ<=0
783 uncensored observations
• En un modelo Tobit, suponemos que cada xj tiene el mismo
efecto sobre P(y>0|x) que sobre E(y|y>0,x)…. Fijaos que sólo se
estima un vector de parámetros. Esta restricción es poco realista.
• Este último problema puede resolverse planteando un modelo en
Here is the TOBIT regression. dos partes (a two-part model) en el cual P(y>0|x) and E(y|y>0,x)
tengan diferentes parámetros.
35
EJEMPLO
4. SESGO DE SELECCIÓN MUESTRAL
. tobit HEQ EXP, ll(0)
------------------------------------------------------------------------------
HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval] Ocurre cuando una parte de la población objetivo –con características
---------+-------------------------------------------------------------------- particulares- es excluida del muestreo.
EXP | .0520828 .0027023 19.273 0.000 .0467789 .0573866
_cons | -661.8156 97.95977 -6.756 0.000 -854.0813 -469.5499
---------+-------------------------------------------------------------------- ¿Cuando hay riesgo de sesgo de selección?
_se | 1521.896 38.6333 (Ancillary parameter)
------------------------------------------------------------------------------ – Cuando seleccionamos de forma intencionada (no aleatoria) para que
. reg HEQ EXP confirme nuestras opiniones.
------------------------------------------------------------------------------
---------+-------------------------------------------------------------------- – Cuando la población objetivo no está bien definida: cuando se analiza
EXP | .0471546 .0025065 18.813 0.000 .042235 .0520742 una encuesta de intención de voto, como se define la población objetivo:
_cons | -397.2088 89.44449 -4.441 0.000 -572.7619 -221.6558 votantes de las elecciones pasadas que votarán en esta.
------------------------------------------------------------------------------
. reg HEQ EXP if HEQ>0
– Cuando no incluimos a toda la población objetivo en el universo
------------------------------------------------------------------------------
muestral.
---------+--------------------------------------------------------------------
EXP | .0467672 .0027414 17.060 0.000 .0413859 .0521485 – Cuando la no- respuesta es relevante y los borramos de la muestra final.
_cons | -350.1704 101.8034 -3.440 0.001 -550.0112 -150.3296
------------------------------------------------------------------------------
– Cuando la muestra está basada en participantes voluntarios.
We see that the coefficient of EXP is indeed larger in the tobit analysis, confirming the
downwards bias in the OLS estimates. In this case the difference is not very great. That is
because only 10 percent of the observations were constrained.
37
4. SESGO DE SELECCIÓN MUESTRAL 4. SESGO DE SELECCIÓN MUESTRAL
EJEMPLO EJEMPLO
Informe Hite (1976): Women and Love: A cultural revolution in progress
• Muestra obtenida con autoselección: los cuestionarios se enviaron
por correo y las receptoras decidieron voluntariamente si los cubrían o
– 84% of women are not satisfied emotionally with their no, es decir, decidieron voluntariamente estar en la muestra o no -
relationship - 100.000 entrevistas enviadas; 4500 recibidas
– 70% of all women married five or more years are having
sex outside their marriage • Los cuestionarios se remitieron a asociaciones de mujeres
– 95% of women report forms of emotional and - Los puntos de vista de mujeres asociadas a un grupo
psycological harassment from men with whom they are particular pueden ser diferentes de los del resto de mujeres.
in love relationship
– 84% of women reports forms of condescension from the •Los cuestionarios tenían 130 preguntas y cada una de ellas
men in their love relationship incluía varios apartados:
- Muchas preguntas eran poco precisas por ejemplo en la
forma de utilizar la palabra “amor”
- Muchas sugerían claramente lo que la entrevistada debía
responder
EJEMPLO EJEMPLO
• Aunque fue un “best seller”, fue duramente criticado: La justificación de Shere Hite:
“Does research that is not based on a probability or random
– El error más grave fue generalizar estos resultados a
sample give one the right to generalize from the results of the study
todas las mujeres, hayan o no participado en la encuesta. to the population at large? If a study is large enough and the sample
broad enough, and if one generalizes carefully, yes”
– ¿Por qué no puede utilizarse la información en la que se
basa este informe para generalizar?
Pregunta: Si realizo una encuesta sobre la eutanasia y encuesto a
personas en iglesias u otros lugares de culto: ¿Puedo generalizar
los resultados de la encuesta a toda la población?
Supongamos de nuevo que estamos interesados en una variable latente:
yi* = x 'i β + u
Tema 5 Sin embargo, esta vez en vez de suponer que y* se observa cuando y*
> 0, suponemos que y* es observa en función del valor de una
MODELOS CENSURADOS, TRUNCADOS Y CON segunda variable latente z* tal que:
SELECCIÓN MUESTRAL
z i* = w 'i α + v
(2ª parte)
En este caso, y sólo se observa si zi* > 0. Además, suponemos que
el modelo está basado en el siguiente criterio de observabilidad
1 if zi* > 0
zi =
0 if zi* ≤ 0
4. SESGO DE SELECCIÓN MUESTRAL (cont.) 4. SESGO DE SELECCIÓN MUESTRAL
Las dos ecuaciones anteriores constituyen lo que se conoce como
Modelo Tobit tipo II. Este modelo difiere del Tobit estándar (o Tobit
• Si la selección muestral es completamente aleatoria, las Tipo I) en dos aspectos:
estimaciones MCO son insesgadas.
• En el modelo Tobit tipo I, la variable dependiente es censurada.
• Si la selección muestral está en función de variables explicativas En el modelo Tobit tipo II, no observamos “y” si z = 0, pero “y” puede
observadas e inobservadas que son independientes de X y U,
entonces MCO también es consistente. tomar valores positivos o negativos si z = 1.
• Si las variables que determinan la selección muestral están • Las variables de selección “w” no tienen por qué ser idénticas a las
correlacionadas con el término de error, entonces MCO es que contiene “x” [en general se supone que “w” contiene al menos
inconsistente: una variable que no aparece en “x”]
– Datos truncados: por ejemplo, si en el modelo Tobit sólo La media condicional de la variable “y” se puede expresar:
nos quedamos con las observaciones para las que y>0
– Truncamiento incidental: en este caso, no observamos la
( )
E yi z i* > 0 = E ( yi z i = 1) = E ( yi v i > − w 'i α )
= x i β + E (ui v i > − w 'i α )
variable “y” porque está en función del valor que tome otra
variable.
Si suponemos que (u, v) proceden de una distribución Normal bivariante: Por tanto:
ui 0 σ u2 ρσ u
~N , ( y i z i = 1) = x i ' β + β λ λi + ε i
vi 0 ρσ u σ v2
Esta es la motivación que está detrás de PROCEDIMIENTO HECKMAN
donde ρ es la correlación entre “u” y “v”, entonces: EN DOS ETAPAS (o HECKIT).
φ (w 'i α )
E (ui v i > − w 'i α ) = ρσ u
Φ (w 'i α )
Por tanto,
φ (w 'i α ) ETAPA 1: Estimar un modelo PROBIT de “z” en función de “w” para la
E ( yi z i = 1) = x 'i β + ρσ u muestra total. A partir de las estimaciones de α, obtener el ratio inverso de
Φ (w 'i α ) Mills:
= x i β + ρσ u λi φ (w i 'αˆ )
λˆi =
Φ (w i 'αˆ )
φ (w 'i α )
donde λi = ETAPA 2: Utilizando los datos de la muestra con selección, es decir, las
Φ (w 'i α ) observaciones para las que z = 1, estimamos β and βλ por MCO:
Si suponemos σu = 1 (por razones de identificación), esto implica:
yi = x i ' β + β λ λˆi + ε i
E ( yi z i = 1) = x i ' β + ρλi
Si λ̂i es significativo, entonces H 0 : β λ = 0 y, por tanto, H 0 : ρ = 0
= x i ' β + β λ λi puede ser rechazada, lo que implica que hay SESGO DE SELECCIÓN
MUESTRAL.
EJEMPLO: Sesgo de selección muestral
4. SESGO DE SELECCIÓN MUESTRAL heckman LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0, select(S AGE CHILDL06
CHILDL16 MARRIED ETHBLACK ETHHISP)
RECAPITULEMOS, partiendo de la variable latente
yi* = x i ' β + u En este caso, vamos a estimar le modelo por MÁXIMA VEROSIMILITUD una función de
salarios con selección en participación. La muestra incluye 2,661 mujeres, de las cuales
El modelo Tobit (tipo I) se derivaría: 2,021 tenían salarios en 1994.
La variable de selección es SELECT, que toma valor 1 si la mujer trabaja y 0 si no trabaja.
yi* = xi ' β + u if yi* > 0
yi =
0 if yi* ≤ 0 S= años de escolarización
ASVABC = resultado de un test de inteligencia
El modelo Tobit (tipo II) se derivaría: ETHBLACK = 1 si es afroamericana
yi* = xi ' β + u if z i* > 0 ETHBLACK = 1 si es hispana
yi = CHILDL06 = 1 si el tiene hijos menores de 6 años.
0 if z i* ≤ 0 CHILDL16 = 1 si tiene hijos entre 7 y 15 años.
MARRIED = 1 si está casada.
1 if zi* > 0
donde z i* = w i 'α + v zi =
0 if zi* ≤ 0
19
4. SESGO DE SELECCIÓN MUESTRAL Heckman selection model
(regression model with sample selection)
Number of obs
Censored obs
=
=
2661
640
Uncensored obs = 2021
Wald chi2(4) = 714.73
Log likelihood = -2668.81 Prob > chi2 = 0.0000
Hay dos formas de estimar un modelo con selección: ------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
LGEARN |
S | .095949 .0056438 17.001 0.000 .0848874 .1070106
ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119
-MÉTODO EN DOS ETAPAS DE HECKMAN ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722
- Sencillo ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777
_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202
- Estimaciones ineficientes ---------+--------------------------------------------------------------------
select |
S | .1041415 .0119836 8.690 0.000 .0806541 .1276288
AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572
- MÁXIMA VEROSIMILITUD CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064
- Sencillo si está implementado en el software utilizado (Eviews no) CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579
MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412
- Estimaciones eficientes ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222
ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292
_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206
---------+--------------------------------------------------------------------
El número de mujeres que trabajan / no trabajan aparece arriba.
25
EJEMPLO: Sesgo de selección muestral EJEMPLO: Sesgo de selección muestral
Heckman selection model Number of obs = 2661 Heckman selection model Number of obs = 2661
(regression model with sample selection) Censored obs = 640 | Coef. Std. Err. z P>|z| [95% Conf. Interval]
Uncensored obs = 2021 ---------+--------------------------------------------------------------------
Wald chi2(4) = 714.73 select |
Log likelihood = -2668.81 Prob > chi2 = 0.0000 S | .1041415 .0119836 8.690 0.000 .0806541 .1276288
------------------------------------------------------------------------------ AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572
| Coef. Std. Err. z P>|z| [95% Conf. Interval] CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064
---------+-------------------------------------------------------------------- CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579
LGEARN | MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412
S | .095949 .0056438 17.001 0.000 .0848874 .1070106 ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222
ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119 ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292
ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722 _cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206
ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777 ---------+--------------------------------------------------------------------
_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202 /athrho | 1.01804 .0932533 10.917 0.000 .8352669 1.200813
---------+-------------------------------------------------------------------- /lnsigma | -.6349788 .0247858 -25.619 0.000 -.6835582 -.5863994
select | ---------+--------------------------------------------------------------------
S | .1041415 .0119836 8.690 0.000 .0806541 .1276288 rho | .769067 .0380973 .683294 .8339024
AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572 sigma | .5299467 .0131352 .5048176 .5563268
CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064 lambda | .4075645 .02867 .3513724 .4637567
CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579 ------------------------------------------------------------------------------
MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412 LR test of indep. eqns. (rho = 0): chi2(1) = 32.90 Prob > chi2 = 0.0000
ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222 ------------------------------------------------------------------------------
ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292 Una forma alternativa de contastar esta hipótesis es comparar las log-likelihood para el
_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206 modelo restringido (en el que ρ es 0) y el modelo sin restringir que acabamos de estimar.
---------+--------------------------------------------------------------------
En la parte de arriba aparece la estimación de la ecuación de salarios una vez que hemos El estadístico de contrastes LR= 2 (log LU – log LR), se distribuye, bajo H0, como una chi-
controlado por la selección. cuadrado con 1 grado de libertad.
El resultado del Probit para la parte de selección aparece al abajo. En este ejemplo el valor del estadístico es 32.90. El p-valor muestra que rechazamos la
27 hipótesis nula.
32
EJEMPLO: Sesgo de selección muestral EJEMPLO: Sesgo de selección muestral
Heckman selection model Number of obs = 2661
| Coef. Std. Err. z P>|z| [95% Conf. Interval] . heckman LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0, select(S AGE CHILDL06
---------+-------------------------------------------------------------------- CHILDL16 MARRIED ETHBLACK ETHHISP)
select | ------------------------------------------------------------------------------
S | .1041415 .0119836 8.690 0.000 .0806541 .1276288 | Coef. Std. Err. z P>|z| [95% Conf. Interval]
AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572 ---------+--------------------------------------------------------------------
CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064 LGEARN |
CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579 S | .095949 .0056438 17.001 0.000 .0848874 .1070106
MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412 ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119
ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222 ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722
ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292 ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777
_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206 _cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202
---------+-------------------------------------------------------------------- ---------+--------------------------------------------------------------------
/athrho | 1.01804 .0932533 10.917 0.000 .8352669 1.200813
/lnsigma | -.6349788 .0247858 -25.619 0.000 -.6835582 -.5863994 . reg LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0
---------+-------------------------------------------------------------------- ------------------------------------------------------------------------------
rho | .769067 .0380973 .683294 .8339024 LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]
sigma | .5299467 .0131352 .5048176 .5563268 ---------+--------------------------------------------------------------------
lambda | .4075645 .02867 .3513724 .4637567 S | .0807836 .005244 15.405 0.000 .0704994 .0910677
------------------------------------------------------------------------------ ASVABC | .0117377 .0014886 7.885 0.000 .0088184 .014657
LR test of indep. eqns. (rho = 0): chi2(1) = 32.90 Prob > chi2 = 0.0000 ETHBLACK | -.0148782 .0356868 -0.417 0.677 -.0848649 .0551086
------------------------------------------------------------------------------ ETHHISP | .0802266 .041333 1.941 0.052 -.0008333 .1612865
En la parte final de la salida aparece la información necesaria para contrastar si existe _cons | 5.223712 .0703534 74.250 0.000 5.085739 5.361685
sesgo de selección muestral. RHO es la estimación del coeficiente de correlación entre ε ------------------------------------------------------------------------------
and u. Aquí da 0.77.
Resulta interesante comparar la ecuación de salarios estimada por el método de HECKMAN
Por razones técnicas, ρ se estima indirectamente mediante atanh ρ. Sin embargo,
con la estimación por MCO. Los coeficientes estimados son bastante similares, a pesar de
contrastar H0: atanh ρ = 0 es equivalente a contrastar H0: ρ = 0.
que MCO es inconsistente (porque los contrastes anteriores nos han permitido corroborar
El estadístico de contraste es 10.92 y, por tanto, rechazamos la hipótesis nula. 28 que tenemos un problema de SESGO DE SELECCIÓN MUESTRAL). 34
Heckman selection model
(regression model with sample selection)
Number of obs
Censored obs
=
=
2661
640
Uncensored obs = 2021
Wald chi2(4) = 714.73
Log likelihood = -2668.81 Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval] Este modelo fue propuesto por Cragg (1973) utilizando como ejemplo la
---------+--------------------------------------------------------------------
LGEARN | demanda de bienes durables (coches, frigoríficos…).
S | .095949 .0056438 17.001 0.000 .0848874 .1070106
ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119
ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722 La compra de este tipo de bienes sugiere la siguiente estructura de
ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777 decisión:
_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202
---------+--------------------------------------------------------------------
select | (1) ¿Quieres comprar el bien o no?
S | .1041415 .0119836 8.690 0.000 .0806541 .1276288
AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572
CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064 (2) Si quieres comprar el bien, ¿puedes disponer del dinero suficiente para
CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579 hacerlo o no?
MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412
ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222
ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292 Si pasas estas dos “vallas”, entonces tenemos el valor del gasto realizado.
_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206
---------+--------------------------------------------------------------------
ANALICEMOS EL EFECTO DE LA EDUCACIÓN: ¿POR QUÉ EL COEFICIENTE DEL MODELO
CON SELECCIÓN ES MAYOR QUE EL DE MCO?
36
Para comparar estos tres modelos, vamos a ver cómo se modeliza la
oferta laboral (número de horas trabajadas) en cada uno de los casos:
• MODELO TOBIT ESTÁNDAR:
Un tercer tipo de modelo es el “Double Hurdle Model”. En este caso, la La oferta laboral de los individuos sólo se observa si trabajanmodel of
variable que observamos sigue la siguiente regla: labour supply individuals are observed to work if and only if their hours
worked are positive.
• MODELO HECKIT: La decisión de “participar / no participar” en el
y = x 'β + u
*
if z i* > 0 and y*i > 0 mercado laboral se modeliza de forma separada al número de horas que
yi = i i
trabajan, los que participan.
0 otherwise La ecuación que especifica la decisión binaria de participar ecuación de
selección) puede incluir variables que afectan a las horas trabajadas y
variables que no tienen efecto sobre esa segunda parte de la decisión.
La “doble valla” (Double-Hurdle) se denomina así porque, en cierto
sentido, hay dos vallas que pasar antes de que se observe un valor • MODELO DOBLE VALLA: Antes de decidir el número de horas, se deben
estrictamente positivo de la variable dependiente. pasar dos decisiones previas (es decir, hay más de un motivo para que el
individuo no trabaje):
-¿Quieres trabajar o no?
- Si quieres trabajar ¿puedes encontrar trabajo o no?

Tema Selection2

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tema Selection2

Caricato da

Copyright:

Formati disponibili

ECONOMETRÍA II

Prof.: Begoña Álvarez 1. MUESTRAS Y POBLACIÓN

Source | SS df MS Number of obs = 869

Potrebbero piacerti anche