Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
UNIDAD VI
VARIABLES DICOTOMICAS
MODELOS DE ANLISIS
DE VARIANZA
SMODELOS DE ANLISIS DE
COVARIANZA (ANCOVA)
COMPETENCIAS A LOGRAR
CONCEPTUAL
Explica que es una
variable
dicotmica,
clases de modelo con
variables
dicotmicas,
modelos de anlisis de
varianza y de covarianza.
PROCEDIMENTAL
ACTITUDINAL
Aplica las tcnicas de Tiene una actitud crtica
variables dicotmicas en respecto a la naturaleza
un anlisis de regresin, cualitativa de la variable.
como
medio
de
introducir
regresoras
cualitativas.
CONCEPTOS CLAVE
Dicotmicas, varianza, covarianza.
289
LECCIN 1
LOS MODELOS CON VARIABLES DICOTMICAS O DUMMY
1. VARIABLES DICOTMICAS
En los modelos de regresin se encuentran situaciones en los cuales las variables
explicativas cambian bruscamente su impacto en aquella que es la variable endgena y
que la naturaleza de ese cambio, no se puede atribuir a una variable que sea medible.
Por ejemplo, un cambio de gobierno, para la realizacin de modelos macroeconmicos;
un cambio sistemtico en el comportamiento de una serie histrica mensual debido a
factores estacionales; un cambio brusco en la demandas de un producto debido a una
especulacin con su precio futuro. Esta variable explicativas de naturaleza cualitativa
puede modelizarse, aplicando dos valores: cero (0) y uno (1).
La introduccin de estas variables en los modelos se origina cuando junto a variables
explicativas cuantitativas (Ingreso, precio, costo, produccin, etc.) se incluyen variables
explicativas de naturaleza cualitativa tales como: educacin, raza, sexo, religin, etc.;
las cuales son conocidas como variables dummy.
En efecto, una variable de naturaleza cualitativa indica la presencia o la ausencia de una
cualidad o atributo, tales como estacionalidad; cambio en la poltica econmica;
cambio en las expectativas; de tal manera que junto con variables explicativas
cuantitativas (Ingreso, precio, costo, produccin, etc.) se agregan stas variables
asignando el valor uno, que indica presencia del atributo o el valor cero, que indica
ausencia del atributo.
2. CLASES DE MODELOS CON VARIABLE DICOTOMAS
a. Modelos de Anlisis de Varianza
b. Modelos de Anlisis de Covarianza
a. Modelos de Anlisis de Varianza
Son aquellos modelos de regresin que contienen exclusivamente variables
dictomas, o cualitativas por naturaleza, por ejemplo:
Yi = + D i + i
Donde:
Y: Salario anual de un empleado en el sector privado
Di =
1 Si es hombre
0 (Si no es hombre). Si es mujer
Bajo la hiptesis de que las perturbaciones satisfacen los supuestos del modelo se
obtiene:
290
MODELOS DE ANLISIS DE
VARIANZA
MODELOS DE ANLISIS DE
COVARIANZA
291
LECCIN 2
MODELOS DE ANLISIS DE COVARIANZA (ANCOVA)
Utilizan Variables Cuantitativas y Cualitativas simultneamente y es de mayor
aplicacin en los modelos de regresin de investigaciones econmicas, tal es el caso del
modelo:
Yi = 1 + 2 D i + 1X i + 2 D i X i + i
(1)
Donde:
Yi = Salario anual de un profesor universitario
Xi = Aos de experiencia del docente (Variable cuantitativa)
1 si es hombre
Di =
0 si es mujer
De (1):
El salario promedio de una profesora universitaria:
= + X
E Yi
1
i
X i , Di = 0
= ( + ) + X
E Yi
1
2
i
X i , Di = 1
Se puede apreciar con el grfico.
292
UNA
1 recesin
0 normalidad
Dt = Condicin
Hiptesis
CASO 1
C t = 0 + 2 Yt + t
(C t D t = 1) = 0 + 1 + 2 Yt
En poca de normalidad
(C t D t = 0 ) = 0 + 2 Yt
La asignacin de los valores 0 y 1 a las categoras es arbitraria, es decir puede darse el
caso que D t = 0 la cual indicara la condicin de normalidad, aunque no
necesariamente el valor de cero indica normalidad, todo depender de las
consideraciones iniciales al formar el modelo.
En el modelo inicialmente planteado, se espera que el consumo promedio en poca de
recesin sea menor que en poca de normalidad, es decir:
C t = 0 + 1 D t + 2 Yt + t , en donde 1 debe tener signo negativo, pero si se
considera:
con D t
0 recesin
1 normalidad
C t = 0 + 2 Yt + 3 (D t Yt ) + t
poca de normalidad
(C t D t = 0 ) = 0 + 2 Yt
En este caso se supone que los consumos promedios no varan para cualquier realidad,
sino ms bien se dan variaciones en la Tasa de Cambio del Consumo al variar el
Ingreso.
En efecto; aceptando que se consume menos en poca de recesin, se tiene que:
( 2 + 3 )Yt 2 Yt , es decir que las variaciones en el consumo en poca de recesin,
sern inferiores a la poca de normalidad, cuando se presenten variaciones en el
Ingreso.
COMBINACIN DEL CASO 2 Y CASO 3 (Modelo Aditivo y Multiplicativo)
C t = 0 + 1 D t + 2 Yt + 3 (D t Yt ) + t
En poca de normalidad:
(C t D t = 0 ) = 0 + 2 Yt
( 0 + 1 ) 0
( 2 + 3 )Yt 2 Yt
Para efectos de prediccin se elegir el que presente mayor R2 ajustado porque da una
mayor bondad de ajuste, no sin antes de realizar las pruebas t para cada variable
dummy ( 1 D t ) y ( 3 D t ) a fin de verificar si la situacin de recesin o de normalidad
influye en el consumo.
2. REGLAS DE USO DE LA VARIABLE DICTOMA
a. Cuando una variable tiene dos categoras, se debe introducir una sola variable
dictoma a fin de evitar la multicolinealidad. Por ejemplo:
Sea el estudio del ingreso en funcin del sexo y color de la persona y de sus aos de
experiencia:
El Ingreso del profesor (Yi) en funcin de sus aos de experiencia (Xi) y si es hombre
o mujer (D1i), o si es blanco o negro (D2i), con lo cual el modelo ser:
Y = 0 + 1D1i + 2 D 2 i + 3 X i + i , siendo:
D1i
1 Si es hombre
0 Si es mujer
D 2i
1 Si es blanco
0 Si es negro
295
Ejercicio Ilustrativo 1:
Se tiene un modelo con una variable cuantitativa y una variable cualitativa con ms de 2
categoras:
Y: Gasto en educacin y cultura
D: Educacin
Educacin Superior
Secundaria
Menos de Educacin secundaria
Y = 0 + 1 D 1i + 2 D 2i + 1 X i + 2 D 3i X i + i
Donde:
Y: Gasto promedio anual de un Trabajador en Educacin y Cultura
0 : Gasto mnimo en educacin
D1
1 Nivel Superior
D 2 0 No tiene nivel superior
Interpretacin:
0 = 60 , el gasto mnimo en educacin y cultura es de S/.60
1 = 10.2 , por cada incremento en los gastos mnimos de educacin, los que no tienen
nivel superior (poseen hasta educacin secundaria) le destinan S/.10.2.
2 = 20.3 , por cada incremento en los gastos mnimos de educacin, los que tienen
nivel superior le destinan S/.20.3.
1 = 0.3 , por cada incremento de S/.1.00 en el Ingreso, 0.3 se destina a gastos en
educacin y cultura.
296
2 = 0.1 , los que tienen nivel de instruccin superior por cada aumento de S/.1.00 en el
Ingreso, la propensin marginal a gastar en educacin se incrementa en 0.1.
Ejercicio Ilustrativo 2 1
Una empresa utiliza dos tipos de procesos productivos (mquina A y mquina B) para
obtener su producto final.
E(Yi ) = 1
(1 + 2 )
si D i = 0
si D i = 0
O tambin
E ( Yi / D i = 0) = 1
E ( Yi / D i = 1) = (1 + 2 )
Como la pendiente 2 mide la diferencia del producto final asociado con el cambio de la
mquina B a la mquina A, la prueba de la hiptesis nula: 2 = 0 nos mostrar si hay o
no diferencia en el producto asociado con la mquina A y B.
Ejercicio Ilustrativo 3:
297
298
Periodo: 1970-2001
Donde:
CPt: Consumo Privado
PBIt: Producto Bruto Interno (Ingreso)
Se incorpora la variable Dt, el cual representa el perodo de hiperinflacin que se
registr en el Per (1988-1991). Se determinar si este suceso afecto significativamente
el consumo privado, ya sea afectando el consumo autnomo o por cambios en el nivel
del ingreso.
D t = 1 periodo 1988 1991
0 periodo 1970 1987 , 1992 2001
1 Forma (intercepto)
CPt = 0 + 1 D t + 1 PBI t + t
Dependent Variable: CP
Method: Least Squares
Date: 07/09/02 Time: 10:09
Sample: 1970 2001
Included observations: 32
Variable
t-Statistic
Prob.
C
D1
PBI
8080.718
-1368.771
0.663491
1686.849 4.790421
840.4809 -1.628557
0.017074 38.86049
0.0000
0.1142
0.0000
R-squared
Adjusted R-squared
S.E. of regresin
Sum squared resid
Log likelihood
Durbin-Watson stat
0.981204
0.979908
1565.768
71097299
-279.2272
1.034595
67568.47
11046.32
17.63920
17.77661
756.9578
0.000000
299
Dependent Variable: CP
Method: Least Squares
Date: 07/09/02 Time: 10:17
Sample: 1970 2001
Included observations: 32
Variable
t-Statistic
Prob.
C
PBI
D1*PBI
6700.907
0.680595
-0.017166
1580.694 4.239220
0.020027 33.98387
0.009474 -1.811858
0.0002
0.0000
0.0804
R-squared
Adjusted R-squared
S.E. of regresin
Sum squared resid
Log likelihood
Durbin-Watson stat
0.981572
0.980301
1550.400
69708439
-278.9116
1.044042
67568.47
11046.32
17.61947
17.75689
772.3282
0.000000
t-Statistic
Prob.
C
D1
PBI
D1*PBI
-16794.63
23992.37
0.947738
-0.289525
10238.90 -1.640276
10346.59 2.318867
0.116707 8.120687
0.117785 -2.458077
0.1121
0.0279
0.0000
0.0204
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.984540
0.982884
1445.167
58478233
-276.1009
1.184912
67568.47
11046.32
17.50631
17.68952
594.3926
0.000000
En este tercer caso, podemos observar que las variables D1 y D1*PBI se vuelven
significativas, bajo un nivel de confianza del 5%, es decir que el perodo de
hiperinflacin si influyeron en el consumo privado.
300
Prob.
0.0010
0.0070
1275.125
153.2592
12.52271
12.62088
14.40032
0.000994
301
PERODO
1993:1
1993:2
1993:3
1993:4
1994:1
1994:2
1994:3
1994:4
1995:1
1995:2
1995:3
1995:4
D1
0
1
0
0
0
1
0
0
0
1
0
0
D2
0
0
1
0
0
0
1
0
0
0
1
0
D3
0
0
0
1
0
0
0
1
0
0
0
1
PERODO
1996:1
1996:2
1996:3
1996:4
1997:1
1997:2
1997:3
1997:4
1998:1
1998:2
1998:3
1998:4
D1
0
1
0
0
0
1
0
0
0
1
0
0
D2
0
0
1
0
0
0
1
0
0
0
1
0
D3
0
0
0
1
0
0
0
1
0
0
0
1
Donde:
1, para el segundo trimestre
D1 =
0, otros trimestres
1, para el tercer trimestre
D2 =
0, otros trimestres
1, para el cuarto trimestre
D3 =
0, otros trimestres
Entonces primero se genera las variables D1, D2 y D3, luego regresionamos el modelo
obtenindose
Dependent Variable: UTILIDADES
Method: Least Squares
Date: 07/26/02 Time: 11:48
Sample: 1993:1 1998:4
Included observations: 24
Variable
t-Statistic
Prob.
C
D1
D2
D3
VENTAS
571.0152
91.93412
-26.38616
7.572313
0.045009
191.0858 2.988266
71.29894 1.289418
70.60469 -0.373717
73.06518 0.103638
0.012819 3.511030
0.0076
0.2127
0.7128
0.9185
0.0023
R-squared
Adjusted R-squared
S.E. of regresin
Sum squared resid
Log likelihood
Durbin-Watson stat
0.482461
0.373506
121.3068
279591.4
-146.4109
0.612021
1275.125
153.2592
12.61757
12.86300
4.428055
0.010699
302
De las salidas de la regresin podemos observar que slo las ventas y el intercepto son
significativos, ya que sus probabilidades asociadas son inferiores al 5%. Por lo tanto se
concluye que no hay ningn factor estacional operando.
Ejercicio aplicativo 3:
a. Variable Cualitativa con dos categoras:
Coeficiente del Intercepto Diferencial: dice qu tanto difiere el valor del trmino de
intercepto de la categora que recibe el valor de 1 del coeficiente de la categora base
(valor 0). Se prueba si las diferencias son significativas.
Con informacin de la Encuesta de Hogares del ao 1999 se corri un modelo de los
aos de estudios en funcin del rea urbana y rural.
Dependent Variable: ANOEST
Method: Least Squares
Included observations: 7305
Variable Coefficient Std. Error t-Statistic
Prob.
C
4.614264 0.083701 55.12819 0.0000
AREA
4.585217 0.105169 43.59842 0.0000
Los que estn en el rea urbana tienen 4.58 aos ms de estudios de los que habitan
en el rea rural
b. Variable Cualitativa con ms de dos categoras
t-Statistic
54.27669
20.53907
4.194097
-3.614737
Prob.
0.0000
0.0000
0.0000
0.0003
La interpretacin sera los que estn en la sierra tienen 0.5 menos aos de estudios de
los que habitan en la selva. Los que estn en la costa tienen 067 aos de estudio ms
que los que habitan en la selva. Los que estn en Lima tienen 3.5 aos de estudio
ms que los habitantes de la selva.
303
Ejercicio de autoconocimiento
Porqu hacer uso de las variables dummy?
SI
NO
NO S
variables
CALIFICACION
304
RESUMEN
Las variables explicativas de naturaleza cualitativa tales como: educacin, raza, sexo,
religin, etc.; son conocidas como variables dummy.
Esta variable explicativas de naturaleza cualitativa puede modelizarse, aplicando dos
valores: cero (0) y uno (1).
Una variable de naturaleza cualitativa indica la presencia o la ausencia de una
cualidad o atributo, tales como estacionalidad; cambio en la poltica econmica;
cambio en las expectativas; de tal manera que junto con variables explicativas
cuantitativas (Ingreso, precio, costo, produccin, etc.) se agregan stas variables
asignando el valor uno, que indica presencia del atributo o el valor cero, que indica
ausencia del atributo.
Las clases de modelos con variable dicotmicas son:
Modelos de Anlisis de Varianza
Modelos de Anlisis de Covarianza
Modelos de Anlisis de Varianza, son aquellos modelos de regresin que contienen
exclusivamente variables dictomas, o cualitativas por naturaleza.
Modelos de Anlisis de Covarianza (ANCOVA), utilizan Variables Cuantitativas y
Cualitativas simultneamente y es de mayor aplicacin en los modelos de regresin de
investigaciones econmica.
EXPLORACIN ON LINE
Demostracin del mtodo de ponderacin de referenciales por medio del Anlisis de
Regresin Logstica Mltiple para el caso de variables dicotmicas.
http://www.monografias.com/trabajos5/ponde/ponde.shtml.
Intervalos de confianza para variables dicotmicas
http: //www.medprev.uma.es/libro/node1o7.htm-5K
Asociacin de variables cualitativas (variables dicotmicas).
http: //www.fisterra.com/mbe/investiga/chi/chi.asp.
305
LECTURA:
306
ACTIVIDADES
1. Se quiere estudiar la dependencia de los aos de educacin respecto de la renta
familiar y la procedencia socio-geogrfica, para lo que se dispone de la siguiente
muestra:
Y
10
12
8
12
9
6
5
4
6
4
5
5
X1
urbana
urbana
urbana
urbana
urbana
urbana
rural
rural
rural
rural
rural
rural
X2
800
1300
900
1200
1600
1300
900
300
700
500
600
100
Siendo:
Y : Aos de educacin
X1 : Procedencia socio-geogrfica
X2 : Renta
a. Especifique a un modelo que explique la duracin de la educacin en base a la
informacin disponible.
b. Estima los parmetros del modelo propuesto con la muestra dada y calcule el
coeficiente de determinacin
c. Contraste las siguientes hiptesis:
La renta familiar no es una variable significativa.
La variable procedencia socio-geogrfica no es significativa.
2.
Donde:
Yi : Sueldos de Lima Metropolitana en nuevos soles reales .
X : PBI en valores constantes base 1979.
X2 : ndice de precios al consumidor anual de Lima Metropolitana, base 1979
X3: Variable ficticia de cambio de pendiente debido al incremento del ritmo
inflacionario.
Toma el valor: 0, antes de 1987.
Toma el valor: 1, luego de 1987.
Los valores de las observaciones se muestran a continuacin:
307
Ao
Yi
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
181.40
184.94
198.96
170.71
157.21
144.81
180.75
189.55
131.20
82.90
57.09
64.38
67.63
67.07
94.94
96.32
X1
3646.637
3807.715
3815.751
3334.220
3494.779
3573.928
3904.219
4234.711
3881.284
3428.614
3243.760
3334.495
3287.198
3497.230
3954.738
4233.069
X2
60.82
72.67
72.93
125.07
111.46
158.26
62.90
114.51
1722.32
2775.63
7649.64
139.23
56.73
39.48
15.38
10.23
Se pide:
a.
b.
c.
d.
e.
i=1,...,20
Yi = 0 + 1 D i + 1 X 1 + 2 X 2 + 3 D i X 2
Donde:
Yi: Sueldos de Lima Metropolitana en nuevos soles reales, bimensual desde 93-96
X1: PBI bimensual a precios constantes con base en 1979
X2: ndice de precios al consumidor anual de Lima Metropolitana, base 1979
Di: Variable ficticia de cambio de pendiente debido al incremento del ritmo
inflacionario.
Toma el valor: 0, antes de Febrero 1994
Toma el valor: 1, luego de Febrero1994
Se pide:
a. Hallar la ecuacin de regresin e interprete los parmetros estimados.
b. Probar la significancia estadstica de cada uno de los parmetros estimados, con
un nivel de confianza de 95% y establezca sus conclusiones.
c. Derivar las regresiones individuales e interprtelas.
d. Comparar las regresiones antes y despus de dic 1995 utilizando la prueba de
Chow.
Los valores de las observaciones se muestran a continuacin:
Ao
Febrero 93
Abril 93
Junio 93
Agosto 93
Octubre 93
Diciembre 93
Febrero 94
Abril l94
Junio 94
Agosto 94
Octubre 94
Diciembre 94
Febrero 95
Abril 95
Junio 95
Agosto 95
Octubre 95
Diciembre 95
Febrero 96
Abril 96
Junio 96
Agosto 96
Octubre 96
Diciembre 96
Yi
877.21
914.52
960.46
1084.43
1186.91
1300.13
1407.03
1513.04
1556.66
1563.41
1591.61
1685.42
1597.12
1618.23
1619.92
1675.94
1677.83
1674.12
1777.16
1778.25
1781.18
1785.21
1790.10
1795.25
X1
262.53
290.02
310.98
288.26
262.63
301.79
287.53
332.65
356.85
318.12
307.12
333.66
329.38
358.20
380.43
341.56
318.78
328.93
342.18
363.04
398.96
401.52
405.28
408.35
X2
1145.82
1247.24
1308.41
1378.31
1421.78
1480.87
1535.54
1595.50
1625.25
1664.85
1678.22
1708.69
1734.53
1775.65
1804.95
1834.08
1850.63
1883.46
1936.10
1979.93
2003.61
2049.92
2071.67
2106.46
309
AUTOEVALUACIN
1. Con la finalidad de tratar de explicar el nmero de personas empleadas en la
industria qumica se ha efectuado un muestreo a 100 empresas grandes y medianas,
siendo el modelo economtrico propuesto:
Y = 1 + 2 T + 3 E + 4 F
Donde:
Y: Nmero de empleados de una empresa (medido en cientos de personas)
T: Permite saber si la empresa incorpora los ltimos tecnolgicos (toma el valor de 1
si la empresa lo hace y cero en caso contrario).
E: Determina la presencia de empresas competidoras a los alrededores (toma el valor
de 1 si es que existen empresas competidoras en un radio de 50Km, ser cero en
cualquier otro caso).
F: Determina la presencia de alguna empresa complementaria en los alrededores
(toma el valor de 1 si es que existe una empresa de ese tipo, como por ejemplo la
farmacutica, en radio de 30Km
Dependent Variable: Y
Method: Least Squares
Date: 11/11/04 Time: 10:28
Sample: 1 100
Included observations: 100
Variable
Coefficient Std. Error t-Statistic Prob.
T
0.05002 0.037261
0.13562 0.1321
E
-2.40971 0.053112 -4.52226 0.0210
F
1.91120 0.612219 3.114754 0.0000
C
2.31987 0.991251 1.010578 0.1966
R-squared
0.639630 Mean dependent var 443.14
Adjusted R-squared 0.645999 S.D. dependent var 315.68
S.E. of regression
522.62 Akaike info criterion 2.22915
Sum squared resid
261.63 Schwarz criterion
2.26287
Log likelihood
-130.288 F-statistic
11.0525
Durbin-Watson stat 2.141804 Prob(F-statistic)
0.00000
310
311
a. Existe una influencia significativa del ingreso sobre el gasto en vivienda en las
zonas urbanas.
b. La influencia del ingreso en las zonas rurales es mayor que para los residentes
en las urbanas.
c. El efecto producido por la zona de residencia es el nico que es significativo en
la explicacin de l os gastos en vivienda.
d. Se tiene una influencia no significativa del nmero de miembros que componen
un hogar sobre el gasto en la zona urbana
4. Se posee informacin acerca de los ingresos del sector pblico (INGPUB), el PBI, el
ahorro privado (AHORRO), las importaciones (IMPORT) y las exportaciones
(EXPORT) del Per durante los aos de 1975-1998.
Con los datos disponibles se estim un modelo el cual relaciona los ingresos
pblicos con el PBI, las variables del sector exterior y el nivel de ahorro. Adems se
desea determinar si el efecto producido a partir del ao 1987 origin un cambio
estructural en dicha relacin.
Para poder el cambio estructural a partir de 1987, ser necesario considerar una
variable ficticia (F) la cual ser igual a 1 a partir de 1987 siendo cero en los aos
anteriores.
De los resultados mostrados a partir del uso de E-Views, indicar la alternativa
correcta:
Primer modelo: (no se considera la variable ficticia)
312
a. Para explicar el ingreso del sector pblico no es necesario hacer uso de una
variable ficticia.
b. El modelo estimado con el uso de la variable ficticia es ms adecuado en
comparacin con el otro ya que posee un coeficiente de determinacin ajustado
mayor.
c. El segundo obtenido es el mejor que se puede obtener.
d. El nico efecto que se debe eliminar del segundo modelo para explicar el gasto
son las exportaciones.
RESPUESTAS DE CONTROL
Rpta 1.d 2.d 3.a 4.b
313