Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
3
___________________
Regresin con variables cualitativas
1. Introduccin
Hasta ahora hemos abordado el tema de la correlacin y la regresin con variables
cuantitativas. Sin embargo, un estudio de regresin similar puede desarrollarse si
contamos con una variable -la variable X- que sea cualitativa de dos o ms categoras.
En esta circunstancia se trata de conocer la regresin de X (una variable que adopta
valores cualitativamente diferentes) sobre una variable Y cuya escala de medida es al
menos de intervalo.
El anlisis estadstico del contraste de medias (mediante el anlisis de la varianza)
puede ser interpretado como un anlisis de la regresin en el que la variable X es
cualitativa. Es ms, enfocar el anlisis de la varianza desde el punto de vista de la
regresin puede ser una ventaja que proporcione a dicho anlisis una mayor
generalidad.
2. Regresin con una variable dicotmica.
Supongamos que deseamos conocer en qu medida se relacionan sexo y habilidad
manual para realizar una tarea. La variable sexo es una variable cualitativa de dos
categoras dicotmica- y puede codificarse de forma arbitraria con los valores 0 y 1;
por ejemplo, 0 mujer y 1 varn. La variable habilidad se cuantifica a travs de un
instrumento determinado de forma cuantitativa. Supongamos que se obtienen los
siguientes resultados teniendo una muestra total de 8 sujetos, 4 varones y 4 mujeres:
Sujetos Sexo (X) Habilidad (Y)
1
0
20
2
0
36
3
0
26
4
0
22
5
1
49
6
1
40
7
1
47
8
1
48
Sumas
4
288
XY
0
0
0
0
49
40
47
48
184
45
SX =
288
= 36
Y =
8
SY =
(X X )
N 1
(Y Y )
N 1
= 0.53
= 11.96
XY
XY
rXY = N 1
S X SY
184
0.5 36
7
= 0.894
=
0.53 11.96
A partir del valor de correlacin calculado y bajo el supuesto que se cumplan los
supuestos requeridos, puede estimarse, bajo el mismo procedimiento que en el caso en
que ambas variables eran cuantitativas, la recta de regresin que define dicha relacin:
Y = a + bX
o bien:
Y = B0 + B1 X 1
donde
a = Y bX
b = rXY
SY
SX
11.96
= 20
0.53
a = 36 20 0.5 = 26
b = 0.89
Y = 26 + 20 X
Ntese que dado que la variable X adopta dos posibles valores, (O para varn y 1 para
mujer), las predicciones en Y en estas circunstancias son:
46
b=
Y 46 26
=
= 20
X
1 0
Y el parmetro a coincide justamente con la media del grupo que se codifica como 0,
en nuestro caso, el de varones. Es decir, la ordenada en el origen de la recta de regresin
del modelo pasa por el punto 26 que es el promedio de la habilidad manual en dicho
grupo.
Grficamente estas ideas pueden reflejarse si se dibuja la nube de puntos (en realidad
dos series de datos alineados verticalmente ver puntos rojos en la grfica-) y la
correspondiente recta de regresin en un eje de coordenadas:
50
Y1
40
Y
30
Y0
X
HABILIDA
20
10
0,0
1,0
2,0
SEXO
47
Y (46 26)
=
= 20
X
(1 0)
o lo que es lo mismo:
b = Y 1 Y 0 = 46 26 = 20
48
F=
0.894 2 / 1
= 23.7
(1 0.894 2 ) / 6
t=
2
S res
N
(X X )
que sustituyendo:
t=
20
= 4.87
33.67
2
49
F =t
Buscando en las tablas pertinentes el valor de p para estos estadsticos, se concluye que
la probabilidad de que la explicacin de los datos a partir del modelo lineal estimado sea
irrelevante es del .003. Es decir, aceptamos el modelo de regresin estimado como una
buena aproximacin de la explicacin de los datos, ya que la probabilidad de que no lo
sea es muy pequea (menor a .05). Por lo tanto, existe relacin significativa entre X e Y.
A nivel terico diremos que el sexo explica de forma relevante la diferencia existente en
la habilidad manual. El sentido de dicha relacin (atendiendo a los promedios
correspondiente a cada grupo) es el de que las mujeres muestran significativamente un
nivel de habilidad manual superior al de los varones en este tipo de tarea.
Por ltimo, resulta conveniente calcular la bondad de ajuste del modelo, esto es, la
valoracin de la proporcin de variacin explicada por el mismo respecto a la variacin
total de los datos. Como se sabe, nos estamos refiriendo a R 2 que es:
2
R 2 = rXY
Es decir:
R 2 = 0.894 2 = 0.80
O bien.
N
R2 =
SCexp li
SCtotal
(Y Y )
=
1
N
(Y
Y )2
800
= 0.80
1002
50
Modelo
1
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,894(a)
,798
,765
5,80230
Modelo
1
Suma de
cuadrados
gl
Media
cuadrtica
Sig.
800,000
800,000
23,762
,003(a)
Residual
202,000
33,667
Total
1002,000
Sig.
8,962
,000
4,875
,003
Regresin
Coeficientes no estandarizados
Modelo
1
Error tp.
(Constante)
26,000
2,901
SEXO
20,000
4,103
Coeficientes
estandarizados
Beta
,894
51
Mnimo
Mximo
Suma
Media
Desv. tp.
SEXO
,00
1,00
4,00
,5000
,53452
HABILIDA
20,00
49,00
288,00
36,0000
11,96423
ANOVA
Suma de
cuadrados
Media
cuadrtica
gl
Inter-grupos
800,000
800,000
Intra-grupos
202,000
33,667
1002,000
Total
F
23,762
Sig.
,003
Gl1
gl2
1
Sig.
6
,426
52
X1
X2
Sujetos
(guardera) (no familiar)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
Y
100
120
140
130
90
96
87
97
100
100
130
130
140
110
105
Medias
por
grupo
116
96
123
Tngase en cuenta que la introduccin de una tercera columna para representar la ltima de las
categoras de X contempladas, supondra una redundancia sobre la informacin precedente, es decir,
constituira una columna colineal (de informacin totalmente redundante) con las anteriores por lo que los
clculos de las estimaciones del modelo de regresin seran imposibles.
54
R
R cuadrado
,648a
,420
R cuadrado
corregida
,323
Error tp. de la
estimacin
15,03884
Como ya sabemos, este cuadro (resumen del modelo) informa que la proporcin de
variacin del nivel evolutivo de los nios por cuenta del tipo de cuidado que reciben en
periodo laboral es del .420. Adems, la relacin analizada es significativa (=.05),
puesto que la tabla de ANOVA siguiente proporciona un valor de F = 4.34, con una p =
.038<.05; es decir, el tipo de cuidado en periodo laboral incide significativamente sobre
el nivel evolutivo del nio.
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
1963,333
2714,000
4677,333
gl
2
12
14
Media
cuadrtica
981,667
226,167
F
4,340
Sig.
,038a
Modelo
1
(Constante)
guardera
casanfamiliar
Coeficientes no
estandarizados
B
Error tp.
123,000
6,726
-7,000
9,511
-27,000
9,511
Coeficientes
estandarizad
os
Beta
-,187
-,721
t
18,288
-,736
-2,839
Sig.
,000
,476
,015
123 es el nivel evolutivo esperado para los nios que puntan 0 tanto en X1
como en X2. Es decir, cuando no han sido cuidados ni en guardera ni por una
persona no familiar, por tanto para aquellos que han sido cuidados por el
progenitor:
Yprogenitor = 123.00 7.00 (0) 27.00(0) = 123
(-7) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 1
en X1 y 0 en X2, es decir, cuando el nio ha sido cuidado en la guardera. De
otra forma, es el valor esperado del nivel evolutivo para aquellos nios cuidados
en guardera presentando una puntuacin en 7 puntos inferior a la esperada en
aquellos nios cuidados por el progenitor:
Yguardera = 123.00 7.00 (1) 27.00(0) = 116
(-27) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 0
en X1 y 1 en X2., es decir, cuando el nio ha sido cuidado por una persona no
familiar. Por lo tanto, el valor esperado del nivel evolutivo para estos nios es:
Ynofamiliar = 123.00 7.00 (0) 27.00(1) = 96
Obsrvese que estas puntuaciones estimadas coinciden con los promedios por grupo
calculados arriba en el archivo de datos.
Las significaciones que acompaan a cada uno de los coeficientes en la ecuacin nos
indican (=.05) que:
a) el coeficiente de X1 no resulta significativo (p=.476>.05) por lo que podemos
afirmar que cuidar a los nios en la guardera (X1) respecto a hacerlo con el
progenitor (Y = b0 b1 = 123 7) no conlleva una diferencia sustancial en su
nivel evolutivo a pesar de la disminucin de 7 puntos en su efecto estimado.
b) por su parte, el coeficiente de X2 (p=.015<.05) s resulta significativo por lo que
concluimos que cuidar a los nios con una persona no familiar respecto a
56
57