Sei sulla pagina 1di 13

3.

Regresin con variables cualitativas

3
___________________
Regresin con variables cualitativas

1. Introduccin
Hasta ahora hemos abordado el tema de la correlacin y la regresin con variables
cuantitativas. Sin embargo, un estudio de regresin similar puede desarrollarse si
contamos con una variable -la variable X- que sea cualitativa de dos o ms categoras.
En esta circunstancia se trata de conocer la regresin de X (una variable que adopta
valores cualitativamente diferentes) sobre una variable Y cuya escala de medida es al
menos de intervalo.
El anlisis estadstico del contraste de medias (mediante el anlisis de la varianza)
puede ser interpretado como un anlisis de la regresin en el que la variable X es
cualitativa. Es ms, enfocar el anlisis de la varianza desde el punto de vista de la
regresin puede ser una ventaja que proporcione a dicho anlisis una mayor
generalidad.
2. Regresin con una variable dicotmica.
Supongamos que deseamos conocer en qu medida se relacionan sexo y habilidad
manual para realizar una tarea. La variable sexo es una variable cualitativa de dos
categoras dicotmica- y puede codificarse de forma arbitraria con los valores 0 y 1;
por ejemplo, 0 mujer y 1 varn. La variable habilidad se cuantifica a travs de un
instrumento determinado de forma cuantitativa. Supongamos que se obtienen los
siguientes resultados teniendo una muestra total de 8 sujetos, 4 varones y 4 mujeres:
Sujetos Sexo (X) Habilidad (Y)
1
0
20
2
0
36
3
0
26
4
0
22
5
1
49
6
1
40
7
1
47
8
1
48
Sumas
4
288

XY
0
0
0
0
49
40
47
48
184

45

3. Regresin con variables cualitativas


2.1. Correlacin y recta de regresin.
Como en el estudio de una correlacin ordinaria, calculamos los estadsticos
descriptivos que nos van a servir para este fin:
4
X = = 0 .5
8

SX =

288
= 36
Y =
8

SY =

(X X )

N 1

(Y Y )

N 1

= 0.53
= 11.96

Y con estos datos calculamos la correlacin entre X e Y:

XY

XY

rXY = N 1
S X SY

184
0.5 36
7
= 0.894
=
0.53 11.96

A partir del valor de correlacin calculado y bajo el supuesto que se cumplan los
supuestos requeridos, puede estimarse, bajo el mismo procedimiento que en el caso en
que ambas variables eran cuantitativas, la recta de regresin que define dicha relacin:

Y = a + bX
o bien:

Y = B0 + B1 X 1
donde
a = Y bX
b = rXY

SY
SX

En nuestro caso, tendramos:

11.96
= 20
0.53
a = 36 20 0.5 = 26

b = 0.89

de donde la ecuacin de regresin es:

Y = 26 + 20 X
Ntese que dado que la variable X adopta dos posibles valores, (O para varn y 1 para
mujer), las predicciones en Y en estas circunstancias son:

46

3. Regresin con variables cualitativas


Yvar n = 26 + 20 0 = 26
Ymujer = 26 + 20 1 = 46
La interpretacin de estas estimaciones es la siguiente: 26 es el valor esperado en Y para
un sujeto que tenga sexo varn y 46 el valor esperado para cualquiera de las mujeres.
Estos valores (26 y 46) coinciden exactamente con las medias en Y del grupo de
varones y de las mujeres, respectivamente. Recordemos los datos:

Sujetos Sexo (X) Habilidad (Y) Medias por grupo


1
0
20
2
0
36
Y0 = 26
3
0
26
4
0
22
5
1
49
6
1
40
Y1 = 46
7
1
47
8
1
48
Sumas
4
288
Y = 36
Por otro lado, la diferencia entre ambas medias (46-26) coincide con el valor de b, es
decir, con el cambio esperado en Y al cambiar una unidad (de 0 a 1) el valor de X:

b=

Y 46 26
=
= 20
X
1 0

Y el parmetro a coincide justamente con la media del grupo que se codifica como 0,
en nuestro caso, el de varones. Es decir, la ordenada en el origen de la recta de regresin
del modelo pasa por el punto 26 que es el promedio de la habilidad manual en dicho
grupo.
Grficamente estas ideas pueden reflejarse si se dibuja la nube de puntos (en realidad
dos series de datos alineados verticalmente ver puntos rojos en la grfica-) y la
correspondiente recta de regresin en un eje de coordenadas:
50

Y1
40

Y
30

Y0
X

HABILIDA

20

10
0,0

1,0

2,0

SEXO

47

3. Regresin con variables cualitativas


Obsrvese que cuando X vale 0, la recta corta el eje de la Y en el valor medio del grupo
de varones ( Y 0 = 26) y que el otro punto que la define es precisamente el valor medio
de Y en el grupo de mujeres ( Y 1 = 46 -cuando X vale 1-). Adems, como hemos
indicado, la incremento en Y al cambiar el valor de X de 0 a 1 es precisamente el valor
de inclinacin de la recta (b):
b=

Y (46 26)
=
= 20
X
(1 0)

o lo que es lo mismo:

b = Y 1 Y 0 = 46 26 = 20

2.2. Supuestos del modelo.


Dado que trabajamos con el mismo modelo de regresin que cuando se trataba de dos
variables cuantitativas, los requisitos a los que deben adecuarse los datos para que dicho
modelo pueda se aplicado idneamente deben ser los mismos que en aquel caso. As
pues, debe probarse la adecuacin de la nube de puntos a una recta (linealidad), la
igualdad de varianzas del error (homocedasticidad) y su normalidad, as como la
independencia entre puntuaciones (que es un requisito supuesto de antemano).
Teniendo en cuenta la representacin grfica caracterstica cuando X adopta dos nicos
valores (dos series alineadas verticales- de puntos que representan la variabilidad de Y
para cada uno de los valores de X), puede decirse que la recta constituye una buena
representacin para unir ambas series, representando el cambio sufrido en la Y estimada
en funcin del cambio (de 0 a 1 de una categora a otra-) en X.
Por otra parte el supuesto de la homocedasticidad quedar satisfecho si la dispersin de
la serie de puntos respecto a valor predicho dentro de la condicin X=0 es semejante a
dicha dispersin en la condicin X=1. Para probar si se cumple o no este supuesto, tal y
como en el tema de la regresin anterior, hay que realizar un estudio de los errores.
Recurdese que graficando cul es la distribucin de los mismos en funcin de los
valores de Y predichos puede obtenerse, a nivel grfico, una primera aproximacin a
dicho estudio. Formas definidas o caractersticas de esta distribucin (por ejemplo, de
megfonos o tringulos en cierto grado invertidos-) apuntan a una posible violacin de
este supuesto. En ltimo trmino, si deseamos probar mediante alguna prueba
estadstica si los datos se ajustan o no al supuesto mencionado puede probarse la
significacin de la correlacin entre los errores (absolutos) y los valores de Y predichos.
La falta de significacin de dicha correlacin indica la satisfaccin de este supuesto de
la homocedasticidad aunque como sabemos este procedimiento no detecta a veces el
incumplimiento del supuesto.
Por ltimo, la normalidad de las puntuaciones se cumple si la distribucin de puntos
alrededor de cada una de las dos medias por grupos se ajustan a una distribucin tipo
campana de Gauss. Este supuesto es ms difcil de corroborar cuando existen pocos
datos; de cualquier manera la prueba de anlisis de la regresin es ms robusta al
incumplimiento de este supuesto que a la violacin de otros. La va ms cmoda y fcil

48

3. Regresin con variables cualitativas


de estudiarlo es pidiendo el grfico de probabilidad normal en el paquete estadstico
SPSS.

2.3. Validez del modelo y bondad de ajuste.


Para probar la validez del modelo de regresin y ajuste lineal planteado, se procede de
manera similar al caso en que ambas variables eran cuantitativas. Como se sabe, puede
abordarse esta cuestin mediante tres procedimientos alternativos y coincidentes:
a) evaluando la significacin de la correlacin
b) evaluando la significacin del coeficiente b
c) aplicando la prueba F que evala de manera global en qu medida la variacin
de los datos de la que da cuenta el modelo de regresin sobrepasa aquella parte
de la variacin de los datos de la que no es responsable dicho modelo.
Como decimos, estas tres vas o trayectorias conducen a una misma conclusin.
Probemos, por ejemplo, en primer lugar, la validacin a travs del ndice F para los
datos anteriores. Recurdese que:
R2 / k
F=
(1 R 2 ) /( N k 1)
Entonces, para nuestros datos:

F=

0.894 2 / 1
= 23.7
(1 0.894 2 ) / 6

Por otra parte, la prueba de significacin para la correlacin:


r 0
t = XY
2
1 rXY
N 2
En nuestro caso:
0.894
t=
= 4.87
1 0.894 2
6
Y para el coeficiente b:
b0

t=

2
S res
N

(X X )

que sustituyendo:
t=

20
= 4.87
33.67
2

49

3. Regresin con variables cualitativas


Comprubese la igualdad de los tres resultados teniendo en cuenta que

F =t

Buscando en las tablas pertinentes el valor de p para estos estadsticos, se concluye que
la probabilidad de que la explicacin de los datos a partir del modelo lineal estimado sea
irrelevante es del .003. Es decir, aceptamos el modelo de regresin estimado como una
buena aproximacin de la explicacin de los datos, ya que la probabilidad de que no lo
sea es muy pequea (menor a .05). Por lo tanto, existe relacin significativa entre X e Y.
A nivel terico diremos que el sexo explica de forma relevante la diferencia existente en
la habilidad manual. El sentido de dicha relacin (atendiendo a los promedios
correspondiente a cada grupo) es el de que las mujeres muestran significativamente un
nivel de habilidad manual superior al de los varones en este tipo de tarea.
Por ltimo, resulta conveniente calcular la bondad de ajuste del modelo, esto es, la
valoracin de la proporcin de variacin explicada por el mismo respecto a la variacin
total de los datos. Como se sabe, nos estamos refiriendo a R 2 que es:
2
R 2 = rXY

Es decir:

R 2 = 0.894 2 = 0.80
O bien.
N

R2 =

SCexp li
SCtotal

(Y Y )
=

1
N

(Y

Y )2

800
= 0.80
1002

lo que indica que el 80% de la variacin manifiesta en las puntuaciones de la habilidad


manual (Y) se explica por la variable sexo (X), una porcentaje bastante alto.

2.4. Aplicacin con el SPSS.


Para estimar los diferentes estadsticos y significaciones anteriormente analizados
mediante este paquete basta aplicar los mismos comandos que se utilizaban para el caso
de dos variables cuantitativas. As, la sucesin de comandos y salidas correspondientes
se exponen a continuacin.
En primer lugar, el fichero de datos ser similar al cuadro que presentamos al principio
de estas pginas:

50

3. Regresin con variables cualitativas

Si pedimos Analizar/regresin/lineal donde Y funciona como variable dependiente y X


como variable independiente, obtenemos.
Resumen del modelo

Modelo
1

R cuadrado

R cuadrado
corregida

Error tp. de la
estimacin

,894(a)

,798

,765

5,80230

a Variables predictoras: (Constante), SEXO


ANOVA(b)

Modelo
1

Suma de
cuadrados

gl

Media
cuadrtica

Sig.

800,000

800,000

23,762

,003(a)

Residual

202,000

33,667

Total

1002,000

Sig.

8,962

,000

4,875

,003

Regresin

a Variables predictoras: (Constante), SEXO


b Variable dependiente: HABILIDA
Coeficientes(a)

Coeficientes no estandarizados
Modelo
1

Error tp.

(Constante)

26,000

2,901

SEXO

20,000

4,103

Coeficientes
estandarizados

Beta

,894

a Variable dependiente: HABILIDA

Como puede observarse, los coeficientes a y b de la ltima tabla coinciden plenamente


con los previamente estimados, al igual que la correlacin entre X e Y (que es lo mismo
que el coeficiente Beta de la ecuacin de la recta o su valor estandarizado 0..894-).
La validez del modelo se prueba reparando en el valor de p correspondiente a la F de la
tabla de ANOVA o bien por el de la t correspondiente al coeficiente b o de Beta (iguales
a .003) (vase en la segunda y tercera tablas presentadas).

51

3. Regresin con variables cualitativas


Para obtener el grfico de dispersin y recta correspondiente mediante SPSS (de forma
similar a como representamos arriba) aplicamos: Grficos/dispersin/lineal/simple, Una
vez dibujada la nube de puntos se pulsa dos veces sobre la misma y se pide al cuadro de
dilogo que nos proporcione la recta ajustada total.
2.5. Anlisis de la regresin versus contraste de medias.
Tal y como hemos indicado al principio, el anlisis de la regresin para el caso en que la
variable X es de tipo cualitativo es un anlisis anlogo al de contraste de medias usado
tan frecuentemente en el mbito de la experimentacin. El referido contraste de medias
se desarrolla en la paquete estadstico SPSS activando el comando ANOVA. A partir de
idntico archivo de datos como el de antes, podramos ejecutar dicho comando para los
datos que nos ocupan aplicando las siguientes rdenes: Analizar/Comparar
medias/ANOVA de un factor (especificando cul es la variable dependiente y cul la
independiente). Los resultados de dicho anlisis deben coincidir exactamente con
aquellos proporcionados por el anlisis de la regresin desarrollado antes. Solicitando
algunos estadsticos descriptivos adicionales a dicho comando ANOVA que nos sirven
para interpretar y concluir sobre los resultados, las salidas proporcionadas son las
siguientes:
Estadsticos descriptivos
N

Mnimo

Mximo

Suma

Media

Desv. tp.

SEXO

,00

1,00

4,00

,5000

,53452

HABILIDA

20,00

49,00

288,00

36,0000

11,96423

N vlido (segn lista)

ANOVA
Suma de
cuadrados

Media
cuadrtica

gl

Inter-grupos

800,000

800,000

Intra-grupos

202,000

33,667

1002,000

Total

F
23,762

Sig.
,003

Como observamos, obtenemos un cuadro de resultados idntico al presentado


anteriormente en el caso de la regresin. Adems, si dentro de esta va de anlisis
hacemos la peticin de evaluar el supuesto de la igualdad de varianzas (dentro del
comando opciones), la prueba de Levene nos ofrece la confirmacin o no del
cumplimiento de este supuesto, tan importante como sabemos para la utilizacin de los
anlisis que estamos llevando a cabo (recurdese que dentro del comando regresin el
estudio de dicho supuesto se haca mediante la graficacin de la relacin entre los
valores predichos y los errores). Pues bien, la peticin de la prueba de Levene para
nuestros datos nos informa lo siguiente:
Prueba de homogeneidad de varianzas
Estadstico de
Levene
,727

Gl1

gl2
1

Sig.
6

,426

Dados estos resultados, concluimos que efectivamente la homogeneidad de las


varianzas de error (homocedasticidad) se cumple puesto que la diferencia entre la

52

3. Regresin con variables cualitativas


varianza de los datos en el grupo de mujeres respecto a la de los varones puede
explicarse por azar en una proporcin alta (.426).
3. Regresin con variable politmica.
Cuando la variable X en un anlisis de la regresin es cualitativa de ms de dos
categoras, el anlisis es similar al realizado con anterioridad. Sin embargo, puede
resultar til desarrollar a continuacin un ejemplo que muestre algunas de sus
particularidades.
3.1. Codificacin.
Supongamos que se desea conocer si el tipo de asistencia que reciben los nios de 2
aos durante la jornada matinal incide en alguna medida en su nivel evolutivo. Se
identifican tres tipos de asistencia diferentes: En guardera (X1), en casa asistido por un
cuidador no familiar (X2) y en casa asistido por uno de sus padres (X3). Los resultados
obtenidos se ofrecen en la siguiente tabla:
Sujeto Tipo de asistencia Nivel evolutivo Medias por grupo
1
Guardera
100
2
Guardera
120
116
3
Guardera
140
4
Guardera
130
5
Guardera
90
6
C. no familiar
96
7
C. no familiar
87
96
8
C. no familiar
97
9
C. no familiar
100
10
C. no familiar
100
11
Progenitor
130
12
Progenitor
130
123
13
Progenitor
140
14
Progenitor
110
15
Progenitor
105
Las puntuaciones medias obtenidas permiten realizar una primera interpretacin de los
datos a nivel descriptivo respecto al nivel evolutivo de los nios afectados por cada tipo
de cuidado. Observamos que la media del grupo de nios cuidado por el progenitor es la
ms alta seguida por la del grupo de nios cuidados en guardera; por ltimo, los nios
de nivel evolutivo inferior parecen ser aquellos cuidados por una persona ajena a la
familia. Si existen o no diferencias significativas entre dichos niveles es algo de lo que
se encargar de responder los anlisis que siguen.
Recurdese que en el caso de una X de tipo dicotmico el archivo de datos contena una
sola columna para dicha X mediante la cual se conoca, utilizando los cdigos 1 y 0, la
categora a la que perteneca cada uno de los sujetos (la condicin de X por la que
estaba afectado). Ahora con tres valores de X no es posible agotar todas las
posibilidades de asociacin sujetos-valores mediante este sistema pues tenemos tres
alternativas de pertenencia. Sin embargo, utilizando dos columnas para representar dos
de las tres categoras de que consta la variable X es suficiente para conocer toda esta
53

3. Regresin con variables cualitativas


informacin necesaria1. En general, podemos decir que se necesitan K-1 columnas de
identificacin de la variable cualitativa para tener toda la informacin sobre qu
condicin concreta de X afecta a cada sujeto (siendo K el nmero de categoras que
adopta la variable X). As, por ejemplo, la codificacin siguiente para cada una de las
dos categoras de X (X1 = guardera) (X2 = cuidador no familiar) sera suficiente para
plasmar toda la informacin sobre la categora a la que pertenece cada uno de los 15
sujetos que compone la muestra:

X1
X2
Sujetos
(guardera) (no familiar)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

1
1
1
1
1
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
1
1
1
1
1
0
0
0
0
0

Y
100
120
140
130
90
96
87
97
100
100
130
130
140
110
105

Medias
por
grupo

116

96

123

La lectura de la tabla anterior sera la siguiente: Un valor 1 en la primera columna y un


0 en la segunda indica que el sujeto pertenece a la primera categora; un valor 0 en la
primera y un 1 en la segunda que el sujeto pertenece a esta segunda; por ltimo, ceros
en ambas columnas identifica a un sujeto que no pertenece ni a la primera categora ni a
la segunda sino a la tercera (no existente en el archivo que es el cuidado por el
progenitor).

3.2. Aplicacin con SPSS.


A partir del siguiente archivo de datos, tal y como ha quedado justificado en el apartado
de la codificacin anterior, en formato SPSS:

Tngase en cuenta que la introduccin de una tercera columna para representar la ltima de las
categoras de X contempladas, supondra una redundancia sobre la informacin precedente, es decir,
constituira una columna colineal (de informacin totalmente redundante) con las anteriores por lo que los
clculos de las estimaciones del modelo de regresin seran imposibles.

54

3. Regresin con variables cualitativas

se activa el comando regresin/lineal de dicho paquete para estimar la ecuacin de


regresin del modelo as como su significacin estadstica. En dicho comando se
especifica que la variable dependiente es el nivel evolutivo y las independientes las dos
X representadas en las columnas del archivo de datos (guardera y cuidado no familiar),
obteniendo los siguientes resultados:
Resumen del modelo
Modelo
1

R
R cuadrado
,648a
,420

R cuadrado
corregida
,323

Error tp. de la
estimacin
15,03884

a. Variables predictoras: (Constante), casanfamiliar, guardera

Como ya sabemos, este cuadro (resumen del modelo) informa que la proporcin de
variacin del nivel evolutivo de los nios por cuenta del tipo de cuidado que reciben en
periodo laboral es del .420. Adems, la relacin analizada es significativa (=.05),
puesto que la tabla de ANOVA siguiente proporciona un valor de F = 4.34, con una p =
.038<.05; es decir, el tipo de cuidado en periodo laboral incide significativamente sobre
el nivel evolutivo del nio.
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
1963,333
2714,000
4677,333

gl
2
12
14

Media
cuadrtica
981,667
226,167

F
4,340

Sig.
,038a

a. Variables predictoras: (Constante), casanfamiliar, guardera


b. Variable dependiente: nivel

Hasta ahora a travs de la informacin expuesta- no puede conocerse si existen


diferencias estadsticamente significativas entre unos tipos de condiciones de cuidados
respecto a otros, esto es, slo podemos concluir globalmente que el tipo de cuidado
incide en el nivel evolutivo. Para discriminar entre condiciones especficas del nivel
evolutivo, estudiamos la tabla de coeficientes de la ecuacin de regresin estimada:
55

3. Regresin con variables cualitativas


Coeficientesa

Modelo
1

(Constante)
guardera
casanfamiliar

Coeficientes no
estandarizados
B
Error tp.
123,000
6,726
-7,000
9,511
-27,000
9,511

Coeficientes
estandarizad
os
Beta
-,187
-,721

t
18,288
-,736
-2,839

Sig.
,000
,476
,015

a. Variable dependiente: nivel

As pues, tenemos que la ecuacin de regresin es:


Y = 123.00 7.00 X 1 27.00 X 2
La interpretacin de cada uno de estos coeficientes es la siguiente:
-

123 es el nivel evolutivo esperado para los nios que puntan 0 tanto en X1
como en X2. Es decir, cuando no han sido cuidados ni en guardera ni por una
persona no familiar, por tanto para aquellos que han sido cuidados por el
progenitor:
Yprogenitor = 123.00 7.00 (0) 27.00(0) = 123
(-7) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 1
en X1 y 0 en X2, es decir, cuando el nio ha sido cuidado en la guardera. De
otra forma, es el valor esperado del nivel evolutivo para aquellos nios cuidados
en guardera presentando una puntuacin en 7 puntos inferior a la esperada en
aquellos nios cuidados por el progenitor:
Yguardera = 123.00 7.00 (1) 27.00(0) = 116

(-27) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 0
en X1 y 1 en X2., es decir, cuando el nio ha sido cuidado por una persona no
familiar. Por lo tanto, el valor esperado del nivel evolutivo para estos nios es:
Ynofamiliar = 123.00 7.00 (0) 27.00(1) = 96

Obsrvese que estas puntuaciones estimadas coinciden con los promedios por grupo
calculados arriba en el archivo de datos.
Las significaciones que acompaan a cada uno de los coeficientes en la ecuacin nos
indican (=.05) que:
a) el coeficiente de X1 no resulta significativo (p=.476>.05) por lo que podemos
afirmar que cuidar a los nios en la guardera (X1) respecto a hacerlo con el
progenitor (Y = b0 b1 = 123 7) no conlleva una diferencia sustancial en su
nivel evolutivo a pesar de la disminucin de 7 puntos en su efecto estimado.
b) por su parte, el coeficiente de X2 (p=.015<.05) s resulta significativo por lo que
concluimos que cuidar a los nios con una persona no familiar respecto a

56

3. Regresin con variables cualitativas


hacerlo con el progenitor hace disminuir significativamente su nivel evolutivo
esperado en una cantidad de 27 puntos (Y = b0 b2 = 123 27) .

57

Potrebbero piacerti anche