Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
(Texto en Elaboración)
La Regresión Logística Binaria (RLB) posee una lógica de análisis muy similar a la
Regresión Lineal Múltiple (RLM), pero aplicada a una variable dependiente nominal en
donde se definen dos categorías o grupos (variable dummy). La RLB intenta predecir la
probabilidad de ocurrencia de uno de los valores de la variable dependiente (categoría
de referencia) a partir de un conjunto de variables independientes.
Las variables independientes pueden tener cualquier nivel de medición, sin embargo si
son variables nominales deben ser recodificadas como variables dummy (tomando
valores 0 y 1). En el caso de poseer originalmente la variable más de dos categorías, se
crearán tantas nuevas variables como el número de categorías de la variable menos 1.
Las variables independientes reciben el nombre de “covariables” en el marco de la RLB.
En la RLB, a diferencia de la RLM, los datos no se ajustan a una línea recta sino más
bien a una curva en forma de una S alargada.
Objetivos
De modo análogo a la RLM, la RLB permite abordar al menos cuatro cuestiones
centrales en una investigación:
1
Profesor Jaime Fierro, Ph.D. en Ciencia Política. Notas preliminares para la elaboración de un apunte de
clases. Actualizado al segundo semestre académico de 2009.
Condiciones de aplicación y su verificación
Tamaño de la muestra: aunque no hay un criterio tan claro como en el caso de la
RLM, se puede considerar un mínimo de 15 casos por cada variable independiente
(covariable). No obstante, siempre es aconsejable inspeccionar las covariables en
términos de que poseen un número suficiente de observaciones en cada categoría.
En caso de no ser así, se puede proceder a recodifcar algunas de ellas.
2
Métodos de selección de las variables
Al igual que en el caso de la RLM en la RLB se debe intentar resguardar el principio de
parsimonia, es decir, explicar el máximo de varianza en una variable dependiente con el
menor número posible de variables independientes. En la modalidad de selección de las
variables pueden utilizarse distintos métodos, entre ellos:
3
la probabilidad de que ocurra el evento considerado en la categoría de referencia de
la variable dependiente (valor 1) cuando aumenta en una unidad la covariable,
manteniendo constante el resto de las covariables. También puede interpretarse en
términos de porcentaje. En el caso de que la covariable sea dicotómica (dummy), su
interpretación se realiza en función de la otra categoría de la variable.
http://www.cepchile.cl
http://www.pnud.cl
http://www.icso.cl
1. Una vez que ha decidido la base de datos con la que trabajará, defina la variable
dependiente de carácter dicotómico que será objeto de su problema de investigación.
2. Recodificar la como variable dependiente como dummy, es decir, con valores 0 y 1.
En donde 1 significa la presencia del atributo en cuestión y 0 su ausencia.
3. Luego, determine el conjunto de variables independientes (covariables) a considerar
en su modelo predictivo. Las covariables pueden tener cualquier nivel de medición,
sin embargo si son variables nominales éstas deben ser recodificadas como variables
dummy.
4. Recodificar la jerarquía de las categorías respuestas en las variables ordinales e
intervalares, toda vez que sea necesario, de menos a más. Por ejemplo, en una likert,
que el valor 1 corresponda a muy en desacuerdo y el valor 5 a muy de acuerdo.
5. Dejar fuera los NS y NR según corresponda. Usualmente los valores 8 y 9.
6. Realizado lo anterior, ejecute los siguientes comandos en SPSS:
4
Ejercicio aplicado
Este es un año electoral y mucho se ha discutido en torno a las posibilidades de las
diferentes candidaturas presidenciales. Sin embargo, no hemos visto estudios que
ahonden con mayor detalle en las variables que más determinan las preferencias de los
ciudadanos por uno u otro candidato. De acuerdo a la última encuesta de Agosto de
2009 del CEP, 2 el 37% de los chilenos declara que votaría en primera vuelta por
Sebastián Piñera, un 27% por Eduardo Frei y un 18% por Maco Enríquez-Ominami.
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Sebastián Piñera 558 37,0 37,4 37,4
Eduardo Frei 407 27,1 27,3 64,7
Adolfo Zaldívar 9 ,6 ,6 65,3
Alejandro Navarro 12 ,8 ,8 66,1
Jorge Arrate 15 1,0 1,0 67,1
Marco Enríquez-Ominami 267 17,8 17,9 85,0
Nulo 130 8,7 8,7 93,7
Blanco 89 5,9 6,0 99,7
No inscrito 5 ,3 ,3 100,0
Total 1492 99,1 100,0
Perdidos No vota 7 ,5
Rechaza 6 ,4
Total 13 ,9
Total 1505 100,0
2
La encuesta del CEP de Agosto de 2009 considera una muestra de 1505 casos, tiene una cobertura
nacional, trabaja con error muestral de +-2,7 puntos porcentuales y un nivel de confianza de un 95%.
5
Una vez definida la variable dependiente el siguiente paso es recodificarla como
variable dummy, ya que en la base de datos aparece con los siguientes valores:
Para transformarla en una variable dummy conservamos el valor “1” para la opción
Sebastián Piñera y asignamos el valor “0” para los valores 2 al 9. Los valores 10 y 11
pueden ser dejados fuera del análisis como valores perdidos. Esto lo hacemos con el
comando: Transformar > Recodificar en distintas variables.
6
Una vez que ingresada la variable a recodificar, en este caso Voto1, es necesario
ingresar el nuevo nombre y la etiqueta respectiva.
7
Ahora procedemos a recodificar los valores antiguos en nuevos valores, tal como
habíamos decidido previamente.
8
Lo que sigue es seleccionar las covariables del modelo y recodificar las variables
nominales como dummy de modo análogo al anterior. Recodificar de menos a más la
jerarquía de las categorías respuestas en las variables ordinales e intervalares. A su vez,
Dejar fuera los NS y NR según corresponda. Una vez hecho todo esto procedemos a
realizar la RLB.
9
Luego hacemos click en Categórica.
Se ingresan todas las variables nominales (categóricas). Seleccionar todas las variables
y la opción Primera, luego hacer click en Cambiar.
10
Evaluando el Modelo
Las respuestas a cada una de las preguntas planteadas anteriormente deben ser extraídas
a partir de la interpretación de las siguientes tablas:
Chi-cuadrado gl Sig.
Paso 1 Paso 856,700 19 ,000
Bloque 856,700 19 ,000
Modelo 856,700 19 ,000
11
Variables en la ecuación
Así, por ejemplo, a medida que aumenta la escolaridad en una unidad 3 , aumenta en
1.309 veces la probabilidad de votar por Sebastián Piñera en primera vuelta o, lo que
3
La escolaridad ha sido agrupada en las siguientes categorías en la encuesta CEP: 0-3 años; 4-8 años; 9-
13 años; y 13 y más años.
12
es lo mismo, aumenta en un 30.9% dicha probabilidad. Esto se desprende de los
coeficientes Exp(B). Por otra parte, quienes se identifican con la Concertación tienen
0.561 (1 - 0.449) veces más probabilidad de no votar por Sebastián Piñera que quienes
no se identifican con la Concertación, esto es, un 56.1%.
13
Verificando condiciones de aplicación del modelo
Multicolinealidad
Ver matriz de correlaciones. Analizar > Regresión Logística > Opciones >
Correlaciones y estimaciones. Ya que el cuadro de la matriz de correlaciones es muy
grande no se incluye en el texto. En el presente ejercicio, la correlación más alta es de -
.431, por lo cual se descarta multicolinealidad.
Outliers
La siguiente tabla muestra todos los casos con desviaciones típicas superiores a 2 en
nuestro ejercicio. Es importante revisar con cuidado aquellos valores de residuales
mayores a 2.5 desviaciones típicas (diferencia entre el valor observado y el
pronosticado). Es recomendable en muchos casos eliminarlos, una vez que se ha
descartado el hecho de que sean casos efectivamente representativos de la muestra, y
volver a calcular los estadísticos de la RLB para determinar las nuevas estimaciones de
los distintos coeficientes.
Listado por casos(b)
Estado de
Caso Observado Pronosticado Grupo pronosticado Variable temporal
selección(a)
Intención de voto
Intención de voto por
por Sebastián
Resid ZResid Sebastián Piñera en Resid ZResid
Piñera en primera
primera vuelta
vuelta
25 S S** ,134 N ,866 2,538
70 S N** ,875 S -,875 -2,646
150 S N** ,888 S -,888 -2,817
186 S S** ,098 N ,902 3,037
205 S S** ,076 N ,924 3,490
218 S N** ,872 S -,872 -2,616
219 S S** ,041 N ,959 4,827
228 S S** ,074 N ,926 3,525
242 S N** ,870 S -,870 -2,590
293 S N** ,909 S -,909 -3,160
314 S S** ,109 N ,891 2,853
316 S N** ,863 S -,863 -2,506
332 S S** ,097 N ,903 3,045
346 S S** ,019 N ,981 7,193
364 S S** ,128 N ,872 2,613
14
507 S N** ,879 S -,879 -2,692
511 S S** ,105 N ,895 2,912
540 S S** ,047 N ,953 4,494
553 S S** ,047 N ,953 4,494
571 S S** ,117 N ,883 2,749
654 S S** ,057 N ,943 4,076
656 S S** ,025 N ,975 6,299
677 S N** ,875 S -,875 -2,650
690 S N** ,927 S -,927 -3,572
766 S S** ,052 N ,948 4,263
779 S N** ,926 S -,926 -3,541
780 S S** ,025 N ,975 6,261
802 S S** ,086 N ,914 3,269
853 S S** ,013 N ,987 8,637
869 S N** ,863 S -,863 -2,511
870 S S** ,032 N ,968 5,509
914 S S** ,072 N ,928 3,603
916 S N** ,880 S -,880 -2,702
955 S N** ,889 S -,889 -2,826
975 S N** ,907 S -,907 -3,127
993 S N** ,941 S -,941 -3,998
995 S S** ,052 N ,948 4,259
1015 S N** ,942 S -,942 -4,019
1047 S N** ,898 S -,898 -2,974
1054 S S** ,091 N ,909 3,155
1071 S N** ,918 S -,918 -3,343
1107 S S** ,088 N ,912 3,216
1140 S S** ,051 N ,949 4,294
1174 S S** ,070 N ,930 3,634
1212 S N** ,884 S -,884 -2,755
1239 S S** ,100 N ,900 2,992
1246 S S** ,100 N ,900 2,996
1275 S S** ,107 N ,893 2,888
1300 S S** ,066 N ,934 3,755
1315 S N** ,892 S -,892 -2,876
1351 S S** ,032 N ,968 5,520
1362 S S** ,026 N ,974 6,157
1445 S N** ,900 S -,900 -2,994
1453 S S** ,126 N ,874 2,631
a S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados.
b Se listan los casos con residuos estudentizados mayores que 2,000.
15
Bibliografía
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage,
London).
Hair, Joseph et al (2007). Análisis Multivariante. 5° Edición (Pearson Prentice Hall,
Madrid).
Leech, Nancy et al (2008). SPSS for Intermediate Statistics. Use and Interpretation. Third
Edition (L. Erlbaum Associates, New York).
Pallant, Julie (2003). SPSS Survival Manual. A Step by Step Guide to Data Analysis Using SPSS
(Buckinhad, Open University Press).
Pardo, Antonio y Ruiz, Miguel A. (2002). SPSS 11. Guía para Análisis de Datos (McGraw-Hill,
Madrid)
Tabachnick, Barbara y Fidell, Linda (2007). Using Multivariate Statistics. Fifth Edition
(Pearson, Boston).
16