Sei sulla pagina 1di 16

Regresión Logística Binaria 1

(Texto en Elaboración)

La Regresión Logística Binaria (RLB) posee una lógica de análisis muy similar a la
Regresión Lineal Múltiple (RLM), pero aplicada a una variable dependiente nominal en
donde se definen dos categorías o grupos (variable dummy). La RLB intenta predecir la
probabilidad de ocurrencia de uno de los valores de la variable dependiente (categoría
de referencia) a partir de un conjunto de variables independientes.

Las variables independientes pueden tener cualquier nivel de medición, sin embargo si
son variables nominales deben ser recodificadas como variables dummy (tomando
valores 0 y 1). En el caso de poseer originalmente la variable más de dos categorías, se
crearán tantas nuevas variables como el número de categorías de la variable menos 1.
Las variables independientes reciben el nombre de “covariables” en el marco de la RLB.
En la RLB, a diferencia de la RLM, los datos no se ajustan a una línea recta sino más
bien a una curva en forma de una S alargada.

La variable dependiente Y asume valor 1 cuando ocurre el suceso y 0 cuando éste no


ocurre. Las predicciones fluctuaran por consiguiente entre los valores 0 y 1. Para
llevarlo a porcentaje simplemente multiplicamos por 100.

Objetivos
De modo análogo a la RLM, la RLB permite abordar al menos cuatro cuestiones
centrales en una investigación:

i. Predecir (o explicar) a partir de un conjunto de variables independientes


(covariables) el resultado de la variable dependiente nominal dicotómica
(varianza). Es decir, las covariables consideradas en el modelo permiten estimar
la probabilidad de pertenencia de un sujeto u observación a una de las categorías
de la variable dependiente (o grupo).
ii. La incidencia de cada covariable en los valores que asume la variable
dependiente, manteniendo constantes el resto de las covariables. Sin embargo,
dado que la RLB no produce coeficientes estandarizados no es posible
determinar qué covariables tienen un mayor impacto en la variable dependiente.
En la medida de que los coeficientes dependan de la unidad de medida de las
variables, los valores más altos corresponderán a las covariables con unidades de
medida mayores.
iii. La existencia o no de asociación entre las covariables y la variable dependiente.
iv. La capacidad de una covariable (o un conjunto de ellas) de predecir el resultado
de la variable dependiente, controlando por el efecto del resto de las covariables.

1
Profesor Jaime Fierro, Ph.D. en Ciencia Política. Notas preliminares para la elaboración de un apunte de
clases. Actualizado al segundo semestre académico de 2009.
Condiciones de aplicación y su verificación
 Tamaño de la muestra: aunque no hay un criterio tan claro como en el caso de la
RLM, se puede considerar un mínimo de 15 casos por cada variable independiente
(covariable). No obstante, siempre es aconsejable inspeccionar las covariables en
términos de que poseen un número suficiente de observaciones en cada categoría.
En caso de no ser así, se puede proceder a recodifcar algunas de ellas.

 Nivel de medición: la variable dependiente debe estar medida en cualquier nivel de


medición, pero al momento de incorporarla al modelo debe ser recodificada como
variable dummy. Las variables independientes (covariables) pueden ser intervalares,
ordinales y nominales (requieren recodificación).

Verificación: basta con revisar el nivel de medición de las la recodificación de las


variables y su recodificación.

 Multicolinealidad: se da cuando dos variables independientes se encuentran


altamente correlacionadas, lo cual significa que aportan información muy similar
difícil de separar. Es decir, se hace difícil estimar la contribución de cada variable a
la estimación de la variable dependiente. En caso de presentarse dos variables
independientes altamente correlacionadas habría que optar por una de las dos,
usualmente la que es teóricamente más relevante (evitando así el error de
especificación). Otra alternativa, es generar una nueva variable a partir de las dos.

Verificación: mediante el análisis de la matriz de correlaciones entre las variables


independientes incorporadas al modelo se puede chequear la existencia o no de
multicolinealidad. Por regla general, valores superiores a 0,9 (r de Pearson) son
considerados como una indicación clara de colinealidad.

 Outliers: tienden a generar un efecto desproporcionado sobre los resultados de la


regresión. Generalmente se eliminan los casos con valores extremos o bien son
reclasificados.

Verificación: el análisis de los residuales permite detectar posibles casos atípicos o


predicciones anómalas. Se suelen consideran como atípicos aquellos valores
superiores a 2 desviaciones estándar.

 Normalidad, linealidad y homocedasticidad de los residuales: la RLB es algo más


flexible que la RLM, entre otras razones, por el nivel de medición de su variable
dependiente y porque no se trata de la estimación de una recta de regresión. Por
tanto no exige ningún criterio de distribución de los residuales.

2
Métodos de selección de las variables
Al igual que en el caso de la RLM en la RLB se debe intentar resguardar el principio de
parsimonia, es decir, explicar el máximo de varianza en una variable dependiente con el
menor número posible de variables independientes. En la modalidad de selección de las
variables pueden utilizarse distintos métodos, entre ellos:

Método standard o simultáneo: todas las variables independientes (covariables) son


incorporadas simultáneamente en la ecuación. Corresponde al método más usualmente
utilizado. Permite abordar los objetivos i, ii, y iii de la RLB.

Método jerárquico o secuencial: las variables independientes (covariables) son


incorporadas en la ecuación en un cierto orden predefinido por el investigador, basado
en su conocimiento teórico/analítico sobre el tema. Las variables son incorporadas en
grupos (blocks), lo cual permite estimar la contribución explicativa de una variable
independiente (o blocks) luego de controlar por el efecto del resto de las covariables (o
blocks). Por tanto, permite abordar el objetivo iv de la RLB.

Método estadístico o paso a paso: mediante criterios estadísticos son incluidas en el


modelo las variables que son significativas, dejando fuera las que no lo son. Presenta,
sin embargo, el inconveniente de dejar eventualmente fuera variables que son teórica o
analíticamente relevantes.

Evaluación del modelo


 R cuadrado puede ser analogado a R cuadrado de Cox y Snell, y R cuadrado de
Nagelkerke. Revisar tabla Resumen de los modelos.

 El equivalente a la prueba de ANOVA puede ser interpretado en Pruebas omnibus a


partir del estadístico Chi-cuadrado. A partir de este estadístico podemos determinar
si el conjunto de covariables incorporadas en el modelo logran introducir un
incremento significativo en el ajuste global del modelo. Para ser significativo debe
ser un valor menor a 0.05 (trabajando con un 95% de confianza).

 Los Coeficientes beta tienen su análogo en los coeficiente “B” en Variables en la


ecuación. En este caso, sin embargo, no se encuentran estandarizados. Por otra
parte, los niveles de significación les permitirán, al igual que en la RLM, determinar
qué variables son estadísticamente significativas y cuáles no. A su vez, el signo, ya
sea positivo o negativo, es una indicación de la probabilidad de caer o no en la
categoría de referencia de la variable dependiente. Así, por ejemplo, un signo
positivo indica que a medida que aumenta la covariable, aumenta la probabilidad de
que ocurra el evento correspondiente a la categoría de referencia de la variable. En
el caso de ser negativo, disminuye dicha probabilidad.

Para estimar la probabilidad se debe interpretar el coeficiente Exp(B), cuyo valor de


a considerar será en relación a 1. Los valores positivos se encuentran sobre 1 y los
negativos bajo 1. Exp(B) se interpreta en términos del número de veces que aumenta

3
la probabilidad de que ocurra el evento considerado en la categoría de referencia de
la variable dependiente (valor 1) cuando aumenta en una unidad la covariable,
manteniendo constante el resto de las covariables. También puede interpretarse en
términos de porcentaje. En el caso de que la covariable sea dicotómica (dummy), su
interpretación se realiza en función de la otra categoría de la variable.

Instrucciones generales para la RLB en SPSS


Trabaje con alguna de las bases de datos disponibles de modo gratuito en la web, por
ejemplo:

http://www.cepchile.cl
http://www.pnud.cl
http://www.icso.cl

1. Una vez que ha decidido la base de datos con la que trabajará, defina la variable
dependiente de carácter dicotómico que será objeto de su problema de investigación.
2. Recodificar la como variable dependiente como dummy, es decir, con valores 0 y 1.
En donde 1 significa la presencia del atributo en cuestión y 0 su ausencia.
3. Luego, determine el conjunto de variables independientes (covariables) a considerar
en su modelo predictivo. Las covariables pueden tener cualquier nivel de medición,
sin embargo si son variables nominales éstas deben ser recodificadas como variables
dummy.
4. Recodificar la jerarquía de las categorías respuestas en las variables ordinales e
intervalares, toda vez que sea necesario, de menos a más. Por ejemplo, en una likert,
que el valor 1 corresponda a muy en desacuerdo y el valor 5 a muy de acuerdo.
5. Dejar fuera los NS y NR según corresponda. Usualmente los valores 8 y 9.
6. Realizado lo anterior, ejecute los siguientes comandos en SPSS:

1. Analizar → Regresión → Logística binaria


2. Ingresar la variable dependiente en la casilla Dependiente
3. Ingresar las variables independientes en la casilla Covariables
4. Método → Introducir
5. Categórica... → Ingresar las variables categóricas a la casilla Covariables
categóricas
→ Cambiar contraste → Categoría de referencia > Seleccione la opción
Primera > Cambiar
→ Continuar
6. Aceptar

4
Ejercicio aplicado
Este es un año electoral y mucho se ha discutido en torno a las posibilidades de las
diferentes candidaturas presidenciales. Sin embargo, no hemos visto estudios que
ahonden con mayor detalle en las variables que más determinan las preferencias de los
ciudadanos por uno u otro candidato. De acuerdo a la última encuesta de Agosto de
2009 del CEP, 2 el 37% de los chilenos declara que votaría en primera vuelta por
Sebastián Piñera, un 27% por Eduardo Frei y un 18% por Maco Enríquez-Ominami.

Si el próximo domingo hubiera elecciones presidenciales, ¿por quién votaría usted?

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Sebastián Piñera 558 37,0 37,4 37,4
Eduardo Frei 407 27,1 27,3 64,7
Adolfo Zaldívar 9 ,6 ,6 65,3
Alejandro Navarro 12 ,8 ,8 66,1
Jorge Arrate 15 1,0 1,0 67,1
Marco Enríquez-Ominami 267 17,8 17,9 85,0
Nulo 130 8,7 8,7 93,7
Blanco 89 5,9 6,0 99,7
No inscrito 5 ,3 ,3 100,0
Total 1492 99,1 100,0
Perdidos No vota 7 ,5
Rechaza 6 ,4
Total 13 ,9
Total 1505 100,0

Fuente: Encuesta CEP, Agosto de 2009.

Si tomamos como referencia la intención de voto en primera vuelta hacia Sebastián


Piñera, sería bastante razonable preguntarse:
 ¿Cuánto inciden las variables sociodemográficas (sexo, edad, escolaridad, NSE
y zona), la evaluación de la situación económica personal y del país, la
percepción de la corrupción, la aprobación de la conducción del gobierno, la
identificación política, el interés en política, el estar inscrito en los registros
electorales y los atributos personales (confianza, cercanía, simpático, seguro y
sincero) en la intención de votar o no por Sebastián Piñera?
 ¿Qué variables no tienen una incidencia estadísticamente significativa en la
intención de dicho voto?
 Cuánto explican los atributos personales (confianza, cercanía, simpático, seguro
y sincero) la intención de votar o no por Sebastián Piñera, controlando por el
efecto del resto de las covariables consideradas en el modelo?

2
La encuesta del CEP de Agosto de 2009 considera una muestra de 1505 casos, tiene una cobertura
nacional, trabaja con error muestral de +-2,7 puntos porcentuales y un nivel de confianza de un 95%.

5
Una vez definida la variable dependiente el siguiente paso es recodificarla como
variable dummy, ya que en la base de datos aparece con los siguientes valores:

Para transformarla en una variable dummy conservamos el valor “1” para la opción
Sebastián Piñera y asignamos el valor “0” para los valores 2 al 9. Los valores 10 y 11
pueden ser dejados fuera del análisis como valores perdidos. Esto lo hacemos con el
comando: Transformar > Recodificar en distintas variables.

6
Una vez que ingresada la variable a recodificar, en este caso Voto1, es necesario
ingresar el nuevo nombre y la etiqueta respectiva.

El nuevo nombre asignado es Vota_Piñera_1 y la etiqueta es Intención de voto por


Sebastián Piñera en primera vuelta. Luego hacemos click en “Cambiar” para dar el
nuevo nombre a la variable original.

7
Ahora procedemos a recodificar los valores antiguos en nuevos valores, tal como
habíamos decidido previamente.

Hacemos click en Continuar y luego en Aceptar. La nueva variable ha sido agregada


al final de la base de datos. Ahora habría que incorporar las etiquetas para los valores de
las categorías. Es decir, para el valor 1 = Sí y para el valor 0 = No.

Una vez incorporadas las etiquetas click en Aceptar.

8
Lo que sigue es seleccionar las covariables del modelo y recodificar las variables
nominales como dummy de modo análogo al anterior. Recodificar de menos a más la
jerarquía de las categorías respuestas en las variables ordinales e intervalares. A su vez,
Dejar fuera los NS y NR según corresponda. Una vez hecho todo esto procedemos a
realizar la RLB.

En la ventana que se abre a continuación incorporamos tanto la variable dependiente


como las covariables (variables independientes).

9
Luego hacemos click en Categórica.

Se ingresan todas las variables nominales (categóricas). Seleccionar todas las variables
y la opción Primera, luego hacer click en Cambiar.

Finalmente, click en Continuar y Aceptar.

10
Evaluando el Modelo
Las respuestas a cada una de las preguntas planteadas anteriormente deben ser extraídas
a partir de la interpretación de las siguientes tablas:

Resumen de los modelos

-2 log de la R cuadrado de R cuadrado de


Paso verosimilitud Cox y Snell Nagelkerke
1 1021,605a ,453 ,617
a. La estimación ha finalizado en el número de
iteración 5 porque las estimaciones de los
parámetros han cambiado en menos de ,001.

Respuesta 1: el conjunto de covariables consideradas en el modelo explican o


(predicen) entre el 45,3% y el 61,3% la intención de votar o no por Sebastián Piñera en
la primera vuelta. El modelo en su conjunto es estadísticamente significativo ya que el
nivel de significación asociado al estadístico Chi-cuadrado en la en Prueba omnibus es
menor a 0.05 (trabajando con un 95% de confianza).

Pruebas omnibus sobre los coeficientes del modelo

Chi-cuadrado gl Sig.
Paso 1 Paso 856,700 19 ,000
Bloque 856,700 19 ,000
Modelo 856,700 19 ,000

11
Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)


Paso
a
SEXO ,243 ,167 2,134 1 ,144 1,276
1 EDAD ,006 ,110 ,003 1 ,956 1,006
ESCOLARIDAD ,269 ,122 4,837 1 ,028 1,309
NSE -,107 ,163 ,432 1 ,511 ,898
ZONA ,148 ,256 ,332 1 ,564 1,159
Situac_econ_personal -,131 ,116 1,275 1 ,259 ,878
Situac_econ_país -,124 ,105 1,395 1 ,238 ,884
Corrupción -,342 ,228 2,256 1 ,133 ,710
Aprob_Bachelet -,436 ,114 14,584 1 ,000 ,647
Alianza ,554 ,227 5,953 1 ,015 1,740
Concertación -,800 ,218 13,477 1 ,000 ,449
Juntos_Podemos -,612 ,335 3,336 1 ,068 ,542
Conversa_pol_amigos -,103 ,179 ,331 1 ,565 ,902
Incrito_Reg_Elec ,085 ,223 ,144 1 ,704 1,089
Confianza_P 1,890 ,226 69,964 1 ,000 6,619
Cercano_P ,598 ,202 8,770 1 ,003 1,818
Simpático_P ,762 ,216 12,451 1 ,000 2,142
Seguro_P ,014 ,243 ,004 1 ,953 1,015
Sincero_P ,898 ,198 20,499 1 ,000 2,455
Constante -1,656 ,640 6,689 1 ,010 ,191
a. Variable(s) introducida(s) en el paso 1: SEXO, EDAD, ESCOLARIDAD, NSE, ZONA, Situac_econ_
personal, Situac_econ_país, Corrupción, Aprob_Bachelet, Alianza, Concertación, Juntos_Podemos,
Conversa_pol_amigos, Incrito_Reg_Elec, Confianza_P, Cercano_P, Simpático_P, Seguro_P, Sincero_
P.

Respuesta 2: del conjunto de covariables incorporadas al modelo, son estadísticamente


significativas (valor Sig. < 0.05): escolaridad, aprobación de la conducción del
Gobierno, la identificación con la Alianza, la identificación con la Concertación; y los
atributos personales confianza, cercano, simpático, sincero. El resto de las covariables
no tiene ningún impacto estadísticamente significativo sobre la intención de votar o no
por Sebastián Piñera en primera vuelta.

Al examinar el signo positivo o negativo de los coeficientes B en aquellas covariables


que son estadísticamente significativas, tenemos que: escolaridad, identificación con la
Alianza y los atributos personales (confianza, cercano, simpático y sincero), aumentan
la probabilidad de intención de voto por Sebastián Piñera en primera vuelta. En el caso
de la aprobación de la conducción del Gobierno y la identificación con la
Concertación, disminuyen la probabilidad de dicha intención de voto, es decir,
aumentan la probabilidad de no votar por Sebastián Piñera en primera vuelta.

Así, por ejemplo, a medida que aumenta la escolaridad en una unidad 3 , aumenta en
1.309 veces la probabilidad de votar por Sebastián Piñera en primera vuelta o, lo que

3
La escolaridad ha sido agrupada en las siguientes categorías en la encuesta CEP: 0-3 años; 4-8 años; 9-
13 años; y 13 y más años.

12
es lo mismo, aumenta en un 30.9% dicha probabilidad. Esto se desprende de los
coeficientes Exp(B). Por otra parte, quienes se identifican con la Concertación tienen
0.561 (1 - 0.449) veces más probabilidad de no votar por Sebastián Piñera que quienes
no se identifican con la Concertación, esto es, un 56.1%.

Finalmente, para responder nuestra tercera pregunta, se debe realizar el mismo


procedimiento realizado en la RLM. Esto es, se separan el conjunto de variables en dos
bloques. Y en el segundo bloque se incorporan las relativas a la evaluación de los
atributos personales (confianza, cercanía, simpático, seguro y sincero). Sin embargo, a
diferencia de la RLM, en la RLB los resultados no se incluyen en una misma tabla, por
lo cual hay que comparar las dos tablas de resumen del los modelos.

Resumen de los modelos

-2 log de la R cuadrado de R cuadrado de


Paso verosimilitud Cox y Snell Nagelkerke
a
1 1525,347 ,220 ,300
a. La estimación ha finalizado en el número de
iteración 4 porque las estimaciones de los
parámetros han cambiado en menos de ,001.

Resumen de los modelos

-2 log de la R cuadrado de R cuadrado de


Paso verosimilitud Cox y Snell Nagelkerke
1 1021,605a ,453 ,617
a. La estimación ha finalizado en el número de
iteración 5 porque las estimaciones de los
parámetros han cambiado en menos de ,001.

Respuesta 3: los atributos personales explican (o predicen) entre el 23.3% y el 31.7%


la intención de votar o no por Sebastián Piñera en primera vuelta (diferencia entre los
dos modelos en R cuadrado de Cox y Snell, y Nagelkerke), controlando por el efecto del
resto de las covariables consideradas en el modelo.

13
Verificando condiciones de aplicación del modelo
 Multicolinealidad

Ver matriz de correlaciones. Analizar > Regresión Logística > Opciones >
Correlaciones y estimaciones. Ya que el cuadro de la matriz de correlaciones es muy
grande no se incluye en el texto. En el presente ejercicio, la correlación más alta es de -
.431, por lo cual se descarta multicolinealidad.

 Outliers

Como se señaló anteriormente, el análisis de los residuales permite detectar posibles


casos atípicos o predicciones anómalas. Se suelen consideran como atípicos aquellos
valores superiores a 2 desviaciones estándar. Ver listado de casos. Analizar >
Regresión Logística > Opciones > Listado de residuos por caso.

La siguiente tabla muestra todos los casos con desviaciones típicas superiores a 2 en
nuestro ejercicio. Es importante revisar con cuidado aquellos valores de residuales
mayores a 2.5 desviaciones típicas (diferencia entre el valor observado y el
pronosticado). Es recomendable en muchos casos eliminarlos, una vez que se ha
descartado el hecho de que sean casos efectivamente representativos de la muestra, y
volver a calcular los estadísticos de la RLB para determinar las nuevas estimaciones de
los distintos coeficientes.
Listado por casos(b)

Estado de
Caso Observado Pronosticado Grupo pronosticado Variable temporal
selección(a)
Intención de voto
Intención de voto por
por Sebastián
Resid ZResid Sebastián Piñera en Resid ZResid
Piñera en primera
primera vuelta
vuelta
25 S S** ,134 N ,866 2,538
70 S N** ,875 S -,875 -2,646
150 S N** ,888 S -,888 -2,817
186 S S** ,098 N ,902 3,037
205 S S** ,076 N ,924 3,490
218 S N** ,872 S -,872 -2,616
219 S S** ,041 N ,959 4,827
228 S S** ,074 N ,926 3,525
242 S N** ,870 S -,870 -2,590
293 S N** ,909 S -,909 -3,160
314 S S** ,109 N ,891 2,853
316 S N** ,863 S -,863 -2,506
332 S S** ,097 N ,903 3,045
346 S S** ,019 N ,981 7,193
364 S S** ,128 N ,872 2,613

14
507 S N** ,879 S -,879 -2,692
511 S S** ,105 N ,895 2,912
540 S S** ,047 N ,953 4,494
553 S S** ,047 N ,953 4,494
571 S S** ,117 N ,883 2,749
654 S S** ,057 N ,943 4,076
656 S S** ,025 N ,975 6,299
677 S N** ,875 S -,875 -2,650
690 S N** ,927 S -,927 -3,572
766 S S** ,052 N ,948 4,263
779 S N** ,926 S -,926 -3,541
780 S S** ,025 N ,975 6,261
802 S S** ,086 N ,914 3,269
853 S S** ,013 N ,987 8,637
869 S N** ,863 S -,863 -2,511
870 S S** ,032 N ,968 5,509
914 S S** ,072 N ,928 3,603
916 S N** ,880 S -,880 -2,702
955 S N** ,889 S -,889 -2,826
975 S N** ,907 S -,907 -3,127
993 S N** ,941 S -,941 -3,998
995 S S** ,052 N ,948 4,259
1015 S N** ,942 S -,942 -4,019
1047 S N** ,898 S -,898 -2,974
1054 S S** ,091 N ,909 3,155
1071 S N** ,918 S -,918 -3,343
1107 S S** ,088 N ,912 3,216
1140 S S** ,051 N ,949 4,294
1174 S S** ,070 N ,930 3,634
1212 S N** ,884 S -,884 -2,755
1239 S S** ,100 N ,900 2,992
1246 S S** ,100 N ,900 2,996
1275 S S** ,107 N ,893 2,888
1300 S S** ,066 N ,934 3,755
1315 S N** ,892 S -,892 -2,876
1351 S S** ,032 N ,968 5,520
1362 S S** ,026 N ,974 6,157
1445 S N** ,900 S -,900 -2,994
1453 S S** ,126 N ,874 2,631
a S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados.
b Se listan los casos con residuos estudentizados mayores que 2,000.

15
Bibliografía
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage,
London).
Hair, Joseph et al (2007). Análisis Multivariante. 5° Edición (Pearson Prentice Hall,
Madrid).
Leech, Nancy et al (2008). SPSS for Intermediate Statistics. Use and Interpretation. Third
Edition (L. Erlbaum Associates, New York).
Pallant, Julie (2003). SPSS Survival Manual. A Step by Step Guide to Data Analysis Using SPSS
(Buckinhad, Open University Press).
Pardo, Antonio y Ruiz, Miguel A. (2002). SPSS 11. Guía para Análisis de Datos (McGraw-Hill,
Madrid)
Tabachnick, Barbara y Fidell, Linda (2007). Using Multivariate Statistics. Fifth Edition
(Pearson, Boston).

16

Potrebbero piacerti anche