Sei sulla pagina 1di 5

MODELO DE REGRESIÓN LOGÍSTICA

1 Introducción
A grandes rasgos, el objetivo de la regresión logı́stica se puede describir de la sigu-
iente forma:
Supongamos que los individuos de una población pueden clasificarse en dos
grandes grupos (grupo A y grupo B), pero su clasificación no es sencilla, bien porque
implique un estudio costoso, bien porque se refiera al futuro, o por cualquier otro
motivo. Sin embargo, el conocimiento de los valores de algunas variables de esos
individuos puede resultar de mucha ayuda para su clasificación.

Ejemplos
Los individuos de cierta especie de aves pueden pertenecer a dos subespecies. A
simple vista, no es fácil determinar a cuál de ellas pertenece un ejemplar determi-
nado, pero el conocimiento de su peso y de su envergadura pueden ayudar a una
correcta clasificación. En este caso, podemos llamar A y B a las dos subespecies.
La supervivencia de los árboles tras el paso de una tormenta de gran intensidad
se piensa que depende, sobre todo, de su diámetro y de una medida de la severidad
local de la tormenta. En este caso, podemos decir que un árbol estarı́a en el grupo
A si no sobrevive, y en el grupo B cuando sobrevive.

2 Modelo. Hipótesis del modelo


Consideramos, por tanto que los individuos de una población pueden pertenecer a
dos grupos que llamaremos A y B. Los elementos que van a intervenir en un modelo
de regresión logı́stica son los siguientes:
Una variable respuesta (o dependiente), Y , que será una variable dicotómica, que
tomará el valor 1 (cuando el individuo pertenece al grupo A) y el valor 0 (cuando el
individuo pertenece al grupo B). Formalmente, será una variable aleatoria de tipo
discreto con distribución de Bernoulli.
Varias posibles variables explicativas (o regresoras o independientes), X1 , ..., Xk ,
que serán variables numéricas (o cuantitativas).
Finalmente, necesitamos datos. Supondremos que disponemos de n conjuntos de
datos:
(yi , x1i , ..., xki ) para i = 1, ..., n
Por supuesto, sigue siendo absolutamente necesario que los datos vayan unidos
en el sentido de que (yi , x1i , ..., xki ) representan los valores de Y , X1 ,..., Xk en el
i-ésimo individuo o unidad muestral.

El objetivo del modelo de regresión logı́stica es expresar la probabilidad de


pertenecer al grupo A en función de los valores de las variables explicativas o regre-
soras. En principio, ese modelo podrı́a ser algo del siguiente estilo:

P r(A) = P r(Yi = 1) = β0 + β1 x1i + ... + βj xji + ... + βk xki para i = 1, ..., n

Pero este modelo tiene el inconveniente obvio de que el segundo miembro rara-
mente tendrá un valor entre 0 y 1. Por este y otros motivos, se va a recurrir a una

1
versión sencilla de la función logı́stica (que se estudió en el curso de Matemáticas):
1
f (x) =
1 + e−x
Esta función tiene la ventaja de que siempre toma valores entre 0 y 1, siendo por
tanto una función muy adecuada para modelizar probabilidades.
En resumen, el modelo de regresión logı́stica es de la siguiente forma:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki
Es decir, el modelo de regresión logı́stica estipula que la probabilidad de que un
individuo pertenezca al grupo A (o en términos técnicos, la probabilidad de que la
variable Y tome el valor 1) depende de los valores concretos que tengan las variables
X1 , ..., Xk en ese individuo, a través de la función anterior.

En resumen, las hipótesis iniciales del modelo de regresión logı́stica son las sigu-
ientes:
(1) Las observaciones Y1 , ..., Yn son independientes.
(2) Cada Yi sigue una distribución de Bernoulli.
(3) La probabilidad de que Yi sea igual a 1 (probabilidad de que el individuo
pertenezca al grupo A) depende de los valores de las variables X1 , ..., Xk a traves
del siguiente modelo:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki

Como en todos los modelos de regresión, necesitaremos estimar los parámetros


del modelo, β0 , ...βj , ..., βk , mediante estimadores puntuales, mediante intervalos de
confianza, y también estaremos interesados en algún contraste de hipótesis sobre
esos parámetros.

3 Significado de los parámetros


Una vez que los valores de los parámetros hayan sido estimados, el modelo de re-
gresión logı́stica proporciona (aproximadamente) la probabilidad de que un indi-
viduo concreto pertenezca al grupo A, cuando los valores de las variables regresoras
para ese individuo son x1 , ..., xk , mediante la fórmula:
1
P r(A) = P r(Y = 1) =
1 + e−β0 −β1 x1 −...−βj xj −...−βk xk
Es muy conveniente saber cuál es el significado intuitivo de los parámetros
β1 , ..., βj , ..., βk . En el modelo de regresión lineal múltiple, el significado intuitivo
de βj era muy sencillo, ya que βj medı́a la variación media que experimentaba la
variable respuesta cuando Xj aumentaba una unidad. En el modelo de regresión
logı́stico, la interpretación se complica un poco. Esta interpretación se explica en
los siguientes pasos:

2
(1) En primer lugar, calculamos el siguiente cociente o razón de probabilidades,
que se representará con la letra O (del inglés odds):
1
P r(A) P r(Y = 1) −β0 −β1 x1 −...−βj xj −...−βk xk
O(x1 , ..., xj , ..., xk ) = = = 1+e 1
P r(B) P r(Y = 0) 1 − 1+e−β0 −β1 x1 −...−β j xj −...−βk xk

= eβ0 +β1 x1 +...+βj xj +...+βk xk

(2) Si aumentamos la variable Xj una unidad, manteniendo las demás en los


valores que tenı́an antes, el cociente de probabilidades serı́a de la forma:

O(x1 , ..., xj + 1, ..., xk ) = eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk

(3) Si dividimos los dos cocientes, tenemos:

O(x1 , ..., xj + 1, ..., xk ) eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk


= β +β x +...+β x +...+β x
= eβj
O(x1 , ..., xj , ..., xk ) e 0 1 1 j j k k

Escrito de otra forma:

O(x1 , ..., xj + 1, ..., xk ) = eβj O(x1 , ..., xj , ..., xk )

En consecuencia:
El cociente de probabilidades se multiplicará por eβj cuando aumentamos una
unidad el valor de Xj (manteniendo constantes todas las demás).
Por ejemplo, si eβj = 2, el cociente de probabilidades se multiplicarı́a por 2.

4 Estimadores puntuales
Mediante la aplicación del método de máxima verosimilitud, se obtendrı́an los esti-
madores puntuales de los parámetros:

β̂0 , β̂1 , ..., β̂k

Estas estimaciones son ofrecidas por los programas de análisis estadı́stico. En


particular, el SPSS ofrece estas estimaciones en la tabla de “Variables en la ecuación”
que se obtiene mediante:

Analizar ⇒ Regresión ⇒ Logı́stica binaria

En esa misma tabla, aparecen también las estimaciones de eβj , cuyo significado
se ha explicado en la sección anterior.

5 Intervalos de confianza
Mediante la aplicación del método de la cantidad pivotal, se obtendrı́an los intervalos
de confianza, al nivel 1 − α, para estimar β0 , β1 , ..., βk :
 
IC1−α (βj ) = β̂j ± zα/2 (error tı́pico de β̂j ) para j = 0, 1, ..., n

3
Los errores tı́picos de β̂j aparecerán en la tabla de “Variables en la ecuación” de
SPSS.

También es posible obtener intervalos de confianza para eβj mediante el SPSS, ac-
tivando la opción correspondiente dentro del botón “Opciones...”. Dichos intervalos
aparecerán en la tabla de “Variables en la ecuación”.

6 Contrastes de hipótesis
En esta sección, vamos a considerar los contrastes de hipótesis necesarios para es-
tudiar si las variables regresoras que se introdujeron en el modelo son realmente
necesarias o explicativas. El tipo de pregunta que nos planteamos es de la siguiente
forma:
¿Disponemos de suficiente evidencia muestral para afirmar que Xj tiene un papel
relevante en el modelo o, dicho de otra forma, una influencia significativa sobre la
probabilidad de clasificación en el grupo A? Dado que la posible influencia de
Xj desaparecerı́a si su coeficiente βj se anulase, esto nos lleva a elegir entre las
posibilidades βj = 0 y βj 6= 0 y, por tanto, al siguiente contraste de hipótesis:

H0 : βj = 0 (Xj no influye)
H1 : βj 6= 0 (Xj sı́ influye)

Elegiremos un nivel de significación α para tomar una decisión al final del estudio.
Esta decisión la podemos tomar utilizando el intervalo de confianza IC1−α (βj ):
Si el valor cero está contenido en IC1−α (βj ), aceptamos H0 , y la conclusión es que
no hay evidencia estadı́stica para afirmar que Xj tiene una influencia significactiva
sobre la probabilidad de clasificación.
Por el contrario, si el valor cero no está contenido en IC1−α (βj ), rechazamos H0 ,
y la conclusión en este caso es que disponemos de suficiente evidencia estadı́stica
para afirmar que Xj tiene una influencia significactiva sobre la probabilidad de
clasificación.

De manera equivalente, se puede utilizar la siguiente región de rechazo de H0 :


( )
|β̂j |
R= > zα/2
error tı́pico de β̂j

También se puede utilizar el p-valor que proporciona la tabla de “Variables en


la ecuación” del SPSS.

7 Evaluación del modelo


La evaluación global del modelo se puede efectuar mediante los coeficientes de de-
terminación R2 de Cox y Snell, y el de Nagelkerke. Los valores de estos coeficientes
de determinación se pueden ver en la tabla de “Resumen del modelo” del SPSS.
Ambos coeficiente toman valores entre 0 y 1, y su interpretación es similar a la in-
terpretación del coeficiente de determinación del modelo de regresión lineal, es decir,
cuánto más cercanos están a 1, mejor es el modelo.

4
8 Estimación de las probabilidades
Una vez que hemos obtenido las estimaciones puntuales de los parámetros, β̂0 ,
β̂1 ,...,β̂k , es muy sencillo estimar la probabilidad de que un individuo pertenezca
al grupo A, cuando los valores de las variables regresoras para ese individuo son
X1 = x1 , ..., Xk = xk . Para hacer esto, es suficiente con sustituir las estimaciones de
los parámetros en el modelo de regresión logı́stica:
1
P r(A) = P r(Y = 1) =
1+ e−β̂0 −β̂1 x1 −...−β̂k xk
En particular, si al utilizar el SPSS, activamos la opción “Probabilidades” dentro
del botón “Guardar...”, el programa calcula las probabilidades estimadas para cada
uno de los individuos que intervienen en la muestra, y las guarda en una nueva
columna del Editor de Datos.

9 Clasificación de los individuos


Utilizando el modelo de regresión logı́stica, ¿es posible dar una regla sencilla que
sirva para clasificar los distintos individuos en el grupo A o en el grupo B? La
respuesta es afirmativa y se obtiene mediante un sencillo razonamiento:

Clasificaremos a un individuo en el grupo A (es decir, Y =1) cuando:


1 1
P r(A) = P r(Y = 1) = >
1 + e−β̂0 −β̂1 x1 −...−β̂k xk 2

⇔ 2 > 1 + e−β̂0 −β̂1 x1 −...−β̂k xk ⇔ e−β̂0 −β̂1 x1 −...−β̂k xk < 1


⇔ −β̂0 − β̂1 x1 − ... − β̂k xk < 0 ⇔ β̂0 + β̂1 x1 + ... + β̂k xk > 0
En resumen, la regla para saber si un individuo debe ser clasificado en el grupo
A o en el grupo B, cuando los valores de las variables regresoras para ese individuo
son X1 = x1 , ..., Xk = xk , es muy sencilla de describir:

Si β̂0 + β̂1 x1 + ... + β̂k xk > 0, lo clasificamos en el grupo A (es decir, Y = 1)

Si β̂0 + β̂1 x1 + ... + β̂k xk < 0, lo clasificamos en el grupo B (es decir, Y = 0)

Si estamos utilizando el SPSS, y activamos la opción “Grupo de pertenencia”


dentro del botón “Guardar ...”, el programa asigna cada dato a un grupo (A o B)
utilizando la regla anterior, y nos muestra esta clasificación (Y = 1 ó Y = 0) en una
nueva columna del Editor de Datos.

En el caso particular de que estemos trabajando con dos variables regresoras, X1


y X2 , la regla de clasificación proporciona una recta en el diagrama de dispersión
de X2 sobre X1 que separa las dos regiones.

Potrebbero piacerti anche