Modelo de regresión logística: estimación e interpretación de parámetros

MODELO DE REGRESIÓN LOGÍSTICA
1 Introducción
A grandes rasgos, el objetivo de la regresión logı́stica se puede describir de la sigu-
iente forma:
Supongamos que los individuos de una población pueden clasificarse en dos
grandes grupos (grupo A y grupo B), pero su clasificación no es sencilla, bien porque
implique un estudio costoso, bien porque se refiera al futuro, o por cualquier otro
motivo. Sin embargo, el conocimiento de los valores de algunas variables de esos
individuos puede resultar de mucha ayuda para su clasificación.
Ejemplos
Los individuos de cierta especie de aves pueden pertenecer a dos subespecies. A
simple vista, no es fácil determinar a cuál de ellas pertenece un ejemplar determi-
nado, pero el conocimiento de su peso y de su envergadura pueden ayudar a una
correcta clasificación. En este caso, podemos llamar A y B a las dos subespecies.
La supervivencia de los árboles tras el paso de una tormenta de gran intensidad
se piensa que depende, sobre todo, de su diámetro y de una medida de la severidad
local de la tormenta. En este caso, podemos decir que un árbol estarı́a en el grupo
A si no sobrevive, y en el grupo B cuando sobrevive.
2 Modelo. Hipótesis del modelo

Consideramos, por tanto que los individuos de una población pueden pertenecer a
dos grupos que llamaremos A y B. Los elementos que van a intervenir en un modelo
de regresión logı́stica son los siguientes:
Una variable respuesta (o dependiente), Y , que será una variable dicotómica, que
tomará el valor 1 (cuando el individuo pertenece al grupo A) y el valor 0 (cuando el
individuo pertenece al grupo B). Formalmente, será una variable aleatoria de tipo
discreto con distribución de Bernoulli.
Varias posibles variables explicativas (o regresoras o independientes), X1 , ..., Xk ,
que serán variables numéricas (o cuantitativas).
Finalmente, necesitamos datos. Supondremos que disponemos de n conjuntos de
datos:
(yi , x1i , ..., xki ) para i = 1, ..., n
Por supuesto, sigue siendo absolutamente necesario que los datos vayan unidos
en el sentido de que (yi , x1i , ..., xki ) representan los valores de Y , X1 ,..., Xk en el
i-ésimo individuo o unidad muestral.
El objetivo del modelo de regresión logı́stica es expresar la probabilidad de

pertenecer al grupo A en función de los valores de las variables explicativas o regre-
soras. En principio, ese modelo podrı́a ser algo del siguiente estilo:
P r(A) = P r(Yi = 1) = β0 + β1 x1i + ... + βj xji + ... + βk xki para i = 1, ..., n
Pero este modelo tiene el inconveniente obvio de que el segundo miembro rara-
mente tendrá un valor entre 0 y 1. Por este y otros motivos, se va a recurrir a una
1
versión sencilla de la función logı́stica (que se estudió en el curso de Matemáticas):
1
f (x) =
1 + e−x
Esta función tiene la ventaja de que siempre toma valores entre 0 y 1, siendo por
tanto una función muy adecuada para modelizar probabilidades.
En resumen, el modelo de regresión logı́stica es de la siguiente forma:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki
Es decir, el modelo de regresión logı́stica estipula que la probabilidad de que un
individuo pertenezca al grupo A (o en términos técnicos, la probabilidad de que la
variable Y tome el valor 1) depende de los valores concretos que tengan las variables
X1 , ..., Xk en ese individuo, a través de la función anterior.
En resumen, las hipótesis iniciales del modelo de regresión logı́stica son las sigu-
ientes:
(1) Las observaciones Y1 , ..., Yn son independientes.
(2) Cada Yi sigue una distribución de Bernoulli.
(3) La probabilidad de que Yi sea igual a 1 (probabilidad de que el individuo
pertenezca al grupo A) depende de los valores de las variables X1 , ..., Xk a traves
del siguiente modelo:
1
P r(A) = P r(Yi = 1) = para i = 1, ..., n
1+ e−β0 −β1 x1i −...−βj xji −...−βk xki
Como en todos los modelos de regresión, necesitaremos estimar los parámetros

del modelo, β0 , ...βj , ..., βk , mediante estimadores puntuales, mediante intervalos de
confianza, y también estaremos interesados en algún contraste de hipótesis sobre
esos parámetros.
3 Significado de los parámetros

Una vez que los valores de los parámetros hayan sido estimados, el modelo de re-
gresión logı́stica proporciona (aproximadamente) la probabilidad de que un indi-
viduo concreto pertenezca al grupo A, cuando los valores de las variables regresoras
para ese individuo son x1 , ..., xk , mediante la fórmula:
1
P r(A) = P r(Y = 1) =
1 + e−β0 −β1 x1 −...−βj xj −...−βk xk
Es muy conveniente saber cuál es el significado intuitivo de los parámetros
β1 , ..., βj , ..., βk . En el modelo de regresión lineal múltiple, el significado intuitivo
de βj era muy sencillo, ya que βj medı́a la variación media que experimentaba la
variable respuesta cuando Xj aumentaba una unidad. En el modelo de regresión
logı́stico, la interpretación se complica un poco. Esta interpretación se explica en
los siguientes pasos:
2
(1) En primer lugar, calculamos el siguiente cociente o razón de probabilidades,
que se representará con la letra O (del inglés odds):
1
P r(A) P r(Y = 1) −β0 −β1 x1 −...−βj xj −...−βk xk
O(x1 , ..., xj , ..., xk ) = = = 1+e 1
P r(B) P r(Y = 0) 1 − 1+e−β0 −β1 x1 −...−β j xj −...−βk xk
= eβ0 +β1 x1 +...+βj xj +...+βk xk
(2) Si aumentamos la variable Xj una unidad, manteniendo las demás en los

valores que tenı́an antes, el cociente de probabilidades serı́a de la forma:
O(x1 , ..., xj + 1, ..., xk ) = eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk
(3) Si dividimos los dos cocientes, tenemos:
O(x1 , ..., xj + 1, ..., xk ) eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk

= β +β x +...+β x +...+β x
= eβj
O(x1 , ..., xj , ..., xk ) e 0 1 1 j j k k
Escrito de otra forma:
O(x1 , ..., xj + 1, ..., xk ) = eβj O(x1 , ..., xj , ..., xk )
En consecuencia:
El cociente de probabilidades se multiplicará por eβj cuando aumentamos una
unidad el valor de Xj (manteniendo constantes todas las demás).
Por ejemplo, si eβj = 2, el cociente de probabilidades se multiplicarı́a por 2.
4 Estimadores puntuales
Mediante la aplicación del método de máxima verosimilitud, se obtendrı́an los esti-
madores puntuales de los parámetros:
β̂0 , β̂1 , ..., β̂k
Estas estimaciones son ofrecidas por los programas de análisis estadı́stico. En

particular, el SPSS ofrece estas estimaciones en la tabla de “Variables en la ecuación”
que se obtiene mediante:
Analizar ⇒ Regresión ⇒ Logı́stica binaria
En esa misma tabla, aparecen también las estimaciones de eβj , cuyo significado
se ha explicado en la sección anterior.
5 Intervalos de confianza
Mediante la aplicación del método de la cantidad pivotal, se obtendrı́an los intervalos
de confianza, al nivel 1 − α, para estimar β0 , β1 , ..., βk :

IC1−α (βj ) = β̂j ± zα/2 (error tı́pico de β̂j ) para j = 0, 1, ..., n
3
Los errores tı́picos de β̂j aparecerán en la tabla de “Variables en la ecuación” de
SPSS.
También es posible obtener intervalos de confianza para eβj mediante el SPSS, ac-
tivando la opción correspondiente dentro del botón “Opciones...”. Dichos intervalos
aparecerán en la tabla de “Variables en la ecuación”.
6 Contrastes de hipótesis
En esta sección, vamos a considerar los contrastes de hipótesis necesarios para es-
tudiar si las variables regresoras que se introdujeron en el modelo son realmente
necesarias o explicativas. El tipo de pregunta que nos planteamos es de la siguiente
forma:
¿Disponemos de suficiente evidencia muestral para afirmar que Xj tiene un papel
relevante en el modelo o, dicho de otra forma, una influencia significativa sobre la
probabilidad de clasificación en el grupo A? Dado que la posible influencia de
Xj desaparecerı́a si su coeficiente βj se anulase, esto nos lleva a elegir entre las
posibilidades βj = 0 y βj 6= 0 y, por tanto, al siguiente contraste de hipótesis:
H0 : βj = 0 (Xj no influye)
H1 : βj 6= 0 (Xj sı́ influye)
Elegiremos un nivel de significación α para tomar una decisión al final del estudio.
Esta decisión la podemos tomar utilizando el intervalo de confianza IC1−α (βj ):
Si el valor cero está contenido en IC1−α (βj ), aceptamos H0 , y la conclusión es que
no hay evidencia estadı́stica para afirmar que Xj tiene una influencia significactiva
sobre la probabilidad de clasificación.
Por el contrario, si el valor cero no está contenido en IC1−α (βj ), rechazamos H0 ,
y la conclusión en este caso es que disponemos de suficiente evidencia estadı́stica
para afirmar que Xj tiene una influencia significactiva sobre la probabilidad de
clasificación.
De manera equivalente, se puede utilizar la siguiente región de rechazo de H0 :

( )
|β̂j |
R= > zα/2
error tı́pico de β̂j
También se puede utilizar el p-valor que proporciona la tabla de “Variables en

la ecuación” del SPSS.
7 Evaluación del modelo

La evaluación global del modelo se puede efectuar mediante los coeficientes de de-
terminación R2 de Cox y Snell, y el de Nagelkerke. Los valores de estos coeficientes
de determinación se pueden ver en la tabla de “Resumen del modelo” del SPSS.
Ambos coeficiente toman valores entre 0 y 1, y su interpretación es similar a la in-
terpretación del coeficiente de determinación del modelo de regresión lineal, es decir,
cuánto más cercanos están a 1, mejor es el modelo.
4
8 Estimación de las probabilidades
Una vez que hemos obtenido las estimaciones puntuales de los parámetros, β̂0 ,
β̂1 ,...,β̂k , es muy sencillo estimar la probabilidad de que un individuo pertenezca
al grupo A, cuando los valores de las variables regresoras para ese individuo son
X1 = x1 , ..., Xk = xk . Para hacer esto, es suficiente con sustituir las estimaciones de
los parámetros en el modelo de regresión logı́stica:
1
P r(A) = P r(Y = 1) =
1+ e−β̂0 −β̂1 x1 −...−β̂k xk
En particular, si al utilizar el SPSS, activamos la opción “Probabilidades” dentro
del botón “Guardar...”, el programa calcula las probabilidades estimadas para cada
uno de los individuos que intervienen en la muestra, y las guarda en una nueva
columna del Editor de Datos.
9 Clasificación de los individuos

Utilizando el modelo de regresión logı́stica, ¿es posible dar una regla sencilla que
sirva para clasificar los distintos individuos en el grupo A o en el grupo B? La
respuesta es afirmativa y se obtiene mediante un sencillo razonamiento:
Clasificaremos a un individuo en el grupo A (es decir, Y =1) cuando:

1 1
P r(A) = P r(Y = 1) = >
1 + e−β̂0 −β̂1 x1 −...−β̂k xk 2
⇔ 2 > 1 + e−β̂0 −β̂1 x1 −...−β̂k xk ⇔ e−β̂0 −β̂1 x1 −...−β̂k xk < 1

⇔ −β̂0 − β̂1 x1 − ... − β̂k xk < 0 ⇔ β̂0 + β̂1 x1 + ... + β̂k xk > 0
En resumen, la regla para saber si un individuo debe ser clasificado en el grupo
A o en el grupo B, cuando los valores de las variables regresoras para ese individuo
son X1 = x1 , ..., Xk = xk , es muy sencilla de describir:
Si β̂0 + β̂1 x1 + ... + β̂k xk > 0, lo clasificamos en el grupo A (es decir, Y = 1)
Si β̂0 + β̂1 x1 + ... + β̂k xk < 0, lo clasificamos en el grupo B (es decir, Y = 0)
Si estamos utilizando el SPSS, y activamos la opción “Grupo de pertenencia”

dentro del botón “Guardar ...”, el programa asigna cada dato a un grupo (A o B)
utilizando la regla anterior, y nos muestra esta clasificación (Y = 1 ó Y = 0) en una
nueva columna del Editor de Datos.
En el caso particular de que estemos trabajando con dos variables regresoras, X1

y X2 , la regla de clasificación proporciona una recta en el diagrama de dispersión
de X2 sobre X1 que separa las dos regiones.

Modelo de regresión logística: estimación e interpretación de parámetros

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Modelo de regresión logística: estimación e interpretación de parámetros

Caricato da

Copyright:

Formati disponibili

MODELO DE REGRESIÓN LOGÍSTICA

2 Modelo. Hipótesis del modelo

El objetivo del modelo de regresión logı́stica es expresar la probabilidad de

P r(A) = P r(Yi = 1) = β0 + β1 x1i + ... + βj xji + ... + βk xki para i = 1, ..., n

Como en todos los modelos de regresión, necesitaremos estimar los parámetros

3 Significado de los parámetros

= eβ0 +β1 x1 +...+βj xj +...+βk xk

(2) Si aumentamos la variable Xj una unidad, manteniendo las demás en los

O(x1 , ..., xj + 1, ..., xk ) = eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk

(3) Si dividimos los dos cocientes, tenemos:

O(x1 , ..., xj + 1, ..., xk ) eβ0 +β1 x1 +...+βj (xj +1)+...+βk xk

Escrito de otra forma:

O(x1 , ..., xj + 1, ..., xk ) = eβj O(x1 , ..., xj , ..., xk )

β̂0 , β̂1 , ..., β̂k

Estas estimaciones son ofrecidas por los programas de análisis estadı́stico. En

Analizar ⇒ Regresión ⇒ Logı́stica binaria

De manera equivalente, se puede utilizar la siguiente región de rechazo de H0 :

También se puede utilizar el p-valor que proporciona la tabla de “Variables en

7 Evaluación del modelo

9 Clasificación de los individuos

Clasificaremos a un individuo en el grupo A (es decir, Y =1) cuando:

⇔ 2 > 1 + e−β̂0 −β̂1 x1 −...−β̂k xk ⇔ e−β̂0 −β̂1 x1 −...−β̂k xk < 1

Si β̂0 + β̂1 x1 + ... + β̂k xk > 0, lo clasificamos en el grupo A (es decir, Y = 1)

Si β̂0 + β̂1 x1 + ... + β̂k xk < 0, lo clasificamos en el grupo B (es decir, Y = 0)

Si estamos utilizando el SPSS, y activamos la opción “Grupo de pertenencia”

En el caso particular de que estemos trabajando con dos variables regresoras, X1

Potrebbero piacerti anche