Sei sulla pagina 1di 11

REGRESION LOGISTICA MULTINOMIAL | Ejemplos de análisis de datos de STATA

Información de la versión: El código para esta página se probó en Stata 12.

La regresión logística multinomial se usa para modelar variables de resultado


nominales, en las cuales las probabilidades de registro de los resultados se modelan
como una combinación lineal de las variables predictoras.

Tenga en cuenta: El propósito de esta página es mostrar cómo usar varios comandos de
análisis de datos. No cubre todos los aspectos del proceso de investigación que se espera que
hagan los investigadores. En particular, no cubre la limpieza y verificación de datos, la
verificación de suposiciones, el diagnóstico de modelos y los posibles análisis de seguimiento.

EJEMPLOS DE REGRESIÓN LOGÍSTICA MULTINOMIAL.


Ejemplo 1. Las elecciones ocupacionales de las personas pueden estar influenciadas
por las ocupaciones de sus padres y su propio nivel de educación. Podemos estudiar
la relación de la elección de ocupación con el nivel de educación y la ocupación del
padre. Las elecciones ocupacionales serán la variable de resultado que consiste en
categorías de ocupaciones.

Ejemplo 2. Un biólogo puede estar interesado en las elecciones de alimentos que


hacen los caimanes. Los caimanes adultos pueden tener diferentes preferencias de los
jóvenes. La variable de resultado aquí serán los tipos de alimentos, y las variables
predictoras pueden ser el tamaño de los caimanes y otras variables ambientales.

Ejemplo 3. Los estudiantes que ingresan a la escuela secundaria pueden elegir entre
programas generales, programas vocacionales y programas académicos. Su elección
podría ser modelada usando su puntaje de escritura y su estatus socioeconómico.

DESCRIPCIÓN DE LOS DATOS.


Para nuestro ejemplo de análisis de datos, expandiremos el tercer ejemplo utilizando
el conjunto de datos hsbdemo. Leamos primero en los datos.

use https://stats.idre.ucla.edu/stat/data/hsbdemo, clear

El conjunto de datos contiene variables sobre 200 alumnos. La variable de resultado


es prog, tipo de programa. Las variables predictoras son el estado socioeconómico,
ses, una variable categórica de tres niveles y puntaje de escritura, write, una variable
continua. Empecemos por obtener algunas estadísticas descriptivas de las variables
de interés.
Métodos de análisis que podrías considerar

 Regresión logística multinomial: el foco de esta página.


 Regresión probit multinomial: similar a la regresión logística multinomial pero
con términos de error normal independientes.
 Análisis de función discriminante de grupos múltiples: un método multivariado
para variables de resultados multinomiales
 Análisis de regresión logística múltiple, uno para cada par de resultados: un
problema con este enfoque es que cada análisis se ejecuta potencialmente en
una muestra diferente. El otro problema es que, sin restringir los modelos
logísticos, podemos terminar con la probabilidad de elegir todas las categorías
de resultados posibles mayores que 1.
 Disminuir el número de categorías a dos y luego realizar una regresión
logística: este enfoque sufre la pérdida de información y cambia las preguntas
de investigación originales a otras muy diferentes.
 Regresión logística ordinal: si la variable de resultado está realmente ordenada
y si también satisface el supuesto de probabilidades proporcionales, el cambio
a la regresión logística ordinal hará que el modelo sea más parco.
 Regresión probit multinomial de alternativa específica: permite diferentes
estructuras de error, por lo tanto, permite relajar la independencia de
alternativas irrelevantes (IIA, ver más abajo el supuesto "Cosas a considerar").
Esto requiere que la estructura de datos sea específica a la elección.
 Modelo logit anidado: también relaja el supuesto de IIA, también requiere que
la estructura de datos sea específica a la elección.
Regresión logística multinomial

A continuación, utilizamos el comando mlogit para estimar un modelo de regresión


logística multinomial. La i. antes de ses indica que ses es una variable indicadora (es
decir, variable categórica), y que debe incluirse en el modelo. También hemos utilizado
la opción "base" para indicar la categoría que querríamos usar para el grupo de
comparación de referencia. En el siguiente modelo, hemos optado por utilizar el tipo de
programa académico como categoría de línea de base.

 En la salida anterior, primero vemos el registro de iteraciones, que indica qué


tan rápido convergió el modelo. La Log verosimilitud (-179.98173) se puede
usar en comparaciones de modelos anidados, pero no mostraremos un
ejemplo de comparación de modelos aquí
 La relación de probabilidad chi-cuadrado de 48.23 con un p-valor<0.0001
nos dice que nuestro modelo en conjunto se ajusta significativamente mejor
que un modelo vacío (es decir, un modelo sin predictores)
 La salida anterior tiene dos partes, etiquetadas con las categorías de la
variable de resultado prog. Corresponden a las dos ecuaciones siguientes:
donde b’s son los coeficientes de regresión.

 Un aumento de una unidad en la variable write se asocia con una disminución


de .058 en las probabilidades de registro relativas de estar en el programa
general en comparación con el programa académico.
 Un aumento de una unidad en la variable write se asocia con una disminución
de .1136 en las probabilidades de registro relativas de estar en el programa de
vocación en comparación con el programa académico.
 Las probabilidades de registro relativas de estar en el programa general vs. en
el programa académico disminuirán en 1.163 si se mueve desde el nivel más
bajo de ses (ses == 1) al nivel más alto de ses (ses == 3).

La proporción de la probabilidad de elegir una categoría de resultado sobre la


probabilidad de elegir la categoría de línea de base a menudo se conoce como riesgo
relativo (y también a veces se le conoce como odds, como hemos descrito
anteriormente en los parámetros de regresión). El riesgo relativo se puede obtener
exponencializando las ecuaciones lineales anteriores, produciendo coeficientes de
regresión que son índices de riesgo relativo para un cambio de unidad en la variable
predictiva. Podemos usar la opción rrr para el comando mlogit para mostrar los
resultados de la regresión en términos de índices de riesgo relativo.
 La relación de riesgo relativo para un aumento de una unidad en la variable
write es .9437 (exp (-. 0579284) de la salida del primer comando mlogit
anterior) por estar en el programa general en comparación con el programa
académico.
 El índice de riesgo relativo que cambia de ses = 1 a 3 es de .3126 por estar en
el programa general en comparación con el programa académico. En otras
palabras, el riesgo esperado de permanecer en el programa general es menor
para los sujetos que tienen un alto nivel de ses.

Podemos probar un efecto general de ses utilizando el comando test. A continuación,


vemos que el efecto general de ses es estadísticamente significativo.

Más específicamente, también podemos probar si el efecto de 3.ses en la predicción


de lo general frente a lo académico es igual al efecto de 3.ses en la predicción de la
vocación frente a lo académico utilizando de nuevo el comando test. La prueba
muestra que los efectos no son estadísticamente diferentes entre sí.

También puede usar probabilidades predichas para ayudarlo a comprender el modelo.


Puede calcular las probabilidades pronosticadas utilizando el comando margins. A
continuación, utilizamos el comando margins para calcular la probabilidad
pronosticada de elegir cada tipo de programa en cada nivel de ses, manteniendo
todas las otras variables en el modelo en sus medios. Como hay tres resultados
posibles, necesitaremos usar el comando margins tres veces, uno para cada valor de
resultado.
Podemos usar el comando marginsplot para trazar probabilidades pronosticadas por
ses para cada categoría de prog. Los gráficos creados por marginsplot se basan en
el último comando de margins ejecutado. Además, podemos combinar los tres
diagramas de márgenes en un gráfico para facilitar la comparación utilizando el
comando de graph combine. A medida que se genera, a cada marginsplot se le debe
asignar un nombre, que se utilizará mediante la graph combine. Además, nos
gustaría que los ejes “y” tuvieran el mismo rango, así que usamos la opción ycommon
con la graph combine.

Otra forma de entender el modelo utilizando las probabilidades pronosticadas es


observar las probabilidades pronosticadas promediadas para diferentes valores de la
variable write predictiva continua, promediando los niveles de ses.
A veces, unas parejas de gráficos pueden transmitir una gran cantidad de información.
A continuación, trazamos las probabilidades pronosticadas en función de la puntuación
de escritura según el nivel de ses para diferentes niveles de la variable de resultado
También podemos desear ver las medidas de cómo encaja nuestro modelo. Esto
puede ser particularmente útil cuando se comparan modelos de la competencia. El
comando escrito por el usuario fitstat produce una variedad de estadísticas de ajuste.
Puede encontrar más información sobre fitstat y descargar el programa usando el
comando de búsqueda fitstat en Stata (consulte ¿Cómo puedo usar el comando de
búsqueda para buscar programas y obtener ayuda adicional? Para obtener más
información sobre el uso de la búsqueda).

Cosas para considerar

 El supuesto de Independencia de alternativas irrelevantes (IIA):


aproximadamente, el supuesto de IIA significa que agregar o eliminar
categorías de resultados alternativas no afecta las probabilidades entre los
resultados restantes. La prueba del supuesto IIA se puede realizar utilizando el
comando Stata mlogtest, iia. Sin embargo, a partir del 23 de abril de 2010,
mlogtest, iia no funciona con variables de factores. Existen métodos
alternativos de modelado que relajan el supuesto de IIA, como los modelos
probit multinomiales específicos alternativos o los modelos logit anidados.
 Diagnóstico y ajuste del modelo: a diferencia de la regresión logística, donde
hay muchas estadísticas para realizar diagnósticos de modelo, no es tan
sencillo hacer diagnósticos con modelos de regresión logística multinomial. Las
estadísticas de ajuste del modelo se pueden obtener a través del comando
fitstat. Con el fin de detectar valores atípicos o puntos de datos influyentes, uno
puede ejecutar modelos logit separados y usar las herramientas de diagnóstico
en cada modelo.
 Pseudo-R-cuadrado: el R-cuadrado ofrecido en la salida es básicamente el
cambio en términos de probabilidad de registro del modelo de solo intercepción
al modelo actual. No transmite la misma información que el cuadrado R para la
regresión lineal, aunque sigue siendo "cuanto más alto, mejor".
 Tamaño de la muestra: la regresión multinomial utiliza un método de
estimación de máxima verosimilitud, requiere un tamaño de muestra grande.
También utiliza múltiples ecuaciones. Esto implica que requiere un tamaño de
muestra aún mayor que la regresión logística ordinal o binaria.
 Separación completa o casi completa: la separación completa implica que la
variable de resultado separa completamente una variable predictiva, lo que
lleva a una predicción perfecta por parte de la variable predictor. A diferencia
de ejecutar un modelo logit, Stata no ofrece una advertencia cuando esto
sucede. En su lugar, continúa el cálculo de forma iterativa y requiere un cierre
manual para detener el proceso. La predicción perfecta significa que solo un
valor de una variable predictiva está asociado con un solo valor de la variable
de respuesta. Pero, a partir de la salida de los coeficientes de regresión, se
puede ver que algo está mal. Luego puede hacer una tabulación bidireccional
de la variable de resultado con la variable problemática para confirmar esto y
luego volver a ejecutar el modelo sin la variable problemática.
 Celdas vacías o celdas pequeñas: debe verificar si hay celdas vacías o
pequeñas haciendo una tabulación cruzada entre los predictores categóricos y
la variable de resultado. Si una celda tiene muy pocos casos (una celda
pequeña), el modelo puede volverse inestable o puede que ni siquiera
funcione.
 Es posible que sus datos no cumplan perfectamente con los supuestos y que
sus errores estándar estén fuera de lugar. Es posible que desee ver nuestra
página que muestra métodos alternativos para calcular los errores estándar
que ofrece Stata.
 Algunas veces las observaciones se agrupan en grupos (por ejemplo, personas
dentro de las familias, estudiantes dentro de las aulas). En tales casos, es
posible que desee ver nuestra página sobre la no independencia dentro de los
grupos.

Potrebbero piacerti anche