Sei sulla pagina 1di 19

3-7-2018

REGRESIÓN
LOGÍSTICA

Integrantes:
 Loayza Ramos, Carmen
 Sánchez Pizarro, Eliana
 Valencia Cáceres, Leslie

Profesor:
Rino Sotomayor Ruiz

Facultad:
Economía y Planificación

2018-I
INTRODUCCIÓN

Son muchos los problemas y cuestiones de interés en Economía en los que la


variable endógena no toma en la muestra todos los valores de un intervalo real,
sino sólo un número finito de ellos; a veces, esta variable ni siquiera es
cuantificable.

El caso más frecuente de variables endógenas discretas surge cuando el


investigador pretende utilizar un modelo econométrico para explicar la decisión
tomada por un agente económico utilizando para ello un vector de características
de dicho individuo.

La Regresión Logística es una técnica estadística multivariante que permite


estimar la relación existente entre una variable dependiente no métrica, en
particular dicotómica y un conjunto de variables independientes métricas o no
métricas.

El Análisis de Regresión Logística tiene la misma estrategia que el Análisis de


Regresión Lineal Múltiple, su diferencias es porque la variable dependiente es
métrica; en la práctica el uso de ambas técnicas tienen mucha semejanza,
aunque sus enfoques matemáticos son diferentes.
REGRESIÓN LOGÍSTICA

Técnica multivariable en la variable dependiente es categórica y las variables


independientes son de cualquier naturaleza (cuantitativas o cualitativas) o
continua.

Determina la probabilidad de que un suceso ocurra.

 ODD: cociente entre la probabilidad de que ocurra un suceso frente a la


probabilidad que no ocurra, teniendo en cuenta otro evento.

 ODD RATIO: es la medida más utilizada en estudio de casos y controles

Características:

 Una cualidad que puede únicamente tomar dos modalidades (modelos


binomiales), son las más frecuentemente utilizadas,
 Una cualidad que puede tomar más de dos modalidades diferentes,
exhaustivas y mutuamente excluyentes (modelos multinomiales),
 Una característica con varias modalidades que presentan entre ellas un
orden natural (modelos ordenados)
 La característica a explicar corresponde a una decisión que puede
suponer decisiones encadenadas (modelos anidados).
OBJETIVOS

El objetivo primordial de esta técnica es el de modelar cómo influyen las variables


regresoras en la probabilidad de ocurrencia de un suceso particular.

Sistemáticamente tiene dos objetivos:


 Investigar cómo influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.

 Determinar el modelo más parsimonioso y mejor ajustado que siendo


razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.

LIMITACIONES

INDEPENDENCIA DE LOS ERRORES

Multicolinealidad: Expresa el grado de interrelación entre los predictores y lo que


la técnica de regresión asume es que ésta es de baja magnitud. Su
incumplimiento tiene graves consecuencias.

Hay dos alternativas cuando la multicolinealidad es alta:

 Regresión sesgada (“ridge regresión”), intenta estabilizar los parámetros


manipulando las varianzas.
 Regresión por componentes principales, que se basa en la alta
correlación entre predictores para definir variados que son combinaciones
lineales de los predictores y emplear los variados como nuevos
predictores del criterio.

NÚMERO DE VARIABLES Y NÚMERO DE SUJETOS

No es recomendable con bajo número de participantes ya que se la estimación


no se hace adecuadamente y además se distorsiona la interpretación.

PUNTOS EXTREMOS

La presencia de puntos extremos puede traducirse en una baja capacidad


predictiva del modelo.
REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS

El objetivo general de la Regresión Logística es predecir la probabilidad de un


evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.

Se pueden usar varios métodos multivariantes para predecir una variable


respuesta de naturaleza dicotómica a partir de un grupo de variables regresoras.

El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos


métodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.

En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta toma


solo dos valores, se violan los supuestos de necesarios para efectuar inferencias,
los problemas que se plantean son:

 La distribución de los errores aleatorios no es normal.


 Los valores predictados no pueden ser interpretados como probabilidades
como en la Regresión Logística, porque no toman valores dentro del
intervalo [0,1].

El Análisis Discriminante permite la predicción de pertenencia de la unidad de


análisis a uno de los dos grupos pre-establecidos, pero se requiere que se
cumplan los supuestos de multinormalidad de las variables regresoras y la
igualdad de matrices de covarianzas de los dos grupos, pueden ser diferentes
también; para que la regla de predicción sea óptima, Johnson (1982).

La Regresión Logística requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresión Logística
trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la
Regresión Logística, debido a que ambos tienen el mismo objetivo, predecir la
variable respuesta a partir de las variables regresoras.
ANÁLISIS DE REGRESIÓN LOGÍSTICA BINARIA
Es una técnica estadística que tiene como objetivo comprobar relaciones
causales cuando la variable dependiente (y) es una variable binaria decir tiene
dos categorías.

Ejm:
Y=1 COMPRA Y=1 VOTA

Y=0 NO COMPRA Y=0 NO VOTA

Basándose en la idea que las variables independientes tratan de predecir la


probabilidad que ocurra algo sobre la probabilidad de que no ocurra.

Un ejemplo seria si queremos explicar porque las personas votan o no votan en


las elecciones y nuestras variables independientes o regresoras son el nivel de
ingresos, nivel educativo y escala ideológica LA REGRECION LOGISTICA
BINARIA señala si las variables independientes son buenas predictoras o
explicadoras del evento votar.

DEFINICIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA BINARIA


 Componente Aleatorio:
(Yi |πi) ∼ Bin(1, πi)
Donde:
Yi es el número de éxitos observados en la i-ésima muestra
πi es la probabilidad de éxito en la i-ésima muestra.
i = 1, ..., n, siendo n el tamaño de la muestra.

 Componente Sistemático:
ηi = β0 + β1x1,i + ...βpxp,i = x¨ i β
Donde:
ηi es el predictor lineal.
X1,..., Xp son las variables regresoras.
 Función de Enlace:

Si se sabe que:
Despejando:

Donde:
exp (βˆ 0) permite estudiar la relación entre la probabilidad de éxito y
fracaso cuando todas las regresoras son iguales a cero.
exp (βˆ j) indica el cambio (aumento si βj > 0, disminución si βj < 0) en la
chance de éxito cuando la j-ésima regresora se incrementa en una unidad.
REGRESIÓN LOGÍSTICA MÚLTIPLE

La regresión logística multinomial es utilizada en modelos con variables


dependientes de tipo nominal con más de dos categorías (polinómicas) y es de
extensión multivalente de la regresión logística binaria clásica. Las variables
independientes pueden ser continuas (regresores) o categóricas (factores).

Anteriormente las variables dependientes polinómicas han sido


modeladas mediante análisis discriminante pero, con el creciente desarrollo de
las técnicas de cálculo, ahora es más común usar el modelo de regresión
logística multinomial, ya implementados en paquetes estadísticos como S.P.S.S
(NOMREG), debido a la mejor interpretación de los resultados que proporciona.

Para poder presentar las bases teóricas de esta técnica estadística, para ello
consideraremos un caso con dos regresores y una variable polinómica con tres
categorías.

- MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

Consideramos una variable aleatoria dependiente Y categoría nominal


polinómica con soporte (Y)= {1, 2, 3} y con probabilidad p1=p (Y=1), p2=p (Y=2)
y p3=p (Y=3)=1-p1-p2. Supongamos que queremos analizar el efecto que ejercen
dos variables explicativas continuas X1, X2 sobre las probabilidades p1 y p2 que
caracterizan a la variable Y. Podemos redefinir a la variable Y mediante un vector
(Y1, Y2) construido de la siguiente forma:

(Y1, Y2)=

Las variables Y1 e Y2 tienen una distribución de Bernouilli con E (Y1)=p1 y E


(Y2)=p2, al igual que la variable dependiente en una regresión logística binaria
clásica. Obviamente estas dos variables no son independientes ya que Cov (Y1,
Y2)= -p1p2.
Formulamos el modelo multivariante definido por las siguientes ecuaciones:

Donde Z1= β01+β11*X1+β21*X2 y Z2=β02+β12*X1+β22*X2, siendo β01, β11, β21, β02,


β12, β22, parámetros que deseamos estimar.

Con el propósito de interpretar mejor los parámetros que aparecen en el


modelo, podríamos reescribir este de la siguiente forma:

Al cociente p1/p3 se le denomina “odds” de la


categoría 3 y se le representa por O1(X1, X2)= O1 (ídem. Para O2). De este modo
puede observarse fácilmente que la razón de cambio en O 1 cuando X1 se
incrementa en una unidad manteniéndose constante X2 viene dada por, que
recibe el nombre de “odds-ratio” de la categoría 1 respecto de la variable X1 y se
representa por OR1 (X1) (ídem. Para OR1 (X2), OR2 (X1) y OR2 (X2).

Es interesante observar que estas “odds-ratio” dependen de las unidades


en que vengan medidas las variables regresoras (si multiplicamos X1 por 10, OR1

(X1) pasaría a ser ). Por tanto la importancia de cada variable


regresora en el modelo debería medirse por el valor de la odds-ratio suponiendo
que esta estandarizada dicha variable. Este es el motivo por el que se habla de
las “odds-ratio” estandarizadas en las variables regresoras. Por ejemplo
OR1(X*1)=exp (β11.Sx1) siendo Sx1 la deviación típica muestral de la variable X1
(ídem. Para OR1(X*2), OR2(X*1) y OR2(X*2)). Cuando más grande sea este valor
más relevante es la variable dentro del modelo.

También interesa definir las proporciones de cambio en las “odds” con


respecto a cada variable regresora que, por ejemplo, para O1 con respecto a X1,
viene dada por:

y que representaremos por: OC1 (X1) (ídem. Para OC1 (X2), OC2 (X1) y OC2 (X2)).

Otra formulación alternativa, y quizás más conocida, se obtiene tomando


logaritmos en ambas ecuaciones del modelo:

Donde las expresiones del miembro izquierdo se denominan ‘logits’ (al igual que
en la regresión logística binaria) y los parámetros representan las tasas de
cambio en los ‘logits’ cuando una de las variables explicativas se incrementa en
una unidad manteniéndose constante la otra.

- Estimación de parámetros

Dada una muestra de datos (Y1i, Y2i, X1i, X2i) con i=1,2,…., n podemos
definir, en funciones de los parámetros del modelo, las funciones Z 1i, Z2i, p1i, p2i
y abordar el problema de la estimación de los mismos mediante el método de
máxima verosimilitud, como se muestra a continuación.

Con el modelo planteado, la función de verosimilitud de la muestra viene


dada por la siguiente expresión:
En vez de trabajar con esta expresión se utiliza la función auxiliar:

El problema de maximizar la verosimilitud equivalente al de maximizar A A


y puede resolverse por métodos numéricos de forma iterativa partiendo de la
estimación inicial β11= β21= β12= β22=0, β01=ln (n1)-ln(n-n1-n2) y β02=ln (n2)-ln(n-
n1-n2) siendo n1 y n2 el número de observaciones en las categorías 1 y 2
respectivamente. Estos estimadores iniciales se obtienen suponiendo que no
hay una influencia de las variables regresoras en el modelo planteado y para
ellos el valor inicial de la función auxiliar que debemos de minimizar es:

Una vez alcanzada la convergencia del método iterativo, designaremos


por A♀ al mínimo obtenido y por estimado de β01, β11, β21, β02, β12, β22 a los
valores estimados de los parámetro del modelo.

- Significatividad global del modelo.

Podemos contrastar la hipótesis de no existencia de un efecto significativo


global de las variables regresoras teniendo en cuenta que la diferencia entre el
valor inicial y el valor final de la función auxiliar A tiene una distribución X2 con 4
grados de libertad ( en general, numero de regresores multiplicando por número
de categorías menos una). El p-valor del test para la hipótesis nula de que no
existe efecto de las variables regresoras (β11= β21= β12= β22=0) vendrá dado por
p( X24> A0-A1).

-Significatividad del efecto de cada variable regresora

Si llamamos A-1 al mínimo de la función auxiliar que se obtendrá


eliminando del modelo la variable X1 (β11=β12=0) se verifica que la diferencia
entre los mínimos de la función auxiliar en el modelo reducido y en el modelo
completo tiene una distribución X2 con 2 grados de libertad (en general, numero
de regresores menos uno multiplicado por número de categoría menos una). Por
tanto el p-valor del test para la hipótesis nula de que no existe efecto de la
variable X1 (β11=β12=0) vendrá dado por p(X24> A-1 -A♀). De modo similar
podríamos calcular A-0 (mínimo de la función auxiliar eliminando β 01 y β02 del
modelo) y A-2 (mínimo de la función auxiliar eliminando del modelo la variable X2)
y construir test de hipótesis para β01=β02=0 y β21=β22=0, respectivamente.

-Significatividad de cada parámetro

Teniendo en cuenta que el cuadrado de cada estimador dividido por su


error estándar tiene una distribución X2 con 1 grado de libertad podemos
construir test de hipótesis para la igualdad de cada parámetro a cero y podremos
saber que estimadores de los parámetros del modelo son significativamente
distintos de cero. Por ejemplo, para el test de hipótesis β 11=0 el p-valor seria,
siendo

El valor correspondiente al error estándar del estimador del


parámetro β11.

Intervalos de confianza para los parámetros

Basándonos en la normalidad asintótica de los estimadores máximos


verosímiles podemos construir, utilizando la distribución normal, intervalos de
confianza asintóticos para cada uno de los parámetros del modelo y, mediante
las transformaciones correspondientes, intervalos de confianza (I.C.) para las
OR y las OC. Por ejemplo, para el parámetro β11, y utilizando un grado de
confianza de 1–α, tendríamos:

I. C. para β11:

I. C. para OR1(X1):

I: C: para OR1(X*1):

I. C. para OC1(X1):
Siendo zα/2 el valor que, en una distribución normal (0,1), verifica p(Z>zα/2)=α/2

Calidad del ajuste


Al igual que en la regresión logística binaria, la calidad del ajuste en la regresión
logística multinomial se mide mediante coeficientes de determinación conocidos
como Pseudo-R2. De entre todos ellos comentaremos los más clásicos, que son
los que proporciona el paquete estadístico S.P.S.S.

El primero se basa en la función auxiliar Λ utilizada en el ajuste, se conoce


como pseudo-R2 de Mc-Fadden y viene dado por:

Su rango teórico de valores es 0≤ R2MF ≤1, pero muy raramente su valor se


aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 0.2≤ R2MF
≤0.4 y excelente para valores superiores.

Otros autores prefieren coeficientes basados directamente en la verosimilitud L,


y no en la función auxiliar Λ. El más conocido es el pseudo-R2 de Cox-Snell,
definido como

Siendo L0=exp(–Λ0/2) y Lf =exp(–Λf /2). El rango teórico de valores para este


coeficiente es

lo que le hace poco interpretable al depender de L0. Por este motivo es


preferible el pseudo-R2 de Nagelkerke, que se define como
y su rango de valores es 0≤ R2N ≤1 por lo que puede interpretarse del mismo
modo que el coeficiente de determinación de la regresión lineal clásica, aunque
es más difícil que alcance valores próximos a 1.

Para comparar modelos de regresión logística multinomial con diferente número


de variables regresoras suelen introducirse coeficientes Pseudo-R2 ajustados. El
más conocido es el de Mc-Fadden, definido como,

Siendo k el número de regresores.

Calidad en la predicción
Si, a partir del modelo ajustado, clasificamos cada observación en la categoría
más probable, podemos construir una matriz de clasificación observados-
predichos y utilizar el porcentaje de clasificaciones correctas como una medida
de la calidad de predicción, del mismo modo que se hace en el análisis
discriminante.
CASO PRÁCTICO

Un Cuestionario realizado a estudiantes para determinar la demanda potencial


en un nuevo posgrado en finanzas en la División de Ciencias Económicas y
Administrativas de la Universidad de Sonora que se realizó de manera virtual
atreves de la plataforma survey Monkey , en la cual la universidad se encuentra
interesada en abrir un nuevo programa de posgrado.

De los datos proporcionados por la encuesta realizada podremos sugerir que


una variable importante al momento de decidir comenzar una maestría es la
edad. Con la finalidad de probar esta afirmación, tomamos los datos
proporcionados por la encuesta con una muestra de 132 egresados de diversas
edades, entre 23 y 51 años, donde y = 1 si está interesado, y = 0 en caso
contrario. Los datos se encuentran en el archivo posgrado.xls y se muestra una
parte de éstos:

En el SPSS
 Significación de Chi-Cuadrado
Prueba se Hosmer y Lehesshow

H0: El modelo se ajusta a los datos


H1: El modelo no se ajusta a los datos

Para α = 0.05, se tiene que el pvalor supera dicho nivel de significación,


entonces no se rechaza H0, por lo tanto existe evidencia estadística para
indicar que el modelo se ajusta a los datos.
 R- Cuadrado de cox y Snell
R- Cuadrado de Nagelkerke

H0: El modelo se ajusta a los datos


H1: El modelo no se ajusta a los datos

Valor calculado: D = 65.885 Valor crítico o de tabla: X 2 = 151.0452


132−2

Se rechaza H0 si el valor crítico es mayor al calculado. En este caso no


rechazamos H0 por lo que el modelo se ajusta a los datos.

- Deviance (D) es el valor calculado si este es mayor al valor critico quiere


decir que el modelo se ajusta a los datos.

- R2 indica que parte de la varianza de la variable dependiente (Y) es


explicada por el modelo, es decir por las variables regresoras.
Hay dos R 2
R 2 de Cox y Snell: Pseudo coeficiente de determinación, su valor máximo
no es igual a 1
R 2 de Nagelkerke en el cual se realiza la correlación del R 2 de Cox y
Snell, de tal modo que este coeficiente si se encuentra entre 0 y 1.
 Tabla de Clasificación:

Donde el porcentaje global correctamente clasificado indica el número de


casos que el modelo es capaz de predecir correctamente.
El modelo tiene que ser mayor al 50% para que este se clasifique
correctamente.
 TABLA VARIABLES EN LA ECUACION:

HO: β1 = 0

H1: β1 ≠ 0

Para α = 0:05, se tiene que el pvalor es menor al nivel de significación, por


lo que se debe rechazar la hipótesis nula.

Entonces la edad es una variable que contribuye al modelo.


BIBLIOGRAFÍA

https://docplayer.es/23442349-La-regresion-logistica-una-aplicacion-a-la-
demanda-de-estudios-universitarios.html

https://documat.unirioja.es/descarga/articulo/2981898.pdf
1.
http://networkianos.com/regresion-logistica-binaria/

Potrebbero piacerti anche