Regresion Logistica

3-7-2018
REGRESIÓN
LOGÍSTICA
Integrantes:
 Loayza Ramos, Carmen
 Sánchez Pizarro, Eliana
 Valencia Cáceres, Leslie
Profesor:
Rino Sotomayor Ruiz
Facultad:
Economía y Planificación
2018-I
INTRODUCCIÓN
Son muchos los problemas y cuestiones de interés en Economía en los que la

variable endógena no toma en la muestra todos los valores de un intervalo real,
sino sólo un número finito de ellos; a veces, esta variable ni siquiera es
cuantificable.
El caso más frecuente de variables endógenas discretas surge cuando el

investigador pretende utilizar un modelo econométrico para explicar la decisión
tomada por un agente económico utilizando para ello un vector de características
de dicho individuo.
La Regresión Logística es una técnica estadística multivariante que permite

estimar la relación existente entre una variable dependiente no métrica, en
particular dicotómica y un conjunto de variables independientes métricas o no
métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis de

Regresión Lineal Múltiple, su diferencias es porque la variable dependiente es
métrica; en la práctica el uso de ambas técnicas tienen mucha semejanza,
aunque sus enfoques matemáticos son diferentes.
REGRESIÓN LOGÍSTICA
Técnica multivariable en la variable dependiente es categórica y las variables

independientes son de cualquier naturaleza (cuantitativas o cualitativas) o
continua.
Determina la probabilidad de que un suceso ocurra.
 ODD: cociente entre la probabilidad de que ocurra un suceso frente a la

probabilidad que no ocurra, teniendo en cuenta otro evento.
 ODD RATIO: es la medida más utilizada en estudio de casos y controles
Características:
 Una cualidad que puede únicamente tomar dos modalidades (modelos

binomiales), son las más frecuentemente utilizadas,
 Una cualidad que puede tomar más de dos modalidades diferentes,
exhaustivas y mutuamente excluyentes (modelos multinomiales),
 Una característica con varias modalidades que presentan entre ellas un
orden natural (modelos ordenados)
 La característica a explicar corresponde a una decisión que puede
suponer decisiones encadenadas (modelos anidados).
OBJETIVOS
El objetivo primordial de esta técnica es el de modelar cómo influyen las variables

regresoras en la probabilidad de ocurrencia de un suceso particular.
Sistemáticamente tiene dos objetivos:

 Investigar cómo influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.
 Determinar el modelo más parsimonioso y mejor ajustado que siendo

razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.
LIMITACIONES
INDEPENDENCIA DE LOS ERRORES
Multicolinealidad: Expresa el grado de interrelación entre los predictores y lo que

la técnica de regresión asume es que ésta es de baja magnitud. Su
incumplimiento tiene graves consecuencias.
Hay dos alternativas cuando la multicolinealidad es alta:
 Regresión sesgada (“ridge regresión”), intenta estabilizar los parámetros

manipulando las varianzas.
 Regresión por componentes principales, que se basa en la alta
correlación entre predictores para definir variados que son combinaciones
lineales de los predictores y emplear los variados como nuevos
predictores del criterio.
NÚMERO DE VARIABLES Y NÚMERO DE SUJETOS
No es recomendable con bajo número de participantes ya que se la estimación

no se hace adecuadamente y además se distorsiona la interpretación.
PUNTOS EXTREMOS
La presencia de puntos extremos puede traducirse en una baja capacidad

predictiva del modelo.
REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de un

evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Se pueden usar varios métodos multivariantes para predecir una variable

respuesta de naturaleza dicotómica a partir de un grupo de variables regresoras.
El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos

métodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.
En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta toma

solo dos valores, se violan los supuestos de necesarios para efectuar inferencias,
los problemas que se plantean son:
 La distribución de los errores aleatorios no es normal.

 Los valores predictados no pueden ser interpretados como probabilidades
como en la Regresión Logística, porque no toman valores dentro del
intervalo [0,1].
El Análisis Discriminante permite la predicción de pertenencia de la unidad de

análisis a uno de los dos grupos pre-establecidos, pero se requiere que se
cumplan los supuestos de multinormalidad de las variables regresoras y la
igualdad de matrices de covarianzas de los dos grupos, pueden ser diferentes
también; para que la regla de predicción sea óptima, Johnson (1982).
La Regresión Logística requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresión Logística
trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la
Regresión Logística, debido a que ambos tienen el mismo objetivo, predecir la
variable respuesta a partir de las variables regresoras.
ANÁLISIS DE REGRESIÓN LOGÍSTICA BINARIA
Es una técnica estadística que tiene como objetivo comprobar relaciones
causales cuando la variable dependiente (y) es una variable binaria decir tiene
dos categorías.
Ejm:
Y=1 COMPRA Y=1 VOTA
Y=0 NO COMPRA Y=0 NO VOTA
Basándose en la idea que las variables independientes tratan de predecir la

probabilidad que ocurra algo sobre la probabilidad de que no ocurra.
Un ejemplo seria si queremos explicar porque las personas votan o no votan en

las elecciones y nuestras variables independientes o regresoras son el nivel de
ingresos, nivel educativo y escala ideológica LA REGRECION LOGISTICA
BINARIA señala si las variables independientes son buenas predictoras o
explicadoras del evento votar.
DEFINICIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA BINARIA

 Componente Aleatorio:
(Yi |πi) ∼ Bin(1, πi)
Donde:
Yi es el número de éxitos observados en la i-ésima muestra
πi es la probabilidad de éxito en la i-ésima muestra.
i = 1, ..., n, siendo n el tamaño de la muestra.
 Componente Sistemático:
ηi = β0 + β1x1,i + ...βpxp,i = x¨ i β
Donde:
ηi es el predictor lineal.
X1,..., Xp son las variables regresoras.
 Función de Enlace:
Si se sabe que:
Despejando:
Donde:
exp (βˆ 0) permite estudiar la relación entre la probabilidad de éxito y
fracaso cuando todas las regresoras son iguales a cero.
exp (βˆ j) indica el cambio (aumento si βj > 0, disminución si βj < 0) en la
chance de éxito cuando la j-ésima regresora se incrementa en una unidad.
REGRESIÓN LOGÍSTICA MÚLTIPLE
La regresión logística multinomial es utilizada en modelos con variables

dependientes de tipo nominal con más de dos categorías (polinómicas) y es de
extensión multivalente de la regresión logística binaria clásica. Las variables
independientes pueden ser continuas (regresores) o categóricas (factores).
Anteriormente las variables dependientes polinómicas han sido

modeladas mediante análisis discriminante pero, con el creciente desarrollo de
las técnicas de cálculo, ahora es más común usar el modelo de regresión
logística multinomial, ya implementados en paquetes estadísticos como S.P.S.S
(NOMREG), debido a la mejor interpretación de los resultados que proporciona.
Para poder presentar las bases teóricas de esta técnica estadística, para ello
consideraremos un caso con dos regresores y una variable polinómica con tres
categorías.
- MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
Consideramos una variable aleatoria dependiente Y categoría nominal

polinómica con soporte (Y)= {1, 2, 3} y con probabilidad p1=p (Y=1), p2=p (Y=2)
y p3=p (Y=3)=1-p1-p2. Supongamos que queremos analizar el efecto que ejercen
dos variables explicativas continuas X1, X2 sobre las probabilidades p1 y p2 que
caracterizan a la variable Y. Podemos redefinir a la variable Y mediante un vector
(Y1, Y2) construido de la siguiente forma:
(Y1, Y2)=
Las variables Y1 e Y2 tienen una distribución de Bernouilli con E (Y1)=p1 y E

(Y2)=p2, al igual que la variable dependiente en una regresión logística binaria
clásica. Obviamente estas dos variables no son independientes ya que Cov (Y1,
Y2)= -p1p2.
Formulamos el modelo multivariante definido por las siguientes ecuaciones:
Donde Z1= β01+β11*X1+β21*X2 y Z2=β02+β12*X1+β22*X2, siendo β01, β11, β21, β02,

β12, β22, parámetros que deseamos estimar.
Con el propósito de interpretar mejor los parámetros que aparecen en el

modelo, podríamos reescribir este de la siguiente forma:
Al cociente p1/p3 se le denomina “odds” de la

categoría 3 y se le representa por O1(X1, X2)= O1 (ídem. Para O2). De este modo
puede observarse fácilmente que la razón de cambio en O 1 cuando X1 se
incrementa en una unidad manteniéndose constante X2 viene dada por, que
recibe el nombre de “odds-ratio” de la categoría 1 respecto de la variable X1 y se
representa por OR1 (X1) (ídem. Para OR1 (X2), OR2 (X1) y OR2 (X2).
Es interesante observar que estas “odds-ratio” dependen de las unidades

en que vengan medidas las variables regresoras (si multiplicamos X1 por 10, OR1
(X1) pasaría a ser ). Por tanto la importancia de cada variable

regresora en el modelo debería medirse por el valor de la odds-ratio suponiendo
que esta estandarizada dicha variable. Este es el motivo por el que se habla de
las “odds-ratio” estandarizadas en las variables regresoras. Por ejemplo
OR1(X*1)=exp (β11.Sx1) siendo Sx1 la deviación típica muestral de la variable X1
(ídem. Para OR1(X*2), OR2(X*1) y OR2(X*2)). Cuando más grande sea este valor
más relevante es la variable dentro del modelo.
También interesa definir las proporciones de cambio en las “odds” con

respecto a cada variable regresora que, por ejemplo, para O1 con respecto a X1,
viene dada por:
y que representaremos por: OC1 (X1) (ídem. Para OC1 (X2), OC2 (X1) y OC2 (X2)).
Otra formulación alternativa, y quizás más conocida, se obtiene tomando

logaritmos en ambas ecuaciones del modelo:
Donde las expresiones del miembro izquierdo se denominan ‘logits’ (al igual que
en la regresión logística binaria) y los parámetros representan las tasas de
cambio en los ‘logits’ cuando una de las variables explicativas se incrementa en
una unidad manteniéndose constante la otra.
- Estimación de parámetros
Dada una muestra de datos (Y1i, Y2i, X1i, X2i) con i=1,2,…., n podemos
definir, en funciones de los parámetros del modelo, las funciones Z 1i, Z2i, p1i, p2i
y abordar el problema de la estimación de los mismos mediante el método de
máxima verosimilitud, como se muestra a continuación.
Con el modelo planteado, la función de verosimilitud de la muestra viene

dada por la siguiente expresión:
En vez de trabajar con esta expresión se utiliza la función auxiliar:
El problema de maximizar la verosimilitud equivalente al de maximizar A A

y puede resolverse por métodos numéricos de forma iterativa partiendo de la
estimación inicial β11= β21= β12= β22=0, β01=ln (n1)-ln(n-n1-n2) y β02=ln (n2)-ln(n-
n1-n2) siendo n1 y n2 el número de observaciones en las categorías 1 y 2
respectivamente. Estos estimadores iniciales se obtienen suponiendo que no
hay una influencia de las variables regresoras en el modelo planteado y para
ellos el valor inicial de la función auxiliar que debemos de minimizar es:
Una vez alcanzada la convergencia del método iterativo, designaremos

por A♀ al mínimo obtenido y por estimado de β01, β11, β21, β02, β12, β22 a los
valores estimados de los parámetro del modelo.
- Significatividad global del modelo.
Podemos contrastar la hipótesis de no existencia de un efecto significativo

global de las variables regresoras teniendo en cuenta que la diferencia entre el
valor inicial y el valor final de la función auxiliar A tiene una distribución X2 con 4
grados de libertad ( en general, numero de regresores multiplicando por número
de categorías menos una). El p-valor del test para la hipótesis nula de que no
existe efecto de las variables regresoras (β11= β21= β12= β22=0) vendrá dado por
p( X24> A0-A1).
-Significatividad del efecto de cada variable regresora
Si llamamos A-1 al mínimo de la función auxiliar que se obtendrá

eliminando del modelo la variable X1 (β11=β12=0) se verifica que la diferencia
entre los mínimos de la función auxiliar en el modelo reducido y en el modelo
completo tiene una distribución X2 con 2 grados de libertad (en general, numero
de regresores menos uno multiplicado por número de categoría menos una). Por
tanto el p-valor del test para la hipótesis nula de que no existe efecto de la
variable X1 (β11=β12=0) vendrá dado por p(X24> A-1 -A♀). De modo similar
podríamos calcular A-0 (mínimo de la función auxiliar eliminando β 01 y β02 del
modelo) y A-2 (mínimo de la función auxiliar eliminando del modelo la variable X2)
y construir test de hipótesis para β01=β02=0 y β21=β22=0, respectivamente.
-Significatividad de cada parámetro
Teniendo en cuenta que el cuadrado de cada estimador dividido por su

error estándar tiene una distribución X2 con 1 grado de libertad podemos
construir test de hipótesis para la igualdad de cada parámetro a cero y podremos
saber que estimadores de los parámetros del modelo son significativamente
distintos de cero. Por ejemplo, para el test de hipótesis β 11=0 el p-valor seria,
siendo
El valor correspondiente al error estándar del estimador del

parámetro β11.
Intervalos de confianza para los parámetros
Basándonos en la normalidad asintótica de los estimadores máximos

verosímiles podemos construir, utilizando la distribución normal, intervalos de
confianza asintóticos para cada uno de los parámetros del modelo y, mediante
las transformaciones correspondientes, intervalos de confianza (I.C.) para las
OR y las OC. Por ejemplo, para el parámetro β11, y utilizando un grado de
confianza de 1–α, tendríamos:
I. C. para β11:
I. C. para OR1(X1):
I: C: para OR1(X*1):
I. C. para OC1(X1):
Siendo zα/2 el valor que, en una distribución normal (0,1), verifica p(Z>zα/2)=α/2
Calidad del ajuste

Al igual que en la regresión logística binaria, la calidad del ajuste en la regresión
logística multinomial se mide mediante coeficientes de determinación conocidos
como Pseudo-R2. De entre todos ellos comentaremos los más clásicos, que son
los que proporciona el paquete estadístico S.P.S.S.
El primero se basa en la función auxiliar Λ utilizada en el ajuste, se conoce

como pseudo-R2 de Mc-Fadden y viene dado por:
Su rango teórico de valores es 0≤ R2MF ≤1, pero muy raramente su valor se

aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 0.2≤ R2MF
≤0.4 y excelente para valores superiores.
Otros autores prefieren coeficientes basados directamente en la verosimilitud L,

y no en la función auxiliar Λ. El más conocido es el pseudo-R2 de Cox-Snell,
definido como
Siendo L0=exp(–Λ0/2) y Lf =exp(–Λf /2). El rango teórico de valores para este

coeficiente es
lo que le hace poco interpretable al depender de L0. Por este motivo es

preferible el pseudo-R2 de Nagelkerke, que se define como
y su rango de valores es 0≤ R2N ≤1 por lo que puede interpretarse del mismo
modo que el coeficiente de determinación de la regresión lineal clásica, aunque
es más difícil que alcance valores próximos a 1.
Para comparar modelos de regresión logística multinomial con diferente número

de variables regresoras suelen introducirse coeficientes Pseudo-R2 ajustados. El
más conocido es el de Mc-Fadden, definido como,
Siendo k el número de regresores.
Calidad en la predicción
Si, a partir del modelo ajustado, clasificamos cada observación en la categoría
más probable, podemos construir una matriz de clasificación observados-
predichos y utilizar el porcentaje de clasificaciones correctas como una medida
de la calidad de predicción, del mismo modo que se hace en el análisis
discriminante.
CASO PRÁCTICO
Un Cuestionario realizado a estudiantes para determinar la demanda potencial

en un nuevo posgrado en finanzas en la División de Ciencias Económicas y
Administrativas de la Universidad de Sonora que se realizó de manera virtual
atreves de la plataforma survey Monkey , en la cual la universidad se encuentra
interesada en abrir un nuevo programa de posgrado.
De los datos proporcionados por la encuesta realizada podremos sugerir que

una variable importante al momento de decidir comenzar una maestría es la
edad. Con la finalidad de probar esta afirmación, tomamos los datos
proporcionados por la encuesta con una muestra de 132 egresados de diversas
edades, entre 23 y 51 años, donde y = 1 si está interesado, y = 0 en caso
contrario. Los datos se encuentran en el archivo posgrado.xls y se muestra una
parte de éstos:
En el SPSS
 Significación de Chi-Cuadrado
Prueba se Hosmer y Lehesshow
H0: El modelo se ajusta a los datos

H1: El modelo no se ajusta a los datos
Para α = 0.05, se tiene que el pvalor supera dicho nivel de significación,

entonces no se rechaza H0, por lo tanto existe evidencia estadística para
indicar que el modelo se ajusta a los datos.
 R- Cuadrado de cox y Snell
R- Cuadrado de Nagelkerke
H0: El modelo se ajusta a los datos

H1: El modelo no se ajusta a los datos
Valor calculado: D = 65.885 Valor crítico o de tabla: X 2 = 151.0452

132−2
Se rechaza H0 si el valor crítico es mayor al calculado. En este caso no

rechazamos H0 por lo que el modelo se ajusta a los datos.
- Deviance (D) es el valor calculado si este es mayor al valor critico quiere

decir que el modelo se ajusta a los datos.
- R2 indica que parte de la varianza de la variable dependiente (Y) es

explicada por el modelo, es decir por las variables regresoras.
Hay dos R 2
R 2 de Cox y Snell: Pseudo coeficiente de determinación, su valor máximo
no es igual a 1
R 2 de Nagelkerke en el cual se realiza la correlación del R 2 de Cox y
Snell, de tal modo que este coeficiente si se encuentra entre 0 y 1.
 Tabla de Clasificación:
Donde el porcentaje global correctamente clasificado indica el número de

casos que el modelo es capaz de predecir correctamente.
El modelo tiene que ser mayor al 50% para que este se clasifique
correctamente.
 TABLA VARIABLES EN LA ECUACION:
HO: β1 = 0
H1: β1 ≠ 0
Para α = 0:05, se tiene que el pvalor es menor al nivel de significación, por

lo que se debe rechazar la hipótesis nula.
Entonces la edad es una variable que contribuye al modelo.

BIBLIOGRAFÍA
https://docplayer.es/23442349-La-regresion-logistica-una-aplicacion-a-la-
demanda-de-estudios-universitarios.html
https://documat.unirioja.es/descarga/articulo/2981898.pdf
1.
http://networkianos.com/regresion-logistica-binaria/

Regresion Logistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regresion Logistica

Caricato da

Copyright:

Formati disponibili

3-7-2018

Son muchos los problemas y cuestiones de interés en Economía en los que la

El caso más frecuente de variables endógenas discretas surge cuando el

La Regresión Logística es una técnica estadística multivariante que permite

El Análisis de Regresión Logística tiene la misma estrategia que el Análisis de

Técnica multivariable en la variable dependiente es categórica y las variables

Determina la probabilidad de que un suceso ocurra.

 ODD: cociente entre la probabilidad de que ocurra un suceso frente a la

 ODD RATIO: es la medida más utilizada en estudio de casos y controles

 Una cualidad que puede únicamente tomar dos modalidades (modelos

El objetivo primordial de esta técnica es el de modelar cómo influyen las variables

Sistemáticamente tiene dos objetivos:

 Determinar el modelo más parsimonioso y mejor ajustado que siendo

INDEPENDENCIA DE LOS ERRORES

Multicolinealidad: Expresa el grado de interrelación entre los predictores y lo que

Hay dos alternativas cuando la multicolinealidad es alta:

 Regresión sesgada (“ridge regresión”), intenta estabilizar los parámetros

NÚMERO DE VARIABLES Y NÚMERO DE SUJETOS

No es recomendable con bajo número de participantes ya que se la estimación

La presencia de puntos extremos puede traducirse en una baja capacidad

El objetivo general de la Regresión Logística es predecir la probabilidad de un

Se pueden usar varios métodos multivariantes para predecir una variable

El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos

En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta toma

 La distribución de los errores aleatorios no es normal.

El Análisis Discriminante permite la predicción de pertenencia de la unidad de

Y=0 NO COMPRA Y=0 NO VOTA

Basándose en la idea que las variables independientes tratan de predecir la

Un ejemplo seria si queremos explicar porque las personas votan o no votan en

DEFINICIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA BINARIA

La regresión logística multinomial es utilizada en modelos con variables

Anteriormente las variables dependientes polinómicas han sido

- MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE

Consideramos una variable aleatoria dependiente Y categoría nominal

Las variables Y1 e Y2 tienen una distribución de Bernouilli con E (Y1)=p1 y E

Donde Z1= β01+β11*X1+β21*X2 y Z2=β02+β12*X1+β22*X2, siendo β01, β11, β21, β02,

Con el propósito de interpretar mejor los parámetros que aparecen en el

Al cociente p1/p3 se le denomina “odds” de la

Es interesante observar que estas “odds-ratio” dependen de las unidades

(X1) pasaría a ser ). Por tanto la importancia de cada variable

También interesa definir las proporciones de cambio en las “odds” con

Otra formulación alternativa, y quizás más conocida, se obtiene tomando

Con el modelo planteado, la función de verosimilitud de la muestra viene

El problema de maximizar la verosimilitud equivalente al de maximizar A A

Una vez alcanzada la convergencia del método iterativo, designaremos

- Significatividad global del modelo.

Podemos contrastar la hipótesis de no existencia de un efecto significativo

-Significatividad del efecto de cada variable regresora

Si llamamos A-1 al mínimo de la función auxiliar que se obtendrá

-Significatividad de cada parámetro

Teniendo en cuenta que el cuadrado de cada estimador dividido por su

El valor correspondiente al error estándar del estimador del

Intervalos de confianza para los parámetros

Basándonos en la normalidad asintótica de los estimadores máximos

Calidad del ajuste

El primero se basa en la función auxiliar Λ utilizada en el ajuste, se conoce

Su rango teórico de valores es 0≤ R2MF ≤1, pero muy raramente su valor se

Otros autores prefieren coeficientes basados directamente en la verosimilitud L,

Siendo L0=exp(–Λ0/2) y Lf =exp(–Λf /2). El rango teórico de valores para este

lo que le hace poco interpretable al depender de L0. Por este motivo es

Para comparar modelos de regresión logística multinomial con diferente número

Siendo k el número de regresores.

Un Cuestionario realizado a estudiantes para determinar la demanda potencial

Donde Z1= β01+β11X1+β21X2 y Z2=β02+β12X1+β22X2, siendo β01, β11, β21, β02,