Sei sulla pagina 1di 34

El Anlisis de la Regresin

a travs de SPSS
M . D olores M artnez M iranda
Profesora del D pto. E stadstica e I.O.
U niversidad de G ranada

Referencias bibliogrficas
1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante
(5 edicin). Ed. Prentice Hall.
2. Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.
INTRODUCCIN
El Anlisis de Regresin tiene como objetivo
estudiar la relacin entre variables.
Permite expresar dicha relacin en trminos de
una ecuacin que conecta una variable de
respuesta Y, con una o ms variables
explicativas X1,X2,,Xk.
Finalidad:
 Determinacin explcita del funcional que relaciona
las variables. (Prediccin)
 Comprensin por parte del analista de las
interrelaciones entre las variables que intervienen
en el anlisis.
PLANTEAMIENTO GENERAL

Notacin:
Y variable de respuesta (dependiente, endgena, explicada)
X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)

Modelo general de Regresin:


Y = m (X1,X2,,Xk ) +
m funcin de regresin
residuos del modelo (errores de observacin, inadecuacin del
modelo)
Variantes del Anlisis de Regresin
en SPSS
 Segn el nmero de v. explicativas: Simple o Mltiple.

 Supuestos sobre la funcin de regresin

Regresin lineal
Y= 0+ 1 X1+ 2 X2 ++ k Xk +

Estimacin curvilnea (Potencial, exponencial, hiperblica, etc.)

Y = exp (a + b X) ln Y = a + b X
Linealizacin

Regresin no lineal (Algoritmos de estimacin iterativos)


Variantes del Anlisis de Regresin
en SPSS
 Tipo de datos

Regresin logstica, Modelos Probit (La variable de respuesta es


binaria)

Regresin ordinal (La variable de respuesta es de tipo ordinal)

Escalamiento ptimo o regresin categrica (Las variables


explicativas y/o explicada, pueden ser nominales)

 Situaciones especiales en la estimacin del modelo lineal: Mnimos


cuadrados en dos fases (correlacin entre residuos y v. explicativas),
estimacion ponderada (situacin de heterocedasticidad)
Submen REGRESIN
Regresin lineal mltiple

Ajuste de curvas mediante linealizacin

Modelos de regresin con


respuestas binarias u ordinales

Modelos de regresin no lineales

Modelos de regresin con


variables categricas Correcciones en el modelo lineal
Contenidos: Aplicaciones con SPSS
Regresin lineal (mltiple)
Estimacin ponderada
Mnimos cuadrados en dos fases
Escalamiento ptimo
Regresin curvilnea
Regresin no lineal
Regresin lineal mltiple
-Modelo terico-

Modelo lineal Y= 0+ 1 X1+ 2 X2 ++ k Xk + (1)


Parmetros
j magnitud del efecto que Xj tienen sobre Y (incremento en la media de
Y cuando Xj aumenta una unidad)

0 trmino constante (promedio de Y cuando las v. explicativas valen 0)


residuos (perturbaciones aleatorias, error del modelo)

Datos (observaciones, muestra) { (Yi, X1i,,Xki) : i = 1,,n }


PROBLEMA Suponiendo que la relacin entre las variables es como
en (1), estimar los coeficientes ( j ) utilizando la
informacin proporcionada por la muestra
Regresin lineal mltiple
-Modelo terico-
Y X X 21 L Xk1 0 1
1 11
Expresin matricial Y2 X12 X 22 L Xk 2 1 2
M = M +
Y=X + M O M M M

HIPTESIS Yn X1n X 2n L Xkn k n
 j son v.v.a.a. con media 0 e independientes de las Xj
 Homocedasticidad: tienen varianzas iguales ( 2)
j

 No autocorrelacin: j son incorreladas entre s


 j son normales e independientes (Inferencia sobre el modelo)
 No multicolinealidad: Las columnas de X son linealmente
independientes ( rango(X) = k+1 )
Estimacin del modelo
^
Yi valor predicho
Problema de mnimos cuadrados
n 2

Minimizar { Yi ( 0 + 1X i1 + ... + k X ik )}
0 , 1,..., k i=1
Solucin
( n > k+1 ) Suma residual de cuadrados
Residuo estimado : i = Yi Yi

(
=
0

1 L
k
T
=)(X T X)-1 XT Y

Estimacin de los coeficientes


Ejemplo con SPSS (Coches.sav)

Objetivo: Ajustar un modelo lineal que permita predecir el consumo en


funcin de motor, cv, peso y acel
Variable dependiente
CONSUMO Consumo (l/100Km)
Variables independientes
MOTOR Cilindrada en cc
CV Potencia (CV)
PESO Peso total (kg)
ACEL Aceleracin 0 a 100 km/h (segundos)
Analizar
Regresin
Lineal

Coeficientesa

Coeficientes
Coeficientes no estandarizad
estandarizados os Coeficientes tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) ,432 1,166 ,370 ,711 Comparacin de los efectos
Cilindrada en cc 3,093E-04 ,000 ,134 1,612 ,108
Potencia (CV) 4,386E-02 ,008 ,424 5,582 ,000
Peso total (kg) 4,948E-03 ,001 ,355 4,404 ,000 Xj
Aceleracin 0 a 100 b =
km/h (segundos)
2,504E-02 ,059 ,018 ,424 ,672
j j
a. Variable dependiente: Consumo (l/100Km) Y

= (0
2 L T
k ) Significacin
individual de las
Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV + variables y de la
+ 4.948E-03 Peso + 2.504E-02 Acel constante
(Inferencia)
Inferencia sobre el modelo
Significacin individual de las variables
Utilidad: Verficar si cada variable aporta informacin significativa al anlisis
Nota: Depende de las interrelaciones entre las variables, no es concluyente

Contraste de hiptesis ( Xj ) Aceptar H0 significa que la variable


no aporta informacin significativa
H0 : j =0 en el anlisis de regresin realizado
H1 : j 0

Resolucin j
T= t n-k -1
SE( j ) Bajo H0
Inferencia sobre el modelo
Significacin de la constante
Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan
Contraste de hiptesis
Aceptar H0 significa que
no es conveniente incluir un trmino constante
H0 : 0 =0 en el anlisis de regresin realizado
H1 : 0 0

Resolucin 0
T= t n- 2

SE( 0 ) Bajo H0
Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )
Si p-valor < entonces se rechaza la hiptesis nula
Coeficientesa

Coeficientes
H0 : 0 =0
Coeficientes no estandarizad
estandarizados os H1 : 0 0
Modelo B Error tp. Beta t Sig.
1 (Constante) ,432 1,166 ,370 ,711
Cilindrada en cc 3,093E-04 ,000 ,134 1,612 ,108
Potencia (CV) 4,386E-02 ,008 ,424 5,582 ,000
Peso total (kg) 4,948E-03 ,001 ,355 4,404 ,000 Al 5% se puede no incluir
Aceleracin 0 a 100
km/h (segundos)
2,504E-02 ,059 ,018 ,424 ,672 constante en el modelo
a. Variable dependiente: Consumo (l/100Km)

H0 : j =0
Al nivel de significacin del 5%: H1 : j 0
Motor (0.108) y Acel (0.672) no son significativas
CV (0.000) y Peso (0.000) s son significativas
Inferencia sobre el modelo
Bondad de ajuste
Descomposicin de la variabilidad
n n n
( Yi y )
= ( Yi y ) + i
2 2
2

i=14
1 4244
3 1 i=14
4244 3 1 i=123
VT VE VNE

Coeficiente de determinacin R: Coeficiente correlacin lineal mltiple


VE VNE Indica la mayor correlacin entre Y y las
R2 = = 1- c.l. de las v. explicativas
VT VT

Inconveniente: Sobrevalora la bondad del ajuste

2 n -1 2
Coeficiente de determinacin corregido R = 1- R
n - k -1
Ejemplo (Coches.sav)
Resumen del modelob

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
1 ,869a ,755 ,752 1,970
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h
(segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variable dependiente: Consumo (l/100Km)

R2 = 0.755 Consumo queda explicada en un 75.5% por las variables


explicativas segn el modelo lineal considerado
R2 corregido = 0.752 (siempre algo menor que R2)
Inferencia sobre el modelo
Contraste de regresin (ANOVA)
Utilidad: Verificar que (de forma conjunta) las v.explicativas aportan
informacin en la explicacin de la variable de respuesta
Contraste:
H0 : 1 = 2 = = k =0 H0 : R = 0
H1 : Algn j 0 H1 : R 0
Aceptar H0 significa que
las v.explicativas no estn relacionadas linealmente con Y

Resolucin (ANOVA)

VE / k
F= H Fk, n-k -1
Bajo
VNE / (n - k - 1) 0
Ejemplo (Coches.sav)

Contraste de regresin
Al 5% se rechaza H0
ANOVAb

Suma de Media
(las variables explicativas
Modelo
1 Regresin
cuadrados
4626,220
gl
4
cuadrtica
1156,555
F
297,956
Sig.
,000a
influyen de forma conjunta
Residual
Total
1502,188 387 3,882 y lineal sobre Y)
6128,408 391
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso
total (kg), Potencia (CV), Cilindrada en cc
b. Variable dependiente: Consumo (l/100Km)

Fuente de Suma de Grados de Media F exp.


variabilidad cuadrados libertad cuadrtica

Modelo VE k VE / k VE / k
VNE / (n-k-1)
Residual VNE n-k-1 VNE / (n-k-1)
Total VT n-1
Prediccin
Bandas de confianza
Grfico de dispersin
Predicciones para Y
(dentro del rango de prediccin) Variable dependiente: Consumo (l/100Km)

Regresin Valor pronosticado tipificado


3

Y( x1, x 2 ,..., x k ) = 0 + 1x 1 + ... + k xk 2

I.C. para los valores predichos de Y 0

-1

I.C. para la media de Y -2


0 10 20 30
R = 0.7549

Consumo (l/100Km)
El anlisis de los residuos
Objetivo: Verificar que no se violan las hiptesis sobre las
que se estima el modelo y se realiza la inferencia

1. Normalidad de los residuos


Posibles correcciones:
2. No autocorrelacin
Deteccin de atpicos y
puntos influyentes
3. Homocedasticidad
Transformaciones
4. Falta de linealidad Variables ficticias

5. No multicolinealidad Ajustes polinomiales


Trminos de interaccin
1.1. Normalidad de los residuos
Herramientas disponibles en SPSS
Grficos: Histograma, grfico probabilstico normal
Grfico P-P normal de regresin Residuo tipificado
Histograma 1.00
100

80 .75

60
.50

Prob acum esperada


40

.25
Frecuencia

20
Desv. tp. = ,99
Media = 0,00 0.00
N = 392,00 0.00 .25 .50 .75 1.00
0

Residuo tipificado Prob acum observada

Contrastes: Kolmogorov-Smirknov, Shapiro-Wilks,


1.2. No autocorrelacin
Hace referencia a los efectos de la inercia de una observacin a otra
que pueda indicar la no independencia entre los residuos.
Se trata de buscar modelos o pautas en los grficos residuales frente
al nmero de caso (incluso con cada variable independiente).

Herramientas disponibles en SPSS: Grficos residuales y el


estadstico de Durbin-Watson
4

Error tp. de la Durbin-W


3
estimacin atson
1,970 1,228
2
Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos),

H0: No hay autocorrelacin


0
Standardized Residual

Si d<1.18 rechazar,
-1
Si d>1.4 no rechazar.
-2 Si 1.18<d<1.4 no es concluyente

-3
-100 0 100 200 300 400 500 Posibles soluciones:
Nmero de orden de las observaciones - Transformaciones
- Aadir variables
1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los
valores que van tomando las variables independientes.

Herramientas disponibles en SPSS: Grficos residuales


4 4

30 3 3

2 2

1 1

0 0

Standardized Residual

Standardized Residual
20 -1 -1

-2 -2

-3 -3
0 100 200 300 1000 2000 3000 4000 5000 6000 7000 8000

Potencia (CV) Cilindrada en cc


Consumo (l/100Km)

10
4 4

3 3

2 2

1 1
0
-2 -1 0 1 2 3 0 0
Standardized Residual

Standardized Residual
-1 -1
Regresin Valor pronosticado tipificado
-2 -2

-3 -3
400 600 800 1000 1200 1400 1600 1800 0 10 20 30

Peso total (kg) Aceleracin 0 a 100 km/h (segundos)


1.4. Falta de linealidad
Hace referencia a las posibles desviaciones de los datos
desde el modelo lineal que se est ajustando.

Herramientas disponibles en SPSS: Grficos de regresin parcial


y grficos residuales
Grfico de regresin parcial Grfico de regresin parcial
Variable dependiente: Consumo (l/100Km) Variable dependiente: Consumo (l/100Km)
30 20

20
10

10
Consumo (l/100Km)

Consumo (l/100Km)
0
0

Son diagramas de dispersin


-10
-2000 -1000 0 1000 2000 3000
-10
-800 -600 -400 -200 0 200 400
de los residuos de cada v.
Cilindrada en cc Peso total (kg) independiente y los residuos
de la v. dependiente cuando
Grfico de regresin parcial Grfico de regresin parcial se regresan ambas por
Variable dependiente: Consumo (l/100Km) Variable dependiente: Consumo (l/100Km)
30 30 separado sobre las restantes
v. independientes.
20 20

10 10
Consumo (l/100Km)

Consumo (l/100Km)

0 0

-10 -10
-40 -20 0 20 40 60 80 -6 -4 -2 0 2 4 6 8

Potencia (CV) Aceleracin 0 a 100 km/h (segundos)


1.5. No multicolinealidad
Colinealidad es la asociacin, medida como correlacin,
entre dos variables explicativas (el trmino multicolinealidad
se utiliza para tres o ms variables explicativas).
Impacto de la
multicolinealidad
Reduccin del poder explicativo de cualquier v. explicativa individual en la medida
en que est correlada con las otras v. explicativas presentes en el modelo.
Herramientas disponibles en SPSS: ndices de condicionamiento, FIV
Diagnsticos de colinealidada 1. Identificar los ndices que
estn por encima del
Proporciones de la varianza
Aceleracin
umbral: 30
Indice de Cilindrada Peso total 0 a 100 km/h
Modelo Dimensin Autovalor condicin (Constante) en cc Potencia (CV) (kg) (segundos) 2. Para los ndices
1 1 4,729 1,000 ,00 ,00 ,00 ,00 ,00
2 ,238 4,454 ,00 ,03 ,00 ,00 ,02
identificados, identificar las
3 2,268E-02 14,440 ,03 ,22 ,29 ,01 ,06 variables con proporciones
4 6,265E-03 27,474 ,20 ,75 ,02 ,70 ,00
de varianza por encima del
5 3,612E-03 36,185 ,76 ,01 ,69 ,29 ,92
a. Variable dependiente: Consumo (l/100Km) 90%: Habr
multicolinealidad si ocurre
con dos o ms coeficientes.

Posibles soluciones:
- ACP y utilizar las componentes principales como regresores.
- A la vista de las correlaciones eliminar variables redundantes.
Datos anmalos
Medidas de influencia
Objetivo: Detectar datos anmalos y datos influyentes

Datos anmalos (atpicos)


Individuos cuyo residuos tipificado es superior a 3 (en valor
absoluto)
Datos influyentes
Individuos cuya omisin produce cambios notables en los
resultados del anlisis
Herramientas estadsticas (medidas de influencia)
Identificacin de puntos de apalancamiento (observaciones
aisladas del resto sobre una o ms v.independientes)

Observaciones influyentes: influencias sobre coeficientes individuales,


medidas globales de influencia.
Medidas para identificar puntos de apalancamiento:
Leverage o medida de influencia: Lmite: 2(k+1) / n (Si n>50, 3(k+1) / n)
Distancia de Mahalanobis: Considera la distancia de cada observacin
desde los valores medios de las v.independientes. Existen tablas para contrastar,
pero en general se procede a identificar valores considerablemente altos
respecto al resto.

Medidas para identificar observaciones influyentes:


Influencias sobre coeficientes individuales:
DFBETA Mide el efecto del dato i-simo ejerce sobre j. Lmites para la versin
estandarizada: 2 n - 1 / 2 (si n<50 usar los lmites de la normal)

Medidas globales de influencia:


DFITTS Mide el efecto del dato i-simo ejerce en su propia prediccin. Lmites para la
versin estandarizada: 2 [ (k+2) / (n-k-2) ]1 / 2

COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n

Distancia de Cook: Localizar valores que exceden a 4 / (n-k-1)


Deteccin de residuos atpicos: Los valores tipificados deben estar entre -3 y 3
Diagnsticos por casoa

Consumo Valor
Nmero de caso Residuo tip. (l/100Km) pronosticado Residuo bruto
SPSS 35 10,176 26 5,95 20,05
a. Variable dependiente: Consumo (l/100Km)

Deteccin de puntos influyentes: Dist. De Mahalanobis, Cook, valor de influencia

Estadsticos sobre los residuosa

Desviacin
Mnimo Mximo Media tp. N
Valor pronosticado 5,95 21,05 11,27 3,440 392
Valor pronosticado tip. -1,545 2,843 ,000 1,000 392
El rango de valores para la distancia de
Error tpico del valor Mahalanobis es elevado
,107 ,831 ,210 ,075 392
pronosticado
Valor pronosticado Hay valores de la distancia de Cook
4,57 21,08 11,26 3,447 392
corregido superiores a 4 / (n-k-1) = 0.010
Residuo bruto -5,16 20,05 ,00 1,960 392
Residuo tip. -2,618 10,176 ,000 ,995 392 Medida de influencia. Lmite (k=4): 0.038
Residuo estud. -2,641 10,520 ,001 1,011 392
Residuo eliminado -5,25 21,43 ,00 2,024 392
Residuo eliminado estud. -2,661 12,433 ,006 1,067 392
Dist. de Mahalanobis ,166 68,628 3,990 4,866 392
Distancia de Cook ,000 1,520 ,007 ,077 392
Valor de influencia
,000 ,176 ,010 ,012 392
centrado
a. Variable dependiente: Consumo (l/100Km)

Posible solucin: Eliminar observaciones


Seleccin de un subconjunto ptimo
de variables independientes
Objetivo: Seleccionar aquellas variables que sin ser redundantes
proporcionen la mejor explicacin de la v. dependiente.

Mtodos secuenciales en SPSS: Hacia atrs, Hacia delante, Pasos sucesivos

En trminos muy muy generales


Evalan estadsticos F que controlan la
entrada y salida de variables, adems de las
correlaciones parciales de la v. dependiente
con cada regresor.
Mtodo forward (hacia delante)
Inicialmente no hay regresores, se van introduciendo uno a uno
aquellos que tienen alta correlacin parcial con la v. dependiente y
que son significativos (valor F-entrar).

Variables introducidas/eliminadasa

Variables Variables
Modelo introducidas eliminadas Mtodo
1 Peso total (kg) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
2 Potencia (CV) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
2 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
a. Variables predictoras: (Constante), Peso total (kg)
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Mtodo backward (hacia atrs)
Inicialmente se incluyen todos las v. independientes, se van eliminando
una a una las que van resultando significativas (valor F-salir).

Variables introducidas/eliminadasb

Modelo Variables introducidas Variables eliminadas Mtodo


1 Aceleracin 0 a 100 km/h
(segundos), Peso total (kg), a , Introducir
Potencia (CV), Cilindrada en cc
2 Aceleracin 0 a 100 km/h
, Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
(segundos)
3 , Cilindrada en cc Hacia atrs (criterio: Prob. de F para eliminar >= ,100).
a. Todas las variables solicitadas introducidas
b. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,869a ,755 ,752 1,970 ,755 297,956 4 387 ,000
2 ,869 b ,755 ,753 1,968 ,000 ,180 1 389 ,672
3 ,868c ,753 ,752 1,972 -,002 2,456 1 390 ,118
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc
c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Mtodo Stepwise (pasos sucesivos)
Combina los dos mtodos anteriores definiendo un procedimiento en el
que las variables independientes entran o salen del modelo dependiendo
de su significacin (valores F-entrar y F-salir).

Variables introducidas/eliminadasa

Variables Variables
Modelo introducidas eliminadas Mtodo
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
Peso total (kg) ,
Prob. de F para salir >= ,100).
2 Por pasos (criterio: Prob. de F para entrar <= ,050,
Potencia (CV) ,
Prob. de F para salir >= ,100).
a. Variable dependiente: Consumo (l/100Km)

Resumen del modelo

Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
2 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
a. Variables predictoras: (Constante), Peso total (kg)
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Resumen
Pasos a seguir en un anlisis de regresin

Paso 1. Objetivos del anlisis


Paso 2. Diseo de la investigacin mediante regresin mltiple
Paso 3. Supuestos del anlisis
Paso 4. Estimacin del modelo de regresin y valoracin global del
ajuste
Paso 5. Interpretacin y validacin de los resultados.

Potrebbero piacerti anche