Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
a travs de SPSS
M . D olores M artnez M iranda
Profesora del D pto. E stadstica e I.O.
U niversidad de G ranada
Referencias bibliogrficas
1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Anlisis Multivariante
(5 edicin). Ed. Prentice Hall.
2. Prez, C. (2001) Tcnicas estadsticas con SPSS. Ed. Prentice Hall.
INTRODUCCIN
El Anlisis de Regresin tiene como objetivo
estudiar la relacin entre variables.
Permite expresar dicha relacin en trminos de
una ecuacin que conecta una variable de
respuesta Y, con una o ms variables
explicativas X1,X2,,Xk.
Finalidad:
Determinacin explcita del funcional que relaciona
las variables. (Prediccin)
Comprensin por parte del analista de las
interrelaciones entre las variables que intervienen
en el anlisis.
PLANTEAMIENTO GENERAL
Notacin:
Y variable de respuesta (dependiente, endgena, explicada)
X1,X2,,Xk variables explicativas (independientes, exgenas,
regresores)
Regresin lineal
Y= 0+ 1 X1+ 2 X2 ++ k Xk +
Y = exp (a + b X) ln Y = a + b X
Linealizacin
Minimizar { Yi ( 0 + 1X i1 + ... + k X ik )}
0 , 1,..., k i=1
Solucin
( n > k+1 ) Suma residual de cuadrados
Residuo estimado : i = Yi Yi
(
=
0
1 L
k
T
=)(X T X)-1 XT Y
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os Coeficientes tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) ,432 1,166 ,370 ,711 Comparacin de los efectos
Cilindrada en cc 3,093E-04 ,000 ,134 1,612 ,108
Potencia (CV) 4,386E-02 ,008 ,424 5,582 ,000
Peso total (kg) 4,948E-03 ,001 ,355 4,404 ,000 Xj
Aceleracin 0 a 100 b =
km/h (segundos)
2,504E-02 ,059 ,018 ,424 ,672
j j
a. Variable dependiente: Consumo (l/100Km) Y
= (0
2 L T
k ) Significacin
individual de las
Consumo = 0.432 + 3.093E-04 Motor + 4.386E-02 CV + variables y de la
+ 4.948E-03 Peso + 2.504E-02 Acel constante
(Inferencia)
Inferencia sobre el modelo
Significacin individual de las variables
Utilidad: Verficar si cada variable aporta informacin significativa al anlisis
Nota: Depende de las interrelaciones entre las variables, no es concluyente
Resolucin j
T= t n-k -1
SE( j ) Bajo H0
Inferencia sobre el modelo
Significacin de la constante
Utilidad: Verficar si la v.dependiente tiene media 0 cuando las v.explicativas se anulan
Contraste de hiptesis
Aceptar H0 significa que
no es conveniente incluir un trmino constante
H0 : 0 =0 en el anlisis de regresin realizado
H1 : 0 0
Resolucin 0
T= t n- 2
SE( 0 ) Bajo H0
Ejemplo (Coches.sav)
Interpretacin del p-valor
(en un contraste al nivel de significacin )
Si p-valor < entonces se rechaza la hiptesis nula
Coeficientesa
Coeficientes
H0 : 0 =0
Coeficientes no estandarizad
estandarizados os H1 : 0 0
Modelo B Error tp. Beta t Sig.
1 (Constante) ,432 1,166 ,370 ,711
Cilindrada en cc 3,093E-04 ,000 ,134 1,612 ,108
Potencia (CV) 4,386E-02 ,008 ,424 5,582 ,000
Peso total (kg) 4,948E-03 ,001 ,355 4,404 ,000 Al 5% se puede no incluir
Aceleracin 0 a 100
km/h (segundos)
2,504E-02 ,059 ,018 ,424 ,672 constante en el modelo
a. Variable dependiente: Consumo (l/100Km)
H0 : j =0
Al nivel de significacin del 5%: H1 : j 0
Motor (0.108) y Acel (0.672) no son significativas
CV (0.000) y Peso (0.000) s son significativas
Inferencia sobre el modelo
Bondad de ajuste
Descomposicin de la variabilidad
n n n
( Yi y )
= ( Yi y ) + i
2 2
2
i=14
1 4244
3 1 i=14
4244 3 1 i=123
VT VE VNE
2 n -1 2
Coeficiente de determinacin corregido R = 1- R
n - k -1
Ejemplo (Coches.sav)
Resumen del modelob
Resolucin (ANOVA)
VE / k
F= H Fk, n-k -1
Bajo
VNE / (n - k - 1) 0
Ejemplo (Coches.sav)
Contraste de regresin
Al 5% se rechaza H0
ANOVAb
Suma de Media
(las variables explicativas
Modelo
1 Regresin
cuadrados
4626,220
gl
4
cuadrtica
1156,555
F
297,956
Sig.
,000a
influyen de forma conjunta
Residual
Total
1502,188 387 3,882 y lineal sobre Y)
6128,408 391
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso
total (kg), Potencia (CV), Cilindrada en cc
b. Variable dependiente: Consumo (l/100Km)
Modelo VE k VE / k VE / k
VNE / (n-k-1)
Residual VNE n-k-1 VNE / (n-k-1)
Total VT n-1
Prediccin
Bandas de confianza
Grfico de dispersin
Predicciones para Y
(dentro del rango de prediccin) Variable dependiente: Consumo (l/100Km)
-1
Consumo (l/100Km)
El anlisis de los residuos
Objetivo: Verificar que no se violan las hiptesis sobre las
que se estima el modelo y se realiza la inferencia
80 .75
60
.50
.25
Frecuencia
20
Desv. tp. = ,99
Media = 0,00 0.00
N = 392,00 0.00 .25 .50 .75 1.00
0
Si d<1.18 rechazar,
-1
Si d>1.4 no rechazar.
-2 Si 1.18<d<1.4 no es concluyente
-3
-100 0 100 200 300 400 500 Posibles soluciones:
Nmero de orden de las observaciones - Transformaciones
- Aadir variables
1.3. Homocedasticidad
Hace referencia a la constancia de los residuos para los
valores que van tomando las variables independientes.
30 3 3
2 2
1 1
0 0
Standardized Residual
Standardized Residual
20 -1 -1
-2 -2
-3 -3
0 100 200 300 1000 2000 3000 4000 5000 6000 7000 8000
10
4 4
3 3
2 2
1 1
0
-2 -1 0 1 2 3 0 0
Standardized Residual
Standardized Residual
-1 -1
Regresin Valor pronosticado tipificado
-2 -2
-3 -3
400 600 800 1000 1200 1400 1600 1800 0 10 20 30
20
10
10
Consumo (l/100Km)
Consumo (l/100Km)
0
0
10 10
Consumo (l/100Km)
Consumo (l/100Km)
0 0
-10 -10
-40 -20 0 20 40 60 80 -6 -4 -2 0 2 4 6 8
Posibles soluciones:
- ACP y utilizar las componentes principales como regresores.
- A la vista de las correlaciones eliminar variables redundantes.
Datos anmalos
Medidas de influencia
Objetivo: Detectar datos anmalos y datos influyentes
COVRATIO Representa el grado al que una observacin tiene impacto sobe los errores
estndar de los coeficientes. Lmites: 1 3(k+1) / n
Consumo Valor
Nmero de caso Residuo tip. (l/100Km) pronosticado Residuo bruto
SPSS 35 10,176 26 5,95 20,05
a. Variable dependiente: Consumo (l/100Km)
Desviacin
Mnimo Mximo Media tp. N
Valor pronosticado 5,95 21,05 11,27 3,440 392
Valor pronosticado tip. -1,545 2,843 ,000 1,000 392
El rango de valores para la distancia de
Error tpico del valor Mahalanobis es elevado
,107 ,831 ,210 ,075 392
pronosticado
Valor pronosticado Hay valores de la distancia de Cook
4,57 21,08 11,26 3,447 392
corregido superiores a 4 / (n-k-1) = 0.010
Residuo bruto -5,16 20,05 ,00 1,960 392
Residuo tip. -2,618 10,176 ,000 ,995 392 Medida de influencia. Lmite (k=4): 0.038
Residuo estud. -2,641 10,520 ,001 1,011 392
Residuo eliminado -5,25 21,43 ,00 2,024 392
Residuo eliminado estud. -2,661 12,433 ,006 1,067 392
Dist. de Mahalanobis ,166 68,628 3,990 4,866 392
Distancia de Cook ,000 1,520 ,007 ,077 392
Valor de influencia
,000 ,176 ,010 ,012 392
centrado
a. Variable dependiente: Consumo (l/100Km)
Variables introducidas/eliminadasa
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Peso total (kg) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
2 Potencia (CV) , Hacia adelante (criterio: Prob. de F para entrar <= ,050)
a. Variable dependiente: Consumo (l/100Km)
Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
2 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
a. Variables predictoras: (Constante), Peso total (kg)
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Mtodo backward (hacia atrs)
Inicialmente se incluyen todos las v. independientes, se van eliminando
una a una las que van resultando significativas (valor F-salir).
Variables introducidas/eliminadasb
Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,869a ,755 ,752 1,970 ,755 297,956 4 387 ,000
2 ,869 b ,755 ,753 1,968 ,000 ,180 1 389 ,672
3 ,868c ,753 ,752 1,972 -,002 2,456 1 390 ,118
a. Variables predictoras: (Constante), Aceleracin 0 a 100 km/h (segundos), Peso total (kg), Potencia (CV), Cilindrada en cc
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV), Cilindrada en cc
c. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Mtodo Stepwise (pasos sucesivos)
Combina los dos mtodos anteriores definiendo un procedimiento en el
que las variables independientes entran o salen del modelo dependiendo
de su significacin (valores F-entrar y F-salir).
Variables introducidas/eliminadasa
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
Peso total (kg) ,
Prob. de F para salir >= ,100).
2 Por pasos (criterio: Prob. de F para entrar <= ,050,
Potencia (CV) ,
Prob. de F para salir >= ,100).
a. Variable dependiente: Consumo (l/100Km)
Estadsticos de cambio
R cuadrado Error tp. de la Cambio en Sig. del
Modelo R R cuadrado corregida estimacin R cuadrado Cambio en F gl1 gl2 cambio en F
1 ,837a ,700 ,699 2,172 ,700 909,085 1 390 ,000
2 ,868b ,753 ,752 1,972 ,053 84,214 1 389 ,000
a. Variables predictoras: (Constante), Peso total (kg)
b. Variables predictoras: (Constante), Peso total (kg), Potencia (CV)
Resumen
Pasos a seguir en un anlisis de regresin