Sei sulla pagina 1di 12

Modelo de regresin simple: Usaremos el Fichero datos mtcars librera datasets Queremos explicar el consumo (mpg) segn las

variables disp (cilindrada), hp (potencia), wt (peso) y drat (tamao).Relacin lineal entre las variables: Matriz diagramas de dispersin (Rcmdr -> Graficas -> Matriz diagramas de dispersin)

disp drat hp mpg wt disp 1.0000000 -0.7102139 0.7909486 -0.8475514 0.8879799 drat -0.7102139 1.0000000 -0.4487591 0.6811719 -0.7124406 hp 0.7909486 -0.4487591 1.0000000 -0.7761684 0.6587479 mpg -0.8475514 0.6811719 -0.7761684 1.0000000 -0.8676594 wt 0.8879799 -0.7124406 0.6587479 -0.8676594 1.0000000 P disp drat hp mpg wt disp 0.00 0.00 0.00 0.00 drat 0.00 0.01 0.00 0.00 hp 0.00 0.01 0.00 0.00 mpg 0.00 0.00 0.00 0.00 wt 0.00 0.00 0.00 0.00 Adjusted disp disp drat 0.00 hp 0.00 mpg 0.00 wt 0.00 p-values (Holm's method) drat hp mpg wt 0.00 0.00 0.00 0.00 0.01 0.00 0.00 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Matriz de correlaciones (Rcmdr -> Estadsticos -> Resmenes -> Matriz de correlaciones)

Cuando se realizan comparaciones mltiples, en este caso desde el punto de vista de la correlacin

lineal entre un grupo de variables considerndolas dos a dos, se realiza una correccin (mtodo de Holm's) para controlar la tasa de error. Los p-valores obtenidos responden al contraste H 0 : xy =0 cuya medida de discrepancia es: H 1 : xy 0 r 0 t exp= xy 1 r 2 xy n 2 que sigue una distribucin t-Student con n-2 grados de libertad.

Se observa una buena relacin lineal entre las distintas variables, destacando la de mpg con wt y disp. Construyamos en primera instancia un modelo de regresin lineal simple con la variable mpg con la que tiene mayor correlacin lineal, o sea, wt (peso), mpg = 0 + 1 wt + , (Rcmdr -> Estadsticos -> Ajuste de modelos-> Regresin lineal)
Call: lm(formula = mpg ~ wt, data = mtcars) Residuals: Min 1Q Median -4.5432 -2.3647 -0.1252 3Q 1.4096 Max 6.8727

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 37.2851 1.8776 19.858 < 2e-16 *** wt -5.3445 0.5591 -9.559 1.29e-10 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.046 on 30 degrees of freedom Multiple R-squared: 0.7528, Adjusted R-squared: 0.7446 F-statistic: 91.38 on 1 and 30 DF, p-value: 1.294e-10

0=37.28, 1 =5.34 , mpg = 37.28 5.34 wt. Es El modelo estimado sera para esta muestra, significativo el modelo?: 2 H 0 : R =0 2 H 1: R 0 La medida de discrepancia vale 91.38, que una F de Snedecor con 1 y 30 grados de libertad se corresponde con un p-valor de, o sea, se rechaza la hiptesis nula con bastante evidencia y el modelo lineal es adecuado. Es significativa la variable wt (peso) para explicar el consumo? H 0 : 1= 0 H 1: 1 0 La medida de discrepancia vale -9.55, que en una t de Student se corresponde con un p-valor de 0, o sea, se rechaza la hiptesis nula con bastante evidencia y la variable wt es significativa para explicar el consumo (mpg) utilizando un modelo lineal. Observar que el resultado del test correspondiente a la significabilidad del Peso (wt) a la hora de explicar el consumo es equivalente al obtenido para contrastar la validez del modelo, esto ocurre siempre en el modelo lineal simple. Al generar un modelo se activan un buen nmero de opciones en R-commander, en particular, todas

las correspondientes a la opcin del men principal Modelos, que utilizaremos para completar el estudio del modelo de regresin, as se puede obtener la descomposicin de la varianza de la variable dependiente en dos fuentes de variacin, la explicada por el modelo y la que queda sin explicar o residual, (Rcmdr -> Modelos -> Test de hiptesis -> Tabla Anova)
Anova Table (Type II tests) Response: mpg Sum Sq Df F value Pr(>F) wt 847.73 1 91.375 1.294e-10 *** Residuals 278.32 30 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Permite realizar el contraste H 0 : R2=0 H 1 : R2 0 Comentado anteriormente. Condiciones exigibles a los datos: Linealidad, al solo haber una variable explicativa la grfica se limita a (Rcmdr -> Modelos -> Grficas -> Grfica de variables agregadas):
Added-Variable Plot

mpg | others

-10

-5

10

-1

0 wt | others

Que coincide con el diagrama de dispersin entre las dos variables. Desde un punto de vista numrico, realizamos el test RESET de no linealidad, sobre el modelo y = b1(wp) + b2 (wp)2 + b3 (wp)3, se contrasta si b_2=b_3=0 (el modelo no tiene variables omitidas) (Rcmdr -> Modelos -> Diagnsticos numricos -> Test RESET de no linealidad), el objetivo de este test es contrastar si el modelo lineal es suficiente comparado con uno parablico o cbico. H 0 : b 2= b 3 = 0 H 1 : b2 y / o b3 0
RESET test data: mpg ~ wt RESET = 5.1315, df1 = 2, df2 = 28, p-value = 0.01263

Hiptesis nula que se rechaza para un alfa del 5%, por lo que un modelo parablico o cbico podra

ser ms adecuado, otra opcin, es aumentar el nmero de variables explicativas en el modelo lineal. Normalidad, estudiaremos la normalidad utilizando representaciones grficas y contrastes de hiptesis. La representacin grfica est basada en cuantiles (Rcmdr -> Modelos -> Grficas -> Grfica bsica de diagnsticos), Normal Q-Q, donde se comparan los cuartiles tericos si los datos fueran realmente normales con los cuartiles muestrales de los residuos, de forma que se acepta la normalidad en la medida en que los puntos estn alineados, se observan desviaciones en las colas.

Test de Shapiro Wilks sobre los residuos, previamente hemos de crear la variable correspondiente a los residuos, para ello, (Rcmdr -> Modelos -> Aadir las estadsticas de las observaciones a los datos ), en la ventana que aparece seleccionamos solo Residuos, esta operacin genera una nueva variable que se sita como ltima columna en nuestro fichero de datos, residuals.RegModel.1, a continuacin le aplicamos el test a los residuos del modelo (Rcmdr -> Estadsticos -> Resmenes -> Test de Normalidad de Shapiro Wilks), H 0 : X Normal H 1 : X Normal
Shapiro-Wilk normality test data: mtcars$residuals.RegModel.1 W = 0.9451, p-value = 0.1044

A la vista del p-valor no tenemos motivos para rechazar la hiptesis nula, por lo admitimos la normalidad. Homocedasticidad La presencia de hetereocedasticidad se puede estudiar observando el grfico de los valores ajustados frente a los residuos (residuos estanderizados), (Rcmdr -> Modelos -> Grficas -> Grfica bsica de diagnsticos)

Observando los dos grficos de la izquierda, no se aprecia un patrn de crecimiento/decrecimiento de la nube de puntos globalmente ni alrededor del valor medio ajustado. O bien, utilizando un test adecuado, por ejemplo, el test de Breusch-Pagan, (Rcmdr -> Modelos -> Diagnsticos numricos -> Test de Breusch-Pagan para hetereocedasticidad), en la ventana de dilogo marcamos variable explicativa y en la relacin de variables la variable weit. En este test se pretende explicar la varianza residual como una combinacin lineal de las variables explicativas, para ello se expresa ei2= b(wt)+ui, si se admite que b=0 entonces no hay efecto significativo de las variables predictoras en la dispersin de los residuos y las fluctuaciones que se observan son aleatorias, y se admite la no heterocedasticidad H 0 : b =0 H 1: b 0

Breusch-Pagan test data: mpg ~ wt BP = 0.0379, df = 1, p-value = 0.8456

A la vista del resultado del test se admite b=0 y por lo tanto que son homocedsticos. Test de valores atpicos, de Bonferroni (Rcmdr -> Modelos -> Diagnsticos numricos -> Test de valores atpicos de Bonferroni), devuelve el p-valor de Bonferroni para las observaciones ms extremas, el p-valor de Bonferroni se obtiene multiplicando el p-valor no ajustado por el tamao muestral. Las observaciones ms extremas sobre las que se aplica el test son aquellas cuyo residuo estunderizado estn fuera del rango.
No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: rstudent unadjusted p-value Bonferonni p Fiat 128 2.537801 0.016788 0.5372

Se puede apreciar que el nico valor que verifica esa condicin no lo podemos considerar un valor atpico a la vista del p-valor de Bonferronni.

Valores influyentes, un valor es influyente en el sentido de que su presencia/ausencia modifique sustancialmente la ecuacin de regresin. Para saber esto ltimo utilizamos la distancia de Cook que muestra la cuanta del cambio que se producira en los residuos si el caso en cuestin fuera eliminado. Para su determinacin vamos a utilizar dos grficas, la primera (Rcmdr -> Modelos -> Grficas -> Grfica bsica de diagnsticos), situada en la parte inferior derecha establece aquellas observaciones que se sitan fuera de las bandas construidas con la distancia de Cooks y que marcaran las observaciones influyentes.

Se aprecian tres observaciones Fiat 128, Chrysler Imperial y Toyota Corolla. La segunda grfica que nos permite estudiar las observaciones influyentes asocia a cada individuo una circunferencia cuyo dimetro es directamente proporcional a su influencia (Rcmdr -> Modelos -> Grficas -> Grfica de influencia),

Fiat 128 Toyota Corolla 2 Chrysler Imperial

Studentized Residuals

-1

0.05

0.10 Hat-Values

0.15

0.20

Se aprecian claramente las tres observaciones influyentes: Fiat 128, Toyota Corolla y Chrisler Continental.

Modelo de regresin mltiple: Evaluemos el modelo de regresin de mpg con 5 de las variables (Rcmdr -> Estadsticos -> Ajuste de modelos -> Regresion lineal):
LinearModel.1 <- lm(mpg ~ carb +disp +drat +hp +wt, data=mtcars) summary(LinearModel.1) Call: lm(formula = mpg ~ carb + disp + drat + hp + wt, data = mtcars) Residuals: Min 1Q Median -3.4590 -1.9185 -0.2506 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 27.032671 6.890326 3.923 0.000571 *** carb -0.475226 0.606484 -0.784 0.440370 disp -0.002338 0.013421 -0.174 0.863031 drat 2.096037 1.393661 1.504 0.144638 hp -0.021570 0.020514 -1.051 0.302718 wt -2.934333 1.290003 -2.275 0.031412 * --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.621 on 26 degrees of freedom Multiple R-squared: 0.8414, Adjusted R-squared: 0.8109 F-statistic: 27.58 on 5 and 26 DF, p-value: 1.282e-09 3Q 0.8045 Max 5.4501

Se aprecia que el modelo es globalmente vlido, p-valor=0, con un R= 0,8414 (ajustado 0,8109) :
H 0 : R =0 H 1: R 0 Respecto de las variables explicativas solo es significativa wt, tanto carb, disp, drat y ht no lo son. En el primer caso se rechaza la hiptesis nula y para las otras variables no: H 0 : i =0 H 1: i 0
2 2

Observando la matriz de correlaciones se aprecian relaciones lineales bastante fuerte de algunas de estas variables con mpg, de ah que se pueda sospechar la existencia de multicolinealidad. Estudiemos la multicolinealidad a partir del Factor de inflacin de la varianza (vif) (Rcmdr -> Modelos -> Diagnsticos numricos -> Factores de inflacin de la varianza),
vif(LinearModel.1) carb disp 4.330098 12.484163 drat 2.505568 hp 8.926554 wt 7.189053

Se observa que hay un valor muy grande (>10) para la variable disp y otros cercanos a ese valor de referencia, por lo que se puede deducir que hay un problema de multicolinealidad. Procedemos a eliminar la variable disp y rehacemos la regresin construyendo el modelo LinearModel.2:
LinearModel.2 <- lm(mpg ~ carb +drat +hp +wt, data=mtcars) summary(LinearModel.2) Call: lm(formula = mpg ~ carb + drat + hp + wt, data = mtcars) Residuals:

Min 1Q Median -3.5250 -2.0259 -0.3177

3Q 0.8427

Max 5.4607 Pr(>|t|) 0.000372 *** 0.399495 0.132699 0.069767 . 0.000706 *** '*' 0.05 '.' 0.1 ' ' 1

Coefficients: Estimate Std. Error t value (Intercept) 27.20878 6.69228 4.066 carb -0.41339 0.48290 -0.856 drat 2.11502 1.36422 1.550 hp -0.02432 0.01288 -1.888 wt -3.10674 0.81266 -3.823 --Signif. codes: 0 '***' 0.001 '**' 0.01

Residual standard error: 2.574 on 27 degrees of freedom Multiple R-squared: 0.8412, Adjusted R-squared: 0.8177 F-statistic: 35.75 on 4 and 27 DF, p-value: 2.013e-10 vif(LinearModel.2) carb drat hp wt 2.847409 2.490249 3.648879 2.959289

La nica variable que sigue siendo significativa es wt, tambin se garantiza la validez global del modelo. Regresin paso a paso (stepwise): Mediante la funcin stepwise podemos construir el mejor modelo a partir de un conjunto de variables independientes y quedarnos solo con aquellas que realmente son significativas para explicar la variable dependiente. As, si partimos del modelo RegModel.2 mediante el procedimiento (Rcmdr -> Modelos -> Seleccin de modelo paso a paso), en la ventana de dilogo elegimos adelante/atrs en direccin y en criterio marcamos el AIC, el resultado sera:
stepwise(LinearModel.2, direction='forward/backward', criterion='AIC') Direction: Criterion: forward/backward AIC

Start: AIC=115.94 mpg ~ 1 + wt + hp + drat + carb <none> Df Sum of Sq 1 847.73 1 678.37 1 522.48 1 341.78 RSS AIC 278.32 73.217 447.67 88.427 603.57 97.988 784.27 106.369 1126.05 115.943

Step: AIC=73.22 mpg ~ wt + hp + carb <none> + drat - wt Df Sum of Sq 1 83.27 1 44.60 1 1 RSS AIC 195.05 63.840 233.72 69.628 278.32 73.217 9.08 269.24 74.156 847.73 1126.05 115.943

Step: AIC=63.84 mpg ~ wt + hp Df Sum of Sq <none> + drat 1 RSS AIC 195.05 63.840 11.366 183.68 63.919

+ carb - hp - wt

1 1 1

0.300 194.75 65.791 83.274 278.32 73.217 252.627 447.67 88.427

Call: lm(formula = mpg ~ wt + hp, data = mtcars) Coefficients: (Intercept) 37.22727 wt -3.87783 hp -0.03177

Partiendo de las cuatro variables del modelo elegido, el procedimiento stepwise va incorporando las variables segn su aportacin para explicar la variable dependiente, existiendo en cada paso un valor mximo (adelante/atrs) del AIC para que las variables pasen a formar parte del modelo, resultando wt y hp las dos variables significativas, conformndose la regresin con ellas dos. Al objeto de comparar modelos realizamos un una regresin con wt y hp como variables independientes obtenindose el modelo LinearModel.3
LinearModel.3 <- lm(mpg ~ hp + wt, data=mtcars) summary(LinearModel.3) Call: lm(formula = mpg ~ hp + wt, data = mtcars) Residuals: Min 1Q Median -3.941 -1.600 -0.182 3Q 1.050 Max 5.854

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 37.22727 1.59879 23.285 < 2e-16 *** hp -0.03177 0.00903 -3.519 0.00145 ** wt -3.87783 0.63273 -6.129 1.12e-06 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.593 on 29 degrees of freedom Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148 F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12

El modelo sigue siendo globalmente vlido. Para ver que no es significativamente peor que el LinearModel.2, respecto al que ha perdido un 1,5% (0,8412-0,8268) los comparamos en Rcmdr -> Modelos -> Test de Hiptesis-> Comparar dos modelos, eligimos los modelos 2 y 3, resultando:
anova(LinearModel.2, LinearModel.3) Analysis of Variance Table Model 1: Model 2: Res.Df 1 27 2 29 mpg ~ carb + drat + hp + wt mpg ~ hp + wt RSS Df Sum of Sq F Pr(>F) 178.83 195.05 -2 -16.22 1.2245 0.3097

A la vista de la matriz del p-valor descartamos que existan diferencias significativas entre ambos modelos, quedndonos con el LinearModel.3 que es ms simple y de mejor interpretacin.

Diagnosis del modelos:


Linealidad:

Se observa como ambas variables presentan una relacin bastante lineal con la variable dependiente mpg, aunque con un cierto grado de curvatura que indicara una relacin parablica.
resettest(mpg ~ hp + wt, power=2, type="regressor", data=mtcars) RESET test data: mpg ~ hp + wt RESET = 7.8998, df1 = 2, df2 = 27, p-value = 0.001991

Parece que el modelo lineal podra ser mejorado significativamente por el parablico, en cualquier caso damos el modelo lineal por bueno, dado que sacrificamos algo de calidad en el ajuste por conseguir una mayor simplicidad e interpretabilidad del modelo. Comprobemos las hiptesis sobre los resduos del modelo. Para ello, guardamos algunas de las salidas del procedimiento mediante Rcmdr -> Modelos -> Aadir las estadsticas de las observaciones a los datos, en la ventana que emerge damos a aceptar y crear seis nuevas variables que aadir al final del fichero. Normalidad. Usaremos el grfico de Comparacin de cuantiles de los resduos dentro de la opcin Grficas del men Modelos

Numricamente, aplicando el test de Shapiro-Wilk a los resduos que hemos almacenado en el fichero de datos, se tendra:
shapiro.test(mtcars$residuals.LinearModel.3) Shapiro-Wilk normality test data: mtcars$residuals.LinearModel.3 W = 0.9279, p-value = 0.03428

Se observa en el grfico importantes desviaciones de la normalidad en las colas que se reflejan en el p-valor del test de Shapiro-Wilks, no obstante el p-valor no es demasiado pequeo. Homocedasticidad. Usaremos el grfico de Grficas bsicas de diagnstico dentro de la opcin Grficas del men Modelos, las grficas de la izquierda nos informan sobre desviaciones de la homocedasticidad.

Numricamente, usamos el test de Breusch-Pagan para hetrocedasticidad, dentro de Diagnsticos numricos del menu Modelos, elegimos en la ventana de dilogo el modelo que deseamos (hp+wt) y resulta:
bptest(mpg ~ hp + wt, varformula = ~ fitted.values(LinearModel.3), studentize=FALSE, data=mtcars) Breusch-Pagan test data: mpg ~ hp + wt BP = 0.7012, df = 1, p-value = 0.4024

Por lo que no se aprecia heterocedasticidad en los residuos. Valores influyentes. Usaremos el grfico Grfica de Influencia dentro de la opcin Grficas del men Modelos

Los valores influyentes han cambiado del modelo lineal simple a este mltiple, apareciendo el Chrisles Imperial, el Toyota Corolla y el Maserati Anexo Residuos estandarizados

Residuos estunderizados Donde sR,(i) es la varianza residual calculada a partir de toda la muestra excepto la observacin (xi, yi), hii = distancia entre el i-esimo punto y el punto medio.

Potrebbero piacerti anche