Ema5. Diagnosis y Validación Del Modelo de Regresión Lineal Múltiplepdf

Mtodos de Regresin.
Grado en Estadstica y Empresa
Tema 5
1/28
Tema 5. Diagnosis y validacin del modelo de regresin lineal mltiple

1. Multicolinealidad
1.1 Identificacin y consecuencias
1.2 Tratamiento
2. El anlisis de los residuos
2.1 Propiedades de los residuos
2.2 Anlisis grfico de los residuos
3. Errores de especificacin
4. Observaciones influyentes y atpicas
4.1 Robustez a priori. Los efectos palanca de las observaciones
4.2 La robustez a posteriori del modelo
4.3 Datos atpicos
Mtodos de Regresin. Grado en Estadstica y Empresa
Tema 5
En este tema vamos a ver como:

identificar los problemas que surgen al construir el
modelo de regresin,
sus efectos sobre las propiedades del modelo,
cmo reformular el modelo para adecuarlo a la realidad
estudiada.
2/28
Tema 5
3/28
1. Multicolinealidad
El primer problema que surge es la dependencia de las variables explicativas (o
regresores) entre s, es decir, la existencia de una o ms combinaciones lineales
entre las columnas de la matriz X
1 x11
1 x12
X=
1 x
1n
... xk 1
... xk 2
, rang (X) = k + 1
...
... xkn
Problema! cuando rang(X) < k+1.

Cuando esto ocurre es difcil separar los efectos de cada variable explicativa y medir la
contribucin individual, con lo que los estimadores individuales sern inestables y con
gran varianza. A este problema se le denomina multicolinealidad y consiste en
querer extraer de la muestra ms informacin de la que contiene.
Tema 5
4/28
Existen dos tipos de multicolinealidad:

1. Multicolinealidad perfecta
rang (X) < k + 1 det( X' X) = 0
r
a
l
u
c
l
a
c
e
d
e
u
p
e
s
o
n
Una de las variables explicativas es combinacin lineal exacta de las dems:
(X' X)-1
El sistema de ecuaciones que determina el vector no tiene solucin nica.

2. Alta multicolinealidad
Cuando alguna o todas las variables explicativas estn altamente
correlacionadas entre s (pero el coeficiente de correlacin no llega a ser 1 ni -1).
En este caso las columnas de la matriz X tienen un alto grado de dependencia
entre s, pero s puede calcularse el vector , aunque:
a) Los estimadores tendrn varianzas muy altas, lo que provocar mucha
imprecisin en la estimacin de los y, por tanto, los I.C. sern muy anchos.
j
b) Los estimadores j sern muy dependientes entre s, puesto que tendrn

altas covarianzas y habr poca informacin sobre lo que ocurre al variar una
variable si las dems permanecen constantes.
Tema 5
5/28
1.1 Identificacin y consecuencias de la multicolinealidad

Consecuencias:
Los estimadores j sern muy sensibles a pequeas variaciones en el tamao
muestral o a la supresin de una variable aparentemente no significativa. A pesar
de esto, la prediccin no tiene por qu verse afectada ante la multicolinealidad, ni
sta afecta al vector de residuos, que est siempre bien definido.
Los coeficientes de regresin pueden ser no significativos individualmente
(puesto que las varianzas de los van a ser grandes), aunque el contraste global
j
del modelo sea significativo.

La multicolinealidad puede afectar mucho a algunos parmetros y nada a otros.
Los parmetros que estn asociados a variables explicativas poco
correlacionadas con el resto no se vern afectados y podrn estimarse con
precisin.
Tema 5
6/28
Identificacin de la multicolinealidad
La identificacin de variables correlacionadas se realiza examinando
-1
1) La matriz de correlaciones entre las variables explicativas, R, y su inversa, R ,
2) Los autovalores de XX o de R.
1) La presencia de correlaciones altas entre variables explicativas es un indicio de

multicolinealidad. Pero, es posible que exista una relacin perfecta entre una variable y
el resto y, sin embargo, sus coeficientes de correlacin sean bajos (por ejemplo,
cuando sea el caso de una relacin no lineal).
Definimos la matriz de correlaciones como
r12
1
r2 k
r13
r23
r3k
... r1k
... r2 k
,
...
... 1
e
d
n
o
d
r
R = 12
r
1k
rij =
s xi , x j
s xi s x j
, -1 rij 1,
que es una matriz de orden k, simtrica, con unos en la diagonal.
La inversa de la matriz de correlaciones:

11 12
22
R 1 = 12
...
1k 2 k
Tema 5
7/28
13 ... 1k
23 ... 2 k
...
3k ... kk
tiene en cuenta la dependencia conjunta. Los elementos de su diagonal se
denominan factores de incremento o de inflacin de la varianza y verifican:
1
ii = FIV (i ) =
, i = 1,..., k ,
1 Ri2.resto
2
donde Ri.resto es el coeficiente de determinacin de la regresin de la variable xi en

funcin del resto de variables explicativas, es decir, x1, , xi-1, xi+1, , xk.
Por tanto, si para algn i se tiene que:
1
ii > 10
> 10 1 Ri2.resto < 0.1 Ri2.resto > 0.9
2
1 Ri.resto
es decir, la variable xi se explica en un 90% por el resto de variables explicativas, por
tanto, estamos en una situacin de alta multicolinealidad.
Inconveniente: R-1 se calcular con poca precisin cuando R sea casi singular
(det(R)0).
Tema 5
8/28
2) Las mejores medidas de singularidad de XX o de R utilizan los autovalores de

estas matrices. Un ndice de singularidad, que se utiliza en clculo numrico, es el
ndice de condicionamiento (condition number).
Si M es una matriz de orden k, simtrica y definida positiva, y 1< 2<< k son sus
autovalores, se define el ndice de condicionamiento de M como:
cond(M ) =
k
1
1
Es ms conveniente calcular este ndice para R que para XX, con el fin de evitar la
influencia de las escalas de medida de los regresores.
Para saber si existe o no multicolinealidad, calcularemos cond(R) y si
cond(R)> 30 alta multicolinealidad
10<cond(R)<30 multicolinealidad moderada
cond(R)<10 ausencia de multicolinealidad ( la matriz R est bien definida).
Tema 5
9/28
1.2 Tratamiento de la multicolinealidad

Cuando la recogida de datos se disee a priori, la multicolinealidad puede evitarse
tomando las observaciones de manera que la matriz XX sea diagonal, lo que
aumentar la precisin en la estimacin (los estimadores tendrn varianza pequea).
La multicolinealidad es un problema de la muestra y, por tanto, no tiene solucin
simple, ya que estamos pidiendo a los datos ms informacin de la que contienen.
Las dos nicas soluciones son:
1) Eliminar regresores, reduciendo el nmero de parmetros a estimar,
2) Incluir informacin externa a los datos.
Tema 5
10/28
1) La primera solucin conduce a eliminar, bien variables muy correlacionadas con

las que se incluyen, o bien ciertas combinaciones lineales de ellas mediante
componentes principales.
a) Eliminacin de variables de la ecuacin. Se puede mejorar, en promedio, el error
cuadrtico medio de la estimacin de los parmetros, si se eliminan aquellas
variables cuyo estadstico
t exp =
j
s R q jj
< 1.
b) En lugar de eliminar directamente variables, se pueden considerar las

componentes principales (Tcnica de Anlisis Multivariante) y considerar como
regresores las compionentes ms importantes, es decir, las que tienen mayor
autovalor asociado, que son las que explican mayor porcentaje de la variabilidad de
los datos
2) La segunda solucin es introducir informacin externa mediante el enfoque
bayesiano que conduce a los estimadores contrados que se presentan en el
apndice 13B de Pea (1995, vol. II). Estos estimadores pueden justificarse como
mtodo de reduccin del error cuadrtico medio, y su utilizacin es polmica.
Ver ejemplo multicolinealidad
Tema 5
11/28
2. El anlisis de los residuos

Modelo de regresin lineal mltiple: Y=X +U, donde X es la matriz de regresores
nx(k+1), es el vector de parmetros (k+1)x1 y U es un vector nx1 con ley normal
multivariante NMn(0,2 I).
Una vez estimado el modelo de regresin lineal mltiple tendremos que comprobar las
hiptesis de linealidad, normalidad, homocedasticidad e independencia, realizando un
estudio de los residuos.
2.1 Propiedades de los residuos
Matricialmente se definen como:
= Y X = Y X(X' X) 1 X'Y = Y HY = (I H)Y
e= YY
142
4 43
4
= (I H)(X + U) = X HX + U HU = X X(X' X) 1 X' X + U HU e = (I H) U

1442443
123
X
constante
= U HU = (I H)U
Tema 5
12/28
Proposicin: Puesto que U tiene ley normal multivariante NMn(0,2 I), el vector e de
residuos tambin tiene ley normal multivariante con vector de esperanzas y matriz de
covarianzas:
E(e) = 0, var(e ) = 2 (I H) .
Demostracin:
E(e) = E((I H)U ) = (I H) E( U ) = 0

var(e) = E(ee' ) = E((I H)UU' (I H)' ) = (I H)E(UU' )(I H)' = 2 (I H) 2 = 2 (I H),
1
424
31
424
3
2I
I H
puesto que I-H es una matriz idempotente, al serlo tambin el proyector ortogonal H:
(I H)2 = (I H)(I H) = (I H H + HH) = (I H)

H 2 = HH = X(X' X)1 X' X(X' X)1 X' = H
En particular, para i=1,2,, n, se tiene que var(ei)=2(1-vii), donde vii es el elemento
i-simo de la diagonal del proyector ortogonal H.
2
2
Sustituyendo por la varianza residual s R se obtendr una estimacin de la varianza
del i-simo residuo.
Tema 5
13/28
Para comparar los residuos entre s suele ser ms ilustrativo estandarizarlos. Se

definen los residuos estandarizados como:
ri =
sR
ei
1 vii
Problema! En la expresin anterior, numerador y denominador son dependientes,

2
puesto que el residuo ei se utiliza en el clculo de s R .
Esto puede solucionarse eliminando la observacin i-sima de la matriz de datos y
2
estimando de nuevo el modelo con las n-1 observaciones restantes. Sean (i ) y s R (i )
los estimadores as obtenidos (es decir, sin la observacin i-sima). Se demuestra que
s R2 (i ) tiene la siguiente expresin:
sR2 ( i )
(n k 1) sR2 ei2
=
nk 2
1 vii
2
Lo que significa que para obtener los s R (i ) para i=1,2,, n no es necesario re-estimar
2
2
el modelo n veces, sino que se obtienen a partir de los valores de s R , ei y vii del
modelo completo.
Tema 5
14/28
2
Puesto que la observacin i-sima no interviene en el clculo de s R (i ) , el residuo
2
i-simo ei es independiente de s R (i ) . Se define el residuo estudentizado como:
ti =
sR (i )
ei
~ t nk 2
1 vii
Estos tres tipos de residuos: ei , ri , ti aportan informacin valiosa sobre los datos.
Si n es grande y los datos no contienen valores extremos, los tres tipos de residuos se
comportan por igual. Pero en caso contrario, ri y ti suelen ser ms informativos para
detectar deficiencias en el modelo.
Tema 5
15/28
2.2 Anlisis grfico de los residuos

Histograma y grfico probabilstico normal
tiles para analizar la normalidad de los residuos e identificar valores atpicos.
Cuando el nmero de datos sea al menos cuatro veces mayor que el nmero de
parmetros estimados (es decir, n > 4(k+1)) podemos despreciar la dependencia entre
los residuos.
Grficos de residuos frente a valores predichos
tiles para identificar la falta de linealidad, heterocedasticidad y valores atpicos.
Su uso es anlogo al que vimos en el Tema 2 de regresin lineal simple.
El grfico puede realizarse con cualquiera de los tres tipos de residuos, aunque suelen
utilizarse preferentemente ei o ri .
Tema 5
16/28
Grficos de residuos frente a variables explicativas

Ayudan a identificar si la falta de linealidad o la heterocedasticidad es debida a
alguna variable explicativa.
Es conveniente complementarlos con los grficos parciales de residuos.
Grficos parciales de residuos
tiles para estudiar la relacin entre la variable respuesta, y, y una variable
regresora xj, eliminando el efecto de las dems variables explicativas x1, x2, , xj-1, xj+1,
, xk .
Para ello deberamos:
1) Eliminar la columna correspondiente a la variable xj en la matriz de datos.
2) Estimar el modelo de regresin con k-1 variables explicativas y obtener los
residuos de esta regresin, que representan la parte de la variable respuesta no
explicada por x1, x2, , xj-1, xj+1, , xk.
3) Representar grficamente estos residuos frente a la variable eliminada xj . Este
grfico mide el efecto marginal de xj sobre la variable respuesta y.
Tema 5
17/28
Grficos de residuos frente a variables omitidas

La posible influencia de una nueva variable no incluida en el modelo, z, en la variable
respuesta, y, puede detectarse representando los residuos respecto de ella.
Si la variable omitida es relevante, veremos una relacin lineal entre los residuos y esta
variable.
En particular, siempre que las observaciones se hayan recogido en orden cronolgico o
temporal conviene representar los residuos en funcin del tiempo.
Tema 5
18/28
3. Errores de especificacin
Cometemos un error de especificacin cuando establecemos mal la dependencia
entre la variable respuesta y las variables explicativas. Esto ocurre si:
Omitimos variables importantes,
Introducimos variables innecesarias,
Suponemos una relacin lineal cuando la dependencia no es lineal.
Especificar incorrectamente las variables (omitir o aadir de innecesarias) produce
residuos con esperanza no nula.
Especificar una relacin lineal cuando la existente es no lineal es especialmente
grave si se hacen predicciones fuera del rango de datos.
Tema 5
19/28
Consecuencias de especificar incorrectamente las variables

Excluir una variable afecta a la esperanza y a la varianza de los estimadores:
a) En cuanto a la esperanza, se produce un sesgo en los parmetros estimados que
depende de la relacin entre la variable excluida y las incluidas.
Si la variable excluida es incorrelacionada con las incluidas, entonces el
sesgo del estimador es nulo (estimador insesgado).
El sesgo aumenta al aumentar la correlacin entre la variable excluida y las
incluidas.
b) En cuanto a la varianza, sta es sesgada por exceso (es decir, mayor de lo que
debera ser). Puesto que la raz cuadrada de la varianza es el error estndar del
estimador (que interviene en el cociente de los contrastes de significacin
individuales de los parmetros), esto puede conducir a no detectar como
significativas variables que s lo son, es decir:
j
2
2
Si s = s R q jj es grande texp =
es pequeo
j
s
j
por tanto, no se rechaza H0:j=0 xj es no significativa.
Tema 5
20/28
Incluir variables irrelevantes tiene tambin consecuencias graves, y tanto ms

desfavorables cunto mayor sea la dependencia con las ya incluidas. Los estimadores
seguirn siendo centrados (insesgados), pero
a) su varianza aumentar mucho si incluimos una variable muy correlacionada
con las restantes,
b) si la variable que se incluye est incorrelacionada con las restantes, la varianza
de los estimadores no aumentar, pero los estimadores no sern eficientes
porque habremos invertido un grado de libertad en estimar un parmetro
innecesario.
Tema 5
Identificacin de los errores de especificacin

Mediante los grficos de residuos respecto a:
a) los valores predichos,
b) las variables explicativas xj
c) nuevas variables potencialmente influyentes,
d) secuencia temporal, si los datos son cronolgicos.
Ver ejemplo error de especificacin
21/28
Tema 5
22/28
4. Observaciones influyentes y atpicas

Es muy frecuente que los datos contengan observaciones atpicas o no generadas por
el modelo.
Las observaciones atpicas son importantes porque pueden indicar aspectos nuevos
del modelo (errores de medicin, ausencia de variables relevantes, ) y es
importante identificarlas porque pueden tener mucho efecto en la estimacin.
Estudio de la robustez del modelo
Antes de aceptar como vlido un modelo es siempre conveniente estudiar si las
propiedades bsicas del modelo son debidas a todo el conjunto de observaciones o, si
por el contrario, estas propiedades estn condicionadas a un pequeo subconjunto
de observaciones.
Robustez a priori o robustez del diseo de recogida de datos.
Robustez a posteriori o robustez de los parmetros estimados, una vez
observados los valores de la respuesta.
Tema 5
23/28
4.1. Robustez a priori. Los efectos palanca de las observaciones.

El efecto palanca (leverage) de cada observacin es, como vimos en el Tema 3, la
capacidad del punto para atraer a la ecuacin de regresin.
Este efecto depende del valor
1 ~
~
vii = x i ' (X' X) x i = 1 + (x i x)' S XX (xi x)
n 144424443
dist .Mahalanobis
donde
~
xi = ( x1i , x2i ,..., xki ) es la observacin i-sima sin el trmino correspondiente a 0,
x es el vector de medias de las k variables explicativas (centro de gravedad o
centroide),
S XX es la matriz de covarianzas de las k variables explicativas.

~
Recordemos que vii es una medida de distancia entre el punto xi y el centro de
gravedad x .
Tema 5
24/28
Se consideran puntos palanca (leverage points) aquellos puntos cuyo vii sea elevado.
Si llamamos
1 n
tr(H) k + 1
v = vii =
=
n i =1
n
n
y consideramos el caso en que el nmero de regresores es 3 k 6, con distribucin
normal conjunta, entonces diremos que la observacin i-sima es extrema o
potencialmente influyente si
vii > 2 v =
2 (k + 1)
n
Tema 5
25/28
4.2. La robustez a posteriori del modelo.

El hecho de que una observacin sea muy influyente a priori, no implica que
realmente lo sea. Lo ser si, al eliminarla, las propiedades del modelo estimado
cambian mucho.
(a) El modelo es prcticamente el mismo con y sin el punto A,

(b) El punto B modifica por completo el modelo segn si se tiene en
cuenta o no.
Tema 5
Un punto o una observacin ser influyente si
a) Modifica el vector de parmetros estimados,

de predicciones,
b) Modifica el vector Y
c) Hace que la prediccin del punto sea muy buena cuando ste
se incluye en el modelo, y muy mala cuando se excluye.
26/28
Tema 5
27/28
Para medir la influencia de un punto se utiliza la distancia de Cook:
ri 2 vii
D(i ) =
k + 1 1 vii
donde ri es el residuo estandarizado, es decir:
ri =
sR
ei
1 vii
Diremos que un punto es influyente a nivel si
D(i ) Fk+1,nk 1 ,
donde Fk +1,nk 1 es el percentil (1-)100% de la ley F de Fisher con k+1 y n-k-1 grados
de libertad.
Ver ejemplo puntos influyentes
Tema 5
28/28
4.3. Datos atpicos

Diremos que un dato es atpico cuando no se ha generado por el mismo
mecanismo que el resto de las observaciones.
Por ejemplo, ha ocurrido un error de medida, o esa observacin tiene un valor distinto
del resto para una variable relevante no incluida en el modelo (generalmente se debe a
variables categricas que no se han tenido en cuenta y que provocan la aparicin de
distintos grupos).
Para contrastar que un dato es atpico se utiliza su residuo estudentizado, ti .
Bajo la hiptesis nula de que no existen atpicos, los residuos estudentizados tienen
una ley t de Student con n-k-2 grados de libertad.
Sea t max = max(ti ) . Para un nivel de significacin , diremos que la observacin
correspondiente al mximo residuo estudentizado es atpica si
t max = max(ti ) > t n1k / 22

1i n
1 / 2
donde t nk 2 es el percentil (1-/2)100% de la ley t de Student con n-k-2 grados de

libertad.
Ver ejemplo seleccin de variables

Ema5. Diagnosis y Validación Del Modelo de Regresión Lineal Múltiplepdf

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Ema5. Diagnosis y Validación Del Modelo de Regresión Lineal Múltiplepdf

Caricato da

Copyright:

Formati disponibili

Mtodos de Regresin.

Grado en Estadstica y Empresa

Tema 5. Diagnosis y validacin del modelo de regresin lineal mltiple

Mtodos de Regresin. Grado en Estadstica y Empresa

En este tema vamos a ver como:

Mtodos de Regresin. Grado en Estadstica y Empresa

Problema! cuando rang(X) < k+1.

Mtodos de Regresin. Grado en Estadstica y Empresa

Existen dos tipos de multicolinealidad:

rang (X) < k + 1 det( X' X) = 0

Una de las variables explicativas es combinacin lineal exacta de las dems:

El sistema de ecuaciones que determina el vector no tiene solucin nica.

b) Los estimadores j sern muy dependientes entre s, puesto que tendrn

Mtodos de Regresin. Grado en Estadstica y Empresa

1.1 Identificacin y consecuencias de la multicolinealidad

del modelo sea significativo.

Mtodos de Regresin. Grado en Estadstica y Empresa

1) La presencia de correlaciones altas entre variables explicativas es un indicio de

que es una matriz de orden k, simtrica, con unos en la diagonal.

Mtodos de Regresin. Grado en Estadstica y Empresa

La inversa de la matriz de correlaciones:

donde Ri.resto es el coeficiente de determinacin de la regresin de la variable xi en

Mtodos de Regresin. Grado en Estadstica y Empresa

2) Las mejores medidas de singularidad de XX o de R utilizan los autovalores de

Mtodos de Regresin. Grado en Estadstica y Empresa

1.2 Tratamiento de la multicolinealidad

Mtodos de Regresin. Grado en Estadstica y Empresa

1) La primera solucin conduce a eliminar, bien variables muy correlacionadas con

b) En lugar de eliminar directamente variables, se pueden considerar las

Ver ejemplo multicolinealidad

Mtodos de Regresin. Grado en Estadstica y Empresa

2. El anlisis de los residuos

= (I H)(X + U) = X HX + U HU = X X(X' X) 1 X' X + U HU e = (I H) U

Mtodos de Regresin. Grado en Estadstica y Empresa

E(e) = E((I H)U ) = (I H) E( U ) = 0

(I H)2 = (I H)(I H) = (I H H + HH) = (I H)

Mtodos de Regresin. Grado en Estadstica y Empresa

Para comparar los residuos entre s suele ser ms ilustrativo estandarizarlos. Se

Problema! En la expresin anterior, numerador y denominador son dependientes,

Mtodos de Regresin. Grado en Estadstica y Empresa

Mtodos de Regresin. Grado en Estadstica y Empresa

2.2 Anlisis grfico de los residuos

Mtodos de Regresin. Grado en Estadstica y Empresa

Grficos de residuos frente a variables explicativas

Mtodos de Regresin. Grado en Estadstica y Empresa

Grficos de residuos frente a variables omitidas

Mtodos de Regresin. Grado en Estadstica y Empresa

Mtodos de Regresin. Grado en Estadstica y Empresa

Consecuencias de especificar incorrectamente las variables

por tanto, no se rechaza H0:j=0 xj es no significativa.

Mtodos de Regresin. Grado en Estadstica y Empresa

Incluir variables irrelevantes tiene tambin consecuencias graves, y tanto ms

Mtodos de Regresin. Grado en Estadstica y Empresa

Identificacin de los errores de especificacin

Ver ejemplo error de especificacin

Mtodos de Regresin. Grado en Estadstica y Empresa

4. Observaciones influyentes y atpicas

Mtodos de Regresin. Grado en Estadstica y Empresa

4.1. Robustez a priori. Los efectos palanca de las observaciones.

S XX es la matriz de covarianzas de las k variables explicativas.

Mtodos de Regresin. Grado en Estadstica y Empresa

Mtodos de Regresin. Grado en Estadstica y Empresa

4.2. La robustez a posteriori del modelo.