Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Volumen 27 No 2. P
ags. 109 a 121. Diciembre 2004
Resumen
En este artculo se presenta un metodo para determinar las observaciones
que son atpicas en un modelo de regresi
on lineal m
ultiple; estos datos
se estableceran de acuerdo al cambio que ejercen sobre la suma de los
cuadrados de residuales del modelo.
Palabras Claves: Modelos lineales, mnimos cuadrados, formas cuadr
aticas, observaciones atpicas, estadstica Qk .
Abstract
This paper present a method to determine the observations that are outliers in a model of multiple linear regression; these data will be established
according to the change that is presented on the sum of the squares of
residual of the model.
Key words: Linear models, Least squares, Quadratic forms, Outliers,
Qk Statistics.
1.
Introducci
on
Draper & John (1981) proponen una metodologa para detectar un grupo
de k observaciones atpicas, analoga a la propuesta de Bartlett (1937), citada
en Little & Rubin (1987), para estimar los parametros del modelo de regresion
lineal cuando existen observaciones faltantes en la variable respuesta. En el
* Profesor asistente, Universidad Nacional de Colombia, Departamento de Matem
aticas.
E-mail: josajimenezm@unal.edu.co
109
110
Jose A. Jimenez M.
n1
+ ,
(1)
+ 1 ,
2
(2)
nr r1
n1
I
0
= (I H11 )1 1 ,
H = X(X 0 X)1 X 0 ,
para X =
X1
.
X2
La notaci
on de H y el nombre de matriz hat fue introducido por Tukey
(1977); por otra parte, el cambio en la suma de cuadrados de residuales lo
calculan usando la estadstica:
Qk =
01 (I H11 )1 1 ,
(3)
111
2.
Resultados b
asicos del ajuste del modelo de
regresi
on lineal m
ultiple
(4)
SCE = b
0b
= [(I H)Y ] (I H)Y = Y 0 (I H)Y.
Observese que la matriz H determina muchos de los resultados de las estimaciones por MCO; por ejemplo, cuando premultiplica al vector de respuestas
Y se obtienen los valores predichos de la variable dependiente, por eso en la
literatura estadstica en algunos casos la denominan matriz de predicci
on, y a
la matriz I H la llaman matriz residual, puesto que al anteponersele a la
variable dependiente Y se obtienen los respectivos residuales.
2.1.
j6=i
i=1
n
P
i=1
hij =
i=1 j=1
n
P
hij = 1,
j=1
112
Jose A. Jimenez M.
zaci
on de xi en el espacio X, es decir, un valor peque
no (grande) de hii indica
que xi se encuentra cerca (lejos) de la masa de los otros puntos. Ademas,
sugieren que xi es un punto influyente si hii > 2r/n.
3.
C
alculo de la estadstica Qk
(6)
donde b
es la estimaci
on va mnimos cuadrados (EM C) de del modelo (1).
Al remplazar (6) en (5) se tiene:
Qk =
b0 (I H)b
=
b0
b
b0 Hb
.
(7)
4.
Distribuci
on de probabilidad de Qk
b
Ik X1 (X2 X2 )1 X2 Y1
b= 1 =
,
0
Y2
0
0
(8)
113
b
b=Y
Y
X2 (X2 X2 )1 X1 0
0
0
0
Ik
M12
=Y
Y.
(9)
M21
M21 M12
Por otra parte, si se sustituye (8) en el segundo termino de la expresion (7)
y se emplean los resultados dados en Jimenez (2001a), se tiene que:
0
0
H11
H12 M12
b Hb
=Y
Y
H21 M21
H22 + M21 M12 M22
0
0
H11
H12
0
M12
=Y
Y Y
Y.
(10)
H21
H22
M21
M22 M21 M12
Finalmente, al sustituir (9) y (10) en la ecuacion (7), se obtiene que:
0
Qk =b
(I H)b
0
0
Ik
M12
H11
H12 M12
=Y
Y Y
Y
M21 M21 M12
H21 M21 H22 + M21 M12 M22
0
0
Ik
0
H11
H12
=Y
Y Y
Y
0
M22
H21
H22
0
=Y M Y Y HY = Y (M H) Y.
(11)
N
otese que la matriz (M H) es simetrica; ademas, es idempotente. Esto se
puede verificar de la siguiente manera:
(M H) (M H) =M 2 M H HM + H 2 ,
pero M 2 = M , ya que:
Ik
0
Ik
0 M22 0
0
I
= k
M22
0
0
I
= k
M22 M22
0
0
.
M22
114
Jose A. Jimenez M.
X1
es de rango completo, entonces:
X2
0
Var [Y 0 AY ] =2 tr(AV )2 + 40 AV A.
0
(12)
Como la expresi
on dada en (11) es una forma cuadratica se establecera a
continuaci
on la respectiva distribucion asociada. Por el teorema 1, se tiene que
" 0
#
n
h 0
io
0
Y (M H)Y
1
E
=
k
r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
#
" 0
n
h 0
io
0
Y (M H)Y
1
Var
=2
k
r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
donde r es el rango de la matriz X definida
el modelo (1).
h en
i Cuando esta
0
0
1
matriz es de rango completo se tiene que tr (X2 X2 ) (X2 X2 ) = r.
Utilizando el teorema 2, tambien se concluye que Qk / 2 tiene distribucion
ji-cuadrado central:
Qk
2() ,
(13)
2
h 0
i
0
donde = k r + tr (X2 X2 )1 (X2 X2 ) . Aqu el teorema 2 es aplicable ya
1
que 2 (M H) 2 In es una matriz idempotente.
115
5.
Qk =
b (I H)b
,
(14)
(15)
Y1
, el bloque Y1 esta conformado
Y2
por las observaciones atpicas, dicho bloque afectara todas las EMC del modelo
dado en (1). Por otra parte, si se reescribe la expresion (5), se tiene que:
Si se considera que en la particion Y =
SCE = SCE + Qk ,
y dado que SCE puede expresarse en forma matricial como sigue
0
0
0
0
SCE = Y
Y = Y [In M ] Y ;
0
Ink M22
(16)
SCE
,
2
(17)
tienen distribuci
on ji-cuadrado central. Luego, si se divide la ecuacion (13) por
cualquiera de las expresiones dadas en (17), se elimina el termino 2 y queda
el cociente entre dos formas cuadraticas que se distribuyen ji-cuadrado.
Por la teora estadstica se sabe que cuando se realiza el cociente entre dos
variables aleatorias independientes con distribucion ji-cuadrado y cada una se
divide por sus respectivos grados de libertad, se obtiene una nueva variable con
distribuci
on F .
Para llevar a cabo el cociente mencionado anteriormente se debe verificar
con cu
al de las distribuciones asociadas a las expresiones dadas en (17) la
distribuci
on de probabilidad expresada en (13) es independiente; para ello, se
enuncia sin demostraci
on el teorema 3, citado en Searle (1971).
Teorema 3. Cuando Y N (, V ), las formas cuadraticas Y 0 AY y Y 0 BY ,
est
an distribuidas independientemente si y solo si AV B = 0.
116
Jose A. Jimenez M.
tr
(X
X
)
(X
X
)
,
E
2 2
2 2
2
" 0
#
n
h 0
io
0
Y (In M ) Y
1
V ar
=2
n
tr
(X
X
)
(X
X
)
.
2
2
2
2
2
"
teorema 2. As pues,
0
Y (In M ) Y
2 ,
2
(18)
0
0
con = nktr (X2 X2 )1 (X2 X2 ) . Cuando la matriz X es de rango completo
0
0
se tiene que tr (X2 X2 )1 (X2 X2 ) = r.
Como las distribuciones de probabilidad asociadas a las expresiones (15) y
(16) son independientes, al hacer el cociente entre las relaciones (13) y (18),
117
k 2
=
,
SCE
k
SCE
(n r k) 2
nrk
Qk
F(k,nrk) .
k
SCE
Estos resultados se pueden resumir en los siguientes teoremas.
Teorema 4. Si en un modelo de regresion lineal m
ultiple particionado como:
Y1
X1
=
+ 1 ,
Y2
X2
2
se elimina el bloque Y1 de dimension k, entonces el cambio que se presenta en
la SCE se calcula mediante la expresion:
(Y1 ) =
b0 [In H]
b
1
,
2
k
S(Y1 )
(19)
SCE
es la estimacion usual de 2 , despues de eliminar
nkr
0
0
b
las observaciones del bloque Y1 , y
b = 1 , con
b1 = Y1 +X1 (X2 X2 )1 X2 Y2 .
0
2
donde S(Y
=
b2 =
1)
con
6.
(20)
Ejemplo
118
Jose A. Jimenez M.
1
2
3
4
5
6
7
15
26
10
9
15
20
18
95
71
83
91
102
87
93
Obs.
8
9
10
11
12
13
14
11
8
20
7
9
10
11
100
104
94
113
96
83
84
Obs.
15
16
17
18
19
20
21
11
10
12
42
17
11
10
102
100
105
57
121
86
100
1. La estimaci
on del modelo de regresion lineal, con las 21 observaciones.
2. Los elementos de la diagonal de la matriz H, las estimaciones de los i y
al eliminar el i-esimo dato se establecen la estadstica Q1 , la distancia de
Cook y la estadstica (i) con su p-valor correspondiente.
3. La estimaci
on del modelo de regresion lineal, despues de eliminar la observaci
on influyente determinada mediante distancia de Cook.
4. La estimaci
on del modelo de regresion lineal, sin la observacion que se
considera influyente por la estadstica (i) .
1. An
alisis de varianza para el conjunto completo de datos:
Fuente de
variaci
on
Grados
libertad
Suma de
cuadrados
Cuadrados
Medios
Valor crtico
de F
Regresi
on
Residuos
Total
1
19
20
1604,0809
2308,5858
3912,6667
1604,0809
121,5045
13,2018
0,00177
Intercepto
Variable X
Coeficientes
Error tpico
Estadstico t
109,8738
-1,1270
5,0678
0,3102
21,6808
-3,6334
119
2. Compendio de estadsticas:
Obs.
Elim.
hii
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
0,0479
0,1545
0,0628
0,0705
0,0479
0,0726
0,0580
0,0567
0,0799
0,0726
0,0908
0,0705
0,0628
0,0567
0,0567
0,0628
0,0521
0,6516
0,0531
0,0567
0,0628
bi
Qk
Di
(k=1)
(100Di )
-2,1332
11,3214
16,6498
9,3936
-9,4856
0,3602
-3,6220
-2,6746
-3,4148
-7,1879
-12,1145
4,0141
16,6498
14,2866
-4,7948
-1,4896
-9,1255
15,9026
-31,9816
12,1664
-1,4896
4,333
108,370
259,803
82,015
85,664
0,120
12,358
6,748
10,729
47,914
133,443
14,976
259,803
192,540
21,687
2,080
78,936
88,105
968,562
139,634
2,080
0,09
8,15
7,17
2,56
1,77
0,00
0,31
0,17
0,38
1,54
5,48
0,47
7,17
4,76
0,54
0,06
1,79
67,81
22,33
3,45
0,06
el m
as
grande
Di > 0, 5
(i)
pvalor
0,0338
0,8866
2,2826
0,6630
0,6937
0,0009
0,0969
0,0528
0,0840
0,3815
1,1043
0,1175
2,2826
1,6378
0,1707
0,0162
0,6373
0,7142
13,0103
1,1588
0,0162
0,8561
0,3589
0,1482
0,4261
0,4158
0,9759
0,7592
0,8209
0,7752
0,5445
0,3072
0,7357
0,1482
0,2169
0,6844
0,9000
0,4351
0,4091
0,0020
0,2959
0,9000
p<
(=5 %)
120
Jose A. Jimenez M.
1
18
19
280,5195
2220,4805
2501
280,5195
123,3600
Valor crtico
de F
2,27399
0,1489
105,62987
-0,77922
14,7488045
-1,5079754
La distancia de Cook nos indico que la pareja (42, 57) era la que mas
afectaba la EM C de los parametros, pero al eliminarla el modelo obtenido
fue m
as deficiente que el modelo completo. Por lo tanto, la observacion
es solamente influencial pero no es atpica.
4. Eliminando la observacion 19 que detecto (i) como atpica, se tiene:
Fuente de Grados Suma de Cuadrados
variaci
on libertad cuadrados
medios
Regresi
on
Residuos
Total
1
18
19
1788,17619
1340,02381
3128,2
Valor crtico
de F
1788,17619 24,01985
74,44577
0,0001151
109,30468
-1,19331
27,5329
-4,9010
El modelo que se obtiene al eliminar la pareja (17, 121) es mejor que el modelo
completo, pues el nuevo coeficiente de determinacion es superior al del modelo
inicial. El valor crtico de la F es tambien inferior al valor crtico que se determin
o en el an
alisis de varianza del modelo inicial y, ademas, el cuadrado medio
del error (CM E) fue menor que el CM E del modelo completo. Aunque dicha
observaci
on es atpica, no es influyente en la estimacion de los parametros del
modelo.
7.
121
Conclusiones
Bibliografa
Bartlett, M. S. (1937), Some examples of statistical methods of research in
agriculture and applied botany, Journal of the Royal Statistical Society
B4, 137170.
Draper, N. R. & John, J. A. (1981), Influential observations and outliers in
regression, Technometrics 23(1), 2126.
Hoaglin, D. C. & Welsch, R. E. (1978), The hat matrix in regression and
anova, The American Statistician 32(1), 1722.
Jimenez, J. A. (2001a), Una generalizacion de la estadstica de Cook, Revista
Colombiana de Estadstica 24(2), 111120.
Jimenez, J. A. (2001b), Una maximizacion de la estadstica Qk , Revista
Colombiana de Estadstica 24(1), 4557.
Little, R. J. & Rubin, D. B. (1987), Statistical Analysis With Missing Data,
John Wiley & Sons.
Mickey, M. R., Dunn, O. J. & Clark, V. (1967), Note on the use of stepwise regression in detecting outliers, Computers and Biomedical Research,
1, 105111.
Searle, S. (1971), Linear Models, John Wiley & Sons.
Tukey, J. W. (1977), Exploratory Data Analysis, Addison Wesley.