Identificacion de Datos Atipicos

Revista Colombiana de Estadstica
Volumen 27 No 2. P
ags. 109 a 121. Diciembre 2004
Un criterio para identificar datos atpicos

Alfredo Jime
nez Moscoso*
Jose
Resumen
En este artculo se presenta un metodo para determinar las observaciones
que son atpicas en un modelo de regresi
on lineal m
ultiple; estos datos
se estableceran de acuerdo al cambio que ejercen sobre la suma de los
cuadrados de residuales del modelo.
Palabras Claves: Modelos lineales, mnimos cuadrados, formas cuadr
aticas, observaciones atpicas, estadstica Qk .
Abstract
This paper present a method to determine the observations that are outliers in a model of multiple linear regression; these data will be established
according to the change that is presented on the sum of the squares of
residual of the model.
Key words: Linear models, Least squares, Quadratic forms, Outliers,
Qk Statistics.
1.
Introducci
on
Draper & John (1981) proponen una metodologa para detectar un grupo
de k observaciones atpicas, analoga a la propuesta de Bartlett (1937), citada
en Little & Rubin (1987), para estimar los parametros del modelo de regresion
lineal cuando existen observaciones faltantes en la variable respuesta. En el
* Profesor asistente, Universidad Nacional de Colombia, Departamento de Matem
aticas.
E-mail: josajimenezm@unal.edu.co
109
110
Jose A. Jimenez M.
planteamiento de Draper & John (1981) se considera el modelo de regresion

lineal m
ultiple:
Y = X
n1
+ ,
(1)

+ 1 ,
2
(2)
nr r1
n1
particionado de la siguiente manera:

Y1
X1
=
Y2
X2
I
0
donde Y1 es el bloque conformado por las observaciones consideradas atpicas.

Para el modelo (2) establecen las estimaciones de y mediante:
=(X20 X2 )1 X20 Y2 ,
= (I H11 )1 1 ,
donde Hij = Xi (X 0 X)1 Xj0 es una submatriz de la matriz
H = X(X 0 X)1 X 0 ,
para X =

X1
.
X2
La notaci
on de H y el nombre de matriz hat fue introducido por Tukey
(1977); por otra parte, el cambio en la suma de cuadrados de residuales lo
calculan usando la estadstica:
Qk =
01 (I H11 )1 1 ,
con k = dim (Y1 ) .
(3)
En resumen, el metodo descrito permite detectar el grupo de observaciones

atpicas en base al cambio en la suma de cuadrados de residuales, lo cual se
cuantifica con la estadstica Qk , es decir, mediante este procedimiento se selecciona el bloque Y1 que posee el Qk mas alto, como el bloque mas atpico, y
en muchos casos quedan datos atpicos dentro de un bloque y el metodo no los
identifica. En este artculo se muestra un criterio para identificar el bloque Y1
que contiene el grupo m
as grande de observaciones atpicas.
111
2.
Resultados b
asicos del ajuste del modelo de
regresi
on lineal m
ultiple
Mediante el metodo de estimacion mnimos cuadrados ordinarios (MCO)

se obtiene para el modelo dado en (1) los siguientes estimadores:
0
b = (X X)1 X 0 Y,
Yb = X = X(X 0 X)1 X 0 Y = HY,
b
= Y Y = Y HY = (I H)Y,
(4)
SCE = b
0b
= [(I H)Y ] (I H)Y = Y 0 (I H)Y.
Observese que la matriz H determina muchos de los resultados de las estimaciones por MCO; por ejemplo, cuando premultiplica al vector de respuestas
Y se obtienen los valores predichos de la variable dependiente, por eso en la
literatura estadstica en algunos casos la denominan matriz de predicci
on, y a
la matriz I H la llaman matriz residual, puesto que al anteponersele a la
variable dependiente Y se obtienen los respectivos residuales.
2.1.
Propiedades de las componentes de la matriz H
En Hoaglin & Welsch (1978) se establece para la matriz H = [hij ] de tama

no
n n, las siguientes propiedades:
n
P
P 2
(a) hii =
h2ij = h2ii +
hij ya que Hes simetrica e idempotente.
j=1
j6=i
(b) 0 < hii 1,

si i = 1, 2, . . . , n.
(c) 0,5 hij 0,5,
para i 6= j.
(d) (1 hii )(1 hjj ) h2ij 0.
(e) hii hjj h2ij 0.
(f ) Si hii = 1, entonces hij = 0, para todo j 6= i.
Si la matriz X de tama
no n r es de rango r, entonces
n
n
n
P
P P
(g)
hii =
h2ij = r = tr(H),
(h)
i=1
n
P
i=1
hij =
i=1 j=1
n
P
hij = 1,
j=1
donde tr(H) denota la traza de la matriz H.

Dado que hij = xi (X 0 X)1 x0j , entonces hii esta determinado por la locali-
112
Jose A. Jimenez M.
zaci
on de xi en el espacio X, es decir, un valor peque
no (grande) de hii indica
que xi se encuentra cerca (lejos) de la masa de los otros puntos. Ademas,
sugieren que xi es un punto influyente si hii > 2r/n.
3.
C
alculo de la estadstica Qk
En Jimenez (2001b) se establece para la estadstica dada en (3), la siguiente

expresi
on:
Qk = SCE SCE = 2 0 0 (I H) ,
(5)
donde SCE es obtenida en terminos algebraicos como en (4) y SCE , representa la estimaci
on va mnimos cuadrados (EM C) de SCE sin el bloque Y1 de
observaciones. Adem
as, muestra que si el interes es minimizar la SCE , esto
se logra haciendo:
Qk
= 0,
lo cual equivalente a hacer:

b
+ (I H)b
= 0,
(6)
donde b
es la estimaci
on va mnimos cuadrados (EM C) de del modelo (1).
Al remplazar (6) en (5) se tiene:
Qk =
b0 (I H)b
=
b0
b
b0 Hb
.
(7)
Esta nueva expresi

on de Qk tiene la ventaja de que esta en terminos de la
estimaci
on del arbitrario, la cual para los objetivos de este trabajo es mas
atractiva, ya que se podr
a establecer su distribucion de probabilidad correspondiente.
4.
Distribuci
on de probabilidad de Qk

En Jimenez (2001a) al asumir la restriccion = 1 , se llega a:

0

0
0
b
Ik X1 (X2 X2 )1 X2 Y1
b= 1 =
,
0
Y2
0
0
(8)
donde Ik es la matriz identidad de tama

no k k, con k igual a la dimension
del bloque Y1 y Mij = Xi (X20 X2 )1 Xj0 .
113
Si se reemplaza (8) en el primer termino de la expresion (7) se obtiene

0
0
0
0
Ik
0 Ik X1 (X2 X2 )1 X2
0
0
b
b=Y
Y
X2 (X2 X2 )1 X1 0
0
0

0
Ik
M12
=Y
Y.
(9)
M21
M21 M12
Por otra parte, si se sustituye (8) en el segundo termino de la expresion (7)
y se emplean los resultados dados en Jimenez (2001a), se tiene que:

0
0
H11
H12 M12
b Hb
=Y
Y
H21 M21
H22 + M21 M12 M22

0
0
H11
H12
0
M12
=Y
Y Y
Y.
(10)
H21
H22
M21
M22 M21 M12
Finalmente, al sustituir (9) y (10) en la ecuacion (7), se obtiene que:
0
Qk =b
(I H)b

0
0
Ik
M12
H11
H12 M12
=Y
Y Y
Y
M21 M21 M12
H21 M21 H22 + M21 M12 M22

0
0
Ik
0
H11
H12
=Y
Y Y
Y
0
M22
H21
H22
0
=Y M Y Y HY = Y (M H) Y.
(11)
N
otese que la matriz (M H) es simetrica; ademas, es idempotente. Esto se
puede verificar de la siguiente manera:
(M H) (M H) =M 2 M H HM + H 2 ,
pero M 2 = M , ya que:

Ik
0
Ik
0 M22 0

0
I
= k
M22
0

0
I
= k
M22 M22
0

0
.
M22
Esto se tiene, ya que para i, j = 1, 2:

0
Mi2 M2j = [Xi (X2 X2 )1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X2 X2 )1 Xj = Mij ;

por otra parte, HM = H lo cual se puede verificar como sigue:

H11 H12 Ik
0
H11 H12 M22
H11 H12
=
=
.
H21 H22 0 M22
H21 H22 M22
H21 H22
114
Jose A. Jimenez M.
Aqu cabe notar que cuando X =

0

X1
es de rango completo, entonces:
X2
0
Hi2 M2j = [Xi (X X)1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X X)1 Xj = Hij ,

para i, j = 1, 2; adem
as, como las matrices H y M son simetricas se tiene que
H = (M H)t = HM . En consecuencia,
(M H) (M H) = M H.
Para establecer la distribucion de Qk , se presentan, sin demostracion, los teoremas 1 y 2, mencionados en Searle (1971).
Teorema 1. Si Y es un vector aleatorio de tama
no n 1, distribuido N (, V ),
donde es en si mismo un vector entonces:
E [Y 0 AY ] = tr(AV ) + 0 A
Var [Y 0 AY ] =2 tr(AV )2 + 40 AV A.
0
Teorema 2. Si Y N (, V ), entonces Y 0 AY 2(,) , con grados de libertad = (A) y par

ametro de no centralidad = 21 0 A, si y solo si AV es
idempotente.
Puesto que, bajo el supuesto de normalidad en los residuales se tiene que
Y N (X, 2 In ).
(12)
Como la expresi
on dada en (11) es una forma cuadratica se establecera a
continuaci
on la respectiva distribucion asociada. Por el teorema 1, se tiene que
" 0
#
n
h 0
io
0
Y (M H)Y
1
E
=
k
r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
#
" 0
n
h 0
io
0
Y (M H)Y
1
Var
=2
k
r
+
tr
(X
X
)
(X
X
)
,
2
2
2
2
2
donde r es el rango de la matriz X definida
el modelo (1).
h en
i Cuando esta
0
0
1
matriz es de rango completo se tiene que tr (X2 X2 ) (X2 X2 ) = r.
Utilizando el teorema 2, tambien se concluye que Qk / 2 tiene distribucion
ji-cuadrado central:
Qk
2() ,
(13)
2
h 0
i
0
donde = k r + tr (X2 X2 )1 (X2 X2 ) . Aqu el teorema 2 es aplicable ya
1
que 2 (M H) 2 In es una matriz idempotente.
115
5.
Metodologa para establecer datos atpicos

Dado que la estadstica Qk se puede obtener de la forma cuadratica:
0
Qk =
b (I H)b
,
(14)
al expresarla en terminos del vector de respuestas Y , queda como:

0
0
Ik
0
H11
H12
Qk =Y
Y Y
Y.
0
M22
H21
H22
(15)

Y1
, el bloque Y1 esta conformado
Y2
por las observaciones atpicas, dicho bloque afectara todas las EMC del modelo
dado en (1). Por otra parte, si se reescribe la expresion (5), se tiene que:
Si se considera que en la particion Y =
SCE = SCE + Qk ,
y dado que SCE puede expresarse en forma matricial como sigue

0
0
0
0
SCE = Y
Y = Y [In M ] Y ;
0
Ink M22
(16)
usando (12), se puede establecer que las expresiones,

SCE
2
SCE
,
2
(17)
tienen distribuci
on ji-cuadrado central. Luego, si se divide la ecuacion (13) por
cualquiera de las expresiones dadas en (17), se elimina el termino 2 y queda
el cociente entre dos formas cuadraticas que se distribuyen ji-cuadrado.
Por la teora estadstica se sabe que cuando se realiza el cociente entre dos
variables aleatorias independientes con distribucion ji-cuadrado y cada una se
divide por sus respectivos grados de libertad, se obtiene una nueva variable con
distribuci
on F .
Para llevar a cabo el cociente mencionado anteriormente se debe verificar
con cu
al de las distribuciones asociadas a las expresiones dadas en (17) la
distribuci
on de probabilidad expresada en (13) es independiente; para ello, se
enuncia sin demostraci
on el teorema 3, citado en Searle (1971).
Teorema 3. Cuando Y N (, V ), las formas cuadraticas Y 0 AY y Y 0 BY ,
est
an distribuidas independientemente si y solo si AV B = 0.
116
Jose A. Jimenez M.
Veamos si las distribuciones asociadas a Qk y SCE son independientes. Si

se retoman las ecuaciones dadas en (11) y (4), se tiene por el teorema 3 que
Qk y SCE no son independientes, pues,
(M H)( 2 In )(In H) = 2 (M H)(In H)
= 2 [M M H H + H 2 ] = 2 (M H) 6= 0;
en la u
ltima ecuaci
on se tuvo en cuenta que H es idempotente y que M H = H.
De manera an
aloga, se verifica si son independientes las distribuciones de
probabilidad de Qk y SCE ; de las ecuaciones (11) y (16) utilizando el teorema
3, se concluye que son independientes, ya que:
(M H)( 2 In ) (In M ) = 2 (M H) (In M )

= 2 M M 2 H + HM = 0.
En esta u
ltima expresi
on se utilizaron los resultados: M H = H y M 2 = M .
La media y varianza de la SCE se obtienen por el teorema 1, como sigue:
#
0
n
h 0
io
0
Y (In M ) Y
1
=
n
tr
(X
X
)
(X
X
)
,
E
2 2
2 2
2
" 0
#
n
h 0
io
0
Y (In M ) Y
1
V ar
=2
n
tr
(X
X
)
(X
X
)
.
2
2
2
2
2
"
Como la media y la varianza de la distribucion 2 son y 2 respectivamente, se

0

deduce que Y (In M ) Y / 2 tiene distribucion ji-cuadrado central. Se llega
1
a la misma conclusi
on, ya que 2 (In M ) 2 In es idempotente, utilizando el
teorema 2. As pues,
0
Y (In M ) Y
2 ,
2
(18)
0

0
con = nktr (X2 X2 )1 (X2 X2 ) . Cuando la matriz X es de rango completo
0

0
se tiene que tr (X2 X2 )1 (X2 X2 ) = r.
Como las distribuciones de probabilidad asociadas a las expresiones (15) y
(16) son independientes, al hacer el cociente entre las relaciones (13) y (18),
117
dividiendo cada una por sus correspondientes grados de libertad, se llega a:

Qk
nrk
b(I H)b
k 2
=
,
SCE
k
SCE
(n r k) 2

nrk
Qk
F(k,nrk) .
k
SCE
Estos resultados se pueden resumir en los siguientes teoremas.
Teorema 4. Si en un modelo de regresion lineal m
ultiple particionado como:

Y1
X1

=
+ 1 ,
Y2
X2
2
se elimina el bloque Y1 de dimension k, entonces el cambio que se presenta en
la SCE se calcula mediante la expresion:
(Y1 ) =
b0 [In H]
b
1
,
2
k
S(Y1 )
(19)
SCE
es la estimacion usual de 2 , despues de eliminar
nkr

0
0
b
las observaciones del bloque Y1 , y
b = 1 , con
b1 = Y1 +X1 (X2 X2 )1 X2 Y2 .
0
2
donde S(Y
=
b2 =
1)
Teorema 5. En un modelo de regresion lineal m

ultiple Y = X + , bajo el
supuesto de que N (0, 2 In ), se tiene que:
(Y1 ) F(k,nrk) ,
con
k = dimension del bloque Y1 ,

r = rango de la matriz X.
En este caso, se clasifica como atpico al bloque Y1 de observaciones, si con un

nivel de significancia se satisface que:
(Y1 ) > F(k,nrk,/2) .
6.
(20)
Ejemplo
En la Tabla 1, se considera el conjunto de 21 observaciones (x, y), dado por

Mickey, Dunn & Clark (1967).
Para este conjunto de datos, se presentan los siguientes resultados:
118
Jose A. Jimenez M.
Tabla 1: Datos de Mickey, Dunn, and Clark (1967)

Obs.
1
2
3
4
5
6
7
15
26
10
9
15
20
18
95
71
83
91
102
87
93
Obs.
8
9
10
11
12
13
14
11
8
20
7
9
10
11
100
104
94
113
96
83
84
Obs.
15
16
17
18
19
20
21
11
10
12
42
17
11
10
102
100
105
57
121
86
100
1. La estimaci
on del modelo de regresion lineal, con las 21 observaciones.
2. Los elementos de la diagonal de la matriz H, las estimaciones de los i y
al eliminar el i-esimo dato se establecen la estadstica Q1 , la distancia de
Cook y la estadstica (i) con su p-valor correspondiente.
3. La estimaci
on del modelo de regresion lineal, despues de eliminar la observaci
on influyente determinada mediante distancia de Cook.
4. La estimaci
on del modelo de regresion lineal, sin la observacion que se
considera influyente por la estadstica (i) .
1. An
alisis de varianza para el conjunto completo de datos:
Fuente de
variaci
on
Grados
libertad
Suma de
cuadrados
Cuadrados
Medios
Valor crtico
de F
Regresi
on
Residuos
Total
1
19
20
1604,0809
2308,5858
3912,6667
1604,0809
121,5045
13,2018
0,00177
Coeficiente de determinacion R2 = 0,409971261:
Intercepto
Variable X
Coeficientes
Error tpico
Estadstico t
109,8738
-1,1270
5,0678
0,3102
21,6808
-3,6334
119
2. Compendio de estadsticas:
Obs.
Elim.
hii
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
0,0479
0,1545
0,0628
0,0705
0,0479
0,0726
0,0580
0,0567
0,0799
0,0726
0,0908
0,0705
0,0628
0,0567
0,0567
0,0628
0,0521
0,6516
0,0531
0,0567
0,0628
bi
Qk
Di
(k=1)
(100Di )
-2,1332
11,3214
16,6498
9,3936
-9,4856
0,3602
-3,6220
-2,6746
-3,4148
-7,1879
-12,1145
4,0141
16,6498
14,2866
-4,7948
-1,4896
-9,1255
15,9026
-31,9816
12,1664
-1,4896
4,333
108,370
259,803
82,015
85,664
0,120
12,358
6,748
10,729
47,914
133,443
14,976
259,803
192,540
21,687
2,080
78,936
88,105
968,562
139,634
2,080
0,09
8,15
7,17
2,56
1,77
0,00
0,31
0,17
0,38
1,54
5,48
0,47
7,17
4,76
0,54
0,06
1,79
67,81
22,33
3,45
0,06
Valor hii > 4/21 |i | j

para todoj
Inusual
el m
as
grande
Di > 0, 5
(i)
pvalor
0,0338
0,8866
2,2826
0,6630
0,6937
0,0009
0,0969
0,0528
0,0840
0,3815
1,1043
0,1175
2,2826
1,6378
0,1707
0,0162
0,6373
0,7142
13,0103
1,1588
0,0162
0,8561
0,3589
0,1482
0,4261
0,4158
0,9759
0,7592
0,8209
0,7752
0,5445
0,3072
0,7357
0,1482
0,2169
0,6844
0,9000
0,4351
0,4091
0,0020
0,2959
0,9000
p<
(=5 %)
De los resultados anteriores se tiene que:

a) La observaci
on que se clasifica como influyente, usando la estadstica
propuesta por Cook, coincide con la que se detecta con el criterio
para el elemento hii .
b) Los otros metodos detectan la misma observacion como atpica cuando se elimina una sola observacion, pero cuando se eliminan dos
o m
as observaciones el procedimiento mas formal es el del p-valor
asociado a la estadstica (Y1 ) .
120
Jose A. Jimenez M.
3. Cuando se elimina la observacion 18, se obtiene:

Fuente de Grados Suma de Cuadrados
variaci
on libertad cuadrados
medios
Regresi
on
Residuos
Total
1
18
19
280,5195
2220,4805
2501
280,5195
123,3600
Valor crtico
de F
2,27399
0,1489
Coeficiente de determinacion R2 = 0,112162.

Cambio en la suma de los residuales Qk = 88,10525836.
Coeficientes
Intercepto
Variable X
105,62987
-0,77922
Error tpico Estadstico t

7,1619276
0,516733
14,7488045
-1,5079754
La distancia de Cook nos indico que la pareja (42, 57) era la que mas
afectaba la EM C de los parametros, pero al eliminarla el modelo obtenido
fue m
as deficiente que el modelo completo. Por lo tanto, la observacion
es solamente influencial pero no es atpica.
4. Eliminando la observacion 19 que detecto (i) como atpica, se tiene:
Fuente de Grados Suma de Cuadrados
variaci
on libertad cuadrados
medios
Regresi
on
Residuos
Total
1
18
19
1788,17619
1340,02381
3128,2
Valor crtico
de F
1788,17619 24,01985
74,44577
0,0001151
Coeficiente de determinacion R2 = 0, 57163103.

Cambio en la suma de los residuales Qk = 968, 5619674.
Coeficientes
Intercepto
Variable X
109,30468
-1,19331
Error tpico Estadstico t

3,96996
0,24348
27,5329
-4,9010
El modelo que se obtiene al eliminar la pareja (17, 121) es mejor que el modelo
completo, pues el nuevo coeficiente de determinacion es superior al del modelo
inicial. El valor crtico de la F es tambien inferior al valor crtico que se determin
o en el an
alisis de varianza del modelo inicial y, ademas, el cuadrado medio
del error (CM E) fue menor que el CM E del modelo completo. Aunque dicha
observaci
on es atpica, no es influyente en la estimacion de los parametros del
modelo.
7.
121
Conclusiones
La metodologa aqu presentada permite detectar en un grupo de observaciones la observaci

on m
as atpica, es decir, el dato mas influyente sobre el
cambio en la suma de cuadrados de los residuales. Ademas, este procedimiento
proporciona una manera de cuantificar el impacto de cada observacion sobre la
suma de cuadrados de los residuales, pues empleando la distribucion F -central
este metodo permite asignarle un p-valor a cada influencia; de esta manera se
obtiene un criterio m
as exacto que el usado tradicionalmente.
Bibliografa
Bartlett, M. S. (1937), Some examples of statistical methods of research in
agriculture and applied botany, Journal of the Royal Statistical Society
B4, 137170.
Draper, N. R. & John, J. A. (1981), Influential observations and outliers in
regression, Technometrics 23(1), 2126.
Hoaglin, D. C. & Welsch, R. E. (1978), The hat matrix in regression and
anova, The American Statistician 32(1), 1722.
Jimenez, J. A. (2001a), Una generalizacion de la estadstica de Cook, Revista
Colombiana de Estadstica 24(2), 111120.
Jimenez, J. A. (2001b), Una maximizacion de la estadstica Qk , Revista
Colombiana de Estadstica 24(1), 4557.
Little, R. J. & Rubin, D. B. (1987), Statistical Analysis With Missing Data,
John Wiley & Sons.
Mickey, M. R., Dunn, O. J. & Clark, V. (1967), Note on the use of stepwise regression in detecting outliers, Computers and Biomedical Research,
1, 105111.
Searle, S. (1971), Linear Models, John Wiley & Sons.
Tukey, J. W. (1977), Exploratory Data Analysis, Addison Wesley.

Identificacion de Datos Atipicos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Identificacion de Datos Atipicos

Caricato da

Copyright:

Formati disponibili

Revista Colombiana de Estadstica

Un criterio para identificar datos atpicos

planteamiento de Draper & John (1981) se considera el modelo de regresion

particionado de la siguiente manera:

donde Y1 es el bloque conformado por las observaciones consideradas atpicas.

donde Hij = Xi (X 0 X)1 Xj0 es una submatriz de la matriz

con k = dim (Y1 ) .

En resumen, el metodo descrito permite detectar el grupo de observaciones

Un criterio para identificar datos atpicos

Mediante el metodo de estimacion mnimos cuadrados ordinarios (MCO)

Propiedades de las componentes de la matriz H

En Hoaglin & Welsch (1978) se establece para la matriz H = [hij ] de tama

(b) 0 < hii 1,

donde tr(H) denota la traza de la matriz H.

En Jimenez (2001b) se establece para la estadstica dada en (3), la siguiente

lo cual equivalente a hacer:

Esta nueva expresi

En Jimenez (2001a) al asumir la restriccion = 1 , se llega a:

donde Ik es la matriz identidad de tama

Un criterio para identificar datos atpicos

Si se reemplaza (8) en el primer termino de la expresion (7) se obtiene

Esto se tiene, ya que para i, j = 1, 2:

Mi2 M2j = [Xi (X2 X2 )1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X2 X2 )1 Xj = Mij ;

Aqu cabe notar que cuando X =

Hi2 M2j = [Xi (X X)1 X2 ][X2 (X2 X2 )1 Xj ] = Xi (X X)1 Xj = Hij ,

Teorema 2. Si Y N (, V ), entonces Y 0 AY 2(,) , con grados de libertad = (A) y par

Un criterio para identificar datos atpicos

Metodologa para establecer datos atpicos

al expresarla en terminos del vector de respuestas Y , queda como:

usando (12), se puede establecer que las expresiones,

Veamos si las distribuciones asociadas a Qk y SCE son independientes. Si

Como la media y la varianza de la distribucion 2 son y 2 respectivamente, se

Un criterio para identificar datos atpicos

dividiendo cada una por sus correspondientes grados de libertad, se llega a:

Teorema 5. En un modelo de regresion lineal m

k = dimension del bloque Y1 ,

En este caso, se clasifica como atpico al bloque Y1 de observaciones, si con un

En la Tabla 1, se considera el conjunto de 21 observaciones (x, y), dado por

Tabla 1: Datos de Mickey, Dunn, and Clark (1967)

Coeficiente de determinacion R2 = 0,409971261:

Un criterio para identificar datos atpicos

Valor hii > 4/21 |i | j

De los resultados anteriores se tiene que:

3. Cuando se elimina la observacion 18, se obtiene:

Coeficiente de determinacion R2 = 0,112162.

Error tpico Estadstico t

Coeficiente de determinacion R2 = 0, 57163103.

Error tpico Estadstico t

Un criterio para identificar datos atpicos

La metodologa aqu presentada permite detectar en un grupo de observaciones la observaci

Potrebbero piacerti anche