Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
C
1 urso 2010/2011
1 / 43
C
2 urso 2010/2011
2 / 43
Esquema
1
Introduccin
Qu es el anlisis multivariante?
Por qu es necesario?
Casos tpicos
Tcnicas multivariantes
Introduccin
Qu es el anlisis multivariante?
Qu es el anlisis multivariante?
Es una coleccin de mtodos que permiten tratar problemas muy
diversos en los que diferentes propiedades se miden en un
conjunto especfico de objetos.
objeto #1
objeto #2
...
...
...
objeto #n
propiedad #1
x11
x21
...
...
...
xn1
propiedad #2
x12
x22
...
...
...
xn2
...
...
...
...
...
...
...
...
...
...
...
...
...
...
propiedad #p
x1p
x2p
...
...
...
xnp
Introduccin
C
3 urso 2010/2011
4 / 43
Por qu es necesario?
C
4 urso 2010/2011
6 / 43
Introduccin
Por qu es necesario?
Introduccin
C
5 urso 2010/2011
7 / 43
Casos tpicos
Situaciones reales
Posibilidades (entre otras):
1
C
6 urso 2010/2011
9 / 43
Introduccin
Tcnicas multivariantes
Introduccin
Curso
7
2010/2011
11 / 43
Tcnicas multivariantes
Reduciendo la dimensionalidad
Aunque el anlisis de componentes principales parece similar al
anlsis de factores, estas tcnicas difieren en varios aspectos:
1
Curso
8
2010/2011
12 / 43
Introduccin
Tcnicas multivariantes
Introduccin
Curso
9
2010/2011
13 / 43
Tcnicas multivariantes
Curso
10 2010/2011
14 / 43
Para el trabajo dentro del rea del anlisis multivariante resulta extremadamente til
utilizar lgebra matricial.
objeto #1
objeto #2
..
.
objeto #i
..
.
objeto #n
medias
propiedad #1
y11
y21
..
.
yi1
..
.
yn1
y1
propiedad #2
y12
y22
..
.
yi2
..
.
yn2
y2
...
...
...
..
.
...
..
.
...
...
...
...
...
..
.
...
..
.
...
...
propiedad #p
y1p
y2p
..
.
yip
..
.
ynp
yp
Curso
11 2010/2011
16 / 43
0
0
0
1
0
1
0
0
0 A, 0 = @ 0 A
0
0
B
B
E(y) = E B
@
y1
y2
.
..
yp
E(y1 )
E(y2 )
.
.
.
E(yp )
n
B
1X
B
yi = B
@
n i=1
y1
y2
.
.
.
yp
C B
C B
C=B
A @
C
1
C
C = Y j.
A
n
0
C B
C B
C=B
A @
1
2
..
.
p
C
C
C = .
A
Curso
12 2010/2011
17 / 43
S=B .
Y
Y
Y
J
Y
=
Y
I
J
Y.
=
..
.
. C
..
.. A
@ ..
n1
n
n1
n
.
sp1 sp2 . . . spp
donde
n
1 X
1
sjk =
(yij yj )(yik yk ) =
n 1 i=1
n1
n
X
i=1
con
j = 1, . . . , p
k = 1, . . . , p
= cov(y) = B .
..
.
. C = E[(y )(y ) ] = E(yy ) .
.
.
.
@ .
.
.
. A
p1 p2 . . . pp
Al igual que en el caso univariado, es el promedio de todos los posibles valores de S lo que es
igual a .
El problema de las covarianzas es que dependen de las unidades utilizadas para cuantificar las
propiedades. Solucin: las matrices de correlacin.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada
18 / 43
Curso
13 2010/2011
r1p
r2p
.
..
1
C
C
1
C = D1
s SDs ,
A
jk =
...
...
.
..
...
1p
2p
.
..
1
C
C
C,
A
jk
.
j k
Cov
.
sx sy
Curso
14 2010/2011
19 / 43
1
2
3
4
5
6
7
8
9
10
y1
35
35
40
10
6
20
35
35
35
30
y2
3.5
4.9
30.0
2.8
2.7
2.8
4.6
10.9
8.0
1.6
y3
2.80
2.70
4.38
3.21
2.73
2.81
2.88
2.90
3.28
3.20
1
Yj
n
Ds
1
R = D1
s SDs
y=
1
28.100
@ 7.180 A ,
3.089
1
0
140.54 49.68 1.94
@ 49.68 72.25 3.68 A ,
1.94
3.68 0.25
0
1
11.855
0.0
0.0
@ 0.0
8.500
0.0 A ,
0.0
0.0
0.500
1
0
1.000 0.493 0.327
@ 0.493 1.000 0.865 A .
0.327 0.865 1.000
Curso
15 2010/2011
20 / 43
Problema
La mayor parte del tratamiento multivariante parte de la base de que los datos siguen
una distribucin normal multivariada. Esto se debe a que, al contrario de lo que
sucede en el caso univariado, no resulta trivial ordenar (poner rango) a observaciones multivariantes. Por ello no existen tantos procedimientos no paramtricos para
el tratamiento de datos multivariantes.
De ah la necesidad de establecer la normalidad de los datos antes de aplicar la mayor
parte de las tcnicas multivariantes.
Por otro lado, una distribucin normal multivariada garantiza la normalidad de las distribuciones individuales. Por tanto, si una sla variable no es normal, tampoco lo ser
la distribucin conjunta De ah que sea til chequearlo.
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada
Curso
16 2010/2011
22 / 43
Una forma muy sencilla en R de ver si unos datos siguen una distribucin normal es utilizar un
quantile-quantile plot. Generemos primero una secuencia de nmeros que sigan una
distribucin normal:
> x <- rnorm(1000,1.5,4.0)
1000 valores con = 1.5 y = 4.0
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test
data: x
W = 0.999, p-value = 0.8486
Normal Q-Q Plot
Sample Quantiles
-5
100
0
-10
50
Frequency
150
10
Histogram of x
-15
-10
-5
10
15
-3
-2
-1
Theoretical Quantiles
Curso
17 2010/2011
24 / 43
Ahora veamos qu ocurre cuando los datos no siguen una distribucin normal:
> x <- exp(rnorm(100,1.5,4.0))
100 valores
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test
data: x
W = 0.0565, p-value = 2.2e-16
Normal Q-Q Plot
10000
Sample Quantiles
5000
40
20
Frequency
60
15000
80
20000
Histogram of x
5000
10000
15000
20000
-2
-1
Theoretical Quantiles
Curso
18 2010/2011
26 / 43
2
2
1
exp(y) /2
2 2
Se dice que y es N(, 2 ) esto es diferente a otras notaciones donde se usa N(, )
1
f (y) =
exp(y) (y)/2 ,
( 2)p ||1/2
donde y y son los vectores (columna) correspondientes a las variables y las medias,
p es el nmero de variables, y es la matriz (p p) de covarianzas
= E[(y )(y ) ].
|| es una varianza generalizada de la poblacin. Se dice entonces que y es Np (, ).
El trmino (y )2 / 2 = (y )( 2 )1 (y ) en el exponente de la normal univariada mide la
distancia cuadrtica entre y y en unidades de la desviacin estndar . De forma anloga, en la
expresin multivariante el trmino (y ) 1 (y ), mide la distancia cuadrtica generalizada
entre y y (o distancia de Mahalanobis).
Tema 6: Introduccin a la estadstica multivariante
Anlisis de
()
datos y Estadstica Avanzada
Curso
19 2010/2011
27 / 43
Curso
20 2010/2011
28 / 43
De esta forma
z = (1/2 )1 (y ).
si y es Np (, ), entonces z es Np (0, I),
donde I es la matriz identidad (ceros en todos los elementos salvo en la diagonal, donde
todos los elementos son 1).
3
Curso
21 2010/2011
29 / 43
y1
1
11 12
y=
,
=
,
=
,
y2
2
21 22
donde y1 y 1 son (r 1) y 11 es (r r), podemos ver que
si y es Np (, ), entonces y1 es Nr (1 , 11 ).
y
y
y
yy yx
E
=
=,
cov
=
.
x
x
xy xx
x
5
Curso
22 2010/2011
30 / 43
yx
(x x ),
x2
var(y|x) = y2
2
yx
x2
Curso
23 2010/2011
31 / 43
Curso
24 2010/2011
33 / 43
Curso
25 2010/2011
35 / 43
y2
..
.
=
..
.
yn
var(i ) = 2 , i = 1, 2, . . . , n.
var(yi ) = 2 , i = 1, 2, . . . , n.
cov(yi , yj ) = 0, i = j.
Curso
26 2010/2011
36 / 43
...
...
...
x1q
x2q
..
.
xnq
o lo que es lo mismo, y = X + .
10
CB
CB
CB
A@
0
1
..
.
q
C B
C B
C+B
A @
1
2
..
.
n
1
C
C
C
A
i=1
Curso
27 2010/2011
37 / 43
P
P
Para minimizar SSE = ni=1 e2i = ni=1 (yi b0 b1 xi1 b2 xi2 . . . bq xiq )2 , uno puede
tomar derivadas respecto a bj e igualar a cero. Puede demostrarse que la solucin que
se obtiene es equivalente a
b = (X X)1 X y.
Se asume que X X no es singular, lo cual debe ser cierto en condiciones normales si
n > q + 1 y ninguna xj es una combinacin lineal de las dems xs.
Puede demostrarse que para la ecuacin de regresin lineal
y = X + ,
una estimacin insesgada de 2 viene dada por el cuadrado medio residual
s2 =
SSE
1
=
(y Xb) (y Xb).
nq1
nq1
Curso
28 2010/2011
38 / 43
= 0 + 1 x 1 + 2 x 2 + . . . + q x q .
y estimar 1 como
B
B
Xc = B
@
x11 x1
x21 x1
..
.
xn1 x1
...
x12 x2
x22 x2
..
.
xn2 x2
...
...
...
x1q xq
x2q xq
.
..
xnq xq
C
C
C,
A
b1 = (Xc Xc )1 Xc y,
y 0 como
b0 = y
1
1
1
X y
X Xc
x.
n1 c
n1 c
Curso
29 2010/2011
39 / 43
SSR/q
,
SSE/(n q 1)
donde
SSR
SSE
(b X y ny2 ),
(y y b X y).
Puede mostrarse que F se distribuye segn una Fq,nq1 cuando H0 es cierta. Por
tanto, rechazamos H0 cuando F > F,q,nq1 .
Curso
30 2010/2011
40 / 43
b Xy ny2
.
y y ny2
n q 1 R2
.
q
1 R2
Curso
31 2010/2011
41 / 43
r
=
,
d
(b X y br Xr y)/h
,
(y y b X y)/(n q 1)
Curso
32 2010/2011
42 / 43
Referencias
Babu G.J., Feigelson E.D., Astrostatistics, 1996, Chapman & Hall,
London
Rencher A.C., Methods of multivariate analysis, 2nd edition, 2002,
John Wiley & Sons
Wall J.V., Jenkins C.R., Practical statistics for astronomers, 2003,
Cambridge University Press
Curso
33 2010/2011
43 / 43