Analisis Multi PDF

Anlisis de datos y Estadstica Avanzada
Mster Interuniversitario de Astrofsica UCM+UAM

Tema 6: Introduccin a la estadstica multivariante
Javier Gorgas y Nicols Cardiel

Departamento de Astrofsica y Ciencias de la Atmsfera
Facultad de Ciencias Fsicas
Universidad Complutense de Madrid

Anlisis de
()
datos y Estadstica Avanzada
C
1 urso 2010/2011
1 / 43
C
2 urso 2010/2011
2 / 43
Esquema
1
Introduccin
Qu es el anlisis multivariante?
Por qu es necesario?
Casos tpicos
Tcnicas multivariantes
Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes
El problema de la normalidad de los datos
Regresin lineal mltiple

Tipos de regresin lineal mltiple
Regresin lineal mltiple univariada

Anlisis de
()
Introduccin
Es una coleccin de mtodos que permiten tratar problemas muy
diversos en los que diferentes propiedades se miden en un
conjunto especfico de objetos.
objeto #1
objeto #2
...
...
...
objeto #n
propiedad #1
x11
x21
...
...
...
xn1
propiedad #2
x12
x22
...
...
...
xn2
...
...
...
...
...
...
...
...
...
...
...
...
...
...
propiedad #p
x1p
x2p
...
...
...
xnp
Nota: a las propiedades tambin las llamaremos muchas veces variables.

Para el trabajo dentro del rea del anlisis multivariante veremos que resulta extremadamente til utilizar lgebra matricial.
Anlisis de
()
Introduccin
C
3 urso 2010/2011
4 / 43
Necesidad del anlis multivariante

En astrofsica clsicamente el esfuerzo se focalizaba en estudiar
comportamientos bivariados entre pares de variables, imponiendo
sistemas subjetivos de clasificacin de objetos. Cuando el
nmero de objetos y propiedades no es muy grande (2 3) es
posible visualizar las relaciones entre las variables. Pero cuando
dicho nmero es mayor, esta tcnica es insuficiente. De forma
prctica hoy en da se llega a trabajar con valores de n y/o p como
100, 1000, o incluyo superiores.
En la prctica las variables analizadas estn correlacionadas (de
lo contrario no hay nada interesante que estudiar), de modo que
su anlisis individual o por parejas no es suficiente para tener un
conocimiento preciso de la informacin contenida en las medidas.
SOLUCIN: anlisis simultneo de todos los objetos y
propiedades.
Anlisis de
()
C
4 urso 2010/2011
6 / 43
Introduccin
Qu ocurren cuando no se hacen las cosas bien?

De manera ingenua uno puede
comenzar realizando contrastes de
hiptesis sobre las medias de las
diferentes variables. Sin embargo,
cuando las variables estn correlacionadas (que es lo realmente
interesante) las tcnicas univariantes fallan!
La alternativa es utilizar contrastes
de hiptesis multivariantes.
En el ejemplo de la figura, la utilizacin de los contrastes univariantes nos indica que el punto de color rojo se encuentra dentro
de los intervalos de confianza de cada variable individual, mientras que el punto verde est dentro del intervalo de confianza para
la variable y1 pero no para la y2 . Como las variables estn correlacionadas, es errneo deducir que el punto rojo est dentro del
intervalo de confianza de las medias de ambias variables de forma simultnea. Tambin es errneo dejar fuera de dicho intervalo
al punto verde.
El anlisis multivariante permite, adems, garantizar que estamos utilizando el mismo nivel de significacin (probabilidad de
equivocarnos al rechazar la hiptesis nula) en todas las variables.

Anlisis de
()
Introduccin
C
5 urso 2010/2011
7 / 43
Casos tpicos
Situaciones reales
Posibilidades (entre otras):
1
Estudiar una muestra nica con varias variables medidas en cada

objeto. Ejemplo: medidas fotomtricas (colores, radios efectivos,
elipticidades, coeficientes de asimetra, presencia de bandas de polvo,
emisin de gas,. . . ) de las galaxias elpticas del Cmulo de Coma.
Estudiar una muestra nica con dos conjuntos de variables. Ejemplo:

medidas fotomtricas, por un lado, y espectroscpicas, por otro
(caractersticas espectrales en absorcin o emisin), en las galaxias
elpticas de Coma. Qu relacin hay entre los dos conjuntos de
variables?
Estudiar dos o ms muestras con uno, dos o ms conjuntos de varias

variables. Ejemplo: dem con galaxias de Coma, Fornax y campo. En
qu se parecen/diferencian las galaxias en distintos entornos?
Veamos qu tcnicas multivariantes pueden utilizarse en cada caso.

Anlisis de
()
C
6 urso 2010/2011
9 / 43
Introduccin
Caso 1: Una muestra con varias propiedades

Qu hacer?
Testear la correlacin entre las variables. Tcnica: contrastes de
hiptesis sobre la matriz de covarianza.
Determinar agrupaciones entre los datos. Tcnica: anlisis de
agrupacin.
Buscar un conjunto reducido de combinaciones lineales de las
variables originales que resuman la variacin de los datos
(informacin contenida en las medidas). Tcnica: anlisis de
componentes principales. Es la nica forma de abordar un
conjunto grande de medidas multivariantes. Dificultad: interpretar
las componentes principales.
Expresar las variables originales como un conjunto de funciones
lineales de factores que expliquen la informacin de los datos y la
relacin entre las mismas. Tcnica: anlisis de factores.
Anlisis de
()
Introduccin
Curso
7
2010/2011
11 / 43
Reduciendo la dimensionalidad
Aunque el anlisis de componentes principales parece similar al
anlsis de factores, estas tcnicas difieren en varios aspectos:
1
En el anlisis de factores las variables se expresan como

combinaciones lineales de factores, mientras que las componentes
principales son combinaciones lineales de las variables.
El anlisis de componentes principales se focaliza en minimizar la

varianza de las variables. El anlisis de factores trata de explicar las
covarianzas (correlaciones) entre las variables.
Las componentes principales estn unvocamente definidas, mientras

que los factores estn sujetos a rotaciones arbitrarias (lo cual puede
permitir su interpretacin).
Si se cambia el nmero de factores, sus valores cambian! Las

componentes principales son las que son.
Si nuestro inters es meramente reducir la dimensionalidad (requisito para
otras tcnicas multivariantes) y no la interpretacin, la tcnica de las componentes principales suele ser preferible (veremos esta tcnica ms adelante).
4

Anlisis de
()
Curso
8
2010/2011
12 / 43
Introduccin
Caso 2: Una muestra con dos conjuntos de propiedades

Qu hacer?
Determinar el nmero, tamao, y naturaleza de las relaciones
entre los dos conjuntos de variables. Tcnica: correlacin
cannica (cuantificacin de la correlacin lineal).
Determinar un modelo que prediga un conjunto de propiedades a
partir de los valores del otro conjunto de propiedades. Tcnica:
regresin lineal mltiple multivariante.
Extensin a modelos de regresin multivariante no lineales.
Tcnica: redes neuronales.

Anlisis de
()
Introduccin
Curso
9
2010/2011
13 / 43
Caso 3: Dos o ms muestras con varias propiedades

Qu hacer?
Comparar las medias de las variables entre las muestras.
Tcnica: Hotellings T 2 -test, anlisis de varianza multivariante.
Encontrar la combinacin lineal de las variables que mejor
discrimine las diferentes muestras. Tcnica: anlisis
discriminante.
Encontrar una funcin de las variables que ubiquen
adecuadamente a nuevos objetos en los distintos grupos
definidos por observaciones previas. Tcnica: anlisis de
clasificacin. Esta tcnica difiere del anlisis de agrupacin
(discutida en el Caso 1) en que en esta ltima el nmero de
grupos no es conocido inicialmente, mientras que en el anlisis de
clasificacin dicho nmero est fijado (el nmero de muestras).

Anlisis de
()
Curso
10 2010/2011
14 / 43
Para el trabajo dentro del rea del anlisis multivariante resulta extremadamente til
utilizar lgebra matricial.
objeto #1
objeto #2
..
.
objeto #i
..
.
objeto #n
medias
propiedad #1
y11
y21
..
.
yi1
..
.
yn1
y1
propiedad #2
y12
y22
..
.
yi2
..
.
yn2
y2
...
...
...
..
.
...
..
.
...
...
...
...
...
..
.
...
..
.
...
...
propiedad #p
y1p
y2p
..
.
yip
..
.
ynp
yp
Podemos definir y como un vector aleatorio con p variables (propiedades) medidas en

cada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirse
como y1 , y2 ,. . . ,yn , donde
0
1
0 1 0
1
yi1
y1
y11 y12 . . . . . . y1p
B yi2 C
B y2 C B y21 y22 . . . . . . y2p C
B
C
B
C B
C
yi = B . C ,
Y=B . C=B .
C.
.
.
.
.
..
..
..
.. A
@ .. A
@ .. A @ ..
yip
yn
yn1 yn2 . . . . . . ynp
Anlisis de
()
Curso
11 2010/2011
16 / 43
Podemos definir algunas matrices auxiliares (ejemplo para n = 3)

0
1
0
1
0
1
0
1 0 0
1 1 1
1
0
@
A
@
A
@
A
@
0
1
0
1
1
1
1
0
I=
,J=
,j=
,O=
0 0 1
1 1 1
1
0
0
0
0
1
0
1
0
0
0 A, 0 = @ 0 A
0
0
El trabajo se simplifica notablemente utilizando lgebra de matrices.

Vector media muestral:
y=
Vector media poblacional:

0
B
B
E(y) = E B
@
y1
y2
.
..
yp
E(y1 )
E(y2 )
.
.
.
E(yp )
n
B
1X
B
yi = B
@
n i=1
y1
y2
.
.
.
yp
C B
C B
C=B
A @
C
1
C
C = Y j.
A
n
0
C B
C B
C=B
A @
Por tanto, el vector y es un estimador insesgado del vector .

Anlisis de
()
1
2
..
.
p
C
C
C = .
A
Curso
12 2010/2011
17 / 43
Matriz muestral de covarianzas (tamao p p):

0
1
s11 s12 . . . s1p
B s21 s22 . . . s2p C

1
1
1
1
B
C
S=B .
Y
Y
Y
J
Y
=
Y
I
J
Y.
=
..
.
. C
..
.. A
@ ..
n1
n
n1
n
.
sp1 sp2 . . . spp
donde
n
1 X
1
sjk =
(yij yj )(yik yk ) =
n 1 i=1
n1
n
X
i=1
yij yik nyj yk
con
j = 1, . . . , p
k = 1, . . . , p
Matriz poblacional de covarianzas (tamao p p):

0
1
11 12 . . . 1p
B 21 22 . . . 2p C
B
C
= cov(y) = B .
..
.
. C = E[(y )(y ) ] = E(yy ) .
.
.
.
@ .
.
.
. A
p1 p2 . . . pp
Como E(sjk ) = jk , j, k, la matriz muestral de covarianzas S es un estimador insesgado de

E(S) = .
Al igual que en el caso univariado, es el promedio de todos los posibles valores de S lo que es
igual a .
El problema de las covarianzas es que dependen de las unidades utilizadas para cuantificar las
propiedades. Solucin: las matrices de correlacin.
Anlisis de
()
18 / 43
Matriz muestral de correlacin (tamao p p):

0
1
r12 . . .
B r21
1
...
B
R=B .
.
.
.
..
@ ..
.
rp1 rp2 . . .
donde
Curso
13 2010/2011
r1p
r2p
.
..
1
C
C
1
C = D1
s SDs ,
A
Ds = diag( s11 , s22 , . . . , spp ).
Matriz poblacional de correlacin (tamao p p):

0
1
12
B 21
1
B
P = B .
..
@ ..
.
p1 p2
donde
jk =
...
...
.
..
...
1p
2p
.
..
1
C
C
C,
A
jk
.
j k
Notar la similitud entre la expresin anterior (poblacional) y la frmula para el coeficiente de

correlacin lineal (muestral) que vimos en el Tema 4,
r=
Cov
.
sx sy

Anlisis de
()
Curso
14 2010/2011
19 / 43
Ejemplo numrico (p = 3 propiedades, n = 10 objetos)
1
2
3
4
5
6
7
8
9
10
y1
35
35
40
10
6
20
35
35
35
30
y2
3.5
4.9
30.0
2.8
2.7
2.8
4.6
10.9
8.0
1.6
y3
2.80
2.70
4.38
3.21
2.73
2.81
2.88
2.90
3.28
3.20
1
Yj
n
Ds
1
R = D1
s SDs
y=
1
28.100
@ 7.180 A ,
3.089
1
0
140.54 49.68 1.94
@ 49.68 72.25 3.68 A ,
1.94
3.68 0.25
0
1
11.855
0.0
0.0
@ 0.0
8.500
0.0 A ,
0.0
0.0
0.500
1
0
1.000 0.493 0.327
@ 0.493 1.000 0.865 A .
0.327 0.865 1.000

Anlisis de
()
Curso
15 2010/2011
20 / 43
Problema
La mayor parte del tratamiento multivariante parte de la base de que los datos siguen
una distribucin normal multivariada. Esto se debe a que, al contrario de lo que
sucede en el caso univariado, no resulta trivial ordenar (poner rango) a observaciones multivariantes. Por ello no existen tantos procedimientos no paramtricos para
el tratamiento de datos multivariantes.
De ah la necesidad de establecer la normalidad de los datos antes de aplicar la mayor
parte de las tcnicas multivariantes.
Chequear distribuciones individuales no es suficiente, pero. . .

Cuando tenemos varias variables, chequear que de forma individual siguen una distribucin normal no es suficiente dado que:
1
Las variables suelen estar correlacionadas (de lo contario, qu aburrido!).
La normalidad individual de cada variable no garantiza la normalidad conjunta

de todas ellas.
Por otro lado, una distribucin normal multivariada garantiza la normalidad de las distribuciones individuales. Por tanto, si una sla variable no es normal, tampoco lo ser
la distribucin conjunta De ah que sea til chequearlo.
Anlisis de
()
Curso
16 2010/2011
22 / 43
Una forma muy sencilla en R de ver si unos datos siguen una distribucin normal es utilizar un
quantile-quantile plot. Generemos primero una secuencia de nmeros que sigan una
distribucin normal:
> x <- rnorm(1000,1.5,4.0)
1000 valores con = 1.5 y = 4.0
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test
data: x
W = 0.999, p-value = 0.8486
Normal Q-Q Plot
Sample Quantiles
-5
100
0
-10
50
Frequency
150
10
Histogram of x
-15
-10
-5
10
15
-3
-2
-1
Theoretical Quantiles

()
Anlisis de
Curso
17 2010/2011
24 / 43
Ahora veamos qu ocurre cuando los datos no siguen una distribucin normal:
> x <- exp(rnorm(100,1.5,4.0))
100 valores
> hist(x)
dibujamos histograma
> qqnorm(x)
dibujamos quantile-quantile plot
> qqline(x,col="red")
dibujamos una lnea que pasa por el primer y tercer cuartil
> shapiro.test(x)
calculamos un test de normalidad
Shapiro-Wilk normality test
data: x
W = 0.0565, p-value = 2.2e-16
Normal Q-Q Plot
10000
Sample Quantiles
5000
40
20
Frequency
60
15000
80
20000
Histogram of x
5000
10000
15000
20000

Anlisis de
()
-2
-1
Theoretical Quantiles
Curso
18 2010/2011
26 / 43
Distribucin normal univariada

f (y) =
2
2
1
exp(y) /2
2 2
Se dice que y es N(, 2 ) esto es diferente a otras notaciones donde se usa N(, )
Distribucin normal multivariada

1
1
f (y) =
exp(y) (y)/2 ,
( 2)p ||1/2
donde y y son los vectores (columna) correspondientes a las variables y las medias,
p es el nmero de variables, y es la matriz (p p) de covarianzas
= E[(y )(y ) ].
|| es una varianza generalizada de la poblacin. Se dice entonces que y es Np (, ).
El trmino (y )2 / 2 = (y )( 2 )1 (y ) en el exponente de la normal univariada mide la
distancia cuadrtica entre y y en unidades de la desviacin estndar . De forma anloga, en la
expresin multivariante el trmino (y ) 1 (y ), mide la distancia cuadrtica generalizada
entre y y (o distancia de Mahalanobis).
Anlisis de
()
Curso
19 2010/2011
27 / 43
|| es una varianza generalizada de la poblacin

Anlisis de
()
Curso
20 2010/2011
28 / 43
Algunas propiedades importantes de la normal multivariada

1
Normalidad de la combinacin lineal de variables de y. Si a es un vector (columna) de

constantes, a y = a1 y1 + a2 y2 + . . . + ap yp es una normal univariada.
Si y es Np (, ), entonces a y es N(a y, a a).
Si A es una matriz (q p) de constantes y de rango q (con q p), entonces las q
combinaciones lineales en Ay siguen una distribucin normal multivariada.
Si y es Np (, ), entonces Ay es Nq (Ay, AA ).
Tipificacin de variables. Podemos obtener un vector tipificado utilizando
De esta forma
z = (1/2 )1 (y ).
si y es Np (, ), entonces z es Np (0, I),
donde I es la matriz identidad (ceros en todos los elementos salvo en la diagonal, donde
todos los elementos son 1).
3
Distribucin Chi-cuadrado. A partir de la propiedad anterior,

si y es Np (, ), entonces (y ) 1 (y ) es 2p .

Anlisis de
()
Curso
21 2010/2011
29 / 43

4
Normalidad de las distribuciones marginales. Si particionamos y, y
y1
1
11 12
y=
,
=
,
=
,
y2
2
21 22
donde y1 y 1 son (r 1) y 11 es (r r), podemos ver que
si y es Np (, ), entonces y1 es Nr (1 , 11 ).
Como caso particular tenemos que

si y es Np (, ), entonces yj es N(j , jj ).
En las siguientes propiedades asumiremos la particin en dos subvectores y y x, donde y es
(p 1) y x es (q 1) (o x es un conjunto nuevo de variables adicionales que deseamos comparar
con y), es decir
y
y
y
yy yx
E
=
=,
cov
=
.
x
x
xy xx
x
5
Independencia. Los subvectores y y x son independientes si yx = O.

Dos variables individuales yj y yk son independientes si jk = 0. Notar que esto no es
cierto para muchas variables aleatorias no normales.

Anlisis de
()
Curso
22 2010/2011
30 / 43

6
Suma y resta de vectores independientes. Si tanto y como x tienen el mismo tamao

(ambos p 1) y son independientes, entonces
y + x es Np (y + x , yy + xx ),
y x es Np (y x , yy + xx ).
Distribuciones condicionadas. Si y y x no son independientes, entonces yx = O y la

distribucin de y dado x, f (y|x), es una normal multivariada con
E(y|x) = y + yx 1
xx (x x ),
cov(y|x) = yy yx 1
xx xy .
En el caso particular de la normal bivariada, f (y|x) es normal univariada con
E(y|x) = y +
yx
(x x ),
x2
var(y|x) = y2
2
yx
x2
donde yx /x2 es lo que en el tema de regresin lineal simple llambamos coeficiente de

regresin de y sobre x. Por ello, en el caso multivariado, a la matriz yx 1
xx se la conoce
como matriz de los coeficientes de regresin (dado que relaciona E(y|x) con x).

Anlisis de
()
Curso
23 2010/2011
31 / 43
Tipos de regresin lineal mltiple
Tipos de regresin lineal

La regresin lineal busca relaciones entre una o ms variables y
(variables respuesta o dependientes) y una o ms variables x
(variables independientes o predictoras). En este sentido conviene
distinguir:
1
Regresin lineal simple: una y y una x (ver Tema 4).
Regresin lineal mltiple: una y y varias xs. Tambin suele

denominarse regresin mltiple univariada. Un caso muy sencillo
sera
y = 0 + 1 x1 + 2 x2 ,
que no es otra cosa que la ecuacin de un plano en un espacio
tridimensional eucldeo.
Regresin lineal mltiple multivariada: varias ys y varias xs.
En lo que queda de tema nos vamos a concentrar exclusivamente en

el caso 2.
Anlisis de
()
Curso
24 2010/2011
33 / 43
Modelo lineal incluso para ajuste polinmico!

Cuando se habla de modelo de regresin lineal mltiple, tpicamente
uno imagina una relacin del tipo
Y|x1 ,x2 ,...,xq = 0 + 1 x1 + 2 x2 + . . . q xq .
Sin embargo, tambin estamos ante un caso de regresin lineal
mltiple cuando q = 1 pero buscamos un modelo de regresin
polinomial
Y|x = 0 + 1 x + 2 x2 + . . . r xr .
Los estadsticos se refieren a un modelo lineal como aqul en el cual
los parmetros aparecen linealmente, sin importar cmo entra la
variable (o variables) independientes en el modelo.

()
Anlisis de
Curso
25 2010/2011
35 / 43
El modelo general, suponiendo n observaciones y q variables independientes, es

y1
0 + 1 x11 + 2 x12 + . . . + q x1q + 1
y2
..
.
=
..
.
0 + 1 x21 + 2 x22 + . . . + q x2q + 2
yn
0 + 1 xn1 + 2 xn2 + . . . + q xnq + n
donde 0 , 1 , . . . , q son los coeficientes de regresin (asumiendo n > q + 1), y i son

incertidumbres aleatorias.
Se hacen, adems una serie de hiptesis adicionales
1
E(i ) = 0, i = 1, 2, . . . , n. Es decir, el modelo es lineal y no hacen falta trminos

extra; cualquier variacin adicional de y es aleatoria e impredecible.
var(i ) = 2 , i = 1, 2, . . . , n.
cov(i , j ) = 0, i = j. Es decir, las incertidumbres no estn correlacionados.
Las hiptesis anteriores pueden entonces reescribirse como

1
E(yi ) = 0 + 1 xi1 + 2 xi2 + . . . + q xiq , i = 1, 2, . . . , n.
var(yi ) = 2 , i = 1, 2, . . . , n.
cov(yi , yj ) = 0, i = j.

Anlisis de
()
Curso
26 2010/2011
36 / 43
Utilizando ahora notacin matricial

0
1 0
y1
1 x11 x12
B y2 C B 1 x21 x22
B
C B
B . C=B .
..
..
@ .. A @ ..
.
.
yn
1 xn1 xn2
...
...
...
x1q
x2q
..
.
xnq
o lo que es lo mismo, y = X + .
10
CB
CB
CB
A@
0
1
..
.
q
C B
C B
C+B
A @
1
2
..
.
n
1
C
C
C
A
Nuestro objetivo es estimar los coeficientes de regresin mediante b. Sabemos que

para cada observacin (xi1 , xi2 , . . . , xiq ; yi ) se verifica
yi = 0 + 1 xi1 + 2 xi2 + . . . + q xiq + i ,
o
yi = b0 + b1 xi1 + b2 xi2 + . . . + bq xiq + ei ,
donde i y ei son las incertidumbres aleatorias y residuales, respectivamente, asociadas con la respuesta yi .
La estimacin de b = (b0 b1 . . . bq ) se realiza por el mtodo de mnimos cuadrados,
minimizando la cantidad SEE (Sum of Squares of Errors)
n
n
X
X
2
SSE =
ei =
(yi b0 b1 xi1 b2 xi2 . . . bq xiq )2 .
i=1
i=1

()
Anlisis de
Curso
27 2010/2011
37 / 43
P
P
Para minimizar SSE = ni=1 e2i = ni=1 (yi b0 b1 xi1 b2 xi2 . . . bq xiq )2 , uno puede
tomar derivadas respecto a bj e igualar a cero. Puede demostrarse que la solucin que
se obtiene es equivalente a
b = (X X)1 X y.
Se asume que X X no es singular, lo cual debe ser cierto en condiciones normales si
n > q + 1 y ninguna xj es una combinacin lineal de las dems xs.
Puede demostrarse que para la ecuacin de regresin lineal
y = X + ,
una estimacin insesgada de 2 viene dada por el cuadrado medio residual
s2 =
SSE
1
=
(y Xb) (y Xb).
nq1
nq1
Es posible realizar contrastes de hiptesis sobre el resultado de la regresin. Aunque

existen muchos tests, en lo que sigue mostraremos algunos casos en los que se
asumir que y sigue una distribucin normal multivariada Nn (X, 2 I).

Anlisis de
()
Curso
28 2010/2011
38 / 43
Modelo corregido de medias

A veces resultar til realizar la regresin restando previamente los valores promedios a los datos,
es decir
yi = + 1 (xi1 x1 ) + 2 (xi2 x2 ) + . . . q (xiq xq ) + i ,
donde
= 0 + 1 x 1 + 2 x 2 + . . . + q x q .
Puede comprobarse, que para estimar

1 =
podemos utilizar la matriz
0
y estimar 1 como
B
B
Xc = B
@
x11 x1
x21 x1
..
.
xn1 x1
...
x12 x2
x22 x2
..
.
xn2 x2
...
...
...
x1q xq
x2q xq
.
..
xnq xq
C
C
C,
A
b1 = (Xc Xc )1 Xc y,
y 0 como
b0 = y

1
1
1
X y
X Xc
x.
n1 c
n1 c

Anlisis de
()
Curso
29 2010/2011
39 / 43
Contraste para el ajuste global

H0 : 1 = 0 (excluimos 0 = 0 para no obligar al ajuste a pasar por el origen).
Se puede testear H0 por medio de
F=
SSR/q
,
SSE/(n q 1)
donde
SSR
SSE
(b X y ny2 ),
(y y b X y).
Puede mostrarse que F se distribuye segn una Fq,nq1 cuando H0 es cierta. Por
tanto, rechazamos H0 cuando F > F,q,nq1 .

Anlisis de
()
Curso
30 2010/2011
40 / 43
El coeficiente de correlacin mltiple

Se define el coeficiente de determinacin mltiple como
R2 =
b Xy ny2
.
y y ny2
El coeficiente de correlacin mltiple R se define como la raz cuadrada positiva de R2 .

Si en el ajuste global planteamos H0 : 1 = 0, podemos llevar a cabo el contraste de
hiptesis utilizando el estadstico
F=
n q 1 R2
.
q
1 R2
Si en el ajuste parcial planteamos H0 : d = 0, podemos llevar a cabo el contraste de

hiptesis utilizando el estadstico
(R2 R2r )/h
F=
.
(1 R2 )/(n q 1)

Anlisis de
()
Curso
31 2010/2011
41 / 43
Contraste para el ajuste parcial

Sea r el conjunto de coeficientes a ser retenidos (retained) y d el conjunto de coeficientes que sospechamos pueden ser eliminados (deleted).
Si definimos
r
=
,
d
de modo que nuestra hiptesis nula sea H0 : d = 0. Siempre podemos reordenadar

los coeficientes que sospechamos no son significativos para que aparezcan segregados de los coeficientes significativos.
Se puede testear H0 por medio de
F=
(b X y br Xr y)/h
,
(y y b X y)/(n q 1)
donde h es el nmero de parmetros en d (por tanto hay q + 1 h parmetros en r ).

Se realiza entonces el ajuste empleando todos los coeficientes en y el ajuste parcial
a slo los coeficientes en r .
Se puede demostrar que el estadstico anterior sigue una Fh,nq1 cuando H0 es cierta.
De modo que rechazaremos H0 cuando F > F,h,nq1 .

Anlisis de
()
Curso
32 2010/2011
42 / 43
Referencias
Babu G.J., Feigelson E.D., Astrostatistics, 1996, Chapman & Hall,
London
Rencher A.C., Methods of multivariate analysis, 2nd edition, 2002,
John Wiley & Sons
Wall J.V., Jenkins C.R., Practical statistics for astronomers, 2003,
Cambridge University Press

Anlisis de
()
Curso
33 2010/2011
43 / 43

Analisis Multi PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisis Multi PDF

Caricato da

Copyright:

Formati disponibili

Anlisis de datos y Estadstica Avanzada

Mster Interuniversitario de Astrofsica UCM+UAM

Javier Gorgas y Nicols Cardiel

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

Regresin lineal mltiple

Tema 6: Introduccin a la estadstica multivariante

Nota: a las propiedades tambin las llamaremos muchas veces variables.

Necesidad del anlis multivariante

Qu ocurren cuando no se hacen las cosas bien?

Tema 6: Introduccin a la estadstica multivariante

Estudiar una muestra nica con varias variables medidas en cada

Estudiar una muestra nica con dos conjuntos de variables. Ejemplo:

Estudiar dos o ms muestras con uno, dos o ms conjuntos de varias

Veamos qu tcnicas multivariantes pueden utilizarse en cada caso.

Caso 1: Una muestra con varias propiedades

En el anlisis de factores las variables se expresan como

El anlisis de componentes principales se focaliza en minimizar la

Las componentes principales estn unvocamente definidas, mientras

Si se cambia el nmero de factores, sus valores cambian! Las

Tema 6: Introduccin a la estadstica multivariante

Caso 2: Una muestra con dos conjuntos de propiedades

Tema 6: Introduccin a la estadstica multivariante

Caso 3: Dos o ms muestras con varias propiedades

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Podemos definir y como un vector aleatorio con p variables (propiedades) medidas en

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Podemos definir algunas matrices auxiliares (ejemplo para n = 3)

El trabajo se simplifica notablemente utilizando lgebra de matrices.

Vector media poblacional:

Por tanto, el vector y es un estimador insesgado del vector .

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Matriz muestral de covarianzas (tamao p p):

B s21 s22 . . . s2p C

yij yik nyj yk

Matriz poblacional de covarianzas (tamao p p):

Como E(sjk ) = jk , j, k, la matriz muestral de covarianzas S es un estimador insesgado de

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Matriz muestral de correlacin (tamao p p):

Ds = diag( s11 , s22 , . . . , spp ).

Matriz poblacional de correlacin (tamao p p):

Notar la similitud entre la expresin anterior (poblacional) y la frmula para el coeficiente de

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

Tratamiento matricial de los datos multivariantes

Ejemplo numrico (p = 3 propiedades, n = 10 objetos)

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Chequear distribuciones individuales no es suficiente, pero. . .

Las variables suelen estar correlacionadas (de lo contario, qu aburrido!).

La normalidad individual de cada variable no garantiza la normalidad conjunta

Trabajo con datos multivariantes

El problema de la normalidad de los datos

Tema 6: Introduccin a la estadstica multivariante

Trabajo con datos multivariantes

El problema de la normalidad de los datos