Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ANÁLISE MULTIVARIADA
LAVRAS, MG
1996
ii
SUMÁRIO Pág.
1.1. Introdução 1
1.4. Distâncias 15
1.5. Exercícios 24
2.1. Introdução 25
2.4. Exercícios 82
3. Amostragem multivariada 89
3.1. Introdução 89
Apêndices 395
analisa dados de acordo com uma hipótese. Por outro lado, a análise destes
de outras variáveis;
conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott
(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que
dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,
Medicina
Neste caso, uma técnica multivariada de classificação, em que se cria uma função
que pode ser usada para separar as pessoas doentes das não doentes, pode ser
implementada.
Sociologia
Biologia
seleção deve ser realizada de maneira que a próxima geração seja melhorada em
uma série de características para um índice, na qual a seleção e escolha dos pais
e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é
de dados. Por outro lado, números que resumem, ou seja, que descrevem
Arranjos
experimento. A representação destes dados é feita com a notação xjk para indicar
Tabela 1.1. Representação de dados através da notação xjk para indicar um valor
ou experimental.
Variáveis
Exemplo 1.1
Variável 2 (número de
sacos de ração vendidos) 10 12 6 8
⎡ 80 10 ⎤
⎢120 12 ⎥
X =⎢ ⎥
⎢ 90 6 ⎥
⎢ ⎥
⎣110 8⎦
na eficiência são: (1) descrição dos cálculos como operações com matrizes e
ESTATÍSTICAS DESCRITIVAS
muitas das informações contidas nos dados podem ser obtidas por cálculo de
apresentadas a seguir.
1 n
Xk = ∑ X jk
n j =1
k=1, 2, ..., p (1.1)
1 n
∑ ( X jk − X k )
2
Sk2 = Skk = k = 1, 2, ..., p (1.2)
n − 1 j =1
1 n
S kk ' = ∑ ( X jk − X k )( X jk ' − X k ' ) k, k’=1,2, ..., p (1.3)
n − 1 j =1
juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com
valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a
covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.
∑ ( X jk − X k )( X jk ' − X k ' )
n
j =1 j =1
uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos
( X jk − X k ) ( X jk ' − X k ' )
pelos valores padronizados, S kk e Sk ' k ' . Esses valores padronizados
propriedades:
Ferreira, D.F. Estatística multivariada 11
tendência de um dos valores do par ser maior que sua média, quando o outro
for menor do que a sua média, e r > 0 indica que quando um valor do par for
pequenos juntos;
variáveis.
lineares existem, as quais, não podem ser reveladas por estas estatísticas
descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações
discrepantes (outliers).
W kk = ∑ ( X jk − X k ) 2
j =1
n
Wkk ' = ∑ ( X jk − X k )( X jk ' − X k ' )
j =1
Médias da amostra
⎡ X1 ⎤
⎢ ⎥
X2
X =⎢ ⎥
⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥
Exemplo 1.2
1 4 1
X1 = ∑
4 j=1
X j1 = (80 + 120 + 90 + 110) = 100
4
1 4 1
X2 = ∑
4 j=1
X j2 = (10 + 12 + 6 + 8) = 9
4
⎡ X ⎤ ⎡100 ⎤
X = ⎢ 1⎥ = ⎢ ⎥
⎣X2 ⎦ ⎣ 9 ⎦
S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667
S21=S12=20,000, e
⎡333,333 20,000 ⎤
S=⎢
⎣ 20,000 6,667 ⎥⎦
A correlação amostral é:
20
r12 = = 0,424 3
33,333 6,667
r21=r12=0,4243
Portanto,
1.4. Distâncias
de distância, por mais formidável que isso possa parecer. O conceito de distância
euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um
ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),
d (O, P ) = x 12 + x 22 (1.5)
coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem
d(O, P) X2
X1
Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo
teorema de Pitágoras.
Todos os pontos (x1, x2, .., xp) que contém uma distância ao
2 2
d (O, P ) = x 12 + x 22 +...+ x 2p = c (1.7)
com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:
( x 1 − y 1) 2 + ( x 2 − y 2 ) 2 +...+( x p − y p )
2
d ( P ,Q ) = (1.8)
Ferreira, D.F. Estatística multivariada 17
euclidiana.
diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares
ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos
* 2 * 2 x 12 x 22
d (O, P ) = ( x 1 ) + ( x 2 ) = + (1.9)
S 11 S 22
x 12 x 22 2
+ =c (1.10)
S 11 S 22
menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o
X2
0.5
cS 22
0.5
-cS 11 O 0.5
cS 11 X1
0.5
-cS 22
x 12 x 22
Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= + =c
2
.
S 11 S 22
Exemplo 1.3
2 2
2 x1 x2
d (O, P ) = +
9 1
Ferreira, D.F. Estatística multivariada 21
Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,
satisfazem a equação:
2 2
x1 x2
+ =1 (1.11)
9 1
origem.
2 2
0
( 0, 1) 9
+ 11 = 1
2
0
2 ( −1)
( 0,-1) 9
+ 1
=1
2 2
3 0
( 3, 0) 9
+ 1
=1
2
( −3 ) 0
2
(-3, 0) 9
+ 1
=1
5
x2
4
0
-5 -4 -3 -2 -1 0 1 2 3 4
x1 5
1
-2
-3
-4
-5
equação 1.11.
2 2 2
(x1 − y1) (x 2 − y 2 ) (x p − y p )
d (P ,Q ) = + +"+ (1.12)
S11 S 22 S pp
Ferreira, D.F. Estatística multivariada 23
abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são
Proc IML;
X={ 80 10,
120 12,
90 6,
110 8};
Print X;
n=nrow(X);p=ncol(X);
Xbar=x`*j(n,1,1)/n;
Print Xbar;
q=i(n)-(1/n)*j(n,n,1);
print q;
S=(1/(n-1))*X`*q*X;
W=(n-1)*S;
print S W;
V=diag(S);
Vroot=half(V);
IVroot=inv(Vroot);
R=Ivroot*S*Ivroot;
Print V Vroot IVroot;
Print R;
Quit;
1.5. Exercícios
x1 3 5 6 4 8 9 6 7
x2 6 11 11 9 15 16 10 12
x3 14 9 9 13 2 2 9 5
a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.
vetores.
coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final
de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal
POSTULADOS
Y = cX
Z = X + Y
3. A adição de vetores é:
Comutativa: X + Y = Y + X
Associativa: X + ( Y + Z ) = ( X + Y ) + Z
X + 0 = X
0 .X = 0
n
X.Y = ∑ x i yi = x1 y1 + x 2 y 2 + + x n yn
i =1
2. Álgebra vetorial e matricial 28
n-dimensional:
n
X = X.X = ∑ x i2 = x12 + x 22 +
2
+ x 2n = d 2 (P, O) (2.1)
i =1
X = X.X (2.2)
cosenos, por:
X.Y
Cos ( θ ) = (2.3)
X.X Y.Y
e Y é:
d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)
a.b ≤ a . b (2.6)
ORTOGONALIDADE
X.Y = 0 (2.7)
construir uma base ortonormal de vetores, isto é, cada vetor da base possui
( X .X
i j = 0, i ≠ j) . Para um conjunto de vetores arbitrários pode-se empregar a
Passo 1: normalize X1 :
X1
X1∗ = ; X1 .X1 ≠ 0
X1.X1
Ortogonalizando X1 e X 2 :
X ⊥2 = X 2 − ( X 2 .X1* ) X1*
Então, normalizando-se X ⊥2 :
Ferreira, D.F. Estatística multivariada 31
1
X*2 = X 2⊥ ; X 2⊥ .X 2⊥ ≠ 0
⊥ ⊥
X .X
2 2
Então, normalizando-se X 3⊥ :
1
X*3 = X 3⊥ ; X 3⊥ .X 3⊥ ≠ 0
⊥ ⊥
X .X
3 3
vetorial original.
2. Álgebra vetorial e matricial 32
Exemplo 2.1
Gram-Schimidt.
⎡1 1 0⎤
⎢1 1 0 ⎥⎥
X=⎢
⎢1 0 1⎥
⎢ ⎥
⎢⎣1 0 1 ⎥⎦
X = [ X1 X 2 X 3 ]
Passo 1. Normalize X1 :
⎡1⎤
⎢⎥
1 1
X1* = ⎢ ⎥
2 ⎢1⎥
⎢⎥
⎣1⎦
Passo 2: Ortonormalize X 2 :
⎡1 ⎤ ⎡1⎤ ⎡ 1⎤
⎢1 ⎥ ⎢1⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢ ⎥ 1 ⎢ 1⎥
ortogonalização: X 2 = − 1. =
⎢0 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥
⎣0 ⎦ ⎣1⎦ ⎣ −1⎦
⎡ 1⎤ ⎡ 1⎤
⎢ 1⎥ ⎢ ⎥
1 1 1 1
Normalização: X*2 = . ⎢ ⎥ = ⎢ ⎥
1 2 ⎢ −1⎥ 2 ⎢ −1⎥
⎢ ⎥ ⎢ ⎥
⎣ −1⎦ ⎣ −1⎦
Passo 3: Ortonormalização de X 3
⎡0 ⎤ ⎡1⎤ ⎡ 1 ⎤ ⎡0 − 12 + 12 ⎤ ⎡ 0 ⎤
⎢0 ⎥ ⎢⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⊥ ⎢ ⎥ 1 ⎢1⎥ 1 ⎢ 1 ⎥ ⎢0 − 12 + 12 ⎥ ⎢ 0 ⎥
ortogonalização: X 3 = − 1. − (−1). = =
⎢1 ⎥ 2 ⎢1⎥ 2 ⎢ −1⎥ ⎢1 − 12 − 12 ⎥ ⎢ 0 ⎥
⎢ ⎥ ⎢⎥ ⎢ ⎥ ⎢ 1 1⎥ ⎢ ⎥
⎣1 ⎦ ⎣1⎦ ⎣ −1⎦ ⎣⎢1 − 2 − 2 ⎦⎥ ⎣ 0 ⎦
⎡ 12 1
2 ⎤
⎢1 1 ⎥
X 2 = ⎢ 12 2 ⎥
⎢2 − 12 ⎥
⎢1 ⎥
⎢⎣ 2 − 12 ⎥⎦
Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual
T=U’A
A+ = T’(TT’)-1U’.
Um exemplo de matriz é:
Ferreira, D.F. Estatística multivariada 35
⎡ a 11 a 12 a 1p
⎤
⎢ ⎥
⎢a a a 2p ⎥
A = ⎢ 21 22
⎥
n x p
⎢ ⎥
⎢
⎣a n1 a n2 a np ⎥⎦
matriz por:
POSTULADOS
iguais:
2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos
elementos correspondentes:
cA = c[ aij] = [ caij]
que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator
⎡ q ⎤
A B
n q q p = AB = ⎢ ∑ a ij b jk ⎥ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
⎣ j=1 ⎦
Ferreira, D.F. Estatística multivariada 37
Em geral AB ≠ BA.
⎡1 0 0⎤
⎢0 1 0 ⎥⎥
Ι=⎢
⎢ ⎥
⎢ ⎥
⎣0 0 1⎦
Verifica-se que:
⎡ d1 0 0⎤
⎢0 d 0 ⎥⎥
D = diag[d1, d2, ..., dn] = ⎢ 2
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 d n ⎥⎦
2. Álgebra vetorial e matricial 38
pré-fator.
(AB)-1 = B-1A-1
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de
(A + B)’ = A’ + B’
(AB)’ = B’A’
Ferreira, D.F. Estatística multivariada 39
(A-1)’ = (A’)-1
seguir:
⎡A A12 ⎤ r
A = ⎢ 11 ⎥
⎣ A 21 A 22 ⎦ s
p q
−1
p ⎡ A −1 + A −1B ( D − CA −1B ) CA −1 − A −1B ( D − CA −1B ) ⎤
−1 −1
p ⎡A B ⎤
= ⎢ ⎥
q ⎢⎣ C D ⎥⎦ q ⎢⎣ − ( D − CA −1B ) CA −1
−1
( D − CA −1B )−1 ⎦⎥
p q p q
( i +1) (i)
a (kji ) × a (ji )
a =a − ke ≠j
a (jji )
k k
Ferreira, D.F. Estatística multivariada 41
( i +1)
a (ji )
a = ≠j
a (jji )
j
( i +1)
a (kji )
a = − k≠j
a (jji )
kj
1
a (jji +1) =
a (jji )
original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja
Exemplo 2.2
⎡4 2⎤
A(0) = ⎢ ⎥
⎣2 2⎦
⎡1 2 ⎤
⎢ 4 ⎥ = ⎡ 4 2⎤
1 1
A (1) = ⎢ 4 ⎥ ⎢ ⎥
⎢ −2 2−
2 × 2 ⎥ ⎣ −21 1 ⎦
⎢⎣ 4 4 ⎥⎦
Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô
⎡ 1 − 12 ( − 12 ) − 12 ⎤ ⎡ 1 − 12 ⎤ 1 ⎡ 1 −1⎤
A ( 2)
= ⎢4 1 1 1
⎥ = ⎢ 21 =
⎢ −2 ⎥ − 1 ⎥⎦ 2 ⎢⎣ −1 2 ⎥⎦
⎦ ⎣ 2
1
⎣ 1 1
inversa de A.
Matrizes ortogonais
Exemplo 2.3
⎡ 12 1
2
⎤
Q=⎢ 1 ⎥
⎣⎢ − 2
1
⎥
2⎦
⎡ 1
2
− 1
2
⎤
Q =⎢
t
1 1
⎥
⎢⎣ 2 2 ⎥⎦
então,
⎡ 12 1
2
⎤ ⎡ 1
2
− 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ = ⎢ 1
t
⎥ ⎢ ⎥= ⎢ ⎥=⎢ ⎥
⎢⎣ − 2 ⎥⎦ 2 ⎣ 0 2 ⎦ ⎣0 1 ⎦
1 1 1
2⎥
⎦ ⎢⎣ 2 2
2. Álgebra vetorial e matricial 44
e,
⎡ 1
2
− 1
2
⎤ ⎡ 12 1
2
⎤ 1 ⎡ 2 0 ⎤ ⎡1 0 ⎤
QQ=⎢
t
⎥ ⎢ 1 ⎥= ⎢ ⎥ = ⎢0 1 ⎥
⎢⎣ − 2 2 0 2
1 1 1
⎢⎣ 2 2 ⎥⎦ ⎥
2⎦ ⎣ ⎦ ⎣ ⎦
Determinantes
definido por:
A = a11 se n = 1
n (2.9)
A = ∑ a ij A ij ( −1)
i+ j
se n > 1
j=1
Exemplo 2.4
⎡4 2 2⎤
⎡4 1⎤
A = [4] B=⎢ ⎥ C = ⎢⎢ 2 2 0 ⎥⎥
⎣1 2⎦ ⎢⎣ 2 0 2 ⎥⎦
A = 4;
2 0 2 0 2 2
C = 4× × (−1) 2 + 2 × × (−1)3 + 2 × × (−1) 4
0 2 2 2 2 0
∴C =0
1. A t = A ;
kA = k n A
muda de sinal;
denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi
1 −1
7. A −1 = =A ;
A
8. |AB| = |A|×|B|.
Teorema da multiplicação
n x n dadas por:
⎡ B C⎤ n
A=⎢ ⎥
⎣D E ⎦ n
n n
⎡ Ι 0 ⎤ ⎡ Ι − B−1C ⎤
⎢ −DB−1 Ι ⎥ e ⎢ ⎥
⎣ ⎦ ⎣0 Ι ⎦
o resultado é:
2. Álgebra vetorial e matricial 48
⎡ Ι 0 ⎤ ⎡ B C ⎤ ⎡ Ι − B−1C ⎤
⎢ − DB−1 ⎢ ⎥
⎣ Ι ⎥⎦ ⎢⎣ D E ⎥⎦ ⎣ 0 Ι ⎦
⎡B C ⎤ ⎡ Ι − B−1C ⎤ ⎡ B 0 ⎤
=⎢ −1 ⎥ ⎢ ⎥=⎢ −1 ⎥
⎣ 0 − DB C + E ⎦ ⎣ 0 Ι ⎦ ⎣ 0 E − DB C ⎦
⎡V 0 ⎤n
V=⎢ 1
⎣0 V2 ⎥⎦ n
n n
V = V1 V2
|A|, tem-se:
B 0
A = −1
= B E − DB−1C
0 E − DB C
B C
=B E
0 E
identidade:
⎡ I A ⎤ ⎡ A 0 ⎤ ⎡ 0 AB⎤
⎢0 I ⎥ ⎢ −I B⎥ = ⎢ −I B ⎥
⎣ ⎦⎣ ⎦ ⎣ ⎦
A 0 0 AB
=
−I B −I B
A 0 AB 0
= ( −1)n
−I B B −I
2. Álgebra vetorial e matricial 50
blocos, têm-se:
A B = ( −1) AB − I
n
A B = ( −1) ( −1) AB
n n
A B = ( −1) AB
2n
∴ AB = A B
A −1A = I
A −1 A = 1
1
A −1 = = A −1
A
vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).
Ferreira, D.F. Estatística multivariada 51
matricial.
matriz m x n:
⎡ ∂a11 ∂a1n ⎤
⎢ ∂x ∂x ⎥
∂A ⎢ ⎥
=⎢ ⎥ (2.10)
∂x ⎢
∂a ∂a mn ⎥
⎢ m1 ⎥
⎣ ∂x ∂x ⎦
conformáveis.
∂ ( A + B ) ∂A ∂B
= + ; m = p, n = q (2.11)
∂x ∂x ∂x
∂ ( AB ) ∂B ∂A
=A + B; n=p (2.12)
∂x ∂x ∂x
2. Álgebra vetorial e matricial 52
∂ ( A −1 ) ∂A −1
= − A −1 A ; m = n, A ≠ 0 (2.13)
∂x ∂x
∂X
= 1ij (2.14)
∂x ij
em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas
∂X
= 1ii (2.15)
∂x ii
Seja g uma função escalar qualquer de uma matriz X, que pode ser por
relação a X é:
Ferreira, D.F. Estatística multivariada 53
⎛ ∂g ∂g ⎞
⎜ ∂x … ⎟
∂x1n
∂g ⎜ ⎟
11
=⎜ ⎟ (2.16)
∂X ⎜ ⎟
⎜ ∂g ∂g ⎟
⎜ ∂x ∂x mn ⎟
⎝ m1 ⎠
a) o traço
n
tr ( A ) = ∑ a ii (2.17)
i =1
tr ( A + B ) = tr ( A ) + tr ( B ) , m=n=p=q (2.18)
tr ( δA ) = δ tr ( A ) , m=n (2.19)
tr ( A t ) = tr ( A ) , m=n (2.20)
tr ( AB ) = tr ( BA ) , m = q, n = p (2.21)
2. Álgebra vetorial e matricial 54
∂tr ( C )
= 0, r=s (2.23)
∂X
∂tr ( X )
= I, r =s (2.24)
∂X
∂tr ( XC )
= Ct , r = v, s = u (2.25)
∂X
∂tr ( X t CX )
= ( C + C t ) X, r=v=s=u (2.26)
∂X
∂tr ( XC )
= Ct , r = v, s = u (2.27)
∂X t
∂tr ( X t CX )
= X t ( Ct + C ) , r=v=s=u (2.28)
∂X t
∂tr ( A −1 ) ∂tr ( A −2 A )
= − , m = n, A ≠ 0 (2.31)
∂X ∂X
b) determinante
∂X
= adj ( X t ) = X ( X −1 ) ,
t
u = v, X ≠ 0 (2.33)
∂X
∂ ln X adj ( X t )
= ( X −1 ) ,
t
= u = v, X ≠ 0 (2.34)
∂X X
relação a uma variável que por sua vez está sujeita a restrições. Os casos
1
g + tr [ U ( X − X t )]
2
Ferreira, D.F. Estatística multivariada 57
∂g 1
+ ( U − Ut ) = 0 (2.36)
∂X 2
Como também
t t
⎛ ∂g ⎞ 1 t ⎛ ∂g ⎞ 1 t
⎟ + (U − U) = ⎜ ⎟ − (U − U) = 0
t
⎜ (2.37)
⎝ ∂X ⎠ 2 ⎝ ∂X ⎠ 2
restrito:
t
⎛ ∂g ⎞ ⎛ ∂g ⎞
⎜ ⎟+⎜ ⎟ =0 (2.38)
⎝ ∂X ⎠ ⎝ ∂X ⎠
E se X = x Ι, então,
2. Álgebra vetorial e matricial 58
∂tr(Y) ∂tr(Y)
= (2.40)
∂X ∂x
∂g ⎛ ∂g ∂A t ⎞
= tr ⎜ ⎟ (2.41)
∂x ⎝ ∂A ∂x ⎠
∂g ∂ ln A ⎛ ∂ ln A ∂A t ⎞ ⎡ −1 t ∂A t ⎤
∂x
=
∂x
= tr ⎜ ⎟ = tr ⎢( A ) ∂x ⎥ (2.42)
⎝ ∂A ∂x ⎠ ⎣ ⎦
a matriz m x n:
Ferreira, D.F. Estatística multivariada 59
∂z ⎡ ∂z ⎤ i = 1, 2, ..., m
=⎢ ⎥ (2.43)
∂x t ⎣ ∂x j ⎦ ij j = 1, 2, ..., n
simétrica,
∂x t Ax ∂tr ( x Ax )
t
= = 2Ax (2.44)
∂x ∂x
por:
∂x t Ax ∂ ( ∂ x Ax ∂ x ) ∂ 2Ax
t
= = = 2A (2.45)
∂x t ∂x ∂x t ∂x t
Formas quadráticas
x t = [X1 X2 X n ] a expressão:
n n −1 n
Q = x t A x = ∑ a ii X i2 + 2∑ ∑a XX ij i j
i =1 i =1 j= i +1
2. Álgebra vetorial e matricial 60
( xix j ) .
Exemplo 2.5
⎡4 1⎤
x = [ x1 x2 ] A=⎢ ⎥
⎣1 2⎦
⎡ 4 1 ⎤ ⎡ x1 ⎤ ⎡x ⎤
Q = [ x1 x2 ]× ⎢ ⎥ × ⎢ ⎥ = [ 4x1 + x 2 x1 + 2x 2 ] × ⎢ 1 ⎥
⎣1 2⎦ ⎣ x 2 ⎦ ⎣x2 ⎦
∴ Q = 4x12 + 2x1 x 2 + 2x 22
distância desse ponto [x1 x2 x p ] da origem pode e deve, nesse caso, ser
n n −1 n
d ( 0,P ) = ∑ a ii x + 2∑ ∑ a ijx i x j
2 2
i (2.46)
i =1 i =1 j=i +1
e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:
⎡ a 11 a 12 a 1p
⎤
⎢ ⎥ ⎡x ⎤
⎢a 21 a a 2p ⎥ ⎢ 1⎥
0 < d 2 = x t Ax = ⎡⎣ x 1 x p ⎤⎦ ⎢
22
⎥ ⎢ ⎥ (2.47)
⎢ ⎥ ⎢ ⎥
⎢ ⎣x p⎦
⎣a p1 a p2 a pp ⎥⎦
definidas). Uma condição necessária e suficiente para que A seja positiva definida
n A n = n Sn n Snt
Devido a S ter posto coluna completo, não existe x não nulo, tal que
Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma
para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.
sendo que os elementos desta matriz não contemplados pelo método devem
a1j
1a linha: S11 = a11 S1j = j >1
S11
i-ésima linha:
1
⎛ i −1
2⎞
2
Sii = ⎜ a ii − ∑ Sri ⎟
⎝ r =1 ⎠
1 ⎛ i −1
⎞
Sij = ⎜
Sii ⎝
a ij − ∑
r =1
S riSrj ⎟
⎠
i≥2 j>i
1 −1 i −1
Sii =
Sii
Sij =
Sii
∑S S
r =1
ri
rj
i> j
4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:
2. Álgebra vetorial e matricial 64
n n
a ii = ∑ ( Sri ) a ij = ∑ SriSrj
2
i> j
r =i r =i
Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir
⎡4 2 0⎤
A = ⎢⎢ 2 2 1 ⎥⎥
⎢⎣ 0 1 2 ⎥⎦
Obtenção de St:
Primeira linha:
2 0
S11 = 4 = 2; S12 = = 1; S13 = = 0
2 2
Segunda linha:
1
[1 − 1× 0] = 1
1
S22 = ⎡⎣ 2 − 12 ⎤⎦ = 1 S23 =
2
Terceira linha:
Ferreira, D.F. Estatística multivariada 65
S33 = ⎡⎣ 2 − ( 02 + 12 ) ⎤⎦ = 1
1
2
Logo,
⎡2 1 0⎤ ⎡ 2 0 0⎤
S = ⎢⎢ 0 1 1 ⎥⎥
t
e S = ⎢⎢ 1 1 0 ⎥⎥
⎢⎣ 0 0 1 ⎥⎦ ⎢⎣ 0 1 1 ⎥⎦
Linha 1:
1
S11 = ; S12 = S13 = 0 i < j
2
Linha 2:
1 ⎛ 1⎞ 1
S22 = = 1; S21 = −1× ⎜ 1× ⎟ = − ; S12 = 0 pois i < j
1 ⎝ 2⎠ 2
linha 3:
1 ⎛ 1 ⎛ −1 ⎞ ⎞ 1
S33 = = 1; S31 = −1× ⎜ 0 × + 1× ⎜ ⎟ ⎟ = S32 = −1× (1× 1) = −1
1 ⎝ 2 ⎝ 2 ⎠⎠ 2
2. Álgebra vetorial e matricial 66
logo,
⎡ 1 ⎤
⎢ 2 0 0⎥
⎢ ⎥
⎢ − 1 ⎥
S−1 = ⎢ 1 0⎥
⎢ 2 ⎥
⎢ 1 ⎥
⎢ −1 1 ⎥
⎢⎣ 2 ⎥⎦
Diagonal principal:
2 2 2
⎛1⎞ ⎛ 1⎞ ⎛1⎞ 3
a = ⎜ ⎟ +⎜− ⎟ +⎜ ⎟ =
11
⎝2⎠ ⎝ 2⎠ ⎝2⎠ 4
a 22 = 12 + ( −1) = 2
2
a 33 = 12 = 1
Demais elementos:
⎛ 1⎞ 1
a 21 = 1× ⎜ − ⎟ + (−1) × = −1;
⎝ 2⎠ 2
1 1
a 31 = 1× = ; a 32 = 1× (−1) = −1;
2 2
1
a12 = a 21 = −1; a13 = a 31 = ; a 23 = a 32 = −1
2
Ferreira, D.F. Estatística multivariada 67
Logo,
⎡ 34 −1 12 ⎤
A −1 = ⎢⎢ −1 2 −1⎥⎥
⎢⎣ 12 −1 1 ⎥⎦
1. SSt = A
2. S-1S = St(S-1) t = Ι
3. S-1A = S t
4. A(S-1) t = S
5. (S-1)A(S-1) t = Ι
maximização da razão:
x t Ax
λ=
xtx
para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada
a seguir.
∂Q ∂x t Ax ∂x t x
= = 2Ax e = 2x
∂x ∂x ∂x
homogêneo de equações:
⎛ x t Ax ⎞
⎜ A − Ι⎟x = 0
⎝ xtx ⎠
x t Ax
Desde que = λ , então para um ponto estacionário qualquer i,
xtx
( A − λi Ι ) x i = 0 (2.48)
solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu
|A-λiΙ| = 0 (2.49)
x t Ax
λ= B ≠0
x t Bx
em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado
apresentado a seguir:
∂λ x t Bx x t Ax
× = Ax − t Bx = (A − λB)x = 0 (2.50)
∂x 2 x Bx
( x ≠ 0 ), se e somente se,
A − λB = 0 (2.51)
Ferreira, D.F. Estatística multivariada 71
próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,
por:
B = SBSBt
Cholesky tem-se que x = ( SB−1 ) z . Agora, se (2.50) for pré multiplicada por SB−1 e
t
(2.52)
⎡S−1A ( S −1 t
) − λΙ ⎤⎥ z = 0
⎢⎣ B B
⎦
derivado por Hotelling (1936). Esse método é apropriado para problemas em que
vetor do estágio i será representado por v (i) e o da próxima iteração será obtido
por:
v (i +1) = Av (i)
A 2 = A − λ1 x1 x1t (2.53)
Exemplo 2.7
apresentada a seguir:
⎡4 2⎤
A=⎢ ⎥
⎣2 1⎦
1. Determinação de λ1 e x1
⎡1⎤
O vetor v (0) será considerado como: v (0) = ⎢ ⎥
⎣1⎦
Normalizando v (1) :
(1) ⎡ 66 ⎤ ⎡1 ⎤
v = ⎢3⎥ = ⎢1⎥
⎣6⎦ ⎣2⎦
2. Álgebra vetorial e matricial 74
Para avaliar a convergência, os vetores v (0) e v (1) devem ser comparados. Será
⎡ 4 2 ⎤ ⎡1 ⎤ ⎡ 5 ⎤
(ii) v (2) = Av (1) = ⎢ ⎥ × ⎢ 1 ⎥ = ⎢ ⎥ , normalizando
⎣ 2 1 ⎦ ⎣ 2 ⎦ ⎣ 2.5⎦
⎡1 ⎤
v (2) = ⎢ 1 ⎥
⎣2⎦
V (2) ⎡ 0,8944 ⎤
x = =⎢ ⎥
1
V (2)t V (2) ⎣0, 4472 ⎦
⎡ 0,8944 ⎤
λ1 = x1t A x1 = [ 4, 4721 2, 2361] × ⎢ ⎥=5
⎣0, 4472 ⎦
2. determinação de λ2 e x 2
⎡4 2⎤ ⎡ 0,8944 ⎤ ⎡0 0⎤
A 2 = A − λ1x1 x1t = ⎢ ⎥ − 5× ⎢ ⎥ × [ 0,8944 0, 4472] = ⎢ ⎥
⎣2 1⎦ ⎣ 0, 4472 ⎦ ⎣0 0⎦
Ferreira, D.F. Estatística multivariada 75
x 2 = 0 ).
a matriz será psd, e a forma quadrática poderá ser nula para um vetor x ≠ 0 .
normalizados associados.
Exemplo 2.8
⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦
⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦
⎡ 3, 7893 2,3417 ⎤
λ1e1e1t = ⎢ ⎥
⎣ 2,3417 1, 4471 ⎦
⎡ 0, 2111 −0,3416 ⎤
λ 2 e 2 e 2t = ⎢ ⎥
⎣ −0,3416 0,5528 ⎦
baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e
satisfazem a:
x t Ax = a11X12 + a 22 X 22 + 2a12 X1 X 2 = c 2
A = λ1e1e1t + λ 2 e 2 e 2t
∴ x t Ax = λ1 ( X t e1 ) + λ 2 ( X t e 2 )
2 2
( )
2
se que x = cλ1− 2 e1 satisfaz x t Ax = λ1 cλ1− 2 e1t e1 = c2 e x = cλ −2 2 e 2 fornece a
1 1 1
pertencem a uma elipse cujos eixos são dados pelos autovetores de A com
cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem
comprimento de c
.
λi
x
2
e
2
e
1
-0,5
cλ
1
0,5
cλ x
2 1
quadrada.
n
A = ∑ λ i ei eit , pode-se construir uma matriz P, cujas colunas são os autovetores
i =1
A = P ΛP t
n
⎛1 ⎞ (2.55)
A −1 = PΛ −1P t = ∑ ⎜ ei eit ⎟
i =1 ⎝ λ i ⎠
da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada
n
A = ∑ λ i ei eit = PΛ 2 P t
1 1
2
(2.56)
i =1
Ferreira, D.F. Estatística multivariada 79
2. A1/2A1/2=A
( )
−1 n
=∑ ei eit = PΛ − 2 P t
1 1
3. A 2 1
λi
i =1
4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1
Exemplo 2.9
⎡4 2⎤
A=⎢ ⎥
⎣2 2⎦
⎡ 0,8507 ⎤ ⎡ −0,5257 ⎤
λ1 = 5, 2361 e1 = ⎢ ⎥ λ 2 = 0, 7639 e 2 = ⎢ ⎥
⎣ 0,5257 ⎦ ⎣ 0,8507 ⎦
A 2 = PΛ 2 P t =
1 1
nesse capítulo.
Ferreira, D.F. Estatística multivariada 81
print Sg Sginv;
II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */
print ii;
H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */
print H; /* D transformada */
zh=eigvec(H); /* zh matriz de autovetores */
auh=eigval(H); /* auh vetor de autovalores */
xh=Sginv*zh; /* matriz de autovetores recuperados */
teste=xh`*g*xh;
print teste;/*mostrar que resulta na identidade*/
print xh;
print auh;
/* obtencao de matriz raiz quadrada - exemplificar com a matriz D */
aud=eigval(D); /* autovalores de D*/
lamb=diag(aud); /* diagonalizando aud e resultado em lamb */
print lamb;
lambS=root(lamb); /* achando a raiz quadrada de lamb */
avd=eigvec(D); /* autovetores de D em avd */
Droot=avd*lambS*avd`;
/* usando a definição para encontrar a matriz raiz quadrada de D */
print Droot;
DD=avd*lamb*avd`; /* checando propriedades */
print DD; /* deve ser igual a D */
quit;
2.4. Exercícios
entre x e y .
⎡1 1 0 0⎤
⎢1 1 0 0 ⎥⎥
⎢
X = ⎢1 0 1 0⎥
⎢ ⎥
⎢1 0 1 0⎥
⎢⎣1 0 0 1 ⎥⎦
realizada em (a).
⎡4 2 2⎤ ⎡6 4 2⎤
A = ⎢⎢ 2 2 0 ⎥⎥ B = ⎢⎢ 4 4 0 ⎥⎥
⎢⎣ 2 0 4 ⎥⎦ ⎢⎣ 2 0 6 ⎥⎦
⎡ 0,8507 −0,5257 ⎤
P=⎢ ⎥
⎣0,5257 0,8507 ⎦
2.5. Seja
⎡ 8 −1⎤
A=⎢ ⎥
⎣ −1 2 ⎦
(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?
(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como
⎡ 4 4, 001⎤ ⎡ 4 4, 001 ⎤
A=⎢ ⎥ B=⎢ ⎥
⎣ 4, 001 4, 002 ⎦ ⎣ 4, 001 4, 002001⎦
elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas
diferenças na inversa).
Q = 2x12 − 2x1 x 2 + 4x 22
é positiva definida.
⎡4 1⎤ ⎡ 2 −1⎤
A=⎢ ⎥ B=⎢ ⎥
⎣1 2⎦ ⎣ −1 1 ⎦
x t Ax
λ= t B ≠0
x Bx
A − λB = 0 .
⎡ 25 −2 ⎤
S=⎢
⎣ −2 4 ⎥⎦
⎡ S11 0 0 ⎤
⎢ ⎥
⎢ 0 S22 0 ⎥
D 2 =⎢
1
⎥
⎢ ⎥
⎢ 0 0 Spp ⎥⎦
⎣
( ) S (D )
−1 −1
Sendo R = D
1 1
2 2
S= D( ) R (D )
1
2
1
2
2. Álgebra vetorial e matricial 88
||[ 3
Amostragem multivariada
]||
3.1. Introdução
outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para
todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha
dados. Finalmente, quando os dados podem ser tratados como uma amostra
Exemplo 3.1
⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −2 2 ⎥⎦
⎡ ⎡ 2 + ( −3) + ( −2 ) ⎦⎤ 3⎤ ⎡ −1⎤
X = ⎢⎣ ⎥=⎢ ⎥
⎣⎢ (1 + 0 + 2 ) 3⎦⎥ ⎣ 1⎦
3 2
x3
2
_
x x1
1
x2
0 1
-4 -3 -2 -1 0 1 2 3 4
-1
-2
-3
Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o
centro de massa, X .
como coordenadas.
Ferreira, D.F. Estatística multivariada 93
= ⎡⎣ y1 y2 " yk " y p ⎤⎦
Exemplo 3.2
⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥
⎢⎣ −3 2 ⎥⎦
y1t = [ 2 −3 −2] e y 2t = [1 0 2]
3. Amostragem multivariada 94
Y2
Y1
tridimensional.
dimensões maiores.
Ferreira, D.F. Estatística multivariada 95
projeção em 1 ( )
n 1 é:
⎛ 1 ⎞ 1
∑X jk
t
y ⎜
k 1⎟ 1=
⎝ n ⎠ n
j=1
n
1
( )
1 = y kt 1 1 = X k 1
n
Xt Y
Proj ( X em Y ) = Y
Y
Dessa forma X k = ( )
1 t
y k 1 corresponde a um múltiplo de 1, obtido a
n
y k e k = y k − X k 1
1 X k 1
⎡ x1k − X k ⎤
⎢ ⎥
⎢ x 2k − X k ⎥
ek = yk − X k 1 =
⎢ # ⎥
⎢ ⎥
⎢⎣ x nk − X k ⎥⎦
x3
1
_
_ x 11
x 21 e1
e2 Y1
Y2
x1
x2
de desvio e k = y k − X k 1 .
Exemplo 3.3
⎡ 2 1⎤
X = ⎢⎢ −3 0 ⎥⎥ y1t = [ 2 −3 −2] y 2t = [1 0 2]
⎢⎣ −3 2 ⎥⎦
2 + (−3) + (−2) 1+ 0 + 2
X1 = = −1 X2 = =1
3 3
⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤
e1 = y1 − X11 = ⎢⎢ −3⎥⎥ − ⎢⎢ −1⎥⎥ = ⎢⎢ −2 ⎥⎥
⎢⎣ −2 ⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣ −1⎥⎦
⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
e 2 = y 2 − X 2 1 = ⎢⎢0 ⎥⎥ − ⎢⎢1⎥⎥ = ⎢⎢ −1⎥⎥
⎢⎣1 ⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦
⎡ 3⎤
( X 1 ) ( )
y1 − X11 = [ −1 −1 −1] × ⎢⎢ −2 ⎥⎥ = −3 + 2 + 1 = 0
t
1
⎢⎣ −1⎥⎦
A decomposição é:
Ferreira, D.F. Estatística multivariada 99
⎡ 2 ⎤ ⎡ −1⎤ ⎡ 3 ⎤ ⎡1 ⎤ ⎡1⎤ ⎡ 0 ⎤
y1 = ⎢⎢ −3⎥⎥ = ⎢⎢−1⎥⎥ + ⎢⎢−2⎥⎥ ; e y 2 = ⎢⎢0 ⎥⎥ = ⎢⎢1⎥⎥ + ⎢⎢−1⎥⎥ .
⎢⎣ 2 ⎥⎦ ⎢⎣−1⎥⎦ ⎢⎣ −1⎥⎦ ⎢⎣2⎥⎦ ⎢⎣1⎥⎦ ⎢⎣ 1 ⎥⎦
X3
e2
e1
X1
X2
n
| e k |2= e k . e k = ∑ ( x jk − X k ) 2 (3.1)
j =1
n
ekt eA = ∑ ( x jk − X k )( x jA − X A ) (3.2)
j =1
vetores e k e e A , tem-se:
e kt eA
Cos ( θkA ) = (3.3)
e kt e k × eAt eA
SkA
rkA = Cos ( θkA ) = (3.4)
Skk SAA
conjunto de dados X.
estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)
Uma amostra aleatória pode ser definida por: “Se o vetor coluna
f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, X1 , X 2 , ..., X n é uma
amostra aleatória.”
Cov( X ) = 1
n Σ (Matriz de covariância populacional dividida pelo tamanho da
amostra).
PROVA:
X =( X 1+ X 2+...+ X n)/n
Ferreira, D.F. Estatística multivariada 103
E(X) = E ( n1 X1 + n1 X 2 + " + n1 X n )
= E ( n1 X1 ) + E ( n1 X 2 ) + " + E ( n1 X n )
1 1
= ⎡ nE ( X j ) ⎤ = × n × µ
n⎣ ⎦ n
∴ E(X) = µ
t
⎛1 n ⎞ ⎛1 n ⎞
( ) ( ) ∑∑ ( X
n n
1
)( )
t
( X -µ ) ( X -µ ) = ⎜ ∑ Xj − µ
t
⎟ × ⎜ ∑ XA − µ ⎟ = 2 j − µ XA − µ
⎝ n j=1 ⎠ ⎝ n A =1 ⎠ n j=1 A =1
Então,
( )( ) ∑∑ E ( X )( )
n n
1
Cov ( X ) = E X − µ X − µ = 2
t t
j − µ XA − µ
n j=1 A =1
( )( )
t
Sendo j≠ A e considerando que E X j − µ X A − µ é igual a zero,
∑ E ( X
n
1
Cov ( X ) = 2 )( )
t
j −µ Xj −µ
n j=1
3. Amostragem multivariada 104
( )( )
t
Desde que Σ= E X j − µ X j − µ é a covariância populacional comum
∑ E ( X )( )
n
1 1
Cov ( X ) = 2
t
j − µ X j − µ = 2 (Σ + Σ + " + Σ) =
n j=1 n
1 1
= 2
(nΣ) = Σ
n n
⎡ S 11 S 12 " S 1p ⎤
⎢S S 22 " S 2p ⎥
S=⎢ ⎥
21
⎢ # # % # ⎥
⎢S Sp2 " S pp ⎥⎦
⎣ p1
expressar a variação por um único valor numérico. Uma escolha deste valor é o
generalizada.
Exemplo 3.4
⎡ 2,905 9,096 ⎤
S=⎢ ⎥
⎣ 9,096 90,817⎦
|S|=(Área)2/(n-1)2
indução:
quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)
respectivamente.
3. Amostragem multivariada 108
(a) (b)
e3 e2
e2 e1 e3 e1
Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância
movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores
8 −8 0
r12 = = 0,8 r12 = = −0,8 r12 = = 0, 0
10 10 10 10 6 6
| S |= 36 | S |= 36 | S |= 36
como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser
( X − X ) 'S ( X − X ) = c
−1 2
(3.10)
3. Amostragem multivariada 110
dados. Portanto, é mais útil apresentar seus valores individuais do que seu
produto. Este tópico será abordado com mais detalhe quando se discutir sobre os
componentes principais.
residuais pertencerem a um (hiper) plano formado por uma combinação linear dos
dependentes.
Exemplo 3.5
⎡3 3 6⎤
X = ⎢⎢1 3 4 ⎥⎥
⎢⎣ 2 0 2 ⎥⎦
O vetor média é:
X t = [ 2 2 4]
Os vetores dos desvios são:
Ferreira, D.F. Estatística multivariada 111
⎡ 1 1 2⎤
X − 1 X t = [ e1 e2 e3 ] = ⎢⎢ −1 1 0 ⎥⎥
⎢⎣ 0 −2 −2 ⎥⎦
obtenção de |S|.
⎡ 1 0 1⎤
⎢ ⎥
S = ⎢ 0 3 3⎥
⎢⎣ 1 3 4 ⎥⎦
3 3 0 1 0 1
| S| = 1 × × ( −1) 2 + 0 × × ( −1) 3 + 1 × × ( −1) 4 =
3 4 3 4 3 3
= 131
. . + 0 + 1.( −3).1 = 3 − 3 = 0
3. Amostragem multivariada 112
e1
e2
e3
1 2
igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:
mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores
Exemplo 3.6
É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3
|S|=37,3878
|R|=0,6137
Exemplo 3.7
Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614
comprimentos ao quadrado dos vetores residuais ei (i=1, 2, ...,p) dividido por n-1.
Ela não considera as orientações dos vetores residuais, sendo portanto limitada
Ferreira, D.F. Estatística multivariada 117
para ser utilizada com variáveis padronizadas, pois seu valor será sempre o
mesmo para distintos conjuntos de dados desde que o número de variáveis destes
seja igual.
3.7. Exercícios
⎡ 1 1⎤
⎢ −1 −1⎥
X =⎢ ⎥
⎢ −1 1⎥
⎢ ⎥
⎣ 1 −1⎦
residuais.
3. Amostragem multivariada 118
total.
3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício
3.7.1.
4
Distribuição normal multivariada
4.1. Introdução
gerados de uma distribuição normal multivariada. Apesar dos dados originais não
distribuição populacional.
tratamento matemático, possui duas razões práticas que justificam a sua utilidade.
normal requerida refere-se, não a variação dos dados, mas a variação residual,
sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o
melhor.
Ferreira, D.F. Estatística multivariada 121
1 ( x −µ )
2
1 −
f (x) = e 2 σ2
x ∈ ]−∞; + ∞[ (4.1)
2πσ2
Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável
X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio
0,683
0,954
µ−2σ µ−σ µ µ+σ µ+2σ
(x − µ)
2
= ( x − µ ) ( σ2 )
−1
( x − µ) (4.2)
σ 2
( X − µ ) ( Σ ) ( X − µ )
t −1
(4.3)
seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que
esta constante é ( 2 π )
−p2 − 12
Σ , sendo a densidade dada por:
⎡ 1 ⎤
1
( ) ( )
t
f (X) = p 1
exp − X
⎢⎣ 2 − µ Σ −1 X − µ ⎥ (4.4)
⎦
( 2π ) 2 Σ2
evidente;
⎡ X1 ⎤
⎢X ⎥
i) Fazendo a t X = [1 0 " 0] ⎢ ⎥ = X1 a propriedade 2 se torna evidente. Assim,
2
⎢ # ⎥
⎢ ⎥
⎣⎢ X p ⎦⎥
p 1 ⎢ ⎥ ⎢ ⎥ e ⎢ ⎥
⎢⎣ (p −q) µ1 ⎥⎦ ⎢⎣ µ 2 ⎥⎦ ⎢⎣ ( p−q ) Σ 21q ( p −q )
Σ 22 ( p −q ) ⎥
⎦
Ferreira, D.F. Estatística multivariada 125
Logo,
(
X1 ~ N q µ1 ; Σ11
)
Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).
⎡ q X1 ⎤ ⎡ X1 ⎤
Dada a partição p X1 = ⎢ ⎥ = ⎢ ⎥ , logo a distribuição condicional de
⎢⎣ (p −q) X1 ⎥⎦ ⎣ X 2 ⎦
(
)
µ c = µ1 + Σ12Σ −221 x 2 − µ 2 e Σ c = Σ11 − Σ12 Σ −221Σ 21
σ12
Var(X1)=σ11, Var(X2)=σ22 e ρ12 = = Corr( X1 , X 2 ) . A matriz de covariância é
σ11 σ22
4. Distribuição normal multivariada 126
⎡σ σ12 ⎤
Σ = ⎢ 11
⎣σ21 σ22 ⎥⎦
Cuja inversa é,
1 ⎡ σ 22 −σ 12 ⎤
Σ −1 =
σ 11σ 22 − σ ⎢⎣ −σ 21
2
12 σ 11 ⎥⎦
(4.5)
1 ⎡⎛ − µ ⎞ 2 ⎛ − µ ⎞ 2 ⎛ X1 − µ1 ⎞ ⎛ X 2 − µ 2 ⎞⎤
= ⎢⎜ X1 1 ⎟ +⎜ X 2 2⎟
−2ρ12 ⎜ ⎟⎜ ⎟⎥
1 − ρ12
2
⎢⎜⎝ σ11 ⎟⎠ ⎜⎝ σ22 ⎟⎠ ⎜ σ ⎟ ⎜ σ ⎟⎥
⎝ ⎠⎝ ⎠⎦
⎣ 11 22
Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- ρ122 ), podem ser
1
f(x1 ,x2 ) =
2π σ11σ22 (1 −ρ122 )
(4.6)
⎧ ⎡ 2 2
⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞⎤⎫⎪
⎪ −1 ⎢⎛ X1 −µ1 ⎞ ⎛ X2 −µ2 ⎞
exp ⎨ ⎜ ⎟ +⎜ ⎟ − 2ρ12 ⎜ ⎟⎜ ⎟⎥
⎜ σ ⎟ ⎜ σ ⎟⎥⎬
⎪⎩2(1 −ρ12 ) ⎣⎢⎝ σ11 ⎠
2 ⎜ ⎟ ⎜ σ ⎟
⎝ 22 ⎠ ⎝ 11 ⎠ ⎝ 22 ⎠ ⎪
⎦⎭
pode ser escrita como produto das densidades normais univariadas, ambas com a
forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas
distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras
4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( ρ12 =0)
e a Figura 4.3 o caso de ρ12 =0.8. Observa-se que a presença de correlação faz
Figura 4.2. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.
Figura 4.3. Distribuição normal bivariada com σ11 = σ22 e ρ12 =0.8.
Ferreira, D.F. Estatística multivariada 129
normais, fica claro que alguns valores padrões de X fornecem alturas constantes
para as densidades elipsóides. Isto significa que a densidade normal é constante
( ) ( Σ ) ( X − µ )
t −1
em superfícies cujas distâncias quadráticas X − µ são constantes.
( ) ( Σ ) ( X − µ ) =c
t −1 2
Contornos={todo X tal que X − µ } (4.7)
( X − µ ) ( Σ ) ( X − µ ) =c
t −1 2
elipsóide é centrada em µ e tem eixos na direção de
±c λ i
ei (i=1, 2, ..., p).
Considerando como ilustração a densidade normal bivariada com
σ11 = σ22 , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e
σ 11 − λi σ 12
= (σ 11 − λi ) − σ 122 = 0
2
σ 12 σ 11 − λi
= ( λi − σ 11 − σ 12 )( λi − σ 11 + σ 12 ) = 0
4. Distribuição normal multivariada 130
Σ e i =λ i e i
⎡ σ11 σ12 ⎤ ⎡ e1 ⎤ ⎡ e1 ⎤
⎢σ σ ⎥ ⎢ e ⎥ = (σ11 + σ12 ) ⎢e ⎥
⎣ 12 11⎦ ⎣ 2 ⎦ ⎣ 2⎦
ou,
⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
⎢ 1 ⎥
⎢⎣ 2 ⎥⎦
Ferreira, D.F. Estatística multivariada 131
⎡ 1 ⎤
⎢ 2⎥
e1 = ⎢ ⎥
⎢ 1 ⎥
⎢⎣ − 2 ⎥⎦
c vσ 11 + σ12
cvσ - σ12
2
11
95%
99%
⎡ x 11 x 12
" x ⎤1p
⎢ ⎥
⎢x x " x
2p ⎥
X = ⎢ 21 22
⎥
n × p
⎢ # # % # ⎥
⎢ " x np ⎥
⎣ x n1 x n2 ⎦
σ2
n
3. X e S são independentes.
Seja S uma matriz positiva definida, com n>p, então se pode definir,
( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ) para grandes
amostras. Aqui n deve ser também bem maior do que p (número de variáveis).
( )
n X − µ possui distribuição aproximadamente normal Np( 0 , Σ )
e
( ) ( )
t
n X − µ Σ −1 X − µ se distribui aproximadamente como χ p2 para n - p grande.
Ferreira, D.F. Estatística multivariada 137
X−µ
z= (4.10)
σ
n
citado por Bock (1975), com erro máximo de 10-6, dada por
⎧ G se z ≤ 0
Φ( z ) ≅ ⎨ (4.11)
⎩1 − G se z > 0
em que,
da distribuição normal de -∞ a z;
G = ( a1 η + a2 η 2 + a3 η3 + a4 η 4 + a5 η5 ) φ( z );
4. Distribuição normal multivariada 138
1
η= ;
1 + 0,2316418| z|
z2
φ(z) = (2π ) − 2 e −
1 2
;
a1=0,319381530
a2=-0,356563782
a3=1,781477937
a4=-1,821255978
a5=1,330274429
das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho
amostral.
limite central que demonstra que muitas estatísticas têm distribuição normal como
limite. Para tais estatísticas é necessário somente obter a média e a variância para
para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,
algum indicativo de qual tamanho amostral é necessário para uma dada acurácia
χ(2υ1)
lim F(υ1 , υ2 ) =
υ2 →∞ υ1
4. Distribuição normal multivariada 140
concluir que ao nível de 0,05, com erro de duas unidades na segunda casa
decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,
A estatística
é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida
1 χ
υ
P(χ2 ≤ χ / υ) = ∫ t ( 2 )−1e− 2 dt
t
υ (4.13)
2 Γ( υ2) 0
2
Ferreira, D.F. Estatística multivariada 141
e−χ ∞ χn
P(χ ≤χ/ υ) = ∑
2
(4.14)
χ−υ n=0 Γ( υ+ n +1)
1 1
quando χ < max( υ,13) , e caso contrário pela expansão assintótica:
2 2
⎡ υ−1 (υ−1)(υ−2) ⎤
P(χ ≤χ/ υ) ≈χυ−1e−χ ⎢1+ +
2
+...⎥ (4.15)
⎣ χ χ2 ⎦
⎡ 1 1 139 571 ⎤
Γ(a) =(a−1)!≈e−aaa−1/2(2π)1/2 ⎢1+ + 2 − − (4.16)
⎣ 12a 288a 51840a 2488320a ⎥⎦
3 4
e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando
unitário.
4. Distribuição normal multivariada 142
respectivamente. Então,
χ12 υ1
F= 2
χ 2 υ2
Γ( a )Γ( b )
em que, B( a, b ) =
Γ( a + b )
Então,
υ2 υ1
P( F, υ1 , υ2 ) = 1 − I x ( , )
2 2
υ2
em que, x =
υ2 + υ1 F
Ferreira, D.F. Estatística multivariada 143
abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a
( ) ( )
t
distâncias envolvendo X da forma n X − µ S−1 X − µ , a pressuposição de
multivariada.
maiores. É possível, por exemplo, construir uma distribuição não normal bivariada
4. Distribuição normal multivariada 144
e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,
teste de χ2 .
Ferreira, D.F. Estatística multivariada 145
este propósito.
a) Distribuição de proporções
[µ i ]
− 2 σ ii ; µ i + 2 σ ii (Figura 4.1). Consequentemente, para grandes amostras de
[
que a proporção P i2 de observações em X i − 2 s ii ; X i + 2 s ii seja de cerca de]
0,954. Usando a aproximação normal da distribuição de P i , então se
b) Processos gráficos
i) Q-Q plot
ser aceita.
x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor
descontinuidade.
q( j )
j − 12
∫
2
= 1
2π
e− z /2
dz (4.18)
n −∞
Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela
(Tabela A.1).
pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem
Exemplo 4.1
Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a
gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
passos:
4. Distribuição normal multivariada 148
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
q(1)
j − 12 1 − 12
∫
2
Ex. Para a observação 1 tem-se: = = 0, 05 = 1
2π
e− z /2
dz
n 10 −∞
3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
4. Distribuição normal multivariada 150
desvios da normalidade não constitui num teste formal deste propósito. Para
complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q
∑(x ) (q )
n
( j) −x ( j) −q
j=1
rQ = (4.19)
2 2
∑(x ) ∑ (q )
n n
( j) −x ( j) −q
j=1 j=1
Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente
18, 77109
rQ = = 0,9523
44,15849 8, 798094
inferior ao valor calculado (0,9523), então, não existe razão para duvidar da
hipótese de normalidade.
4. Distribuição normal multivariada 152
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
2
⎛ n ⎞
n
⎜ ∑ Xj ⎟
∑ X2j − ⎝ ⎠
j =1
j =1 n
Sn = (4.20)
n
Xj − X
Zj =
Sn
Pj=Φ(Zj)
Ferreira, D.F. Estatística multivariada 153
Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
j x(j) pj = (j-½)/n Pj
ordenada).
1.0
0.8
0.6
pj
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Pj
definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os
pontos não são independentes e ainda pode-se afirmar que sucessivos pontos
no lado superior.
platicúrtica.
Ferreira, D.F. Estatística multivariada 155
partir dos dados amostrais, fazendo 1/n como densidade para cada ponto
amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado
~ =1∑
m
n
x rj (4.21)
r
n j=1
por:
Média: µ 1 = 0 (4.22)
Variância: ~ ~ −m
µ2 = m ~2 (4.23)
2 1
Assimetria ~ ~ − 3m
µ3 = m ~ m ~ + 2m
~3 (4.24)
3 1 2 1
Curtose µ 4 = m
4 −4 m 3 + 6m
1 m 2 − 3m
12 m 14 (4.25)
4. Distribuição normal multivariada 156
respectivamente:
~
µ 3
b1 = (4.26)
~
µ2 µ ~
2
~
µ
b 2 = ~ 42 (4.27)
µ2
direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas
mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais
Exemplo 4.3
x x2 x3 x4
Têm-se:
~ =36,31/10=3,631
m 1
~ =176,0001/10=17,6000
m 2
~ =1046,2520/10=104,6252
m 3
~ =7244,135/10=724,4135
m 4
~ = 3,631
µ 1
b2 = 75,6182/(4,4158)2 = 3,8780
obtidos com boa aproximação usando como desvio da normal padrão a estatística:
(n + 1)(n + 3)
Z1 = b1 (4.28)
6(n − 2)
seguinte estatística:
pontuda com caldas mais altas do que a normal; valores menores que 3 indicam
distribuição normal.
normalidade.
4. Distribuição normal multivariada 160
gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n
Exemplo 4.4
A matriz inversa de S é:
⎡ 0,0037 − 0,0110⎤
S −1 = ⎢
⎣− 0,0110 0,1829⎥⎦
softwares estatísticos.
2
q(j)
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
iguais a 2.
Pela Figura 4.9, verifica-se que não existem razões para duvidar de
dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal
{( )}
3
) (
t
β1,p = E X − µ Σ −1 Y − µ (4.30)
{( )}
2
) (
t
β2,p = E X − µ Σ −1 X − µ (4.31)
n n
1
βˆ 1,p = 2
n
∑∑ g
i =1 j=1
3
ij
1 n 1 n
βˆ 2,p = ∑ g i2i = ∑ d i4
n i =1 n i =1
em que,
g i j = ( X i − X ) Sn−1 ( X − X) e
t
j di = gi i
Ferreira, D.F. Estatística multivariada 165
p=1) e β̂2,p (igual ao coeficiente de curtose univariado quando p=1) são não-
( )
negativos. Sob distribuição normal multivariada espera-se que a E( E βˆ 1,p ) seja
zero. O estimador β̂2,p é muitas vezes usado para avaliar observações que estão a
nβˆ 1,p
k1 =
6
k2 =
{ βˆ 2 ,p − p(p + 2) }
1/ 2
⎡ 8p(p + 2) ⎤
⎢⎣ n ⎥⎦
Exemplo 4.5
Usando o exemplo das rações testar a normalidade multivariada pelo teste dos
⎡− 20⎤
Para i=1 e j=1, g 1 1 = [− 20 1]Sn−1 ⎢ ⎥ = 2,7805
⎣ 1 ⎦
⎡ 20 ⎤
Para i=1 e j=2, g1 2 = [ −20 1] S−n1 ⎢ ⎥ = −0, 6341
⎣3⎦
Ferreira, D.F. Estatística multivariada 167
Logo,
βˆ 1,,2 =
( 2, 7805
3
+ 2(−0, 6341)3 + " + 1, 02443 )
=1,2766
16
então,
nβˆ 1, 2 4 × 1,2766
k1 = = = 0,8511
6 6
que χ 02,05; 4 = 9,488 , então H0 não deve ser falseada, ou seja, não existe razões
1 n 2 1
n i =1 4
(
βˆ 2,p = ∑ g i i = 2,7805 + 2,3902 + 1,8049 + 1,0244 =
2 2 2 2 17,7513
4
= 4,4378 )
4. Distribuição normal multivariada 168
tenha algum desvio de curtose, uma vez que k 2 < z 0, 025 = 1,96 .
observadas.
trivariada.
Proc IML;
n=100;p=3;
SIG={8 4 1,
4 10 3,
1 3 18};
st=Root(sig);
mu={1, 10, 8};
x=j(n,p,0);
zi=j(p,1,0);
do i=1 to n;
do ii=1 to p;
zi[ii]=rannor(0);
end;
xi=st`*zi+mu;
do ii=1 to p;
x[I,ii]=xi[ii];
end;
end;
print x;
create dtnorm from x;
append from x;
quit;
proc print data=dtnorm;
run;quit;
4. Distribuição normal multivariada 170
4.8. Exercícios
4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos
estatística abaixo.
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5
mensagens centrais da análise multivariada, que deverá ser abordada neste e nos
simultaneamente.
Do ponto de vista dos testes de hipóteses este problema pode ser abordado
através do teste:
H0 : µ = µ0 vs H1 : µ ≠ µ 0
caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de
uma população normal, o teste estatístico apropriado para esta hipótese, quando p
é igual a 1, é:
t=
( X − µ ) , em que, X = 1 ∑X
0 n
e S2 =
1 n
∑(Xj − X)2 .
S n j=1 j
n −1 j=1
n
(GL).
significância α, se
Ferreira, D.F. Estatística multivariada 173
pode surgir: existem outros valores de µ que são consistentes com os dados? A
X −µ0
< tn−1(α / 2) (não rejeitar H0) é equivalente a:
S
n
S S
X − t n −1 ( α / 2 ) ≤ µ 0 ≤ X + t n −1 ( α / 2 ) (5.2)
n n
conterão µ.
( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 (5.3)
em que,
⎡ µ01 ⎤
⎢ ⎥
1 n 1 n ⎢µ02 ⎥
X = ∑Xj , S = ∑ ( X j − X )( X j − X ) e µ0 = ⎢ ⎥
t
n j=1 n − 1 j=1 #
⎢ ⎥
⎣⎢µ0p ⎦⎥
primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos
(n − 1)p
T2 ser distribuída como Fp,n −p (5.4)
n−p
Ferreira, D.F. Estatística multivariada 175
em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.
νp
T 2 = Fp,ν+1− p × (5.5)
ν +1− p
(n − 1)p
( ) ( )
t
T 2 = n X − µ 0 S−1 X − µ 0 > Fp,n − p (α) (5.6)
n−p
encontrar regiões de valores de µ que são plausíveis para serem o vetor de média
populacional na luz dos dados observados.
Exemplo 5.1
⎡11 2 ⎤
X = ⎢⎢10 4 ⎥⎥
⎢⎣ 9 3 ⎥⎦
Teste a hipótese de que µ 0t =[9 2] seja um valor plausível para representar a média
populacional.
Então,
1 ⎡4 2⎤
S−1 =
3 ⎢⎣ 2 4 ⎥⎦
1 ⎡ 4 2 ⎤ ⎡10 − 9 ⎤
T 2 = 3 [10 − 9 3 − 2] = 12
3 ⎢⎣ 2 4 ⎥⎦ ⎢⎣ 3 − 2 ⎥⎦
(n − 1)p 4
F2,1 = 199,5 = 798,0 .
n−p 1
crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste
µ 0t = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são
suportados pelos dados.
⎡ (n − 1)p ⎤
( ) ( )
t
P ⎢ n X − µ S−1 X − µ ≤ Fp,n − p (α) ⎥ (5.8)
⎣ n−p ⎦
significância α.
p(n −1)
( ) ( )
t
n X−µ S−1 X−µ ≤ c2 = Fp,n−p (α)
n −p
λi c
= λi [p(n − 1)Fp,n −p (α)]/[n(n − p)] unidades ao longo de ei .
n
Exemplo 5.2
A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar
1 ⎡ 4 2 ⎤ ⎡10 − µ1 ⎤ 2 (2)
3 [10 − µ1 , 3 − µ 2 ] ⎢ ≤ × 199,5
3 ⎣ 2 4 ⎥⎦ ⎢⎣ 3 − µ 2 ⎥⎦ 1
o que permite que se conclua que o ponto testado está na região de confiança. O
gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,
x2
x1
Exemplo 5.3
p(n − 1)
n(X − µ) t S−1 (X − µ) ≤ c 2 = Fp,n − p (α)
n−p
por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que
a média da Cultivar Achat, não pertence à região de 95% de confiança para média
x3
x1
x2
simultaneamente com uma alta probabilidade específica. Isto garante com alta
Ferreira, D.F. Estatística multivariada 185
probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo
A t X = A1 X1 + A 2 X 2 + " + A p X p
A t SA
n
A t SA
A X ± t n −1 (α / 2)
t
(5.9)
n
p(n − 1)
At X ± Fp,n − p (α )A t SA (5.10)
n(n − p)
mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa
Sii
Xi ± tn−1(2m
α
) i =1,2,...,p = m (5.11)
n
Ferreira, D.F. Estatística multivariada 187
Exemplo 5.4
1. Intervalo T2
p(n − 1) S
■ ICµ1 (0,95) = X1 ± Fp,n − p (α) 11
n−p n
2(3 − 1) 1
ICµ1 (0,95) = 10 ± 199,5
3−2 3
2(3 − 1) 1
■ ICµ2 (0,95) = 3 ± 199,5
3− 2 3
respectivos eixos.
2. Intervalo de Bonferroni
1
■ ICµ1 (0,95) = 10 ± 6, 21
3
1
■ ICµ2 (0,95) = 3 ± 6, 21
3
3. Intervalo t de Student
GL é 4,30. Então,
1
■ ICµ1 (0,95) = 10 ± 4,30
3
1
■ ICµ2 (0,95) = 3 ± 4,30
3
(1-α)p=0,952=0,9025.
5. Inferências sobre o vetor média 190
estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em
termos dos atributos que possui, os quais são codificados, pela sua presença e
possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente
⎡ p1 ⎤ ⎡ p1 (1 − p1 ) −p1 p 2 " − p1 p q ⎤
⎢p ⎥ ⎢ −p p p 2 (1 − p 2 ) " − p 2 p q ⎥⎥ 1
1
E(p) = ⎢ ⎥
ˆ 2
ˆ = ⎢
e Cov(p)
2 1
= Σ.
⎢#⎥ n⎢ # # % # ⎥ n
⎢ ⎥ ⎢ ⎥
⎣⎢ p q ⎦⎥ ⎣⎢ − p q p1 −pq p 2 " p q (1 − p q ) ⎦⎥
()
estimador de Cov pˆ , (1/n) Σ̂ , for utilizado.
Uma vez que cada elemento da população está associado a apenas
posto de Σ̂ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se
qualquer combinação A t p .
Ferreira, D.F. Estatística multivariada 191
A t Σˆ A
A t p̂ ± χ q2 −1 (α) (5.12)
n
garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que npˆ k deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.
Exemplo 5.5
resultados:
0,1225
p1 : 0,1429 ± 7,815 = 0,1429 ± 0,1654 = [−0,0225; 0,3083]
35
0, 2155
p 2 : 0,3143 ± 7,815 = [0,0949; 0,5337]
35
0, 2449
p3 : 0, 4286 ± 7,815 = [0,1948; 0,6624]
35
0,1012
p 4 : 0,1142 ± 7,815 = [−0,0361; 0, 2645]
35
ou amostrais.
D−δ
t= (5.14)
SD
n
⎡ ⎛ n ⎞
2
⎤
1 ⎢
⎢ ⎜ ∑ Dj ⎟ ⎥
⎥
1 n 1 n
( )
n
D 2j − ⎝ ⎠
2
∑ Dj e ∑ Dj − D ∑
2 j=1
D=
n j=1 SD = n − 1 j=1
=
n − 1 ⎢⎢ n ⎥ (5.15)
j=1
⎥
⎢ ⎥
⎣ ⎦
para a hipótese:
apresentado a seguir.
SD
D ± t n −1 (α / 2) (5.16)
n
variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.
p(n − 1)
T 2 = n ( D − δ0 ) Sd−1 ( D − δ0 ) >
t
Fp,n − p (α) (5.17)
(n − p)
em que,
1 n 1 n
D = ∑ Dj ∑ ( D j − D )( D j − D )
t
e SD =
n j=1 n − 1 j=1
5. Inferências sobre o vetor média 196
p(n − 1)
T 2 = n(D − δ) t SD−1 (D − δ) ≤ Fp,n − p (α ) (5.18)
(n − p)
p(n − 1) S
ICδi (1 − α) : Di ± Fp,n − p (α) D(ii) (5.19)
(n − p) n
⎛α⎞ S
ICδi (1 − α) : Di ± t n −1 ⎜ ⎟ D(ii) (5.20)
⎝ 2p ⎠ n
Ferreira, D.F. Estatística multivariada 197
Exemplo 5.6
mensuradas a produção leiteira diária média por animal (X1) e a renda total diária
Antes Após
X1j1 X1j2 X2j2 X2j2
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90
⎡0⎤
H0 : δ = 0 = ⎢ ⎥
⎣0⎦
Dj1 Dj2
3 10
4 12
7 28
11 30
⎡ 0,5195 −0,1647 ⎤ ⎡ 6, 25 ⎤
T 2 = 4 [ 6, 25 20] ⎢ ⎥⎢ ⎥ = 14, 6515
⎣ −0,1647 0, 0614 ⎦ ⎣ 20, 00 ⎦
O valor crítico é:
p(n − 1) 2 × (4 − 1)
Fp,n − p (5%) = F2,4 − 2 (5%) = 3 × 19 = 57
(n − p) (4 − 2)
nominal de 5% de significância.
2(4 − 1) 12,9167
ICδ1 (0,95) : D1 ± F2,4− 2 (0, 05) = 6, 25 ± 13,57 = [ −7,32;19,82]
(4 − 2) 4
2(4 − 1) 109,3333
ICδ2 (0,95) : D 2 ± F2,4− 2 (0, 05) = 20 ± 39, 47 = [ −19, 47; 59, 47 ]
(4 − 2) 4
Ferreira, D.F. Estatística multivariada 199
comparações pareadas.
organizadas como:
(População 2) 1 n2 1 n2 t
X 21 , X 22 , ..., X 2n 2 X
2 = ∑ X2 j
n 2 j=1
S2 = ∑ (
n 2 − 1 j=1
X 2 j − X 2 )( X 2 j − X 2 )
Subscritos 1 e 2, denotam a população.
5. Inferências sobre o vetor média 200
Ainda é necessário assumir que ambas as populações sejam normais que a matriz
(
)
E X1 − X 2 = µ1 − µ 2
(5.22)
⎛1 1 ⎞
(
)
Cov X1 − X 2 = ⎜ + ⎟ Σ (5.23)
⎝ n1 n 2 ⎠
⎛1 1 ⎞
⎜ + ⎟ Sp
⎝ n1 n2 ⎠
é um estimador de Cov X1 − X 2 .
( )
Demonstra-se que o teste da razão de verossimilhança para a
hipótese,
H 0 : µ1 − µ 2 = δ0
−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] >
2 t
Fp,n + n − p −1 (α )
⎣ ⎝ n1 n 2 ⎠ ⎦ (n1 + n 2 − p − 1) 1 2
5. Inferências sobre o vetor média 202
Exemplo 5.7
diferença µ1 − µ 2 .
A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01
⎡ 1, 4962 −0,0448⎤
Sp = ⎢ ⎥
⎣ −0,0448 0,0048 ⎦
Ferreira, D.F. Estatística multivariada 203
−1
⎡⎛ 1 1 ⎞ ⎤ (n1 + n 2 − 2)p
T = [X1 − X 2 − δ0 ] ⎢⎜ + ⎟ Sp ⎥ [X1 − X 2 − δ0 ] ≤
2 t
Fp,n + n − p −1 (α )
⎣ ⎝ n1 n 2 ⎠ ⎦ (n1 + n 2 − p − 1) 1 2
⎡ δ ⎤ ⎡ µ − µ 21 ⎤
em que, δ0 = ⎢ 1 ⎥ = ⎢ 11 ⎥
⎣δ 2 ⎦ ⎣µ12 − µ 22 ⎦
apresentados a seguir:
5. Inferências sobre o vetor média 204
µ12 − µ 22
µ11 − µ 21
Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas
as variedades de milho.
Verifica-se pela Figura 5.3 que a origem 0 t =[0, 0], não pertence a
região de confiança, indicando que as duas variedades diferem quanto ao vetor
média.
Ferreira, D.F. Estatística multivariada 205
(n1 + n 2 − 2)p ⎛1 1 ⎞
A t ( X1 − X 2 ) ± Fp,n1 + n 2 − p −1 (α) ⎜ + ⎟ A tSp A (5.24)
n1 + n 2 − p − 1 ⎝ n1 n 2 ⎠
⎛α ⎞ ⎛1 1 ⎞
µ1i − µ 2i : (X1i − X 2i ) ± t n1 + n 2 − 2 ⎜ ⎟ ⎜ + ⎟ Sii (5.25)
⎝ 2p ⎠ ⎝ n1 n 2 ⎠
de Bartlett pode ser usado para testar H0: Σ1 ≠ Σ 2 . No entanto, este teste é
−1
⎡1 1 ⎤
[X1 − X 2 − δ0 ] ⎢ S1 + S2 ⎥ [X1 − X 2 − δ 0 ] ≤ χ p2 (α )
t
(5.26)
⎣ n1 n2 ⎦
⎛1 1 ⎞
A t ( X1 − X 2 ) ± χ p2 (α ) A t ⎜ S1 + S2 ⎟ A (5.27)
⎝ n1 n2 ⎠
estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,
a) Aproximação de Bennett
a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso
essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a
n1 n2
n 1 1
Z j = X1j − 1 X 2 j +
n2 n 1n 2
∑ X2 j −
j=1 n2
∑ X
k =1
2k (5.28)
b) Aproximação de James
−1
∗2 ⎡1 1 ⎤
T = [X1 − X 2 ] ⎢ S1 + S2 ⎥ [X1 − X 2 ] ~ χ p2
t
(5.30)
⎣ n1 n2 ⎦
χ 2p (α ) × ( A + Bχ 2p (α ) ) (5.31)
1 2 ⎧⎪ 1 ⎡ ⎛ −1 Si ⎫⎪
2
⎞⎤
A = 1+ ∑ ⎨ ⎢ tr ⎜ Se ⎟⎥ ⎬ (5.32)
2p i =1 ⎪ n i − 1 ⎣ ⎝ ni ⎠⎦ ⎪⎭
⎩
1 ⎧⎪ ⎡ ⎛ −1 Si ⎞ ⎤ ⎡ ⎛ −1 Si ⎞ ⎤ ⎫⎪
2 2
2
1
B= ∑ ⎨ tr ⎢ 2 ⎜ Se
2p(p + 2) i =1 n i − 1 ⎪ ⎢ ⎝
⎟ ⎥ + ⎢ tr ⎜ Se
ni ⎠ ⎥ ⎣ ⎝
⎟⎥ ⎬
ni ⎠⎦ ⎪
(5.33)
⎩ ⎣ ⎦ ⎭
em que:
S1 S2
Se = + (5.34)
n1 n 2
Ferreira, D.F. Estatística multivariada 209
c) Aproximação de Yao
por (5.35).
1 1 2 ⎧⎪ 1 ⎡ t −1 S ⎤ ⎫⎪
2
∑ ⎢( X1 − X 2 ) Se Se ( X1 − X 2 ) ⎥ ⎬
−1
= ⎨
i
(5.35)
ν ( T ∗2 ) 2 i =1 ⎪ n i − 1 ⎣ ni ⎦ ⎪
⎩ ⎭
d) Aproximação de Johansen
dividida por uma constante C para que a estatística resultante tenha distribuição
T∗ 2
Fc = (5.36)
C
2D + 6D
C = p− (5.37)
p(p − 1) + 2
5. Inferências sobre o vetor média 210
{ }
2
1 ⎡ tr ( I − V −1V )2 ⎤ + ⎡ tr ( I − V −1V ) ⎤ 2
D=∑ (5.38)
i =1 2(n i − 1) ⎣⎢
i
⎦⎥ ⎣ i ⎦
p(p + 2)
ν= (5.39)
3D
liberdade ν, em que:
tr ( Se ) + ⎡⎣ tr ( Se ) ⎤⎦
2 2
ν= (5.40)
1 ⎧⎪ ⎛ S1 ⎞ ⎡ ⎛ S1 ⎞ ⎤ ⎫⎪ 1 ⎧⎪ ⎛ S2 ⎞ ⎡ ⎛ S2 ⎞ ⎤ ⎫⎪
2 2 2 2
⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬ + ⎨ tr ⎜ ⎟ + ⎢ tr ⎜ ⎟ ⎥ ⎬
n1 − 1 ⎪ ⎝ n1 ⎠ ⎣ ⎝ n 1 ⎠ ⎦ ⎪ n 2 − 1 ⎪ ⎝ n 2 ⎠ ⎣ ⎝ n 2 ⎠ ⎦ ⎪
⎩ ⎭ ⎩ ⎭
que significa que o traço da matriz A deve ser calculado e o seu quadrado é a
resposta almejada.
Ferreira, D.F. Estatística multivariada 211
f) Aproximação de Kim
S
qt 1 q
n
d= 1
S
qt 2 q
n2
⎡ S1 S2 ⎤
⎢ − dk ⎥ qk = 0 (5.41)
⎣ n1 n2 ⎦
w = Q t ( X1 − X 2 ) (5.42)
5. Inferências sobre o vetor média 212
1
⎛ p ⎞ 2p
r = ⎜ ∏ dk ⎟ (5.43)
⎝ k =1 ⎠
dk + 1
Ak = (5.44)
( )
2
dk + r
∑A 2
k
c= k =1
p
(5.45)
∑Ak =1
k
2
⎛ p ⎞
⎜ ∑Ak ⎟
f =⎝ p ⎠
k =1
(5.46)
∑ A2k k =1
G = w t ( D1/ 2 + rI ) (D + rI ) w
−1 1/ 2 −1
(5.47)
(ν − p + 1)G
Fc = (5.48)
cfν
Ferreira, D.F. Estatística multivariada 213
2 2
1 1 ⎡ w t D(D + I) −2 w ⎤ 1 ⎡ w t (D + I) −2 w ⎤
= ⎢ ⎥ + ⎢ ⎥ (5.49)
ν n1 − 1 ⎣ w t (D + I) −1 w ⎦ n 2 − 1 ⎣ w t (D + I) −1 w ⎦
covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor
H o : Σ1 = Σ 2 = " = Σ k = Σ
⎡ ⎛ k ⎛ 1 ⎞ 1 ⎞ ⎛ 2p 2 + 3p − 1 ⎞ ⎤
χ = − 1− ⎜ ∑⎜
2
⎢ ⎟ − ⎟⎜ ⎟⎥
⎢⎣ ⎜⎝ j=1 ⎜⎝ n j − 1 ⎟⎠ n − k ⎟⎠ ⎝ 6(p + 1)(k − 1) ⎠ ⎥
c
⎦
(5.50)
⎡ k ⎤
× ⎢ ∑ ⎡⎣( n j − 1) ln S j ⎤⎦ − (n − k) ln Sp ⎥
⎣ j=1 ⎦
5. Inferências sobre o vetor média 214
k
em nj observações multivariadas de dimensão p; n = ∑ n j ; j=1, 2, ..., k, e
j=1
∑ (n
j=1
j − 1) S j
Sp =
n−k
testada é:
H o : Σ1 = Σ 2 = Σ
hipótese são:
Logo,
⎡ ⎛1 1 1 ⎞ ⎛ 2 × 22 + 3 × 2 − 1 ⎞ ⎤
χ c2 = − ⎢1 − ⎜ + − ⎟ ⎜ ⎟⎥ ×
⎣ ⎝ 10 14 24 ⎠ ⎝ 6 × 3 ×1 ⎠⎦
= 11, 43
1% da distribuição de qui-quadrado são χ32 (0, 05) = 7,8147 e χ32 (0, 01) = 11,3448 .
Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com
5.7. Exercício
⎡11 2⎤
⎢10 4 ⎥⎥
X =⎢
⎢ 9 3⎥
⎢ ⎥
⎣10 6⎦
a) T2 de Hotelling
b) Procedimento de Bonferroni
5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste
de 90% de confiança.
no nível de 5% de probabilidade.
Antes Após
Peso Teor de proteína Peso Teor de proteína
(%) (%)
250 10 280 12
300 12 320 16
350 13 360 13
320 15 380 18
400 9 410 15
320 11 350 12
5. Inferências sobre o vetor média 218
conclusões de interesse.
A B
Produtividade Altura da planta Produtividade Altura da planta
5,7 2,10 4,4 1,80
8,9 1,90 7,5 1,75
6,2 1,98 5,4 1,78
5,8 1,92 4,6 1,89
6,8 2,00 5,9 1,90
6,2 2,01
||[ 6
Análise de variância multivariada
]||
6.1. Introdução
(Student, 1908).
Tratamento 2: X 21 , X 22 , ..., X 2n 2
# # # % #
Tratamento g: X g1 , X g 2 , ..., X gn g
Ferreira, D.F. Estatística multivariada 221
estrutura dos dados devem ser obedecidas para validade da inferência estatística:
Xi j = X + (X i − X ) + (X i j − X i )
Observação Estimativa da Estimativa do resíduo (6.2)
média geral efeito do tratamento
total corrigido
g ni
∑∑ ( X )( X )
t
ij −X ij −X =
i =1 j=1
(6.3)
g g ni
= ∑ n i ( Xi − X )( X i − X ) ( )( X )
t
+ ∑∑ X i j − X i
t
ij − Xi
i =1 i =1 j=1
g ni
( )( X )
t
E = ∑∑ X i j − X i ij − Xi = (n1 − 1)S1 + (n 2 − 1)S2 + ... + (n g − 1)Sg (6.4)
i =1 j=1
H 0 : τ1 = τ2 = " = τg = 0 (6.5)
Ferreira, D.F. Estatística multivariada 223
FV GL Matriz de SQP
Tratamento g-1 g
( )( X )
t
B = ∑ n i Xi − X i −X
i =1
Resíduo g g ni
υ = ∑ ni − g ( )( X )
t
E = ∑∑ X i j − X i ij − Xi
i =1 j=1
i =1
Total corrigido g g ni
∑n ( )( X )
t
i −1 B + E = ∑∑ X i j − X ij −X
i =1 j=1
i =1
efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,
( H − λ k E ) ek = 0
existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério
pelo menos três dos quatro critérios forem significativos em um nível nominal de
Tabela 6.2.
Ferreira, D.F. Estatística multivariada 225
distribuição F.
Traço de Pillai
λ ⎛ V ⎞⎛ 2n + s + 1⎞ v1=s(2m+s+1)
V = tr[H(H + E)−1] = ∑ k F=⎜ ⎟⎜ ⎟
⎝ s − V⎠⎝ 2m + s + 1⎠
1+λk
v2=s(2n+s+1)
Traço de
Hotelling U = tr(HE−1) = ∑λk F=
2(sn +1)U v1=s(2m+s+1)
Lawley s (2m + s +1)
2
v2=2(sn+1)
Raíz máxima
θ = λ1 θ(ν − d + q) v1=d
de Roy F=
d
v 2= ν − d + q
p: número de variáveis = posto(H+E); q: GL de tratamento (ou
do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;
f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e
⎧ p2q 2 − 4
⎪ Se p 2 + q 2 − 5 > 0
t = ⎨ p2 + q 2 − 5
⎪
⎩1 cc
Obs. Critério de Wilks possui aproximação exata de F se
min(p,q)≤2
6. Análise de variância multivariada 226
Exemplo 6.1
Cultivar
A B C D
P NGV P NGV P NGV P NGV
1082 4,66 1163 5,52 1544 5,18 1644 5,45
1070 4,50 1100 5,30 1500 5,10 1600 5,18
1180 4,30 1200 5,42 1550 5,20 1680 5,18
1050 4,70 1190 5,62 1600 5,30 1700 5,40
1080 4,60 1170 5,70 1540 5,12 1704 5,50
5462 22,76 5823 27,56 7734 25,90 8328 26,71
E a média geral:
⎡1367,35000 ⎤
X =⎢
⎣ 5,1465⎥⎦
Ferreira, D.F. Estatística multivariada 227
⎧⎡1092,400⎤ ⎡1367,3500⎤⎫
B = 5⎨⎢ −
4,552⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{ }
⎬ [1092,400 4,552] − [1367,3500 5,1465] +"+
⎩⎣
⎧⎡1665,600⎤ ⎡1367,3500⎤⎫
+ 5⎨⎢ −
5,342⎥⎦ ⎢⎣ 5,512⎥⎦⎭
{
⎬ [1665, 600 5,512] − [1367,3500 5,1465]}
⎩⎣
g
X i2 k X2
SQBkk = ∑ − g k (6.6)
ni
i =1
∑ ni
i =1
g
Xi k Xi A X X
SPBkA = ∑ − A
g
k
(6.7)
ni
i =1
∑n
i =1
i
k≠ A =1, 2, ..., p.
6. Análise de variância multivariada 228
2
g ni
SQTkk = ∑∑ X ijk −
2 Xg
k
(6.8)
i =1 j=1
∑n
i =1
i
g ni
SPTkA = ∑∑ X ijk X ijA − X X g
k A
(6.9)
i =1 j=1
∑n i =1
i
E=T-B (6.10)
⎡1189302,1500 768,3605⎤
B =⎢
⎣ 768,3605 2, 6318⎥⎦
⎡1218360,5500 778,2645⎤
T =⎢
⎣ 778,2645 2,9517⎥⎦
FV GL SQ&P
⎡1189302,1500 768, 3605⎤
Tratamento 3 B=⎢
⎣ 768, 3605 2, 6318 ⎥⎦
( B − λ k E ) ek = 0
do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar
vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.
τˆ ik = X i k − X k (6.11)
^ ⎛ 1 1 ⎞E
Var(X h k − X i k ) = ⎜ + ⎟ kk (6.12)
⎝ nh ni ⎠ υ
⎛ α ⎞ ⎛ 1 1 ⎞ E kk
X h k − Xi k ± t υ ⎜ ⎟ ⎜ + ⎟ (6.13)
⎝ pg(g − 1) ⎠ ⎝ n h n i ⎠ υ
6.4. Exercício
vs B e iii) C vs D.
||[ 7
Componentes principais
]||
7.1. Introdução
só pode ser efetuada por p componentes principais. No entanto, uma grande parte
investigações científicas.
interação entre dois fatores e aplica como base para seus procedimentos a análise
de componentes principais.
os quais são obtidos por rotações do sistema de eixos original, representados por
(7.1)
Yp = e pt X = e p1X1 + e p2 X 2 + ... + e pp X p
e t Σe
restritos ao comprimento unitário. Seja a forma quadrática dada por λ = , então
et e
( Σ − λ i I ) ei = 0 (7.5)
p p
∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1
verifica-se que:
tr(Σ) = tr ( PΛP t )
p p
tr(Σ) = ∑ σii = tr ( PΛP t ) = tr ( ΛP t P ) = tr ( Λ ) = ∑ λ i
i =1 i =1
λk
%VarExp(Yk ) = p
× 100 (7.8)
∑ λi
i =1
sobre a importância das variáveis para o i-ésimo componente principal, por meio
eik λ i
ρYi ,Xk = , i, k = 1, 2,..., p (7.9)
σkk
expressão individualmente.
Cov ( Yi , X k )
ρYi ,Xk =
Var ( Yi ) Var ( X k )
Ferreira, D.F. Estatística multivariada 239
Mas,
com, t
= [ 0 ...1... 0] , vetor composto de valores 0 e com 1 na k-ésima posição.
Logo,
e,
Var(X k ) = σkk
Exemplo 7.1
⎡4 1 0⎤
Σ = ⎢⎢1 4 0 ⎥⎥
⎢⎣ 0 0 2 ⎥⎦
∑ Var(Xi ) = ∑ Var(Yi )
i =1 i =1
Y2 = e 2t X = 0,7071X1 − 0,7071X 2
Y3 = e3t X = X 3
não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de
⎛ 2 2 ⎞ ⎛ 2 ⎞ ⎛ 2 ⎞ ⎛ 2 2 ⎞
Var(Y1 ) = Var ⎜⎜ X1 + X 2 ⎟⎟ = Var ⎜⎜ X1 ⎟⎟ + Var ⎜⎜ X 2 ⎟⎟ + 2Cov ⎜⎜ X1 , X 2 ⎟⎟ =
⎝ 2 2 ⎠ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎝ 2 2 ⎠
1 1 2 2 1 1
= Var ( X1 ) + Var ( X 2 ) + 2 Cov ( X1 , X 2 ) = 4 + 4 + 1 = 5 = λ1
2 2 2 2 2 2
σ11 + σ 22 + σ33 = λ1 + λ 2 + λ 3
4+4+2=5+3+2
10=10 c.q.m.
7. Componentes principais 242
originais são:
Componente X1 X2 X3
Y1 0,7906 0,7906 0,0000
Y2 0,6124 -0,6124 0,0000
Y3 0,0000 0,0000 1,0000
2
e11 λ1 × 5
ρY1 ,X1 = = 2 = 0,7906 .
σ11 4
X i − µi
Zi = (7.10)
σii
(
Z = V −1/ 2 X − µ ) (7.11)
( )
Yi = eit Z = eit V −1/ 2 X − µ , i=1, 2, ..., p (7.12)
p p
∑ Var(Yi ) = ∑ Var(Zi ) = p
i =1 i =1
p
(7.13)
∑ λi = p
i =1
substituindo Σ por ρ.
⎡σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
Σ=⎢
22
(7.15)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σ pp ⎥⎦
se que:
Σe i = λ i e i
= Σei = σii ei
⎡0 ⎤ ⎡0 ⎤
⎢ ⎥ ⎢ ⎥
⎡σ11 0 0 ⎤ ⎢ ⎥ ⎢ ⎥
⎢0 σ ⎢ 0 ⎥ ⎢0 ⎥
0 ⎥⎥ ⎢ ⎥ ⎢ ⎥
= ⎢
22
⎢ 1 ⎥ = σii ⎢1 ⎥
⎢ ⎥
⎢ ⎥ ⎢0 ⎥ ⎢0 ⎥
⎣⎢ 0 0 σ pp ⎦⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢0 ⎥
⎣ ⎦ ⎣ ⎦
componentes principais são dados pelas combinações lineares eit X =Xi, então, os
ser ganho, uma vez que os eixos originais já estão no sentido de maior
variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos
7. Componentes principais 246
originais. A estandardização não altera a situação, uma vez que ρ=I, e o par
autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável
padronizada.
componentes principais.
⎡ σ2 ρσ 2 ρσ 2 ⎤
⎢ 2 ⎥
ρσ σ2 ρσ 2 ⎥
Σ=⎢ (7.16)
⎢ ⎥
⎢ 2 ⎥
⎢⎣ρσ ρσ2 σ 2 ⎥⎦
⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
ρ=⎢ (7.17)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦
estudadas.
são dados por dois grupos. O primeiro grupo com o primeiro componente e o
λ1 = σ 2 [1 + (p − 1)ρ] (7.18)
⎡ 1 1 1 ⎤
e1t = ⎢ , ,..., ⎥ (7.19)
⎢⎣ p p p ⎥⎦
que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A
λ i = σ 2 (1 − ρ ) ; i = 2, 3, ,p (7.20)
⎧ t ⎡ 1 −1 ⎤
⎪e 2 = ⎢ , , 0,..., 0 ⎥
⎪ ⎣ 1 × 2 1× 2 ⎦
⎪ t ⎡ 1 1 −2 ⎤
⎪e 3 = ⎢ , , , 0,..., 0 ⎥
⎪ ⎣ 2×3 2×3 2×3 ⎦
⎪
⎪
⎨ (7.21)
⎡ 1 1 −(i − 1) ⎤
⎪eit = ⎢ ,..., , , 0,..., 0 ⎥
⎪ ⎢⎣ (i − 1) × i (i − 1) × i (i − 1) × i ⎥⎦
⎪
⎪
⎪
⎪e t = ⎡ 1
,...,
1
,
−(p − 1) ⎤
⎪ p ⎢⎢ (p − 1) × p
⎥
(p − 1) × p (p − 1) × p ⎥⎦
⎩ ⎣
(X − µ) Σ (X − µ) = c
t
−1 2
= χ p2 (α )
cujos eixos são dados por ± χ 2p (α ) λ i ei , i = 1, 2, ..., p , em que (λi, ei ) são os pares
1 t 2 1 t 2 1
( e1X ) + ( e 2 X ) + ... + ( e pt X )
2
χ 2p (α ) = X t Σ −1X =
λ1 λ2 λp
Ferreira, D.F. Estatística multivariada 249
1 2 1 2 1
χ 2p (α ) = X t Σ −1X = Y1 + Y2 + ... + Yp2
λ1 λ2 λp
( )
Yi = eit X − µ , i = 1, 2, ..., p (7.22)
o qual tem média zero e direção definida por ei . Na Figura 7.1 ilustram-se os
Y1
Y2
ˆ ˆ = Var(e
Q = Var(Y) ˆ t
X) = e t Se
comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma
e tSe
λ=
et e
⎛ eˆ t Seˆ ⎞
⎜ S − ˆ t ˆ Ι ⎟ eˆ = 0
⎝ ee ⎠
(S − λΙˆ ) eˆ = 0 (7.23)
7. Componentes principais 252
( λˆ ; eˆ )
i i de S, que correspondem a variância amostral e combinação linear que
ˆ = eˆ t X = eˆ X + eˆ X + ... + eˆ X , i = 1, 2, ..., p
Y (7.24)
i i i1 1 i2 2 ip p
ˆ
Var Yk k( )
ˆ = λˆ , k = 1, 2,..., p (7.25)
ˆ Y
Cov (
ˆ ,Y
i k )
ˆ = 0, i ≠ k = 1, 2,..., p (7.26)
S, dada por S = Pˆ Λ
ˆ Pˆ t e da propriedade que tr(AB)=Tr(BA) demonstra-se que:
Ferreira, D.F. Estatística multivariada 253
( ) ( ) ( )
p n
tr(S) = ∑ Sii = tr Pˆ Λ
ˆ Pˆ t = tr Λ ˆ = ∑ λˆ
ˆ Pˆ t Pˆ = tr Λ
i
i =1 i =1
ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.27)
k p
∑ λˆ i
i =1
êik λˆ i
rŶ ,X = , i, k = 1, 2,..., p (7.28)
i k
Skk
são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a
que transforma as escalas das variáveis para uma outra escala sem dimensão,
( )
em que D-1/2= Diag 1/ S11 ,1/ S22 ,...,1/ Spp . O estimador de a covariância de Z é
dado por:
ˆ
Cov(Z) = D −1/ 2 Cov(X)D
ˆ −1/ 2
= D −1/ 2SD −1/ 2 = R (7.31)
( )
de autovalores e autovetores de R λˆ i ; eˆ i . Assim, o i-ésimo componente principal
ˆ = eˆ t Z = eˆ Z + eˆ Z + ... + eˆ Z ,
Y i = 1, 2, ..., p (7.32)
i i i1 1 i2 2 ip p
por:
ˆ
ˆ ) = λ k × 100
%VarExp(Y (7.33)
k
p
Ferreira, D.F. Estatística multivariada 255
Neste contexto pelo menos uma variável é redundante e pode ser eliminada do
ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que
^ 10
λi
1 2 3 4 5 6
componente principal
Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para
realizado.
observação amostral.
ˆ t = ⎡Y
representados pelo vetor Y ˆ ˆ ˆ ⎤
j ⎣ j1 Yj2 ... Yjp ⎦ para a j-ésima observação amostral
⎡ ê1t ⎤
⎢ t⎥
ˆ = Pˆ X = ⎢ ê 2 ⎥ X
Y t
(7.36)
j j ⎢ ⎥ j
⎢ ⎥
⎢⎣ ê pt ⎥⎦
7. Componentes principais 258
componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico
utilizados.
( )
−1
ˆ ˆ t = Pˆ t Pˆ = Ι , portanto Pˆ t
pois PP = Pˆ , pode-se demonstrar que:
ˆ ˆ = ⎡eˆ eˆ
X j = PY ˆ
eˆ p ⎤⎦ Y
j ⎣ 1 2 j
(7.37)
ˆ eˆ + Y
Xj = Y ˆ eˆ + ˆ eˆ
+Y
j1 1 j2 2 jp p
ˆ eˆ + Y
avaliando quanto Y ˆ eˆ + ˆ eˆ difere de X , tendo como desvio o valor
+Y
j1 1 j2 2 jq q j
ˆ eˆ + Y
dado por Y ˆ eˆ + ˆ eˆ . Essa medida é feita tomando-se o
+Y
jq +1 q +1 jq + 2 q + 2 jp p
ˆ 2 +Y
por Y ˆ2 + ˆ 2 . As observações consideradas suspeitas são aquelas que
+Y
j q +1 j q+2 jp
ˆ ,Y
possuem pelo menos uma das coordenadas de Y ˆ , ˆ que contribui
,Y
j q +1 j q+2 jp
distintos e positivos, quais sejam, λ1 > λ 2 > > λ p > 0 com correspondentes
Σ, então,
1. ( )
n λˆ − λ tem distribuição aproximadamente N p ( 0, 2Λ 2 ) .
2. Seja
p ⎡ ⎤
λk
Ei = λi ∑ ⎢ e et
2 k k⎥
(7.38)
k =1 ⎢ ( λ − λ ) ⎥⎦
k ≠i ⎣ k i
então, n ( eˆ i − ei ) ∼ N p −1 ( 0, E i ) .
Ferreira, D.F. Estatística multivariada 261
associado êi .
λ i λ jeis e jr
Cov ( eˆ ir , eˆ js ) = (i ≠ j) (7.39)
n ( λi − λ j )
2
Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja
distinto dos demais p-1 valores característicos, os quais podem ter qualquer
populacionais.
⎡ ⎤
⎢ λˆ i − λ i ⎥
P⎢ ≤ Z ( α / 2 )⎥ = 1 − α (7.40)
⎢ 2 ⎥
⎢⎣ λ i n ⎥⎦
⎡ ⎤
⎢ ˆλ ˆλ ⎥
ICλi (1 − α) : ⎢ i
; i
⎥ (7.41)
⎢ 2 2⎥
⎢⎣1 + Z ( α / 2 ) n 1 − Z ( α / 2 ) n ⎥⎦
o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for
⎡ 2 ˆ 2⎤
ICλi (1 − α) : ⎢λˆ i − Z ( α / 2 ) λˆ i ; λ i + Z ( α / 2 ) λˆ i ⎥ (7.42)
⎣ n n⎦
λˆ i − λ 0
Zc = (7.43)
2
λ0
n
Ferreira, D.F. Estatística multivariada 263
interesse é:
H 0 : λ q +1 = λ q + 2 = = λq+r (7.44)
especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos
⎛ q+r ˆ ⎞
⎜ ∑ λj ⎟
( )
q+r
2 ˆ
χ c = −(n − 1) ∑ ln λ j + (n − 1)r ln ⎜ j=q +1 ⎟ (7.45)
j= q +1 ⎜ r ⎟
⎜ ⎟
⎝ ⎠
1 é apresentada a seguir.
7. Componentes principais 264
H 0 : ei = e0 (7.46)
pelos seus estimadores λ̂ i e êi . Assim, Anderson (1963) demonstra que o teste
⎛ 1 ⎞
χ c2 = n ⎜ λˆ i e0t S−1e0 + e0t Se0 − 2 ⎟ = n ( eˆ i − e0 ) Eˆ ig ( eˆ i − e0 )
t
(7.47)
ˆλ
⎝ i ⎠
⎡ λ1 ⎤
⎢ 0 0 ⎥
⎢ ( λ1 − λ i )
2
⎥
⎢ λ2 ⎥
⎢ 0 0 ⎥
( λ 2 − λi )
2
Λi = ⎢ ⎥ uma matriz (p-1)x(p-1) originária da
⎢ ⎥
⎢ ⎥
⎢ λp ⎥
⎢ 0 0 ⎥
( λ p − λi ) ⎥⎦
2
⎢
⎣
⎛ λj ⎞
eliminação da i-ésima linha e i-ésima coluna de uma matriz Diag ⎜ ⎟ , pxp.
⎜ ( λ − λ )2 ⎟
⎝ j i ⎠
px(p-1).
p ⎡ ⎤
λj
E i = λ i Pi Λ i Pit = λ i ∑ ⎢ e e t⎥
j=1 ⎢ ( λ − λ )
2 j j
⎥
j≠ i ⎣ i j ⎦
p ⎡ ( λ − λ )2 ⎤
1 1
∑ ⎢ t⎥
i j
E = Pi Λ i−1Pit =
g
i e je j
λi λi j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦
n ( ei − e0 ) E ig n ( ei − e0 ) ∼ χ 2p −1
t
7. Componentes principais 266
p ⎡ (λ − λ ) ⎤
2
n
n ( ei − e 0 ) E i ( ei − e0 ) = ne0 E i e0 = e0 ∑ ⎢ t⎥
t g t g t i j
e je j e 0 =
λ i j=1 ⎢ λj ⎥
j≠ i ⎣ ⎦
n t p ⎡ ( λ j − 2λ i λ j + λ i ) t ⎤
2 2 ⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
= e0 ∑ ⎢ e je j ⎥e0 = e0 ⎨∑ ⎣ λ je je j ⎦ − 2λ i ∑ ⎣ e je j ⎦ + λ i ∑ ⎢ e je j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2
p
Como ∑ ⎡⎣λ je jetj ⎤⎦ = Σ , além disso, somando e subtraindo λ i ei eit ao
j=1
p
termo da expressão ∑ ⎡⎣λ je je tj ⎤⎦ , tem-se que:
j=1
j≠ i
p
∑ ⎡⎣λ je je tj ⎤⎦ + λi ei eit − λ i ei eit = Σ − λ i ei eit
j=1
j≠ i
p ⎡ ⎤
1
Utilizando o mesmo raciocínio para Σ −1 = ∑ ⎢ e je tj ⎥ somando e
j=1 ⎢ λ j
⎣ ⎦⎥
p ⎡1 ⎤ 1
subtraindo ao termo ∑ ⎢λ e je tj ⎥ a quantidade dada por
λ
ei eit , tem-se:
j=1 ⎢ j ⎥⎦
j≠ i
⎣ i
p ⎡1 ⎤ 1 1 1
∑ ⎢λ e je tj ⎥ + ei eit − ei eit = Σ −1 − ei eit
j=1 ⎢ j
j≠ i
⎣ ⎥⎦ λ i λi λi
Ferreira, D.F. Estatística multivariada 267
p
Finalmente, o termo ∑ ⎡⎣e je tj ⎤⎦ é equivalente a seguinte expressão,
j=1
j≠ i
p
∑ ⎡⎣e je tj ⎤⎦ = I − ei eit
j=1
j≠ i
qui-quadrado tem-se:
⎧ p ⎡ ⎤⎫
n t⎪p p
1 t ⎪
e0 ⎨∑ λ j e j e j ⎦ − 2λ i ∑ ⎣e j e j ⎦ + λ i ∑ ⎢ e j e j ⎥ ⎬ e0 =
⎡ t
⎤ ⎡ t
⎤ 2
λ i ⎪ j=1 ⎣ j=1 ⎢ λ j ⎥⎦ ⎪
j≠ i ⎣
j=1
⎩ j≠i j≠ i ⎭
n t⎡ ⎡ 1 ⎤⎤
= e0 ⎢Σ − λ i ei eit − 2λ i ( I − ei eit ) + λ i2 ⎢Σ −1 − ei eit ⎥ ⎥ e0 =
λi ⎣ ⎣ λi ⎦⎦
⎡ e t Σe et e et e e t Ie et e et e e t Σ −1e0 et e et e ⎤
= n ⎢ 0 0 − 0 i i 0 λ i − 0 0 2λ i + 2λ i 0 i i 0 + λ i2 0 − λ i2 0 i i 0 ⎥ =
⎣ λi λi λi λi λi λi × λi ⎦
⎡ e t Σe ⎤
= n ⎢ 0 0 − e0t ei eit e0 − 2e0t e0 + 2e0t ei eit e0 + λ i e0t Σ −1e0 − e0t ei eit e0 ⎥ =
⎣ λi ⎦
⎡ e t Σe ⎤
= n ⎢ 0 0 + λ i e0t Σ −1e0 − 2 ⎥
⎣ λi ⎦
7. Componentes principais 268
todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados
principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz
⎡1 ρ ρ⎤
⎢ρ 1 ρ ⎥⎥
H 0 : ρ = ρ0 = ⎢ vs H 0 : ρ ≠ ρ0 (7.48)
⎢ ⎥
⎢ ⎥
⎣ρ ρ 1⎦
quantidades:
Ferreira, D.F. Estatística multivariada 269
1 p
rk = ∑ rik ; k = 1, 2, ..., p
p − 1 i =1
(7.49)
i≠k
2 p −1 p
r= ∑ ∑ rik
p(p − 1) i =1 k =i +1
(7.50)
(p − 1) 2 ⎡⎣1 − (1 − r ) 2 ⎤⎦
γˆ = (7.51)
p − (p − 2)(1 − r ) 2
n − 1 ⎡ p −1 p p 2⎤
χ c2 = 2 ⎢ ∑ ∑
(1 − r ) ⎣ i =1 k =i +1
( rik − r )
2
− γ
ˆ ∑ ( rk − r ) ⎥ (7.52)
k =1 ⎦
H0 : Σ = Σ0 = σ2 I (7.53)
7. Componentes principais 270
H 0 : Σ = Σ é dada por:
n
⎧ 1 n ⎫
L ( µ, Σ X ) = ∏ f ( X j ) = ( 2π )− np / 2 Σ − n / 2 exp ⎨ − ∑ ( X j − µ ) Σ −1 ( X j − µ ) ⎬
t
j =1 ⎩ 2 j =1 ⎭
⎡ n ⎤ np n 1 n
S( ) = ln ⎢∏ ( j )⎥ = − 2 ln ( 2π ) − 2 ln Σ − 2 ∑ ( X j − µ ) Σ −1 ( X j − µ )
t
µ , Σ X f X
⎣ j =1 ⎦ j =1
a) Derivada de S ( µ, Σ X ) em relação a µ
Ferreira, D.F. Estatística multivariada 271
∂S ( µ, Σ X ) n
= ∑ Σ −1 ( X j − µ )
∂µ j =1
∑ (X
j =1
j − µˆ ) = 0
n
nµˆ = ∑ X j
j =1
n
∑
j =1
Xj
µˆ = =X
n
b) Derivada de S ( µ, Σ X ) em relação a Σ
∂S ( µ, Σ X ) n 1
= − ( Σ −1 ) + nΣ −1S nΣ −1
t
∂Σ 2 2
∂S ( µ, Σ X )
=0
∂Σ
n −1 t 1 ˆ −1 ˆ −1
− ( Σˆ ) + nΣ SnΣ = 0
2 2
1 ˆ −1 ˆ −1 n −1
nΣ S nΣ = ( Σˆ )
2 2
Σˆ −1S n Σˆ −1 = Σˆ −1
obtém-se:
ˆ ˆ −1S Σˆ −1Σˆ = ΣΣ
ΣΣ ˆ ˆ −1Σˆ
n
1 n 1 n
Σˆ = S n = ∑ ( X j − X )( X j − X )t = ∑W j
n j =1 n j =1
seguinte forma:
⎧ 1 n ⎫
( ) exp ⎨− ∑ ( X j − X j ) S n−1 ( X j − X j ) ⎬
−n / 2 t
L µˆ , Σˆ = ( 2π )− np / 2 S n
⎩ 2 j =1 ⎭
⎪⎧ 1 ⎡ n −1 t ⎤⎪ ⎫
exp ⎨− tr ⎢ ∑ Sn ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎩⎪ 2 ⎣ j =1 ⎦ ⎭⎪
⎪⎧ 1 ⎡ −1 n t ⎤⎪⎫
exp ⎨− tr ⎢ S n ∑ ( X j − X j )( X j − X j ) ⎥ ⎬
−n / 2
= ( 2π )− np / 2 S n
⎪⎩ 2 ⎣ j =1 ⎦ ⎪⎭
Ferreira, D.F. Estatística multivariada 273
−n / 2 ⎧ 1 ⎫
= ( 2π )− np / 2 Sn exp ⎨− tr ⎡⎣ Sn−1nSn ⎤⎦ ⎬
⎩ 2 ⎭
−n / 2 ⎧ n ⎫
= ( 2π )− np / 2 S n exp ⎨− tr [ Ι ]⎬
⎩ 2 ⎭
−n / 2 ⎧ np ⎫
= ( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭
dadas por:
⎧ 1 n ⎫
L ( µ, Σ 0 X ) = ( 2π )− np / 2 Σ 0 exp ⎨− ∑ ( X j − µ ) Σ 0−1 ( X j − µ ) ⎬
−n / 2 t
⎩ 2 j =1 ⎭
⎧ 1 n ⎫
exp ⎨ − 2 ∑ ( X j − µ ) ( X j − µ ) ⎬
t
= ( 2π )− np / 2 ( σ 2 )
− np / 2
⎩ 2σ j =1 ⎭
np np 1 n
( ) ln ( 2π ) − ln ( σ2 ) − 2 ∑ ( X j − µ ) ( X j − µ )
t
S µ, σ 2 X = −
2 2 2σ j =1
(
c) Derivada de S µ, σ 2 X em relação a µ )
(
∂S µ, σ 2 X )= 1 n
∂µ
∑ ( X j − µ)
2σ2 j =1
∑ (X
j =1
j − µˆ ) = 0
n
nµˆ = ∑ X j
j =1
n
∑
j =1
Xj
µˆ = =X
n
( )
d) Derivada de S µ, σ 2 X em relação a Σ 0
(
∂S µ, σ 2 X ) = − np 1 n
∂σ 2
2σ 2
+
2(σ )
2 2
∑(X
j =1
j − µ)t ( X j − µ)
(
∂S µ, σ 2 X ) =0
∂σ 2
np 1 n
2 ∑
− + ( X j − X )t ( X j − X ) = 0
2σ 2 ( σˆ ) j =1
2
ˆ 2
1 n
np
2 ( σˆ ) 2 2
∑ tr ⎣⎡( X
j =1
j − X )t ( X j − X ) ⎦⎤ = −
2σˆ 2
1 ⎧ n ⎫ np
tr ⎨
( σˆ 2 ) ⎩ j =1
∑ ⎡⎣( X j − X )( X j − X )t ⎤⎦ ⎬ = 2
⎭ σˆ
2
1 np 2
σˆ 2 tr ( nS n ) = σˆ
( σˆ )
2 2 σˆ 2
1 np p
= =
σˆ 2
n tr ( S n ) tr ( S n )
tr ( Sn )
σˆ 2 =
p
− np / 2
⎡ tr ( S n ) ⎤ ⎪⎧ ⎪⎫
( ) p n
∑ ( X j − X j ) ( X j − X j )⎬
t
L µˆ , Σˆ 0 = ( 2π )− np / 2 ⎢ ⎥ exp ⎨ −
⎣ p ⎦ ⎪⎩ 2tr ( S n ) j =1 ⎭⎪
− np / 2
⎡ tr ( S n ) ⎤ ⎧⎪ p ⎫⎪
= ( 2π ) − np / 2
⎢ ⎥ exp ⎨− tr ( nS n ) ⎬
⎣ p ⎦ ⎩⎪ 2tr ( S n ) ⎭⎪
− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
= ( 2π ) ⎢ ⎥ exp ⎨− ⎬
⎣ p ⎦ ⎩ 2⎭
− np / 2
− np / 2 ⎡ tr ( S n ) ⎤ ⎧ np ⎫
( 2π ) exp ⎨− ⎬
Λ1 =
( )=
L µˆ , Σˆ 0 ⎢
⎣ p ⎦
⎥
⎩ 2⎭
=
Sn
n/2
L ( µˆ , Σˆ ) ⎧ np ⎫ ⎡ tr ( S n ) ⎤
np / 2
−n / 2
( 2π )− np / 2 Sn exp ⎨− ⎬
⎩ 2⎭ ⎢ ⎥
⎣ p ⎦
np / 2
⎛ p ⎞ ⎛ p ⎞
np / 2
⎜⎜ ∏ i ⎟⎟ ˆ
λ ˆ
⎜ ∏ λi ⎟
p p
n/2
S ⎝ i =1 ⎠
Λ1 = = = ⎜ p i =1 ⎟ (7.54)
[ tr(S) / p] ⎜ ˆ ⎟
np / 2 np / 2
⎛ ˆ p
⎞ ∑ λi / p ⎟
⎜ ∑ λ i / p ⎟ ⎜
⎝ i =1 ⎠ ⎝ i =1 ⎠
Ferreira, D.F. Estatística multivariada 277
anteriormente por:
⎡ n np ⎤
χ c2 = −2ln ( Λ1 ) = −2 ⎢ − ln S + {ln [tr ( S )] − ln ( p )}⎥ =
⎣ 2 2 ⎦
(7.55)
⎪⎧ n p np ⎡ ⎛ p ˆ ⎞ ⎤ ⎪⎫
= −2 ⎨− ∑ ln ( λˆ ï ) + ⎢ln ⎜ ∑ λ ï ⎟ − ln ( p ) ⎥ ⎬ ∼ χ ν
2
⎪⎩ 2 i =1 2 ⎣ ⎝ i =1 ⎠ ⎦ ⎪⎭
médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:
p ( p + 1) p ( p + 1) − 2 ( p + 2)( p − 1)
ν= p+ − p −1 = =
2 2 2
melhor performance, sendo que para grandes amostras a estatística dada por:
⎡ (2p 2 + p + 2) ⎤
χ c2 = −2 ⎢1 −
6pn ⎥ ln ( Λ1 ) (7.56)
⎣ ⎦
⎡ σ11 0 0 ⎤
⎢0 σ 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0 (7.57)
⎢ ⎥
⎢ ⎥
⎢⎣ 0 0 σpp ⎥⎦
n/2
S n/2
Λ2 = n/2
= R (7.58)
⎛ p ⎞
⎜ ∏ Sii ⎟
⎝ i =1 ⎠
⎡ (2p + 11) ⎤
χ c2 = −2 ⎢1 − ln ( Λ 2 ) (7.59)
⎣ 6n ⎥⎦
Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:
⎡ (2p + 11) ⎤ p −1 p 2
χ c2 ≅ ⎢ n −
⎣ 6 ⎥⎦ ∑ ∑ rik
i =1 k = i +1
(7.60)
Morrison (1976).
Rs=D_12*S*D_12;
print 'Matriz de correlacoes amostrais R';
print Rs;
Lr=diag(eigval(Rs));
print 'Matriz de autovalores de R';
print Lr;
Pr=eigvec(Rs);
print 'Matriz de autovetores de R';
print Pr;
/*intervalo de confianca para autovalores de S - equacao 7.41*/
za2=probit(1-alpha/2);
print 'Intervalos de confianca para os autovalores de S, sendo 1-
alpha=' alpha;
print 'Autovalor Li Ls';
do i=1 to p;
lin=ls[i,i]/(1+za2*(2/n)**0.5);
lsu=ls[i,i]/(1-za2*(2/n)**0.5);
print i lin lsu;
end;
/*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -
equacao 7.42 */
/* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com
sig2=4.2 e rho=0.97 */
l0=12.35;
Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5;
przc=2*(1-probnorm(abs(zc)));
print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas
um exemplo';
print 'Valor de Zc valor de prob>|zc|';
print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada';
print Zc przc;
/* teste 7.43 igualdade de r autovalores intermediarios*/
/* neste exemplo sera testado Ho: l2 = l3 */
/*q=1, r=2, p=3 -teste 7.44 */
aux1=0;aux2=0;q=1;r=2;
do i=q+1 to q+r;
aux1=aux1+log(ls[i,i]);
aux2=aux2+ls[i,i]/r;
end;
qui2c=-(n-1)*aux1+(n-1)*r*log(aux2);
print 'Valores dos somatorios auxiliares para teste H0: l2 = l3';
print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios';
print aux1 aux2;
v=r*(r+1)/2-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotese de que Ho: l2 = l3 ';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2c;
/* teste para a hipotese de igualdade de um autovetor a um vetor de
constantes*/
/* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou
seja, igual*/
/* estrutura de correlacao da matriz Sigma que originou a S */
e0=j(p,1,1/3**0.5);
E1=j(p,p,0);
do i=1 to p;
ek=Ps[,i];
if i^=1 then
do;
E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
Ferreira, D.F. Estatística multivariada 281
end;
end;
E1=ls[1,1]*E1;
Le=eigval(e1);
*print E1 le;
ei1=Ps[,1];
print e0 ei1;
qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2);
qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0);
v=p-1;
prqui2c=1-probchi(qui2c,v);
print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])';
print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr';
print qui2c qui2c2 v prqui2c;
/*teste da H0:phoij=pho - igual estrutura de correlacao */
rbar=(sum(Rs)-trace(Rs))/(p*(p-1));
rk=j(p,1,0);
do i=1 to p;
rk[i]=(sum(Rs[,i])-1)/(p-1);
end;
gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2);
aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar));
aux2=(sum(aux1)-trace(aux1))/2;
aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar));
aux4=sum(aux3);
qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4);
v=(p+1)*(p-2)/2;
if qui2c<=0 then qui2c=1e-14;
prqui2=1-probchi(qui2c,v);
print 'Teste da hipotes phij=pho: igual estrutura de correlacao';
print 'Qui-quadrado GL Pr>qui-Quadr';
print qui2c v prqui2;
print 'Valores utilizados no teste-para simples conferencia';
print 'media geral dos rij, vetor de medias de cada coluna de R e gama
chapeu';
print rbar rk gama;
/*teste de esfericidade-H0: Sigma=Sig^2*I*/
Lamb1=((det(S)**(1/p))/(trace(S)/p));
qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n));
v=(p+2)*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de esfericidade - H0: Sigma=Sig^2*I';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))';
print qui2c v prqui2 lamb1;
/*teste de independencia de variaveis mais geral - H0: Sigma =
Diag(sig11 sig22 ... sigpp)*/
Lamb2=det(Rs);
qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n));
v=p*(p-1)/2;
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ...
sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n';
print qui2c v prqui2 lamb2;
/*teste de independencia de variaveis - uso da aproximacao de Lawley-
pior*/
aux1=Rs#Rs;
aux2=(sum(aux1)-trace(aux1))/2;
qui2c=aux2*(n-(2*p+11)/6);
v=p*(p-1)/2;
7. Componentes principais 282
prqui2=1-probchi(qui2c,v);
print 'Teste de independencia aproximado de Lawley (1940)';
print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)';
print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2';
print 'Obs. para grandes valores de rij essa eh uma pessima
aproximacao';
print qui2c v prqui2 aux2;
quit;
7.6. Exercícios
covariância.
a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots
refaça o exercício.
7. Componentes principais 284
U.A. X1 X2 X3
1 12,80 29,56 45,19
2 14,12 26,54 49,29
3 19,09 33,26 49,79
4 15,98 31,00 51,73
5 16,00 28,94 50,30
6 16,51 31,67 48,06
7 14,05 30,11 55,15
8 14,34 26,47 46,84
9 16,87 29,00 52,16
10 21,93 38,00 39,24
11 15,21 30,68 54,02
12 15,54 27,37 51,52
13 17,71 30,20 51,66
14 14,42 29,99 52,50
15 13,38 31,61 52,33
16 13,91 29,59 44,19
17 15,53 29,30 53,71
18 16,40 28,96 46,56
19 18,35 30,15 52,18
20 13,59 27,70 52,33
21 19,08 31,26 48,59
22 13,95 29,94 54,73
23 16,11 34,52 52,69
24 17,10 29,39 52,03
25 18,81 31,48 49,79
26 15,27 29,54 43,11
27 14,80 31,88 48,08
28 17,39 28,88 50,69
29 18,02 34,02 49,58
30 9,52 25,23 45,89
||[ 8
Análise de agrupamento
]||
8.1. Introdução
os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos
grupos. A análise de agrupamento por sua vez não considera o número de grupos
responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A
é mais parecido com C do que com B. Intuitivamente para fazer tal inferência
20 B
18
16
Variável 2
14
12
A
C
10
Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas
ou razão).
X1t = ⎡⎣ X11 X12 " X1p ⎤⎦ e X 2t = ⎡⎣ X 21 X 22 " X 2p ⎤⎦ observações entre dois objetos
(indivíduos). Então, a distância euclidiana entre eles é dada por:
modulares.
1m
⎡ p m⎤
d ( X1 , X 2 ) = ⎢ ∑ X1i − X i2 ⎥ (8.3)
⎣ i =1 ⎦
8. Análise de agrupamento 290
altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:
cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de
uma característica devem ser representadas por uma variável binária, a qual
apresentados a seguir.
Bandas
Linhagens 1 2 3 4 5
A 1 0 0 1 1
B 1 1 0 1 0
com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1
ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij
⎧0 se X hj = X ij = 1 ou se X hj = X ij = 0
⎪
(X − X ij )
2
hj =⎨ (8.8)
⎪1 se X ≠ X
⎩ hj ij
d A2 , B = 2
8. Análise de agrupamento 292
A equação (8.4) pode ser usada muitas vezes como base para
situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)
Item i
1 0 Totais
1 a b a+b
Item h
0 c d c+d
Totais a+c b+d p = a + b +c + d
exemplo tratado a = 2, b = c = d = 1.
apresentados.
1
Sh,i = (8.9)
1 + d h ,i
distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo
⎛ 2⎞
2 ⎜ p − ⎟ − d h2, i
= ⎝
3⎠
Sh,i (8.10)
⎛ 2 ⎞
2 ⎜ p − ⎟ + d h2,i
⎝ 3⎠
2 p − d h2, i
Sh,i = (8.11)
2 p + d h2, i
8. Análise de agrupamento 294
similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa
definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz
propriedades de distância.
d h , i = 2 (1 − S h ,i ) (8.12)
Ferreira, D.F. Estatística multivariada 295
ad + bc
φ ad − bc Produto de momento de correlação -1 - +1 0,17
aplicado a variáveis binárias
(a + b)(a + c)( b + d )(c + d )
Ochiai II ad Proporção de coincidências em 0 -1 0,33
relação à média geom. total
(a + b)(a + c)(b + d )(c + d ) modificada
8. Análise de agrupamento 296
Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-
variáveis. Uma outra importante observação que pode ser feita é que para
8.3. Agrupamentos
sempre são aceitos universalmente. Uma outra razão para isso, é que raramente
tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.
todos os objetos.
único subgrupo inicial existe com todos os objetos e estes são subdivididos em
dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos
objetos.
cada estágio.
Figura 8.2.
.2 d24 .3 .2 .3
.1 .4 d15
.4
(a) . 5
.
1
.5
(b)
.2 .3
.1 .4
.5
(c)
(d13+d14+d15+d23+d24+d25)/6
Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)
1. Iniciar com n grupos, cada um com um único elemento e com uma matriz
único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os
apresentada a seguir.
A B C D
A ⎡0 ⎤
⎢
B ⎢3 0 ⎥
D= ⎥
C ⎢7 9 0 ⎥
⎢ ⎥
D ⎣ 8 6 5 0⎦
8. Análise de agrupamento 300
AB C D
AB ⎡ 0 ⎤
D = C ⎢7 0 ⎥⎥
⎢
D ⎢⎣ 6 5 0 ⎥⎦
DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣ 6 0 ⎥⎦
8. Análise de agrupamento 302
AB C D
AB ⎡0 ⎤
D = C ⎢9 0 ⎥⎥
⎢
D ⎢⎣ 8 5 0 ⎥⎦
tem-se,
DC AB
DC ⎡ 0 ⎤
D=
AB ⎢⎣9 0 ⎥⎦
d( AB ), C = (dAC + dBC ) / 2 = (7 + 9) / 2 = 8
d ( AB ),D = (d AD + dBD ) / 2 = (8 + 6) / 2 = 7
AB C D
AB ⎡ 0 ⎤
D = C ⎢ 8 0 ⎥⎥
⎢
D ⎢⎣7 5 0 ⎥⎦
DC AB
DC ⎡ 0 ⎤
D=
AB ⎣7,5 0 ⎥⎦
⎢
8. Análise de agrupamento 306
que ele apresentar mínima distância, obviamente se não for o grupo ao qual
o item.
Exemplo 8.1
Observação
Objeto x1 x2
A 2 0
B 5 2
C 1 4
D 8 4
Centróide
Objeto X1 X2
AD (2+8)/2=5 (0+4)/2=2
BC (1+5)/2=3 (2+4)/2=3
Ferreira, D.F. Estatística multivariada 307
ii) Neste passo a distância de cada item será computada em relação ao centróide
próximo.
2
d A ( AD )
= (2 − 5) 2 + (0 − 2) 2 = 13
2
d A (BC )
= (2 − 3) 2 + (0 − 3) 2 = 10
Centróide
Objeto X1 X2
D 8 4
ABC 2,667 2
2 2 2
d A ,D
= 52 d B ,D
= 13 d C ,D
= 49
2 2 2
d A ,( ABC )
= 4, 44 d B ,( ABC )
= 5, 44 d C ,( ABC )
= 6,77
distância para os respectivos grupos aos quais eles pertencem. Para realizar uma
8.4. Exercícios
A B C D
A⎡ 0 ⎤
⎢
B 9 0 ⎥
D= ⎢ ⎥
C ⎢ 25 36 0 ⎥
⎢ ⎥
D ⎣ 49 100 16 0 ⎦
||[ 9
Análise de fatores
]||
9.1. Introdução
para essa finalidade, esta não deve ser preferida por ser apenas uma
covariância. Esse método possui alguns inconvenientes, tais como não ser
para determinar quando uma proporção suficiente da variação total foi explicada
simples.
pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de
X−µ = L F + ε
(9.2)
(p×1) (p× m) (m×1) (p×1)
associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,
..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,
εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do
E(F) = 0 (9.3)
E(ε) = 0 (9.5)
⎡ ψ1 0 " 0⎤
⎢0 ψ " 0 ⎥⎥
Cov(ε) = E(εε ) = Ψ = ⎢
t 2
(9.6)
⎢# # % # ⎥
⎢ ⎥
⎣⎢ 0 0 " ψ p ⎦⎥
( X − µ )( X − µ ) ( )
t
= ( LF + ε )( LF + ε ) = ( LF + ε ) ( LF ) + ε t =
t t
= LF ( LF ) + ε ( LF ) + LFε + εε
t t t t
Então,
(
⎣ ⎦ )
Cov ( X, F ) = E ⎡ X − µ Ft ⎤ = E ⎡⎣( LF + ε ) Ft ⎤⎦ = E ( LFFt + εFt ) =
Logo,
m
Var(X i ) = σii = ∑ A 2ij + ψ i = A 2i1 + A 2i2 + ... + A 2im + ψ i
j=1
(9.10)
m
Cov(X i , X k ) = σik = ∑ A ijA kj = A i1A k1 + A i2A k 2 + ... + A im A km
j=1
Assim,
de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando
( A ij e ψ i ).
Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes
em que: L* = LT e F* = T t F .
9. Análise de fatores 316
interpretação dos fatores gerados, uma vez que as propriedades estatísticas não
são alteradas.
sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse
verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja
solução.
λ1 ≥ λ 2 ≥ ... ≥ λ p , então:
exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar
⎡ λ1 e1 ⎤
⎢ ⎥
⎢ λ 2 e2 ⎥
Σ ≅ ⎡⎣ λ1 e1 λ 2 e 2 ... λ m e m ⎤⎦ ⎢ ⎥ = LL
t
(9.16)
⎢ # ⎥
⎢ λ e ⎥
⎣⎢ m m ⎥⎦
Σ ≅ LLt + Ψ
(9.17)
m
Ψ = Diag(Σ − LLt ) ou ψ i = σii − ∑ A 2ij para i=1, 2, ..., p.
j =1
⎡ X1 − µ1 ⎤
⎡ Z1 ⎤ ⎢ ⎥
⎢Z ⎥ ⎢ σ11 ⎥
⎢# ⎥ ⎢(
Z = ⎢ ⎥ = V −1/ 2 X − µ = ⎢ #
2
) ⎥
⎥
(9.18)
⎢ ⎥ ⎢ X p − µp ⎥
⎣⎢ Zp ⎦⎥ ⎢ ⎥
⎣⎢ σ pp ⎦⎥
em que:
⎡ 1 ⎤
⎢ 0 " 0 ⎥
σ11
⎢ ⎥
⎢ 1 ⎥
⎢ 0 " 0 ⎥
V −1/ 2
=⎢ σ 22 ⎥
⎢ # # % # ⎥
⎢ ⎥
⎢ 1 ⎥
⎢ 0 0 "
⎢⎣ σ pp ⎥⎥⎦
9. Análise de fatores 320
m
λ i . Como σii = 1 , é fácil perceber que ψ i = 1 − ∑ A 2ij . A padronização evita que
j=1
cargas fatoriais.
apresentado.
( )
autovetores λˆ i , eˆ i , i = 1, 2, ..., p, em que λˆ 1 ≥ λˆ 2 ≥ ... ≥ λˆ p . Seja m < p, o número
em que P̂1 é uma matriz p x m dos autovetores amostrais de S e Λ̂1 é uma matriz
⎡ψ1 0 " 0 ⎤
⎢0 ψ 2 " 0 ⎥⎥
=⎢
Ψ
⎢# # % # ⎥
t
= Diag S − LL ( ) (9.20)
⎢ ⎥
⎢⎣ 0 0 " ψ p ⎥⎦
m
ψ i = Sii − ∑ A 2ij = Sii − h i2 (9.21)
j=1
t + Ψ
S ≅ LL (9.23)
componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para
∑ A
i =1
2
ij = A 1j2 + A 22 j + ... + A 2pj = λˆ j eˆ j λˆ j eˆ tj = λˆ j
(9.24)
Ferreira, D.F. Estatística multivariada 323
por:
⎧ λˆ j
⎪ ×100 para fatores de S
⎪ Tr(S)
⎪
%VarExp = ⎨ (9.25)
⎪ˆ
⎪ λ j × 100 para fatores de R
⎪⎩ p
principais.
⎡ σ11 0 " 0 ⎤
⎢0 σ " 0 ⎥⎥
H0 : Σ = ⎢
22
; σii >0
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " σpp ⎥⎦
quadrados dos dois últimos autovalores, dada por λˆ 22 + λˆ 32 = 0, 0291 , foi considerada
t − Ψ
S − LL =
⎡ 2, 2165⎤ ⎡ 0, 0681 0 0 ⎤
− ⎢⎢1, 7277 ⎥⎥ [ 2, 2165 1, 7277 2,1770] − ⎢⎢ 0 0, 0831 0 ⎥⎥
⎢⎣ 2,1770 ⎥⎦ ⎢⎣ 0 0 0, 0870 ⎥⎦
0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito
pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser
1 = h i2 + ψ i .
que estimativas iniciais ψ*i tenham sido obtidas por um meio qualquer, então, é
estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa
estimadores:
⎧ *
⎪L r = ⎡⎢ λˆ 1 eˆ1 λˆ *2 eˆ *2 λˆ *m eˆ *m ⎤
* *
⎪⎪ ⎣ ⎥⎦
⎨ (9.28)
⎪ m
⎪ψ*i = 1 − ∑ A*2 ij
⎪⎩ j=1
em que ( λˆ ; eˆ ) ,
*
i
*
í i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor
obtidos de Rr.
i = ∑ A ij
h *2 *2
(9.29)
j=1
repetido em novos estágios sucessivos, até que não haja alterações nas
9. Análise de fatores 328
estimativas das cargas fatoriais e das variâncias específicas para uma dada
precisão.
comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores
1
i = 1 − ψi = 1 −
h *2 *
(9.30)
r ii
(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que h *2
i seja
obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto
⎛ m ⎞ ii
i = Sii − ⎜ 1 −
h *2 ⎟S (9.31)
⎝ 2p ⎠
Ferreira, D.F. Estatística multivariada 329
−n / 2
L(µ, Σ) = (2π) − np / 2 Σ
⎧⎪ ⎛ 1 ⎞ ⎡ ⎛ n t ⎞⎤ ⎫
⎪
× exp ⎨− ⎜ ⎟ tr ⎢ Σ −1 ⎜ ∑ ( X j − X )( X j − X ) + n X − µ X − µ ⎟ ⎥ ⎬ = ( )( )
t
⎩⎪ ⎝ 2 ⎠ ⎣⎢ ⎝ j=1 ⎠ ⎦⎥ ⎭⎪
(9.32)
− (n −1) / 2 ⎧ ⎛1⎞ ⎫
= (2π) − (n −1)p / 2
Σ exp ⎨− ⎜ ⎟ tr ⎡⎣Σ −1Sn ⎤⎦ ⎬
⎩ ⎝2⎠ ⎭
⎧ ⎛n⎞
(
exp ⎨− ⎜ ⎟ tr ⎡ X − µ Σ −1 X − µ ) ( )⎤⎥⎦ ⎫⎬⎭
−1/ 2 t
× (2π) − p / 2 Σ
⎩ ⎝ 2 ⎠ ⎢⎣
computacional por:
( Ψˆ −1/ 2
)(
ˆ −1/ 2 Ψ
Sn Ψ )
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + ∆ˆ ) (9.34)
∆ˆ = Lˆ t Ψ
ˆ −1Lˆ (9.35)
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ = Ψ (
ˆ −1/ 2 Lˆ Ι + Lˆ t Ψ
ˆ −1Lˆ )
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 Ψ
ˆ −1/ 2 Lˆ − Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ
( Ψˆ −1/ 2
Sn Ψ )
ˆ −1/ 2 − Ι Ψ
ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ
Logo,
⎡Ψ
⎣ n(
ˆ −1/ 2 S − Ψ
⎦ )
ˆ −1/ 2 ⎤ Ψ
ˆ Ψ ˆ −1/ 2 Lˆ = Ψ
ˆ −1/ 2 LL
ˆ ˆtΨ
ˆ −1Lˆ (9.36)
Ferreira, D.F. Estatística multivariada 331
Como Lˆ t Ψ
ˆ −1Lˆ é uma matriz diagonal para garantir que os elementos
Ψ (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ )
ˆ −1/ 2 , são iguais aos valores correspondentes a diagonal de ∆ˆ .
ˆ −1/ 2 S − Ψ
ao i-ésimo autovalor de Ψ n
ˆ Ψ ( )
ˆ −1/ 2 . O cálculo desses vetores não é um
ˆ = Diag(S − LL
quais devem ser obtidos da relação Ψ ˆ ˆ t ) . Sendo assim, o processo de
utilizá-los para obter novas estimativas mais precisas das variâncias específicas
sucessivamente.
valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-
escalonados para que as somas de seus quadrados sejam iguais aos respectivos
⎡ λˆ 10 0 " 0 ⎤
⎢ ⎥
ˆ =⎢ 0 λˆ " 0 ⎥
Λ ⎢ #
20
% # ⎥⎥
0
⎢ #
⎢0 0 " λˆ m0 ⎥⎦
⎣
ˆ Λ
Pˆ0 = Q ˆ 1/ 2
0 0
0 n (
ˆ = Diag S − Pˆ Pˆ t
Ψ 0 0 ) (9.37)
3. Obter a matriz
Ψ 0 (
ˆ −1/ 2 S − Ψ
n
ˆ Ψ
0
ˆ −1/ 2
0 ) (9.38)
( λˆ
11 , λˆ 21 ,..., λˆ m1 ) ˆ = [ eˆ eˆ ... eˆ ] sem re-
dessa matriz. Formar a matriz Q1 11 21
m1
⎡λˆ 11 0 " 0 ⎤
⎢ ⎥
ˆ
ˆ = ⎢ 0 λ 21
Λ
" 0 ⎥
1 ⎢ # # % # ⎥⎥
⎢
⎢0 0 " λˆ m1 ⎥⎦
⎣
ˆ Λ
Pˆ1 = Q ˆ 1/ 2
1 1
Lˆ 1 = Ψ
ˆ 1/ 2 Pˆ
0 1 (9.39)
4. Calcular
1 n (
ˆ = Diag S − Lˆ Lˆ t
Ψ 1 1 ) (9.40)
sucessivas iterações de L̂i e L̂i +1 não difiram por um valor superior a uma
Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as
Lˆ Z = D −1/ 2 Lˆ (9.41)
ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 (9.42)
Z
dadas por:
Print' ____________________';
Delta=inv(root(psii))*(S-psii)*inv(root(psii));
*print delta;
Li=Diag(eigval(delta));Pi=eigvec(delta);
Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac];
Pi=root(psii)*Pi*root(Li);
*print Li Pi;
Psii=diag(S-Pi*Pi`);
/*soma de quadrados dos residuos do modelo*/
resi=S-pi*pi`-psii;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
*print psii;
Print'________________________________________________________________';
end;
Print 'Solucao final do modelo de fatores';
Print 'Cargas fatoriais';
print Pi;
print 'Variancias especificas';
print psii; resi=S-pi*pi`-psii;
print 'matriz de residuos';
print resi;
print 'Soma de quadrados dos residuos';
SQResiduo=sum(resi#resi);
print sqresiduo;
print 'Cargas fatoriais de Z-variaveis padronizadas';
D=root(inv(diag(S))); PiZ=D*Pi;
print PiZ;
print 'Variancias especificas fatoriais de Z-variaveis padronizadas';
PsiZ=D*psii*D;
print PsiZ;
Li=Diag(eigval(delta));
print Li;
quit;
9. Análise de fatores 336
⎧ p ˆ2
⎪ ∑ A ij
⎪ i =1 ×100 para fatores de S
⎪ Tr(S)
⎪
%VarExp = ⎨ (9.44)
⎪ p
⎪ ∑ Aˆ 2Z(i j)
⎪ i =1
⎪ p ×100 para fatores de R
⎩
ˆ (3 × 1) e Pˆ (3 × 1) por:
ˆ (1× 1), Q
compostas as matrizes Λ 0 0 0
⎡ 0, 6234937 ⎤ ⎡ 2, 2164432 ⎤
Λ ⎢ ⎥ ˆ
ˆ = 12,637147 Q̂ = 0, 4859812 Lˆ = Pˆ = Q Λˆ ⎢ ⎥
0 0 = ⎢ 1, 727603 ⎥
1/ 2
0 0 ⎢ ⎥ 0 0
⎢⎣ 0, 612436 ⎥⎦ ⎢⎣ 2,1771344 ⎥⎦
⎡0, 0683794 0 0 ⎤
0 n (
ˆ = Diag S − Pˆ Pˆ =
Ψ ⎢
⎢
t
0
0 0 ) 0, 0833879 0 ⎥
⎥
⎢⎣ 0 0 0, 0864857 ⎥⎦
ˆ (3 × 1) e Pˆ (3 × 1) .
ˆ (1×1), Q
foram usados para compor as matrizes Λ1 1 1
9. Análise de fatores 338
⎡0,6657947 ⎤ ⎡ 8,4600381⎤
⎢ ⎥ ˆ
ˆ = 161,45963 Q̂ = 0,4691915 Pˆ = Q Λ
Λ ˆ = ⎢5,9618652 ⎥
1/ 2
1 1 ⎢ ⎥ 1 1 1 ⎢ ⎥
⎢⎣ 0,5801523⎥⎦ ⎢⎣7,3718074 ⎥⎦
⎡ 2,2122546 ⎤
ˆ Pˆ = ⎢ 1,721606 ⎥
Lˆ 1 = Ψ 1/ 2
0 ⎢1 ⎥
⎢⎣ 2,167934 ⎥⎦
⎡0,0869296 0 0 ⎤
ˆ ( ˆ ˆ ⎢
Ψ1 = Diag Sn − L 0 L 0 = ⎢
t
) 0 0,1040727 0 ⎥
⎥
⎢⎣ 0 0 0,1264622 ⎥⎦
⎡ 2,2106526 ⎤
ˆ 1/ 2 Pˆ = ⎢1,7217993 ⎥ e
Lˆ 41 = Ψ 40 41 ⎢ ⎥
⎢⎣ 2,1595433⎥⎦
⎡0,0940152 0 0 ⎤
41 n (
ˆ = Diag S − Lˆ Lˆ
Ψ t
41 41 ) ⎢
=⎢ 0 0,1034073 0 ⎥
⎥
⎢⎣ 0 0 0,1627727 ⎥⎦
⎡ 0 2,9835E-8 3,7474E-8⎤
⎢
R = ⎢ 2,9835E-8 0 -7,05E-8 ⎥⎥
⎢⎣ 3,7474E-8 -7,05E-8 0 ⎥⎦
SQResíduos= 1,453E-14
⎡ 1 ⎤
⎢ 0 0 ⎥
⎢ 4,9810 ⎥ ⎡ 2,2106526 ⎤ ⎡ 0,9905177 ⎤
⎢ 1 ⎥⎢ ⎥ ⎢ ⎥
Lˆ Z = D −1/ 2 Lˆ = ⎢ 0 0 ⎥ ⎢1,7217993 ⎥ = ⎢ 0,983003 ⎥
⎢ 3, 0680 ⎥ ⎢ 2,1595433⎥ ⎢ 0,9829926 ⎥
⎢ 1 ⎥⎣ ⎦ ⎣ ⎦
⎢ 0 0 ⎥
⎢⎣ 4,8264 ⎥⎦
⎡0, 0188748 0 0 ⎤
ˆ = D −1/ 2 Ψ
Ψ ˆ D −1/ 2 ⎢
=⎢ 0 0, 0337051 0 ⎥
Z ⎥
⎢⎣ 0 0 0, 0337255⎥⎦
são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)
salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso
de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A
obtida pelo algoritmo apresentado nesse material por meio das estimativas de
tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos
fatoriais.
dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a
m m
2
p
⎛ m 2⎞ p m p m −1 m
∑ ⎜ ∑ A ij ⎟ = ∑∑ A ij + 2∑∑ ∑ A ijA ik
i =1 ⎝ j=1
4 2 2
(9.46)
⎠ i =1 j=1 i =1 j=1 k = j+1
também é invariante.
Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como
Carroll (1953).
cargas fatoriais é:
2
p
1 ⎛ p m 2⎞
m
V = ∑∑ A − ⎜ ∑∑ A ij ⎟
4
ij (9.47)
i =1 j=1 pm ⎝ i =1 j=1 ⎠
relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada
1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v = 2
*
p
∑ ⎢ p∑ A ij − ⎜ ∑ A ij ⎟ ⎥
j=1 ⎢ i =1
(9.48)
⎣ ⎝ i =1 ⎠ ⎦⎥
critério alternativo:
1 m ⎡ p 4 ⎛ p 2 ⎞2 ⎤
v= 2
p
∑ ⎢ p∑ x ij − ⎜ ∑ x ij ⎟ ⎥
j=1 ⎢ i =1
(9.49)
⎣ ⎝ i =1 ⎠ ⎥⎦
em que:
A ij
x ij = (9.50)
m
∑A
j=1
2
ij
Ferreira, D.F. Estatística multivariada 345
é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de
⎡ p 2 p
2 ⎛
p
⎞⎤
2 ⎢ 2p∑ ( x ir − x is ) x ir x is − ∑ ( x ir − x is ) ⎜ 2∑ x ir x is ⎟ ⎥
2 2
⎣ i =1 i =1 ⎝ i =1 ⎠⎦
tg(φ) = (9.51)
p ⎧⎪ ⎡ p
⎤
2
⎛ p
⎞
2
⎫⎪
p∑ ⎡( x ir − x is ) − ( 2x ir x is ) ⎤ − ⎨ ⎢ ∑ ( x ir − x is ) ⎥ − 2 ⎜ ∑ x ir x is ⎟ ⎬
2 2 2 2 2
⎣ ⎦ ⎣ i =1 ⎦ ⎝ i =1 ⎠ ⎭⎪
i =1
⎩⎪
destes sinais.
com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de
rotações tenham sido executadas. Essa seqüência de rotações é repetida até que
dentro de um ciclo.
Sinal do numerador
Sinal do denominador + (positivo) - (negativo)
+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00
- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900
Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison
(incompleto)
fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula
é:
Ferreira, D.F. Estatística multivariada 347
⎧H 0 : Σ = LLt + Ψ
⎪
⎨ (9.52)
⎪H : Σ uma matriz p × p p.d. sim.
⎩ 1
(1954):
(2p + 4m + 5) ⎤ ⎧⎪ LL + Ψ ⎫
ˆ ˆt ˆ
⎡ ⎪
χ = ⎢n − 1 −
2
c ⎥ ln ⎨ S ⎬ (9.53)
⎣ 6 ⎦ ⎪ ⎪⎭
⎩ n
1
ν= ⎡⎣(p − m) 2 − p − m ⎤⎦ (9.54)
2
graus de liberdade.
necessário que os graus de liberdade sejam positivos. Isso significa que o número
de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:
m<
1
2
(
2p + 1 − 8p + 1 ) (9.55)
9. Análise de fatores 348
ˆ ˆt + Ψ
generalizadas LL ˆ e S . Se m for pequeno em relação a p, geralmente H0 é
n
outro lado, quando m for grande em relação a p, a hipótese tende a ser não
ˆ ˆt + Ψ
de LL ˆ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não
razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na
escolha de m.
dos desvios padrões das p variáveis na diagonal principal. Então, a razão que
ˆ ˆt + Ψ
LL ˆ ˆ ˆt + Ψ
D −1/ 2 LL ˆ D −1/ 2
=
Sn D −1/ 2 Sn D −1/ 2
final.
ˆ ˆt + Ψ
LL ˆ ˆ ˆ t D −1/ 2 + D −1/ 2 Ψ
D −1/ 2 LL ˆ D −1/ 2 Lˆ Z Lˆ tZ + Ψ
ˆ
z
= =
Sn D −1/ 2Sn D −1/ 2 R
padronizados.
a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não
daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas
rotações.
9. Análise de fatores 350
X − µ = LF + ε
(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o
p
εi2
( ) ( )
t
∑ψ
i =1
= ε t Ψ −1ε = X − µ − LF Ψ −1 X − µ − LF
(9.56)
i
(
F̂ = ( Lt Ψ −1L ) Lt Ψ −1 X − µ )
−1
(9.57)
( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.58)
( )
−1
Fˆ j = Lˆ tZ Ψ
ˆ −1Lˆ
Z Z Lˆ tZ Ψ
ˆ −1Z j = 1, 2, ..., n
Z j (9.59)
Fˆ j* = T ' Fˆ j (9.60)
X − µ = LF + ε
⎡ LLt + Ψ L⎤
Σ =⎢
*
⎥ (9.61)
⎣ L
t
Ι⎦
( )
E ( F / x ) = Lt Σ −1 x − µ = Lt ( LLt + Ψ ) ( x − µ )
−1
(9.62)
C ov ( F / x ) = Ι − Lt Σ −1L = Ι − Lt ( LLt + Ψ ) L
−1
(9.63)
Os coeficientes Lt ( LLt + Ψ )
−1
são os coeficientes de uma regressão
dados por:
( ) ( X − X )
−1
Fˆ j = Lˆ t LL
ˆ ˆt + Ψ
ˆ
j j = 1, 2, ..., n (9.64)
Ferreira, D.F. Estatística multivariada 353
( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ t −1
Lˆ t Ψ
ˆ −1 (9.65)
pode simplificar o cálculo dos escores dos fatores, os quais são dados por:
( ) ˆ −1 ( X − X ) j = 1, 2, ..., n
−1
Fˆ j = Ι + Lˆ t Ψ
ˆ −1Lˆ Lˆ t Ψ j (9.66)
( ) = ( Ι + Lˆ Ψˆ Lˆ )
−1 −1
Lˆ t LL
ˆ ˆt + Ψ
ˆ −1 t −1
Lˆ t Ψ
ˆ −1
Tem-se:
( ) ( Ι + Lˆ Ψˆ Lˆ ) Fˆ ( )
−1
= ⎡⎢ Lˆ t Ψ + Ι ⎤⎥ Fˆ j
−1
Fˆ jWLS = Lˆ t Ψ
ˆ −1Lˆ t −1 LS ˆ −1Lˆ LS
j
⎣ ⎦
( Lˆ Ψˆ Lˆ )
−1
t −1
é uma matriz diagonal e quando o seu valor for próximo de zero os
9. Análise de fatores 354
9.7. Exercícios
modelo.
fatores obtidos.
||[ 10
Análise de correlação canônica
]||
10.1. Introdução
variáveis em um dos grupos com uma outra combinação linear das variáveis do
próximo estágio, é determinado o par de maior correlação que seja, ainda, não
(1935 e 1936).
10. Análise de correlação canônica 356
aplicações nas ciências humanas, na genética entre outras áreas são encontradas
na literatura.
⎡ X1(1) ⎤
⎢ (1) ⎥
⎢ X2 ⎥
⎢ # ⎥
⎢ ⎥
⎡ X (1) ⎤ ⎢ X (1)p ⎥
X = ⎢ (2) ⎥ = ⎢ (2) ⎥ (10.1)
⎣ X ⎦ X1
⎢ (2) ⎥
⎢X2 ⎥
⎢ # ⎥
⎢ ⎥
⎢⎣ X (2)
q ⎥ ⎦
Ferreira, D.F. Estatística multivariada 357
Cuja média é:
⎡ µ (1) ⎤
µ = E(X) = ⎢ (2) ⎥ (10.2)
⎢⎣µ ⎥⎦
p q
p ⎡Σ Σ12 ⎤ (10.3)
( )( )
t
Σ = E X − µ X − µ = ⎢ 11
q ⎣ Σ 21 Σ 22 ⎥⎦
grupos, uma de X (1) e outra de X (2) , estão contidas em Σ12. Dessa forma, os pq
elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores
uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é
10. Análise de correlação canônica 358
⎧ U = a t X (1)
⎪
⎨ (10.5)
⎪V = b t X (2)
⎩
sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.
Assim,
a t Σ12 b
Corr(U, V) = ρ U, V = (10.7)
a t Σ11a b t Σ 22 b
Ferreira, D.F. Estatística multivariada 359
restrições:
a t Σ11a = b t Σ 22 b = 1 (10.8)
correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)
⎧ ∂ρU,V −1/ 2 ⎡ ⎛ −1 ⎞ ⎤
= ( b t Σ 22 b ) ⎢( a t Σ11a ) Σ12 b + 2 ⎜ ⎟ ( a t Σ12 b )( a t Σ11a ) Σ11a ⎥
−1/ 2 −3 / 2
⎪
⎪ ∂a ⎣ ⎝ 2⎠ ⎦
⎪
⎨ (10.9)
⎪
⎪ ∂ρU,V = ( a t Σ a )−1/ 2 ⎡( b t Σ b )−1/ 2 Σ t a + 2 ⎛ −1 ⎞ ( a t Σ b )( b t Σ b )−3 / 2 Σ b ⎤
⎪ ∂b 11 ⎢ 22 12 ⎜ ⎟ 12 22 22 ⎥
⎩ ⎣ ⎝ 2⎠ ⎦
−ρ U, V Σ11 Σ12
=0 (10.12)
Σ12 −ρ U, V Σ 22
t
⎡A A12 ⎤
A = ⎢ 11 (10.13)
⎣ A 21 A 22 ⎥⎦
Ferreira, D.F. Estatística multivariada 361
⎧ A = A11 A 22 − A 21A11 −1
A12
⎪⎪
⎨ ou (10.14)
⎪ −1
⎪⎩ A = A 22 A11 − A12 A 22 A 21
1 −1
−ρ U, V Σ11 −ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρ U, V
1 −1
−ρ U, V Σ 22 + Σ12
t
Σ11 Σ12 = 0
ρU, V
⎧ Σ12 Σ −221Σ12
t
− ρ2U,V Σ11 = 0
⎪⎪
⎨ (10.15)
⎪ t −1
⎪⎩ Σ12 Σ11 Σ12 − ρ U,V Σ 22 = 0
2
(capítulo 2) do tipo:
e t Ae
λ = t
e Be
restrito a e t Be =1.
Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da
seguinte forma:
⎧( Σ12 Σ −221Σ12
t
− λΣ11 ) a = 0 (a)
⎪⎪
⎨ (10.16)
⎪ t −1
⎪⎩( Σ12 Σ11 Σ12 − λΣ 22 ) b = 0 (b)
transformação linear não singular. Isso é ilustrado doravante com a equação (a)
−1/ 2 −1/ 2
linear c = Σ1/112 a , então, a = Σ11 c . Se a equação (a) for pré-multiplicada por Σ11 e
−1/ 2
a for substituído por a = Σ11 c , então:
Ferreira, D.F. Estatística multivariada 363
−1/ 2
Σ11 ( Σ12Σ−221Σ12t − λΣ11 ) Σ11−1/ 2c = 0
(Σ −1/ 2
11 Σ12Σ −221Σ12
t −1/ 2
Σ11 −1/ 2
− λΣ11 −1/ 2
Σ11Σ11 ) c = 0
equações homogêneas:
(Σ −1/ 2
11 Σ12 Σ −221Σ12
t −1/ 2
Σ11 − λ i Ι ) ci = 0
(10.17)
−1/ 2
a i = Σ11 ci (10.18)
(Σ −1/ 2
22 Σ12
t −1
Σ11 Σ12Σ −221/ 2 − λ i Ι ) d i = 0
(10.19)
−1/ 2
bi = Σ 22 di (10.20)
a t Σ12 b
Max ( ρ U, V ) = t = a t Σ12 b
a, b a Σ11a b Σ 22 b
t
λ = ( a t Σ12 b ) , logo:
2
Max ( ρ U, V ) = λ i (10.21)
a, b
−1/ 2
Sabendo que ci é um autovetor de Σ11 Σ12Σ −221Σ12
t −1/ 2
Σ11 com norma 1, e
procedendo da mesma forma para Var(Vi) verifica-se que:
Logo,
⎧Cov ( U k , U A ) = Corr ( U k , U A ) = 0 ( k ≠ A )
⎪
⎨ (10.23)
⎪Cov V , V = Corr V , V = 0 k ≠ A
⎩ ( k A) ( k A) ( )
Logo,
10. Análise de correlação canônica 366
⎧ U k = a kt Z(1) = c kt ρ11
−1/ 2 (1)
Z
⎪
⎨ (10.25)
⎪V = b t Z(2) = d t ρ−1/ 2 Z(2)
⎩ k k k 22
−1/ 2
em que c k e d k são os autovetores de norma 1 das matrizes ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 e
ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 , respectivamente. Os autovetores originais devem ser
recuperados por:
⎧a k = ρ11
−1/ 2
ck
⎪
⎨ (10.26)
⎪b = ρ−1/ 2 d
⎩k 22 k
dadas por:
p q
p ⎡ρ ρ12 ⎤ (10.27)
ρ = E ( ZZt ) = ⎢ 11
q ⎣ρ21 ρ22 ⎥⎦
Ferreira, D.F. Estatística multivariada 367
de forma que:
a kt ρ12 b k
Corr(U k , Vk ) = = λk (10.29)
a kt ρ11a k b kt ρ22 b k
−1/ 2
em que λ k é k-ésimo autovalor de ρ11 ρ12ρ−221ρ12
t −1/ 2
ρ11 , ou equivalentemente de
ρ−221/ 2ρ12
t −1
ρ11 ρ12ρ−221/ 2 .
canônicas de acordo com a magnitude das correlações das variáveis originais com
10. Análise de correlação canônica 368
canônicos:
⎡ a1t ⎤ ⎡ b1t ⎤
⎢ t ⎥ ⎢ t ⎥
a2 ⎥ b
A = e B = ⎢2⎥
⎢ (10.30)
⎢ #⎥ ⎢ #⎥
⎢ t⎥ ⎢ t⎥
⎢⎣ap ⎥⎦ ⎢⎣bq ⎥⎦
simultaneamente por:
⎡U1 ⎤ ⎡ V1 ⎤
⎢U ⎥ ⎢V ⎥
U= ⎢ 2⎥
= AX (1)
e V = ⎢ ⎥ = BX(2)
2
(10.31)
⎢# ⎥ ⎢# ⎥
⎢ ⎥ ⎢ ⎥
⎣⎢Up ⎦⎥ ⎣⎢ Vq ⎦⎥
Logo,
Cov (U, X(1) ) = Cov ( AX(1) , X(1) ) = ACov ( X(1) ) = AΣ11 (10.32)
⎡ 1 ⎤
⎢ 0 " 0 ⎥
⎢ σ11
(1)
⎥ (1)
⎢ 1 ⎥ ⎡ X1 ⎤
⎢ 0 " 0 ⎥ ⎢ X(1) ⎥
⎥⎢
2 ⎥
V −1/ 2
X (1)
=⎢ σ(1) (10.33)
⎥⎢ # ⎥
11 22
⎢
⎢ # # % # ⎥ ⎢ (1) ⎥
⎢ Xp ⎥⎦
⎢ 1 ⎥⎣
⎢ 0 0 " ⎥
⎢⎣ σpp
(1)
⎥⎦
Assim,
ρU, X(1) = Corr (U, X(1) ) = Cov ( AX(1) , V11−1/ 2 X(1) ) = AΣ11V11−1/ 2 (10.34)
⎧ρ ( 2 ) = AΣ12 V22−1/ 2 (p × q)
⎪ U , X
⎪
⎪ −1/ 2
⎨ρ V , X( 2) = BΣ 22 V22 (q × q) (10.35)
⎪
⎪
⎪ρ = BΣ12
t
V11−1/ 2 (q × p)
⎩⎪ V , X (1)
em que V22−1/ 2 é uma matriz diagonal (q x q) com o i-ésimo elemento dado por
1/ σii(2) .
10. Análise de correlação canônica 370
dadas por:
no entanto, os mesmos valores numéricos, como por exemplo ρU, Z(1) = ρU, X(1) , e
⎡ X1(1) ⎤
⎢ ⎥
⎢ # ⎥
⎡ X(1) ⎤ ⎢ Xp(1) ⎥
⎢ ⎥ ⎢ ⎥
X=⎢ ⎥=⎢ ⎥ (10.37)
⎢ ⎥
⎢X ⎥
(2) (2)
⎣ ⎦ ⎢ X1 ⎥
⎢ # ⎥
⎢ (2) ⎥
⎢⎣ Xq ⎥⎦
Em que:
1 n 1 n
X(1) = ∑ X(1) j e X(2) = ∑ X(2) j (10.38)
n j=1 n j=1
p q
p ⎡S S12 ⎤ (10.39)
S = ⎢ 11
q ⎣S21 S 22 ⎥⎦
10. Análise de correlação canônica 372
1 n
( )( X )
t
em que SkA = ∑ X(j k ) − X(k )
n − 1 j =1
(A)
j − X( A ) , k, A = 1, 2 .
combinações lineares:
⎧Uˆ = aˆ t X (1)
k k
⎪
⎨ (10.40)
⎪ ˆ t (2)
⎩V̂k = b k X
â kt S12 bˆ k
rUˆ ˆ = (10.41)
k , Vk
aˆ kt S11aˆ k bˆ kt S22 bˆ k
mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por
⎪
(
⎧ S12S22 S12 − λˆ k S11
−1 t
) aˆ k = 0 (a)
⎪
⎨ (10.42)
⎪ t −1
( ˆ
⎪⎩ S12S11 S12 − λ k S22 ) bˆ k = 0 (b)
Ferreira, D.F. Estatística multivariada 373
bˆ k obtidos por:
⎧aˆ k = S11
−1/ 2
cˆ k (a)
⎪
⎨ (10.43)
⎪ˆ −1/ 2 ˆ
⎩b k = S22 d k (b)
−1/ 2
sendo que ĉ k é k-ésimo autovetor de S11 S12S−221S12
t −1/ 2
S11 e d̂ k o k-ésimo autovetor de
S−221/ 2S12
t −1
S11 S12S−221/ 2 ; λ̂ k é o k-ésimo autovalor de ambas as matrizes, por serem
ˆ U
Var ˆ = Var
k
ˆ V ( )
ˆ =1
k ( ) (10.44)
2. Correlações amostrais:
rUˆ ˆ = λˆ k (10.46)
k ; Vk
10. Análise de correlação canônica 374
canônicos amostrais:
⎡ aˆ 1t ⎤ ⎡ bˆ 1t ⎤
⎢ ˆt ⎥ ⎢ ⎥
⎢ a ⎥ ⎢bˆ t ⎥
Aˆ = e Bˆ = ⎢ 2 ⎥
2
(10.47)
⎢ #⎥
⎢ t⎥ ⎢ #⎥
ˆ
⎣⎢a p ⎦⎥ ⎢bˆ t ⎥
⎣q⎦
⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥ ˆ (2)
ˆ= ˆ e Vˆ = ⎢ 2 ⎥ = BX
⎢ ⎥ = AX
2 (1)
U (10.48)
⎢# ⎥ ⎢# ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦
originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as
−1/ 2
matrizes diagonais D11 ( ) ( )
= Diag 1/ Sii(1) , (pxp) e D −221/ 2 = Diag 1/ Sii(2) , (qxq).
ˆ D −1/ 2
R U,ˆ X(1) = AS (10.49)
11 11
Ferreira, D.F. Estatística multivariada 375
ˆ D −1/ 2
R U,ˆ X( 2) = AS (10.50)
12 22
ˆ t D −1/ 2
R V,ˆ X(1) = BS (10.51)
12 11
ˆ D −1/ 2
R V,ˆ X( 2 ) = BS (10.52)
22 22
correspondentes são:
⎡Uˆ ⎤ ⎡ Vˆ 1 ⎤
1
⎢ ⎥ ⎢ ⎥
⎢ ˆ ⎥ ˆ
U
U
ˆ = 2 = Aˆ Z (1)
e ˆ = ⎢ V2 ⎥ = Bˆ Z (2)
V (10.53)
⎢ ⎥ Z
⎢⎢ # ⎥⎥
Z
⎢# ⎥
⎢Uˆ ⎥ ⎢ Vˆ ⎥
⎣ p⎦ ⎣ q⎦
em que:
Aˆ Z = AD
ˆ 1/ 2 e
11 Bˆ Z = BD
ˆ 1/ 2
22 (10.54)
10. Análise de correlação canônica 376
substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,
⎧R ˆ (1) = A ˆ R =A ˆ −1 ˆ t
Z 11 Z ˆ (1) = B Z R 12
R V,Z
⎪⎪ U,Z
⎨ (10.55)
⎪ ˆ ˆ ˆ −1
ˆ ( 2) = A Z R 12
⎪⎩R U,Z ˆ ( 2) = B Z R 22 = B Z
R V,Z
Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro
ˆ = AX
definições U ˆ (1) e Vˆ = BX
ˆ (2) . Logo, é possível definir:
X(1) = Aˆ −1U
ˆ e X(2) = Bˆ −1Vˆ (10.56)
⎡ ĉ1t ⎤ ⎡ d̂1t ⎤
⎢ t ⎥ ⎢ t ⎥
ˆ
ˆ = Pˆ (1)t S−1/ 2
A
ĉ
= ⎢ 2 ⎥ S11 −1/ 2 ˆ = Pˆ (2)t S−1/ 2 = ⎢ d 2 ⎥ S−1/ 2
e B (10.57)
11
⎢#⎥ 22 ⎢ ⎥ 22
⎢ t⎥ ⎢#⎥
⎣⎢ cˆ p ⎦⎥ ⎢ dˆ t ⎥
⎣p⎦
Então:
ˆ −1 = S1/ 2 Pˆ (1)
A e ˆ −1 = S1/ 2 Pˆ (2)
B (10.58)
11 22
devido a P̂ (1) e P̂ (2) serem matrizes ortogonais de autovetores, é fácil perceber que
( Pˆ ) ( )
−1 −1
(1)t
= Pˆ (1) e Pˆ (2)t = Pˆ (2) .
uma matriz diagonal Λ̂ (pxq) com λ̂ k na k-ésima diagonal para k=1, 2,...p, e
⎧Cov
⎪
ˆ ( U,ˆ Vˆ ) = AS
ˆ
12
ˆ t = Pˆ (1)tS−1/ 2S S−1/ 2 Pˆ (2) = Λ
B 11 12 22
ˆ
⎪
⎪⎪
ˆ
⎨Cov ( Uˆ ) = AS
ˆ Aˆ
11
t
=Ι (10.59)
⎪
⎪
⎪ ˆ
⎪⎩Cov ( Vˆ ) = BS
ˆ
22
ˆt =Ι
B
Assim,
ˆ B
AS ˆt =Λ
ˆ
12
S12 B ˆ −1Λ
ˆt =A ˆ
( )
t
ˆ −1Λ
S12 = A ˆ B
ˆ −1
Da mesma forma:
( ) ( )
t t
ˆ −1 A
S11 = A ˆ −1 e ˆ −1 B
S22 = B ˆ −1
Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos
−1/ 2
autovetores de S11 S12S−221S12
t −1/ 2
S11 e de S−221/ 2S12
t −1
S11 S12S−221/ 2 definidas por:
Ferreira, D.F. Estatística multivariada 379
⎡ ĉ1t ⎤
⎢ t ⎥
ĉ
ˆ = Pˆ (1)t S−1/ 2
A = ⎢ 2 ⎥ S11−1/ 2
(10.60)
r r 11
⎢#⎥
⎢ t⎥
⎢⎣ ĉ r ⎥⎦
⎡ d̂1t ⎤
⎢ t ⎥
ˆ = Pˆ (2)t S−1/ 2 ⎢d̂ ⎥
B r r 22 = ⎢ 2 ⎥ S−221/ 2 (10.61)
⎢#⎥
⎢ d̂ t ⎥
⎣ r⎦
⎡ λˆ 1 0 " 0 ⎤
⎢ ⎥
⎢ 0 λˆ 2 " 0 ⎥
ˆ =⎢
Λ ⎥ (10.62)
r
⎢ # # % # ⎥
⎢ ⎥
⎢⎣ 0 0 " λˆ r ⎥⎦
ˆ −1 = S1/ 2 Pˆ (1) e B
A ˆ −1 = S1/ 2 Pˆ (2) (10.63)
r 11 r r 22 r
⎧E = S −
( Aˆ )( Aˆ )
t
−1 −1
(a)
⎪ 11 11 r r
⎪
⎪
⎪
( Bˆ )( Bˆ )
t
−1 −1
⎨E 22 = S22 − r r (b) (10.64)
⎪
⎪
⎪
( Aˆ ) Λˆ ( Bˆ )
t
−1 −1
⎪E12 = S12 − r r r (c)
⎩
por diante para as demais matrizes, a explicação das r variáveis canônicas para o
evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é
⎡ X (1) ⎤
j
X j = ⎢ (2) ⎥
⎢⎣ X j ⎥⎦
cuja covariância pode ser particionada em:
p q
p ⎡Σ Σ12 ⎤
Σ = ⎢ 11
q ⎣Σ 21 Σ 22 ⎥⎦
por:
⎛ S11 S22 ⎞ ⎡ p ⎤
χ c2 = −2 ln(Λ ) = n ln ⎜
⎜ S ⎟ (
⎣ i =1
)
⎟ = − n ln ⎢∏ 1 − λˆ i ⎥
⎦
(10.70)
⎝ ⎠
S11 0
= S11 S22
0 S22
em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação
⎤ ⎛ S11 S22 ⎞ ⎤ ⎡ ⎤
( )
p
⎡ 1 ⎡ 1
χ c2 = ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎜ ⎟ = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢∏ 1 − λˆ i ⎥ (10.71)
⎣ 2 ⎦ ⎝⎜ S ⎟
⎠ ⎣ 2 ⎦ ⎣ i =1 ⎦
demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e
as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse
⎧H (k
0 : ρ1 ≠ 0, ρ 2 ≠ 0," , ρ k ≠ 0, ρ k +1 = ρ k + 2 = " = ρ p = 0
)
⎪
⎨ (10.72)
⎪H (k ) : ρ ≠ 0 para algum i ≥ k + 1
⎩ 1 i
⎤ ⎡ ⎤
( )
p
⎡ 1
χ c2 = − ⎢ n − 1 − ( p + q + 1) ⎥ ln ⎢ ∏ 1 − λˆ i ⎥ (10.73)
⎣ 2 ⎦ ⎣ i = k +1 ⎦
para os dados normais e deve ser interpretado com cautela, e possivelmente deva
melhor ser usado como um guia não muito refinado de seleção do número r de
maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.
S
Vc = (10.75)
S11 × S22 × " × Skk
cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de
n −1
χ c2 = − ln ( Vc ) (10.76)
C
em que:
10. Análise de correlação canônica 386
⎧ −1 1
⎪C = 1 − 12ν (n − 1) ( 2Γ3 + 3Γ 2 )
⎪⎪
⎨ (10.77)
⎪ 1
⎪ν = Γ 2
⎪⎩ 2
S
⎛ k ⎞ k
ΓS = ⎜ ∑ pi ⎟ − ∑ pSi ; S = 2, 3 (10.78)
⎝ i =1 ⎠ i =1
H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.
10.5. Exercícios
10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de
Σ22, respectivamente.
máximas.
H 0 : ρ1 ≠ 0; ρ2 = 0 Vs H 0 : ρ2 ≠ 0
c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas
(r=1).
p.296-298, 1954.
Hill, 1975.
município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação
de mestrado).
377, 1936.
when the ratios of the population variances are unknown, Biometrika, v.41,
p.19-43, 1954.
11. Referências bibliográficas 392
1980.
KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of
KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.
LAWLEY, D.N. Tests of significance for the latent roots of covariance and
p.59-66, 1959.
LAWLEY, D.N. The estimation of factor loadings by the method of the maximum
NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher
3735, 1986.
PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.
SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.