Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
NDICE
INTRODUO ..................................................................................................................... 2
DIMENSIONALIDADE DAS VARIVEIS CANNICAS................................................ 2
Teste de dimensionalidade ................................................................................................. 3
VETORES CANNICOS...................................................................................................... 4
PORCENTAGEM DE VARIAO ..................................................................................... 5
EXEMPLO DE APLICAO............................................................................................... 5
Quadro 1. Valores observados das variveis X1 e X2 com cinco repeties...................... 5
Procedimento CANDISC para anlise de variveis cannicas .......................................... 6
Descrio dos comandos utilizados.................................................................................... 7
Interpretao dos resultados do SAS.................................................................................. 7
Escores das variveis cannicas....................................................................................... 14
Quadro 2. Arquivo can temporrio gravado na biblioteca WORK do SAS.................. 14
Grficos de disperso ....................................................................................................... 15
Quadro 3. Matriz de significncia das distncias de Mahalanobis entre tratamentos...... 15
Figura 1. Disperso dos escores das duas primeiras variveis cannicas. ....................... 15
BIBLIOGRAFIA.................................................................................................................. 16
1
Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica
RJ. E-mail: varella@ufrrj.br.
INTRODUO
A anlise de variveis cannicas uma tcnica da estatstica multivariada que permite a
reduo da dimensionalidade de dados, semelhante a componentes principais e correlaes
cannicas. Essa tcnica especialmente empregada em anlises discriminantes realizadas a
partir de amostras com observaes repetidas. A anlise tambm pode ser utilizada para
representar vrias populaes em um subespao de menor dimenso. A anlise procura, com
base em um grande nmero de caractersticas originais correlacionadas, obter combinaes
lineares dessas caractersticas denominadas variveis cannicas de tal forma que a correlao
entre essas variveis seja nula (KHATTREE & NAIK, 2000). A utilizao dessa tcnica
permite capturar o efeito simultneo de caractersticas originais e com isso pode capturar
variaes no percebidas quando do uso de caractersticas originais isoladamente.
importante observar que a primeira varivel cannica a funo discriminante linear de
Fisher. Variveis cannicas so funes discriminantes timas, ou seja, maximizam a
variao entre tratamentos em relao variao residual. A variao de tratamentos, nesta
anlise, expressa por uma matriz denominada H, composta pela soma de quadrados e
produtos de tratamentos; a variao residual expressa pela matriz E, composta pela soma de
quadrados e produtos do resduo. As matrizes H e E so obtidas de uma anlise de varincia
multivariada: MANOVA.
DIMENSIONALIDADE DAS VARIVEIS CANNICAS
A dimensionalidade o nmero de variveis cannicas obtidas na anlise. Pode ser
entendida como o nmero de razes no nulas da Equao1.
(1)
A dimensionalidade, portanto, a ordem do hiperplano gerado pelas diferentes mdias de
tratamentos. A dimensionalidade, em termos das mdias populacionais, o nmero de
autovalores no nulos da matriz da Equao 2.
= E 1 H = ne 1 H
em que,
E
H
= matriz determinante;
= matriz de soma de quadradros e produtos de resduo;
= matriz de soma de quadrados e produtos de tratamentos;
2
(2)
ne
Teste de dimensionalidade
Quando a dimensionalidade igual a zero (d=0) as mdias so coincidentes, se d=1 as
mdias so colineares e se d=2 as mdias so perpendiculares, isto independentes. Numa
anlise de varincia varinica multivariada com k tratamentos, usualmente testamos a
hiptese:
A hiptese que testamos se os vetores de mdias so iguais. Esta hiptese equivalente
ao teste de que no h diferena entre os vetores de mdias de tratamentos, isto :
so idnticos. Ento H0
em que,
d
p
q
t
=
=
=
=
(3)
Na Equao 3, j com j=1, 2, ... , p, so autovalores da matriz . A estatstca
assintoticamente tem distribuio qui-quadrada
com
VETORES CANNICOS
Vetores cannicos so os autovetores j associados aos autovalores j no nulos da matriz
determinante . Seja dessa maneira, Lj o autovetor associado ao autovalor j, onde Lj
normalizado de modo que:
em que,
=
=
=
PORCENTAGEM DE VARIAO
A porcentagem de variao entre tratamentos explicada pelas primeiras d variveis
cannicas o resultado da diviso da soma dos autovalores d pela soma dos autovalores p,
isto :
em que,
=
=
=
EXEMPLO DE APLICAO
Neste exemplo as anlises sero realizadas com o procedimento CANDISC do
programa computacional SAS (SAS, 2007).
Vamos estudar o caso em que temos k tratamentos com p variveis e r repeties em um
delineamento estatstico inteiramente casualizado. Neste caso a varincia total decomposta
como segue:
em que,
A
H
E
=
=
=
matriz de totais;
matriz de tratamentos;
matriz de resduos.
4,63
0,95
4,38
0,89
4,94
1,01
4,96
1,23
4,48
0,94
6,03
1,08
5,96
1,05
6,16
1,08
6,33
1,19
6,08
1,08
4,71
0,96
4,81
0,93
4,49
0,87
4,43
0,82
4,56
0,91
16
15
2
3
DF Total
DF Within Classes
DF Between Classes
14 GL total
12 GL de resduo
2 GL de tratamentos
trat
1
2
3
_1
_2
_3
5
5
5
Weight
5.0000
5.0000
5.0000
Proportion
0.333333
0.333333
0.333333
X1
X2
0.2784800000
0.1145400000
0.1145400000
0.0711200000
-----------------------------------------------------------------------------------
trat = 2
Variable
X1
X2
X1
X2
0.0806800000
0.0072600000
0.0072600000
0.0145200000
----------------------------------------------------------------------------------trat = 3
Variable
X1
X2
X1
X2
0.0988000000
0.0294000000
0.0294000000
0.0118800000
18
21:59
X1
X1
X2
X2
0.4579600000
0.1512000000
0.1512000000
0.0975200000
Matriz H tratamentos
X1
X1
X2
X2
7.247640000
0.870100000
0.870100000
0.127853333
Matriz A total
X1
X2
7.705600000
1.021300000
1.021300000
0.225373333
Neste caso como o delineamento estatstico inteiramente casualiuzado (DIC) temos que:
19
21:59
DF = 4
X1
X2
0.0696200000
0.0286350000
0.0286350000
0.0177800000
-----------------------------------------------------------------------------------
trat = 2,
Variable
X1
X2
DF = 4
X1
X2
0.0201700000
0.0018150000
0.0018150000
0.0036300000
----------------------------------------------------------------------------------trat = 3,
Variable
X1
X2
DF = 4
X1
X2
0.0247000000
0.0073500000
0.0073500000
0.0029700000
20
DF = 12 Resduo
X1
X2
0.0381633333
0.0126000000
0.0126000000
0.0081266667
DF = 2 Tratamentos
X1
X2
0.7247640000
0.0870100000
0.0870100000
0.0127853333
DF = 14 Total
X1
X2
0.5504000000
0.0729500000
0.0729500000
0.0160980952
21
Pr > |r|
trat = 1
Variable
X1
X2
X1
1.00000
0.81389 Correlao
0.0936 Significncia
X2
0.81389
1.00000
0.0936
trat = 2
Variable
X1
X2
X1
1.00000
0.21211 Correlao
0.7320 Significncia
X2
0.21211
1.00000
0.7320
trat = 3
Variable
X1
X2
X1
1.00000
0.85814 Correlao
0.0628 Significncia
X2
0.85814
1.00000
0.0628
22
X1
X2
X1
1.00000
0.71547
0.0060
X2
0.71547
0.0060
1.00000
Pr > |r|
X1
X2
X1
1.00000
0.90389
0.2814
X2
0.90389
0.2814
1.00000
Pr > |r|
X1
X2
X1
1.00000
0.77499
0.0007
X2
0.77499
0.0007
1.00000
10
Pr > |r|
23
Sum
Mean
Variance
X1
15
76.95000
5.13000
0.55040
X2
15
15.13000
1.00867
0.01610
Deviation
0.7419
0.1269
----------------------------------------------------------------------------------trat = 1
Standard
Variable
Sum
Mean
Variance
X1
23.39000
4.67800
0.06962
Deviation
0.2639
X2
5
5.02000
1.00400
0.01778
0.1333
----------------------------------------------------------------------------------trat = 2
Standard
Variable
Sum
Mean
Variance
X1
30.56000
6.11200
0.02017
X2
5.62000
1.12400
0.00363
Deviation
0.1420
0.0602
----------------------------------------------------------------------------------trat = 3
Standard
Variable
Sum
Mean
Variance
X1
23.00000
4.60000
0.02470
X2
4.49000
0.89800
0.00297
Deviation
0.1572
0.0545
11
25
1
2
3
0
85.37718
1.78287
85.37718
0
78.72086
1.78287
78.72086
0
1
2
3
0
97.82801
2.04287
97.82801
0
90.20099
2.04287
90.20099
0
1
2
3
1.0000
<.0001
0.1760
<.0001
1.0000
<.0001
0.1760
<.0001
1.0000
26
Num DF=2,
Den DF=12
Total
Pooled
Between
Standard Standard Standard
Variable Deviation Deviation Deviation
R-Square
R-Square
/ (1-RSq)
F Value
X1
X2
0.9406
0.5673
15.8259
1.3110
94.96
7.87
0.7419
0.1269
0.1954
0.0901
0.8513
0.1131
Average R-Square
Unweighted
Weighted by Variance
12
0.7539318
0.9299607
Pr > F
<.0001
0.0066
M=-0.5
N=4.5
Value
F Value
Num DF
Den DF
Pr > F
0.03142928
1.21304168
23.03901513
22.69629642
25.52
9.25
61.97
136.18
4
4
4
2
22
24
12.235
12
<.0001
0.0001
<.0001
<.0001
27
1
2
Canonical
Correlation
Adjusted
Canonical
Correlation
0.978672
0.505215
0.977020
.
Approximate
Standard
Error
0.011279
0.199045
Squared
Canonical
Correlation
0.957799
0.255242
correlations in the
Eigenvalues of Inv(E)*H
Likelihood Approximate
F Value Num DF Den DF Pr > F
1
2
25.52
4.11
22.6963
0.3427
22.3536
0.0149
0.9851
1.0000
0.0314
0.7447
4
1
22
12
<.0001
0.0654
28
Can1
Can2
0.987661
0.666459
0.156610
0.745541
Can1
Can2
0.996667
0.865977
0.081583
0.500084
13
Can1
Can2
0.832256
0.208132
0.554392
0.978101
29
Can1
Can2
5.316720535
-1.116842127
-1.131352800
1.676610061
Can1
Can2
1.399999146
-0.793525275
-0.297907882
1.191244875
Can1
Can2
7.16645900
-8.80246974
-1.52496137
13.21432007
Can1
Can2
1
2
3
-3.198161274
6.022244556
-2.824083283
0.627615714
0.026539512
-0.654155226
rep
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
X1
4.63
4.38
4.94
4.96
4.48
6.03
5.96
6.16
6.33
6.08
4.71
4.81
4.49
4.43
4.56
14
X2
0.95
0.89
1.01
1.23
0.94
1.08
1.19
1.08
1.19
1.08
0.96
0.93
0.87
0.82
0.91
Can1
-3.06682
-4.33028
-1.37336
-3.16658
-4.05376
5.821904
4.35198
6.753543
7.00357
6.180227
-2.58153
-1.60081
-3.36592
-3.35579
-3.21637
Can2
-0.01276
-0.42438
0.307362
3.184013
0.083842
-0.42984
1.130479
-0.62809
0.566243
-0.50609
-0.00261
-0.55154
-0.85641
-1.42563
-0.43458
Grficos de disperso
Os grficos para d=1 ou d=2 envolverndo as mdias cannicas podem representar uma
ajuda importante na discriminao de tratamentos. A Figura 1 ilustra o grfico de disperso
entre tratamentos representado pelos escores das duas primeiras variveis cannicas. Observase que o efeito conjunto das variveis X1 e X2 pode capturar a variao entre os tratamentos 2
e os demais (1 e 3). Contudo a anlise no foi capaz de capturar a varincia entre 1 e 3. Dessa
forma podemos concluir que apenas essas caractersticas (X1, X2) no so suficientes para
discriminar os indivduos dessa populao em trs grupos diferentes. A interpretao da
anlise depende do fenmeno analisado, e a experincia do pesquisador fator importante.
Podemos tambm observar no Quadro 3 que no houve diferena siginificativa entre as
distncia de Mahalanobis entre os tratamentos 1 e 3, indicando que a separao desses
indivduos no possvel.
Quadro 3. Matriz de significncia das distncias de Mahalanobis entre tratamentos
Prob > Mahalanobis Distance for Squared Distance to trat
From trat
1
2
3
1.0000
<.0001
0.1760
<.0001
1.0000
<.0001
0.1760
<.0001
1.0000
15
BIBLIOGRAFIA
FISHER, R.A. The use of multiple measurements in taxonomic problems. Annals of
Eugenics, v.7, p.179-188, 1936.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with SAS
software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
KHOURY JR, J.K. Desenvolvimento e avaliao de um sistema de viso artificial para
classificao de madeira serrada de eucalipto. 2004. 101 f. Tese (Doutorado em
Engenharia Agrcola) Universidade Federal de Viosa, Viosa, 2004.
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica da
Universidade Federal de Viosa, v.2, 2000.
VARELLA, C.A.A. Estimativa da produtividade e do estresse nutricional da cultura do
milho usando imagens digitais. 2004. 92 f. Tese (Doutorado em Engenharia Agrcola)
Universidade Federal de Viosa, Viosa, 2004.
SAS. Online doc version 8. Disponvel em: http://v8doc.sas.com/sashtml/. Acesso em 14
mar. 2007.
BARTLETT, M.S. Multivariate Analysis. J.R. Statist. Soc., Serie B, v.9, p.176-197, London,
1947.
16