Estatística Multivariada

UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA

DEPARTAMENTO DE ESTATÍSTICA
ESTATÍSTICA MULTIVARIADA 2
CAPÍTULO # 1
ANÁLISE DE COMPONENTES
PRINCIPAIS
PROF. PEDRO FERREIRA FILHO
2º SEMESTRE DE 2013
Capítulo 1 – Análise de Componentes Principais
1. ANÁLISE DE COMPONENTES PRINCIPAIS
1.1. INTRODUÇÃO:
A análise de componentes principais (ACP) é uma técnica de análise multivariada que

consiste em estudar a estrutura de interdependência de um conjunto de variáveis observadas em
um conjunto de dados. O estudo desta interdependência considera a análise da estrutura de
variâncias e covariâncias das variáveis buscando a obtenção de combinações lineares (os
componentes principais!) dessas próprias variáveis. Dessa forma é possível de reduzir a
dimensionalidade do problema em estudo e assim facilitar a análise e interpretação das
interdependências entre elas. Vale salientar que a ACP é um passo intermediário em muitas
investigações, como por exemplo, na regressão múltipla, análise de agrupamentos (cluster
analysis) etc. Podemos então, resumir que os principais objetivos da análise de componentes
principais são:
• Descrição e compreensão da estrutura de dependência entre as variáveis;

• Redução da dimensionalidade do problema;
• Obtenção de novas variáveis, combinações lineares das variáveis originais, que sejam
interpretáveis;
1.1.1. ALGUMAS APLICAÇÕES:
Consideremos três possíveis situações de uso da análise de componentes principais:

• O departamento de controle de qualidade está interessado em desenvolver alguns (poucos!)
índices para estudar numerosas características com informações sobre o processo de
manufatura, com o intuito de determinar se o processo está ou não sob controle.
• Um diretor de marketing está interessado em desenvolver um modelo de regressão para fazer
previsões de vendas. Entretanto, as variáveis independentes consideradas são correlacionadas
entre si e a existência de multicolinearidade entre elas pode resultar em estimativas instáveis
do modelo de regressão. Neste caso, seria extremamente útil obter novas variáveis, que sejam
combinações lineares das variáveis originais, mas não correlacionadas entre si. E essas novas
variáveis poderão ser usadas para desenvolver o modelo de regressão.
• Estudo de indicadores de saúde, educação e consumo de energia nas regiões administrativas do
estado de São Paulo (PET-Estatística – SINAPE (2010))
• Uma abordagem multivariada dos resultados do ENADE 2009 dos Cursos de Estatística (PET-
Estatística – SINAPE (2012))
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 1
1.2. MOTIVAÇÃO: INVESTIGANDO O APROVEITAMENTO CONJUNTO DAS PROVAS

DO PROCESSO SELETIVO DA UFSCAR.
O processo seletivo da UFSCar é composto por nove provas: Língua Portuguesa, Língua
Inglesa e Redação, Química, Matemática e História, Biologia, Física e Geografia. Cada uma destas
provas, exceto a de Redação, era constituída de uma parte de Questões Objetivas e de uma parte
de Questões Discursivas. Cada questão da parte objetiva valia um ponto e cada questão discursiva
valia até dois pontos, com a seguinte forma de correção: em branco ou totalmente errada: 0
ponto; 25% de acerto: 0.5 ponto; 50% de acerto 1.0 ponto; 75% de acerto: 1.5 pontos;
totalmente correta: 2 pontos. O número de pontos possíveis em cada parte, de cada uma das
provas, e o número total de pontos possíveis, são apresentados na tabela abaixo:
Tabela 1.1 – Provas do Processo Seletivo - UFSCar
Número de Pontos
Prova Parte Parte Total
Objetiva Discursiva
Língua Portuguesa 10 16 26
Língua Inglesa 6 8 14
Redação 30
Química 10 10 20
Matemática 10 10 20
História 10 10 20
Biologia 10 10 20
Física 10 10 20
Geografia 10 10 20
Total Geral 190
Para efeito de classificação dos candidatos, as provas são ponderadas de acordo com a
carreira de opção do candidato. Sem a ponderação, para todos os cursos o total de pontos
possíveis é de 190, conforme a tabela acima, enquanto que com a ponderação o total, por curso,
poderia estar entre 236 e 270.
A Comissão do Vestibular da UFSCar (Covest) desejava verificar como é o aproveitamento
conjunto nas provas do processo seletivo. Nesse sentido três questões são apresentadas:
1) Como é a estrutura de correlação conjunta das provas?
2) Em caso afirmativo, esta estrutura é a mesma ao longo dos anos?
3) Como é o aproveitamento conjunto das provas para os diferentes cursos da UFSCar?

Para verificação destas questões é disponibilizado um conjunto de dados referentes aos

alunos ingressos no processo seletivo da UFSCar nos anos de 2000 a 2004. Esse conjunto de
dados possui a informação de todos os alunos ingressos nesse período sendo que as variáveis
disponíveis no arquivo de dados são: Curso do aluno, sexo e tipo de escola que curso o ensino
médio e total de pontos em cada uma das nove prova do processo seletivo.
1.3. ALGUNS RESULTADOS BÁSICOS:

1. Teorema da Decomposição Espectral:
Seja A uma matriz simétrica positiva definida de ordem k. A matriz A pode ser reescrita a
partir dos seus autovalores e autovetores, da seguinte forma:
A=PΛP
A = Σ λi ei ei’
com
Λ = Matriz diagonal com os autovalores de A;

P = Matriz com os autovetores normalizados de A, isto é:
ei’ei = 1 e ei’ej = 0;
Exemplo:
 25 − 2 4
A = − 2 4 1 
 4 1 9 
Usando SAS-IML
proc iml;
A = {25 -2 4,
-2 4 1,
4 1 9};
l = eigval(A); /* calcula autovalores */
lambda = diag(l);
print 'Autovalores de A';
print Lambda;
P = eigvec(A); /* calcula autovetores */
print 'Autovetores de A';

print P;
A1 = P*Lambda*P`;
print 'Matriz Original - Matriz da Decomposição';
print A A1;
quit;
Resultados:
Autovalores de A
LAMBDA
26.078452 0 0
0 8.4957958 0
0 0 3.4257518
Autovetores de A
0.9716944 -0.191431 0.1384345
-0.077921 0.293488 0.9527818
0.2230212 0.9365996 -0.270264
Matriz Original - Matriz da Decomposição
A A1
25 -2 4 25 -2 4
-2 4 1 -2 4 1
4 1 9 4 1 9

2. Autovalores de Uma Matriz Simétrica Definida Positiva:
Uma matriz A, simétrica, é uma matriz positiva definida se e somente

se todos os seus autovalores são positivos.
3. Lema da Maximização:
Seja B(px p) uma matriz positiva definida e d(p x 1) um dado vetor. Então para um vetor
arbitrário x(p x 1) (x ≠ 0),
max
( x' d )
2
= d ' B −1 d
x≠0 x' Bx
sendo o máximo obtido quando x = cB −1d para toda constante c ≠ 0.
4. Máximo de Formas Quadráticas para Pontos num Círculo Unitário:
Seja B uma matriz positiva definida com autovalores λ1 ≥ λ2 ≥.....≥ λp ≥ 0 e autovetores

normalizados e1, e2, .....ep. Então:
x' Bx
max = λ1 obtido quando x = e1
x≠0 x' x
x' Bx
min = λ p obtido quando x = e p
x≠0 x' x
e ainda mais;
x' Bx
max = λk +1 obtido quando x = e k +1, k = 1,2,..., p − 1
x ⊥e1 ...ek x' x
1.4. REPRESENTAÇÃO GEOMETRICA DE UMA TABELA DE DADOS X n X 3
Um conjunto de dados observados em um determinado pode, na maioria dos casos, ser

representado por uma tabela de dados da seguinte forma:

Tabela 1.1. Dados Observados
Considerando que V1, V2, ..., Vk são variáveis quantitativas, temos que uma importante
propriedade deve ser considerada. Usualmente, apenas operações, como por exemplo, a soma dos
valores das linhas da tabela pode ser realizada.
Tabela 1.2. Soma de Valores de Coluna da Matriz de Dados Observados
Uma tabela de dados pode ser representada geometricamente de duas diferentes formas:
no espaço das linhas (ou dos indivíduos) e no espaço das colunas (ou das variáveis). No espaço
das linhas, os eixos são dados pelas colunas (variáveis) e no das colunas, vice-versa. Dessa forma,
podemos representar as observações nos casos onde a dimensão k, número de variáveis é no

máximo 3 e no caso das variáveis quando o número de observações é de no máximo três (caso
impossível em termos práticos!!).
1.4.1. Representação Geométrica dos Indivíduos:
No espaço dos indivíduos estamos interessados na observação dos pontos observados,

considerando-se as variáveis em estudo (eixos nesse caso). Dentre outros aspectos, essa
representação geométrica nos permite visualizar as distâncias entre quaisquer duas observações
no conjunto de dados observações. Quanto mais próximos dois pontos estiverem no gráfico, mais
semelhantes, segundo as variáveis observadas, são as unidades de observação. Para se avaliar a
semelhança entre duas observações i e j quaisquer podemos utilizar a distância euclidiana dada
por:
d (i, j ) = ∑ mk (xik − x jk )
K
2 2
k =1
Se considerarmos todas as variáveis com mesmo grau de importância (mk=1 para todo k),
temos que:
2
d (i, j ) = ∑  xik − x jk 
K
2
k =1
 
A representação no espaço dos indivíduos pode então ser vista na seguinte figura:
Figura 1.1. Representação Geométrica no espaço dos indivíduos.

Exemplo: Estudo da morfologia de um grupo de animais

Tabela 1.3 Estudo da Morfologia de um Grupo de Animais
Este conjunto de dados é representado geometricamente da seguinte forma no espaço dos

animais (linhas):
Figura 1.2. Representação Geométrica da slinhas da Tabela 1.4.
O gráfico nos permite uma primeira idéia sobre as distâncias entre duas quaisquer
unidades de observação bem como da variabilidade total dos dados. É importante, porém lembrar
que a representação esta numa dimensão três, o que, numa primeira visualização pode mascarar
determinadas distâncias. Por outro lado a distância entre indivíduos pode também nos levar a

visualizar a variabilidade total dos dados. Se considerarmos o “ponto central” dos valores
observados e as distâncias do mesmo para cada um dos dados observados, teremos uma medida
da variabilidade geral dos dados.
Figura 1.3. Dispersão dos Valores em Relação ao Ponto Central G.
Problema:
Os indivíduos estão representados num espaço de dimensão K, porém uma adequada
visualização das distâncias entre dois pontos quaisquer é possível nos casos onde k = 2.
1.4.2. Representação Geométrica das Variáveis:

No espaço das variáveis (colunas) estamos interessados na observação das variáveis,
considerando-se os indivíduos (linhas) como eixos. Nesse caso a dimensão do gráfico seria no
espaço Rn. Para casos onde n > 3 (situação usual) esta representação torna-se impossível.
Portanto, na pratica esta representação de dados na sua forma original é pouco usual. Porém da
mesma forma que no caso do espaço das linhas, essa representação geométrica nos permitiria
visualizar as distâncias entre quaisquer duas colunas (variáveis) no conjunto de dados observações.
A distância entre colunas, nesse caso nos representaria o grau de associação entre duas variáveis.
Faz-se necessário também aqui definir uma medida de distância que indique a proximidade entre
duas variáveis quaisquer, considerando-se os valores dos n indivíduos observados. Esta medida é
dada por:
 x − xk
n
 xip − x p 
d (k ; p ) = ∑ mi  ik  
 
i =1  sk  sp 
Se todos os indivíduos têm igual importância (peso) esta medida é dada por.
1 n  xik − xk  xip − x p 
d (k ; p ) = r(k ; p ) = ∑   
n i =1  sk  s 
 p 
A medida acima é o coeficiente de correlação entre duas variáveis.

A representação geométrica no espaço das colunas (variáveis), de forma genérica (n =3) é
dada na seguinte figura.
Figura 1.4. Representação geométrica no espaço das colunas.
No caso do estudo morfológico dos animais, temos a seguinte figura.
Figura 1.5. Representação geométrica das colunas da Tabela 1.4.
Consideremos agora o ângulo entre duas variáveis:

1 n  xim − xm   xik − xk 
cos(m; k ) = 〈 m, k 〉 = ∑   
n i =1  sm   sk 
cos(m; k ) = r(m;k )
ou seja, o coseno do ângulo entre dois vetores (variáveis, nesse caso) coincide com o coeficiente
de correlação.
Conseqüentemente:
• Duas variáveis próximas terão um ângulo pequeno, correspondente a um coeficiente de
correlação alto entre ambas.
• Duas variáveis independentes terão um coeficiente de correlação nulo, formando um
ângulo reto (90o).
Problema:
Como identificar essas relações, do ponto de vista geométrico na situação usual onde o
número de observações é maior que 3 ?
Conclusão:
Verificamos acima que, tanto no espaço dos indivíduos como no das variáveis, a
representação geométrica é uma ferramenta para identificação de associação seja de indivíduos
seja de variáveis, porém a limitação da representação geométrica, em ambos os casos, não
permite uma maior análise do problema em estudo, segundo este procedimento. Portanto, uma
alternativa e buscar uma forma de representação de indivíduos e variáveis num espaço menor,
sem grandes perdas de informação e que possibilite uma análise e interpretação simples do
problema em estudo.
1.5. UMA VISÃO GEOMÉTRICA DOS COMPONENTES PRINCIPAIS:

No ponto anterior identificamos de se buscar uma representação de indivíduos e variáveis
num menor espaço de forma a simplificar a análise e interpretação dos dados em estudo.
A busca de uma nova representação num espaço de menor dimensão, conseqüentemente
mais simples de análise e interpretação deve considerar a principio a perda de alguma parcela de
informação dos dados, mais especificamente da variabilidade dos dados. Os procedimentos a
serem utilizados devem buscar minimizar esta perda de informa ou, por outro lado, maximizar a

informação a ser utilizada. Resumindo, deve ser obtida a melhor representação plana dos dados
observados.
Nessa perspectiva o método dos componentes principais se propõe a definir um novo
espaço que seja função de todas as unidades e variáveis observadas que contenham o máximo
possível da variabilidade dos dados.
Consideremos uma situação simples onde são observadas três variáveis e um conjunto de
n observações. Nesse a busca de um espaço menor dimensão que possa bem representar os
dados se resume a encontrar uma reta ou um plano a duas dimensões que contenham o máximo
de informação possível do espaço completo a três dimensões.
Geometricamente, podemos representar este problema da seguinte forma:
Figura 1.6 – Busca de uma melhor representação plana
Problema:
Geometricamente, estamos procurando dentre todas as possíveis direções aquelas duas
que possam conter a maior quantidade de informação dos dados na sua dimensão original. E, mais
ainda, que cada eixo a ser identificado, contenha diferentes informações a respeito dos dados, ou
ainda, que a informação de um eixo não seja também objeto de outro eixo (direção) já
encontrado.
A solução para este problema é dado pela obtenção de eixos na direção da maior
variabilidade dos dados e, que sucessivos eixos sejam ortogonais. Para a situação da figura 1.6. a
solução seria dada pela seguinte figura.

Figura 1.7. – Um melhor plano para representação dos dados
Para facilitar a apresentação dos dados, podemos “girar” o plano de forma a apresentá-lo
na forma tradicional.

Figura 1.8. – Novos eixos rotacionados

Questão:
Como identificar os eixos (direções) acima identificadas?
1.6. COMPONENTES PRINCIPAIS – UMA SITUAÇÃO SIMPLES:

A Tabela 1.4 apresenta um pequeno conjunto de dados consistindo de 12 observações e
duas variáveis. Apresenta também a matriz de covariâncias e de correlações amostrais. Podemos
ver que as variâncias das variáveis x1 e x 2 são 23,091 e 21,091, respectivamente e que a
variância total das duas variáveis é igual a 44,182 (isto é, 23,091 + 21,091). Também x1 e x 2
são correlacionadas, com um coeficiente de cor-relação igual a 0,746. As porcentagens da
variância total explicadas por x1 e x 2 são, respectivamente, 52,26% e 47,74%.
Tabela 1.4. Dados originais e corrigidos pela média

Variável X1 Variável X2
Corrigida Corrigida
Original Original
Observação pela media pela média
1 16 8 8 5
2 12 4 10 7
3 13 5 6 3
4 11 3 2 –1
5 10 2 8 5
6 9 1 –1 –4
7 8 0 4 1
8 7 –1 6 3
9 5 –3 –3 –6
10 3 –5 –1 –4
11 2 –6 –3 –6
12 0 –8 0 –3
MÉDIA 8 0 3 0
Variância 23,091 23,091 21,091 21,091

Como mostrado na Figura 1.9, seja X1∗ um novo eixo no espaço bidimensional fazendo um
ângulo de θ graus com o eixo X1 . A projeção de cada ponto em X1∗ dará as coordenadas dessas
observações com respeito a X1∗ .
10
2 X1*
θ
0
X2
-2
-4
-6
-8
-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
X1
Figura 1.9.
Gráfico dos dados corrigidos pela média
A coordenada das observações com respeito ao novo eixo X1∗ é uma combinação linear
das coordenadas (antigas) do ponto com respeito aos eixos originais. Isto é:
x 1∗ = x1 cos(θ) + x 2 sen(θ)
onde x 1∗ é a coordenada na observação com respeito a X1∗ , e x1 e x 2 , as coordenadas das

observações com respeito aos eixos X1 e X 2 , respectivamente.
Por exemplo, para θ = 10°, a equação para a combinação linear é
x 1∗ = 0,985 x 1 + 0,174 x 2
que pode ser usada para obter as novas coordenadas das observações com respeito ao novo eixo
X1∗ .

∗
Tabela 1.5. Dados corrigidos pela média e a nova variável ( x 1 ) para uma rotação de 10°
Observação x1 x2 x 1∗
1 8 5 8,747
2 4 7 5,155
3 5 3 5,445
4 3 –1 2,781
5 2 5 2,838
6 1 –4 0,290
7 0 1 0,174
8 –1 3 −0,464
9 –3 –6 −3,996
10 –5 –4 −5,619
11 –6 –6 −6,951
12 –8 –3 −8,399
Média 0 0 0
Variância 23,091 21,091 28,659
A partir das coordenadas dos pontos com respeito a esse novo eixo (Tabela 2) pode-se
perceber que:
i) a nova variável também está corrigida pela média (i.e. sua média é igual a zero);
ii) a variância de x 1∗ é 28,659 e explica 64,87% (= 28,659/44,182) da variância total dos dados.
Essa porcentagem é superior à porcentagem da variância explicada por qualquer uma das
variáveis originais.
Fazendo variar o ângulo entre X1 e X1∗ , vamos obter valores diferentes para as
coordenadas x 1∗ . A Tabela 1.6. apresenta as variâncias e as porcentagens explicadas pelas novas
coordenadas x 1∗ (em relação à variância total de 44,182), para diferentes ângulos θ.
∗
Tabela 1.6. Porcentagem explicada pelas novas variáveis x 1 para vários novos eixos
Ângulo (θ) Variância de x 1∗ %

0 23.091 52.263
10 28.659 64.866
20 33.434 75.676
30 36.841 83.387
40 38.469 87.072
43,261 38.576 87.312
50 38.122 86.282
60 35.841 81.117
70 31.902 72.195
80 26.779 60.597
90 21.091 47.772

100
90
80
Porcentagem
70
60
50
40
0 10 20 30 40 50 60 70 80 90
Ângulo
Figura 1.10. Porcentagem total da variância explicada para novos eixos X1∗
Pela Tabela 1.6. e pela Figura 2.10, podemos ver que a porcentagem da variância
explicada aumenta até o ângulo θ = 43,261° e depois desse valor máximo, a porcentagem da
variância explicada por x 1∗ começa a diminuir. A equação correspondente a esse ângulo, a ser
usada para calcular as novas coordenadas é
x 1∗ = 0,728 x 1 + 0,685 x 2
Note que x 1∗ não explica toda a variabilidade dos dados. É possível identificar um segundo
eixo que corresponde a uma segunda nova variável que explique o máximo da variância que não
foi explicada por x 1∗ . Se o ângulo entre X1 e X1∗ é θ, o ângulo entre e X ∗2 também será θ e a
combinação linear para x ∗2 será
x ∗2 =− x1 sen(θ) + x 2 cos(θ)
e para θ = 43, 261° a equação anterior fica
x ∗2 = − 0,685 x 1 + 0,728 x 2

∗ ∗
Tabela 1.7. Dados corrigidos pela média e x 1 e x 2 para o novo eixo e θ = 43, 261°
Observação x1 x2 x 1∗ x ∗2
1 8 5 9,253 –1,841
2 4 7 7,710 2,356
3 5 3 5,697 –1,242
4 3 –1 1,499 –2,784
5 2 5 4,883 2,271
6 1 –4 –2,013 –3,598
7 0 1 0,685 0,728
8 –1 3 1,328 2,870
9 –3 –6 –6,297 –2,313
10 –5 –4 –6,382 0,514
11 –6 –6 –8,481 –0,257
12 –8 –3 –7,882 3,298
Média 0 0 0 0
Variância 23,091 21,091 38,576 5,606
A partir da Tabela 1.7 e Figura 1.11., podemos fazer as seguintes observações:

i) A orientação ou a configuração dos pontos ou observações no espaço bidimensional não se
altera. As observações podem, entretanto, ser representadas com respeito aos eixos originais
e aos novos eixos.
ii) As projeções dos pontos sobre os eixos originais fornecem os valores das variáve-is originais e
as projeções dos pontos sobre os novos eixos fornecem os valores das novas variáveis. Os
novos eixos ou as novas variáveis são chamados com ponentes principais e os valores das
novas variáveis são chamados de escores dos com ponentes principais.
∗
iii) As novas variáveis ( x 1 e x ∗2 ) são combinações lineares das variáveis originais e permanecem
corrigidas pela média.
iv) A variância total das novas variáveis é igual a das variáveis originais (44,182), ou seja, não se
altera com a combinação linear sugerida.
v) As porcentagens da variância total explicada por x 1∗ e x ∗2 são, respectivamente, 87,31% (=
38,576/44,182) e 12,69% (= 5,606/44,182). A porcentagem explicada pela primeira nova
variável, x 1∗ , é maior que a porcentagem explicada por qual-quer uma das variáveis originais.

A segunda nova variável explica a variância que não foi explicada pela primeira nova variável.
As duas novas variáveis explicam toda a variância dos dados.
vi) A correlação entre as duas novas variáveis é zero , isto é, x 1∗ e x ∗2 não são
correlacionadas .
10
8
X2* X1*
6
0
X2
-2
-4
-6
-8
-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
X1
Figura 1.11.
Gráfico dos dados corrigidos pela média e novos eixos
OBS: Essa ilustração geométrica desenvolvida para os componentes principais pode ser
facilmente estendida para o caso de mais de duas variáveis (p > 2).
A técnica de análise de componentes principais pode ser vista como uma técnica para
reduzir a dimensão dos dados originais, já que um número pequeno de componentes principais
pode explicar uma grande porcentagem da variabilidade original dos dados.
Geometricamente, o objetivo principal da análise de componentes principais é identificar
um novo conjunto de eixos ortogonais tais que:
1. As coordenadas das observações com respeito a cada um dos eixos fornecem os valores das
novas variáveis. Os novos eixos ou novas variáveis são chamados componentes principais e os
valores das novas variáveis são chamados de escores dos componentes principais.
2. Cada nova variável é uma combinação linear das variáveis originais.
3. A primeira nova variável (primeiro componente principal) explica o máximo da variância dos
dados.

4. A segunda nova variável (segundo componente principal) explica o máximo da variância que
não foi explicada pela primeira nova variável ... e a p-ésima nova variável explica a variância
que não foi explicada pelas p − 1 primeiras novas va-riáveis.
5. As p novas variáveis não são correlacionadas.
1.7. COMPONENTES PRINCIPAIS – GENERALIZANDO:
A solução apresentada no ponto anterior é pouco pratica a medida que a dimensão do

problema em estudo é superior a 2. Portanto é necessária uma forma mais adequada para
obtenção das direções (eixos) que melhor representem os dados observados na menor dimensão
possível.
O problema da obtenção destas direções pode ser colocada na forma de um problema de
maximização de uma forma quadrática de forma a se obter eixos com maior informação sobre a
variabilidade dos dados.
Figura 1.12. Procura do “melhor” eixo de representação dos dados.
A determinação das direções principais de dispersão da nuvem de pontos se obtém a

partir da “diagonalização” da matriz de dispersão associada a mesma. A “diagonalização” de uma
matriz de dispersão, simétrica, definida positiva, é um problema clássico do cálculo numérico:
O teorema da Decomposição Espectral, ou seja obter u tal que;
O vetor u é dado por: Vu = λu

• A matriz de dispersão V é simétrica, seus autovetores são ortogonais dois a dois. Sendo
vetores de norma 1, formam uma base ortonormal de RK.
• Os autovalores são todos positivos. O vetor u1 é um autovetor de V, associado ao
autovalor λ1, e assim sucessivamente...
• λ1 representa a inércia projetada na direção u e é a inércia máxima nessa direção.
Retornando aos dados apresentados nas figura 1.6 a 1.8., o processo de diagonalização
aplicado ao mesmo, pode ser visto na seguinte figura:
Figura 1.13 – Diagonalizando a procura da ma melhor representação plana
Portanto a solução a partir do Teorema da Decomposição Espectral nos mostra que a

melhor representação é dada pela direção dos autovalores associados a cada um dos autovalores
da matriz de dispersão dos dados cujo comprimento é dado pelo respectivo autovalor. Cada uma

dessas direções são as denominadas componentes principais. As novas coordenadas de cada

observação no α-ésimo componente principal são dadas por:
Sob ponto de vista algébrico, os componentes principais são combinações lineares
particulares das p variáveis aleatórias X1 , X 2 , ..., X p . Geometricamente, essas combinações

representam a seleção de novos sistemas de coordenadas obtidos pela rotação do sistema original
que tem X1 , X 2 , ..., X p como eixos das coordenadas. Os novos eixos representam as direções
com máxima variabilidade e fornecem uma descrição simples e parcimoniosa da estrutura de
covariâncias (e a correspondente interdependência entre as variáveis).
Os componentes principais dependem somente da estrutura de covariâncias Σ (ou da

matriz de correlações ρ ). O desenvolvimento da análise não requer uma suposição de
normalidade multivariada. Por outro lado, os componentes principais derivados para populações
com distribuição normal multivariada têm interpretações úteis em termos de elipsóides de
confiança, além da possibilidade de se fazer algumas inferências sobre os componentes amostrais.
Seja o vetor aleatório X' = [ X1 , X 2 , ..., X p ] que tem matriz de covariâncias Σ com
autovalores λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0. Considere as combinações lineares
Y1 = a 1t X = a 11 X1 + a 12 X 2 + ... + a 1p X p
Y2 = a 2t X = a 21 X1 + a 22 X 2 + ... + a 2 p X p
ξ ξ ξ (8.1)
Yp = a pt X = a p1 X1 + a p 2 X 2 + ... + a pp X p
Então: Var( Yi ) = a it Σ a i i = 1, 2, ..., p )
Cov ( Yi , Yk ) = a it Σ a k , i ≠ k = 1, 2, ..., p

Teorema 1.1. Seja Σ a matriz de covariâncias associada ao vetor aleatório

X' = [ X1 , X 2 , ..., X p ]. Seja Σ com os pares autovalor-autovetor ( λ i , e i ),
para i = 1, 2, ..., p, onde λ1 ≥ λ 2 ≥ ... ≥ λ p ≥ 0. Então o i-ésimo

componente principal é dado por:
Yi = e it X = e i1X1 + e i 2 X 2 + ... + e ip X p , i = 1, 2, ..., p
com essas características:
Var( Yi ) = e i Σ e i e Cov ( Yi , Yk ) = e i Σ e k = 0, para i ≠ k

t t
Teorema 1.2. Seja X' = [ X1 , X 2 , ..., X p ] com matriz de covariâncias Σ e

com pares autovalor-autovetor ( λ i , e i ), para i = 1, 2, ..., p onde λ1 ≥ λ 2
≥ ... ≥ λ p ≥ 0. Sejam Y 1 = e1t X , Y2 = e 2t X , ..., Yp = e pt X os

componentes principais. Então
p p
σ11 + σ 22 +... + σ pp = ∑ Var (X i ) = λ1 + λ 2 + ... + λ p = ∑ Var (Yi )
i =1 i =1
Observação:
Na notação anteriormente apresentada
Fα(i) ⇒ Yi e uαk ⇒ eij
Desse resultado, podemos calcular a proporção da variância total devida (ou explicada)
pelo i-ésimo componente principal através da fórmula
λi
i = 1, 2, ..., p (8.7)
λ1 + λ 2 +  + λ p
Em situações ideais, 80-90% da variância total, para grandes valores de p, pode ser
explicada por 1, 2 ou 3 componentes principais e então, esses componentes podem substituir as p
variáveis originais sem a perda de muita informação.

Cada componente do vetor de coeficientes e it = [ e i1 + ei2 + ... + e ip ] deve ser
inspecionado, já que a magnitude de e ik avalia a importância da k-ésima variável no i-ésimo

componente principal. Em particular, e ik é proporcional ao coeficiente de correlação entre Yi e
Xk .
Teorema 1.3. Se Y1 t
= e1 X , Y2 = e 2t X , ..., Yp = e pt X são os
componentes principais obtidos da matriz de covariâncias Σ , então
eik λi
ρX = , i, k = 1, 2, ..., p
σ kk
k ,Yi
são os coeficientes de correlação entre os componentes Yi e as variáveis X k .
Embora as correlações entre as variáveis com os componentes principais auxiliem,

muitas vezes, a interpretação dos componentes, eles medem somente a contribuição
univariada de uma variável X a um componente Y. Eles não indicam a importância de uma
variável X em um componente Y na presença das outras variáveis X.
Alguns estatísticos recomendam que somente os coeficientes e ik e não as corre-
lações sejam usadas para interpretar os componentes. Embora essas duas abordagens
possam levar a conclusões diferentes sobre a importância das variáveis, JOHNSON &
WICHERN (1999) afirmaram que elas não são apreciavelmente diferentes.
Na prática, variáveis com coeficientes relativamente grandes (em valor absoluto)
tendem a ter correlações relativamente grandes, de tal maneira que as duas medidas de
importância, a primeira multivariada e a segunda univariada, apresentem resultados
similares. A recomendação é que ambos (coeficientes dos autovetores e coeficientes de
correlação) sejam examinados para auxiliar na interpretação dos componentes principais.
Exemplo – Jonhson (pág. 430-431)

Suponha que as variáveis aleatórias X1, X2, X3, tenham a seguinte matriz de
covariâncias

 1 − 2 0
Σ = − 2 5 0
 0 0 2
proc iml;
A = {1 -2 0,
-2 5 0,
0 0 2};
v={0,0,0};
r ={0 0 0,
0 0 0,
0 0 0};
l = eigval(A); /* calcula autovalores */
print 'Autovalores de A';
st=sum(l[1:3]);
do i=1 to 3;
v[i]=l[i]/st;
end;
print l v;
e1 = eigvec(A); /* calcula autovetores */
e=t(e1);
do i=1 to 3; /* Calculo da correlação entre Y's e X's */
do k=1 to 3;
r[i,k]=(e[i,k]*sqrt(l[i]))/sqrt(a[k,k]);
end;
end;
r1=t(r);
print e r1;
quit;
RESULTADOS:
Autovetores de Σ
Autovalores de Σ % Var. Explicada
e1 e2 e3
5.8284271 0.7285534
-0.382683 0 0.9238795
2.0000000 0.2500000
0.9238795 0 0.3826834
0.1715729 0.0214466
0 1 0
e os componentes principais ficam
Y1 = 0.383X1 −0.924 X2 − explica 72.9% da variação total
Y2 = X3 − explica 25.0% da variação total
Y3 = 0.924 X1 + 0.383 X2 − explica 2.1% da variação total

As variâncias das componentes podem ser obtidas a partir de:
Var (Y1) = Var (0.383 X1 −0.924 X2) = (.383)2 Var(X1) + (-924)2 Var(X2)– 2(.381)(-
924)Cov( X1 , X2) = 5.83 = λ1
As correlações entre as variáveis originais e os componentes principais são apresentados no

quadro seguinte:
Y1 Y2 Y3
X1 0.925 0 0.382
X2 −0.998 0 0.070
X3 0 1 0
Exemplo 2: Dados da tabela 1.5.;
data exemplo2;
input obs x1 x2;
cards;
1 8 5
2 4 7
3 5 3
4 3 -1
5 2 5
6 1 -4
7 0 1
8 -1 3
9 -3 -6
10 -5 -4
11 -6 -6
12 -8 -3
;
proc princomp cov out=dados2 outstat=dados3;
var x1 x2;
run;
proc print;
run;
proc corr data=dados2;
var x1 x2;
with prin1 prin2;
run;
proc transpose data=dados3 out=dados4;
run;
goptions reset=all gunit=pct border cback=white
ftitle=swissb htitle=6
htext=2.5;
symbol1 color=red value=dot height=3;
symbol2 color=blue value=dot height=3;
proc gplot data=dados4;
title1 'Grafico das Variaveis no 1o Plano Fatorial';
plot prin2*prin1=_name_/ vref=0 href=0;

run;
goptions reset=all border cback=white ftitle=swissb
ftext=swissb htitle=2 htext=1
colors=(black white green red) ;
Title1 'Primeira Componente';
plot prin1*prin1=obs/overlay cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2 ;
run;
Title1 'Primeira Componente';
plot prin2*prin1/cframe=white href=0 vref=0;
run;
RESULTADOS:
Simple Statistics Covariance Matrix
x1 x2 x1 x2
Mean 0.000000000 0.000000000 x1 23.09090909 16.45454545
StD 4.805300104 4.592483978 x2 16.45454545 21.09090909
Total Variance 44.181818182
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 38.5758133 32.9698084 0.8731 0.8731
2 5.6060049 0.1269 1.0000
Eigenvectors
Prin1 Prin2
x1 0.728238 -.685324
x2 0.685324 0.728238

Obs obs x1 x2 Prin1 Prin2
1 1 8 5 9.25253 -1.84140
2 2 4 7 7.71022 2.35637
3 3 5 3 5.69716 -1.24191
4 4 3 -1 1.49939 -2.78421
5 5 2 5 4.88310 2.27054
6 6 1 -4 -2.01306 -3.59828
7 7 0 1 0.68532 0.72824
8 8 -1 3 1.32773 2.87004
9 9 -3 -6 -6.29666 -2.31346
10 10 -5 -4 -6.38249 0.51367
11 11 -6 -6 -8.48137 -0.25748
12 12 -8 -3 -7.88188 3.29788
Pearson Correlation Coefficients, N = 12

Prob > |r| under H0: Rho=0
x1 x2
0.94126 0.92684
Prin1
<.0001 <.0001
-0.33768 0.37545
Prin2
0.2831 0.2291

Representação Correta:



Exemplo 3: Dados Morfológicos dos Animais – Tabela 1.3.

Dados Observados:
Simple Statistics
Comprimento Perimetro Peso
Mean 157.3636364 69.54545455 402.7272727
StD 8.3981033 2.63180678 22.4778872
Covariance Matrix
Comprimento Comprimento 70.5281385 13.1255411 101.6753247
Perimetro Perimetro 13.1255411 6.9264069 48.5367965
Peso Peso 101.6753247 48.5367965 505.2554113
Total Variance 582.70995671

1 532.659089 484.623669 0.9141 0.9141
2 48.035420 46.019971 0.0824 0.9965
3 2.015449 0.0035 1.0000
Eigenvectors
Prin1 Prin2 Prin3
Comprimento Comprimento 0.216477 0.973861 -.068794
Peso Peso 0.971644 -.221776 -.081995

0.59491 0.83405 0.99765

Prin1
0.0035 <.0001 <.0001
0.80370 0.12928 -0.06838

Prin2
<.0001 0.5664 0.7624


Retornando aos dados originais:
Observemos os valores observados para os animais 22, 3, 6, e 4:

Porque estes animais se aproximam no gráfico ??
Programa SAS
libname dados 'C:\Documentos\Técnicas Multivariadas_20071\Exemplos';

data exemplo3_2;
set dados.exemplo3_2;
run;
proc contents position;

run;
proc princomp cov out=dados1 outstat=dados2;

var Comprimento Perimetro Peso;
run;
proc corr data=dados1;
var Comprimento Perimetro Peso;
with prin1 prin2;
run;
proc transpose data=dados2 out=dados3;
run;
goptions reset=all gunit=pct border cback=white
ftitle=swissb htitle=6
htext=2.5;
symbol3 color=green value=dot height=3;
legend1 label=none shape=bar(2,2) cborder=black
cblock=green position=center value=(j=left);
title1 'Grafico das Variaveis no 1o Componente';
plot prin1*prin1=_name_/ vref=0 href=0 haxis=-0.1 to 1 by 0.1
vaxis=-0.3 to 1 by 0.1 href=0 vref=0 legend=legend1;
run;
title1 'Grafico das Variaveis no 1o Plano';
plot prin2*prin1=_name_/ vref=0 href=0 haxis=-0.1 to 1 by 0.1
vaxis=-0.3 to 1 by 0.1 href=0 vref=0 legend=legend1;
run;
goptions reset=all border cback=white ftitle=swissb
ftext=swissb htitle=2 htext=1
colors=(black white green red) ;
Title1 'Primeira Componente - Animais';
plot prin1*prin1/overlay cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2;
run;
Title1 'Primeiro Plano Fatorial - Animais';
plot prin2*prin1/cframe=white href=0 vref=0;
run;
Title1 'Observacoes no Primeiro Plano Fatorial';

%plotit(data=dados1, labelvar=Animal,
plotvars=Prin2 Prin1, color=black, colors=blue,
href=0, vref=0, symvar=symbol,symsize=0.35,
symlen=4, exttypes=symbol, ls=100);
run;

1.8. COMPONENTES PRINCIPAIS A PARTIR DE VARIÁVEIS PADRONIZADAS –

MATRIZ DE CORRELAÇÕES:
Componentes principais podem ser obtidos de variáveis padronizadas
X i − µi
Zi = , i = 1, 2, ..., p
σ ii
e na notação matricial
( ) (X − µ )
Z = V1 2
−1
(8.10)
é a diagonal da matriz de desvios padrões. Claramente temos que E(Z) = 0 e

12
Onde V
Cov (Z ) = V1 2 ( ) Σ(V ) −1 1 2 −1
=ρ
Os componentes principais de Z podem ser obtidos dos autovetores da matriz de
correlações ρ. Todos os resultados prévios se aplicam a essa situação, com algumas
simplificações adicionais, já que a variância de cada Z i é a unidade. Entretanto, os pares
( λ i , e i ) derivados de Σ são, em geral, diferentes daqueles obtidos de ρ.
Teorema 1.4. O i-ésimo componente principal do vetor de variáveis padronizadas Z' =

[ Z1 , Z 2 , ..., Z p ] com cov(Z) = ρ é dado por
Yi = e it Z = e it V1 2 ( ) −1
(X − µ ) i = 1, 2, ..., p
Ainda
p p
∑ Var (Yi ) = ∑ Var ( Z i ) = p
i =1 i =1
ρ Yi ,Zk = e ik λ i i, k = 1, 2, ..., p
1.9. MATRIZ DE VARIÂNCIAS E COVARIANCIAS OU MATRIZ DE CORRELAÇÕES?

COMO CALCULAR OS COMPONENTES PRINCIPAIS.

Ao longo desse capitulo duas formas de obtenção dos componentes

principais foram apresentadas, considerando duas diferentes medidas de
variabilidade dos dados: a matriz de variâncias e covariâncias e a matriz de
correlação. O uso dessas duas alternativas nos leva a diferentes resultados.
Questão:
Qual das matrizes deve ser utilizada? Existe situações onde que
uma específica matriz deve ser utilizada preferencialmente?
Antes de se apresentar uma solução para o problema acima, vamos

melhor entender essa questão a partir dos dados morfológicos dos animais
apresentados na Tabela 2.3.
Iremos comparar os resultados para os componentes principais,
considerando as duas diferentes matrizes de dispersão.
Resultados:
Covariance Matrix
Peso Peso 101.6753247 48.5367965 505.2554113
Correlation Matrix
Peso Peso 0.5386 0.8205 1.0000
A comparação das tabelas de variâncias e covariâncias e matriz de

correlação nos indicam as possíveis diferenças nos uso das duas diferentes

matrizes. A matriz de covariâncias reflete a variabilidade dos dados, em

particular, resultado da escala de medidas das suas variáveis. No presente
exemplo, é muito claro que a variabilidade da variável peso é muito superior a
das demais variáveis, conseqüência maior da unidade de medida da mesma
em relação as demais variáveis em estudo. No caso da matriz de correlações,
seus valores independem da unidade de medida de qualquer variável, a
diagonal é sempre igual a 1 (óbvio!) e os valores fora da diagonal refletem a
correlação entre as variáveis, conseqüentemente são sempre valores entre -1
e 1.
1 532.659089 484.623669 0.9141 0.9141
2 48.035420 46.019971 0.0824 0.9965
3 2.015449 0.0035 1.0000
Eigenvalues of the Correlation Matrix
1 2.31017276 1.79636216 0.7701 0.7701
2 0.51381060 0.33779396 0.1713 0.9413
3 0.17601664 0.0587 1.0000
A observação dos autovalores obtidos nas duas situações começam a

explicitar as diferenças existentes no uso das duas matrizes. A soma dos
autovalores caso da matriz de covariâncias é a variância total (soma das
variâncias individuais) enquanto que no caso da matriz de correlações a soma
é sempre p (número de variáveis consideradas no estudo). Um outro valor que
devem ser cuidadosamente observados é o percentual de variância de cada
componente, conseqüência dos autovalores. É bom lembrar que na ACP
buscamos novos eixos (variáveis) que expliquem maior parte da variabilidade
dos dados, conseqüentemente nos dados que estão sendo analisados foi

possível obter um primeiro componente com maior proporção da variabilidade

no caso da matriz de covariâncias. Porque isso acontece?
Esse fato pode ser explicado pelos valores dos autovetores apresentados
a seguir.
Eigenvectors – VAR - COV
Prin1 Prin2 Prin3
Comprimento Comprimento 0.216477 0.973861 -.068794
Peso Peso 0.971644 -.221776 -.081995
Eigenvectors - CORR
Prin1 Prin2 Prin3
Perimetro Perimetro 0.609983 -.297558 -.734425
Peso Peso 0.596457 -.437765 0.672756
Os valores dos autovetores nos deixam claro a diferença das duas situações em
estudo. No caso da matriz de covariâncias temos que o primeiro componente responsável
por 91% da variabilidade total dos dados, tem como componente importante quase que
exclusivamente a variável peso, que como vimos é aquela que, quantitativamente em
valor absoluto, apresenta a maior variabilidade nos dados observados. O segundo
componente responsável por aproximadamente 8% da variabilidade total é explicado
quase que unicamente pela variável comprimento enquanto que o terceiro componente
apenas pela variável perímetro. Por outro lado ao observarmos os resultados a partir da
matriz de correlações, verificamos que o primeiro componente, que também explica uma
grande proporção da variabilidade dos dados (77%) tem a contribuição aproximadamente
a mesma das três variáveis em estudo. O segundo componente (17% da variabilidade)
tem uma contribuição positiva bem acentuada da variável comprimento, mas não se deve
desprezar a contribuição negativa da variável peso. O mesmo pode ser observado no
terceiro componente considerando as variáveis perímetro e peso. Essas observações

podem ser também verificadas na análise das correlações entre as variáveis e os

componentes principais nos dois casos.

Prob > |r| under H0: Rho=0 - COV
0.59491 0.83405 0.99765

Prin1
0.0035 <.0001 <.0001
0.80370 0.12928 -0.06838

Prin2
<.0001 0.5664 0.7624

Prob > |r| under H0: Rho=0 - CORR
0.79293 0.92713 0.90657

Prin1
<.0001 <.0001 <.0001
0.60815 -0.21329 -0.31379

Prin2
0.0027 0.3406 0.1550
Conclusão:
O exemplo apresentado deixa bem claro a diferença existente no uso da matriz de
variâncias e covariâncias e matriz de correlações na obtenção dos componentes principais.
A presença de variáveis com diferentes unidades de medida produz medidas de
variabilidade em função dessas medidas o que acarreta forte impacto no calculo da
variabilidade total, conseqüentemente no calculo dos componentes principais, isto é,
variáveis com maior variabilidade tendem a “dominar” os primeiros componentes
enquanto que a contribuição das demais variáveis fica restrita a componentes com baixa
proporção da variabilidade total. Esse problema não existe nos caso da matriz de
correlações, pois como vimos anteriormente o uso da matriz de correlações significa
utilizar variáveis reduzidas e padronizadas, consequentemente sem efeito da escala de
medida das mesmas.
Portanto, a recomendação encontrada na maior arte da literatura é de que a matriz
de covariâncias somente deva ser utilizada onde as variáveis no estudo tenham a mesma
escala de medida e que as variâncias das mesmas sejam também muito próximas.

Comparando as situações graficamente:





1.10. COMPONENTES PRINCIPAIS PARA MATRIZES DE COVARIÂNCIAS COM
ESTRUTURAS ESPECIAIS:
Existem certas estruturas de matrizes de covariâncias e de correlações cujos

componentes principais podem ser expressos de uma forma simples.
Suponhamos que Σ = diag (σ 11,σ 22,σ 33, ..., σ pp , ) é uma matriz diagonal. Tomando e i'
= [ 0, ..,0, 1, 0,..., 0], com o 1 na i-ésima posição, observamos que Σe i' = σ ii e i' e
concluímos que ( σ ii , e i ) é o i-ésimo par de autovalor-autovetor de Σ .
Neste caso, o i-ésimo componente principal é definido pela combinação linear
Yi = ei' X = X i , que corresponde à variável original X i . Neste caso, não ganhamos nada
extraindo os componentes principais porque as variáveis originais já são não
correlacionadas e então, não há sentido na obtenção de componentes principais, ou seja,
as variáveis devem ser estudadas de forma independente.
Exemplo:
proc iml;
reset print;
SIGMA={7.5 0 0,
0 6 0,
0 0 5};
AUTOVALOR=eigval(SIGMA);
AUTOVETOR=eigvec(SIGMA);
quit;
SIGMA 3 rows 3 cols (numeric)
7.5 0 0
0 6 0
0 0 5

AUTOVALOR 3 rows 1 col (numeric)
7.5
AUTOVETOR 3 rows 3 cols (numeric)
1 0 0
0 1 0
0 0 1
Uma segunda situação é dada por uma matriz de variância-covariâncias da seguinte

forma:
 σ2 ρσ 2 ... ρσ 2  1 ρ ... ρ 
 2  
ρσ σ 2 ... ρσ 2  2 ρ 1 ... ρ 
Σ= =σ
 ... ... ... ...  ... ... ... ...
 2   
 ρσ ρσ 2 ... σ 2   ρ ρ ... 1 
Temos então variâncias iguais e covariâncias também iguais.

Conseqüentemente as variáveis no estudo são igualmente correlacionadas e a matriz de
correlações é dada por:
1 ρ ... ρ 
ρ 1 ... ρ 
ρ=
... ... ... ...
 
ρ ρ ... 1 
É possível facilmente mostrar que nessa situação que os p autovalores da matriz

de correlação podem ser divididos em dois grupos. Quando o coeficiente de correlação ρ é
positivo temos que:
λ1 = 1 + ( p − 1) ρ

Com respectivo autovetor dado por:
 1 1 1 
e1' =  , ,..., 
 p p p 
e, os demais autovalores dados por:
λ2 = λ3 = ... = λ p = 1 − ρ
com autovalores dados por (um dos possíveis valores)
 1 −1 
e2' =  , ,0,0,...,0
 1* 2 1* 2 
 1 1 −2 
e3' =  , , ,0,0,...,0
 2*3 2*3 2*3 
...
 1 1 − (i − 1) 
ei' =  ,.., , ,0,0,...,0
 (i − 1)i (i − 1)i (i − 1)i 
...
 1 1 − ( p − 1) 
e 'p =  ,.., , 
 p (i − 1) p ( p − 1)p ( p − 1)p 
A primeira componente principal é então proporcional a soma da p variáveis

padronizadas, da seguinte forma:
p
1
Yi = e Z =
'
1
p
∑Z
i =1
i
Esta componente principal explica uma proporção de:

λi 1 + ( p − 1)ρ 1− ρ
= =ρ+
p p p
da variação total dos dados.
É ainda possível mostrar que:

λ1
≅ ρ para ρ próximo de 1 ou grande valores de p.
p

Por exemplo de ρ=0.8 e p =5 a primeira componente explica 84% da variabilidade

total, ou seja, nesses casos as demais p-1 componentes pouco contribuem e portanto
poderiam se desconsideradas.
1.11. MATRIZ X COM DISTRIBUIÇÃO NORMAL MULTIVARIADA
Considerando que X ~ N p (µ, Σ ) , sabemos que a densidade de X é constante nos

elipsóides centrados em µ.
(x − µ ) t Σ −1 (x − µ ) = c 2
que tem eixos ± c λ i e i , i = 1, 2, ..., p, onde ( λ i , e i ) são pares de autovalor-autove-tor
de Σ .
Tomando µ = 0, podemos escrever que
( )
p 1 t
c 2 = x t Σ −1x = ∑
2
ei x
i =1 λ i
onde y i = e i x , i = 1, 2, ..., p são reconhecidos como os componentes principais de x e

t
a equação define um elipsóide ( λ1 > λ 2 > ... > λ p > 0) no sistema de coordenadas
com eixos y1 , y 2 , ..., y p nas direções de e1 , e 2 , ..., e p . Se λ1 é o maior autovalor,

então o eixo maior segue na direção de e1 . Qualquer ponto no i-ésimo eixo do elipsóide
t
tem coordenadas proporcionais a e i = [ e i1 + e i 2 + ... + e ip ].
Figura 1.14. Componentes Principais com dados normais multivariados

1.12. RESUMINDO A VARIAÇÃO AMOSTRAL POR COMPONENTES PRINCIPAIS;

Suponha que x1 , x 2 , ..., x n represente uma amostra aleatória de n indivíduos de
uma população p-dimensional com vetor de médias µ e matriz de covariâncias Σ . Esses

dados produzem um vetor de médias amostrais x , uma matriz de covariâncias amostrais
S e uma matriz de correlações amostrais R. Essas matrizes S e R representam a
estrutura de interdependência das variáveis.
Buscaremos construir combinações lineares não correlacionadas das características
medidas que expliquem muito da variação amostral. Essas combinações lineares com o
máximo da variância amostral serão chamadas de componentes principais amostrais.
Se S = {s ik } (p x p) é uma matriz de covariâncias amostrais com pares de autovalor-
autovetor ( λ̂ i , ê i ), i = 1, 2, ..., p, o i-ésimo componente principal amostral é dado por

p
ŷ i = ê it x = ∑ ê ij x i , para i = 1, 2, ..., p
j=1
onde λ̂1 ≥ λ̂ 2 ≥ ... ≥ λ̂ p ≥ 0 e x é uma matriz de observações das variáveis X1 ,
X 2 , ..., X p . Também,
Variância amostral ( ŷ i ) = λ̂ i , i = 1, 2, ..., p
Covariância amostral ( ŷ i , ŷ k ) = 0, i≠k

k p
Variância amostral total = ∑ s ii = ∑ λˆ i
i =1 i =1
Correlação amostral entre a k-ésima variável original e o i-ésimo componente principal
ê ik λˆ i
amostral: rŷ , x = i , k = 1, 2, ..., p
i k
s kk
Denotaremos por ŷ1 , ŷ 2 , ..., ŷ p os componentes principais amostrais obtidos de S

ou de R, mesmo sabendo que os componentes obtidos de S e R não são iguais
geralmente. Tomaremos o cuidado de explicitar no contexto qual matriz está sendo usada.

Geralmente, as observações x i são "centradas" ou "corrigidas para a média",
subtraindo-se x , o que não afeta a matriz de covariâncias amostrais S. Nesse caso, o i-

ésimo componente principal é
ŷ i = ê it (x − x) , i = 1, 2, ..., p
para qualquer vetor de observação x. Se considerarmos os valores do i-ésimo

componente, teremos
ŷ ji = ê it (x j − x) , i = 1, 2, ..., p
E a média de cada componente principal amostral é igual a zero. A variância amostral
continua igual a λ̂ i .
1.13. NÚMERO DE COMPONENTES PRINCIPAIS QUE DEVEM SER INTERPRETADOS

EM UMA ANÁLISE;
Sempre vai aparecer a questão de quantos componentes escolher. E não existe

uma resposta definitiva para essa questão. Alguns aspectos devem ser considerados,
como a quantidade da variância amostral explicada, os tamanhos relativos dos autovalores
(isto é, as variâncias dos componentes principais) e as interpretações subjetivas associada
aos componentes. Podemos adiantar que um componente associado a um autovalor
próximo a zero será pouco importante, mas indica alguma dependência linear nos dados.
Para determinar o número de componentes principais duas alternativas são

usualmente citadas na literatura:
1. Componentes com autovalores maiores do que 1 (no caso do uso da matriz de

correlações). Nesse caso autovalores maiores que um significa uma contribuição maior
que a esperada de cada componente, logo esses componentes devem ser analisados:
2. O scree plot, que é construído com os valores de λ̂ i versus i (a magnitude de um
autovalor versus seu número). Neste caso, o número de componentes é tomado como
o ponto onde os autovalores restantes são relativamente pequenos e têm tamanhos
aproximadamente iguais.
3. Procedimento Horn (1965): Lattin, Carrol e Green (2011), pagina 92.

5
Autovalor
0
1 2 3 4 5
Ordem
Figura 1.15. Scree plot associado à análise do exemplo 8.3
O "cotovelo" que ocorre na Figura 8.2 por volta de i = 3, indica que os autovalores
superiores a λ̂ 2 são relativamente pequenos e têm valores parecidos, ou seja, somente
os dois primeiros componentes principais resumem efetivamente a variância amostral total.
Resumindo:
• Não existe uma regra automática para responder a essa pergunta.
• Com as primeiras componentes principais representa-se, em geral, a maior parte da

dispersão dos dados...
• Devem ser eliminados os componentes com autovalores baixos que representam

variações aleatórias dos dados.
1.14. GRÁFICOS EM COMPONENTES PRINCIPAIS:
Gráficos de componentes principais podem revelar observações suspeitas, além de

possibilitar a verificação da suposição de normalidade. Como os componentes principais
são combinações lineares das variáveis originais, não é razoável esperar que sejam
normalmente distribuídos, já que não fizemos qualquer suposição sobre essas variáveis.

Muitas vezes é necessário verificar que os primeiros componentes têm distribuição

aproximadamente quando eles são utilizados como variáveis de entrada em análises
adicionais.
Os últimos componentes principais podem auxiliar a identificar observações
suspeitas. Cada observação pode ser escrita como uma combinação linear de todo o
conjunto de autovalores ê1 , ê 2 ,... , ê p de S:
x j = ( x tj ê1 ) ê1 + ( x tj ê 2 ) ê 2 + ... + ( x tj ê p ) ê p = ŷ j1 ê1 + ŷ j2 ê 2 + ... + ŷ jp ê p

Assim, a magnitude dos últimos componentes principais determina quão bem os
primeiros ajustam as observações. Isto é, ŷ j1 ê1 + ŷ j2 ê 2 + ... + ŷ j,q −1 eˆ q −1 difere de
x j por ŷ jq ê q + ... + ŷ jp ê p , cujos quadrados dos seus comprimentos são ŷ 2jq , ..., ŷ 2jp .
Observações suspeitas serão aquelas que, no mínimo, em uma das coordenadas, ŷ jq , ... ,
ŷ jp contribuem para que o quadrado do seu comprimento seja grande.

Resumindo:
1. Para auxiliar a verificar a suposição de normalidade, construir gráficos de dispersão para
os pares dos primeiros componentes principais. Também fazer Q-Q plots para os valores
amostrais gerados por cada um dos componentes principais.
2. Construir diagramas de dispersão e Q-Q plots para os últimos componentes principais, o
que auxilia na identificação de observações suspeitas.
Um gráfico dos escores dos dois primeiros componentes principais pode também
ser útil na identificação grupos de indivíduos similares, com altos (ou baixos) valores
desses componentes. Essa avaliação, apesar de subjetiva, pode auxiliar a interpretar os
resultados obtidos, mas nem sempre é conclusiva.

3
8
4
2
12 14
1
5 1
2 7 13 6
CP-2
0
3
-1 11
10
-2
9
-3
-6 -4 -2 0 2 4 6
CP-1
Figura 1.16. Dispersão dos indivíduos em relação aos dois primeiros componentes principais.
Na Figura 1.16, podemos identificar, por exemplo, o grupo dos indivíduos 3, 10 e

11 que têm valores negativos para os dois componentes; o grupo dos indivíduos 8 e 14
que têm valores positivos e altos para esses componentes e o indivíduo 9, que tem um
valor positivo e alto para o componente 1, mas negativo e grande (em módulo) para o
componente 2.
1.15. VARIÁVEIS SUPLEMENTARES

Uma importante aplicação de componentes principais é a analise dos novos
componentes obtidos em relação a variáveis não utilizadas na sua obtenção. Essas
variáveis são chamadas de “Variáveis Suplementarias”. A correlação destas variáveis com
os componentes, usualmente, contribuem para uma melhor compreensão do problema em
estudo. Softwares específicos, como o francês SPAD-N tem opções para inclusive, calcular
as coordenadas destas variáveis no plano fatorial obtido. Quando uma variável
suplementar é categórica, calcula-se o valor médio, em cada componente, das
observações que possuem cada característica da variável e esses pares de valores são
utilizados para representar cada nível da variável no plano fatorial.

1.16. OUTROS TÓPICOS
1.16.1. Quando é apropriado o uso dos Componentes Principais

Os resultados a serem obtidos em uma análise de componentes principais são mais
apropriados, quanto mais correlacionadas forem às variáveis em estudo, fato que justifica
a obtenção de componentes para redução da dimensão do problema.
Por outro lado quanto mais próximo da independência, a ACP de torna adequada a
medida que, no caso extremo da independência, cada variável torna-se um componente.
Desta forma pode ser verificado inicialmente, antes de qualquer procedimento, o quanto a
matriz de covariância, ou a matriz de correlação se aproximada de uma estrutura diagonal
(próximo a situação de independência).
O teste de esferecidade proposto por Bartlett(1950) é uma alternativa para se
verificar a hipótese de que a matriz de correlações é diagonal. O teste é dado por:
𝑝𝑝2 − 𝑝𝑝 2𝑝𝑝 + 5
𝜒𝜒 2 � � = − �(𝑛𝑛 − 1) − � ln⁡|𝑅𝑅|
2 6
Sendo que:
ln|𝑅𝑅| = log 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐çã𝑜𝑜
𝑝𝑝 2 −𝑝𝑝
� 2
� = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒í𝑠𝑠𝑠𝑠𝑖𝑖𝑖𝑖𝑖𝑖 𝑑𝑑𝑑𝑑 𝑞𝑞𝑞𝑞𝑞𝑞 − 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞
𝑝𝑝 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣á𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣

𝑛𝑛 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜çõ𝑒𝑒𝑒𝑒
Príncipio do Teste: o determinante da matriz de correlações é uma medida generalizada

da variância. Ele pode ser calculado considerando o produto dos autovalores da matriz,
isto é:
𝑝𝑝
|𝑅𝑅| = � 𝜆𝜆𝑗𝑗
𝑖𝑖=1
Quando as variáveis na análise são de fato ortogonais (mutuamente exclusivas), a matriz

R deve estar próxima de um Ip . Neste caso todos os autovalores devem estar próximos
de 1. Logo |R| esta próximo de 1 e ln |R| próximo de zero. Conseqüentemente a medida
que as correlações entre as variáveis aumenta o |R| tende a crescer e ln|R| torna-se um
número negativo maior. É necessário avaliar, dado um número p de variáveis e um

número n de observações o valor obtido é significativamente menor que zero de forma

que possamos considerar a estrutura da matriz R diferente da Ip.
Exemplo:
Consideremos: p=6, n=86 |R| = 0.701
Assim,
2
𝑝𝑝2 − 𝑝𝑝 2𝑝𝑝 + 5 2
62 − 6 2∗6+5
𝜒𝜒 � � = − �(𝑛𝑛 − 1) − � ln|𝑅𝑅| = 𝜒𝜒 � � = − �(86 − 1) − � ln⁡|0.701|
2 6 2 6
𝜒𝜒 2 [15] = −[(85) − 10](−0355)
𝜒𝜒 2 [15] = 29.2
Agora:
𝜒𝜒 2 15 0.05 = 25 < 29.2
Logo rejeitamos a hipótese de que é aproximadamente uma I6 e portanto justifica-
se o uso da ACP neste caso.
Cuidado: O teste de Bartlett é um teste assintótico e sensível ao tamanho de amostra,
logo é incomum encontrar em problemas práticos situações onde a esferecidade não é
rejeitada.
1.16.2 OUTROS MÉTODOS
Outros tópicos: Inferência para Grandes Amostras e Aplicações em Controle Estatístico de

Qualidade, propostos por Johnson e Wichern, não serão aqui apresentados. Os
interessados no assunto poderão encontrá-los no texto dos referidos autores.
1.17. EXEMPLOS
Problema :
Verificar se o Índice de Desenvolvimento Humano (IDH) é um índice econômico
apropriado para descrever a situação socioeconômica dos países sul-americanos.
Unidades de Observação:
Paises Sul-americanos:

Argentina
Bolivia
Brasil
Chile
Colombia
Equador
Paraguai
Peru
Uruguai
Vemezuela
Variáveis Observadas:
• V1: Esperança de vida no nascimento (1990)
• V2: Tempo médio de escolaridade (em anos) (1990)
• V3: Produto Interno Bruto (PIB), per capta (em US$) (1990)
• V4: Gasto público em educação (em % do PIB) (1990)
• V5: Taxa de mortalidade em menores de 15 anos (a cada 100 nascidos vivos)

(1991)
• V6: Taxa de alfabetização de mulheres (em % da população feminina com idade

superior a 15 anos) (1990)
• V7: População rural (em % da população total) (1991)
• V8: Quantidade de habitantes por médico (período de 1984-1989)
• V9: Quantidade de telefones, por 1000 hab. (período de 194-1989)
• V10: Taxa de Nascimentos (1991)
• V11: Total da Divida Externa (em % do Produto Nacional Bruto) (1990)
• V12: Importância da Divida Externa (em % de exportações de bens e serviços)

(1990)
• V13: Empregados no setor de serviços (em % da população ativa) (1989-1991)
• X14: Índice de Desenvolvimento Humano
Resultados:

Estatísticas Descritivas
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum Label
V1 10 67.00000 5.30765 670.00000 54.50000 72.20000 Esperança de vida no nascimento (1990)
V2 10 6.22000 1.61713 62.20000 3.90000 8.70000 Tempo médio de escolaridade (em anos) (1990)
V3 10 9049 16246 90492 1572 55099 Produto Interno Bruto (PIB), per capta (em US$) (1990)
V4 10 2.82000 0.98635 28.20000 1.00000 4.10000 = Gasto público em educação (em % do PIB) (1990)
Taxa de mortalidade em menores de 15 anos (a cada 100 nascidos

V5 10 47.50000 24.16264 475.00000 17.00000 89.00000
vivos) (1991)
Taxa de alfabetização de mulheres (em % da população feminina

V6 10 86.20000 7.91342 862.00000 71.00000 96.00000
com idade superior a 15 anos) (1990)
V7 10 28.10000 15.77234 281.00000 9.00000 52.00000 População rural (em % da população total) (1991)
V8 10 997.00000 389.53106 9970 370.00000 1530 Quantidade de habitantes por médico (período de 1984-1989)
V9 10 73.80000 44.74818 738.00000 27.00000 163.00000 Quantidade de telefones, por 1000 hab. (período de 194-1989)
V10 10 3.33000 0.78323 33.30000 2.40000 4.70000 Taxa de Nascimentos (1991)
V11 10 64.60000 28.85288 646.00000 25.00000 121.00000 Total da Divida Externa (em % do Produto Nacional Bruto) (1990)
Importância da Divida Externa (em % de exportações de bens e

V12 10 27.70000 11.42171 277.00000 11.00000 41.00000
serviços) (1990)
V13 10 50.70000 12.05589 507.00000 31.00000 68.00000 Empregados no setor de serviços (em % da população ativa)

Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum Label
(1989-1991)
X14 10 0.71780 0.15068 7.17800 0.39800 0.88100 Índice de Desenvolvimento Humano


V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14
V1
Esperança de - - - - -
1.00000 0.73620 0.38531 0.05391 0.95155 0.65570 0.00348 0.61591 0.96797
vida no 0.94271 0.70252 0.59766 0.79837 0.36916
nascimento 0.0152 0.2715 0.8824 <.0001 0.0395 0.9924 0.0580 <.0001
(1990)
<.0001 0.0235 0.0680 0.0056 0.2938
V2
Tempo médio - - - - - -
0.73620 1.00000 0.31803 0.79845 0.56649 0.28791 0.70533 0.72388
de escolaridade 0.08457 0.72370 0.67705 0.65518 0.68742 0.07792
(em anos) 0.0152 0.3705 0.0056 0.0878 0.4199 0.0227 0.0179
(1990)
0.8163 0.0180 0.0315 0.0398 0.0281 0.8306
V3
Produto Interno - - - -
0.38531 0.31803 1.00000 0.07340 0.36237 0.14940 0.03106 0.07640 0.10033 0.41657
Bruto (PIB), per 0.50796 0.38675 0.35311 0.04057
capta (em US$) 0.2715 0.3705 0.8403 0.3035 0.6804 0.9321 0.8338 0.7827 0.2311
(1990)
0.1339 0.2696 0.3169 0.9114
V4
= Gasto público - - - - - - -
0.05391 0.07340 1.00000 0.02191 0.29010 0.50513 0.21660
em educação 0.08457 0.13865 0.49867 0.19532 0.40358 0.09105 0.03689
(em % do PIB) 0.8824 0.8403 0.9521 0.4162 0.1364 0.5478
(1990)
0.8163 0.7025 0.1423 0.5887 0.2475 0.8025 0.9194
V5
Taxa de
mortalidade em - - - - - - - -
0.02191 1.00000 0.69346 0.48678 0.76766 0.29246
menores de 15 0.94271 0.72370 0.50796 0.94777 0.68594 0.19506 0.56165 0.93980
anos (a cada 0.9521 0.0262 0.1536 0.0095 0.4122
100 nascidos
<.0001 0.0180 0.1339 <.0001 0.0285 0.5892 0.0911 <.0001
vivos) (1991)
V6
Taxa de
alfabetização de
mulheres - - - - - -
0.95155 0.79845 0.36237 1.00000 0.66376 0.09785 0.51314 0.90407
(em % da 0.13865 0.94777 0.65449 0.63382 0.68768 0.26142
população <.0001 0.0056 0.3035 0.0364 0.7880 0.1293 0.0003
feminina com
0.7025 <.0001 0.0400 0.0491 0.0280 0.4656
idade superior a
15 anos) (1990)
V7
População rural - - - - - - - - -
0.69346 1.00000 0.68276 0.84970 0.29260
(em % da 0.70252 0.67705 0.38675 0.49867 0.65449 0.77090 0.10590 0.71739 0.83403
população total) 0.0262 0.0296 0.0019 0.4120
(1991)
0.0235 0.0315 0.2696 0.1423 0.0400 0.0090 0.7709 0.0195 0.0027
V8 - - 0.14940 - 0.48678 - 0.68276 1.00000 - 0.60197 0.00878 - - -


V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14
Quantidade de 0.59766 0.65518 0.6804 0.19532 0.1536 0.63382 0.0296 0.72162 0.0656 0.9808 0.23947 0.56829 0.63244
habitantes por
médico (período 0.0680 0.0398 0.5887 0.0491 0.0185 0.5052 0.0865 0.0497
de 1984-1989)
V9
Quantidade de - - - - -
telefones, por 0.65570 0.56649 0.03106 0.29010 0.66376 1.00000 0.43727 0.70632 0.77470
1000 hab. 0.68594 0.77090 0.72162 0.83264 0.43492
0.0395 0.0878 0.9321 0.4162 0.0364 0.2063 0.0224 0.0085
(período de 0.0285 0.0090 0.0185 0.0028 0.2091
194-1989)
V10 - - - - - - - - -
Taxa de 0.76766 0.84970 0.60197 1.00000 0.43966
Nascimentos 0.79837 0.68742 0.35311 0.40358 0.68768 0.83264 0.28207 0.85323 0.90092
0.0095 0.0019 0.0656 0.2036
(1991) 0.0056 0.0281 0.3169 0.2475 0.0280 0.0028 0.4298 0.0017 0.0004
V11
Total da Divida - - - - - - -
Externa (em % 0.07640 0.29246 0.29260 0.00878 0.43966 1.00000 0.32664
do Produto 0.36916 0.07792 0.09105 0.26142 0.43492 0.27477 0.40366
0.8338 0.4122 0.4120 0.9808 0.2036 0.3570
Nacional Bruto) 0.2938 0.8306 0.8025 0.4656 0.2091 0.4423 0.2474
(1990)
V12
Importância da
Divida Externa - - - - - -
0.00348 0.28791 0.09785 0.43727 0.32664 1.00000 0.38256 0.09732
(em % de 0.04057 0.03689 0.19506 0.10590 0.23947 0.28207
exportações de 0.9924 0.4199 0.7880 0.2063 0.3570 0.2752 0.7891
bens e serviços)
0.9114 0.9194 0.5892 0.7709 0.5052 0.4298
(1990)
V13
Empregados no
setor de - - - - -
0.61591 0.70533 0.10033 0.50513 0.51314 0.70632 0.38256 1.00000 0.69942
serviços (em % 0.56165 0.71739 0.56829 0.85323 0.27477
da população 0.0580 0.0227 0.7827 0.1364 0.1293 0.0224 0.2752 0.0244
ativa) (1989-
0.0911 0.0195 0.0865 0.0017 0.4423
1991)
X14 - - - - -
Índice de 0.96797 0.72388 0.41657 0.21660 0.90407 0.77470 0.09732 0.69942 1.00000
Desenvolviment 0.93980 0.83403 0.63244 0.90092 0.40366
<.0001 0.0179 0.2311 0.5478 0.0003 0.0085 0.7891 0.0244
o Humano <.0001 0.0027 0.0497 0.0004 0.2474

1 7.00482811 5.30662135 0.5388 0.5388
2 1.69820675 0.19484743 0.1306 0.6695
3 1.50335932 0.31126950 0.1156 0.7851
4 1.19208982 0.41986651 0.0917 0.8768
5 0.77222330 0.0594 0.9362
Eigenvectors
Prin1 Prin2 Prin3 Prin4 Prin5
0.34087 - - - -
V1 Esperança de vida no nascimento (1990)
0 .243614 .095139 .075475 .093795
0.31291 - 0.23919 - -
V2 Tempo médio de escolaridade (em anos) (1990)
2 .152976 5 .000885 .134807
Produto Interno Bruto (PIB), per capta (em US$) 0.12777 - - 0.68203 0.14071
V3
(1990) 6 .390621 .129523 9 5
0.09479 0.55312 - 0.40194 -

V4 = Gasto público em educação (em % do PIB) (1990)
1 4 .335017 4 .178913
Taxa de mortalidade em menores de 15 anos (a cada - 0.29056 - - -

V5
100 nascidos vivos) (1991) .335270 8 .007711 .031042 .129380
Taxa de alfabetização de mulheres (em % da

0.32953 - 0.06194 - -
V6 população feminina com idade superior a 15 anos)
2 .322150 2 .137619 .110710
(1990)
- - 0.14158 - 0.19500
V7 População rural (em % da população total) (1991)
.333845 .131846 1 .178006 5
Quantidade de habitantes por médico (período de - - - 0.24024 0.53624

V8
1984-1989) .275662 .189542 .230204 0 2
Quantidade de telefones, por 1000 hab. (período de 0.32463 0.22317 0.03882 - 0.20877
V9
194-1989) 5 2 8 .198056 2
V1 - - 0.10921 - -
Taxa de Nascimentos (1991)
0 .353503 .123601 4 .083512 .187352
V1 Total da Divida Externa (em % do Produto Nacional - - 0.57179 0.44050 -

1 Bruto) (1990) .130241 .008828 2 8 .425526
V1 Importância da Divida Externa (em % de exportações 0.09968 0.24126 0.62219 0.11004 0.54168
2 de bens e serviços) (1990) 3 5 4 2 3
V1 Empregados no setor de serviços (em % da população 0.30804 0.30631 0.01672 0.07685 0.11602
3 ativa) (1989-1991) 3 8 3 3 4


V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14
0.90217 0.82817 0.33818 0.25088 -0.88735 0.87216 -0.88358 -0.72959 0.85920 -0.93560 -0.34471 0.26383 0.81529 0.96110
Prin1
0.0004 0.0031 0.3392 0.4845 0.0006 0.0010 0.0007 0.0166 0.0014 <.0001 0.3293 0.4614 0.0040 <.0001
-0.31747 -0.19935 -0.50904 0.72081 0.37865 -0.41981 -0.17182 -0.24700 0.29083 -0.16107 -0.01150 0.31440 0.39918 -0.15226
Prin2
0.3714 0.5808 0.1329 0.0187 0.2806 0.2271 0.6351 0.4915 0.4149 0.6567 0.9748 0.3763 0.2531 0.6746
-0.11665 0.29328 -0.15881 -0.41077 -0.00945 0.07595 0.17359 -0.28226 0.04761 0.13391 0.70108 0.76288 0.02050 -0.14810
Prin3
0.7483 0.4108 0.6612 0.2383 0.9793 0.8348 0.6315 0.4294 0.8961 0.7123 0.0239 0.0103 0.9552 0.6830






Pobreza
conjuntural
Pobreza
estrutural
Investimento público
Em Educação


Retornando aos dados originais:
V1 V2 V5 V6
Média Média Média Média
Uru 72.20 7.80 21.00 96.00
Arg 71.00 8.70 30.00 95.00
Chi 71.80 7.50 17.00 93.00
Ven 70.00 6.30 34.00 90.00
Col 68.80 7.10 38.00 86.00
Bra 65.60 3.90 59.00 80.00
Equ 66.00 5.60 59.00 84.00
Par 67.10 4.90 48.00 88.00
Per 63.00 6.40 80.00 79.00
Bol 54.50 4.00 89.00 71.00
Média 67.00 6.22 47.50 86.20

MOTIVAÇÃO: INVESTIGANDO O APROVEITAMENTO CONJUNTO DAS PROVAS DO
PROCESSO SELETIVO DA UFSCAR.
Ficaremos restritos aos dados dos alunos ingressos na UFSCar em 2006. Dessa forma
os objetivos a serem investigados ficarão restritos a:
1) Como é a estrutura de correlação conjunta das provas?
2) Como é o aproveitamento conjunto das provas para os diferentes cursos da UFSCar?
UMA ANÁLISE ESTATÍSTICA DESCRITIVA E EXPLORATÓRIA:
Alguns resultados:
Medidas Descritivas:
Provas N Média Mediana Desvio Padrão Nota Mínima Nota Máxima
Lingua Portuguesa 1375 19.62 20.00 2.51 9.50 25.50
Lingua Inglesa 1375 9.18 10.00 3.23 0.50 14.00
Redação 1375 19.00 19.50 3.21 7.50 28.50
Matematica 1375 5.49 5.00 2.81 0.50 16.50
Quimica 1375 11.49 12.00 3.50 1.00 19.00
Fisica 1375 10.44 11.00 4.79 0.50 20.00
Biologia 1375 11.45 11.50 2.72 3.00 19.00
História 1375 11.52 11.50 2.74 1.00 19.00
Geografia 1375 10.05 10.00 2.59 1.00 19.00
Graficamente:

Histogramas:
F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Redação Matematica Fisica
F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Lingua Portugues Quimica Biologia
F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Lingua Inglesa História Geografia

UMA ANÁLISE ESTATÍSTICA CONJUNTA DOS DADOS:
Para uma análise conjunta das variáveis observadas, objetivo, é possível inicialmente
construir uma matriz de gráficos, onde todos os possíveis gráficos de dispersão das
variáveis, duas a duas, são apresentados. Desta forma, através desta matriz é possível a
observação do comportamento conjunto, duas a duas, das variáveis observadas.

Matriz de Gráficos:
25 25 25
Redp tlp tli tmat tqui this tfis tbio tgeo : Redp tlp tli tmat tqui this tfis tbio tgeo
R 20 R 20 R 20
e e e
d 25 25 25 d d
25 25 25
p 15 p 15 p 15
R R R 20 R 20 R 20 R 20
20 20
e 10 e e e e e 10 10
d d d d d d
p p 15 p 15 p 15 p 15 p 15
15 5 10 15 5 10 15
10 15 20 25
tlp tbio tgeo
10 10 10 10 10
10
2 4 6 8 10 12 14 5 10 15 5 10 15 5 10 15 5 10 15 20
10 15 20 25
Redp tli tmat tqui this tfis
25 25 25 25 25
25 25 25 25
20 20 20 20 20
20 20 20 20
t t t t t t
t t t
l l l l l l
l l l
p p p p p p
p p p
15 15 15 15 15
15 15 15 15
10 10 10 10 10
10 10 10 10
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli
14 14 14 14 14
14 14 14 14
12 12 12 12 12
12 12 12 12
10 10 10 10 10
10 10 10 10
t t t t t t
t t t 8 8 8 8 8 8 8
8 8
l l l l l l
l l l
i i i i i i 6
i 6 i 6 i 6 6 6 6 6 6
4 4 4 4 4
4 4 4 4
2 2 2 2 2
2 2 2 2
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
15 15 15 15 15
15 15 15 15
t t t t t t
t t t 10 10 10 10 10 10 10
10 10
m m m m m m
m m m
a a a a a a
a a a
t t t t t t
t t t
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
15 15 15 15 15
15 15 15 15
t t t t t t
t t t
q q q q q q
q q q 10 10 10 10 10
10 10 10
u
10
u u u u u
u u u
i i i i i i
i i i
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
15 15 15 15 15
15 15 15 15
t t t t t t
t t t
h h h h h h
h h h 10 10 10 10 10
10 10 10
i
10
i i i i i
i i i
s s s s s s
s s s
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
20 20 20 20 20
20 20 20 20
15 15 15 15 15
15 15 15 15
t t t t t t
t t t
f f f f f f
f f f 10 10 10
10 10 10
i
10
i
10
i
10
i i i
i i i
s s s s s s
s s s
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
15 15 15 15 15
15 15 15 15
t t t t t t
t t t
b b b b b b
b b b
i i i i i i
i 10 i 10 i 10 10 10 10 10 10 10
o o o o o o
o o o
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli
15 15 15 15 15
15 15 15 15
t t t t t t
t t t
g g g g g g
g g g 10 10 10 10 10
10 10 10
e
10
e e e e e
e e e
o o o o o o
o o o
5 5 5 5 5
5 5 5 5
5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
Redp tlp tli

A matriz de gráficos acima nos permite identificar possíveis associações (lineares ou não lineares) das variáveis de forma
bivariada. Do ponto de vista da associação linear esta informação pode ser também expressa a partir da matriz de
correlação das variáveis observadas.
Matriz de Correlações:

tlp tli Redp tmat tqui tfis tbio this tgeo
1.00000
Lingua Portuguesa
0.36006 1.00000
Lingua Inglesa <.0001
0.19910 0.14239 1.00000

Redação <.0001 <.0001
0.18174 0.26395 0.06813 1.00000

Matematica <.0001 <.0001 0.0115
0.26874 0.27899 0.17822 0.48510 1.00000

Quimica <.0001 <.0001 <.0001 <.0001
0.22796 0.29550 0.11175 0.65073 0.67263 1.00000

Fisica <.0001 <.0001 <.0001 <.0001 <.0001
0.25649 0.19192 0.17234 0.23435 0.48748 0.37251 1.00000

Biologia <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
0.26378 0.25463 0.22268 0.01128 0.12665 0.09736 0.23881 1.00000

História <.0001 <.0001 <.0001 0.6759 <.0001 0.0003 <.0001
0.23779 0.22785 0.19775 0.26280 0.35022 0.38186 0.35373 0.40620

1.00000
Geografia <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 82

1 3.27665916 1.88538607 0.3641 0.3641
2 1.39127310 0.45579394 0.1546 0.5187
3 0.93547916 0.08796834 0.1039 0.6226
4 0.84751082 0.10356303 0.0942 0.7168
5 0.74394779 0.13670850 0.0827 0.7994
6 0.60723929 0.10517527 0.0675 0.8669
7 0.50206402 0.07476946 0.0558 0.9227
8 0.42729456 0.15876246 0.0475 0.9702
9 0.26853210 0.0298 1.0000

Eigenvectors
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8 Prin9
Lingua
tlp 0.288070 0.289584 0.490396 0.073485 -.432078 -.632176 -.013674 -.006596 -.026472
Portuguesa
tli Lingua Inglesa 0.297135 0.164925 0.648150 -.083717 0.142261 0.611999 -.250165 0.005489 0.002981
Redp Redação 0.188387 0.362645 -.187124 0.860977 0.217530 0.060083 -.038704 0.053189 -.038025
tmat Matematica 0.355280 -.431519 0.130128 0.050511 0.331103 -.181182 0.220021 0.590673 0.358221
tqui Quimica 0.429537 -.254451 -.125428 0.092605 -.183132 0.100737 0.120702 -.642455 0.505412
tfis Fisica 0.430802 -.367070 -.026565 0.004811 0.148644 -.061577 0.119549 -.199180 -.774008
tbio Biologia 0.349202 0.044832 -.367658 -.066604 -.650682 0.331211 -.037041 0.441257 -.085278
this História 0.228284 0.569989 -.136038 -.351259 0.238037 0.041932 0.649428 -.029069 0.009396
tgeo Geografia 0.350521 0.211752 -.342560 -.327629 0.316924 -.252933 -.659798 -.015097 0.087356

Correlação das Variáveis com os Componentes

Principais:
proc corr data=saida;
var tlp tli redp tmat tqui tfis tbio this tgeo;
with prin1-prin4;
run;

tlp tli Redp tmat tqui tfis tbio this tgeo
0.5214
0.5378 0.3410 0.6431 0.7775 0.7798 0.6321 0.4132 0.6345
Prin 5
6 1 1 3 2 1 3 0
1 <.000
<.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
1
0.3415 - - -
0.1945 0.4277 0.0528 0.6723 0.2497
Prin 7 0.5089 0.3001 0.4329
3 5 8 1 7
2 <.000 9 3 7
<.0001 <.0001 0.0499 <.0001 <.0001
1 <.0001 <.0001 <.0001
0.4743 - - - - - -
0.6268 0.1258
Prin 1 0.1809 0.1213 0.0256 0.3556 0.1315 0.3313
9 6
3 <.000 9 1 9 0 8 3
<.0001 <.0001
1 <.0001 <.0001 0.3411 <.0001 <.0001 <.0001
- - - -
0.0676 0.7926 0.0465 0.0852 0.0044
Prin 0.0770 0.0613 0.3233 0.3016
5 2 0 5 3
4 7 2 7 2
0.0121 <.0001 0.0848 0.0016 0.8697
0.0042 0.0230 <.0001 <.0001

Gráfico das Variáveis no 1º Plano Fatorial:
goptions reset=all gunit=pct border cback=white ftitle=swissb htitle=6

htext=2.5;
symbol3 color=yellow value=dot height=3;
symbol4 color=black value=dot height=3;
symbol5 color=green value=dot height=3;
symbol6 color=orange value=dot height=3;
symbol7 color=pink value=dot height=3;
symbol8 color=cyan value=dot height=3;
symbol9 color=gray value=dot height=3;
proc gplot;
title1 'Grafico das Variaveis no 1o Plano Fatorial';
plot prin2*prin1=_label_/haxis=-0.1 to 0.5 by 0.1 vref=0 href=0;
run;


Editando:

Analisando os Curso no 1º Plano Fatorial


Gráfico dos alunos no 1º Plano Fatorial
Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso
Média Média Média Média Média Média Média Média Média
Pedagogia 18.04 5.79 17.07 2.97 6.17 3.63 8.53 10.55 8.01
Medicina 22.91 12.24 23.14 8.83 16.65 16.83 16.30 14.61 14.36
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05
Lingua Lingua
Portuguesa Inglesa
Curso
Imagem e Som 21.59 11.91 20.51 6.38 12.38 12.18 12.33 15.05 12.53
Biologia Bach. 21.20 10.77 20.70 5.27 13.60 11.77 14.27 13.60 11.43
Psicologia 21.44 11.10 20.48 5.43 11.81 9.81 13.06 14.26 11.24
Eng Computação 20.53 11.28 19.45 8.42 14.53 16.12 12.90 12.28 11.75
Eng Química 20.64 10.34 19.28 7.33 14.86 14.98 12.28 11.80 10.68
Eng Física 21.43 10.98 20.15 9.40 14.28 16.50 13.15 13.10 11.92
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Lingua Lingua
Portuguesa Inglesa
Curso
Biologia Lic. 19.37 9.23 18.75 4.32 12.95 9.03 14.12 12.18 10.68
Enfermagem 19.35 7.35 18.40 3.82 10.38 6.87 11.82 9.98 7.88
Biotecnologia 20.12 8.98 20.46 5.70 14.44 13.72 13.66 12.26 10.82
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05
Lingua Lingua
Portuguesa Inglesa
Curso
Biblioteconomia 18.25 7.61 18.11 2.59 6.34 3.66 8.80 10.84 8.43
Matemática
Diurno 17.07 5.67 16.40 5.20 7.57 7.32 7.92 8.12 7.82
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05
Lingua Lingua
Portuguesa Inglesa
Curso
Turismo 18.74 8.60 18.41 2.74 7.54 4.75 9.34 12.13 9.46
Letras 19.30 9.89 19.09 2.85 8.31 4.95 9.08 12.30 8.76
Eng
Computação 20.53 11.28 19.45 8.42 14.53 16.12 12.90 12.28 11.75
Eng Física 21.43 10.98 20.15 9.40 14.28 16.50 13.15 13.10 11.92
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Lingua Lingua
Portuguesa Inglesa
Curso
Imagem e
Som 21.59 11.91 20.51 6.38 12.38 12.18 12.33 15.05 12.53
Biologia
Bach. 21.20 10.77 20.70 5.27 13.60 11.77 14.27 13.60 11.43
Psicologia 21.44 11.10 20.48 5.43 11.81 9.81 13.06 14.26 11.24
Engenharia
Agronômica 17.47 7.39 17.67 4.06 10.96 7.55 11.62 9.51 8.63
Matemática
Diurno 17.07 5.67 16.40 5.20 7.57 7.32 7.92 8.12 7.82
Matemática
Noturno 18.52 5.92 17.75 4.72 7.83 8.28 9.55 9.43 9.03
Química
Noturno 17.58 5.73 18.15 4.05 11.48 7.08 10.43 9.68 8.20
UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Estatística Multivariada

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estatística Multivariada

Caricato da

Copyright:

Formati disponibili

UNIVERSIDADE FEDERAL DE SÃO CARLOS

CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA

PROF. PEDRO FERREIRA FILHO

1. ANÁLISE DE COMPONENTES PRINCIPAIS

A análise de componentes principais (ACP) é uma técnica de análise multivariada que

• Descrição e compreensão da estrutura de dependência entre as variáveis;

1.1.1. ALGUMAS APLICAÇÕES:

Consideremos três possíveis situações de uso da análise de componentes principais:

1.2. MOTIVAÇÃO: INVESTIGANDO O APROVEITAMENTO CONJUNTO DAS PROVAS

1) Como é a estrutura de correlação conjunta das provas?

2) Em caso afirmativo, esta estrutura é a mesma ao longo dos anos?

3) Como é o aproveitamento conjunto das provas para os diferentes cursos da UFSCar?

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 2

Para verificação destas questões é disponibilizado um conjunto de dados referentes aos

1.3. ALGUNS RESULTADOS BÁSICOS:

Λ = Matriz diagonal com os autovalores de A;

print 'Autovetores de A';

0.9716944 -0.191431 0.1384345

-0.077921 0.293488 0.9527818

0.2230212 0.9365996 -0.270264

Matriz Original - Matriz da Decomposição

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 4

2. Autovalores de Uma Matriz Simétrica Definida Positiva:

Uma matriz A, simétrica, é uma matriz positiva definida se e somente

sendo o máximo obtido quando x = cB −1d para toda constante c ≠ 0.

4. Máximo de Formas Quadráticas para Pontos num Círculo Unitário:

Seja B uma matriz positiva definida com autovalores λ1 ≥ λ2 ≥.....≥ λp ≥ 0 e autovetores

1.4. REPRESENTAÇÃO GEOMETRICA DE UMA TABELA DE DADOS X n X 3

Um conjunto de dados observados em um determinado pode, na maioria dos casos, ser

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 5

Tabela 1.1. Dados Observados

Tabela 1.2. Soma de Valores de Coluna da Matriz de Dados Observados

podemos representar as observações nos casos onde a dimensão k, número de variáveis é no

1.4.1. Representação Geométrica dos Indivíduos:

No espaço dos indivíduos estamos interessados na observação dos pontos observados,

Figura 1.1. Representação Geométrica no espaço dos indivíduos.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 7

Exemplo: Estudo da morfologia de um grupo de animais

Este conjunto de dados é representado geometricamente da seguinte forma no espaço dos

Figura 1.2. Representação Geométrica da slinhas da Tabela 1.4.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 8

Figura 1.3. Dispersão dos Valores em Relação ao Ponto Central G.

1.4.2. Representação Geométrica das Variáveis:

A medida acima é o coeficiente de correlação entre duas variáveis.

Figura 1.4. Representação geométrica no espaço das colunas.

No caso do estudo morfológico dos animais, temos a seguinte figura.

Figura 1.5. Representação geométrica das colunas da Tabela 1.4.

Consideremos agora o ângulo entre duas variáveis:

1.5. UMA VISÃO GEOMÉTRICA DOS COMPONENTES PRINCIPAIS:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 11

Figura 1.6 – Busca de uma melhor representação plana

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 12

Figura 1.7. – Um melhor plano para representação dos dados

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 13

Figura 1.8. – Novos eixos rotacionados

1.6. COMPONENTES PRINCIPAIS – UMA SITUAÇÃO SIMPLES:

Tabela 1.4. Dados originais e corrigidos pela média

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 14

observações com respeito a X1∗ .

onde x 1∗ é a coordenada na observação com respeito a X1∗ , e x1 e x 2 , as coordenadas das

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 15

coordenadas x 1∗ . A Tabela 1.6. apresenta as variâncias e as porcentagens explicadas pelas novas