Sei sulla pagina 1di 90

UNIVERSIDADE FEDERAL DE SÃO CARLOS

CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA


DEPARTAMENTO DE ESTATÍSTICA

ESTATÍSTICA MULTIVARIADA 2

CAPÍTULO # 1

ANÁLISE DE COMPONENTES
PRINCIPAIS

PROF. PEDRO FERREIRA FILHO

2º SEMESTRE DE 2013
Capítulo 1 – Análise de Componentes Principais

1. ANÁLISE DE COMPONENTES PRINCIPAIS

1.1. INTRODUÇÃO:

A análise de componentes principais (ACP) é uma técnica de análise multivariada que


consiste em estudar a estrutura de interdependência de um conjunto de variáveis observadas em
um conjunto de dados. O estudo desta interdependência considera a análise da estrutura de
variâncias e covariâncias das variáveis buscando a obtenção de combinações lineares (os
componentes principais!) dessas próprias variáveis. Dessa forma é possível de reduzir a
dimensionalidade do problema em estudo e assim facilitar a análise e interpretação das
interdependências entre elas. Vale salientar que a ACP é um passo intermediário em muitas
investigações, como por exemplo, na regressão múltipla, análise de agrupamentos (cluster
analysis) etc. Podemos então, resumir que os principais objetivos da análise de componentes
principais são:

• Descrição e compreensão da estrutura de dependência entre as variáveis;


• Redução da dimensionalidade do problema;
• Obtenção de novas variáveis, combinações lineares das variáveis originais, que sejam
interpretáveis;

1.1.1. ALGUMAS APLICAÇÕES:

Consideremos três possíveis situações de uso da análise de componentes principais:


• O departamento de controle de qualidade está interessado em desenvolver alguns (poucos!)
índices para estudar numerosas características com informações sobre o processo de
manufatura, com o intuito de determinar se o processo está ou não sob controle.
• Um diretor de marketing está interessado em desenvolver um modelo de regressão para fazer
previsões de vendas. Entretanto, as variáveis independentes consideradas são correlacionadas
entre si e a existência de multicolinearidade entre elas pode resultar em estimativas instáveis
do modelo de regressão. Neste caso, seria extremamente útil obter novas variáveis, que sejam
combinações lineares das variáveis originais, mas não correlacionadas entre si. E essas novas
variáveis poderão ser usadas para desenvolver o modelo de regressão.
• Estudo de indicadores de saúde, educação e consumo de energia nas regiões administrativas do
estado de São Paulo (PET-Estatística – SINAPE (2010))
• Uma abordagem multivariada dos resultados do ENADE 2009 dos Cursos de Estatística (PET-
Estatística – SINAPE (2012))
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 1
Capítulo 1 – Análise de Componentes Principais

1.2. MOTIVAÇÃO: INVESTIGANDO O APROVEITAMENTO CONJUNTO DAS PROVAS


DO PROCESSO SELETIVO DA UFSCAR.

O processo seletivo da UFSCar é composto por nove provas: Língua Portuguesa, Língua
Inglesa e Redação, Química, Matemática e História, Biologia, Física e Geografia. Cada uma destas
provas, exceto a de Redação, era constituída de uma parte de Questões Objetivas e de uma parte
de Questões Discursivas. Cada questão da parte objetiva valia um ponto e cada questão discursiva
valia até dois pontos, com a seguinte forma de correção: em branco ou totalmente errada: 0
ponto; 25% de acerto: 0.5 ponto; 50% de acerto 1.0 ponto; 75% de acerto: 1.5 pontos;
totalmente correta: 2 pontos. O número de pontos possíveis em cada parte, de cada uma das
provas, e o número total de pontos possíveis, são apresentados na tabela abaixo:
Tabela 1.1 – Provas do Processo Seletivo - UFSCar
Número de Pontos
Prova Parte Parte Total
Objetiva Discursiva

Língua Portuguesa 10 16 26
Língua Inglesa 6 8 14
Redação 30
Química 10 10 20
Matemática 10 10 20
História 10 10 20
Biologia 10 10 20
Física 10 10 20
Geografia 10 10 20
Total Geral 190

Para efeito de classificação dos candidatos, as provas são ponderadas de acordo com a
carreira de opção do candidato. Sem a ponderação, para todos os cursos o total de pontos
possíveis é de 190, conforme a tabela acima, enquanto que com a ponderação o total, por curso,
poderia estar entre 236 e 270.
A Comissão do Vestibular da UFSCar (Covest) desejava verificar como é o aproveitamento
conjunto nas provas do processo seletivo. Nesse sentido três questões são apresentadas:

1) Como é a estrutura de correlação conjunta das provas?

2) Em caso afirmativo, esta estrutura é a mesma ao longo dos anos?

3) Como é o aproveitamento conjunto das provas para os diferentes cursos da UFSCar?

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 2


Capítulo 1 – Análise de Componentes Principais

Para verificação destas questões é disponibilizado um conjunto de dados referentes aos


alunos ingressos no processo seletivo da UFSCar nos anos de 2000 a 2004. Esse conjunto de
dados possui a informação de todos os alunos ingressos nesse período sendo que as variáveis
disponíveis no arquivo de dados são: Curso do aluno, sexo e tipo de escola que curso o ensino
médio e total de pontos em cada uma das nove prova do processo seletivo.

1.3. ALGUNS RESULTADOS BÁSICOS:


1. Teorema da Decomposição Espectral:

Seja A uma matriz simétrica positiva definida de ordem k. A matriz A pode ser reescrita a
partir dos seus autovalores e autovetores, da seguinte forma:

A=PΛP

A = Σ λi ei ei’
com

Λ = Matriz diagonal com os autovalores de A;


P = Matriz com os autovetores normalizados de A, isto é:

ei’ei = 1 e ei’ej = 0;
Exemplo:
 25 − 2 4
A = − 2 4 1 
 4 1 9 

Usando SAS-IML
proc iml;
A = {25 -2 4,
-2 4 1,
4 1 9};
l = eigval(A); /* calcula autovalores */
lambda = diag(l);
print 'Autovalores de A';
print Lambda;
P = eigvec(A); /* calcula autovetores */
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 3
Capítulo 1 – Análise de Componentes Principais

print 'Autovetores de A';


print P;
A1 = P*Lambda*P`;
print 'Matriz Original - Matriz da Decomposição';
print A A1;
quit;

Resultados:

Autovalores de A

LAMBDA

26.078452 0 0

0 8.4957958 0

0 0 3.4257518

Autovetores de A

0.9716944 -0.191431 0.1384345

-0.077921 0.293488 0.9527818

0.2230212 0.9365996 -0.270264

Matriz Original - Matriz da Decomposição

A A1

25 -2 4 25 -2 4

-2 4 1 -2 4 1

4 1 9 4 1 9

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 4


Capítulo 1 – Análise de Componentes Principais

2. Autovalores de Uma Matriz Simétrica Definida Positiva:

Uma matriz A, simétrica, é uma matriz positiva definida se e somente


se todos os seus autovalores são positivos.

3. Lema da Maximização:

Seja B(px p) uma matriz positiva definida e d(p x 1) um dado vetor. Então para um vetor
arbitrário x(p x 1) (x ≠ 0),

max
( x' d )
2
= d ' B −1 d
x≠0 x' Bx

sendo o máximo obtido quando x = cB −1d para toda constante c ≠ 0.

4. Máximo de Formas Quadráticas para Pontos num Círculo Unitário:

Seja B uma matriz positiva definida com autovalores λ1 ≥ λ2 ≥.....≥ λp ≥ 0 e autovetores


normalizados e1, e2, .....ep. Então:

x' Bx
max = λ1 obtido quando x = e1
x≠0 x' x
x' Bx
min = λ p obtido quando x = e p
x≠0 x' x
e ainda mais;

x' Bx
max = λk +1 obtido quando x = e k +1, k = 1,2,..., p − 1
x ⊥e1 ...ek x' x

1.4. REPRESENTAÇÃO GEOMETRICA DE UMA TABELA DE DADOS X n X 3

Um conjunto de dados observados em um determinado pode, na maioria dos casos, ser


representado por uma tabela de dados da seguinte forma:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 5


Capítulo 1 – Análise de Componentes Principais

Tabela 1.1. Dados Observados

Considerando que V1, V2, ..., Vk são variáveis quantitativas, temos que uma importante
propriedade deve ser considerada. Usualmente, apenas operações, como por exemplo, a soma dos
valores das linhas da tabela pode ser realizada.

Tabela 1.2. Soma de Valores de Coluna da Matriz de Dados Observados

Uma tabela de dados pode ser representada geometricamente de duas diferentes formas:
no espaço das linhas (ou dos indivíduos) e no espaço das colunas (ou das variáveis). No espaço
das linhas, os eixos são dados pelas colunas (variáveis) e no das colunas, vice-versa. Dessa forma,
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 6
Capítulo 1 – Análise de Componentes Principais

podemos representar as observações nos casos onde a dimensão k, número de variáveis é no


máximo 3 e no caso das variáveis quando o número de observações é de no máximo três (caso
impossível em termos práticos!!).

1.4.1. Representação Geométrica dos Indivíduos:

No espaço dos indivíduos estamos interessados na observação dos pontos observados,


considerando-se as variáveis em estudo (eixos nesse caso). Dentre outros aspectos, essa
representação geométrica nos permite visualizar as distâncias entre quaisquer duas observações
no conjunto de dados observações. Quanto mais próximos dois pontos estiverem no gráfico, mais
semelhantes, segundo as variáveis observadas, são as unidades de observação. Para se avaliar a
semelhança entre duas observações i e j quaisquer podemos utilizar a distância euclidiana dada
por:

d (i, j ) = ∑ mk (xik − x jk )
K
2 2

k =1

Se considerarmos todas as variáveis com mesmo grau de importância (mk=1 para todo k),
temos que:
2
d (i, j ) = ∑  xik − x jk 
K
2

k =1
 

A representação no espaço dos indivíduos pode então ser vista na seguinte figura:

Figura 1.1. Representação Geométrica no espaço dos indivíduos.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 7


Capítulo 1 – Análise de Componentes Principais

Exemplo: Estudo da morfologia de um grupo de animais


Tabela 1.3 Estudo da Morfologia de um Grupo de Animais

Este conjunto de dados é representado geometricamente da seguinte forma no espaço dos


animais (linhas):

Figura 1.2. Representação Geométrica da slinhas da Tabela 1.4.

O gráfico nos permite uma primeira idéia sobre as distâncias entre duas quaisquer
unidades de observação bem como da variabilidade total dos dados. É importante, porém lembrar
que a representação esta numa dimensão três, o que, numa primeira visualização pode mascarar
determinadas distâncias. Por outro lado a distância entre indivíduos pode também nos levar a

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 8


Capítulo 1 – Análise de Componentes Principais

visualizar a variabilidade total dos dados. Se considerarmos o “ponto central” dos valores
observados e as distâncias do mesmo para cada um dos dados observados, teremos uma medida
da variabilidade geral dos dados.

Figura 1.3. Dispersão dos Valores em Relação ao Ponto Central G.

Problema:
Os indivíduos estão representados num espaço de dimensão K, porém uma adequada
visualização das distâncias entre dois pontos quaisquer é possível nos casos onde k = 2.

1.4.2. Representação Geométrica das Variáveis:


No espaço das variáveis (colunas) estamos interessados na observação das variáveis,
considerando-se os indivíduos (linhas) como eixos. Nesse caso a dimensão do gráfico seria no
espaço Rn. Para casos onde n > 3 (situação usual) esta representação torna-se impossível.
Portanto, na pratica esta representação de dados na sua forma original é pouco usual. Porém da
mesma forma que no caso do espaço das linhas, essa representação geométrica nos permitiria
visualizar as distâncias entre quaisquer duas colunas (variáveis) no conjunto de dados observações.
A distância entre colunas, nesse caso nos representaria o grau de associação entre duas variáveis.
Faz-se necessário também aqui definir uma medida de distância que indique a proximidade entre
duas variáveis quaisquer, considerando-se os valores dos n indivíduos observados. Esta medida é
dada por:
 x − xk
n
 xip − x p 
d (k ; p ) = ∑ mi  ik  
 
i =1  sk  sp 
Se todos os indivíduos têm igual importância (peso) esta medida é dada por.
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 9
Capítulo 1 – Análise de Componentes Principais

1 n  xik − xk  xip − x p 
d (k ; p ) = r(k ; p ) = ∑   
n i =1  sk  s 
 p 

A medida acima é o coeficiente de correlação entre duas variáveis.


A representação geométrica no espaço das colunas (variáveis), de forma genérica (n =3) é
dada na seguinte figura.

Figura 1.4. Representação geométrica no espaço das colunas.

No caso do estudo morfológico dos animais, temos a seguinte figura.

Figura 1.5. Representação geométrica das colunas da Tabela 1.4.

Consideremos agora o ângulo entre duas variáveis:


Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 10
Capítulo 1 – Análise de Componentes Principais

1 n  xim − xm   xik − xk 
cos(m; k ) = 〈 m, k 〉 = ∑   
n i =1  sm   sk 
cos(m; k ) = r(m;k )

ou seja, o coseno do ângulo entre dois vetores (variáveis, nesse caso) coincide com o coeficiente
de correlação.
Conseqüentemente:
• Duas variáveis próximas terão um ângulo pequeno, correspondente a um coeficiente de
correlação alto entre ambas.
• Duas variáveis independentes terão um coeficiente de correlação nulo, formando um
ângulo reto (90o).

Problema:
Como identificar essas relações, do ponto de vista geométrico na situação usual onde o
número de observações é maior que 3 ?

Conclusão:
Verificamos acima que, tanto no espaço dos indivíduos como no das variáveis, a
representação geométrica é uma ferramenta para identificação de associação seja de indivíduos
seja de variáveis, porém a limitação da representação geométrica, em ambos os casos, não
permite uma maior análise do problema em estudo, segundo este procedimento. Portanto, uma
alternativa e buscar uma forma de representação de indivíduos e variáveis num espaço menor,
sem grandes perdas de informação e que possibilite uma análise e interpretação simples do
problema em estudo.

1.5. UMA VISÃO GEOMÉTRICA DOS COMPONENTES PRINCIPAIS:


No ponto anterior identificamos de se buscar uma representação de indivíduos e variáveis
num menor espaço de forma a simplificar a análise e interpretação dos dados em estudo.
A busca de uma nova representação num espaço de menor dimensão, conseqüentemente
mais simples de análise e interpretação deve considerar a principio a perda de alguma parcela de
informação dos dados, mais especificamente da variabilidade dos dados. Os procedimentos a
serem utilizados devem buscar minimizar esta perda de informa ou, por outro lado, maximizar a

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 11


Capítulo 1 – Análise de Componentes Principais

informação a ser utilizada. Resumindo, deve ser obtida a melhor representação plana dos dados
observados.
Nessa perspectiva o método dos componentes principais se propõe a definir um novo
espaço que seja função de todas as unidades e variáveis observadas que contenham o máximo
possível da variabilidade dos dados.
Consideremos uma situação simples onde são observadas três variáveis e um conjunto de
n observações. Nesse a busca de um espaço menor dimensão que possa bem representar os
dados se resume a encontrar uma reta ou um plano a duas dimensões que contenham o máximo
de informação possível do espaço completo a três dimensões.
Geometricamente, podemos representar este problema da seguinte forma:

Figura 1.6 – Busca de uma melhor representação plana

Problema:
Geometricamente, estamos procurando dentre todas as possíveis direções aquelas duas
que possam conter a maior quantidade de informação dos dados na sua dimensão original. E, mais
ainda, que cada eixo a ser identificado, contenha diferentes informações a respeito dos dados, ou
ainda, que a informação de um eixo não seja também objeto de outro eixo (direção) já
encontrado.
A solução para este problema é dado pela obtenção de eixos na direção da maior
variabilidade dos dados e, que sucessivos eixos sejam ortogonais. Para a situação da figura 1.6. a
solução seria dada pela seguinte figura.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 12


Capítulo 1 – Análise de Componentes Principais

Figura 1.7. – Um melhor plano para representação dos dados

Para facilitar a apresentação dos dados, podemos “girar” o plano de forma a apresentá-lo
na forma tradicional.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 13


Capítulo 1 – Análise de Componentes Principais

Figura 1.8. – Novos eixos rotacionados


Questão:
Como identificar os eixos (direções) acima identificadas?

1.6. COMPONENTES PRINCIPAIS – UMA SITUAÇÃO SIMPLES:


A Tabela 1.4 apresenta um pequeno conjunto de dados consistindo de 12 observações e
duas variáveis. Apresenta também a matriz de covariâncias e de correlações amostrais. Podemos
ver que as variâncias das variáveis x1 e x 2 são 23,091 e 21,091, respectivamente e que a
variância total das duas variáveis é igual a 44,182 (isto é, 23,091 + 21,091). Também x1 e x 2
são correlacionadas, com um coeficiente de cor-relação igual a 0,746. As porcentagens da
variância total explicadas por x1 e x 2 são, respectivamente, 52,26% e 47,74%.

Tabela 1.4. Dados originais e corrigidos pela média


Variável X1 Variável X2
Corrigida Corrigida
Original Original
Observação pela media pela média
1 16 8 8 5
2 12 4 10 7
3 13 5 6 3
4 11 3 2 –1
5 10 2 8 5
6 9 1 –1 –4
7 8 0 4 1
8 7 –1 6 3
9 5 –3 –3 –6
10 3 –5 –1 –4
11 2 –6 –3 –6
12 0 –8 0 –3
MÉDIA 8 0 3 0
Variância 23,091 23,091 21,091 21,091

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 14


Capítulo 1 – Análise de Componentes Principais

Como mostrado na Figura 1.9, seja X1∗ um novo eixo no espaço bidimensional fazendo um

ângulo de θ graus com o eixo X1 . A projeção de cada ponto em X1∗ dará as coordenadas dessas

observações com respeito a X1∗ .

10

2 X1*
θ
0
X2

-2

-4

-6

-8

-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
X1
Figura 1.9.
Gráfico dos dados corrigidos pela média

A coordenada das observações com respeito ao novo eixo X1∗ é uma combinação linear

das coordenadas (antigas) do ponto com respeito aos eixos originais. Isto é:

x 1∗ = x1 cos(θ) + x 2 sen(θ)

onde x 1∗ é a coordenada na observação com respeito a X1∗ , e x1 e x 2 , as coordenadas das


observações com respeito aos eixos X1 e X 2 , respectivamente.
Por exemplo, para θ = 10°, a equação para a combinação linear é

x 1∗ = 0,985 x 1 + 0,174 x 2

que pode ser usada para obter as novas coordenadas das observações com respeito ao novo eixo

X1∗ .

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 15


Capítulo 1 – Análise de Componentes Principais


Tabela 1.5. Dados corrigidos pela média e a nova variável ( x 1 ) para uma rotação de 10°

Observação x1 x2 x 1∗
1 8 5 8,747
2 4 7 5,155
3 5 3 5,445
4 3 –1 2,781
5 2 5 2,838
6 1 –4 0,290
7 0 1 0,174
8 –1 3 −0,464
9 –3 –6 −3,996
10 –5 –4 −5,619
11 –6 –6 −6,951
12 –8 –3 −8,399
Média 0 0 0
Variância 23,091 21,091 28,659

A partir das coordenadas dos pontos com respeito a esse novo eixo (Tabela 2) pode-se
perceber que:
i) a nova variável também está corrigida pela média (i.e. sua média é igual a zero);

ii) a variância de x 1∗ é 28,659 e explica 64,87% (= 28,659/44,182) da variância total dos dados.

Essa porcentagem é superior à porcentagem da variância explicada por qualquer uma das
variáveis originais.

Fazendo variar o ângulo entre X1 e X1∗ , vamos obter valores diferentes para as

coordenadas x 1∗ . A Tabela 1.6. apresenta as variâncias e as porcentagens explicadas pelas novas

coordenadas x 1∗ (em relação à variância total de 44,182), para diferentes ângulos θ.


Tabela 1.6. Porcentagem explicada pelas novas variáveis x 1 para vários novos eixos

Ângulo (θ) Variância de x 1∗ %


0 23.091 52.263
10 28.659 64.866
20 33.434 75.676
30 36.841 83.387
40 38.469 87.072
43,261 38.576 87.312
50 38.122 86.282
60 35.841 81.117
70 31.902 72.195
80 26.779 60.597
90 21.091 47.772

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 16


Capítulo 1 – Análise de Componentes Principais

100

90

80
Porcentagem

70

60

50

40
0 10 20 30 40 50 60 70 80 90
Ângulo

Figura 1.10. Porcentagem total da variância explicada para novos eixos X1∗

Pela Tabela 1.6. e pela Figura 2.10, podemos ver que a porcentagem da variância
explicada aumenta até o ângulo θ = 43,261° e depois desse valor máximo, a porcentagem da

variância explicada por x 1∗ começa a diminuir. A equação correspondente a esse ângulo, a ser

usada para calcular as novas coordenadas é

x 1∗ = 0,728 x 1 + 0,685 x 2

Note que x 1∗ não explica toda a variabilidade dos dados. É possível identificar um segundo

eixo que corresponde a uma segunda nova variável que explique o máximo da variância que não

foi explicada por x 1∗ . Se o ângulo entre X1 e X1∗ é θ, o ângulo entre e X ∗2 também será θ e a

combinação linear para x ∗2 será

x ∗2 =− x1 sen(θ) + x 2 cos(θ)
e para θ = 43, 261° a equação anterior fica

x ∗2 = − 0,685 x 1 + 0,728 x 2

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 17


Capítulo 1 – Análise de Componentes Principais

∗ ∗
Tabela 1.7. Dados corrigidos pela média e x 1 e x 2 para o novo eixo e θ = 43, 261°

Observação x1 x2 x 1∗ x ∗2
1 8 5 9,253 –1,841
2 4 7 7,710 2,356
3 5 3 5,697 –1,242
4 3 –1 1,499 –2,784
5 2 5 4,883 2,271
6 1 –4 –2,013 –3,598
7 0 1 0,685 0,728
8 –1 3 1,328 2,870
9 –3 –6 –6,297 –2,313
10 –5 –4 –6,382 0,514
11 –6 –6 –8,481 –0,257
12 –8 –3 –7,882 3,298
Média 0 0 0 0
Variância 23,091 21,091 38,576 5,606

A partir da Tabela 1.7 e Figura 1.11., podemos fazer as seguintes observações:


i) A orientação ou a configuração dos pontos ou observações no espaço bidimensional não se
altera. As observações podem, entretanto, ser representadas com respeito aos eixos originais
e aos novos eixos.
ii) As projeções dos pontos sobre os eixos originais fornecem os valores das variáve-is originais e
as projeções dos pontos sobre os novos eixos fornecem os valores das novas variáveis. Os
novos eixos ou as novas variáveis são chamados com ponentes principais e os valores das
novas variáveis são chamados de escores dos com ponentes principais.

iii) As novas variáveis ( x 1 e x ∗2 ) são combinações lineares das variáveis originais e permanecem
corrigidas pela média.
iv) A variância total das novas variáveis é igual a das variáveis originais (44,182), ou seja, não se
altera com a combinação linear sugerida.

v) As porcentagens da variância total explicada por x 1∗ e x ∗2 são, respectivamente, 87,31% (=

38,576/44,182) e 12,69% (= 5,606/44,182). A porcentagem explicada pela primeira nova

variável, x 1∗ , é maior que a porcentagem explicada por qual-quer uma das variáveis originais.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 18


Capítulo 1 – Análise de Componentes Principais

A segunda nova variável explica a variância que não foi explicada pela primeira nova variável.
As duas novas variáveis explicam toda a variância dos dados.

vi) A correlação entre as duas novas variáveis é zero , isto é, x 1∗ e x ∗2 não são
correlacionadas .

10

8
X2* X1*
6

0
X2

-2

-4

-6

-8

-10
-10 -8 -6 -4 -2 0 2 4 6 8 10
X1
Figura 1.11.
Gráfico dos dados corrigidos pela média e novos eixos

OBS: Essa ilustração geométrica desenvolvida para os componentes principais pode ser
facilmente estendida para o caso de mais de duas variáveis (p > 2).
A técnica de análise de componentes principais pode ser vista como uma técnica para
reduzir a dimensão dos dados originais, já que um número pequeno de componentes principais
pode explicar uma grande porcentagem da variabilidade original dos dados.
Geometricamente, o objetivo principal da análise de componentes principais é identificar
um novo conjunto de eixos ortogonais tais que:
1. As coordenadas das observações com respeito a cada um dos eixos fornecem os valores das
novas variáveis. Os novos eixos ou novas variáveis são chamados componentes principais e os
valores das novas variáveis são chamados de escores dos componentes principais.
2. Cada nova variável é uma combinação linear das variáveis originais.
3. A primeira nova variável (primeiro componente principal) explica o máximo da variância dos
dados.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 19


Capítulo 1 – Análise de Componentes Principais

4. A segunda nova variável (segundo componente principal) explica o máximo da variância que
não foi explicada pela primeira nova variável ... e a p-ésima nova variável explica a variância
que não foi explicada pelas p − 1 primeiras novas va-riáveis.
5. As p novas variáveis não são correlacionadas.

1.7. COMPONENTES PRINCIPAIS – GENERALIZANDO:

A solução apresentada no ponto anterior é pouco pratica a medida que a dimensão do


problema em estudo é superior a 2. Portanto é necessária uma forma mais adequada para
obtenção das direções (eixos) que melhor representem os dados observados na menor dimensão
possível.
O problema da obtenção destas direções pode ser colocada na forma de um problema de
maximização de uma forma quadrática de forma a se obter eixos com maior informação sobre a
variabilidade dos dados.

Figura 1.12. Procura do “melhor” eixo de representação dos dados.

A determinação das direções principais de dispersão da nuvem de pontos se obtém a


partir da “diagonalização” da matriz de dispersão associada a mesma. A “diagonalização” de uma
matriz de dispersão, simétrica, definida positiva, é um problema clássico do cálculo numérico:
O teorema da Decomposição Espectral, ou seja obter u tal que;

O vetor u é dado por: Vu = λu


Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 20
Capítulo 1 – Análise de Componentes Principais

• A matriz de dispersão V é simétrica, seus autovetores são ortogonais dois a dois. Sendo
vetores de norma 1, formam uma base ortonormal de RK.

• Os autovalores são todos positivos. O vetor u1 é um autovetor de V, associado ao

autovalor λ1, e assim sucessivamente...

• λ1 representa a inércia projetada na direção u e é a inércia máxima nessa direção.

Retornando aos dados apresentados nas figura 1.6 a 1.8., o processo de diagonalização
aplicado ao mesmo, pode ser visto na seguinte figura:

Figura 1.13 – Diagonalizando a procura da ma melhor representação plana

Portanto a solução a partir do Teorema da Decomposição Espectral nos mostra que a


melhor representação é dada pela direção dos autovalores associados a cada um dos autovalores
da matriz de dispersão dos dados cujo comprimento é dado pelo respectivo autovalor. Cada uma

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 21


Capítulo 1 – Análise de Componentes Principais

dessas direções são as denominadas componentes principais. As novas coordenadas de cada


observação no α-ésimo componente principal são dadas por:

Sob ponto de vista algébrico, os componentes principais são combinações lineares

particulares das p variáveis aleatórias X1 , X 2 , ..., X p . Geometricamente, essas combinações


representam a seleção de novos sistemas de coordenadas obtidos pela rotação do sistema original

que tem X1 , X 2 , ..., X p como eixos das coordenadas. Os novos eixos representam as direções
com máxima variabilidade e fornecem uma descrição simples e parcimoniosa da estrutura de
covariâncias (e a correspondente interdependência entre as variáveis).

Os componentes principais dependem somente da estrutura de covariâncias Σ (ou da


matriz de correlações ρ ). O desenvolvimento da análise não requer uma suposição de
normalidade multivariada. Por outro lado, os componentes principais derivados para populações
com distribuição normal multivariada têm interpretações úteis em termos de elipsóides de
confiança, além da possibilidade de se fazer algumas inferências sobre os componentes amostrais.

Seja o vetor aleatório X' = [ X1 , X 2 , ..., X p ] que tem matriz de covariâncias Σ com
autovalores λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0. Considere as combinações lineares

Y1 = a 1t X = a 11 X1 + a 12 X 2 + ... + a 1p X p
Y2 = a 2t X = a 21 X1 + a 22 X 2 + ... + a 2 p X p
ξ ξ ξ (8.1)
Yp = a pt X = a p1 X1 + a p 2 X 2 + ... + a pp X p

Então: Var( Yi ) = a it Σ a i i = 1, 2, ..., p )

Cov ( Yi , Yk ) = a it Σ a k , i ≠ k = 1, 2, ..., p

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 22


Capítulo 1 – Análise de Componentes Principais

Teorema 1.1. Seja Σ a matriz de covariâncias associada ao vetor aleatório


X' = [ X1 , X 2 , ..., X p ]. Seja Σ com os pares autovalor-autovetor ( λ i , e i ),

para i = 1, 2, ..., p, onde λ1 ≥ λ 2 ≥ ... ≥ λ p ≥ 0. Então o i-ésimo


componente principal é dado por:

Yi = e it X = e i1X1 + e i 2 X 2 + ... + e ip X p , i = 1, 2, ..., p

com essas características:

Var( Yi ) = e i Σ e i e Cov ( Yi , Yk ) = e i Σ e k = 0, para i ≠ k


t t

Teorema 1.2. Seja X' = [ X1 , X 2 , ..., X p ] com matriz de covariâncias Σ e


com pares autovalor-autovetor ( λ i , e i ), para i = 1, 2, ..., p onde λ1 ≥ λ 2

≥ ... ≥ λ p ≥ 0. Sejam Y 1 = e1t X , Y2 = e 2t X , ..., Yp = e pt X os


componentes principais. Então
p p
σ11 + σ 22 +... + σ pp = ∑ Var (X i ) = λ1 + λ 2 + ... + λ p = ∑ Var (Yi )
i =1 i =1

Observação:
Na notação anteriormente apresentada

Fα(i) ⇒ Yi e uαk ⇒ eij

Desse resultado, podemos calcular a proporção da variância total devida (ou explicada)
pelo i-ésimo componente principal através da fórmula

λi
i = 1, 2, ..., p (8.7)
λ1 + λ 2 +  + λ p

Em situações ideais, 80-90% da variância total, para grandes valores de p, pode ser
explicada por 1, 2 ou 3 componentes principais e então, esses componentes podem substituir as p
variáveis originais sem a perda de muita informação.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 23


Capítulo 1 – Análise de Componentes Principais

Cada componente do vetor de coeficientes e it = [ e i1 + ei2 + ... + e ip ] deve ser

inspecionado, já que a magnitude de e ik avalia a importância da k-ésima variável no i-ésimo


componente principal. Em particular, e ik é proporcional ao coeficiente de correlação entre Yi e

Xk .

Teorema 1.3. Se Y1 t
= e1 X , Y2 = e 2t X , ..., Yp = e pt X são os

componentes principais obtidos da matriz de covariâncias Σ , então

eik λi
ρX = , i, k = 1, 2, ..., p
σ kk
k ,Yi

são os coeficientes de correlação entre os componentes Yi e as variáveis X k .

Embora as correlações entre as variáveis com os componentes principais auxiliem,


muitas vezes, a interpretação dos componentes, eles medem somente a contribuição
univariada de uma variável X a um componente Y. Eles não indicam a importância de uma
variável X em um componente Y na presença das outras variáveis X.
Alguns estatísticos recomendam que somente os coeficientes e ik e não as corre-

lações sejam usadas para interpretar os componentes. Embora essas duas abordagens
possam levar a conclusões diferentes sobre a importância das variáveis, JOHNSON &
WICHERN (1999) afirmaram que elas não são apreciavelmente diferentes.
Na prática, variáveis com coeficientes relativamente grandes (em valor absoluto)
tendem a ter correlações relativamente grandes, de tal maneira que as duas medidas de
importância, a primeira multivariada e a segunda univariada, apresentem resultados
similares. A recomendação é que ambos (coeficientes dos autovetores e coeficientes de
correlação) sejam examinados para auxiliar na interpretação dos componentes principais.

Exemplo – Jonhson (pág. 430-431)


Suponha que as variáveis aleatórias X1, X2, X3, tenham a seguinte matriz de
covariâncias

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 24


Capítulo 1 – Análise de Componentes Principais

 1 − 2 0
Σ = − 2 5 0
 0 0 2
proc iml;
A = {1 -2 0,
-2 5 0,
0 0 2};
v={0,0,0};
r ={0 0 0,
0 0 0,
0 0 0};
l = eigval(A); /* calcula autovalores */
print 'Autovalores de A';
st=sum(l[1:3]);
do i=1 to 3;
v[i]=l[i]/st;
end;
print l v;
e1 = eigvec(A); /* calcula autovetores */
e=t(e1);
do i=1 to 3; /* Calculo da correlação entre Y's e X's */
do k=1 to 3;
r[i,k]=(e[i,k]*sqrt(l[i]))/sqrt(a[k,k]);
end;
end;
r1=t(r);
print e r1;
quit;

RESULTADOS:

Autovetores de Σ
Autovalores de Σ % Var. Explicada
e1 e2 e3
5.8284271 0.7285534
-0.382683 0 0.9238795
2.0000000 0.2500000
0.9238795 0 0.3826834
0.1715729 0.0214466
0 1 0

e os componentes principais ficam

Y1 = 0.383X1 −0.924 X2 − explica 72.9% da variação total

Y2 = X3 − explica 25.0% da variação total

Y3 = 0.924 X1 + 0.383 X2 − explica 2.1% da variação total

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 25


Capítulo 1 – Análise de Componentes Principais

As variâncias das componentes podem ser obtidas a partir de:

Var (Y1) = Var (0.383 X1 −0.924 X2) = (.383)2 Var(X1) + (-924)2 Var(X2)– 2(.381)(-

924)Cov( X1 , X2) = 5.83 = λ1

As correlações entre as variáveis originais e os componentes principais são apresentados no


quadro seguinte:

Y1 Y2 Y3
X1 0.925 0 0.382
X2 −0.998 0 0.070
X3 0 1 0

Exemplo 2: Dados da tabela 1.5.;

data exemplo2;
input obs x1 x2;
cards;
1 8 5
2 4 7
3 5 3
4 3 -1
5 2 5
6 1 -4
7 0 1
8 -1 3
9 -3 -6
10 -5 -4
11 -6 -6
12 -8 -3
;
proc princomp cov out=dados2 outstat=dados3;
var x1 x2;
run;
proc print;
run;
proc corr data=dados2;
var x1 x2;
with prin1 prin2;
run;
proc transpose data=dados3 out=dados4;
run;
goptions reset=all gunit=pct border cback=white
ftitle=swissb htitle=6
htext=2.5;
symbol1 color=red value=dot height=3;
symbol2 color=blue value=dot height=3;
proc gplot data=dados4;
title1 'Grafico das Variaveis no 1o Plano Fatorial';
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 30
Capítulo 1 – Análise de Componentes Principais

plot prin2*prin1=_name_/ vref=0 href=0;


run;
goptions reset=all border cback=white ftitle=swissb
ftext=swissb htitle=2 htext=1
colors=(black white green red) ;
proc gplot data=dados2;
Title1 'Primeira Componente';
plot prin1*prin1=obs/overlay cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2 ;
run;
proc gplot data=dados2;
Title1 'Primeira Componente';
plot prin2*prin1/cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2 ;
run;

RESULTADOS:

Simple Statistics Covariance Matrix

x1 x2 x1 x2

Mean 0.000000000 0.000000000 x1 23.09090909 16.45454545

StD 4.805300104 4.592483978 x2 16.45454545 21.09090909

Total Variance 44.181818182

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 38.5758133 32.9698084 0.8731 0.8731

2 5.6060049 0.1269 1.0000

Eigenvectors

Prin1 Prin2

x1 0.728238 -.685324

x2 0.685324 0.728238

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 31


Capítulo 1 – Análise de Componentes Principais

Obs obs x1 x2 Prin1 Prin2

1 1 8 5 9.25253 -1.84140

2 2 4 7 7.71022 2.35637

3 3 5 3 5.69716 -1.24191

4 4 3 -1 1.49939 -2.78421

5 5 2 5 4.88310 2.27054

6 6 1 -4 -2.01306 -3.59828

7 7 0 1 0.68532 0.72824

8 8 -1 3 1.32773 2.87004

9 9 -3 -6 -6.29666 -2.31346

10 10 -5 -4 -6.38249 0.51367

11 11 -6 -6 -8.48137 -0.25748

12 12 -8 -3 -7.88188 3.29788

Pearson Correlation Coefficients, N = 12


Prob > |r| under H0: Rho=0

x1 x2

0.94126 0.92684
Prin1
<.0001 <.0001

-0.33768 0.37545
Prin2
0.2831 0.2291

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 32


Capítulo 1 – Análise de Componentes Principais

Representação Correta:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 33


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 34


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 35


Capítulo 1 – Análise de Componentes Principais

Exemplo 3: Dados Morfológicos dos Animais – Tabela 1.3.


Dados Observados:

Simple Statistics

Comprimento Perimetro Peso

Mean 157.3636364 69.54545455 402.7272727

StD 8.3981033 2.63180678 22.4778872

Covariance Matrix

Comprimento Perimetro Peso

Comprimento Comprimento 70.5281385 13.1255411 101.6753247

Perimetro Perimetro 13.1255411 6.9264069 48.5367965

Peso Peso 101.6753247 48.5367965 505.2554113

Total Variance 582.70995671

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 36


Capítulo 1 – Análise de Componentes Principais

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 532.659089 484.623669 0.9141 0.9141

2 48.035420 46.019971 0.0824 0.9965

3 2.015449 0.0035 1.0000

Eigenvectors

Prin1 Prin2 Prin3

Comprimento Comprimento 0.216477 0.973861 -.068794

Perimetro Perimetro 0.095109 0.049093 0.994256

Peso Peso 0.971644 -.221776 -.081995

Pearson Correlation Coefficients, N = 22


Prob > |r| under H0: Rho=0

Comprimento Perimetro Peso

0.59491 0.83405 0.99765


Prin1
0.0035 <.0001 <.0001

0.80370 0.12928 -0.06838


Prin2
<.0001 0.5664 0.7624

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 37


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 38


Capítulo 1 – Análise de Componentes Principais

Retornando aos dados originais:

Observemos os valores observados para os animais 22, 3, 6, e 4:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 39


Capítulo 1 – Análise de Componentes Principais

Porque estes animais se aproximam no gráfico ??

Programa SAS
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 40
Capítulo 1 – Análise de Componentes Principais

libname dados 'C:\Documentos\Técnicas Multivariadas_20071\Exemplos';


data exemplo3_2;
set dados.exemplo3_2;
run;

proc contents position;


run;

proc princomp cov out=dados1 outstat=dados2;


var Comprimento Perimetro Peso;
run;
proc corr data=dados1;
var Comprimento Perimetro Peso;
with prin1 prin2;
run;
proc transpose data=dados2 out=dados3;
run;
goptions reset=all gunit=pct border cback=white
ftitle=swissb htitle=6
htext=2.5;
symbol1 color=red value=dot height=3;
symbol2 color=blue value=dot height=3;
symbol3 color=green value=dot height=3;
legend1 label=none shape=bar(2,2) cborder=black
cblock=green position=center value=(j=left);
proc gplot data=dados3;
title1 'Grafico das Variaveis no 1o Componente';
plot prin1*prin1=_name_/ vref=0 href=0 haxis=-0.1 to 1 by 0.1
vaxis=-0.3 to 1 by 0.1 href=0 vref=0 legend=legend1;
run;
proc gplot data=dados3;
title1 'Grafico das Variaveis no 1o Plano';
plot prin2*prin1=_name_/ vref=0 href=0 haxis=-0.1 to 1 by 0.1
vaxis=-0.3 to 1 by 0.1 href=0 vref=0 legend=legend1;
run;
goptions reset=all border cback=white ftitle=swissb
ftext=swissb htitle=2 htext=1
colors=(black white green red) ;
proc gplot data=dados1;
Title1 'Primeira Componente - Animais';
plot prin1*prin1/overlay cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2;
run;
proc gplot data=dados1;
Title1 'Primeiro Plano Fatorial - Animais';
plot prin2*prin1/cframe=white href=0 vref=0;
symbol1 v=dot color=green h=2 ;
run;

Title1 'Observacoes no Primeiro Plano Fatorial';


%plotit(data=dados1, labelvar=Animal,
plotvars=Prin2 Prin1, color=black, colors=blue,
href=0, vref=0, symvar=symbol,symsize=0.35,
symlen=4, exttypes=symbol, ls=100);
run;

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 41


Capítulo 1 – Análise de Componentes Principais

1.8. COMPONENTES PRINCIPAIS A PARTIR DE VARIÁVEIS PADRONIZADAS –


MATRIZ DE CORRELAÇÕES:
Componentes principais podem ser obtidos de variáveis padronizadas

X i − µi
Zi = , i = 1, 2, ..., p
σ ii
e na notação matricial

( ) (X − µ )
Z = V1 2
−1
(8.10)

é a diagonal da matriz de desvios padrões. Claramente temos que E(Z) = 0 e


12
Onde V

Cov (Z ) = V1 2 ( ) Σ(V ) −1 1 2 −1

Os componentes principais de Z podem ser obtidos dos autovetores da matriz de
correlações ρ. Todos os resultados prévios se aplicam a essa situação, com algumas
simplificações adicionais, já que a variância de cada Z i é a unidade. Entretanto, os pares

( λ i , e i ) derivados de Σ são, em geral, diferentes daqueles obtidos de ρ.

Teorema 1.4. O i-ésimo componente principal do vetor de variáveis padronizadas Z' =


[ Z1 , Z 2 , ..., Z p ] com cov(Z) = ρ é dado por

Yi = e it Z = e it V1 2 ( ) −1
(X − µ ) i = 1, 2, ..., p
Ainda
p p
∑ Var (Yi ) = ∑ Var ( Z i ) = p
i =1 i =1

ρ Yi ,Zk = e ik λ i i, k = 1, 2, ..., p

1.9. MATRIZ DE VARIÂNCIAS E COVARIANCIAS OU MATRIZ DE CORRELAÇÕES?


COMO CALCULAR OS COMPONENTES PRINCIPAIS.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 42


Capítulo 1 – Análise de Componentes Principais

Ao longo desse capitulo duas formas de obtenção dos componentes


principais foram apresentadas, considerando duas diferentes medidas de
variabilidade dos dados: a matriz de variâncias e covariâncias e a matriz de
correlação. O uso dessas duas alternativas nos leva a diferentes resultados.

Questão:
Qual das matrizes deve ser utilizada? Existe situações onde que
uma específica matriz deve ser utilizada preferencialmente?

Antes de se apresentar uma solução para o problema acima, vamos


melhor entender essa questão a partir dos dados morfológicos dos animais
apresentados na Tabela 2.3.
Iremos comparar os resultados para os componentes principais,
considerando as duas diferentes matrizes de dispersão.

Resultados:

Covariance Matrix

Comprimento Perimetro Peso

Comprimento Comprimento 70.5281385 13.1255411 101.6753247

Perimetro Perimetro 13.1255411 6.9264069 48.5367965

Peso Peso 101.6753247 48.5367965 505.2554113

Correlation Matrix

Comprimento Perimetro Peso

Comprimento Comprimento 1.0000 0.5939 0.5386

Perimetro Perimetro 0.5939 1.0000 0.8205

Peso Peso 0.5386 0.8205 1.0000

A comparação das tabelas de variâncias e covariâncias e matriz de


correlação nos indicam as possíveis diferenças nos uso das duas diferentes

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 43


Capítulo 1 – Análise de Componentes Principais

matrizes. A matriz de covariâncias reflete a variabilidade dos dados, em


particular, resultado da escala de medidas das suas variáveis. No presente
exemplo, é muito claro que a variabilidade da variável peso é muito superior a
das demais variáveis, conseqüência maior da unidade de medida da mesma
em relação as demais variáveis em estudo. No caso da matriz de correlações,
seus valores independem da unidade de medida de qualquer variável, a
diagonal é sempre igual a 1 (óbvio!) e os valores fora da diagonal refletem a
correlação entre as variáveis, conseqüentemente são sempre valores entre -1
e 1.

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 532.659089 484.623669 0.9141 0.9141

2 48.035420 46.019971 0.0824 0.9965

3 2.015449 0.0035 1.0000

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 2.31017276 1.79636216 0.7701 0.7701

2 0.51381060 0.33779396 0.1713 0.9413

3 0.17601664 0.0587 1.0000

A observação dos autovalores obtidos nas duas situações começam a


explicitar as diferenças existentes no uso das duas matrizes. A soma dos
autovalores caso da matriz de covariâncias é a variância total (soma das
variâncias individuais) enquanto que no caso da matriz de correlações a soma
é sempre p (número de variáveis consideradas no estudo). Um outro valor que
devem ser cuidadosamente observados é o percentual de variância de cada
componente, conseqüência dos autovalores. É bom lembrar que na ACP
buscamos novos eixos (variáveis) que expliquem maior parte da variabilidade
dos dados, conseqüentemente nos dados que estão sendo analisados foi

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 44


Capítulo 1 – Análise de Componentes Principais

possível obter um primeiro componente com maior proporção da variabilidade


no caso da matriz de covariâncias. Porque isso acontece?
Esse fato pode ser explicado pelos valores dos autovetores apresentados
a seguir.

Eigenvectors – VAR - COV

Prin1 Prin2 Prin3

Comprimento Comprimento 0.216477 0.973861 -.068794

Perimetro Perimetro 0.095109 0.049093 0.994256

Peso Peso 0.971644 -.221776 -.081995

Eigenvectors - CORR

Prin1 Prin2 Prin3

Comprimento Comprimento 0.521690 0.848423 0.089549

Perimetro Perimetro 0.609983 -.297558 -.734425

Peso Peso 0.596457 -.437765 0.672756

Os valores dos autovetores nos deixam claro a diferença das duas situações em
estudo. No caso da matriz de covariâncias temos que o primeiro componente responsável
por 91% da variabilidade total dos dados, tem como componente importante quase que
exclusivamente a variável peso, que como vimos é aquela que, quantitativamente em
valor absoluto, apresenta a maior variabilidade nos dados observados. O segundo
componente responsável por aproximadamente 8% da variabilidade total é explicado
quase que unicamente pela variável comprimento enquanto que o terceiro componente
apenas pela variável perímetro. Por outro lado ao observarmos os resultados a partir da
matriz de correlações, verificamos que o primeiro componente, que também explica uma
grande proporção da variabilidade dos dados (77%) tem a contribuição aproximadamente
a mesma das três variáveis em estudo. O segundo componente (17% da variabilidade)
tem uma contribuição positiva bem acentuada da variável comprimento, mas não se deve
desprezar a contribuição negativa da variável peso. O mesmo pode ser observado no
terceiro componente considerando as variáveis perímetro e peso. Essas observações

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 45


Capítulo 1 – Análise de Componentes Principais

podem ser também verificadas na análise das correlações entre as variáveis e os


componentes principais nos dois casos.

Pearson Correlation Coefficients, N = 22


Prob > |r| under H0: Rho=0 - COV

Comprimento Perimetro Peso

0.59491 0.83405 0.99765


Prin1
0.0035 <.0001 <.0001

0.80370 0.12928 -0.06838


Prin2
<.0001 0.5664 0.7624

Pearson Correlation Coefficients, N = 22


Prob > |r| under H0: Rho=0 - CORR

Comprimento Perimetro Peso

0.79293 0.92713 0.90657


Prin1
<.0001 <.0001 <.0001

0.60815 -0.21329 -0.31379


Prin2
0.0027 0.3406 0.1550

Conclusão:
O exemplo apresentado deixa bem claro a diferença existente no uso da matriz de
variâncias e covariâncias e matriz de correlações na obtenção dos componentes principais.
A presença de variáveis com diferentes unidades de medida produz medidas de
variabilidade em função dessas medidas o que acarreta forte impacto no calculo da
variabilidade total, conseqüentemente no calculo dos componentes principais, isto é,
variáveis com maior variabilidade tendem a “dominar” os primeiros componentes
enquanto que a contribuição das demais variáveis fica restrita a componentes com baixa
proporção da variabilidade total. Esse problema não existe nos caso da matriz de
correlações, pois como vimos anteriormente o uso da matriz de correlações significa
utilizar variáveis reduzidas e padronizadas, consequentemente sem efeito da escala de
medida das mesmas.
Portanto, a recomendação encontrada na maior arte da literatura é de que a matriz
de covariâncias somente deva ser utilizada onde as variáveis no estudo tenham a mesma
escala de medida e que as variâncias das mesmas sejam também muito próximas.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 46


Capítulo 1 – Análise de Componentes Principais

Comparando as situações graficamente:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 47


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 48


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 49


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 50


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 51


Capítulo 1 – Análise de Componentes Principais

1.10. COMPONENTES PRINCIPAIS PARA MATRIZES DE COVARIÂNCIAS COM

ESTRUTURAS ESPECIAIS:

Existem certas estruturas de matrizes de covariâncias e de correlações cujos


componentes principais podem ser expressos de uma forma simples.

Suponhamos que Σ = diag (σ 11,σ 22,σ 33, ..., σ pp , ) é uma matriz diagonal. Tomando e i'

= [ 0, ..,0, 1, 0,..., 0], com o 1 na i-ésima posição, observamos que Σe i' = σ ii e i' e

concluímos que ( σ ii , e i ) é o i-ésimo par de autovalor-autovetor de Σ .

Neste caso, o i-ésimo componente principal é definido pela combinação linear

Yi = ei' X = X i , que corresponde à variável original X i . Neste caso, não ganhamos nada
extraindo os componentes principais porque as variáveis originais já são não
correlacionadas e então, não há sentido na obtenção de componentes principais, ou seja,
as variáveis devem ser estudadas de forma independente.

Exemplo:

proc iml;
reset print;
SIGMA={7.5 0 0,
0 6 0,
0 0 5};
AUTOVALOR=eigval(SIGMA);
AUTOVETOR=eigvec(SIGMA);
quit;

SIGMA 3 rows 3 cols (numeric)

7.5 0 0

0 6 0

0 0 5

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 52


Capítulo 1 – Análise de Componentes Principais

AUTOVALOR 3 rows 1 col (numeric)

7.5

AUTOVETOR 3 rows 3 cols (numeric)

1 0 0

0 1 0

0 0 1

Uma segunda situação é dada por uma matriz de variância-covariâncias da seguinte


forma:

 σ2 ρσ 2 ... ρσ 2  1 ρ ... ρ 
 2  
ρσ σ 2 ... ρσ 2  2 ρ 1 ... ρ 
Σ= =σ
 ... ... ... ...  ... ... ... ...
 2   
 ρσ ρσ 2 ... σ 2   ρ ρ ... 1 

Temos então variâncias iguais e covariâncias também iguais.


Conseqüentemente as variáveis no estudo são igualmente correlacionadas e a matriz de
correlações é dada por:

1 ρ ... ρ 
ρ 1 ... ρ 
ρ=
... ... ... ...
 
ρ ρ ... 1 

É possível facilmente mostrar que nessa situação que os p autovalores da matriz


de correlação podem ser divididos em dois grupos. Quando o coeficiente de correlação ρ é
positivo temos que:

λ1 = 1 + ( p − 1) ρ

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 53


Capítulo 1 – Análise de Componentes Principais

Com respectivo autovetor dado por:

 1 1 1 
e1' =  , ,..., 
 p p p 

e, os demais autovalores dados por:

λ2 = λ3 = ... = λ p = 1 − ρ
com autovalores dados por (um dos possíveis valores)

 1 −1 
e2' =  , ,0,0,...,0
 1* 2 1* 2 
 1 1 −2 
e3' =  , , ,0,0,...,0
 2*3 2*3 2*3 
...
 1 1 − (i − 1) 
ei' =  ,.., , ,0,0,...,0
 (i − 1)i (i − 1)i (i − 1)i 
...
 1 1 − ( p − 1) 
e 'p =  ,.., , 
 p (i − 1) p ( p − 1)p ( p − 1)p 

A primeira componente principal é então proporcional a soma da p variáveis


padronizadas, da seguinte forma:
p
1
Yi = e Z =
'
1
p
∑Z
i =1
i

Esta componente principal explica uma proporção de:


λi 1 + ( p − 1)ρ 1− ρ
= =ρ+
p p p
da variação total dos dados.

É ainda possível mostrar que:


λ1
≅ ρ para ρ próximo de 1 ou grande valores de p.
p

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 54


Capítulo 1 – Análise de Componentes Principais

Por exemplo de ρ=0.8 e p =5 a primeira componente explica 84% da variabilidade


total, ou seja, nesses casos as demais p-1 componentes pouco contribuem e portanto
poderiam se desconsideradas.

1.11. MATRIZ X COM DISTRIBUIÇÃO NORMAL MULTIVARIADA

Considerando que X ~ N p (µ, Σ ) , sabemos que a densidade de X é constante nos


elipsóides centrados em µ.

(x − µ ) t Σ −1 (x − µ ) = c 2

que tem eixos ± c λ i e i , i = 1, 2, ..., p, onde ( λ i , e i ) são pares de autovalor-autove-tor

de Σ .
Tomando µ = 0, podemos escrever que

( )
p 1 t
c 2 = x t Σ −1x = ∑
2
ei x
i =1 λ i

onde y i = e i x , i = 1, 2, ..., p são reconhecidos como os componentes principais de x e


t

a equação define um elipsóide ( λ1 > λ 2 > ... > λ p > 0) no sistema de coordenadas

com eixos y1 , y 2 , ..., y p nas direções de e1 , e 2 , ..., e p . Se λ1 é o maior autovalor,


então o eixo maior segue na direção de e1 . Qualquer ponto no i-ésimo eixo do elipsóide
t
tem coordenadas proporcionais a e i = [ e i1 + e i 2 + ... + e ip ].

Figura 1.14. Componentes Principais com dados normais multivariados

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 55


Capítulo 1 – Análise de Componentes Principais

1.12. RESUMINDO A VARIAÇÃO AMOSTRAL POR COMPONENTES PRINCIPAIS;


Suponha que x1 , x 2 , ..., x n represente uma amostra aleatória de n indivíduos de

uma população p-dimensional com vetor de médias µ e matriz de covariâncias Σ . Esses


dados produzem um vetor de médias amostrais x , uma matriz de covariâncias amostrais
S e uma matriz de correlações amostrais R. Essas matrizes S e R representam a
estrutura de interdependência das variáveis.
Buscaremos construir combinações lineares não correlacionadas das características
medidas que expliquem muito da variação amostral. Essas combinações lineares com o
máximo da variância amostral serão chamadas de componentes principais amostrais.
Se S = {s ik } (p x p) é uma matriz de covariâncias amostrais com pares de autovalor-

autovetor ( λ̂ i , ê i ), i = 1, 2, ..., p, o i-ésimo componente principal amostral é dado por


p
ŷ i = ê it x = ∑ ê ij x i , para i = 1, 2, ..., p
j=1

onde λ̂1 ≥ λ̂ 2 ≥ ... ≥ λ̂ p ≥ 0 e x é uma matriz de observações das variáveis X1 ,

X 2 , ..., X p . Também,

Variância amostral ( ŷ i ) = λ̂ i , i = 1, 2, ..., p

Covariância amostral ( ŷ i , ŷ k ) = 0, i≠k


k p
Variância amostral total = ∑ s ii = ∑ λˆ i
i =1 i =1

Correlação amostral entre a k-ésima variável original e o i-ésimo componente principal

ê ik λˆ i
amostral: rŷ , x = i , k = 1, 2, ..., p
i k
s kk

Denotaremos por ŷ1 , ŷ 2 , ..., ŷ p os componentes principais amostrais obtidos de S


ou de R, mesmo sabendo que os componentes obtidos de S e R não são iguais
geralmente. Tomaremos o cuidado de explicitar no contexto qual matriz está sendo usada.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 56


Capítulo 1 – Análise de Componentes Principais

Geralmente, as observações x i são "centradas" ou "corrigidas para a média",

subtraindo-se x , o que não afeta a matriz de covariâncias amostrais S. Nesse caso, o i-


ésimo componente principal é

ŷ i = ê it (x − x) , i = 1, 2, ..., p

para qualquer vetor de observação x. Se considerarmos os valores do i-ésimo


componente, teremos

ŷ ji = ê it (x j − x) , i = 1, 2, ..., p

E a média de cada componente principal amostral é igual a zero. A variância amostral

continua igual a λ̂ i .

1.13. NÚMERO DE COMPONENTES PRINCIPAIS QUE DEVEM SER INTERPRETADOS


EM UMA ANÁLISE;

Sempre vai aparecer a questão de quantos componentes escolher. E não existe


uma resposta definitiva para essa questão. Alguns aspectos devem ser considerados,
como a quantidade da variância amostral explicada, os tamanhos relativos dos autovalores
(isto é, as variâncias dos componentes principais) e as interpretações subjetivas associada
aos componentes. Podemos adiantar que um componente associado a um autovalor
próximo a zero será pouco importante, mas indica alguma dependência linear nos dados.

Para determinar o número de componentes principais duas alternativas são


usualmente citadas na literatura:

1. Componentes com autovalores maiores do que 1 (no caso do uso da matriz de


correlações). Nesse caso autovalores maiores que um significa uma contribuição maior
que a esperada de cada componente, logo esses componentes devem ser analisados:

2. O scree plot, que é construído com os valores de λ̂ i versus i (a magnitude de um

autovalor versus seu número). Neste caso, o número de componentes é tomado como
o ponto onde os autovalores restantes são relativamente pequenos e têm tamanhos
aproximadamente iguais.

3. Procedimento Horn (1965): Lattin, Carrol e Green (2011), pagina 92.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 57


Capítulo 1 – Análise de Componentes Principais

5
Autovalor

0
1 2 3 4 5
Ordem

Figura 1.15. Scree plot associado à análise do exemplo 8.3

O "cotovelo" que ocorre na Figura 8.2 por volta de i = 3, indica que os autovalores

superiores a λ̂ 2 são relativamente pequenos e têm valores parecidos, ou seja, somente

os dois primeiros componentes principais resumem efetivamente a variância amostral total.

Resumindo:

• Não existe uma regra automática para responder a essa pergunta.

• Com as primeiras componentes principais representa-se, em geral, a maior parte da


dispersão dos dados...

• Devem ser eliminados os componentes com autovalores baixos que representam


variações aleatórias dos dados.

1.14. GRÁFICOS EM COMPONENTES PRINCIPAIS:

Gráficos de componentes principais podem revelar observações suspeitas, além de


possibilitar a verificação da suposição de normalidade. Como os componentes principais
são combinações lineares das variáveis originais, não é razoável esperar que sejam
normalmente distribuídos, já que não fizemos qualquer suposição sobre essas variáveis.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 58


Capítulo 1 – Análise de Componentes Principais

Muitas vezes é necessário verificar que os primeiros componentes têm distribuição


aproximadamente quando eles são utilizados como variáveis de entrada em análises
adicionais.
Os últimos componentes principais podem auxiliar a identificar observações
suspeitas. Cada observação pode ser escrita como uma combinação linear de todo o
conjunto de autovalores ê1 , ê 2 ,... , ê p de S:

x j = ( x tj ê1 ) ê1 + ( x tj ê 2 ) ê 2 + ... + ( x tj ê p ) ê p = ŷ j1 ê1 + ŷ j2 ê 2 + ... + ŷ jp ê p


Assim, a magnitude dos últimos componentes principais determina quão bem os
primeiros ajustam as observações. Isto é, ŷ j1 ê1 + ŷ j2 ê 2 + ... + ŷ j,q −1 eˆ q −1 difere de

x j por ŷ jq ê q + ... + ŷ jp ê p , cujos quadrados dos seus comprimentos são ŷ 2jq , ..., ŷ 2jp .

Observações suspeitas serão aquelas que, no mínimo, em uma das coordenadas, ŷ jq , ... ,

ŷ jp contribuem para que o quadrado do seu comprimento seja grande.


Resumindo:
1. Para auxiliar a verificar a suposição de normalidade, construir gráficos de dispersão para
os pares dos primeiros componentes principais. Também fazer Q-Q plots para os valores
amostrais gerados por cada um dos componentes principais.
2. Construir diagramas de dispersão e Q-Q plots para os últimos componentes principais, o
que auxilia na identificação de observações suspeitas.
Um gráfico dos escores dos dois primeiros componentes principais pode também
ser útil na identificação grupos de indivíduos similares, com altos (ou baixos) valores
desses componentes. Essa avaliação, apesar de subjetiva, pode auxiliar a interpretar os
resultados obtidos, mas nem sempre é conclusiva.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 59


Capítulo 1 – Análise de Componentes Principais

3
8
4
2

12 14
1
5 1
2 7 13 6
CP-2

0
3

-1 11
10

-2
9
-3

-6 -4 -2 0 2 4 6
CP-1

Figura 1.16. Dispersão dos indivíduos em relação aos dois primeiros componentes principais.

Na Figura 1.16, podemos identificar, por exemplo, o grupo dos indivíduos 3, 10 e


11 que têm valores negativos para os dois componentes; o grupo dos indivíduos 8 e 14
que têm valores positivos e altos para esses componentes e o indivíduo 9, que tem um
valor positivo e alto para o componente 1, mas negativo e grande (em módulo) para o
componente 2.

1.15. VARIÁVEIS SUPLEMENTARES


Uma importante aplicação de componentes principais é a analise dos novos
componentes obtidos em relação a variáveis não utilizadas na sua obtenção. Essas
variáveis são chamadas de “Variáveis Suplementarias”. A correlação destas variáveis com
os componentes, usualmente, contribuem para uma melhor compreensão do problema em
estudo. Softwares específicos, como o francês SPAD-N tem opções para inclusive, calcular
as coordenadas destas variáveis no plano fatorial obtido. Quando uma variável
suplementar é categórica, calcula-se o valor médio, em cada componente, das
observações que possuem cada característica da variável e esses pares de valores são
utilizados para representar cada nível da variável no plano fatorial.

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 60


Capítulo 1 – Análise de Componentes Principais

1.16. OUTROS TÓPICOS

1.16.1. Quando é apropriado o uso dos Componentes Principais


Os resultados a serem obtidos em uma análise de componentes principais são mais
apropriados, quanto mais correlacionadas forem às variáveis em estudo, fato que justifica
a obtenção de componentes para redução da dimensão do problema.
Por outro lado quanto mais próximo da independência, a ACP de torna adequada a
medida que, no caso extremo da independência, cada variável torna-se um componente.
Desta forma pode ser verificado inicialmente, antes de qualquer procedimento, o quanto a
matriz de covariância, ou a matriz de correlação se aproximada de uma estrutura diagonal
(próximo a situação de independência).
O teste de esferecidade proposto por Bartlett(1950) é uma alternativa para se
verificar a hipótese de que a matriz de correlações é diagonal. O teste é dado por:

𝑝𝑝2 − 𝑝𝑝 2𝑝𝑝 + 5
𝜒𝜒 2 � � = − �(𝑛𝑛 − 1) − � ln⁡|𝑅𝑅|
2 6
Sendo que:
ln|𝑅𝑅| = log 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐çã𝑜𝑜
𝑝𝑝 2 −𝑝𝑝
� 2
� = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒í𝑠𝑠𝑠𝑠𝑖𝑖𝑖𝑖𝑖𝑖 𝑑𝑑𝑑𝑑 𝑞𝑞𝑞𝑞𝑞𝑞 − 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞

𝑝𝑝 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣á𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣


𝑛𝑛 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜çõ𝑒𝑒𝑒𝑒

Príncipio do Teste: o determinante da matriz de correlações é uma medida generalizada


da variância. Ele pode ser calculado considerando o produto dos autovalores da matriz,
isto é:
𝑝𝑝

|𝑅𝑅| = � 𝜆𝜆𝑗𝑗
𝑖𝑖=1

Quando as variáveis na análise são de fato ortogonais (mutuamente exclusivas), a matriz


R deve estar próxima de um Ip . Neste caso todos os autovalores devem estar próximos
de 1. Logo |R| esta próximo de 1 e ln |R| próximo de zero. Conseqüentemente a medida
que as correlações entre as variáveis aumenta o |R| tende a crescer e ln|R| torna-se um
número negativo maior. É necessário avaliar, dado um número p de variáveis e um

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 61


Capítulo 1 – Análise de Componentes Principais

número n de observações o valor obtido é significativamente menor que zero de forma


que possamos considerar a estrutura da matriz R diferente da Ip.

Exemplo:
Consideremos: p=6, n=86 |R| = 0.701
Assim,

2
𝑝𝑝2 − 𝑝𝑝 2𝑝𝑝 + 5 2
62 − 6 2∗6+5
𝜒𝜒 � � = − �(𝑛𝑛 − 1) − � ln|𝑅𝑅| = 𝜒𝜒 � � = − �(86 − 1) − � ln⁡|0.701|
2 6 2 6
𝜒𝜒 2 [15] = −[(85) − 10](−0355)
𝜒𝜒 2 [15] = 29.2
Agora:
𝜒𝜒 2 15 0.05 = 25 < 29.2
Logo rejeitamos a hipótese de que é aproximadamente uma I6 e portanto justifica-
se o uso da ACP neste caso.
Cuidado: O teste de Bartlett é um teste assintótico e sensível ao tamanho de amostra,
logo é incomum encontrar em problemas práticos situações onde a esferecidade não é
rejeitada.

1.16.2 OUTROS MÉTODOS

Outros tópicos: Inferência para Grandes Amostras e Aplicações em Controle Estatístico de


Qualidade, propostos por Johnson e Wichern, não serão aqui apresentados. Os
interessados no assunto poderão encontrá-los no texto dos referidos autores.

1.17. EXEMPLOS

Problema :
Verificar se o Índice de Desenvolvimento Humano (IDH) é um índice econômico
apropriado para descrever a situação socioeconômica dos países sul-americanos.

Unidades de Observação:
Paises Sul-americanos:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 62


Capítulo 1 – Análise de Componentes Principais

Argentina
Bolivia
Brasil
Chile
Colombia
Equador
Paraguai
Peru
Uruguai
Vemezuela

Variáveis Observadas:

• V1: Esperança de vida no nascimento (1990)

• V2: Tempo médio de escolaridade (em anos) (1990)

• V3: Produto Interno Bruto (PIB), per capta (em US$) (1990)

• V4: Gasto público em educação (em % do PIB) (1990)

• V5: Taxa de mortalidade em menores de 15 anos (a cada 100 nascidos vivos)


(1991)

• V6: Taxa de alfabetização de mulheres (em % da população feminina com idade


superior a 15 anos) (1990)

• V7: População rural (em % da população total) (1991)

• V8: Quantidade de habitantes por médico (período de 1984-1989)

• V9: Quantidade de telefones, por 1000 hab. (período de 194-1989)

• V10: Taxa de Nascimentos (1991)

• V11: Total da Divida Externa (em % do Produto Nacional Bruto) (1990)

• V12: Importância da Divida Externa (em % de exportações de bens e serviços)


(1990)

• V13: Empregados no setor de serviços (em % da população ativa) (1989-1991)

• X14: Índice de Desenvolvimento Humano

Resultados:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 63


Capítulo 1 – Análise de Componentes Principais

Estatísticas Descritivas

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum Label

V1 10 67.00000 5.30765 670.00000 54.50000 72.20000 Esperança de vida no nascimento (1990)

V2 10 6.22000 1.61713 62.20000 3.90000 8.70000 Tempo médio de escolaridade (em anos) (1990)

V3 10 9049 16246 90492 1572 55099 Produto Interno Bruto (PIB), per capta (em US$) (1990)

V4 10 2.82000 0.98635 28.20000 1.00000 4.10000 = Gasto público em educação (em % do PIB) (1990)

Taxa de mortalidade em menores de 15 anos (a cada 100 nascidos


V5 10 47.50000 24.16264 475.00000 17.00000 89.00000
vivos) (1991)

Taxa de alfabetização de mulheres (em % da população feminina


V6 10 86.20000 7.91342 862.00000 71.00000 96.00000
com idade superior a 15 anos) (1990)

V7 10 28.10000 15.77234 281.00000 9.00000 52.00000 População rural (em % da população total) (1991)

V8 10 997.00000 389.53106 9970 370.00000 1530 Quantidade de habitantes por médico (período de 1984-1989)

V9 10 73.80000 44.74818 738.00000 27.00000 163.00000 Quantidade de telefones, por 1000 hab. (período de 194-1989)

V10 10 3.33000 0.78323 33.30000 2.40000 4.70000 Taxa de Nascimentos (1991)

V11 10 64.60000 28.85288 646.00000 25.00000 121.00000 Total da Divida Externa (em % do Produto Nacional Bruto) (1990)

Importância da Divida Externa (em % de exportações de bens e


V12 10 27.70000 11.42171 277.00000 11.00000 41.00000
serviços) (1990)

V13 10 50.70000 12.05589 507.00000 31.00000 68.00000 Empregados no setor de serviços (em % da população ativa)

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 64


Capítulo 1 – Análise de Componentes Principais

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum Label

(1989-1991)

X14 10 0.71780 0.15068 7.17800 0.39800 0.88100 Índice de Desenvolvimento Humano

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 65


Capítulo 1 – Análise de Componentes Principais

Pearson Correlation Coefficients, N = 10


Prob > |r| under H0: Rho=0

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14

V1
Esperança de - - - - -
1.00000 0.73620 0.38531 0.05391 0.95155 0.65570 0.00348 0.61591 0.96797
vida no 0.94271 0.70252 0.59766 0.79837 0.36916
nascimento 0.0152 0.2715 0.8824 <.0001 0.0395 0.9924 0.0580 <.0001
(1990)
<.0001 0.0235 0.0680 0.0056 0.2938

V2
Tempo médio - - - - - -
0.73620 1.00000 0.31803 0.79845 0.56649 0.28791 0.70533 0.72388
de escolaridade 0.08457 0.72370 0.67705 0.65518 0.68742 0.07792
(em anos) 0.0152 0.3705 0.0056 0.0878 0.4199 0.0227 0.0179
(1990)
0.8163 0.0180 0.0315 0.0398 0.0281 0.8306

V3
Produto Interno - - - -
0.38531 0.31803 1.00000 0.07340 0.36237 0.14940 0.03106 0.07640 0.10033 0.41657
Bruto (PIB), per 0.50796 0.38675 0.35311 0.04057
capta (em US$) 0.2715 0.3705 0.8403 0.3035 0.6804 0.9321 0.8338 0.7827 0.2311
(1990)
0.1339 0.2696 0.3169 0.9114

V4
= Gasto público - - - - - - -
0.05391 0.07340 1.00000 0.02191 0.29010 0.50513 0.21660
em educação 0.08457 0.13865 0.49867 0.19532 0.40358 0.09105 0.03689
(em % do PIB) 0.8824 0.8403 0.9521 0.4162 0.1364 0.5478
(1990)
0.8163 0.7025 0.1423 0.5887 0.2475 0.8025 0.9194

V5
Taxa de
mortalidade em - - - - - - - -
0.02191 1.00000 0.69346 0.48678 0.76766 0.29246
menores de 15 0.94271 0.72370 0.50796 0.94777 0.68594 0.19506 0.56165 0.93980
anos (a cada 0.9521 0.0262 0.1536 0.0095 0.4122
100 nascidos
<.0001 0.0180 0.1339 <.0001 0.0285 0.5892 0.0911 <.0001
vivos) (1991)

V6
Taxa de
alfabetização de
mulheres - - - - - -
0.95155 0.79845 0.36237 1.00000 0.66376 0.09785 0.51314 0.90407
(em % da 0.13865 0.94777 0.65449 0.63382 0.68768 0.26142
população <.0001 0.0056 0.3035 0.0364 0.7880 0.1293 0.0003
feminina com
0.7025 <.0001 0.0400 0.0491 0.0280 0.4656
idade superior a
15 anos) (1990)

V7
População rural - - - - - - - - -
0.69346 1.00000 0.68276 0.84970 0.29260
(em % da 0.70252 0.67705 0.38675 0.49867 0.65449 0.77090 0.10590 0.71739 0.83403
população total) 0.0262 0.0296 0.0019 0.4120
(1991)
0.0235 0.0315 0.2696 0.1423 0.0400 0.0090 0.7709 0.0195 0.0027

V8 - - 0.14940 - 0.48678 - 0.68276 1.00000 - 0.60197 0.00878 - - -

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 66


Capítulo 1 – Análise de Componentes Principais

Pearson Correlation Coefficients, N = 10


Prob > |r| under H0: Rho=0

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14

Quantidade de 0.59766 0.65518 0.6804 0.19532 0.1536 0.63382 0.0296 0.72162 0.0656 0.9808 0.23947 0.56829 0.63244
habitantes por
médico (período 0.0680 0.0398 0.5887 0.0491 0.0185 0.5052 0.0865 0.0497
de 1984-1989)

V9
Quantidade de - - - - -
telefones, por 0.65570 0.56649 0.03106 0.29010 0.66376 1.00000 0.43727 0.70632 0.77470
1000 hab. 0.68594 0.77090 0.72162 0.83264 0.43492
0.0395 0.0878 0.9321 0.4162 0.0364 0.2063 0.0224 0.0085
(período de 0.0285 0.0090 0.0185 0.0028 0.2091
194-1989)

V10 - - - - - - - - -
Taxa de 0.76766 0.84970 0.60197 1.00000 0.43966
Nascimentos 0.79837 0.68742 0.35311 0.40358 0.68768 0.83264 0.28207 0.85323 0.90092
0.0095 0.0019 0.0656 0.2036
(1991) 0.0056 0.0281 0.3169 0.2475 0.0280 0.0028 0.4298 0.0017 0.0004

V11
Total da Divida - - - - - - -
Externa (em % 0.07640 0.29246 0.29260 0.00878 0.43966 1.00000 0.32664
do Produto 0.36916 0.07792 0.09105 0.26142 0.43492 0.27477 0.40366
0.8338 0.4122 0.4120 0.9808 0.2036 0.3570
Nacional Bruto) 0.2938 0.8306 0.8025 0.4656 0.2091 0.4423 0.2474
(1990)

V12
Importância da
Divida Externa - - - - - -
0.00348 0.28791 0.09785 0.43727 0.32664 1.00000 0.38256 0.09732
(em % de 0.04057 0.03689 0.19506 0.10590 0.23947 0.28207
exportações de 0.9924 0.4199 0.7880 0.2063 0.3570 0.2752 0.7891
bens e serviços)
0.9114 0.9194 0.5892 0.7709 0.5052 0.4298
(1990)

V13
Empregados no
setor de - - - - -
0.61591 0.70533 0.10033 0.50513 0.51314 0.70632 0.38256 1.00000 0.69942
serviços (em % 0.56165 0.71739 0.56829 0.85323 0.27477
da população 0.0580 0.0227 0.7827 0.1364 0.1293 0.0224 0.2752 0.0244
ativa) (1989-
0.0911 0.0195 0.0865 0.0017 0.4423
1991)

X14 - - - - -
Índice de 0.96797 0.72388 0.41657 0.21660 0.90407 0.77470 0.09732 0.69942 1.00000
Desenvolviment 0.93980 0.83403 0.63244 0.90092 0.40366
<.0001 0.0179 0.2311 0.5478 0.0003 0.0085 0.7891 0.0244
o Humano <.0001 0.0027 0.0497 0.0004 0.2474

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 67


Capítulo 1 – Análise de Componentes Principais

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 7.00482811 5.30662135 0.5388 0.5388

2 1.69820675 0.19484743 0.1306 0.6695

3 1.50335932 0.31126950 0.1156 0.7851

4 1.19208982 0.41986651 0.0917 0.8768

5 0.77222330 0.0594 0.9362

Eigenvectors

Prin1 Prin2 Prin3 Prin4 Prin5

0.34087 - - - -
V1 Esperança de vida no nascimento (1990)
0 .243614 .095139 .075475 .093795

0.31291 - 0.23919 - -
V2 Tempo médio de escolaridade (em anos) (1990)
2 .152976 5 .000885 .134807

Produto Interno Bruto (PIB), per capta (em US$) 0.12777 - - 0.68203 0.14071
V3
(1990) 6 .390621 .129523 9 5

0.09479 0.55312 - 0.40194 -


V4 = Gasto público em educação (em % do PIB) (1990)
1 4 .335017 4 .178913

Taxa de mortalidade em menores de 15 anos (a cada - 0.29056 - - -


V5
100 nascidos vivos) (1991) .335270 8 .007711 .031042 .129380

Taxa de alfabetização de mulheres (em % da


0.32953 - 0.06194 - -
V6 população feminina com idade superior a 15 anos)
2 .322150 2 .137619 .110710
(1990)

- - 0.14158 - 0.19500
V7 População rural (em % da população total) (1991)
.333845 .131846 1 .178006 5

Quantidade de habitantes por médico (período de - - - 0.24024 0.53624


V8
1984-1989) .275662 .189542 .230204 0 2

Quantidade de telefones, por 1000 hab. (período de 0.32463 0.22317 0.03882 - 0.20877
V9
194-1989) 5 2 8 .198056 2

V1 - - 0.10921 - -
Taxa de Nascimentos (1991)
0 .353503 .123601 4 .083512 .187352

V1 Total da Divida Externa (em % do Produto Nacional - - 0.57179 0.44050 -


1 Bruto) (1990) .130241 .008828 2 8 .425526

V1 Importância da Divida Externa (em % de exportações 0.09968 0.24126 0.62219 0.11004 0.54168
2 de bens e serviços) (1990) 3 5 4 2 3

V1 Empregados no setor de serviços (em % da população 0.30804 0.30631 0.01672 0.07685 0.11602
3 ativa) (1989-1991) 3 8 3 3 4

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 68


Capítulo 1 – Análise de Componentes Principais

Pearson Correlation Coefficients, N = 10


Prob > |r| under H0: Rho=0

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 X14

0.90217 0.82817 0.33818 0.25088 -0.88735 0.87216 -0.88358 -0.72959 0.85920 -0.93560 -0.34471 0.26383 0.81529 0.96110
Prin1
0.0004 0.0031 0.3392 0.4845 0.0006 0.0010 0.0007 0.0166 0.0014 <.0001 0.3293 0.4614 0.0040 <.0001

-0.31747 -0.19935 -0.50904 0.72081 0.37865 -0.41981 -0.17182 -0.24700 0.29083 -0.16107 -0.01150 0.31440 0.39918 -0.15226
Prin2
0.3714 0.5808 0.1329 0.0187 0.2806 0.2271 0.6351 0.4915 0.4149 0.6567 0.9748 0.3763 0.2531 0.6746

-0.11665 0.29328 -0.15881 -0.41077 -0.00945 0.07595 0.17359 -0.28226 0.04761 0.13391 0.70108 0.76288 0.02050 -0.14810
Prin3
0.7483 0.4108 0.6612 0.2383 0.9793 0.8348 0.6315 0.4294 0.8961 0.7123 0.0239 0.0103 0.9552 0.6830

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho 69


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 70


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 71


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 72


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 73


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 74


Capítulo 1 – Análise de Componentes Principais

Pobreza
conjuntural

Pobreza
estrutural
Investimento público
Em Educação

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 75


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 76


Capítulo 1 – Análise de Componentes Principais

Retornando aos dados originais:

V1 V2 V5 V6

Média Média Média Média

Uru 72.20 7.80 21.00 96.00

Arg 71.00 8.70 30.00 95.00

Chi 71.80 7.50 17.00 93.00

Ven 70.00 6.30 34.00 90.00

Col 68.80 7.10 38.00 86.00

Bra 65.60 3.90 59.00 80.00

Equ 66.00 5.60 59.00 84.00

Par 67.10 4.90 48.00 88.00

Per 63.00 6.40 80.00 79.00

Bol 54.50 4.00 89.00 71.00

Média 67.00 6.22 47.50 86.20

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 77


Capítulo 1 – Análise de Componentes Principais

MOTIVAÇÃO: INVESTIGANDO O APROVEITAMENTO CONJUNTO DAS PROVAS DO

PROCESSO SELETIVO DA UFSCAR.

Ficaremos restritos aos dados dos alunos ingressos na UFSCar em 2006. Dessa forma
os objetivos a serem investigados ficarão restritos a:

1) Como é a estrutura de correlação conjunta das provas?

2) Como é o aproveitamento conjunto das provas para os diferentes cursos da UFSCar?

UMA ANÁLISE ESTATÍSTICA DESCRITIVA E EXPLORATÓRIA:

Alguns resultados:
Medidas Descritivas:

Provas N Média Mediana Desvio Padrão Nota Mínima Nota Máxima

Lingua Portuguesa 1375 19.62 20.00 2.51 9.50 25.50

Lingua Inglesa 1375 9.18 10.00 3.23 0.50 14.00

Redação 1375 19.00 19.50 3.21 7.50 28.50

Matematica 1375 5.49 5.00 2.81 0.50 16.50

Quimica 1375 11.49 12.00 3.50 1.00 19.00

Fisica 1375 10.44 11.00 4.79 0.50 20.00

Biologia 1375 11.45 11.50 2.72 3.00 19.00

História 1375 11.52 11.50 2.74 1.00 19.00

Geografia 1375 10.05 10.00 2.59 1.00 19.00

Graficamente:

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 78


Capítulo 1 – Análise de Componentes Principais

Histogramas:

F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Redação Matematica Fisica

F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Lingua Portugues Quimica Biologia

F F F
r r r
e e e
q q q
u u u
e e e
n n n
c c c
Lingua Inglesa História Geografia

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 79


Capítulo 1 – Análise de Componentes Principais

UMA ANÁLISE ESTATÍSTICA CONJUNTA DOS DADOS:

Para uma análise conjunta das variáveis observadas, objetivo, é possível inicialmente
construir uma matriz de gráficos, onde todos os possíveis gráficos de dispersão das
variáveis, duas a duas, são apresentados. Desta forma, através desta matriz é possível a
observação do comportamento conjunto, duas a duas, das variáveis observadas.

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 80


Capítulo 1 – Análise de Componentes Principais

Matriz de Gráficos:

25 25 25

Redp tlp tli tmat tqui this tfis tbio tgeo : Redp tlp tli tmat tqui this tfis tbio tgeo
R 20 R 20 R 20
e e e
d 25 25 25 d d
25 25 25
p 15 p 15 p 15

R R R 20 R 20 R 20 R 20
20 20
e 10 e e e e e 10 10
d d d d d d
p p 15 p 15 p 15 p 15 p 15
15 5 10 15 5 10 15
10 15 20 25
tlp tbio tgeo

10 10 10 10 10
10

2 4 6 8 10 12 14 5 10 15 5 10 15 5 10 15 5 10 15 20
10 15 20 25
Redp tli tmat tqui this tfis

25 25 25 25 25
25 25 25 25

20 20 20 20 20
20 20 20 20
t t t t t t
t t t
l l l l l l
l l l
p p p p p p
p p p
15 15 15 15 15
15 15 15 15

10 10 10 10 10
10 10 10 10

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli
14 14 14 14 14
14 14 14 14

12 12 12 12 12
12 12 12 12

10 10 10 10 10
10 10 10 10

t t t t t t
t t t 8 8 8 8 8 8 8
8 8
l l l l l l
l l l
i i i i i i 6
i 6 i 6 i 6 6 6 6 6 6

4 4 4 4 4
4 4 4 4

2 2 2 2 2
2 2 2 2

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

15 15 15 15 15
15 15 15 15

t t t t t t
t t t 10 10 10 10 10 10 10
10 10
m m m m m m
m m m
a a a a a a
a a a
t t t t t t
t t t
5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

15 15 15 15 15
15 15 15 15

t t t t t t
t t t
q q q q q q
q q q 10 10 10 10 10
10 10 10
u
10
u u u u u
u u u
i i i i i i
i i i

5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

15 15 15 15 15
15 15 15 15

t t t t t t
t t t
h h h h h h
h h h 10 10 10 10 10
10 10 10
i
10
i i i i i
i i i
s s s s s s
s s s

5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli
20 20 20 20 20
20 20 20 20

15 15 15 15 15
15 15 15 15

t t t t t t
t t t
f f f f f f
f f f 10 10 10
10 10 10
i
10
i
10
i
10
i i i
i i i
s s s s s s
s s s
5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

15 15 15 15 15
15 15 15 15

t t t t t t
t t t
b b b b b b
b b b
i i i i i i
i 10 i 10 i 10 10 10 10 10 10 10
o o o o o o
o o o

5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

15 15 15 15 15
15 15 15 15

t t t t t t
t t t
g g g g g g
g g g 10 10 10 10 10
10 10 10
e
10
e e e e e
e e e
o o o o o o
o o o

5 5 5 5 5
5 5 5 5

5 10 15 5 10 15 5 10 15 20 5 10 15 5 10 15
10 15 20 25 10 15 20 25 2 4 6 8 10 12 14 5 10 15
tmat tqui this tfis tbio tgeo
Redp tlp tli

Estatística Multivariada 2 – 2o Semestre de 2011 – Prof. Pedro Ferreira Filho 81


Capítulo 1 – Análise de Componentes Principais

A matriz de gráficos acima nos permite identificar possíveis associações (lineares ou não lineares) das variáveis de forma
bivariada. Do ponto de vista da associação linear esta informação pode ser também expressa a partir da matriz de
correlação das variáveis observadas.

Matriz de Correlações:

Pearson Correlation Coefficients, N = 1375


Prob > |r| under H0: Rho=0

tlp tli Redp tmat tqui tfis tbio this tgeo

1.00000
Lingua Portuguesa

0.36006 1.00000
Lingua Inglesa <.0001

0.19910 0.14239 1.00000


Redação <.0001 <.0001

0.18174 0.26395 0.06813 1.00000


Matematica <.0001 <.0001 0.0115

0.26874 0.27899 0.17822 0.48510 1.00000


Quimica <.0001 <.0001 <.0001 <.0001

0.22796 0.29550 0.11175 0.65073 0.67263 1.00000


Fisica <.0001 <.0001 <.0001 <.0001 <.0001

0.25649 0.19192 0.17234 0.23435 0.48748 0.37251 1.00000


Biologia <.0001 <.0001 <.0001 <.0001 <.0001 <.0001

0.26378 0.25463 0.22268 0.01128 0.12665 0.09736 0.23881 1.00000


História <.0001 <.0001 <.0001 0.6759 <.0001 0.0003 <.0001

0.23779 0.22785 0.19775 0.26280 0.35022 0.38186 0.35373 0.40620


1.00000
Geografia <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 82


Capítulo 1 – Análise de Componentes Principais

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 3.27665916 1.88538607 0.3641 0.3641

2 1.39127310 0.45579394 0.1546 0.5187

3 0.93547916 0.08796834 0.1039 0.6226

4 0.84751082 0.10356303 0.0942 0.7168

5 0.74394779 0.13670850 0.0827 0.7994

6 0.60723929 0.10517527 0.0675 0.8669

7 0.50206402 0.07476946 0.0558 0.9227

8 0.42729456 0.15876246 0.0475 0.9702

9 0.26853210 0.0298 1.0000

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 83


Capítulo 1 – Análise de Componentes Principais

Eigenvectors

Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8 Prin9

Lingua
tlp 0.288070 0.289584 0.490396 0.073485 -.432078 -.632176 -.013674 -.006596 -.026472
Portuguesa

tli Lingua Inglesa 0.297135 0.164925 0.648150 -.083717 0.142261 0.611999 -.250165 0.005489 0.002981

Redp Redação 0.188387 0.362645 -.187124 0.860977 0.217530 0.060083 -.038704 0.053189 -.038025

tmat Matematica 0.355280 -.431519 0.130128 0.050511 0.331103 -.181182 0.220021 0.590673 0.358221

tqui Quimica 0.429537 -.254451 -.125428 0.092605 -.183132 0.100737 0.120702 -.642455 0.505412

tfis Fisica 0.430802 -.367070 -.026565 0.004811 0.148644 -.061577 0.119549 -.199180 -.774008

tbio Biologia 0.349202 0.044832 -.367658 -.066604 -.650682 0.331211 -.037041 0.441257 -.085278

this História 0.228284 0.569989 -.136038 -.351259 0.238037 0.041932 0.649428 -.029069 0.009396

tgeo Geografia 0.350521 0.211752 -.342560 -.327629 0.316924 -.252933 -.659798 -.015097 0.087356

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 84


Capítulo 1 – Análise de Componentes Principais

Correlação das Variáveis com os Componentes


Principais:
proc corr data=saida;
var tlp tli redp tmat tqui tfis tbio this tgeo;
with prin1-prin4;
run;

Pearson Correlation Coefficients, N = 1375


Prob > |r| under H0: Rho=0

tlp tli Redp tmat tqui tfis tbio this tgeo

0.5214
0.5378 0.3410 0.6431 0.7775 0.7798 0.6321 0.4132 0.6345
Prin 5
6 1 1 3 2 1 3 0
1 <.000
<.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
1

0.3415 - - -
0.1945 0.4277 0.0528 0.6723 0.2497
Prin 7 0.5089 0.3001 0.4329
3 5 8 1 7
2 <.000 9 3 7
<.0001 <.0001 0.0499 <.0001 <.0001
1 <.0001 <.0001 <.0001

0.4743 - - - - - -
0.6268 0.1258
Prin 1 0.1809 0.1213 0.0256 0.3556 0.1315 0.3313
9 6
3 <.000 9 1 9 0 8 3
<.0001 <.0001
1 <.0001 <.0001 0.3411 <.0001 <.0001 <.0001

- - - -
0.0676 0.7926 0.0465 0.0852 0.0044
Prin 0.0770 0.0613 0.3233 0.3016
5 2 0 5 3
4 7 2 7 2
0.0121 <.0001 0.0848 0.0016 0.8697
0.0042 0.0230 <.0001 <.0001

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 85


Capítulo 1 – Análise de Componentes Principais

Gráfico das Variáveis no 1º Plano Fatorial:

goptions reset=all gunit=pct border cback=white ftitle=swissb htitle=6


htext=2.5;
symbol1 color=red value=dot height=3;
symbol2 color=blue value=dot height=3;
symbol3 color=yellow value=dot height=3;
symbol4 color=black value=dot height=3;
symbol5 color=green value=dot height=3;
symbol6 color=orange value=dot height=3;
symbol7 color=pink value=dot height=3;
symbol8 color=cyan value=dot height=3;
symbol9 color=gray value=dot height=3;
proc gplot;
title1 'Grafico das Variaveis no 1o Plano Fatorial';
plot prin2*prin1=_label_/haxis=-0.1 to 0.5 by 0.1 vref=0 href=0;
run;

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 86


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 87


Capítulo 1 – Análise de Componentes Principais

Editando:

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 88


Capítulo 1 – Análise de Componentes Principais

Analisando os Curso no 1º Plano Fatorial

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 89


Capítulo 1 – Análise de Componentes Principais

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 90


Capítulo 1 – Análise de Componentes Principais

Gráfico dos alunos no 1º Plano Fatorial

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Pedagogia 18.04 5.79 17.07 2.97 6.17 3.63 8.53 10.55 8.01

Medicina 22.91 12.24 23.14 8.83 16.65 16.83 16.30 14.61 14.36

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Imagem e Som 21.59 11.91 20.51 6.38 12.38 12.18 12.33 15.05 12.53

Biologia Bach. 21.20 10.77 20.70 5.27 13.60 11.77 14.27 13.60 11.43

Psicologia 21.44 11.10 20.48 5.43 11.81 9.81 13.06 14.26 11.24

Eng Computação 20.53 11.28 19.45 8.42 14.53 16.12 12.90 12.28 11.75

Eng Química 20.64 10.34 19.28 7.33 14.86 14.98 12.28 11.80 10.68

Eng Física 21.43 10.98 20.15 9.40 14.28 16.50 13.15 13.10 11.92

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 91


Capítulo 1 – Análise de Componentes Principais

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Biologia Lic. 19.37 9.23 18.75 4.32 12.95 9.03 14.12 12.18 10.68

Enfermagem 19.35 7.35 18.40 3.82 10.38 6.87 11.82 9.98 7.88

Biotecnologia 20.12 8.98 20.46 5.70 14.44 13.72 13.66 12.26 10.82

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Biblioteconomia 18.25 7.61 18.11 2.59 6.34 3.66 8.80 10.84 8.43

Matemática
Diurno 17.07 5.67 16.40 5.20 7.57 7.32 7.92 8.12 7.82

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Turismo 18.74 8.60 18.41 2.74 7.54 4.75 9.34 12.13 9.46

Letras 19.30 9.89 19.09 2.85 8.31 4.95 9.08 12.30 8.76

Eng
Computação 20.53 11.28 19.45 8.42 14.53 16.12 12.90 12.28 11.75

Eng Física 21.43 10.98 20.15 9.40 14.28 16.50 13.15 13.10 11.92

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 92


Capítulo 1 – Análise de Componentes Principais

Lingua Lingua
Redação Matematica Quimica Fisica Biologia História Geografia
Portuguesa Inglesa
Curso

Média Média Média Média Média Média Média Média Média

Imagem e
Som 21.59 11.91 20.51 6.38 12.38 12.18 12.33 15.05 12.53

Biologia
Bach. 21.20 10.77 20.70 5.27 13.60 11.77 14.27 13.60 11.43

Psicologia 21.44 11.10 20.48 5.43 11.81 9.81 13.06 14.26 11.24

Engenharia
Agronômica 17.47 7.39 17.67 4.06 10.96 7.55 11.62 9.51 8.63

Matemática
Diurno 17.07 5.67 16.40 5.20 7.57 7.32 7.92 8.12 7.82

Matemática
Noturno 18.52 5.92 17.75 4.72 7.83 8.28 9.55 9.43 9.03

Química
Noturno 17.58 5.73 18.15 4.05 11.48 7.08 10.43 9.68 8.20

UFSCar 19.62 9.18 19.00 5.49 11.49 10.44 11.45 11.52 10.05

Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 93

Potrebbero piacerti anche