Sei sulla pagina 1di 136

Josias Jnatas

Data Mining Consultant


StatSoft South America Consulting Services

Contedo
Anlise de Agrupamentos
Anlise de Componentes Principais
Anlise de Fatores
Anlise Discriminante
Multivariate Statistical Process Control - MSPC

Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services

Definio
T r e e D ia g r a m fo r 3 6 C a s e s
W a r d ` s m e th o d
E u c lid e a n d is t a n c e s
70
60
50
40
30
Linkage Distance

20
10
0

Bolvia

Espanha

Nova Zelndia

Haiti
India
Egito
Arglia
Quenia
Banglade
Paquist
Nigria
Gana
Rep.C. Af.
Brasil
Mxico
Turquia
Chile
C.Rica
China
Filipina
Uruguai
URSS
Hungria
Grcia
Iugoslv
Portugal
Canad
Japo
Austrlia

EUA

Itlia

Israel
RU
RFA
Sucia
Suia

Anlise de
Agrupamento uma
tcnica multivariada cuja
finalidade agregar
objetos (OTUs
Unidades de Objetos
Taxonmicos) com base
nas caractersticas que
eles possuem. O
resultado so grupos que
exibem mxima
homogeneidade de
objetos dentro de grupos
e, ao mesmo tempo,
mxima heterogeneidade
entre os grupos.

Conceitos Bsicos
Consumo (em R$)

Tempo (em dias)

Conceitos Bsicos
Alguns pontos relevantes que devemos observar em anlise de
agrupamentos so:
A anlise de agrupamentos no faz distino entre variveis
dependentes e independentes, no entanto pode examinar
relaes de interdependncia entre todo o conjunto de variveis.
O objetivo principal de anlise de agrupamentos classificar
objetos em grupos relativamente homogneos, a partir das
variveis consideradas importantes para a anlise;
Os objetos em um grupo so relativamente semelhantes em
termos dessas variveis e diferentes de objetos de outros
grupos;
A mais forte aplicao desta tcnica tem sido em Pesquisa de
Marketing, principalmente, Segmentao de Mercado.

Padronizando os dados
Imagine a
situao descrita
na tabela ao lado.
Foram medidas 3
caractersticas de
8 clientes e
queremos avaliar
uma forma de
agrupar estes
clientes e
encontrar aquelas
que acompanham
um
comportamento
semelhante.

Cliente 1

Percentual de
Importncia

Salrio
Mdio

Consumo
Mdio

10,85

1.500,80

149,35

Fase 2
Cliente 2

14,13

1.496,07

187,99

Cliente 3

8,62

1.448,79

130,97

Cliente 4

23,04

1.277,33

424,87

Cliente 5

16,04

1.204,02

214,36

Cliente 6

43,74

1.190,94

1.139,52

Cliente 7

25,39

1.292,91

358,39

Cliente 8

42,86

1.590,66

721,90

Mdia

23,08

1.375,19

415,92

Desvio
Padro

13,69

152,05

351,62

Padronizando os dados
1 .6 5 0 ,0 0
C lie n te 8

1 .6 0 0 ,0 0
1 .5 5 0 ,0 0
1 .5 0 0 ,0 0
1 .4 5 0 ,0 0
1 .4 0 0 ,0 0

Mdia Salarial

1 .3 5 0 ,0 0
1 .3 0 0 ,0 0
1 .2 5 0 ,0 0
1 .2 0 0 ,0 0
1 .1 5 0 ,0 0
- 5 0 ,0 0

O primeiro passo da
anlise definir um
critrio para a formao
dos grupos. Um critrio
que parece ser razovel
considerar a
proximidade entre os
pontos. Pontos
prximos, ento,
representariam regies
com comportamentos
semelhantes no que se
refere s variveis do
grfico, ou seja, regies
que podem fazer parte
de um mesmo grupo.

Fase 2
C C lielien ntete 1 2

C lie n te 3

C lie n te 7
C lie n te 4

C lie n te 5
C lie n te 6

0 ,0 0

5 0 ,0 0

1 0 0 ,0 0

1 5 0 ,0 0

2 0 0 ,0 0

2 5 0 ,0 0

3 0 0 ,0 0

P e r c e n t u a l d e Im p o r t n c i a

3 5 0 ,0 0

4 0 0 ,0 0

4 5 0 ,0 0

5 0 0 ,0 0

Padronizando os dados
1 .6 5 0 ,0 0
C lie n te 8

1 .6 0 0 ,0 0
1 .5 5 0 ,0 0
1 .5 0 0 ,0 0
1 .4 5 0 ,0 0
1 .4 0 0 ,0 0

Mdia Salarial

1 .3 5 0 ,0 0
1 .3 0 0 ,0 0
1 .2 5 0 ,0 0
1 .2 0 0 ,0 0
1 .1 5 0 ,0 0
- 5 0 ,0 0

Note que as distncias


no sentido vertical so
muito maiores do que
no sentido horizontal, o
que reflete o fato da
variabilidade da varivel
X2 ser muito maior do
que a de X1. Em
termos, prticos, a
varivel X1 contribuiu
muito pouco para a
definio dos grupos. E
se quisssemos dar
igual importncia s
duas variveis?

Fase 2
C C lielien ntete 1 2

C lie n te 3

C lie n te 7
C lie n te 4

C lie n te 5
C lie n te 6

0 ,0 0

5 0 ,0 0

1 0 0 ,0 0

1 5 0 ,0 0

2 0 0 ,0 0

2 5 0 ,0 0

3 0 0 ,0 0

P e r c e n t u a l d e Im p o r t n c i a

3 5 0 ,0 0

4 0 0 ,0 0

4 5 0 ,0 0

5 0 0 ,0 0

Padronizando os dados

1 ,6 0

C lie n te 8

1 ,4 0
1 ,2 0
1 ,0 0
0 ,8 0
0 ,6 0
0 ,4 0
0 ,2 0
0 ,0 0
Mdia Salarial

- 0 ,2 0
- 0 ,4 0
- 0 ,6 0
- 0 ,8 0
- 1 ,0 0

Uma maneira popular de


tratar com isso usar
variveis padronizadas. Ou
seja, subtramos a mdia do
grupo de cada valor e
dividimos pelo desvio padro:

Fase 2

C lie n te C1 lie n te 2
C lie n te 3

Z ij

C lie n te 7
C lie n te 4

C lie n te 5

C lie n te 6

- 1 ,2 0
- 1 ,4 0
- 1 ,2 0 - 1 ,0 0 - 0 ,8 0 - 0 ,6 0 - 0 ,4 0 - 0 ,2 0 0 ,0 0

0 ,2 0

0 ,4 0

0 ,6 0

P e r c e n t u a l d e Im p o r t n c ia

0 ,8 0

1 ,0 0

1 ,2 0

1 ,4 0

1 ,6 0

1 ,8 0

X ij X j
Sj

Isso garante que as duas


variveis esto sendo
consideradas com
importncias equivalentes.
Observe agora os novos
grupos.

Resumo dos Estgios


1. Escolha do critrio de parecena
2. Definio do nmero de grupos
3. Formao dos grupos
4. Validao do agrupamento
5. Interpretao dos grupos
O Deve-se
nmero de
Ao
garantir
Nesse
grupos
final do
que
Aqui
primeiro
pode
processo
dedefinimos
fato
serinstante
definido
as
devariveis
formao
o algoritmo
devemos
a priori,
tm
de
atravs
comportamento
de grupos
algum
avaliar
conhecimento
importante
se
diferenciado
asque
variveis
ser
caracterizar
que
nos
utilizado
devem
se
diversos
tenha
ou
na
os
grupos.
sobregrupos
os
comum,
dados,
no
formados.
ser
convenincia
ento,
identificao
padronizadas
Oque
usocada
de
dedos
estatsticas
eanlise
grupo
ogrupos:
critrio
seja
ou
uma
ainda
amostra
pode
descritivas
que
ser
aleatria
ser
definido
utilizado
de
Mtodos
recomendado
aalguma
posteriori
na hierrquicos
determinao
subpopulao
com
parabase
esta
e
e aplicar tcnicas inferenciais
nos resultados
Mtodos
para
fase
compar-las.
dos
de
da Partio
anlise.
grupos.

Medidas de Parecena
As medidas de parecena tm
um papel central nos
algoritmos de agrupamentos.
Atravs delas so definidos
critrios para avaliar se dois
pontos esto prximos, e
portanto podem fazer parte de
um mesmo grupo, ou no.
H dois tipos de medidas de
parecena: medidas de
similaridade (quanto maior o
valor, maior a semelhana
entre os objetos) e medidas de
dissimilaridade (quanto maior o
valor, mais diferentes so os
objetos.)

Medidas disponveis na
Soluo STATISTICA

Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formao dos
agrupamentos pode ser classificada em duas grandes famlias de
mtodos: hierrquicos e de partio.
Mtodos Hierrquicos Aglomerativos
Para
esses
mtodos
os
agrupamentos so formados a partir de
uma matriz de parecena;
Queremos identificar os objetos que
mais se parecem;
Agrupamos esses objetos e os
consideramos como um nico objeto;
Definimos uma nova matriz de
parecena.

Algoritmos de Agrupamentos
Os procedimentos hierrquicos envolvem a construo de
uma hierarquia de uma estrutura do tipo rvore. Existem
basicamente dois tipos de procedimentos hierrquicos de
agrupamento: Aglomerativos e Divisivos.
Mtodos Hierrquicos Aglomerativos Usando o STATISTICA
O STATISTICA traz uma srie de
Vamos enumerar pelos menos 5 mmtodos implementados:
todos aqui:
Mtodo do vizinho mais prximo;
Mtodo do vizinho mais longe;
Mtodo das mdias das distncias;
Mtodo da centride;
Mtodo de Ward.

Algoritmos de Agrupamentos
Mtodo do vizinho mais prximo
(Single Linkage)
a distncia
entre os
grupos
definida como
sendo a
distncia entre
os elementos
mais prximos
(menor
distncia) dos
dois grupos

Algoritmos de Agrupamentos
Mtodo do vizinho mais longe
(Complete Linkage)
a distncia entre
dois grupos
definida como
sendo a
distncia entre
os indivduos
mais distantes
dos dois grupos
(distncia
mxima).

Algoritmos de Agrupamentos
Mtodo do centride
Este mtodo define a
coordenada de cada
grupo como sendo a
mdia das
coordenadas de seus
objetos. Uma vez
obtida essa
coordenada,
denominada centride,
a distncia entre os
grupos obtida
atravs do clculo das
distncias entre os
centrides.

Algoritmos de Agrupamentos
Mtodo de Ward
O mtodo de Ward busca unir objetos que tornem os
agrupamentos formados os mais homogneos possvel. A medida
de homogeneidade utilizada baseia-se na partio da soma de
quadrados total de uma anlise de varincia. Observe abaixo:

x
k

j 1 iG j

i1

X 1 n j X j 1 X 1 x i 1 X j 1
2

j 1

j 1 iG j

O Mtodo de Ward, atraente por basear-se numa medida com


forte apelo estatstico e por gerar grupos que, assim como os do
mtodo do vizinho mais longe, possuem alta homogeneidade
interna.

No STATISTICA
Na opo Input File existem duas maneiras para entrar com uma
base de dados: Raw Data ou Distance Matrix. Por vezes, algum
procedimento hierrquico ou medida de distncia no est
implementada num procedimento automtico. possvel, ento,
entrar com a matriz de distncia e avaliar os grupos. As informaes
que esta matriz deve ter so:
Medidas de distncia;
Mdia, Desvio Padro e Nmero de Casos;
Tipo de Matriz:
1 Matriz de Correlao;
2 Matriz de Similaridade;
3 Matriz de Dissimilaridade;
4 Matriz de Varincia e Covarincia.

No STATISTICA

Exerccio
Abra o arquivo Pases.sta e avalie algum tipo de agrupamento entre
os 36 pases disponveis para anlise.

Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services

Definio
Anlise de Componentes Principais (ACP) uma tcnica
estatstica que transforma linearmente um conjunto de p variveis em
um novo conjunto com um nmero menor (k) de variveis nocorrelacionadas, que explica uma parcela substancial das informaes
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x 2 )
do conjunto original.
C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
4
Tambm ser til
3
quando desejamos
2
confirmar um
1
modelo de
0
agrupamento
-1
avaliado com a
-2
tcnica de Anlise
-3
de Agrupamentos
-4
(ao lado vemos os
grupos vistos
-5
-8
-6
-4
-2
0
2
4
6
8
10
A c t iv e
anteriormente)
F a c to r 1 : 7 0 ,0 5 %
C .R ic a

C h in a

C h ile M x ic o
P I uo gr t uo gs al l v
T u rq u i a
G r c ia
B ra s il
E s p a n h a U ru g u a i
Is ra e l
F ilip in a
N o v a Z e l n d i aU R S S
H u n g ria

ISt u l i ac i a
J CAa aup ns ato r d l i a
S u i a
R FRAU

A rg li a
In d ia Q u e n ia
E g ito
H a iti
P a q u is t

B a n g la d e
G ana
N ig ria

Factor 2: 8,46%

B o lv ia R e p .C . A f.

EUA

Motivao
No menu Help, opte por Open Examples, na pasta Datasets
busque o arquivo Economic Indicators. O arquivo consta de
informaes econmicas (Imposto, PNB, Inflao e Dvida) de 40
pases.
Vamos estudar o
relacionamento
entre as variveis
usando a Anlise
de Correlaes.
Depois faremos
uma Anlise de
Agrupamentos e,
logo em seguida,
uma Anlise de
Componentes
Principais.

Motivao
Vamos proceder com uma anlise
de correlao. No menu Statistics,
opte por Basic Statistics and
Tables e, em seguida, clique duas
vezes na opo Correlation
matrices.

Insira todas as variveis em


One variable list e clique em
Summary Correlation matrix.
Depois clique na opo
Scatterplot matrix.

Motivao
C o r r e la t io n s ( E c o n o m ic in d ic a t o r s 4 v * 4 0 c )
W A GE RA T E

GNP

IN F L A T IO N

DE B T

Vamos
avaliar os
resultados:
O que h de
peculiar
entre as
variveis?
Qual a
estrutura de
relao entre
elas?

Motivao
T r e e D ia g r a m f o r 4 0 C a s e s
W a r d ` s m e th o d

E u c lid e a n d is t a n c e s
40

35

30

25

20

15

0
Linkage Distance

10

Algeria
Sri Lanka
India
Brazil
South Afr
Egypt
Kenia
Peru
Ethiopia
Haiti
Australia
Austria
Norway
France
USA
Sweden
Japan
Britain
Denmark
Netherlan
Germany
Switzerlan
Luxemburg
Belgium
Finland
Taiwan
China
Malaysia
Mexico
Greece
Czech
Poland
Thailand
Hungary
Portugal
Indonesia
Italy
Korea
Ireland
Spain

Motivao
Agora, para finalizar essa motivao, vamos tcnica de Anlise de
Componentes Principais. No menu Statistics, opte por Multivariate
Exploratory Techiniques e Principal Components & Classification
Analysis.

Motivao
Na aba Advanced, em
Variables inserimos as
variveis de interesse para a
anlise como na janela
abaixo. Variveis
suplementares so aqueles
que desejamos analisar,
mas no diretamente.
Podemos
desejar usar
apenas
algumas
observaes,
ento usamos
Active cases
variable.

Motivao
Para observar o
comportamento
das variveis
podemos avaliar
um grfico de
scaterplot. Clique
em Plot var.
factor
coordinates, 2D.
Em seguida, na
aba Cases clique
em Plot cases
factor
coordinates, 2D.

Motivao
P r o je c t io n o f t h e v a r ia b le s o n t h e f a c t o r - p la n e ( 1 x

2)

1 ,0

0 ,5
IN F L A T IO N
W AG ERATE

G NP

0 ,0
DEBT

Factor 2 : 3,11%

- 0 ,5

- 1 ,0

- 1 ,0

- 0 ,5

0 ,0
F a c to r 1 : 9 4 ,3 1 %

0 ,5

1 ,0

Motivao
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x

2)

C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
1 ,2
1 ,0
0 ,8

S p a in

0 ,6

H a iti

P o rtu g a l
H u n g aI rr ey l a n d
G re e c e
T h a i l a n dI t a l y

E th io p ia

0 ,4

C z e Pc oh l aR ne dp u b l i c

S o u th A fric a

0 ,2

Egypt

0 ,0

K o re a
S ri L a n k aB r a z i l

K e n ia

- 0 ,2

In d ia
A lg e ria

- 0 ,4
Factor 2: 3,11%

- 0 ,6

M a la y s iaIn d o n e s ia

B rita in
N eD t eh ne mr l aa nr kd s
Japan
L u x e m b u rg
F in la n d
G e rm a n y
N So wrSw ew ad iyet z n e r l a n d
A u sA t ur Fa s lr tiara ina c e
USA

C h in a
M e x ic o
T a i w B a en l g i u m

P e ru

- 0 ,8
- 1 ,0
- 1 ,2
- 1 ,4
-6

-5

-4

-3

-2

-1

F a c to r 1 : 9 4 ,3 1 %

A c t iv e

Principais Objetivos da Anlise


As p variveis originais (X1, . . . , Xp) so transformadas em
p variveis (Y1, . . . , Yp), denominadas componentes principais, de
modo que Y1 aquela que explica a maior parcela da variabilidade
total dos dados, Y2 explica a segunda maior parcela e assim por
diante. Portanto, podemos afirmar que os principais objetivos de
ACP so:
Descrio
e entendimento da
estrutura de correlao
das variveis

Obteno
de combinaes
interpretveis das
variveis

Confirma grupos
da Anlise de
Agrupamentos

Componentes
Principais
Reduo
da dimensionalidade
dos dados

Algumas Consideraes Importantes


- O intuito da anlise resumir o padro de correlao entre as
variveis e muitas vezes possvel chegar a conjuntos no
correlacionados de variveis, de modo que surge alguns
agrupamentos;
- Algebricamente, as componentes principais so combinaes lineares
das variveis originais;
- Geometricamente, as componentes principais so as coordenadas dos
pontos amostrais em um sistema de eixos obtido pela rotao do
sistema de eixos original, na direo da mxima variabilidade dos
dados;
- A anlise de componentes principais depende somente da matriz de
covarincia ou a de correlao. No exige qualquer suposio sobre a
forma da distribuio multivariada dessas variveis;
- Se a normalidade existe, a anlise engrandecida, se no ela ainda
vale a pena.

Como Obter as Componentes Principais


Suponha que
estamos observando
3 variveis que
refletem a motivao,
preferncia e
habilidades
intelectuais de um
grupo de pessoas. No
entanto, queremos
saber se possvel
ter respostas
adequadas quando
trabalhamos apenas
duas variveis.

Aplicao
Vamos retornar
quele exemplo
sobre ndices
econmicos.
Vejamos como se
estrutura o
relacionamento
entre as variveis e
avaliar um modelo
algbrico de
componentes
principais. Clique
em Eigenvalues e
Eigenvectors
(Autovalores e
Autovetores).

Aplicao

Aplicao

Os autovetores nos do os coeficientes das equaes lineares abaixo:


CP1 = 0,507.Wagerate + 0,497.GNP 0,504.Inflation 0,492.Debt
CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation 0,742.Debt
CP3 = 0,192.Wagerate 0,848.GNP 0,204.Inflation 0,450.Debt
CP4 = 0,746.Wagerate + 0,025.GNP 0,662.Inflation 0,066.Debt
CP1 responsvel por 94,31% da informao original e CP2
responsvel por 3,11% da informao original. Essas duas componentes
juntas nos fornecem 97,42% de informao.

Quantidade de Componentes a Escolher


E ig e n v a lu e s o f c o rr e la tio n m a tr ix
4 ,5
4 ,0

9 4 ,3 1 %

3 ,5
3 ,0
2 ,5
2 ,0
Eigenvalue

1 ,5
1 ,0
0 ,5
3 ,1 1 %

2 ,2 3 %

,3 4 %

0 ,0
- 0 ,5
0 ,0

0 ,5

1 ,0

1 ,5

2 ,0

2 ,5

3 ,0

E ig e n v a lu e n u m b e r

3 ,5

4 ,0

4 ,5

5 ,0

Como Interpretar as Componentes Principais?

- A interpretao feita com base nas correlaes entre


as variveis originais e as componentes principais, e nos
coeficientes dados pelas combinaes lineares que
levam s componentes principais;
- As correlaes so medidas das contribuies
individuais de cada varivel e no consideram a
contribuio multivariada das demais variveis;
- A primeira componente principal pode ser interpretada
como uma mdia entre as variveis com maior
coeficiente na combinao linear

Contribuies
Podemos medir o grau de relao que existe entre as variveis e as
componentes principais com a opo Factor & variable correlations.
E podemos
tambm medir
a contribuio
de cada
varivel para a
construo de
uma
componente
principal
usando a
opo
Contributions
of variables.

Contribuies

Wagerate X CP1 v Wagerate X CP1 . CP1


0,5072. 3,772414 0,98512

Contribuio Wagerate X CP1 v Wagerate X CP1


0,5072 0,257252
2

Anlise de Classificao
Podemos avaliar um
modelo de
agrupamento usando
a tcnica de
componentes
principais, basta clicar
nas opes Factor
coordinates of cases e
Plot case factor
coordinates, 2D.
Um modelo de Scores
pode ser exibido com
as opes Factor
scores e Factor scores
Coefficients

Anlise de Classificao
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x

2)

C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
1 ,2
1 ,0
0 ,8

S p a in

0 ,6

H a iti

P o rtu g a l
H u n g aI rr ey l a n d
G re e c e
T h a i l a n dI t a l y

E th io p ia

0 ,4

C z e Pc oh l aR ne dp u b l i c

S o u th A fric a

0 ,2

Egypt

0 ,0

K o re a
S ri L a n k aB r a z i l

K e n ia

- 0 ,2

In d ia
A lg e ria

- 0 ,4
Factor 2: 3,11%

- 0 ,6

M a la y s iaIn d o n e s ia

B rita in
N eD t eh ne mr l aa nr kd s
Japan
L u x e m b u rg
F in la n d
G e rm a n y
N So wrSw ew ad iyet z n e r l a n d
A u sA t ur Fa s lr tiara ina c e
USA

C h in a
M e x ic o
T a i w B a en l g i u m

P e ru

- 0 ,8
- 1 ,0
- 1 ,2
- 1 ,4
-6

-5

-4

-3

-2

-1

F a c to r 1 : 9 4 ,3 1 %

A c t iv e

Exerccio
Abra o arquivo Pases.sta e confirme o agrupamento entre os 36
pases na tcnica de Cluster Analysis.

Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services

Definio e Conceitos
Anlise Fatorial um nome genrico dado a uma classe de mtodos
estatsticos multivariados cujo propsito principal definir a estrutura
subjacente em uma matriz de dados. Assim, tm-se os seguintes
pontos:
Abordar o problema de analisar a estrutura das inter-relaes
(correlaes) entre um grande nmero de variveis, definindo
um conjunto de dimenses latentes comuns, chamadas de
fatores;
Identificar as dimenses separadas da estrutura e ento
determinar o grau em que cada varivel explicada por cada
dimenso;
Resumir e reduzir os dados em dimenses latentes
interpretveis e compreensveis usando escores para cada
dimenso e, conseqentemente, substituir as variveis originais.

Definio e Conceitos
Os modelos de anlise fatorial buscam explicar o
comportamento das variveis observadas em relao ao
comportamento de um conjunto de variveis no observadas
(variveis latentes ou fatores).
Desta forma, sejam

X 1 ,, X p

E 1 ,, p

Um modelo de anlise fatorial dado por:

X 1 1 11F1 1m Fm 1
X 2 2 21F2 2 m Fm 2

X p p p1Fp pm Fm p

Definio e Conceitos
Traduzindo para notao de matriz, temos:

X1
X
2

X p

11


21

p1

12
22

p 2

1m
2 m

pm

F1
F
2

p
Fm

Cargas Fatoriais

Podemos interpretar as cargas fatoriais como:

Cov X i ,Fj Cov i 1F1 ij Fj im Fm i ;Fj

Observe que os fatores so ortogonais, ou seja a covarincia entre


fatores igual a zero. Portanto,

Cov X i ,Fj Cov ij Fj ; Fj ij

Definio e Conceitos
Vamos estudar a varincia das variveis observadas. Para X i
temos:

i2 Var X i Var X i i Var i 1F1 im Fm i

o resultado disso :

i2 i21 im2 i

Portanto, temos dois importantes conceitos:

Comunalidade. Parcela da varincia de Xi que explicada


pelos fatores comuns.
Pode-se usar a
c2

c
2
i

2
i1

2
im

proporo de Pri
variabilidade explicada:

i2

Especificidade. Parcela de varincia de Xi que no explicada


pelos fatores

Especificidade : i

Definio e Conceitos
Se definimos a variabilidade total das variveis originais
como sendo:
p

T2 i2
i 1

temos, ento que


p

2
c
i
i 1

Representa a parcela da variabilidade total que explicada pelo


conjunto de fatores. Conseqentemente,
p

PrT

2
c
i
i 1

T2

a proporo da variabilidade total dos dados que explicada pelo


conjunto de fatores comuns.

Aplicao
Imagine a matriz de correlao para nove elementos da imagem de
uma loja:
Poltica de
devoluo

Pessoal

Disponibilidade de
produto

Servio interno

Diversidade de itens
para cada produto

Nvel de Preo

Atmosfera da loja

Diversidade de
produtos

Qualidade de
produto

A questo que se pode levantar : Estes elementos todos so


separados no que se refere s suas propriedades de avaliao ou
eles se agrupam em algumas reas mais gerais de avaliao?

Aplicao

Aplicao

Experincia Interna
Oferta de Produtos
Valor

Etapas do Processo de Anlise Fatorial

Tamanho da Amostra

Variveis Objetivo

Planejamento da Anlise Fatorial


O propsito geral de tcnicas de anlise fatorial encontrar um modo de
condensar a informao contida em diversas variveis originais em um
conjunto menor de novas dimenses compostas ou variveis estatsticas com
uma perda mnima de informao.

Fase 1

importante definir com critrio as variveis que faro parte da pesquisa com
Anlise Fatorial, definir as propriedades de medidas e tipos de variveis
envolvidas. Quanto maior for o nmero de variveis, maior ser o tamanho da
amostra.
Algumas cuidados importantes em Anlise de Fatores dizem respeito ao
tamanho da amostra:
Dificilmente um pesquisador realiza uma Anlise Fatorial com menos que
50 observaes;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propem um mnimo de 20 observaes vezes o
nmero de variveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deve interpretar
qualquer descoberta com precauo.

Etapas do Processo de Anlise Fatorial

Abra o arquivo
Hatco.sta na pasta
Treinamento / BDs /
STATISTICA /.

Etapas do Processo de Anlise Fatorial


Interpretao dos Fatores
Cargas fatoriais:

Fase 4

A carga fatorial o meio de interpretar o papel que cada varivel tem na


definio de cada fator;
As cargas fatoriais so a correlao de cada varivel com o fator, elas so
significantes quando seus valores excedem 0,70;
Cargas maiores fazem a varivel ser representativa no fator.

Rotao de fatores:

Rotao
Quartimax. Concentra-se em rotacionar Fatorial
o fator inicial de modo que uma varivel Ortogonal
tenha carga alta em um fator e cargas e Oblqua
to baixas nos demais;

Varimax. Este mtodo, por outro lado,


busca concentrar cargas altas e baixas
em cada fator, isso maximiza a varincia
Equamax. uma espcie de acordo
entre os dois mtodos acima.

1,0

Fator 2

Fator 2_Ort

V1 Fator 2_Obl
V2

0,50

Fator 1
-1,0

-0,50

0,50
-0,50

-1,0

V5

V3 1,0
V4

Fator 1_Obl
Fator 1_Ort

Exemplo
Vamos usar uma base de dados da Hatco para avaliar a existncia
de agrupamentos de percepes que clientes tm com respeito
empresa.
As variveis que
nos interessam
so: X1 a X4, X6
e X7.
O tamanho da
amostra de
100
observaes,
resultando em
14 casos para
cada varivel,
um valor
aceitvel.

Exemplo: Medidas de Correlao


Suposies de Normalidade, Linearidade, Homocedasticidade...
afetam as correlaes e se estas no so significantes, ento a
perda considervel nos resultados da Anlise Fatorial. Sendo
assim, preciso avaliar a grandeza e significncia das correlaes.
Estas
correlaes
so
significantes
ao nvel de
5%. Note que
8 das 15
correlaes
so
significantes.
Isso
adequado.

Exemplo: Decidindo Quantos Fatores Usar


O passo seguinte selecionar o nmero de componentes a
serem mantidos para anlise posterior. Podemos usar os autovalores
para fazer essa seleo, tomando o teste da raiz latente em que os
autovalores devem assumir resultados superiores a 1. Portanto,
temos 3 fatores com essa caracterstica e que respondem por
83,24% da variabilidade nas variveis originais.

Exemplo: O Grfico para o Teste da Raiz Latente


T e s te d a R a is L a te n te
3 ,0

2 ,5

2 ,5 1 3

2 ,0

1 ,7 4 0
1 ,5
Value
1 ,0

0 ,5 9 7

0 ,5 3 0

0 ,5

0 ,4 1 6
0 ,2 0 4

0 ,0
1

N u m b e r o f E ig e n v a lu e s

Exemplo: Cargas Fatoriais e Cumunalidades


Uma vez decididos por 2
fatores, ento precisamos
informar ao STATISTICA
que ele deve escolher 2
fatores com autovalores
maior que 1.

Clique em OK na janela
ao lado e retorne ao
mdulo de anlise.
Clique em Summary:
Factor loading.

Exemplo: Cargas Fatoriais e Cumunalidades


O fator 1 o que explica a
poro maior da variabilidade e o
fator 2 o que explica
ligeiramente menos;
2,51 a poro de variabilidade
total explicada pelo Fator 1, isso
corresponde a 41,89% de
explicao;
1,74 a poro de variabilidade
total explicada pelo Fator 2 que
corresponde a 28,99% de
explicao;
A significncia das cargas
fatoriais foram aquelas com
valores superiores a 0,70.

Exemplo: Aplicando Rotao Varimax


A rotao compensou a varincia
explicada por cada fator,
distribuindo melhor os 70,9% de
variabilidade explicada pelos dois
fatores.

Desta forma temos 39,50%


em lugar dos 41,89% para
o Fator 1; temos 31,40%
em lugar dos 28,99% para
o Fator 2.

Exemplo: Aplicando Rotao Varimax


F a c t o r L o a d in g s , F a c t o r 1 v s . F a c t o r 2

R o ta tio n : U n r o ta te d
E x t r a c t io n : P r in c ip a l c o m p o n e n t s
0 ,4
0 ,2

X7
X2

0 ,0
- 0 ,2

Factor 2

- 0 ,4

X1

- 0 ,6

- 0 ,8
- 1 ,0
- 1 ,0

- 0 ,8

- 0 ,6

- 0 ,4

- 0 ,2
F a c to r 1

0 ,0

0 ,2

0 ,4

0 ,6

0 ,8

Exemplo: Aplicando Rotao Varimax


F a c to r L o a d in g s , F a c to r 1 v s . F a c to r 2

R o ta tio n : V a r im a x n o r m a liz e d
E x t r a c t io n : P r in c ip a l c o m p o n e n t s
1 ,0

0 ,8

0 ,6

0 ,4
Factor 2

X
X

0 ,2

0 ,0

- 0 ,2
- 1 ,0

- 0 ,8

- 0 ,6

- 0 ,4

- 0 ,2

0 ,0
F a c to r 1

0 ,2

0 ,4

0 ,6

0 ,8

1 ,0

Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services

Definio
A anlise discriminante envolve determinar uma varivel estatstica
que a combinao linear de duas ou mais variveis independentes
que discriminaro melhor entre grupos definidos a priori.
A discriminao conseguida estabelecendo-se os pesos da varivel
estatstica para cada varivel para maximizar a varincia entre
grupos relativa varincia dentro dos grupos.

Funo Discriminante

Funo Discriminante

Definio
A combinao linear para uma anlise discriminante,
tambm conhecida como a funo discriminante,
determinada de uma equao que assume a seguinte
forma:

z jk a w 1x1k w 2 x 2 k w n x nk
onde
zjk = escore Z discriminante da funo discriminante
j para o objeto k
a = intercepto
wi = peso discriminante
independente i
xik = objeto k na varivel Xi.

para

varivel

Exemplo
Uma empresa est interessada em investigar se um de seus novos
produtos ser comercialmente bem-sucedido. Isso conduz a uma
pesquisa com consumidores que comprariam ou no o novo produto.
Estudamos, ento, as 3 caractersticas descritas no quadro abaixo:
Note que a caracterstica
Durabilidade discrimina
bem os dois grupos.
J a caracterstica Estilo
tem uma diferena entre
mdias de grupo igual a
0,2. No entanto, isso no
caracteriza uma m
discriminao. preciso
avaliar a disperso e os
escores discriminantes.

Exemplo
8

10

X1
Durabilidade

10

9
6

X2
Desempenho

10

10

10

10

X3
Estilo
1

Exemplo
Usando apenas a varivel X1 obtemos um percentual de
classificao correta de 90%, visto que o item 5 no foi alocado
corretamente. Quando inserimos a varivel X2, obtemos 100% de
acerto na Funo 2. Mas com a anlise discriminante, estamos
interessados no s em agrupar, como tambm maximizar
variabilidade entre grupos.

Exemplo

Exemplo

Faremos um procedimento passo a


passo. O mtodo o Forward
stepwise.

Exemplo

O funo discriminante:

Z 4,53 0,4756.Durabilidade 0,3588.Desempenho

Exemplo
A Matriz de
Classificao e a
Classificao dos
Casos esto
demonstradas nas
tabelas a seguir.

Estgios do Processo de Anlise Discriminante


medida que
conceituamos os
procedimentos da
anlise faremos um
exemplo para nos
familiarizarmos com o
STATISTICA.
Abra o arquivo
Hatco.sta.
Em Vars, opte por clicar
em All Specs.
Veja o significado de
cada varivel.

Estgios do Processo de Anlise Discriminante


Objetivo da Pesquisa:
Determinar se existem diferenas estatisticamente
significantes entre os perfis de escore mdio em um conjunto
de variveis para dois (ou mais) grupos definidos a priori;
Determinar quais das variveis independentes explicam o
mximo de diferenas nos perfis de escore mdio dos dois
ou mais grupos;
Estabelecer procedimentos para classificar objetos em
grupos, com base em seus escores em um conjunto de
variveis independentes;
Estabelecer o nmero e a composio das dimenses de
discriminao entre grupos formados a partir do conjunto de
variveis independentes.

Estgios do Processo de Anlise Discriminante


Projeto de Pesquisa para Anlise Discriminante:
Seleo de Variveis Dependente e Independentes:
O pesquisador deve se concentrar na varivel dependente
primeiro. O nmero de grupos pode ser dois ou mais, mas devem
ser mutuamente excludentes e cobrir todos os casos.

Tamanho da amostra:
A Anlise Discriminante muito sensvel ao tamanho da amostra e
o nmero de variveis preditoras Alguns estudos sugerem um
nmero de 20 observaes para cada preditora.

Diviso da Amostra:
muito comum um estudo de validao do modelo, usando
recursos de diviso da amostra (crossvalidation); este
procedimento consiste em dividir a amostra em duas partes: 1.
Modelagem (no menos que 60%) e 2. Teste (no mais que 40%).

Estgios do Processo de Anlise Discriminante


Projeto de Pesquisa para Anlise Discriminante
Vamos observar os dados em
termos de mdia e desviopadro, considerando o
tamanho amostral.

Estgios do Processo de Anlise Discriminante


Projeto de Pesquisa para Anlise Discriminante
Crie uma nova varivel
na tabela em que o
valor geral 1 para
todos os casos.

Ela aparece ao lado


como NewVar e ser
uma varivel auxiliar
para contagem de
casos.

Estgios do Processo de Anlise Discriminante


Projeto de Pesquisa para Anlise Discriminante
A varivel X11 avalia duas abordagens quanto compra de produtos
e servios:
1 Anlise de Valor Total: avalia cada aspecto de compra,
incluindo cada tanto o produto quanto o servio que
comprado;
0 Especificao de Compra: define-se todas as caractersticas
de produto e servio desejados e o vendedor, ento, faz uma
oferta para preencher as especificaes.
J a varivel Grupo define uma parte das observaes que ser
usado para anlise (assume valor 0) e a parte das observaes que
ser usada para validar (assume valor 1) o modelo discriminante.
Usamos 60 observaes para anlise e 40 para validao.

Estgios do Processo de Anlise Discriminante


Projeto de Pesquisa para Anlise Discriminante

Estgios do Processo de Anlise Discriminante


Suposies da Anlise Discriminante:
Uma suposio chave a de normalidade
multivariada para as variveis independentes.
Existem evidncias da sensibilidade da anlise
discriminante a violaes dessas suposies;
Outra questo a matriz de covarincia que
desconhecida, no entanto deve ser igual para
todo grupo; matrizes desiguais afetam
negativamente o processo de classificao;
Tambm preciso ter cuidado com a
Multicolinearidade.

Estgios do Processo de Anlise Discriminante


Estimao do Modelo Discriminante:
Mtodo Computacional
Estimao Simultnea: envolve a computao da funo
discriminante, de modo que todas as variveis independentes so
consideradas juntas;
Estimao Stepwise: envolve a incluso das variveis
independentes na funo discriminante, uma por vez, com base em
seu poder discriminatrio.

Significncia Estatstica
As medidas de lambda de Wilks, trao de Hotelling e critrio de Pillai
avaliam a significncia estatstica do poder discriminatrio da funo
discriminante;
A maior raiz caracterstica de Roy avalia apenas a primeira funo
discriminante;
Se um mtodo stepwise empregado para estimar a funo
discriminante, as medidas D2 de Mahalanobis so mais adequadas

Exemplo no STATISTICA

Exemplo no STATISTICA
Escolha a opo
Tradicional discriminant
analysis. A outra opo
usada quando temos
variveis independentes
categricas.

Escolha as variveis
para anlise em
Variables:
X11 Dependente e de
X1 a X7, so as
Independentes.

Exemplo no STATISTICA
Habilite a
opo Foward
stepwise para o
procedimento
computacional

Vamos usar a opo


Cross validation para
avaliar a funo
discriminante para
esses dados.

Exemplo no STATISTICA

Exemplo no STATISTICA

Esta tabela
nos d o
entendimento
das variveis
que entram na
Anlise
Discriminante.

Exemplo no STATISTICA
Note que a varivel X7
a que apresenta
maior poder
discriminante e foi
escolhida primeiro.
Em seguida aparece
X3 e depois X1 disputa
com X5 com valores
muito prximos.
Aps a seleo das 3
variveis, as 4
restantes no
contribuem para
discriminar os grupos.

Exemplo no STATISTICA
Avaliao do Ajuste Geral:
Clculo de Escores Z discriminantes

z jk a w 1x1k w 2 x 2 k w n x nk
Avaliao de Diferenas de Grupos
Um caminho para avaliar o ajuste geral do
magnitude de diferenas entre membros de
dos escores Z discriminantes. Podemos
comparao dos centrides dos grupos, o
mdia para todos os membros dos grupos.

modelo determinar a
cada grupo em termos
fazer isso usando a
escore Z discriminante

Avaliao da Preciso Preditiva de Pertinncia de Grupo


O uso de matriz de classificao nos informa o valor razo de
sucesso (um percentual de classificao correta);
O escore de corte que o critrio em relao ao qual o escore
discriminante de cada objeto comparado para determinar em qual
grupo o objeto deve ser classificado.

Exemplo no STATISTICA
O que desejamos,
desde o incio,
maximizar a distncia
entre as mdias
populacionais e
minimizar a varincia.
Uma medida de
distncia usada o D2
de Mahalanobis.
Clique nas opes
Class squared
Mahalanobis distances,
Class means for
canonical variables e
Tests of significance of
distances.

Exemplo no STATISTICA
Z Corte

38. 1,836 22. 1,063


0,773
38 22

Observaes com escores discriminantes menores


que ZCorte se classificam no grupo de Anlise de
Valor Total ( 1 ). E os escores com valores maiores,
se classificam no grupo Especificao de Compra
( 0 ).

Exemplo no STATISTICA

Exemplo no STATISTICA

Exemplo no STATISTICA
Interpretao dos Resultados:
Pesos Discriminantes
A interpretao de pesos discriminantes
anloga interpretao de pesos beta em
anlise de regresso e est, portanto,
sujeita s mesmas crticas.

Z 0,447.X 1 0,472.X 3 0,659.X 7

a funo discriminante com


pesos padronizados.

Exemplo no STATISTICA
Interpretao dos Resultados:
Cargas Discriminantes
As cargas discriminantes medem a correlao linear simples entre cada varivel
independente e a funo discriminante.
As cargas so
consideradas mais
vlidas do que os
pesos como um
meio de
interpretao do
poder
discriminatrio de
variveis
independentes por
causa de sua
natureza
correlacional.

Exemplo no STATISTICA
Interpretao dos Resultados:
A Diferena entre os Grupos
Associado a cada funo discriminante
encontramos um raiz caracterstica
(autovalor);
O teste Lambda de Wilk avalia a
diferena entre os grupos (0 e 1);
A estatstica Qui-Quadrado revela se a
diferena entre os grupos significante;
O R cannico pode ser interpretado
elevando-se o seu valor ao quadrado,
ento
dizemos que o modelo
discriminante
explica certa
porcentagem (66,9%)
da varincia na
varivel dependente.

Exemplo no STATISTICA

Coeficientes da
Funo de
Classificao

Resultados da Classificao

Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services

LSC para Dimetro Interno de Pisto

LIC para Dimetro Interno de Pisto

LSC para Dimetro Externo de Pisto

LIC para Dimetro Externo de Pisto

Usando MSPC:
- Avaliamos cada varivel no tempo;
- Avaliamos o conjunto de variveis, dado que
a relao entre elas existe;
- Avaliamos cada lote para determinar sucesso
na deteco de um processo irregular.

Controle Estatstico do Processo Multivariado

Tempo
eis
v
r i
a
V

Lotes

1
2
.
.
.

.
.
.

. . .

Time-wise Mult-way Principal Components Analysis


Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso
desta tcnica multivariada. Os dados vem de um processo industrial
que mede a polimerizao de um reator por lote.

Time-wise Mult-way Principal Components Analysis


Descrio do problema:
Para cada batelada tomamos 100 leituras de 10 variveis
observadas;
Tomamos 55 bateladas:
47 bateladas alcanaram sucesso, ou seja, a qualidade do
polmero aceitvel: 1-37, 39, 41, 43, 44, 47 e 49;
4 bateladas esto prximas do limite de tolerncia: 38, 45,
46 e 49;
8 bateladas no obtiveram sucesso: 40, 42 e 50-55;
Dividimos essas bateladas em 2 arquivos: 30 com sucesso
esto em NormalBatches.sta e 25 (com sucesso, sem sucesso e
prximo
dos
limites)
foram
misturadas
em
BatchesForDeployment.sta.

Time-wise Mult-way Principal Components Analysis

Objetivos da anlise:
Aplicar TMPCA em NormalBatches.sta para
construir um modelo de referncia que
descreva a evoluo de bons lotes;
Usar este modelo para identificar bateladas
futuras como lotes com Sucesso ou sem
Sucesso
usando
os
dados
de
BatchesForDeployment.sta.

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Podemos explorar o
comportamento do
Processo com PCA e
modelar com PLS, usando
o tempo ou os lotes.
Este mdulo suporta a
entrada tanto de variveis
contnuas como de variveis
discretas que assumam um
comportamento dicotmico
(varivel dummy), assumindo
valores 0 e 1.

Time-wise Mult-way Principal Components Analysis

Escolha as variveis como no quadro a seguir.

Time-wise Mult-way Principal Components Analysis


Nonlinear Iterative Partial Least
Squares, NIPALS o algoritmo
responsvel por encontrar o
conjunto mais adequado de
Componentes Principais e
tambm por descrever um
modelo de estrutura latente nos
dados (PLS).
Nesta janela, selecionamos o
mtodo para determinar o
nmero de componentes. O
mtodo de Cross Validation
indicado, visto que far uma
busca iterativa do melhor
nmero de componentes.

Time-wise Mult-way Principal Components Analysis


Uma importante caracterstica
do STATISTICA TMPCA sua
funcionalidade de prprocessamento que nos
habilita a a padronizar os
dados para construir um
modelo melhor.
A opo default Unit standard deviations, ela calcular um nico
desvio padro para padronizar todos os lotes. Esse procedimento
requerido sempre que executamos uma PCA.
Podemos criar um procedimento de substituio de Missing Data. E
quando trabalhamos com grandes bases de dados, podemos
informar ao STATISTICA que a base de certa ordem em MB.

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Uma avaliao primria concernente s
componentes geradas pela iterao. Na opo
Summary na aba Quick, vemos uma tabela que avalia
o R2 das componentes com os casos selecionados
aleatoriamente para treinamento do modelo por Cross
Validation.
A parte dos casos que no foi usada no modelo tem o
seu ndice em Q2.
Foram geradas 14 componentes, visto que 10
componentes foram avaliadas com casos para
treinamento e 10 com casos para teste.

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


T im e - w is e M u lt i- w a y P r in c ip a l C o m p o n e n t s A n a ly s is S u m m a r y O v e r v ie w
N u m b e r o f c o m p o n e n t s is 1 4
1 ,1
1 ,0
0 ,9
0 ,8
0 ,7
0 ,6
0 ,5
0 ,4
0 ,3
0 ,2
1

Component

10

11

12

13

14

R X ( C u m u l. )
Q ( C u m u l. )

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


V a ria b le im p o rta n c e
1 ,0 0
0 ,9 8
0 ,9 6
0 ,9 4

0 ,9 3 1

0 ,9 2 7

0 ,9 2 6

0 ,9 2
0 ,9 0

0 ,8 9 1

0 ,8 8 4

Power

0 ,8 8
0 ,8 6

0 ,8 4 7

0 ,8 4 1

0 ,8 4

0 ,8 2 4
0 ,8 2

0 ,8 2 0
0 ,7 9 9

0 ,8 0
0 ,7 8
T 2D R

T 3D R

T 1D R

TFM

TFM

PR ES

V a r ia b le

T 1R M

T 2R M

PR ES

PR ES

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Agora o alvo encontrar possveis outliers. Podemos
detectar outliers a partir de seus x-scores, visto que o uso de
Componentes Principais transformou os valores originais em outra
escala. Usamos, ento, a distribuio amostral multivariada T2Hotelling. Para ao i-sima observao temos:
H o t e llin g T C o n t r o l C h a r t
N u m b e r o f c o m p o n e n t s is 1 4

2
ik
2
ik

t
Ti
k 1 s
2

sik o desvio padro


estimado de tk;
C o nmero de
componentes.

9 0 ,4 7 8

90
80
70
60
50
T

tik o escore da i-sima


observao para o ksimo componente;

100

40
30
20
10
0
B1

B3
B2

B5
B4

B7
B6

B9
B8

B 11
B 10

B13
B12

B15
B14

B17
B 16

B a tc h

B19
B18

B 21
B20

B23
B 22

B 25
B24

B 27
B 26

B 29
B 28

B30

9 9 ,0 0 0 %

Time-wise Mult-way Principal Components Analysis


Outras medidas para diagnstico:
O T2-Hotelling no suficiente para
predizer outliers, especialmente se
inserimos observaes que no foram
usadas para treinar o modelo. Uma
quantidade melhor o Erro Quadrtico
da Predio (SPE Square of the
predictions error). Para o i-simo
elemento temos o SPE definido ao
lado.
Podemos usar ainda os resduos para
detectar outliers com a tcnica
distncia do modelo (D-To-Model).
Tome a i-sima observao e veja ao
lado.

2
Q i x ij x ij
M

j 1

xij um elemento da matriz


X_Barra;
^x um elemento da matriz de
ij

escores das Componentes


Principais

x
M

D To Model

j 1

ij

x ij

M C

M o nmero de variveis
originais;
xij o nmero de componentes

Time-wise Mult-way Principal Components Analysis


S P E (Q ) C h a rt
N u m b e r o f c o m p o n e n ts is 1 4
12
11
10
9
8
7

6
5
4
3
2
1
0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99

T im e

9 9 ,0 0 0 %

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Os valores so considerados outliers se excedem o limite
calculado de 0,496 calculado pela soluo.
D is ta n c e to m o d e l
N u m b e r o f c o m p o n e n t s is 1 4
T h e n o r m a liz e d d i s ta n c e to th e m o d e l is 0 , 4 9 6
0 ,4 5
0 ,4 0
0 ,3 5
0 ,3 0
0 ,2 5
0 ,2 0

Distance

0 ,1 5
0 ,1 0
0 ,0 5
0 ,0 0
B1

B3
B2

B5
B4

B7
B6

B9
B8

B11
B10

B13
B12

B15
B14

B17
B16

B a tc h

B19
B18

B21
B20

B23
B22

B25
B24

B27
B26

B29
B28

B30

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


O grfico abaixo exprime o fato de que as bateladas no
sofrem desvios da normalidade quando avaliamos as 10 variveis
juntas. A elipse representa o limite correlacionado para esta
variveis.
S c o r e s c a tte r p lo t (t1 v s . t2 )
S t a n d a r d d e v ia t io n o f t 1 : 1 9 ,4 7 0
S t a n d a r d d e v ia t io n o f t 2 : 1 0 ,9 4 8
80
60
40
B 14

20

B10

B6
B 8B 7

t2

B22
B21

B9

B19 B15
BB 5 3 0
B 1B 32 6 B 2 0
B27
B2
B 18 B 17
B11
B 24 5
B
B23
B29
B24 B16
B3

B28
B1 B12

-2 0
-4 0
-6 0

+ /-3 ,0 0 0 *S td .D e v
-8 0
-8 0

-6 0

-4 0

-2 0

0
t1

20

40

60

80

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Podemos ainda avaliar a importncia de cada varivel para
algum componente. O grfico abaixo, por exemplo, se refere ao
primeiro componente e, note, a primeira varivel a que mais
influencia.
S c o r e c o n tr ib u tio n p lo t (t1 , 0 )
0 ,0 5
0 ,0 4

0 ,0 3 9

0 ,0 3 6

0 ,0 3

0 ,0 2 6

0 ,0 2

0 ,0 1 8

0 ,0 1 6

0 ,0 1 1

0 ,0 0 8

0 ,0 1

0 ,0 0 4

0 ,0 0

0 ,0 0 0

0 ,0 0 0

T 2R M

PR ES

-0 ,0 1
-0 ,0 2

Score contribution (B1

-0 ,0 3
-0 ,0 4
-0 ,0 5
T 1D R

T 2D R

T 3D R

PR ES

TFM

T 1R M

V a r ia b le

PR ES

TFM

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Para avaliar a trajetria dos pontos ao longo do tempo,
usamos a opo Trajectory.
T r a je c to ry p lo t o f v a ria b le : T 1 D R
N u m b e r o f b a tc h e s : 3 0
1 ,0

0 ,9

0 ,8

Trajectory

0 ,7

0 ,6

+ / - 3 , 0 0 0 * S td . D e v
+ / - 2 , 0 0 0 * S td . D e v
M ean

0 ,5
0

14

21

28

35

42

49

T im e

56

63

70

77

84

91

98

Time-wise Mult-way Principal Components Analysis


Agora vamos
avaliar uma
nova batelada
contida no
arquivo
Batches For
Deployment,
no Help do
STATISTICA,
usando o
procedimento
de MSPC
Deployment.
Gere o PMML
script do
como ao lado.

Time-wise Mult-way Principal Components Analysis

Time-wise Mult-way Principal Components Analysis


Cancele a
janela ao lado
at retornar
janela inicial.
Abra o
arquivo que
ser avaliado
(use Open
Data) e siga
os passos.

Time-wise Mult-way Principal Components Analysis


Busque o script do PMML salvo em lugar conhecido e seguro. Use a
opo Load models do STATISTICA MSPC.

Assim que inserir o script, as opes na aba Results estaro


habilitadas para uso. Clique em Summary.

Time-wise Mult-way Principal Components Analysis


Avalie novamente os resultados anteriores para esse novo conjunto
de bateladas. Observe que essas bateladas esto fora de
especificao e, portanto, a qualidade dos polmeros no
satisfatria.

Time-wise Mult-way Principal Components Analysis


H o te llin g T C o n tr o l C h a r t
N u m b e r o f c o m p o n e n ts is 1 4
25000

1 9 .5 1 6 ,7 2 8

20000

2 0 .4 3 3 ,0 8 4

2 0 .9 0 4 ,1 8 3

15000

1 0 . 3 3 7 , 2 9 21 0 . 1 8 4 , 0 0 1

10000
7 .8 4 2 ,3 8 3

5000

9 9 ,0 0 0 %
9 0 ,4 7 8

0
B31

B33
B32

B35
B34

B37
B36

B39
B38

B41
B40

B43
B42

B45
B44

B a tc h

B47
B46

B49
B48

B51
B50

B53
B52

B55
B54

StatSoft South America


Dept. de Projetos e Consultoria
Josias Jnatas Consultor Data Miner
Dept. de Treinamentos e Suporte
Andria Santiago Gerente de Treinamentos
Fone: 55 11 3422 4250
Fax: 55 11 3422 4255

Potrebbero piacerti anche