Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Contedo
Anlise de Agrupamentos
Anlise de Componentes Principais
Anlise de Fatores
Anlise Discriminante
Multivariate Statistical Process Control - MSPC
Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services
Definio
T r e e D ia g r a m fo r 3 6 C a s e s
W a r d ` s m e th o d
E u c lid e a n d is t a n c e s
70
60
50
40
30
Linkage Distance
20
10
0
Bolvia
Espanha
Nova Zelndia
Haiti
India
Egito
Arglia
Quenia
Banglade
Paquist
Nigria
Gana
Rep.C. Af.
Brasil
Mxico
Turquia
Chile
C.Rica
China
Filipina
Uruguai
URSS
Hungria
Grcia
Iugoslv
Portugal
Canad
Japo
Austrlia
EUA
Itlia
Israel
RU
RFA
Sucia
Suia
Anlise de
Agrupamento uma
tcnica multivariada cuja
finalidade agregar
objetos (OTUs
Unidades de Objetos
Taxonmicos) com base
nas caractersticas que
eles possuem. O
resultado so grupos que
exibem mxima
homogeneidade de
objetos dentro de grupos
e, ao mesmo tempo,
mxima heterogeneidade
entre os grupos.
Conceitos Bsicos
Consumo (em R$)
Conceitos Bsicos
Alguns pontos relevantes que devemos observar em anlise de
agrupamentos so:
A anlise de agrupamentos no faz distino entre variveis
dependentes e independentes, no entanto pode examinar
relaes de interdependncia entre todo o conjunto de variveis.
O objetivo principal de anlise de agrupamentos classificar
objetos em grupos relativamente homogneos, a partir das
variveis consideradas importantes para a anlise;
Os objetos em um grupo so relativamente semelhantes em
termos dessas variveis e diferentes de objetos de outros
grupos;
A mais forte aplicao desta tcnica tem sido em Pesquisa de
Marketing, principalmente, Segmentao de Mercado.
Padronizando os dados
Imagine a
situao descrita
na tabela ao lado.
Foram medidas 3
caractersticas de
8 clientes e
queremos avaliar
uma forma de
agrupar estes
clientes e
encontrar aquelas
que acompanham
um
comportamento
semelhante.
Cliente 1
Percentual de
Importncia
Salrio
Mdio
Consumo
Mdio
10,85
1.500,80
149,35
Fase 2
Cliente 2
14,13
1.496,07
187,99
Cliente 3
8,62
1.448,79
130,97
Cliente 4
23,04
1.277,33
424,87
Cliente 5
16,04
1.204,02
214,36
Cliente 6
43,74
1.190,94
1.139,52
Cliente 7
25,39
1.292,91
358,39
Cliente 8
42,86
1.590,66
721,90
Mdia
23,08
1.375,19
415,92
Desvio
Padro
13,69
152,05
351,62
Padronizando os dados
1 .6 5 0 ,0 0
C lie n te 8
1 .6 0 0 ,0 0
1 .5 5 0 ,0 0
1 .5 0 0 ,0 0
1 .4 5 0 ,0 0
1 .4 0 0 ,0 0
Mdia Salarial
1 .3 5 0 ,0 0
1 .3 0 0 ,0 0
1 .2 5 0 ,0 0
1 .2 0 0 ,0 0
1 .1 5 0 ,0 0
- 5 0 ,0 0
O primeiro passo da
anlise definir um
critrio para a formao
dos grupos. Um critrio
que parece ser razovel
considerar a
proximidade entre os
pontos. Pontos
prximos, ento,
representariam regies
com comportamentos
semelhantes no que se
refere s variveis do
grfico, ou seja, regies
que podem fazer parte
de um mesmo grupo.
Fase 2
C C lielien ntete 1 2
C lie n te 3
C lie n te 7
C lie n te 4
C lie n te 5
C lie n te 6
0 ,0 0
5 0 ,0 0
1 0 0 ,0 0
1 5 0 ,0 0
2 0 0 ,0 0
2 5 0 ,0 0
3 0 0 ,0 0
P e r c e n t u a l d e Im p o r t n c i a
3 5 0 ,0 0
4 0 0 ,0 0
4 5 0 ,0 0
5 0 0 ,0 0
Padronizando os dados
1 .6 5 0 ,0 0
C lie n te 8
1 .6 0 0 ,0 0
1 .5 5 0 ,0 0
1 .5 0 0 ,0 0
1 .4 5 0 ,0 0
1 .4 0 0 ,0 0
Mdia Salarial
1 .3 5 0 ,0 0
1 .3 0 0 ,0 0
1 .2 5 0 ,0 0
1 .2 0 0 ,0 0
1 .1 5 0 ,0 0
- 5 0 ,0 0
Fase 2
C C lielien ntete 1 2
C lie n te 3
C lie n te 7
C lie n te 4
C lie n te 5
C lie n te 6
0 ,0 0
5 0 ,0 0
1 0 0 ,0 0
1 5 0 ,0 0
2 0 0 ,0 0
2 5 0 ,0 0
3 0 0 ,0 0
P e r c e n t u a l d e Im p o r t n c i a
3 5 0 ,0 0
4 0 0 ,0 0
4 5 0 ,0 0
5 0 0 ,0 0
Padronizando os dados
1 ,6 0
C lie n te 8
1 ,4 0
1 ,2 0
1 ,0 0
0 ,8 0
0 ,6 0
0 ,4 0
0 ,2 0
0 ,0 0
Mdia Salarial
- 0 ,2 0
- 0 ,4 0
- 0 ,6 0
- 0 ,8 0
- 1 ,0 0
Fase 2
C lie n te C1 lie n te 2
C lie n te 3
Z ij
C lie n te 7
C lie n te 4
C lie n te 5
C lie n te 6
- 1 ,2 0
- 1 ,4 0
- 1 ,2 0 - 1 ,0 0 - 0 ,8 0 - 0 ,6 0 - 0 ,4 0 - 0 ,2 0 0 ,0 0
0 ,2 0
0 ,4 0
0 ,6 0
P e r c e n t u a l d e Im p o r t n c ia
0 ,8 0
1 ,0 0
1 ,2 0
1 ,4 0
1 ,6 0
1 ,8 0
X ij X j
Sj
Medidas de Parecena
As medidas de parecena tm
um papel central nos
algoritmos de agrupamentos.
Atravs delas so definidos
critrios para avaliar se dois
pontos esto prximos, e
portanto podem fazer parte de
um mesmo grupo, ou no.
H dois tipos de medidas de
parecena: medidas de
similaridade (quanto maior o
valor, maior a semelhana
entre os objetos) e medidas de
dissimilaridade (quanto maior o
valor, mais diferentes so os
objetos.)
Medidas disponveis na
Soluo STATISTICA
Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formao dos
agrupamentos pode ser classificada em duas grandes famlias de
mtodos: hierrquicos e de partio.
Mtodos Hierrquicos Aglomerativos
Para
esses
mtodos
os
agrupamentos so formados a partir de
uma matriz de parecena;
Queremos identificar os objetos que
mais se parecem;
Agrupamos esses objetos e os
consideramos como um nico objeto;
Definimos uma nova matriz de
parecena.
Algoritmos de Agrupamentos
Os procedimentos hierrquicos envolvem a construo de
uma hierarquia de uma estrutura do tipo rvore. Existem
basicamente dois tipos de procedimentos hierrquicos de
agrupamento: Aglomerativos e Divisivos.
Mtodos Hierrquicos Aglomerativos Usando o STATISTICA
O STATISTICA traz uma srie de
Vamos enumerar pelos menos 5 mmtodos implementados:
todos aqui:
Mtodo do vizinho mais prximo;
Mtodo do vizinho mais longe;
Mtodo das mdias das distncias;
Mtodo da centride;
Mtodo de Ward.
Algoritmos de Agrupamentos
Mtodo do vizinho mais prximo
(Single Linkage)
a distncia
entre os
grupos
definida como
sendo a
distncia entre
os elementos
mais prximos
(menor
distncia) dos
dois grupos
Algoritmos de Agrupamentos
Mtodo do vizinho mais longe
(Complete Linkage)
a distncia entre
dois grupos
definida como
sendo a
distncia entre
os indivduos
mais distantes
dos dois grupos
(distncia
mxima).
Algoritmos de Agrupamentos
Mtodo do centride
Este mtodo define a
coordenada de cada
grupo como sendo a
mdia das
coordenadas de seus
objetos. Uma vez
obtida essa
coordenada,
denominada centride,
a distncia entre os
grupos obtida
atravs do clculo das
distncias entre os
centrides.
Algoritmos de Agrupamentos
Mtodo de Ward
O mtodo de Ward busca unir objetos que tornem os
agrupamentos formados os mais homogneos possvel. A medida
de homogeneidade utilizada baseia-se na partio da soma de
quadrados total de uma anlise de varincia. Observe abaixo:
x
k
j 1 iG j
i1
X 1 n j X j 1 X 1 x i 1 X j 1
2
j 1
j 1 iG j
No STATISTICA
Na opo Input File existem duas maneiras para entrar com uma
base de dados: Raw Data ou Distance Matrix. Por vezes, algum
procedimento hierrquico ou medida de distncia no est
implementada num procedimento automtico. possvel, ento,
entrar com a matriz de distncia e avaliar os grupos. As informaes
que esta matriz deve ter so:
Medidas de distncia;
Mdia, Desvio Padro e Nmero de Casos;
Tipo de Matriz:
1 Matriz de Correlao;
2 Matriz de Similaridade;
3 Matriz de Dissimilaridade;
4 Matriz de Varincia e Covarincia.
No STATISTICA
Exerccio
Abra o arquivo Pases.sta e avalie algum tipo de agrupamento entre
os 36 pases disponveis para anlise.
Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services
Definio
Anlise de Componentes Principais (ACP) uma tcnica
estatstica que transforma linearmente um conjunto de p variveis em
um novo conjunto com um nmero menor (k) de variveis nocorrelacionadas, que explica uma parcela substancial das informaes
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x 2 )
do conjunto original.
C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
4
Tambm ser til
3
quando desejamos
2
confirmar um
1
modelo de
0
agrupamento
-1
avaliado com a
-2
tcnica de Anlise
-3
de Agrupamentos
-4
(ao lado vemos os
grupos vistos
-5
-8
-6
-4
-2
0
2
4
6
8
10
A c t iv e
anteriormente)
F a c to r 1 : 7 0 ,0 5 %
C .R ic a
C h in a
C h ile M x ic o
P I uo gr t uo gs al l v
T u rq u i a
G r c ia
B ra s il
E s p a n h a U ru g u a i
Is ra e l
F ilip in a
N o v a Z e l n d i aU R S S
H u n g ria
ISt u l i ac i a
J CAa aup ns ato r d l i a
S u i a
R FRAU
A rg li a
In d ia Q u e n ia
E g ito
H a iti
P a q u is t
B a n g la d e
G ana
N ig ria
Factor 2: 8,46%
B o lv ia R e p .C . A f.
EUA
Motivao
No menu Help, opte por Open Examples, na pasta Datasets
busque o arquivo Economic Indicators. O arquivo consta de
informaes econmicas (Imposto, PNB, Inflao e Dvida) de 40
pases.
Vamos estudar o
relacionamento
entre as variveis
usando a Anlise
de Correlaes.
Depois faremos
uma Anlise de
Agrupamentos e,
logo em seguida,
uma Anlise de
Componentes
Principais.
Motivao
Vamos proceder com uma anlise
de correlao. No menu Statistics,
opte por Basic Statistics and
Tables e, em seguida, clique duas
vezes na opo Correlation
matrices.
Motivao
C o r r e la t io n s ( E c o n o m ic in d ic a t o r s 4 v * 4 0 c )
W A GE RA T E
GNP
IN F L A T IO N
DE B T
Vamos
avaliar os
resultados:
O que h de
peculiar
entre as
variveis?
Qual a
estrutura de
relao entre
elas?
Motivao
T r e e D ia g r a m f o r 4 0 C a s e s
W a r d ` s m e th o d
E u c lid e a n d is t a n c e s
40
35
30
25
20
15
0
Linkage Distance
10
Algeria
Sri Lanka
India
Brazil
South Afr
Egypt
Kenia
Peru
Ethiopia
Haiti
Australia
Austria
Norway
France
USA
Sweden
Japan
Britain
Denmark
Netherlan
Germany
Switzerlan
Luxemburg
Belgium
Finland
Taiwan
China
Malaysia
Mexico
Greece
Czech
Poland
Thailand
Hungary
Portugal
Indonesia
Italy
Korea
Ireland
Spain
Motivao
Agora, para finalizar essa motivao, vamos tcnica de Anlise de
Componentes Principais. No menu Statistics, opte por Multivariate
Exploratory Techiniques e Principal Components & Classification
Analysis.
Motivao
Na aba Advanced, em
Variables inserimos as
variveis de interesse para a
anlise como na janela
abaixo. Variveis
suplementares so aqueles
que desejamos analisar,
mas no diretamente.
Podemos
desejar usar
apenas
algumas
observaes,
ento usamos
Active cases
variable.
Motivao
Para observar o
comportamento
das variveis
podemos avaliar
um grfico de
scaterplot. Clique
em Plot var.
factor
coordinates, 2D.
Em seguida, na
aba Cases clique
em Plot cases
factor
coordinates, 2D.
Motivao
P r o je c t io n o f t h e v a r ia b le s o n t h e f a c t o r - p la n e ( 1 x
2)
1 ,0
0 ,5
IN F L A T IO N
W AG ERATE
G NP
0 ,0
DEBT
Factor 2 : 3,11%
- 0 ,5
- 1 ,0
- 1 ,0
- 0 ,5
0 ,0
F a c to r 1 : 9 4 ,3 1 %
0 ,5
1 ,0
Motivao
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x
2)
C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
1 ,2
1 ,0
0 ,8
S p a in
0 ,6
H a iti
P o rtu g a l
H u n g aI rr ey l a n d
G re e c e
T h a i l a n dI t a l y
E th io p ia
0 ,4
C z e Pc oh l aR ne dp u b l i c
S o u th A fric a
0 ,2
Egypt
0 ,0
K o re a
S ri L a n k aB r a z i l
K e n ia
- 0 ,2
In d ia
A lg e ria
- 0 ,4
Factor 2: 3,11%
- 0 ,6
M a la y s iaIn d o n e s ia
B rita in
N eD t eh ne mr l aa nr kd s
Japan
L u x e m b u rg
F in la n d
G e rm a n y
N So wrSw ew ad iyet z n e r l a n d
A u sA t ur Fa s lr tiara ina c e
USA
C h in a
M e x ic o
T a i w B a en l g i u m
P e ru
- 0 ,8
- 1 ,0
- 1 ,2
- 1 ,4
-6
-5
-4
-3
-2
-1
F a c to r 1 : 9 4 ,3 1 %
A c t iv e
Obteno
de combinaes
interpretveis das
variveis
Confirma grupos
da Anlise de
Agrupamentos
Componentes
Principais
Reduo
da dimensionalidade
dos dados
Aplicao
Vamos retornar
quele exemplo
sobre ndices
econmicos.
Vejamos como se
estrutura o
relacionamento
entre as variveis e
avaliar um modelo
algbrico de
componentes
principais. Clique
em Eigenvalues e
Eigenvectors
(Autovalores e
Autovetores).
Aplicao
Aplicao
9 4 ,3 1 %
3 ,5
3 ,0
2 ,5
2 ,0
Eigenvalue
1 ,5
1 ,0
0 ,5
3 ,1 1 %
2 ,2 3 %
,3 4 %
0 ,0
- 0 ,5
0 ,0
0 ,5
1 ,0
1 ,5
2 ,0
2 ,5
3 ,0
E ig e n v a lu e n u m b e r
3 ,5
4 ,0
4 ,5
5 ,0
Contribuies
Podemos medir o grau de relao que existe entre as variveis e as
componentes principais com a opo Factor & variable correlations.
E podemos
tambm medir
a contribuio
de cada
varivel para a
construo de
uma
componente
principal
usando a
opo
Contributions
of variables.
Contribuies
Anlise de Classificao
Podemos avaliar um
modelo de
agrupamento usando
a tcnica de
componentes
principais, basta clicar
nas opes Factor
coordinates of cases e
Plot case factor
coordinates, 2D.
Um modelo de Scores
pode ser exibido com
as opes Factor
scores e Factor scores
Coefficients
Anlise de Classificao
P r o je c t io n o f t h e c a s e s o n t h e f a c t o r - p la n e ( 1 x
2)
C a s e s w it h s u m o f c o s in e s q u a r e > = 0 , 0 0
1 ,2
1 ,0
0 ,8
S p a in
0 ,6
H a iti
P o rtu g a l
H u n g aI rr ey l a n d
G re e c e
T h a i l a n dI t a l y
E th io p ia
0 ,4
C z e Pc oh l aR ne dp u b l i c
S o u th A fric a
0 ,2
Egypt
0 ,0
K o re a
S ri L a n k aB r a z i l
K e n ia
- 0 ,2
In d ia
A lg e ria
- 0 ,4
Factor 2: 3,11%
- 0 ,6
M a la y s iaIn d o n e s ia
B rita in
N eD t eh ne mr l aa nr kd s
Japan
L u x e m b u rg
F in la n d
G e rm a n y
N So wrSw ew ad iyet z n e r l a n d
A u sA t ur Fa s lr tiara ina c e
USA
C h in a
M e x ic o
T a i w B a en l g i u m
P e ru
- 0 ,8
- 1 ,0
- 1 ,2
- 1 ,4
-6
-5
-4
-3
-2
-1
F a c to r 1 : 9 4 ,3 1 %
A c t iv e
Exerccio
Abra o arquivo Pases.sta e confirme o agrupamento entre os 36
pases na tcnica de Cluster Analysis.
Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services
Definio e Conceitos
Anlise Fatorial um nome genrico dado a uma classe de mtodos
estatsticos multivariados cujo propsito principal definir a estrutura
subjacente em uma matriz de dados. Assim, tm-se os seguintes
pontos:
Abordar o problema de analisar a estrutura das inter-relaes
(correlaes) entre um grande nmero de variveis, definindo
um conjunto de dimenses latentes comuns, chamadas de
fatores;
Identificar as dimenses separadas da estrutura e ento
determinar o grau em que cada varivel explicada por cada
dimenso;
Resumir e reduzir os dados em dimenses latentes
interpretveis e compreensveis usando escores para cada
dimenso e, conseqentemente, substituir as variveis originais.
Definio e Conceitos
Os modelos de anlise fatorial buscam explicar o
comportamento das variveis observadas em relao ao
comportamento de um conjunto de variveis no observadas
(variveis latentes ou fatores).
Desta forma, sejam
X 1 ,, X p
E 1 ,, p
X 1 1 11F1 1m Fm 1
X 2 2 21F2 2 m Fm 2
X p p p1Fp pm Fm p
Definio e Conceitos
Traduzindo para notao de matriz, temos:
X1
X
2
X p
11
21
p1
12
22
p 2
1m
2 m
pm
F1
F
2
p
Fm
Cargas Fatoriais
Definio e Conceitos
Vamos estudar a varincia das variveis observadas. Para X i
temos:
o resultado disso :
i2 i21 im2 i
c
2
i
2
i1
2
im
proporo de Pri
variabilidade explicada:
i2
Especificidade : i
Definio e Conceitos
Se definimos a variabilidade total das variveis originais
como sendo:
p
T2 i2
i 1
2
c
i
i 1
PrT
2
c
i
i 1
T2
Aplicao
Imagine a matriz de correlao para nove elementos da imagem de
uma loja:
Poltica de
devoluo
Pessoal
Disponibilidade de
produto
Servio interno
Diversidade de itens
para cada produto
Nvel de Preo
Atmosfera da loja
Diversidade de
produtos
Qualidade de
produto
Aplicao
Aplicao
Experincia Interna
Oferta de Produtos
Valor
Tamanho da Amostra
Variveis Objetivo
Fase 1
importante definir com critrio as variveis que faro parte da pesquisa com
Anlise Fatorial, definir as propriedades de medidas e tipos de variveis
envolvidas. Quanto maior for o nmero de variveis, maior ser o tamanho da
amostra.
Algumas cuidados importantes em Anlise de Fatores dizem respeito ao
tamanho da amostra:
Dificilmente um pesquisador realiza uma Anlise Fatorial com menos que
50 observaes;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propem um mnimo de 20 observaes vezes o
nmero de variveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deve interpretar
qualquer descoberta com precauo.
Abra o arquivo
Hatco.sta na pasta
Treinamento / BDs /
STATISTICA /.
Fase 4
Rotao de fatores:
Rotao
Quartimax. Concentra-se em rotacionar Fatorial
o fator inicial de modo que uma varivel Ortogonal
tenha carga alta em um fator e cargas e Oblqua
to baixas nos demais;
1,0
Fator 2
Fator 2_Ort
V1 Fator 2_Obl
V2
0,50
Fator 1
-1,0
-0,50
0,50
-0,50
-1,0
V5
V3 1,0
V4
Fator 1_Obl
Fator 1_Ort
Exemplo
Vamos usar uma base de dados da Hatco para avaliar a existncia
de agrupamentos de percepes que clientes tm com respeito
empresa.
As variveis que
nos interessam
so: X1 a X4, X6
e X7.
O tamanho da
amostra de
100
observaes,
resultando em
14 casos para
cada varivel,
um valor
aceitvel.
2 ,5
2 ,5 1 3
2 ,0
1 ,7 4 0
1 ,5
Value
1 ,0
0 ,5 9 7
0 ,5 3 0
0 ,5
0 ,4 1 6
0 ,2 0 4
0 ,0
1
N u m b e r o f E ig e n v a lu e s
Clique em OK na janela
ao lado e retorne ao
mdulo de anlise.
Clique em Summary:
Factor loading.
R o ta tio n : U n r o ta te d
E x t r a c t io n : P r in c ip a l c o m p o n e n t s
0 ,4
0 ,2
X7
X2
0 ,0
- 0 ,2
Factor 2
- 0 ,4
X1
- 0 ,6
- 0 ,8
- 1 ,0
- 1 ,0
- 0 ,8
- 0 ,6
- 0 ,4
- 0 ,2
F a c to r 1
0 ,0
0 ,2
0 ,4
0 ,6
0 ,8
R o ta tio n : V a r im a x n o r m a liz e d
E x t r a c t io n : P r in c ip a l c o m p o n e n t s
1 ,0
0 ,8
0 ,6
0 ,4
Factor 2
X
X
0 ,2
0 ,0
- 0 ,2
- 1 ,0
- 0 ,8
- 0 ,6
- 0 ,4
- 0 ,2
0 ,0
F a c to r 1
0 ,2
0 ,4
0 ,6
0 ,8
1 ,0
Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services
Definio
A anlise discriminante envolve determinar uma varivel estatstica
que a combinao linear de duas ou mais variveis independentes
que discriminaro melhor entre grupos definidos a priori.
A discriminao conseguida estabelecendo-se os pesos da varivel
estatstica para cada varivel para maximizar a varincia entre
grupos relativa varincia dentro dos grupos.
Funo Discriminante
Funo Discriminante
Definio
A combinao linear para uma anlise discriminante,
tambm conhecida como a funo discriminante,
determinada de uma equao que assume a seguinte
forma:
z jk a w 1x1k w 2 x 2 k w n x nk
onde
zjk = escore Z discriminante da funo discriminante
j para o objeto k
a = intercepto
wi = peso discriminante
independente i
xik = objeto k na varivel Xi.
para
varivel
Exemplo
Uma empresa est interessada em investigar se um de seus novos
produtos ser comercialmente bem-sucedido. Isso conduz a uma
pesquisa com consumidores que comprariam ou no o novo produto.
Estudamos, ento, as 3 caractersticas descritas no quadro abaixo:
Note que a caracterstica
Durabilidade discrimina
bem os dois grupos.
J a caracterstica Estilo
tem uma diferena entre
mdias de grupo igual a
0,2. No entanto, isso no
caracteriza uma m
discriminao. preciso
avaliar a disperso e os
escores discriminantes.
Exemplo
8
10
X1
Durabilidade
10
9
6
X2
Desempenho
10
10
10
10
X3
Estilo
1
Exemplo
Usando apenas a varivel X1 obtemos um percentual de
classificao correta de 90%, visto que o item 5 no foi alocado
corretamente. Quando inserimos a varivel X2, obtemos 100% de
acerto na Funo 2. Mas com a anlise discriminante, estamos
interessados no s em agrupar, como tambm maximizar
variabilidade entre grupos.
Exemplo
Exemplo
Exemplo
O funo discriminante:
Exemplo
A Matriz de
Classificao e a
Classificao dos
Casos esto
demonstradas nas
tabelas a seguir.
Tamanho da amostra:
A Anlise Discriminante muito sensvel ao tamanho da amostra e
o nmero de variveis preditoras Alguns estudos sugerem um
nmero de 20 observaes para cada preditora.
Diviso da Amostra:
muito comum um estudo de validao do modelo, usando
recursos de diviso da amostra (crossvalidation); este
procedimento consiste em dividir a amostra em duas partes: 1.
Modelagem (no menos que 60%) e 2. Teste (no mais que 40%).
Significncia Estatstica
As medidas de lambda de Wilks, trao de Hotelling e critrio de Pillai
avaliam a significncia estatstica do poder discriminatrio da funo
discriminante;
A maior raiz caracterstica de Roy avalia apenas a primeira funo
discriminante;
Se um mtodo stepwise empregado para estimar a funo
discriminante, as medidas D2 de Mahalanobis so mais adequadas
Exemplo no STATISTICA
Exemplo no STATISTICA
Escolha a opo
Tradicional discriminant
analysis. A outra opo
usada quando temos
variveis independentes
categricas.
Escolha as variveis
para anlise em
Variables:
X11 Dependente e de
X1 a X7, so as
Independentes.
Exemplo no STATISTICA
Habilite a
opo Foward
stepwise para o
procedimento
computacional
Exemplo no STATISTICA
Exemplo no STATISTICA
Esta tabela
nos d o
entendimento
das variveis
que entram na
Anlise
Discriminante.
Exemplo no STATISTICA
Note que a varivel X7
a que apresenta
maior poder
discriminante e foi
escolhida primeiro.
Em seguida aparece
X3 e depois X1 disputa
com X5 com valores
muito prximos.
Aps a seleo das 3
variveis, as 4
restantes no
contribuem para
discriminar os grupos.
Exemplo no STATISTICA
Avaliao do Ajuste Geral:
Clculo de Escores Z discriminantes
z jk a w 1x1k w 2 x 2 k w n x nk
Avaliao de Diferenas de Grupos
Um caminho para avaliar o ajuste geral do
magnitude de diferenas entre membros de
dos escores Z discriminantes. Podemos
comparao dos centrides dos grupos, o
mdia para todos os membros dos grupos.
modelo determinar a
cada grupo em termos
fazer isso usando a
escore Z discriminante
Exemplo no STATISTICA
O que desejamos,
desde o incio,
maximizar a distncia
entre as mdias
populacionais e
minimizar a varincia.
Uma medida de
distncia usada o D2
de Mahalanobis.
Clique nas opes
Class squared
Mahalanobis distances,
Class means for
canonical variables e
Tests of significance of
distances.
Exemplo no STATISTICA
Z Corte
Exemplo no STATISTICA
Exemplo no STATISTICA
Exemplo no STATISTICA
Interpretao dos Resultados:
Pesos Discriminantes
A interpretao de pesos discriminantes
anloga interpretao de pesos beta em
anlise de regresso e est, portanto,
sujeita s mesmas crticas.
Exemplo no STATISTICA
Interpretao dos Resultados:
Cargas Discriminantes
As cargas discriminantes medem a correlao linear simples entre cada varivel
independente e a funo discriminante.
As cargas so
consideradas mais
vlidas do que os
pesos como um
meio de
interpretao do
poder
discriminatrio de
variveis
independentes por
causa de sua
natureza
correlacional.
Exemplo no STATISTICA
Interpretao dos Resultados:
A Diferena entre os Grupos
Associado a cada funo discriminante
encontramos um raiz caracterstica
(autovalor);
O teste Lambda de Wilk avalia a
diferena entre os grupos (0 e 1);
A estatstica Qui-Quadrado revela se a
diferena entre os grupos significante;
O R cannico pode ser interpretado
elevando-se o seu valor ao quadrado,
ento
dizemos que o modelo
discriminante
explica certa
porcentagem (66,9%)
da varincia na
varivel dependente.
Exemplo no STATISTICA
Coeficientes da
Funo de
Classificao
Resultados da Classificao
Josias Jnatas
Data Mining Consultant
StatSoft South America Consulting Services
Usando MSPC:
- Avaliamos cada varivel no tempo;
- Avaliamos o conjunto de variveis, dado que
a relao entre elas existe;
- Avaliamos cada lote para determinar sucesso
na deteco de um processo irregular.
Tempo
eis
v
r i
a
V
Lotes
1
2
.
.
.
.
.
.
. . .
Objetivos da anlise:
Aplicar TMPCA em NormalBatches.sta para
construir um modelo de referncia que
descreva a evoluo de bons lotes;
Usar este modelo para identificar bateladas
futuras como lotes com Sucesso ou sem
Sucesso
usando
os
dados
de
BatchesForDeployment.sta.
Component
10
11
12
13
14
R X ( C u m u l. )
Q ( C u m u l. )
0 ,9 3 1
0 ,9 2 7
0 ,9 2 6
0 ,9 2
0 ,9 0
0 ,8 9 1
0 ,8 8 4
Power
0 ,8 8
0 ,8 6
0 ,8 4 7
0 ,8 4 1
0 ,8 4
0 ,8 2 4
0 ,8 2
0 ,8 2 0
0 ,7 9 9
0 ,8 0
0 ,7 8
T 2D R
T 3D R
T 1D R
TFM
TFM
PR ES
V a r ia b le
T 1R M
T 2R M
PR ES
PR ES
2
ik
2
ik
t
Ti
k 1 s
2
9 0 ,4 7 8
90
80
70
60
50
T
100
40
30
20
10
0
B1
B3
B2
B5
B4
B7
B6
B9
B8
B 11
B 10
B13
B12
B15
B14
B17
B 16
B a tc h
B19
B18
B 21
B20
B23
B 22
B 25
B24
B 27
B 26
B 29
B 28
B30
9 9 ,0 0 0 %
2
Q i x ij x ij
M
j 1
x
M
D To Model
j 1
ij
x ij
M C
M o nmero de variveis
originais;
xij o nmero de componentes
6
5
4
3
2
1
0
0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99
T im e
9 9 ,0 0 0 %
Distance
0 ,1 5
0 ,1 0
0 ,0 5
0 ,0 0
B1
B3
B2
B5
B4
B7
B6
B9
B8
B11
B10
B13
B12
B15
B14
B17
B16
B a tc h
B19
B18
B21
B20
B23
B22
B25
B24
B27
B26
B29
B28
B30
20
B10
B6
B 8B 7
t2
B22
B21
B9
B19 B15
BB 5 3 0
B 1B 32 6 B 2 0
B27
B2
B 18 B 17
B11
B 24 5
B
B23
B29
B24 B16
B3
B28
B1 B12
-2 0
-4 0
-6 0
+ /-3 ,0 0 0 *S td .D e v
-8 0
-8 0
-6 0
-4 0
-2 0
0
t1
20
40
60
80
0 ,0 3 9
0 ,0 3 6
0 ,0 3
0 ,0 2 6
0 ,0 2
0 ,0 1 8
0 ,0 1 6
0 ,0 1 1
0 ,0 0 8
0 ,0 1
0 ,0 0 4
0 ,0 0
0 ,0 0 0
0 ,0 0 0
T 2R M
PR ES
-0 ,0 1
-0 ,0 2
-0 ,0 3
-0 ,0 4
-0 ,0 5
T 1D R
T 2D R
T 3D R
PR ES
TFM
T 1R M
V a r ia b le
PR ES
TFM
0 ,9
0 ,8
Trajectory
0 ,7
0 ,6
+ / - 3 , 0 0 0 * S td . D e v
+ / - 2 , 0 0 0 * S td . D e v
M ean
0 ,5
0
14
21
28
35
42
49
T im e
56
63
70
77
84
91
98
1 9 .5 1 6 ,7 2 8
20000
2 0 .4 3 3 ,0 8 4
2 0 .9 0 4 ,1 8 3
15000
1 0 . 3 3 7 , 2 9 21 0 . 1 8 4 , 0 0 1
10000
7 .8 4 2 ,3 8 3
5000
9 9 ,0 0 0 %
9 0 ,4 7 8
0
B31
B33
B32
B35
B34
B37
B36
B39
B38
B41
B40
B43
B42
B45
B44
B a tc h
B47
B46
B49
B48
B51
B50
B53
B52
B55
B54