Agrupamento de Dados - Estudo

Trabalho de Agrupamento de
Dados
Alunos: Alessandro Pereira Rezende
Renato Teixeira Nascimento
Roteiro
X-Means
Bases utilizadas
Pr-processamento
Critrios de validao
Resultados
Concluso
X-Means
A entrada um intervalo de possveis valores de k
(maior e menor valor k).
As sadas so os centros de cada grupo e o valor
do k.
A ideia principal do algoritmo definida da
seguinte forma:
iniciar o algoritmo com k sendo o menor valor do intervalo e
acrescentar novos grupos at o maior valor do intervalo.
Durante o processo, o conjunto de grupos com o melhor
resultado armazenado.
Pseudocdigo
O algoritmo do X-Means definido da seguinte
forma:
Entrada: minK, maxK
Sada: melhorK
1. Para K = minK at maxK faa
2. MelhorarParametros();
3. MelhorarEstrutura();
4. RegistraMelhorResultado();
5. Fim Para
6. melhorK = RetornarNroGrupos();
Valor timo de nmero de clusters pelo mtodo estatstico
Bayesian Information Criterion (BIC) Critrio de seleo de modelos em um conjunto finito de modelos.

Bases
Bases Instncias Atributos Tipos Descrio
Irs
150 4 real Base sobre tipos de plantas
Breast-w
699 9 inteiro
Base sobre composio clular para
definir se ou no cncer de mama
Haberman
306 3 inteiro
Base sobre a sobrevida de pacientes
submetidos cirurgia para cncer de
mama
Balance-scale
625 4 inteiro
Base sobre os resultados experimentais
para definir modelos psicolgicos
Pr-Processamento
Pr-Processamento por base
Iris Normalizao usando o mtodo Re-escalar (0,1)
breast-w
Substituio de atributos nulos pela mdia e normalizao Re-
escalar (0,1)
haberman Normalizao usando o mtodo Re-escalar (0,1)
balance-scale Normalizao usando o mtodo Re-escalar (0,1)
Critrio de Validao - Silhueta
Temos a, a dissimilaridade mdia do i-
simo objeto ao seu grupo.
Temos b, a dissimilaridade mdia do i-
simo objeto ao seu grupo vizinho mais
prximo.
Critrio de Validao Rand Index
f00 o nmero de pares que pertencem a classes e grupos
distintos;
f01 o nmero de pares que pertencem a classes distintas e
ao mesmo grupo;
f10 o nmero de pares que pertencem mesma classe e a
grupos distintos;
f11 o nmero de pares que pertencem mesma classe e ao
mesmo grupo
Rand-Index
Resultados
K-Means

Bases Valor K Silhueta Mdia Rand Index
Iris
2 0.629

0.776
breast-w
2 0.594

0.920
haberman
2 0.393

0.632
balance-scale
2 0.182

0.531
Resultados
X-Means
K-Mnimo = 2 K-Mximo = 60
Bases Valor K Silhueta Mdia Rand Index
Iris
4 0.398

0.818
breast-w
4 0.251

0.699
haberman
4 0.453

0.509
balance-scale
2 0.182

0.536
Resultados
DBSCAN
Epsilon = 1 Min-Points = 5
Bases Grupos Silhueta Mdia Rand Index
Iris
3 0.754

1.0
breast-w
2 0.405

0.549
haberman
12 0.725

1.0
balance-scale
3 0.396

1.0
Concluso
Algoritmo com melhor desempenho por base
Bases Algoritmo
Iris
DBSCAN
breast-w
K-Means
haberman
DBSCAN
balance-scale
DBSCAN
Concluso
Observando os dados descritos nas tabelas
acima, nota-se que houve discrepncia entre os
algoritmos no valor de k na base breast-w. Na
primeira, usando o algoritmo X-Means o valor de
k foi 4, enquanto que no DBSCAN o valor de k
igual a 2.
Como o valor da Silhueta e Rand-Index do K-
means na base breast maior, portanto o K-
means obteve o melhor desempenho e temos
que k = 2 o agrupamento timo para essa base.
Concluso
Para as outras bases utilizadas o melhor algoritmo foi o DBSCAN
pois os resultados para a Silhueta e o Rand- Index foram maiores.
A diferena de resultados na base Irs foi pequena, mas ainda assim
o DBSCAN obteve melhor desempenho.
Na base balance-scale o DBSCAN encontrou um grupo a mais e
tambm mostrou o melhor resultado.
A maior discrepncia foi encontrada na base haberman pois o K-
means possui 2 grupos, X-means obtivemos 4 grupos e para o
DBSCAN foram encontrados 12 grupos com Silhueta mdia de 0.396
e 1.0 de resultado para o Rand-Index. Como o DBSCAN obteve o
melhor desempenho para essa base, isso demostra que ao
aumentar o nmero de grupos foi melhorando a Silhueta mdia dos
agrupamentos gerados para essa base, sendo que o mesmo no
ocorre com o Rand-Index que houve uma variao no linear.

Concluso
Inicialmente calculamos a Silhueta e Rand-Index sem
fazer a normalizao dos dados e constatamos que
os valores dos dois critrios de avaliao ficaram
abaixo dos valores encontrados aps normalizao.
Exemplo:

DBSCAN
Bases Grupos SN Grupos SN Silhueta Mdia SN Silhueta Mdia CN
balance-scale
2 3 0.152

0.396

DBSCAN
Bases Grupos SN Grupos SN Rand Index SN Rand Index CN
balance-scale
2 3 0.4299 1
Concluso
A anlise dos algoritmos K-Means, X-Means e DBSCAN
demostrou que em bases com poucos atributos, o
DBSCAN obteve melhor desempenho, enquanto que
para bases com vrios atributos e vrias instncias,
como exemplo a base Breast-w, os trs algoritmos
demostraram desempenho semelhantes, porm o K-
means obteve o melhor resultado.
Considerando que o nmero de bases testadas foi
reduzido, os resultados obtidos so prvios,
necessitando de testes mais profundos para avaliaes
mais assertivas.

Obrigado!

Agrupamento de Dados - Estudo

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Agrupamento de Dados - Estudo

Caricato da

Copyright:

Formati disponibili

Trabalho de Agrupamento de

Potrebbero piacerti anche