Sei sulla pagina 1di 9

Agrupamento de Dados no Contexto da Quimiotaxonomia: Aplicando Heursticas Baseadas em Colorao de Grafos

Valria de Carvalho Santos, Leila Silva, Leonardo Matos, Scrates Cavalcanti Departamento de Computao Universidade Federal de Sergipe (UFS) So Cristvo SE Brasil
valeriacs@dcomp.ufs.br, {leila, lnmatos, socrates}@ufs.br

Abstract. Clustering techniques have been recently used to classify medicinal plants in the context of chemotaxonomy. The goal of this work is to verify the suitability of clustering algorithms based on graph coloring for the classification of medicinal plants according to their chemical compounds. Resumo. Tcnicas de agrupamento tm sido recentemente usadas para classificar plantas medicinais no contexto da quimiotaxonomia. O objetivo deste trabalho verificar a adequao de algoritmos de agrupamento baseados em colorao de grafos para a classificao das plantas medicinais, segundo seus compostos qumicos.

1. Introduo
No desenvolvimento fitoterpico, o estudo detalhado da composio qumica e da identificao da planta em questo deve ser realizado com o intuito de auxiliar o controle de qualidade e o processo de produo. O desenvolvimento da qumica de produtos naturais tem mostrado que os constituintes fitoqumicos podem ser usados para caracterizar, descrever e classificar espcies. Correlaes entre a sistemtica botnica tradicional e classificaes qumicas podem ser encontradas desde 1699 [Fairbrothers 1968]. Entretanto, o interesse genuno em estabelecer relaes entre os constituintes das plantas e sistemtica botnica mais recente. O interesse nesta rea cresceu devido ao aparecimento de tcnicas analticas rpidas e precisas. A quimiotaxonomia usa caractersticas qumicas, em particular os metablitos secundrios (alcalides, terpenides, flavonides, entre outros) de um conjunto de organismos para determinar uma classificao hierrquica dos seres vivos [Domnguez 1973]. O uso de dados qumicos para resolver problemas botnicos tem aumentado consideravelmente nos ltimos anos e, atualmente, a quimiotaxonomia considerada como uma disciplina estabelecida. Vrios trabalhos mostram a importncia dos dados de compostos qumicos na soluo de problemas taxonmicos [Zidorn e Stuppner 2001][Valant-Vetschera e Wollenweber 2001][Rycroft 2003]. A grande dificuldade encontrada pelos cientistas para resolver os problemas taxonmicos est na construo de um banco de dados confivel, na utilizao de mtodos estatsticos e no desenvolvimento de programas para a validao do problema.

Neste contexto, tcnicas de agrupamento (clustering) so mtodos de anlise estatstica que visam o agrupamento de indivduos mais homogneos, utilizando os caracteres especficos de cada um como referncia da similaridade destes indivduos. Estas tcnicas podem ser aplicadas em vrias reas do campo cientfico e devido complexidade de se realizar a anlise estatstica dos dados quimiotaxonmicos das plantas medicinais, o uso de tais tcnicas tem sido recentemente adotado para este fim [Dsea et al 2005][Slavkovska et al 2001]. As abordagens comumente encontradas na literatura usam variantes de algoritmos clssicos de classificao hierrquica [Jain e Dubes 1988], bem como ferramentas estatsticas j disponveis para proceder a classificao. Entretanto, como o problema de agrupamento NP-completo, uma soluo tima no conhecida. Assim existe uma ampla variedade de heursticas na literatura que visam encontrar uma soluo aproximada para o problema. A qualidade do agrupamento obtido pela aplicao destas heursticas altamente dependente do conjunto de dados de entrada. Assim, os dados sero agrupados da melhor maneira se o mtodo de agrupamento for adequado ao problema que se pretende resolver. O objetivo do trabalho aqui proposto investigar a adequao de algoritmos de agrupamento baseados em colorao de grafos para a classificao das plantas, segundo seus compostos qumicos. Existem algumas abordagens de colorao para realizar agrupamento e, em particular, nos concentramos na abordagem baseada em [Silva et al 2006]. Basicamente, o trabalho consistiu em uma adaptao desta abordagem para o domnio investigado. O algoritmo foi implementado e foram realizados 190 experimentos para cada um dos seguintes cenrios: (1) utilizando a distncia euclidiana como medida de similaridade, mantendo assim a proposta original de [Silva et al 2006], (2) utilizando o critrio de penalidade proposto em [Dsea et al 2005] como medida de similaridade, adaptando-se assim o algoritmo em (1) para considerar uma nova medida de similaridade e (3) pr-processando-se os dados utilizando a anlise de componentes principais PCA [Lindsay 2002] para reduo de dimensionalidade, seguido da aplicao do algoritmo original. A anlise da abordagem em diferentes cenrios foi realizada para verificar se o conceito de penalidade ou o pr-processamento dos dados com a tcnica de PCA melhora a qualidade do agrupamento. Os resultados obtidos so discutidos na seo 4. Ressalta-se ainda que autores desconhecem trabalhos que investigam a aplicabilidade de heursticas baseadas em grafos no contexto da quimiotaxonomia. Neste sentido nosso trabalho representa uma contribuio tanto para a validao do algoritmo adotado, como para uma investigao mais abrangente do domnio de plantas medicinais, j investigado em outras abordagens [Carvalho 2006][Dsea 2005]. Este artigo est organizado como se segue. Na seo 2 so apresentados os critrios de similaridade utilizados para realizar o agrupamento. O algoritmo utilizado neste trabalho explicado na seo 3. Na seo 4 apresentamos os resultados obtido, bem como a discusso deles. Finalmente na seo 5 so apresentadas as consideraes finais.

2. O critrio de similaridade
O produto de um processo de agrupamento um conjunto de grupos em que elementos pertencentes ao mesmo grupo devem ser mais semelhantes que elementos pertencentes

a grupos distintos. Para medir o quo semelhante os elementos so preciso definir um critrio de similaridade. Formalmente, seja P = {p1, p2, ... , pn} o conjunto de elementos a ser analisado. O objetivo do processo de agrupamento encontrar uma partio de subconjuntos novazios Pk de P, 1 k r, tal que P = U rk =1 Pk , e i,j, i j, 1 i, j r, Pi Pj = . Os subconjuntos denominados Pk so chamados grupos e os elementos pertencem ao um mesmo grupo de acordo com algum critrio de similaridade. Cada elemento de pi composto por um conjunto de m atributos, representado por pi = (xi1, xi2, ..., xim). No domnio da quimiossistemtica os elementos so plantas e os atributos xij so compostos qumicos que caracterizam estas plantas. A medida de similaridade, em geral, uma funo entre pares de dados. Uma medida muito utilizada a distncia Euclidiana. A equao 1 apresenta a frmula da distncia Euclidiana.
d E ( pi , p j ) =
1 k m

(x

ik

x jk ) 2

(1)

onde pi e pj so os objetos e xik e xjk so os atributos de pi e pj, respectivamente. Neste trabalho foram utilizadas a distncia Euclidiana e a distncia Euclidiana com penalidade. A diferena entre elas que a ltima acrescenta o conceito de penalidade, introduzido em [Dsea et al 2005] e que j se mostrou adequado para a base de dados investigada. A penalidade refere-se ao nmero de compostos discrepantes entre duas plantas Pi e Pj. Um composto considerado discrepante se estiver presente em apenas uma das plantas. Sendo gij a penalidade, a similaridade entre as plantas Pi e Pj dada pela equao 2. d EP ( pi , p j ) = ( ( xik x jk ) 2 ) g ij
1 k m

(2)

3. Algoritmo de agrupamento baseado em colorao de grafos


Este trabalho utiliza a abordagem de colorao em grafos e baseia-se no trabalho proposto em [Silva et al 2006]. Neste trabalho sugerido um mtodo de agrupamento particional e um ndice de tendncia de clustering. O mtodo inicia com a aplicao do algoritmo de colorao guloso sobre os dados [Szwarcfiter 1986]. Este algoritmo comea por atribuir a primeira cor ao primeiro vrtice. Os vrtices seguintes so coloridos com a primeira cor permitida, ou seja, com a primeira cor ainda no atribuda a quaisquer dos seus adjacentes. Devido execuo no-tima do algoritmo guloso, quase todas as atribuies requerem um nmero de cores maior que o nmero mnimo. Com o objetivo de minimizar o nmero de cores fornecido pelo algoritmo guloso, foi desenvolvido um algoritmo de colorao guloso otimizado. Considerando-se que a partir do algoritmo guloso obtm-se k1 classes de cores, o objetivo do algoritmo otimizado encontrar k (k < k1) classes de cores. Abaixo encontra-se o pseudo-cdigo do algoritmo.

Algoritmo otimizao Entrada: k1 classes de cores Sada: k (k < k1) classes de cores Incio Seja o conjunto C de classes de cores Para i 1 at k1 faa Para todo v C i faa Para j 1 at k1, j i faa Para u C j faa Se distncia (v, u) < ento ~ j (v ) n ~ j (v ) + 1 n Seja Cm a classe com maior valor de nj ~m (v ) max{n ~j (v )} n ~ (v) > n ento Se n m i C m C m U Ci Retornar C Fim. Basicamente, para cada classe de cor Ci, escolhe-se um elemento v. Para cada ~ , que a quantidade de elementos em C que classe de cor Cj, j i, calcula-se o valor n j j ~ ~ possuem distncia a v menor que . Sendo n o maior valor de n e C a classe com
m
j

~ elementos, verifica-se se n ~ maior que a quantidade de elementos de C . Se for, n i m m junta-se as classes Cm e Ci. Observa-se que nos cenrios (1) e (3), mencionados na seo 1, a distncia dada pela Equao (1) e no cenrio (2) pela Equao (2). O ndice de tendncia de clustering (IC) identifica a partio que melhor aloca a estrutura de clustering. Se sempre possvel colorir um grafo, ento sempre h um grafo k-partite1 definido no conjunto de dados. O IC conta o nmero de arestas ausentes para o grafo k-partite ser completo2. A eficincia do mtodo depende do parmetro de controle . O valor dele determina o nmero de arestas no grafo e assim, os vrtices adjacentes. Por isso, o nmero de clusters e o nmero de elementos em cada cluster dependem do valor de , e
Um grafo G(V,E) k-partite quando o seu conjunto de vrtices V puder ser particionado em k subconjuntos V1, V2, ..., Vk, tais que toda aresta de G une vrtices de subconjuntos distintos. 2 Um grafo G(V,E) k-partite completo possui uma aresta para cada par de vrtices vi, vj, sendo vi Vi e vj Vj, ij.
1

conseqentemente, o valor de IC depende do valor de . Devido a este fato, para diferentes valores de , o algoritmo de colorao guloso otimizado identifica diferentes estruturas no conjunto de dados. O valor de no deve ser definido pelo usurio, e sim calculado automaticamente.

4. Resultados e Discusso
Para avaliar o algoritmo desenvolvido foi utilizado uma base com 87 amostras de plantas, divididas em 20 gneros. Cada planta representada por um vetor de caractersticas, onde cada atributo corresponde ao percentual de concentrao de um composto na formao do leo essencial. Para cada planta foi mensurado a concentrao de 423 compostos, citados na literatura. Os testes realizados emparelharam plantas de cada um dos gneros dois a dois. Dado que existem 20 gneros, foram realizados 190 estudos de caso. Nesses experimentos o algoritmo produz a resposta correta se consegue gerar dois grupos, cada um contendo plantas de um mesmo gnero. Entretanto, em situaes prticas nem sempre ocorre isso, o algoritmo pode produzir grupos com elementos de gneros misturados ou pode gerar grupos formados por um elemento isoladamente (elemento exprio outlier). Avaliou-se a capacidade do algoritmo evitar tais erros. Como mencionado na Seo 1, trs diferentes cenrios foram analisados: (1) utilizando a distncia euclidiana como medida de similaridade, mantendo assim a proposta original de [Silva et al 2006], (2) utilizando o critrio de penalidade proposto em [Dsea et al 2005] como medida de similaridade, adaptando-se assim o algoritmo em (1) para considerar uma nova medida de similaridade e (3) pr-processando-se os dados utilizando a anlise de componentes principais PCA [Lindsay 2002] para reduo de dimensionalidade, seguido da aplicao do algoritmo original. Como ilustrao de alguns experimentos realizados, a Tabela 1 apresenta o resultado do algoritmo para o gnero Salvia no cenrio (2). A coluna 1 refere-se quantidade de grupos formados por plantas do gnero Salvia. A coluna 2 refere-se quantidade de grupos formados por plantas que no so do gnero Salvia. A coluna 3 refere-se quantidade de elementos exprios encontrados e a coluna 4 refere-se quantidade de grupos formados por plantas dos dois gneros. Podemos perceber que alguns experimentos produzem o resultado desejado, destacado em negrito, enquanto outros no. de fundamental importncia analisar o quo bom ou quo ruim o desempenho do algoritmo em cada uma desses experimentos e para cada um dos cenrios propostos.

Tabela 1. Anlise do desempenho do algoritmo para plantas do gnero Salvia no cenrio (2) Plantas Salvia e Cunila Salvia e Sideritis Salvia e Thymus Salvia e Teucrium Salvia e Satureja Salvia e Mentha Salvia e Origanum Salvia e Lavandula Salvia e Hesperozygis Salvia e Melissa Salvia e Micromeria Salvia e Minthostachys Salvia e Hedomea Salvia e Hyptis Salvia e Nepeta Salvia e Phlomis Salvia e Agastache Salvia e Ocimum Salvia e Stachys Grupos Salvia 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 0 1 Grupos no Salvia 0 1 2 2 1 1 2 0 1 1 1 1 1 1 1 1 1 1 1 Exprios Misturados 4 1 4 0 4 1 6 0 3 1 0 0 3 1 1 2 0 0 0 0 2 0 2 0 0 0 3 0 2 1 0 0 1 0 5 0 0 0

Os dados da Tabela 1 sugerem que a utilizao do algoritmo adotado, acrescido da penalidade como medida de similaridade eficiente para realizar agrupamento baseado em quimiotaxonomia, entretanto, para confirmar a aderncia do mtodo ao problema necessrio investigar se resultados similares ocorrem quando testado com outras plantas. Na Figura 1 ns apresentamos o valor mdio (mdia das colunas 2 e 3 na Tabela 2), mnimo (mnimo das colunas 2 e 3) e mximo (mximo das colunas 2 e 3) de grupos por planta, para cada planta e cenrio. A adequao do mtodo de extrao de caractersticas pode ser confirmada baseado na disperso (altura da barra vertical) e proximidade do valor mdio ao valor ideal, que de 1 grupo por planta. Podemos ver que no existe um critrio de similaridade universal, isto , que seja mais adequado para todas as plantas. No entanto, podemos perceber que em mdia, a distncia acrescida de penalidade mais adequada, pois tanto origina nmero de grupos prximo de um, quanto possui pouca varincia.

(a) Cenrio 1 similaridade baseada na distncia euclidiana

(b) Cenrio 2 similaridade baseada na medida de penalidade

(c) Cenrio 3 similaridade baseada em PCA e distncia euclidiana

Figura 1. Distribuio do nmero de grupos por cenrio

Para comparar os diversos cenrios luz de um teste estatstico, os valores da mdia do nmero de grupos (mdia das colunas 1 e 2, na Tabela 1) em cada um dos cenrios foram computados. Deve-se testar a hiptese de que esses valores so provenientes da mesma populao, isto , as diferenas entre as mdias no so significativas, contra a hiptese alternativa de que um cenrio difere do outro e, portanto, so provenientes de populaes distintas. Como no se conhece as varincias dessas populaes, mas tem-se indcios de que so diferentes, usou-se o teste t [Triola 2005] para amostras emparelhadas, onde a estatstica teste calculada com base na Equao 3, na qual x a mdia amostral, s 2 a varincia amostral (estimao noenviesada da varincia populacional) e n o tamanho da populao, dado que a soma do tamanho das duas amostras superior a 30.

zt =

( x1 x2 )
2 s12 s2 + n1 n2

(3)

Estabelecendo o nvel de significncia de 5%, obtem-se os resultados apresentados na Tabela 2. Esses resultados indicam que os mtodos aplicados nos cenrios (2) e (3) so equivalentes, isto , as diferenas existentes foram decorrncia da variabilidade amostral. Entretanto o cenrio (1) significativamente diferente dos demais, ao nvel de significncia de 5%, sendo, portanto, inferior aos outros dois pois o nmero de grupos gerado nesse caso mais distante de um, considerado o valor ideal para o nmero mdio de grupos.

Tabela 2. Anlise quantitativa dos mtodos de extrao de caractersticas

Emparelhamento (1) E (2) (1) e (3) (2) e (3)

Estatstica teste -2,36 -2,29 -0,22

Resultado do teste Rejeitar hiptese nula Rejeitar hiptese nula Aceitar hiptese nula

5. Consideraes Finais
Diversos tipos de pesquisa direcionada investigao de classificao de plantas tm sido desenvolvidos ao longo dos anos. Na fitoterapia, a identificao correta de plantas medicinais auxilia na pesquisa de novas plantas com potencial farmacolgico adequado fabricao de novos fitoterpicos. Este trabalho avalia a adequao de algoritmos de agrupamento baseados em colorao de grafos para a classificao das plantas, segundo seus compostos qumicos. O algoritmo foi implementado e avaliado nos seguintes cenrios: (1) utilizando a distncia euclidiana como medida de similaridade, mantendo assim a proposta original de [Silva et al 2006], (2) utilizando o critrio de penalidade proposto em [Dsea et al 2005] como medida de similaridade, adaptando-se assim o algoritmo em (1) para considerar uma nova medida de similaridade e (3) pr-processando-se os dados utilizando a anlise de componentes principais PCA [Lindsay 2002] para reduo de dimensionalidade, seguido da aplicao do algoritmo original. Foram realizados 190 experimentos com os dados das plantas. Cada experimento continha duas plantas de gneros distintos e foram avaliados nos trs cenrios distintos. Como observado, o mtodo utilizado no consegue sempre identificar de forma ideal os grupos de plantas na base de dados em estudo. Isso aceitvel, dado que algoritmos de agrupamento so heursticas, no geram resultados timos para qualquer tipo de dados. Dos 190 experimentos realizados, constatou-se que a introduo da penalidade no critrio de similaridade melhora a qualidade dos resultados obtidos, em relao aplicao do algoritmo com distncia euclidiana como mtrica O mesmo se observa em relao ao pr-processamento dos dados com o PCA e posterior aplicao do algoritmo. Como os autores desconhecem a investigao de algoritmos baseados em grafos no

contexto da quimiotaxonomia, este trabalho contribui tanto para uma melhor explorao deste domnio, quanto para uma validao ampla do algoritmo estudado. Como trabalho futuro pretende-se investigar outras abordagens de agrupamentos baseados em grafos, bem como a adequao do algoritmo em base de dados do contexto da Agronomia.

6. Referncias
Fairbrothers, D. E. (1968) Modern methods in plant taxonomy, Chemosystematics with emphasis on systematic serology, p. 141174, Domnguez, X. A. (1973) Mtodos de Investigacion Fitoquimica, Editorial Limusa. Zidorn, C. e Stuppner, H. (2001) Chemosystematics of taxa from the leondonton section oporinia, Biochem. Syst. Ecol., 29:827837. Valant-Vetschera, K. M. e Wollenweber, E. (2001) Exudate flavonoid aglycones in the alpine species of achillea sect. ptarmica: Chemosystematics of a-moschata and related species (compositae-anthemideae), Biochem. Syst. Ecol., 29:149159. Rycroft, D. S. (2003) Chemosystematics and the liverworth genus plagiochila, J. Hattori Bot. Lab., 93:331. Dsea, M., Silva, L. e Cavalcanti, S. (2005) Explorando algoritmos hierrquicos e nohierrquicos na construo de uma ferramenta de auxlio pesquisa de fitoterpicos, REIC. Revista eletrnica de iniciao cientfica, Rio Grande do Sul, v. III, p. 10. Slavkovska V., Jancic R., Bojovic S. S., Milosavljevic S. S. e Djokovic D. (2001) Variability of essential oils of satureja montana l. and satureja kitaibelii wierzb. ex heuff. from the central part of the balkan peninsula, Phytochemistry, 57:7176. Jain, A. K. e Dubes, R. C. (1988) Algorithms for Clustering Data. Printice Hall advanced reference series. Prentice Hall, Inc., Upper Saddle River, NJ. Silva, H. B., Brito, P. e Costa, J. P. (2006) A partitional clustering algorithm validated by a clustering tendency index based on graph theory, Pattern Recognition v. 39 776-778. Blake, C. e Merz, C. (1998). UCI repository of machine learning databases. Szwarcfiter, J. L. (1986) Grafos e algoritmos computacionais, So Paulo: Campus. Carvalho, A. B., Silva, L. e Matos, L. N. (2006) Explorando Algoritmos Inspirados em Colnias de Formigas no Contexto do Agrupamento de dados em Quimiotaxonomia, Anais da VI ERBASE - Escola Regional de Computao BahiaSergipe, p. 1-10. Lindsay e Smith (2002) A Tutorial on Principal Components Analysis, http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf, Fevereiro. Triola M. F. (2005) Introduo Estatstica 9 edio.

Potrebbero piacerti anche