Sei sulla pagina 1di 24

Captulo 2

Tcnicas de Clasificacin no Supervisadas


1 Introduccin
El aprendizaje no supervisado es muy importante cuando tenemos muestras sin etiquetas de clase, cuando el costo de etiquetarlas por un experto es alto o cuando los patrones pueden variar con el tiempo, por lo que es necesario primero procesar los datos para luego clasificar. La principal ventaja que presenta la clasificacin no supervisada es que se puede obtener un conjunto de entrenamiento empleando muestras no etiquetadas. Actualmente, en muchas aplicaciones reales (biometra, categorizacin de textos, bsqueda en bases de datos multimedia, reconocimiento de imgenes multiespectrales, etc.), el coste de un conjunto de entrenamiento resulta bastante alto, por lo que podra ser beneficioso aplicar primero a determinadas muestras cuya clase se desconoce, un algoritmo de agrupamiento para luego inferir propiedades en la poblacin en estudio. Se trata de construir clasificadores sin informacin previa, o sea, a partir de objetos no etiquetados con el objetivo de descubrir la estructura de los datos. Bajo el nombre genrico de algoritmos de agrupamiento, se incluyen todo un conjunto de procesos cuya finalidad general ser dividir un conjunto de objetos en clases, para obtener un subconjunto representativo del conjunto de entrenamiento inicial que posteriormente pueda utilizarse en una regla de clasificacin supervisada. En general, la clasificacin no supervisada o agrupamiento (clustering) consiste en dividir el conjunto de objetos en grupos de objetos similares llamados clusters, de modo tal que objetos pertenecientes a un mismo grupo son ms similares que objetos de grupos diferentes. El problema de formar grupos en un conjunto de datos es muy importante para el conocimiento del comportamiento de una poblacin, de la cual slo se tiene una cantidad N de sus elementos. Al estudiar el proceso de divisin en clases, nos damos cuenta de que cada tcnica est diseada para realizar una clasificacin de tal

Captulo 2 modo que cada grupo sea lo ms homogneo y lo ms diferente de los dems como sea posible. El resultado de cada mtodo de agrupamiento depender del algoritmo en concreto, del valor de los parmetros y de la medida de similaridad / disimilaridad adoptada. En la literatura consultada, los mtodos de agrupamiento suelen dividirse de diferentes maneras, entre las que mencionaremos: 1. Teniendo en cuenta la existencia o no de una funcin criterio a optimizar: 1. Directos o heursticos: son los que no optimizan ninguna funcin objetivo. 2. Indirectos o por optimizacin: son los que optimizan alguna funcin objetivo. 2. Segn la construccin del agrupamiento: 3. Aglomerativos o incrementales (bottom-up), generalmente parten de patrones aislados y van uniendo grupos de acuerdo a alguna funcin de similaridad / disimilaridad. 4. Divisivos o decrementales (top-down), parten de agrupamientos ya establecidos, generalmente de un solo grupo, y van dividiendo los grupos de partida hasta obtener grupos adecuados. 5. Mixtos, emplean diversas estrategias en su desempeo. 3. Segn la informacin a priori acerca del conocimiento del nmero de clusters: 6. Si se conoce el nmero de clusters. 7. Si no se conoce el nmero de clusters. A partir de aqu, en este captulo, nos centramos en el anlisis de los aspectos tericos ms relevantes de los mtodos de clasificacin no supervisada basados en la estructura geomtrica de los grupos, por lo que tambin haremos una breve exposicin de las mtricas ms utilizadas en la literatura consultada dedicada a este tema y, posteriormente, formularemos las bases de los algoritmos de agrupamiento probabilsticos. Adems, haremos nfasis en los algoritmos relacionados con este trabajo. Para ello, comenzaremos dando una visin general de cada tcnica para, posteriormente, pasar a presentar los diferentes algoritmos. Esta categorizacin de las tcnicas de agrupamiento nos permitir distinguir entre los diversos mtodos de agrupamiento.

38

Tcnicas de Clasificacin no Supervisadas

2 Formulacin General de un Problema de Clasificacin No Supervisada


Sea X= {x1, x2 ...,
XN }

el conjunto de datos o, anlogamente, objetos, ejemplos,

casos, patrones, n-uplas, puntos, donde xi = (x i 1,x i2 ,...,x i n ) pertenece a un espacio de atributos, para cada i = 1, ..., N, y cada componente xij (j = 1, ...,) es un atributo (anlogamente, rasgo, variable, dimensin o componente) de modo tal que el conjunto de objetos forma una matriz Nxn empleada por la mayora de los algoritmos de agrupamiento. La meta de todo algoritmo de agrupamiento es asignar cada punto a un sistema finito de subconjuntos o clusters que usualmente no se intersectan entre s y cuya unin es igual al conjunto de datos completo con la posible excepcin de outliers, de modo tal que objetos similares pertenezcan al mismo cluster, mientras que los objetos de clusters diferentes sean lo menos parecidos posible. En [Duda y Hart, 1973], aparece la introduccin clsica de los algoritmos de agrupamiento. En [Dempster, 1977] y [Fukunaga, 1990], encontramos el enfoque estadstico de las tcnicas de clasificacin no supervisada; en [Jain, 1999], aparece un resumen de diferentes tcnicas de agrupamiento. Los algoritmos de agrupamiento han sido empleados en reconocimiento del habla, en segmentacin de imgenes y visin por computador [Jain, 1966], [Jain, 2000]; en minera de datos para extraer conocimiento en bases de datos, en recuperacin de informacin y minera de textos [Salton, 1980], [Zhai, 2004], [Cutting, 1992], [Dhillon, 2002], en aplicaciones de bases de datos espaciales [Xu, 1998] y [Ester, 2000], en anlisis de datos heterogneos [Cadez, 2001], en aplicaciones Web [Her, 2001, Foss, 2001], en biologa computacional para el anlisis de ADN [Xu, 2002] y muchas otras aplicaciones. Los algoritmos de agrupamiento pueden dividirse en varias categoras segn el procedimiento que utilizan para agrupar los objetos: 8. Algoritmos jerrquicos, que pueden ser aglomerativos y divisivos. 9. Mtodos por particin, entre ellos: algoritmos de reubicacin, agrupamientos probabilsticos, mtodos de k-medoides y mtodos k-Medias (k-Means). 10. Algoritmos basados en densidad, entre ellos los algoritmos de agrupamiento por conectividad basados en densidad y los agrupamientos basados en funciones de densidad. 11. Mtodos basados en rejillas.

39

Captulo 2 12. Mtodos basados en co-ocurrencia de datos categricos. 13. Algoritmos mixtos. Los algoritmos jerrquicos, como su nombre indica, construyen una jerarqua de agrupamientos, uniendo o dividiendo los grupos de acuerdo a una cierta funcin de similaridad/disimilaridad entre los grupos. En otras palabras, construyen un rbol de clusters llamado dendograma. Tal enfoque permite estudiar los datos con diferentes niveles de glanularidad. Los mtodos de agrupamiento jerrquicos se categorizan en aglomerativos (bottom-up) y divisivos (top-down). Un agrupamiento aglomerativo, generalmente, comienza con grupos unitarios (singleton clusters) y, recursivamente, une dos o ms clusters apropiados. Un agrupamiento divisivo, generalmente, comienza con un slo cluster en el que estn todos los puntos o datos y, recursivamente, divide el cluster ms apropiado. El proceso contina hasta que se alcanza algn criterio de parada (frecuentemente el nmero k de clusters). Entre las ventajas de los algoritmos de agrupamiento jerrquicos se puede mencionar la flexibilidad con respecto al nivel de granularidad, son fciles de manejar y son aplicables a cualquier tipo de atributo. Entre las desventajas se encuentra la no existencia de un criterio de parada y que, luego de construidos los clusters, no vuelven a ser visitados para mejorarlos. Los mtodos por particin emplean diferentes tcnicas de reubicacin para asignar los puntos o datos a uno de los k clusters; algunos buscan puntos especficos para luego reubicar los restantes, otros tienen un enfoque probabilstico. A diferencia de los mtodos jerrquicos tradicionales, en algunos casos, los clusters son revisitados despus de construidos y los puntos reubicados para mejorar el agrupamiento. Estos algoritmos muchas veces asumen un conocimiento a priori del nmero de clusters en que debe ser dividido el conjunto de datos. La idea ms usada es hallar los centroides, uno para cada cluster y, luego, ubicar los restantes puntos en el grupo del centroide ms cercano. Este mtodo tiene como desventaja que fallan cuando los puntos de un cluster estn muy cerca del centroide de otro grupo. Los algoritmos basados en densidad tratan de identificar clusters en zonas altamente pobladas. Emplean diferentes tcnicas para determinar los grupos: por grafos, basadas en histogramas, kernels, aplicando la regla K-NN o tratando de descubrir subgrupos denso-conectados. Los algoritmos basados en rejillas trabajan con los datos indirectamente, construyendo resmenes de los datos sobre el subconjunto del espacio de atributos,

40

Tcnicas de Clasificacin no Supervisadas realizan una segmentacin del espacio y seleccionan segmentos apropiados, mientras que los basados en co-ocurrencia consideran que el concepto de similaridad por s solo no es suficiente para agrupar algunos datos, por lo que introducen otros conceptos como, por ejemplo, los vecinos compartidos. Los algoritmos mixtos vinculan al menos dos de las tcnicas antes mencionadas para realizar el agrupamiento; fundamentalmente, las tcnicas jerrquicas aparecen en muchos de ellos. Para realizar el agrupamiento de los objetos, es necesario determinar cundo dos objetos del espacio son "parecidos" y cundo no. Con este fin, se definen las funciones de similaridad o de disimilaridad, entre estas ltimas se encuentran las mtricas o distancias. Muchos de los algoritmos de agrupamiento basan su efectividad en la distribucin de los objetos del conjunto de datos en el espacio y en cun alejados estn entre ellos. Es por ello que es preciso definir alguna medida de distancia entre los objetos de X, mediante la cual podamos asignarle a cada muestra, una clase determinada.

3 Distancias o Mtricas
En el Reconocimiento de Patrones, la distancia entre dos objetos cualesquiera del espacio es una medida de cun similares son de acuerdo a sus caractersticas, ya que stas se escogen de forma tal que mientras ms parecidos sean los objetos menor debe ser la distancia entre ellos y, por el contrario, los objetos muy lejanos deben ser poco similares. Definicin: Un espacio mtrico es un par (X, d) donde X es un conjunto (X ^ 0) y d una distancia o mtrica definida sobre X. Una funcin d: XxX 9+, se dice que es una distancia o mtrica si satisface los siguientes axiomas: 14. d(x,y)>0 Vxjel, y d(x,y) = 0 si y solo si x = y 15. d(x, y) = d(y, x) V x, y e X (simetra) 16. d(x, z)<d(x,y)+d(y, z) V x, y, z e X(desigualdad triangular)

La mtrica ms frecuentemente utilizada en toda la literatura es la mtrica Eucldea:

41

Captulo 2
k=1

donde Oi y Oj son los objetos para los cuales se desea calcular la distancia, n es el nmero de caractersticas de los objetos del espacio y xk(Oi), xk(Oj) es el valor del atributo A>simo en los objetos OI y Oj, respectivamente. Otras mtricas que podemos mencionar son: 1. Minkowsky:

( \x(O1)-xk(OJ)\p) k
2. Manhattan:

peZ,p> 2.

fj\xk(Ol)-xk(O])\
k=1

3 Chebychev: = max
\<k<n

\xk(O1)-xk(O])\

4 Camberra:
n k=1

5 Funcin de Correlacin:
n

d(Oi,Oj) =
k=11

k=1 n k= n

donde A es el valor promedio para el atributo k en el conjunto de entrenamiento. 6 Distancia de Mahalanobis d(Oi, siendo E la matriz de covarianzas.

42

Tcnicas de Clasificacin no Supervisadas La distancia de Mahalanobis (1936), a diferencia de la distancia Eucldea, tiene en cuenta las correlaciones del conjunto de datos y no depende de la escala de las mediciones. En la literatura, se han propuesto diversas funciones para calcular la distancia entre objetos con atributos no numricos, por ejemplo en [Stanfill, 1986], [Wilson, 2000] y [Olvera, 2005].

4 Fundamentos Estadsticos
La teora de la probabilidad y los mtodos bayesianos son algunas de las tcnicas que ms se han utilizado en Reconocimiento de Patrones. Segn el conocimiento que se tiene acerca de la distribucin de los datos, se puede distinguir entre mtodos de clasificacin paramtricos y no paramtricos. En los mtodos de clasificacin paramtricos, se supone el conocimiento de la estructura estadstica de las clases y se modelan mediante funciones de densidad conocidas. En el caso no paramtrico, no se conoce a priori la forma funcional de las funciones de densidad y se trata de estimar sta, pues la nica informacin disponible es la suministrada por un conjunto de prototipos. En teora de las probabilidades, el teorema de Bayes es la regla bsica para realizar inferencias y viene representado por la siguiente expresin:

p(h/x)=p(x/h).p(h)
p(x)

donde, p(h) y p(x) son la probabilidad a priori de la hiptesis h y de las observaciones x, respectivamente y p(h| x) y p(x| h) las probabilidades condicionadas. A p(x| h) se le conoce como la verosimilitud (likelihood) de que la hiptesis h haya producido el conjunto de observaciones x y a p(h| x), probabilidad a posteriori. El teorema de Bayes nos facilita un mtodo sencillo y con una semntica clara para resolver el problema de la clasificacin pues si se conoce la probabilidad a posteriori de que un objeto x pertenezca a una clase, se decide escoger aquella que presente el mayor valor: xeC ,. si p(c i /x)>p(c j /x) \< j< M i j (2)

Este criterio constituye la regla de decisin de Bayes de error mnimo, sobre la cual se basan la mayora de los mtodos de clasificacin pertenecientes al Reconocimiento Estadstico de Formas, constituye un mtodo prctico para realizar inferencias a partir de los datos que facilitan la comprensin de los mismos.

43

Captulo 2 A continuacin, desarrollamos los aspectos tericos ms relevantes de los diferentes mtodos de agrupamiento.

5 Algoritmos Jerrquicos
Las estrategias jerrquicas (aglomerativas o divisivas) construyen una jerarqua de agrupamientos, representada tradicionalmente por un rbol llamado dendograma [Duda, 2001], [Jain, 1999]. En el caso de las tcnicas aglomerativas, el dendograma parte generalmente de grupos unitarios, hasta que algn criterio de parada se ejecute, o hasta conseguir el grupo formado por todos los puntos, mientras que las divisivas comienzan generalmente con todos los puntos en un cluster y van dividiendo en cada nivel dos grupos de acuerdo a algn criterio prefijado. Las estrategias jerrquicas aglomerativas ms conocidas basadas en distancias son Single Link (SL) [Sibson, 1973], Average Link (AL) [Voorhees, 1986] y Complete Link (CL) [Defays, 1977]. En cada nivel de la jerarqua, unen los dos grupos ms cercanos. Para unir grupos, la mtrica entre los puntos debe ser generalizada a los subconjuntos de puntos. Tal distancia afecta al resultado de los grupos porque ella refleja el concepto de cercana y conectividad. En SL, la distancia entre grupos se define como la distancia entre los dos elementos ms cercanos (uno de cada cluster) o, empleando terminologa de grafos, el enlace ms corto entre dos nodos en diferentes subconjuntos de nodos. En el caso del algoritmo AL, la distancia entre dos grupos es el promedio de las distancias entre todos los pares de puntos (uno de cada conjunto). Por ltimo, la distancia entre dos grupos en el CL es la mxima distancia entre los pares de puntos (uno de cada conjunto), es decir, en cada nivel se unirn los dos grupos cuya unin tiene dimetro mnimo o, empleando terminologa de grafos, el enlace ms largo entre dos nodos de diferentes subconjuntos de nodos. Luego, la medida de disimilaridad (usualmente, distancia) se calcula primeramente entre dos puntos, uno de un conjunto y otro de otro y, segn la estrategia entre grupos se denominan mnima distancia (single link), distancia promedio (average link) y mxima distancia (complete link). La Figura 2 ilustra estas estrategias.

Figura 2. Definiciones de proximidad entre clusters.

44

Tcnicas de Clasificacin no Supervisadas El algoritmo SL adolece de un efecto encadenante produciendo clusters de forma alargada y es sensible al ruido, mientras que CL produce clusters muy compactos y tiende a romper grupos. AL es menos susceptible al ruido y a los outliers. Otra estrategia jerrquica que se puede mencionar es el mtodo basado en centroides, que calcula la proximidad entre grupos como la similaridad entre los centroides de los grupos. En este caso, se van a unir los grupos cuyos centroides estn ms cercanos. A continuacin, describimos con ms detalles el funcionamiento de un algoritmo jerrquico aglomerativo basado en distancias. Algoritmo Jerrquico Aglomerativo Entrada: X> Conjunto de datos 17. Inicialmente, se ubican los puntos de Xen un cluster unitario. 18. Se calculan las distancias/disimilaridades entre todos los pares de puntos. 19. Se calcula la distancia entre todos los pares de grupos. 20. Se unen los dos grupos cuya distancia es mnima. 21. Se actualiza la matriz de las distancias entre grupos. 22. Si todos los puntos estn en un mismo cluster, terminar; sino, volver al paso 3.

Los algoritmos anteriormente descritos tienen como ventajas: 23. Flexibilidad con respecto al nivel de granularidad. 24. Se puede emplear cualquier funcin de distancia / disimilaridad. 25. Puede aplicarse a cualquier tipo de atributos. 26. Son simples de aplicar. Entre sus desventajas podemos mencionar: 27. No tiene definido un criterio de terminacin, aunque generalmente se toma el nmero de clusters. 28. No vuelven a visitar los clusters construidos para mejorarlos. 29. Son sensibles al ruido.
45

Captulo 2 El mtodo jerrquico de Ward [Ward, 1963], a diferencia de los anteriores, emplea un enfoque de anlisis de varianza para evaluar la similaridad entre los grupos. Trata de ir agrupando de modo que se minimice la varianza dentro de los grupos que se van a unir. La idea de este enfoque es que los puntos deben estar cercanos a la media de su grupo. En cada etapa, se calcula la varianza y se unen los dos grupos con el menor incremento en la varianza dentro de los grupos. En general, es un mtodo eficiente pero tiende a crear grupos de tamao pequeo. Todas esas funciones de cercana que emplean los mtodos anteriormente mencionados se pueden ver como una seleccin de parmetros en la frmula de Lance Wiliam [Lance, 1967]. Para la proximidad entre los clusters R y Q, donde R est formado por los dos clusters A y B que se han unido, o sea, despus que hemos unido los clusters A y B para formar el cluster R, es necesario calcular la distancia del nuevo cluster R al cluster existente Q; esto se hace a travs de una funcin lineal de las proximidades del cluster Q a cada uno de los clusters A y B segn se expresa en la frmula 3. d(R,Q) = aA d(A,Q) + aB d(B,Q) + p d(A,B) + y |d(A,Q) - d(B,Q)| donde d es la funcin de proximidad entre clusters. En la Tabla 1 se muestran los valores de los coeficientes para las tcnicas antes mencionadas, donde MA, MB y mQ son el cardinal del grupo A, B y Q, respectivamente. Mtodo de aA agrupamiento Single Link Complete Link Average Link Mtodo de Centroides Mtodo de Ward
to to to to

(3)

aB

p 0 0 0 - mA mB ()m
-m Q

mA mA A+mB mA mA A+mB m A+mQ mA + mB+mQ

mB mA+mB mB mA+mB mB+mQ mA+mB+ mQ

mA + mB+mQ

7/2
1/2
0 0

0 Tabla 1. Coeficientes de Lance William para los algoritmos aglomerativos.

El mtodo jerrquico divisivo, en particular el rbol de mnima expansin (MST, Minimum Spanning Tree) [Murtagh, 1983], [Zahn, 1971], es un rbol sin ciclos o un subgrafo que permite conectar todos los vrtices (puntos), de modo tal que la suma de las longitudes de los enlaces (distancia entre los puntos vrtice) sea 46

Tcnicas de Clasificacin no Supervisadas mnima. Estos rboles se emplean en redes de comunicacin y de transporte. Existen varias estrategias para obtener el MST, entre las que podemos mencionar el algoritmo de P R I M , el mtodo de Kruskal y el algoritmo de Baruvka. Se pueden encontrar en la bibliografa otros algoritmos jerrquicos ms recientes. Entre sus caractersticas se puede mencionar el empleo de estrategias mixtas, con el objetivo de disminuir las limitaciones de los algoritmos anteriores, es decir, emplean el enfoque aglomerativo con nuevas medidas de distancia entre grupos, medidas de separabilidad y conectividad o mezclados con otro enfoque de agrupamiento. A continuacin, mencionamos algunos de ellos. En [Guha, 1998], se introdujo el algoritmo jerrquico aglomerativo CURE (Clustering Using REpresentatives) que, adems, emplea una poltica mixta para el clculo de las distancias entre los clusters, entre la estrategia de los centroides, (calcular la distancia entre sus centros) y la estrategia de distancia mnima entre sus puntos. CURE va a considerar un nmero adecuado c de puntos representativos en cada cluster y, luego, la distancia entre los clusters es igual a la distancia mnima entre sus puntos representativos. Esta estrategia le permite detectar clusters de formas arbitrarias, es decir, no necesariamente esfricos o alargados. Emplea un dispositivo adicional para manejar el ruido: cada punto representativo es reducido hacia el centroide geomtrico del cluster por un factor a especificado por el usuario. Los c puntos representativos se escogen para capturar la forma de los clusters, y la contraccin en direccin al centro tiene el efecto de disminuir el ruido, puesto que ste estar lejos del centro. El parmetro a tambin sirve para capturar la forma de los clusters. El proceso jerrquico contina hasta que se alcanza un nmero k de clusters.

47

Captulo 2 Algoritmo CURE Entrada: X> conjunto de datos c nmero de puntos representativos a factor de contraccin k nmero de clusters 30. Inicialmente cada objeto pertenece a un cluster unitario. 31. Seleccin de c puntos representativos en cada cluster. 32. Contraer los puntos representativos hacia el centro geomtrico del cluster empleando el fator a. 33. Calcular la distancia entre los clusters como la distancia mnima entre los pares de puntos representativos. 34. Unir los dos clusters ms prximos. 35. Si hay k clusters, parar; si no, volver al paso 2.

CURE logra descubrir clusters de forma no esfrica y tiene especial cuidado con los outliers. Como CURE hace muestreo, no es importante hallar la complejidad; en general, para datos de baja dimensin, ser O(N2) donde N es el tamao de la muestra. Mientras el algoritmo CURE trabaja con datos de atributos numricos, particularmente datos espaciales de baja dimensionalidad, ROCK (RObust Clustering algorithm using linKs) [Guha, 1999] es un algoritmo jerrquico aglomerativo para atributos categricos. El algoritmo jerrquico aglomerativo Chameleon [Karypis, 1999] emplea modelos dinmicos en el agregado de los clusters. Chameleon tiene dos etapas: en la primera, se construyen clusters iniciales que sern el inicio de la segunda etapa, sta consiste en una estrategia de particionamiento de grafo, emplea el grafo de los k vecinos ms cercanos, es decir, las aristas de los k vecinos ms cercanos se conservan, las restantes se borran. En la segunda etapa, se desarrolla un proceso aglomerativo, define dos medidas para el agrupamiento de los clusters: la medida de interconectividad relativa (RI) y la de cercana relativa (RC), ambas son localmente normalizadas por cantidades relacionadas con los clusters, en este sentido el modelo es dinmico. La normalizacin envuelve ciertas operaciones de grafos no obvias, el particionamiento de grafo es implementado en la librera HMETIS. El proceso
48

Tcnicas de Clasificacin no Supervisadas aglomerativo depende de umbrales proporcionados por el usuario, y la decisin para unir depende de dos estrategias: en la primera, se unen dos clusters tales que RI y RC superen umbrales prefijados y la segunda, que RI*RCa supere un umbral prefijado (si a > 1, se concede mayor importancia a RC, si a < 1, se concede mayor importancia a RI, en otro caso, los dos tienen igual importancia). El algoritmo est diseado para encontrar clusters de diferentes formas, tamaos y densidades en espacios bidimensionales. El coste computacional es de O(Nm + Nlog(N + m 2log(N)), donde m es el nmero de clusters de la primera etapa. Otro algoritmo reciente aparece en [Fred, 2003], donde se integra un criterio de aislamiento de grupos en un algoritmo de agrupamiento jerrquico aglomerativo. En ste, se define el incremento de la disimilaridad o gap entre dos grupos Ci y Cj y se emplea el criterio de aislamiento siguiente: dados dos grupos d y Cj candidatos para unir, JUJ y p. sus respectivos valores medios de los incrementos de las disimilaridades en cada cluster, si gapi > ti (gapj > tj), aislar el cluster Ci (Q ) y continuar la estrategia de agrupamiento con el resto de los grupos. Si ninguno de los grupos excede el lmite del gap, unirlos. Emplea un umbral dinmico que va variando a lo largo del algoritmo y en dependencia del grupo Ci. El algoritmo comienza con cada patrn en un grupo, en cada nivel del algoritmo se determina el par de grupos ms similares segn si tienen los dos puntos ms similares entre los puntos de grupos diferentes y se aplica el criterio de aislamiento, los clusters son entonces o unidos o aislados (uno o ambos).

6 Algoritmos de Particin
Mientras los algoritmos jerrquicos construyen grupos gradualmente, los algoritmos de particin tratan de descubrir clusters reubicando iterativamente puntos entre subconjuntos. Por ejemplo, los mtodos k-Medias y el de k-Medoides (PAM, CLARA, CLARANS), tambin pueden tener un enfoque probabilstico (EM, autoClass, MClust). La funcin criterio ms frecuentemente usada en tcnicas de agrupamiento por particin es el error cuadrtico (squared error), que generalmente funciona bien con clusters compactos y bien separados. El error cuadrtico de un agrupamiento formado por k grupos se expresa mediante la frmula: (4)

49

Captulo 2 donde x y cj son el i-simo patrn y el centroide del j-simo cluster,

respectivamente. El algoritmo k-Medias (k-Means) [Mac Queen, 1967], [Hartigan, 1979] y [Chen, 1998] es uno de los ms simples y conocidos algoritmos de agrupamiento. Est basado en la optimizacin del error cuadrtico, que sigue una forma fcil para dividir una base de datos dada en k grupos fijados a priori. La idea principal es definir k centroides (uno para cada grupo) y, luego, ubicar los restantes puntos en la clase de su centroide ms cercano. El prximo paso es recalcular el centroide de cada cluster y reubicar nuevamente los puntos en cada grupo. El proceso se repite hasta que no haya cambios en la distribucin de los puntos de una iteracin a la siguiente. k-Medias (clsico) Entrada: X conjunto de datos k nmero de clusters 36. Seleccionar aleatoriamente k centros. 37. Repetir mientras haya cambios en la composicin de los grupos. 38. Asignar los ejemplos al cluster con centro ms cercano. 39. Calcular los nuevos centroides de los grupos. Algunos de los principales inconvenientes de estos esquemas son: 40. Fallan cuando los puntos de un cluster estn muy cercanos al centroide de otro grupo. 41. No obtienen buenos resultados cuando los clusters tienen diferentes formas y tamaos. 42. Son muy susceptibles al problema de la inicializacin. 43. Son muy sensibles a los outliers que pueden distorsionar gravemente el resultado. 44. Slo pueden emplearse en espacios de atributos numricos por la necesidad de calcular el punto medio. En la literatura, se han definido diferentes versiones difusas de mtodos basados en el error cuadrtico, entre ellos el Fuzzy C-Means [Bezdek, 1984]. El algoritmo Bisecting k-Means es una extensin del k-Means, basado en una idea simple: para obtener k grupos, se divide el conjunto de todos los puntos en dos

50

Tcnicas de Clasificacin no Supervisadas grupos y se selecciona uno de stos para dividirlo en dos utilizando el algoritmo kMeans, el proceso se repite hasta que hayan k clusters. Para escoger el cluster que se va a dividir, existen varias estrategias: escoger el cluster ms grande, escoger el que tiene asociado el ms grande error cuadrtico medio, o emplear un criterio con ambos, tamao y error cuadrtico medio. Otro mtodo que emplea una estrategia de particin similar al k-Means es el de los k-medoides (k-medoids). Los k-medoides son los puntos del conjunto de datos ms representativos de cada grupo. La representacin por A>medoides tiene dos ventajas: no tiene limitaciones sobre el tipo de atributos y la seleccin de los medoides se hace segn su localizacin en una porcin significante de un grupo, y por tanto, es menos sensible al ruido que k-Means. Los algoritmos PAM (Partitioning Around Medoids), CLARA (Clustering LARge Applications) y CLARANS (Clustering Large Applications based upon RANdomized Search) emplean este mtodo. El algoritmo PAM [Kaufman, 1990] emplea una alternativa diferente a la de centroides, en su lugar toma una instancia real perteneciente a la base de datos a la que llama medoide. Para seleccionar los medoides de los clusters, emplea una funcin de optimizacin. Obtiene mejores resultados que k-Means porque minimiza una suma de distancias en lugar de una suma de cuadrados; desarrolla la misma estrategia de ubicacin de los puntos que k-Means. Es ms robusto que k-Means ante ruido y outliers pero es lento en bases de datos grandes, lo que origin la aparicin del algoritmo CLARA. CLARA [Kaufman, 1990] se basa en muestreos. Los medoides son escogidos de la muestra usando PAM, minimiza la funcin de disimilaridad promedio del agrupamiento para retener los medoides en una de las muestras, de entre todas las muestras seleccionadas. CLARANS [Ng, 1994] es una mezcla de PAM y CLARA, trabaja sobre muestras de la base de datos. Para disminuir la complejidad, considera los vecinos de los medoides como candidatos a ser nuevos medoides e itera varias veces tomando distintas muestras en cada vuelta, con el objetivo de evitar la posible seleccin de malas muestras. Emplean un grafo cuyos nodos son el conjunto de k medoides, y dos nodos se conectan si difieren de exactamente un medoide. La complejidad es O(N2). Las estrategias CLARA y CLARANS tienen entre sus limitaciones la dependencia del resultado del agrupamiento del orden en que se presentan los objetos y tienden a crear grupos esfricos. Otra de las estrategias basadas en particin se refiere a los mtodos probabilsticos. stos asumen que los datos vienen de una mixtura de varias 51

Captulo 2 poblaciones cuyas distribuciones y probabilidades a priori deseamos encontrar; una ventaja que brindan estos modelos es la fcil interpretacin de los grupos obtenidos. El algoritmo EM (Expectation Maximization) propuesto por [Dempster, 1977] sobre mixturas multimodales es uno de los representantes de esta clase de algoritmos. Es una optimizacin iterativa en dos pasos: en el paso E (Expectation), estima las densidades de probabilidad )p(x/Cj, donde Cj son los diferentes modos, mientras que en el paso M (Maximization), encuentra una aproximacin a un modelo de mixtura. El proceso se repite hasta que se alcanza el criterio de convergencia de la log-verosimilitud (log- likelihood). Como resultado se obtienen los parmetros que maximizan la log-verosimilitud. Ms detalles de este algoritmo se pueden ver en el Anexo B. Este algoritmo tiene varias limitaciones: 45. Es un mtodo local, por tanto, es sensible a la inicializacin. 46. Puede converger a la frontera del espacio de parmetros donde la verosimilitud es no acotada, llevando a estimaciones sin sentido. 47. Si el nmero de componentes es muy grande, puede sobre-entrenar los datos, pues stos son incompletos y, por tanto, se puede obtener una forma ms irregular de lo que en realidad es, mientras que una mixtura con pocas componentes no es lo suficientemente flexible para aproximar al verdadero modelo. 48. La finalizacin tambin es una limitacin, pues llega el momento donde el proceso deja de evolucionar por lo que se supone que alcanza la localizacin ptima, pero esto no nos asegura la verdadera optimizacin pues lo que se obtiene es un mnimo local. El algoritmo que se describe en [Figueiredo, 2002] trata de reducir las limitaciones antes mencionadas. Comienza por un valor de k grande, con el que obtiene buenos resultados, debido a que emplean la variante de considerar solamente las componentes de probabilidad no nula para obtener los estimados de los parmetros; adems, es ms robusto al problema de la inicializacin.

7 Algoritmos Basados en Densidad


Los algoritmos basados en densidad localizan zonas de alta densidad separadas por regiones de baja densidad.

52

Tcnicas de Clasificacin no Supervisadas DBSCAN (Density Based Spatial Clustering of Aplications with Noise) [Ester, 1996] es uno de los primeros algoritmos de agrupamiento que emplea este enfoque. Comienza seleccionando un punto t arbitrario, si t es un punto central, se empieza a construir un cluster alrededor de l, tratando de descubrir componentes denso-conectadas; si no, se visita otro objeto del conjunto de datos. Puntos centrales (core points) son aquellos tales que en su vecindad de radio Eps, hay una cantidad de puntos mayor o igual que un umbral MinPts especificado. Un punto borde o frontera tiene menos puntos que MinPts en su vecindad, pero pertenece a la vecindad de un punto central. Un punto ruido (noise) es aquel que no es ni central ni borde. La Figura 3 ilustra cada uno de esos conceptos: si MinPts es mayor o igual a 4 y menor o igual a 6, A es un punto central, B es un punto borde y C es un punto ruido.

Figura 3. Definiciones de punto central, borde y ruido.

Un punto q es directamente denso-alcanzable desde otro punto t (con relacin a los parmetros MinPts y Eps) si t es un punto central y q pertenece a la vecindad de t. Un punto q es denso-alcanzable desde un punto t si existe una cadena de puntos t0, t1 ... tm, tales que t_] es directamente denso-alcanzable desde tu 1 <i <m, t0 = qy tm = t. En consecuencia, los puntos centrales estn en regiones de alta densidad, los puntos borde en la frontera de regiones densas y los puntos ruido en regiones de baja densidad. Este algoritmo busca clusters comprobando la vecindad de cada punto de la base de datos y va aadiendo puntos que son denso-alcanzables desde un punto central.

53

Captulo 2 Algoritmo DBSCAN Entrada: X> conjunto de datos Eps radio de la vecindad de cada punto MinPts nmero mnimo de puntos en una vecindad 49. Seleccionar aleatoriamente un punto t. 50. Si t es un punto central se forma un grupo alrededor de t con todos los puntos denso-alcanzables desde t. 51. Si t es un punto borde o ruido, se visita otro punto. 52. Si todos los puntos han sido visitados, terminar; si no, volver al paso 1.

Entre sus ventajas se pueden mencionar: 53. Descubre clusters de formas arbitrarias. 54. Trata el ruido. 55. Es de una sola pasada. 56. Genera automticamente el nmero de clusters. Entre sus limitaciones: 57. Es sensible a los parmetros. 58. No es bueno para datos de alta dimensionalidad, grupos de diferentes densidades y grupos muy solapados. En general, DBSCAN puede manejar clusters de formas y tamaos diferentes, pero tiene limitaciones cuando los clusters estn muy solapados y en presencia de ruido. La complejidad en el peor de los casos es O(N2). La motivacin para la realizacin del algoritmo OPTICS (Ordering Points to Identify the Clustering Strusture) [Ankerst, 1999] se basa en la necesidad de introducir parmetros de entrada en casi todos los algoritmos de agrupamiento existentes, que en la mayora de los casos son difciles de determinar. En conjuntos de datos reales, no existe una manera de determinar estos parmetros globales, por lo que trata de resolver este problema basndose en el esquema del algoritmo DBSCAN, creando un ordenamiento de la base de datos para representar la estructura del agrupamiento basada en densidad. Adems, puede hacer una representacin grfica del agrupamiento incluso para conjuntos de datos grandes.

54

Tcnicas de Clasificacin no Supervisadas La regla de clasificacin de los K vecinos ms cercanos (K-NN) ha sido extensamente empleada en mtodos de clasificacin supervisada [Vzquez, 2005] y [Vazquez, 2008]. En [Thanh, 2003], se propone utilizar la regla como estrategia basada en densidad, para tratar bases de datos de alta dimensionalidad (por ejemplo, imgenes de satlites). El algoritmo comienza asignando cada punto a un cluster individual, luego los puntos se van asignando a uno de los grupos segn la regla KNN, terminando el proceso cuando en dos iteraciones sucesivas ninguno de los objetos cambia de grupo. El algoritmo DENCLUE (DENsity-based CLUstEring), propuesto en [Hinneburg, 1998], es un algoritmo en dos fases. En la primera, divide el hiperrectngulo del conjunto de datos en hipercubos de aristas de longitud 2er, determina los hipercubos ms poblados y los hipercubos que estn conectados. En la segunda fase, considera slo los hipercubos ms poblados y los conectados a hipercubos ms poblados. Posteriormente, para determinar los grupos, evala la funcin de densidad que define en cada uno de los puntos x de los hipercubos ms poblados, pero considerando slo aquellos puntos tal que su distancia al centro del hipercubo al que x pertenece sea igual o menor que 4er, luego halla el gradiente y el atractor de densidad de x para el que la funcin de densidad sea mayor o igual que un valor prefijado, y clasifica a cada punto en la clase de su atractor. Con este algoritmo se obtiene el nmero de clusters de manera automtica. Entre sus ventajas se pueden mencionar: 59. Logra buenos agrupamientos en bases de datos con puntos ruidosos. 60. Es significativamente ms rpido que otros algoritmos de agrupamiento. Entre sus limitaciones est el problema de la seleccin de sus parmetros o y con o determina la influencia de un punto en su vecindad y es el umbral de densidad.

8 Agrupamiento Basado en Caminos


Los algoritmos de agrupamiento basados en camino (Path Based Clustering) funcionan bajo la idea de asignar dos objetos a un mismo cluster si se encuentran conectados a un mismo camino de modo tal que la similaridad entre dos objetos adyacentes de dicho camino sea alta. Esta estrategia est inspirada en la existencia de bases de datos cuyos grupos constituyen regiones alargadas, tales como espirales y crculos. Desarrolla una

55

Captulo 2 estrategia como el SL pero, a diferencia de sta, evala la posibilidad de unir dos grupos mediante una funcin de coste. En [Fisher, 2002], se presenta una estrategia basada en caminos con una optimizacin aglomerativa que emplea un algoritmo recursivo, parecido al rbol de mnima expansin de Kruskal para calcular la funcin de coste. La funcin de coste que emplea es la siguiente:
1
ve{l,...,k}\Ov( "^

e f

(5)

donde (6)

es la disimilaridad efectiva entre los objetos oi y oj. En la estrategia SL, por ejemplo, dos objetos oi y oj se asignaran al mismo cluster si su disimilaridad Ay es pequea. Este concepto se generaliza asumiendo que la disimilaridad entre objetos se puede comportar de manera transitiva. Por tanto, se pueden considerar todos los caminos (paths) del objeto oi al objeto oj, donde todos los objetos sobre un camino que conecta a los objetos oi y oj, pertenecen al mismo cluster que stos. La disimilaridad que existe en un camino en particular se define por medio de la mxima disimilaridad en ese camino, y la disimilaridad efectiva entre dos objetos, se calcula mediante el mnimo sobre todas las distancias de los caminos que unen a oi y oh tal como se ve en la frmula (6). Los costes de los clusters se definen a travs de la expresin (7):

o iOv

El algoritmo comienza con tantos clusters como puntos de la base de datos, o sea, con N clusters unitarios. Inicialmente, el coste de cada cluster es nulo. Se visitan todas las disimilaridades entre los pares de objetos en forma creciente, si aparece una disimilaridad tal que los respectivos objetos estn en clusters diferentes, sta es la disimilaridad efectiva para cada par de objetos de los dos respectivos subconjuntos a los que pertenecen los puntos. La multiplicacin de este valor de disimilaridad por el cardinal del primer conjunto y el cardinal del segundo conjunto se suma al coste

56

Tcnicas de Clasificacin no Supervisadas interno del posible cluster a obtener por medio de la unin de esos dos. Si queda solamente un subconjunto, se calcula el coste interno. El algoritmo se puede resumir en la siguiente forma: Algoritmo Path Based Clustering Entrada: X> Conjunto de datos k nmero de clusters 61. Inicialmente, se ubican los puntos de X en un cluster unitario. 62. Se calculan las distancias / disimilaridades entre todos los pares de puntos. 63. Se ordenan las distancias. 64. Se calculan las disimilaridades efectivas y la funcin de coste para cada par posible de grupos a unir. 65. Se unen los dos grupos tal que el valor de la funcin de coste sea mnimo. 66. Si existen k clusters terminar; sino volver al paso 5.

Este enfoque, como se dijo antes, es efectivo cuando los objetos de los grupos forman estructuras alargadas, ya que da la posibilidad de construir caminos que enlazan puntos de un mismo cluster sin incrementar demasiado el coste de unirlos. Sin embargo, tiene las siguientes limitaciones: 67. No es funcional en bases de datos de diversas formas. 68. No detecta bien los grupos si hay solapamiento, precisamente por el efecto encadenante de los caminos, puesto que se crearan caminos entre objetos de grupos diferentes debido a la cercana de las clases solapadas. 69. Es sensible al ruido. 70. Requiere un tiempo de ejecucin de O (N3 log N), donde N es el nmero de objetos. En relacin al ruido, en el trabajo [Fisher, 2003a], los mismos autores proponen una estrategia para manejar el ruido, incorporando a la funcin de coste un

57

Captulo 2 trmino para los outliers, pero ste depende de un umbral; por tanto, incorpora un nuevo parmetro al algoritmo, que a su vez es difcil de determinar.

9 Estrategias de Co-ocurrencias
La idea de los mtodos de co-ocurrencia para datos categricos considera que el concepto de similaridad por s solo no es suficiente para agrupar este tipo de datos. El enfoque de los vecinos ms cercanos compartidos fue introducido primero en [Jarvik, 1973]. Los algoritmos ROCK y SNN emplean, adems de la similaridad, el concepto de vecinos compartidos. La motivacin para la creacin del algoritmo SNN (vecinos ms cercanos compartidos, Shared Nearest Neighbors) [Ertoz. 2003] es la existencia de bases de datos de alta dimensionalidad como textos y series temporales, as como la existencia de grupos de diferentes formas y tamaos. Primero, halla los K vecinos ms cercanos de cada punto, construye un grafo de modo tal que dos puntos son conectados si ambos pertenecen mutuamente a la lista de sus vecinos ms cercanos y redefine la similaridad entre pares de puntos como el nmero de vecinos ms cercanos que comparten. Para calcular los pesos del grafo, tiene en cuenta el orden de los vecinos ms cercanos. Define los puntos centrales y alrededor de ellos forma los clusters. Este algoritmo no agrupa todos los puntos, como parte de una estrategia que emplea para eliminar los puntos ruido (outliers). Encuentra de manera natural el nmero de clusters. Esta estrategia de vecinos compartidos tiene buenos resultados en el caso de grupos separados, pero en el caso en que haya ruido o puntos de grupos diferentes muy cercanos, se podran mezclar puntos de diferentes grupos en un mismo cluster. El algoritmo ROCK (Robust Clustering algorithm for Categorical Data) [Guha, 1999] tiene rasgos communes con CURE, es un algoritmo jerrquico que realiza un proceso aglomerativo hasta que se obtienen k clusters y realiza muestreo. Utiliza una funcin de semejanza y una funcin objetivo dependiente de las similaridades y considera dos puntos vecinos si su similaridad supera un umbral prefijado.

10 Otras Estrategias
Algunos algoritmos trabajan con datos indirectamente, construyendo resmenes de datos sobre subconjuntos del espacio de los atributos, ellos realizan una segmentacin del espacio y se suelen llamar Mtodos basados en Rejillas.

58

Tcnicas de Clasificacin no Supervisadas Frecuentemente usan una aglomeracin jerrquica como una de sus fases de procesamiento, como por ejemplo los algoritmos GRIDCLUST [Schikuta, 1996] y BANG [Schikuta, 1997] que sortean los bloques de acuerdo a su densidad y unen bloques adyacentes en el hiperespacio (n - 1)-dimensional. Esta metodologa basada en rejillas tambin se usa como un paso intermedio en otros algoritmos como DENCLUE (mencionado antes) y CLIQUE (Clustering In Quest) [Agrawal, 1998] tambin basados en densidad, CLIQUE tiene como limitacin la complejidad temporal exponencial en relacin a la dimensin de los datos. MAFIA (Merging of Adaptive Finite Intervals) [Goil, 1999] es una variante del algoritmo CLIQUE, construye un histograma de la cantidad de puntos en cada segmento en que divide cada una de sus dimensiones, pero su coste temporal tambin depende exponencialmente de la dimensin del espacio de los puntos. En [Xiao, 2005], se propone un algoritmo basado en la regla K-NN y DENCLUE, empleando el esquema de DENCLUE como algoritmo de agrupamiento y la regla K-NN para determinar los parmetros globales del algoritmo DENCLUE. Otros trabajos emplean tcnicas de multiclasificadores, como en [Fred, 2002] y [Fred, 2005], donde aparece un algoritmo en dos etapas: en la primera, realiza divisiones en k clusters del conjunto de datos empleando el algoritmo k-Means; en la segunda etapa, emplean la tcnica SL. Para esto, toma la co-ocurrencia de todos los pares de patrones en un mismo cluster como votos para su asociacin, bajo la idea de que si dos patrones pertenecen a un mismo cluster, ellos sern colocados en el mismo grupo en diferentes agrupamientos. Los patrones que no pertenezcan a ningn grupo forman clusters unitarios. El agrupamiento espectral (Spectral Clustering) es otra tcnica que se emplea para construir particiones de un grafo basada en la bsqueda de los vectores propios de la matriz de adyacencia. Trabajos como los de [Shi, 2000] y [Meila, 2001b] aparecen en la bibliografa consultada. Dado un conjunto de datos, se construye un grafo de similaridad, se hallan los primeros k (nmero de clusters) vectores propios de la matriz Laplaciana y se forma una matriz cuyas columnas estn formadas por los vectores propios, para luego agrupar utilizando el algoritmo k-Means los objetos que forman las filas de dicha matriz. Esta estrategia no hace suposiciones acerca de la estructura de los grupos, contrario al k-Means que asume clusters convexos, sin embargo, depende del grafo de similaridad escogido por lo que puede ser inestable para diferentes selecciones de los parmetros del grafo de vecindad.

59

Potrebbero piacerti anche