Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Fernn Agero
El agrupamiento de datos consiste en la clasificacin de objetos diferentes grupos, de manera que objetos similares son agrupados en el mismo grupo. Otra definicin: particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan algo en comn.
El problema: cuantificar algo en comn Proximidad Similitud
Abstracts en PubMed
Ej: Agrupar abstracts en base a nmero de palabras compartidas
Marcadores morfolgicos
Ej: Puntos fluorescentes en una imagen de microscopa (por ej para delinar una membrana o cualquier otra estructura celular)
O todo a la vez
Vectores multidimensionales
3 Fernn Agero
Vectores multidimensionales Ejemplo: un vector por gen Conteniendo informacin para: Presencia ausencia de seales (motivos) Niveles de expresin en distintos tejidos Informacin sobre interacciones (protein-protein) Etc.
Fernn Agero
Fernn Agero
Feature selection: Identificar en el dataset el subset de caractersticas (features) ms informativo para agrupar objetos La manera de representar una caracterstica afecta directamente a las medidas de similitud Hay muchas maneras de medir proximidad (distancias). En general se calculan distancias de a pares, para todos los objetos a agrupar
Pattern representations:
Pattern proximity:
Clustering:
Objetivo
Clustering algorithm
Original data
Clustered data
Fernn Agero
Objetivo del algoritmo Minimizar la distancia intracluster Maximizar la distancia entre clusters
Cluster curvilineo, donde los puntos estn mas o menos equidistantes del origen. Jain AK, Murty MN, Flynn PJ (1999) Data clustering: a review.
10
Fernn Agero
11
Fernn Agero
Several sets of (x, y) points, with the Pearson correlation coefficient of x and y for each set. Note that the correlation reflects the noisiness and direction of a linear relationship (top row), but not the slope of that relationship (middle), nor many aspects of nonlinear relationships (bottom). N.B.: the figure in the center has a slope of 0 but in that case the correlation coefficient is undefined because the variance of Y is zero. http://en.wikipedia.org/wiki/Correlation
12 Fernn Agero
13
Fernn Agero
Aglomerativo
Divisible
Aglomerativo
Divisible
Single-linkage, Complete-Linkage, Average-Linkage Jerrquicos Aglomerativos Si hay un error en algn paso no se puede volver atrs
Hierarchical clustering
Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N:
d 1 2 3 4 5
1 0 5 6 10 13
2 5 0 1 5 8
3 6 1 0 4 7
4 10 5 4 0 3
5 13 8 7 3 0
Tenemos 5 clusters
En este paso, las distancias entre los clusters son las mismas que entre los elementos de cada cluster
d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
Hierarchical clustering
Hierarchical clustering
Calcular las distancias entre el nuevo cluster y los viejos clusters
4
5
10
13
5
8
4
7
0
3
3
0
13
Hierarchical clustering
En el algoritmo complete-linkage la distancia que se usa en la nueva matriz es la mxima entre distintos elementos de un cluster Los elementos se agrupan siempre encontrando la mnima distancia en la matriz
Y en average-linkage?
d 1 2 3 1 0 5 6 2 5 0 1 3 6 1 0 4 10 5 4 5 13 8 7 2-3 4 6 10 0 5 5 0 d 1 1 0 2-3 6 4 10 5 13
8
3
4
5
10
13
5
8
4
7
0
3
3
0
13
Single-linkage
Repetir los pasos 2 y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamao N (5)
Single-link
Complete-link
Ejemplo: dataset compuesto por elementos pertenecientes a dos clases, conectadas por una cadena de datos ruidosos. Tomado de Jain AK, Murty MN, Flynn PJ (1999) Data clustering: a review.
26 Fernn Agero
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletH.html
Otras Variantes
Hierarchical clustering techniques applied to phylogenetic reconstruction: UPGMA (Unweighted Pair Group Method with Arithmetic Mean) Usado para reconstruir filogenias Usa la media aritmtica (average-link) Distancias ultramtricas Neighbor-joining Usado para reconstruir filogenias Usa la media aritmtica Las distancias son aditivas
28
Fernn Agero
Es muy rapido! Particional Usa Distancia eucldea Necesita el valor de k (Nro de clusters) Util para bsqueda de prototipos Sensible a outliers
K-means
Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo
K-means
K-means
K-means
K-means
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html
Clustering: hay que analizar los resultados! Dado un set de datos al azar, sin ninguna estructura, los algoritmos de clustering siempre encuentran agrupamientos!
35
Fernn Agero
SI = 1 means element is well placed in its cluster SI = 0 means element might well be placed in another cluster
36
Fernn Agero
37
Fernn Agero
Final Agradecimientos: Dra. Roco Romero Zaliz (Departamento de Ciencias de la Computacin e Inteligencia Artificial, Universidad de Granada)
Bibliografa adicional:
Jain AK, Murty MN, Flynn PJ (1999) Data clustering: a review. (PDF disponible en la pgina de la materia) Witten IH, Frank E, Hall MA (2011) Data Mining: Practical Machine Learning Tools and Techniques, 3rd Edition.
38
Fernn Agero
Filogenia
Una filogenia es un rbol que describe la secuencia de eventos que llev a producir los caracteres que observamos en la actualidad Es una hiptesis! Los eventos pasados son desconocidos. Se infieren Un rbol es un grafo
Nodos y ejes
En particular:
Los nodos exteriores (hojas del rbol) son los eventos observados (especies actuales) Los nodos internos son los eventos (ancestros) postulados La longitud de los ejes (ramas) representa el tiempo de evolucion entre nodos
1 40
Fernn Agero
7
1
10,395
954
1 4 1 1 4
4 2
3 2 3 2 3 2 3
Basados en
Distancias Parsimonia Verosimilitud (likelihood)
42
Fernn Agero
Caracteres y estados
Los caracteres deben evolucionar en forma independiente Los estados observados comparten un origen comn
Para secuencias de ADN un caracter corresponde a una posicin en la secuencia y los estados posibles, son los nucletidos A, T, C, G.
43 Fernn Agero
Tipos de caracteres
MORFOLGICOS
Medidas Corporales Medidas Parciales Presencia de estructuras
MOLECULARES
Hibridacin DNA-DNA RFLP Secuencias (DNA Protenas)
CONTINUOS
Medidas Corporales Medidas Parciales Hibridacin de DNA-DNA
DISCRETOS
Presencia de estructuras RFLP Secuencias (DNA Protenas)
Matriz de caracteres
1 2 3 4 5 6 7 8 9 1 A A G A G T G C A
2 A G C C G T G C G
3 A G A T A T C C A 4 A G A G A T C C G
Sp. 1 Sp. 1 Sp. 2 Sp. 3 Sp. 4 0 4 5 6 0 5 4 0 2 0 Sp. 2 Sp. 3 Sp. 4
45
Fernn Agero
Algoritmos basados en distancias Los pares de secuencias ms cercanos (neighbors) comparten un ancestro comn y estn unidos a l por ramas El objetivo del mtodo es encontrar un rbol que acomode a todos los vecinos correctamente El largo de las ramas tiene que concordar con los datos de distancia Usan mtodos de clustering para agrupar vecinos
46
Fernn Agero
Sp. 2
Sp. 3
Sp. 4 1 2 4 4 2 1 3
6 2 1
Sp. 4
Ultramtricas
Cada ancestro comn est equidistante de sus descendientes Util para visualizar similitud en contextos no evolutivos
48
Fernn Agero
Mxima parsimonia
Predicen el rbol (o rboles) que minimizan el nmero de cambios (o pasos) que es necesario hacer para generar la variacin observada entre las secuencias Tambin conocido como mtodo de evolucin mnima
1
1 2 3 4 A A A A
2
A G G G
3
G C A A
4
A C T G
5
G G A A
6
T T T T
7
G G C C
8
C C C C
9
A G A G
Ejemplo
Para ser informativo un sitio debe tener dos estados presentes en al menos dos especies Sitios no informativos: 1, 2, 3, 4, 6 y 8 Sitios informativos: 5, 7 y 9 Slo se analizan los sitios informativos
Tree I
G A
2 1
G G
4 2
Hay 3 rboles posibles (sin raz) para describir la evolucin de 4 especies Menor nmero de cambios para explicar la evolucin: rbol 1 (1 cambio) El mismo anlisis se repite para cada uno de los sitios informativos El resultado es el rbol que provee el menor nmero de pasos para acomodar los datos en los sitios informativos (el ms parsimonioso)
Tree II
A A
3 1
A G
4 2
Tree III
A A
4
50
3
Fernn Agero
Mxima parsimonia: detalles Asume que la velocidad de evolucin es similar en todas las ramas
La inferencia obviamente falla cuando esto no se cumple Ejemplo: cambio de G a A en forma independiente en dos especies Especie 1: G > A Especie 2: G > C > T > G > C > A
A diferencia de los mtodos de distancia, el mtodo permite obtener la secuencia postulada de cualquier ancestro
51
Fernn Agero
Maxima verosimilitud
Maximum likelihood
Similar al mtodo de mxima parsimonia: usa todas las columnas del alineamiento, considera todos los rboles posibles Usa probabilidades
85
1 53
Fernn Agero
54
Fernn Agero
Gene Duplication
Speciation events
1A
2A
3A
3B
2B
1B
55
Fernn Agero
Gene Duplication
Speciation events
1A
2A
3A
3B
2B
1B
56
Fernn Agero
Hill-climbing
57
Fernn Agero
PAUP
Similar a Phylip. Comercial. Interfase grfica, linea de comando.
PhyML
Maximum likelihood
58
Fernn Agero