Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ADN
Qu es un modelo?
Es una abstraccin de la realidad
que nos facilita el estudio de un
fenmeno o problema.
Un modelo no es un algoritmo
Como veremos ms adelante, para un
mismo modelo pueden plantearse
varios algoritmos.
Modelos para el
ensamblamiento de ADN
Plantearemos tres modelos tericos.
1. Shortest Common Superstring
2. Reconstruction
3. Multicontig
Cada uno plantea distintas restriccin
sobre los fragmentos.
Se asume que las muestras estn libres
de contaminacin.
Primer Modelo:
Shortest Common Superstring
Tiene principalmente inters terico
pues no es muy til en la realidad.
Plantea muchas restricciones:
Los fragmentos no deben tener errores
Deben estar orientados correctamente
Pero no modela:
Repeticiones
Falta de cubrimiento
Reconstruction:
Definiciones
Para entender como este modelo
considera los errores debemos contar
con algunas definiciones previas.
Distancia de edicin (o edit
distance)
Distancia de edicin de substrings
(o substring edit distance)
Substring aproximado
Distancia de Edicin
Dadas dos cadenas a y b, llamaremos
distancia de edicin, y lo notaremos
d(a, b), a la cantidad de inserciones,
deleciones y/o substituciones que
deben realizarse sobre las cadenas
para que valga a = b.
Ejemplo: d(ACTGT, AGGT) = 2
pues ACTGT = ACTGT
Substitucin Insercin
Distancia de Edicin de
Substrings
Dadas dos cadenas a y b, llamaremos
distancia de edicin de substrings a:
d s (a, b) min d (a, s)
sS ( b )
ds ( f , S ) f
donde |f| es la longitud del string f.
Por ejemplo: si = 0.05, permitiremos que f difiera en a lo sumo un
5% con el substring ms cercano en S.
Reconstruction: Definicin
Dado un conjunto de strings F y una cota de error
entre 0 y 1, hallar un string S de longitud mnima tal
que para todo string f en F
min d s ( f , S ), d s ( f , S ) f
Falta de cubrimiento
f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
Diremos que dos fragmentos f y g se solapan (y lo
llamaremos overlap) si comparten una o ms
columnas en el layout. Es decir, si ambos string se
intersecan.
f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
Podemos separar los overlaps en dos
categoras:
Los que producen un enlace. (f3 f4)
y los que no lo producen. (f2 f5)
f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
El enlace ms dbil (weakest link) es
aqul overlap con menor longitud que
produce un enlace.
Diremos que un layout es un t-contig si el
enlace ms dbil que posee tiene longitud
t.
Si es posible obtener un t-contig de un
conjunto de fragmentos F, diremos que F
admite un t-contig.
Multicontig: Definicin I
Libre de Errores
Dado un conjunto de strings F y un entero t,
particionar F en el mnimo nmero de
subconjuntos Ci, 1 i k, tal que cada Ci
admita un t-contig.
Multicontig: Ejemplos
Dado F = {GTAC, TAAG, TGTAA}
Si t = 3
T A A T G G T A C
T G T A A
Si t = 2
T A A T G G T A C
T G T A A
Si t = 1
T G T A A
T A A T G
G T A C
Multicontig: Contemplando
errores
Si se admiten errores en el
acoplamiento, se debe obtener una
cadena por consenso que ser el
resultado del ensamblamiento.
Diremos que S es una cadena
-consensuada de F si, para cada
cadena f en F, la distancia de edicin
entre f y su imagen en S es | f |.
Multicontig: Contemplando
errores
Por ejemplo: S es una cadena 0.20
consensuada con respecto a F.
f1: C T T C T A
f2: T G T T G T T
f5: G T A G T
S C T T G T A G T T
Multicontig: Definicin II
Admitiendo de Errores
Dado un conjunto de strings F, un entero t 0 y
una tolerancia de error entre 0 y 1,
particionar F en el mnimo nmero de
subconjuntos Ci, 1 i k, tal que cada Ci
admita un t-contig con un consenso .
Multicoting: Resumen
Admite repeticiones en algunos
casos.
Admite errores experimentales
Modela la orientacin desconocida
Es un problema NP-Hard.
Repaso de Grafos
Los grafos son artefactos
matemticos que permiten
expresar de una forma
visualmente sencilla y efectiva
las relaciones que se dan entre
elementos de muy diversa ndole.
Repaso de Grafos
Un grafo simple est formado
por dos conjuntos:
Un conjunto V de puntos
x
llamados vrtices o nodos.
Un conjunto E de pares de
vrtices que se llaman aristas o x y
arcos y que indican qu nodos
estn relacionados.
Notacin: G(V,E)
Repaso de Grafos
A los ejes se les puede asignar
8
un peso. Notacin: w(x,y) x y
Si hay ms de un arco
hablamos de un multigrafo x y
a 0
b
0
2
0 0 1 1 0
0
c 1
d
0
Representado el problema
como un grafo
Ejemplo:
F={TACGA, ACCC, CTAAAG, GACA}
a b c d
1
a b
2
1
1
c 1
d
Representado el problema
como un grafo
Ejemplo:
F={TACGA, ACCC, CTAAAG, GACA}
a b c d
1 1
a b a b
2 2
1 1
1 1
c 1
d c 1
d
S1= TACGACCCCTAAAGACA
S2= TACGACACCCTAAAG
Representado el problema
como un grafo
Problema:
Encontrar el superstring mas corto.
Esto es equivalente a encontrar un
camino hamiltoniano mximo dentro
del grafo. Este problema es NP-
Completo