Sei sulla pagina 1di 42

Modelos para el estudio de

ADN
Qu es un modelo?
Es una abstraccin de la realidad
que nos facilita el estudio de un
fenmeno o problema.
Un modelo no es un algoritmo
Como veremos ms adelante, para un
mismo modelo pueden plantearse
varios algoritmos.
Modelos para el
ensamblamiento de ADN
Plantearemos tres modelos tericos.
1. Shortest Common Superstring
2. Reconstruction
3. Multicontig
Cada uno plantea distintas restriccin
sobre los fragmentos.
Se asume que las muestras estn libres
de contaminacin.
Primer Modelo:
Shortest Common Superstring
Tiene principalmente inters terico
pues no es muy til en la realidad.
Plantea muchas restricciones:
Los fragmentos no deben tener errores
Deben estar orientados correctamente

La secuencia buscada no debe tener


repeticiones
SCS: Definicin
Dado un conjunto de strings F, hallar un string
S de longitud mnima tal que para todo string f
en F, f es substring de S.
Notar que S debe ser un superstring perfecto, por lo que no permites
errores experimentales.
Se debe conocer la orientacon de cada string f.
SCS: Ejemplo
F = {ACT, CTA, AGT}
S = ACTAGT
A C T
C T A
A G T
S = A C T A G T
SCS: Repeticiones
Supongamos que secuenciamos la
siguiente cadena de nucletidos
S = ACTTGTAAGGTTGTTAAG
de la cual obtenemos los siguientes
fragmentos
F = {ACTT, TTGTAA, AAGGT,
TTGT, GTT, TTAG}
SCS: Repeticiones (Cont.)
Segn este modelo, el resultado de hallar el
SCS de F sera:
A C T T
T T G T A A
A A G T
T T G T
G T T
T T A G
S = A C T T G T A A G T T A G
SCS: Resumen
No admite repeticiones
No admite errores experimentales
Se debe conocer la orientacin de
los fragmentos.
Es un problema NP-Hard.
No resulta prctico para aplicaciones
reales debido a la gran cantidad de
restricciones y limitaciones.
Qu significa NP-Hard?
NP-Completo se refiere a una familia
de problemas de decisin para los
cuales no se conoce una solucin
polinomial.
Los problemas de decisin son
aquellos para los que se espera una
respuesta del tipo s o no.
Qu significa NP-Hard?
En el caso del TSP, el problema
sera:
Existe un camino que pase por
todas las ciudades exactamente una
vez recorriendo una distancia menor
a 500 Km.?
La respuesta esperada es
simplemente s o no.
Qu significa NP-Hard?
Un problema HP-Hard es el
problema de optimizacin asociado a
un problema NP-Completo.
En nuestro caso:
Cul es el camino ms corto que
pasa exactamente una vez por cada
ciudad?
Segundo Modelo:
Reconstruction
Este modelo tiene en cuenta:
Errores.
Orientacin desconocida

Pero no modela:
Repeticiones
Falta de cubrimiento
Reconstruction:
Definiciones
Para entender como este modelo
considera los errores debemos contar
con algunas definiciones previas.
Distancia de edicin (o edit
distance)
Distancia de edicin de substrings
(o substring edit distance)
Substring aproximado
Distancia de Edicin
Dadas dos cadenas a y b, llamaremos
distancia de edicin, y lo notaremos
d(a, b), a la cantidad de inserciones,
deleciones y/o substituciones que
deben realizarse sobre las cadenas
para que valga a = b.
Ejemplo: d(ACTGT, AGGT) = 2
pues ACTGT = ACTGT
Substitucin Insercin
Distancia de Edicin de
Substrings
Dadas dos cadenas a y b, llamaremos
distancia de edicin de substrings a:
d s (a, b) min d (a, s)
sS ( b )

donde S(b) es el conjunto de los substrings de b.

Ejemplo: ds(ACT, GATTACA) = 1


Pues d(ACT, ACA) = 1 y ACT S(b)
Substring Aproximado
Sea un nmero real entre 0 y 1. Un string
f es un substring aproximado de S con
error cuando

ds ( f , S ) f
donde |f| es la longitud del string f.
Por ejemplo: si = 0.05, permitiremos que f difiera en a lo sumo un
5% con el substring ms cercano en S.
Reconstruction: Definicin
Dado un conjunto de strings F y una cota de error
entre 0 y 1, hallar un string S de longitud mnima tal
que para todo string f en F


min d s ( f , S ), d s ( f , S ) f

donde f es el string reverso y complementario a f.


Reconstruction: Resumen
No admite repeticiones ni espacios
no cubiertos
Admite errores experimentales
Modela la orientacin desconocida
Es un problema NP-Hard.
SCS es un caso particular de este
modelo.
Tercer Modelo:
Multicontig:
Introduce la nocin de buen enlace.
Este modelo tiene en cuenta:
Errores.
Orientacin reconocida

Falta de cubrimiento

En algunos casos, repeticiones


Multicontig: Definiciones
Llamaremos layout a un alineamiento
mltiple de un conjunto de secuencias.
El siguiente layout ser utilizado como
ejemplo en varias definiciones:

f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
Diremos que dos fragmentos f y g se solapan (y lo
llamaremos overlap) si comparten una o ms
columnas en el layout. Es decir, si ambos string se
intersecan.

f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
Podemos separar los overlaps en dos
categoras:
Los que producen un enlace. (f3 f4)
y los que no lo producen. (f2 f5)

f1: C T T G T A
f2: T G T A G T T
f3: C T A T
f4: T A T T
f5: G T A G T
Multicontig: Definiciones
(cont.)
El enlace ms dbil (weakest link) es
aqul overlap con menor longitud que
produce un enlace.
Diremos que un layout es un t-contig si el
enlace ms dbil que posee tiene longitud
t.
Si es posible obtener un t-contig de un
conjunto de fragmentos F, diremos que F
admite un t-contig.
Multicontig: Definicin I
Libre de Errores
Dado un conjunto de strings F y un entero t,
particionar F en el mnimo nmero de
subconjuntos Ci, 1 i k, tal que cada Ci
admita un t-contig.
Multicontig: Ejemplos
Dado F = {GTAC, TAAG, TGTAA}
Si t = 3
T A A T G G T A C
T G T A A
Si t = 2
T A A T G G T A C
T G T A A
Si t = 1
T G T A A
T A A T G
G T A C
Multicontig: Contemplando
errores
Si se admiten errores en el
acoplamiento, se debe obtener una
cadena por consenso que ser el
resultado del ensamblamiento.
Diremos que S es una cadena
-consensuada de F si, para cada
cadena f en F, la distancia de edicin
entre f y su imagen en S es | f |.
Multicontig: Contemplando
errores
Por ejemplo: S es una cadena 0.20
consensuada con respecto a F.

f1: C T T C T A
f2: T G T T G T T
f5: G T A G T
S C T T G T A G T T
Multicontig: Definicin II
Admitiendo de Errores
Dado un conjunto de strings F, un entero t 0 y
una tolerancia de error entre 0 y 1,
particionar F en el mnimo nmero de
subconjuntos Ci, 1 i k, tal que cada Ci
admita un t-contig con un consenso .
Multicoting: Resumen
Admite repeticiones en algunos
casos.
Admite errores experimentales
Modela la orientacin desconocida
Es un problema NP-Hard.
Repaso de Grafos
Los grafos son artefactos
matemticos que permiten
expresar de una forma
visualmente sencilla y efectiva
las relaciones que se dan entre
elementos de muy diversa ndole.
Repaso de Grafos
Un grafo simple est formado
por dos conjuntos:
Un conjunto V de puntos
x
llamados vrtices o nodos.
Un conjunto E de pares de
vrtices que se llaman aristas o x y
arcos y que indican qu nodos
estn relacionados.
Notacin: G(V,E)
Repaso de Grafos
A los ejes se les puede asignar
8
un peso. Notacin: w(x,y) x y

Si hay ms de un arco
hablamos de un multigrafo x y

Si los arcos se recorren en una


en una direccin concreta pero
no en la contraria lo llamamos x y
grafo dirigido o dgrafo y los
arcos son aristas x y
Repaso de Grafos
v1 v1

Un Camino es una secuencia de


vrtices V1, V2, V3, ... , Vn, tal que v2 v2
cada para uno de estos V1->V2, V2-
>V3, V1->V3
Un Camino Simple es cuando todos v3 v3
sus vrtices, excepto tal vez el
primero y el ltimo son distintos.
Un Ciclo Simple es un camino v4 v4

simple de longitud por lo menos de v1 v1


uno que empieza y termina en el
mismo vrtice.
Se dice que un grafo es aciclco v2 v2
cuando no contiene ciclos.
v3 v3
Representado el problema
como un grafo
Se representa con un grafo ya que
resulta mas amigable para verlo
visualmente, y se le esta aportando
al problema, todo un conjunto de
herramientas matemticas para
resolverlo.
Representado el problema
como un grafo
Datos del problema:
Un conjunto de fragmentos F
F = {ACTT, TTGTAA, AAGGT,
TTGT, GTT, TTAG}
Un string S
S = ACTTGTAAGGTTGTTAAG
El overlap de los fragmentos
ACTT
TTGTAA
Representado el problema
como un grafo
Datos del problema:
El orden en que se hace el overlap
ACTT TTGTAA
TTGTAA ACTT
La cantidad de nucleotidos que estn
en el overlap
ACTT
TTGTAA
2 nucletidos
Representado el problema
como un grafo
Fragmentos son representados por los
nodos o vrtices.
Los overlaps son representados por los
ejes que unen a los nodos.
El orden del overlap de dos fragmentos,
esta dado por la direccin del eje o arista.
La cantidad de nucletidos que estan en
el overlap de dos fragmentos, esta
representado por el peso de los ejes.
El string s se representa como un camino
en el grafo.
Representado el problema
como un grafo
Ejemplo:
F={TACGA, ACCC, CTAAAG, GACA}
a b c d
1

a 0
b
0
2
0 0 1 1 0
0

c 1
d
0
Representado el problema
como un grafo
Ejemplo:
F={TACGA, ACCC, CTAAAG, GACA}
a b c d
1

a b
2
1
1

c 1
d
Representado el problema
como un grafo
Ejemplo:
F={TACGA, ACCC, CTAAAG, GACA}
a b c d
1 1

a b a b
2 2

1 1
1 1

c 1
d c 1
d
S1= TACGACCCCTAAAGACA
S2= TACGACACCCTAAAG
Representado el problema
como un grafo
Problema:
Encontrar el superstring mas corto.
Esto es equivalente a encontrar un
camino hamiltoniano mximo dentro
del grafo. Este problema es NP-
Completo

Potrebbero piacerti anche