Sei sulla pagina 1di 44

Alineamiento de secuencias

Contenido

1. Conceptos bsicos
2. Mtodos grficos de alineamiento
3. Puntuacin de los alineamientos
1. Conceptos bsicos
Introduccin

El alineamiento de secuencias es probablemente la


herramienta ms utilizada en bioinformtica
Su objetivo es alinear dos o ms secuencias (de DNA o
protenas) de forma que puedan destacarse las regiones
similares entre las molculas
Al determinar si una secuencia desconocida es similar, en
algn sentido, a secuencias conocidas (e idealmente de
estructura y funcin conocidas) podremos identificarla y
predecir su estructura y funcin
Aplicaciones

Mediante un alineamiento global entre genomas se puede


identificar repeticiones internas (G1 vs G1) o
encontrar secuencias conservadas entre especies (G1 vs G2)
Para predecir la funcin de una protena desconocida suele
buscarse dominios funcionales comunes,
mediante alineamientos locales entre dos secuencias
mediante alineamientos mltiples entre conjuntos de secuencias
Para buscar una secuencia en una base de datos para lo que
alinea por separado distintos fragmentos y se cuantifica el
grado de similitud alcanzado

Mtodos de alineamiento

Existen muchos programas disponibles en WWW


para alinear secuencias y buscarlas en las BD
Si se pretende que el resultado de dichos
programas sea til no deben ser cajas negras
La correcta eleccin del programa ( mtodo) y
de sus parmetros es muy importante
Una eleccin inadecuada puede conllevar la no
deteccin de similitudes relevantes
Visin global de los mtodos

Alineamiento de dos secuencias


Mtodos grficos: Dotplot. Es intuitivo, pero difcil de cuantificar
Algoritmos ptimos de alineamiento global (NW) o local (SW)
Obtienen el mejor alineamiento posible con programacin dinmica
Son demasiado exigentes para ser prcticos en bsquedas extensivas
Alineamientos mltiples
Algoritmos heursticos para bsqueda en bases de datos
FASTA, BLAST
Dan soluciones buenas, no necesariamente ptimas
Pueden ser mucho ms rpidos
Alineamiento de secuencias

Es el procedimiento consistente en comparar


dos (pairwise) o ms (multiple) secuencias
buscando los caracteres o patrones que
aparezcan en el mismo orden en las
secuencias

Podemos distinguir entre alineamientos


Globales: Alineamiento de secuencias completas
Locales : Alineamiento de subsecuencias
Ejemplos de alineamientos

2 Secuencias no alineadas
L G P S S K Q T G K G S S R I W D N
L N I T K S A G K G A I M R L G D A

Alineamiento global
L G P S S K Q T G K G S S R I W D N

L N I T K S A G K G A I M R L G D A

Alineamiento local
T G K G

A G K G
Ejemplo de alineamiento mltiple

I M A G I N A B L E
I M P R A C T I C A B LE
I L E G I B L E

I M A G I N A B L E
I M P R A C T I C A B L E
I N F A L I B L E
2. Mtodos grficos de
alineamiento
Los Dotplots

Se obtienen disponiendo dos secuencias S y T


en los mrgenes horizontal y vertical de una
tabla
y marcando con una cruz (un punto) todas las
posiciones en que coinciden los caracteres de S
yT
Si son idnticas se observa una diagonal definida
Cuanto ms diferentes sean, ms difusa ser
La aparicin de patrones permite revelar
estructuras en las secuencias
Umbral de severidad (Stringency
threshold)
Para facilitar la visualizacin, se opta a menudo
por mostrar nicamente las diagonales formadas
por un nmero mnimo de puntos (umbral de
severidad)
Si el umbral de severidad es alto
Eliminamos el ruido de fondo (filtrado alto)
Solo detecta similitudes muy altas
Si es bajo
Hay ruido de fondo
Detecta relaciones distantes
Ejemplo de dotplot 1: Una secuencia
con ella misma
Ejemplo de dotplot 2: Secuencias que
han divergido
Ejemplo de dotplot 3:
Inserciones y deleciones
3. Puntuacin de los
alineamientos
Sistemas de puntuacin

Para cuantificar la similitud entre dos cadenas, S y T,


definimos sistemas de puntuaciones de forma que para
cada alineamiento se pueda calcular un nmero tal que, a
mayor valor, mayor sea su significacin (biolgica)
Pueden ser esquemas sencillos como por ej
Coincidencia , S[i]=T[i] 1,
No coincidencia, S[i]#T[i] 0,
Insercin de espacios (gaps) -1,
o bien sistemas ms complejos basados en afinidades
qumicas o en frecuencias de emparejamiento observadas
Puntuacin de un alineamento
Una vez establecido un sistema de puntuacin
la puntuacin de una pareja de caracteres s,t
alineados se define como p(s,t)
La puntuacin (score) de un alineamiento
entre S i T: pS[i], T [i]
i

Un alineamiento es ptimo si su puntuacin


es la ms grande posible
Ejemplo

S= A T G C A G T
T= A T A A G T
p(s,t) 1 1 0 0 0 0 2

S= A T G C A G T
T= A T A A G T
p(s,t) 1 1 0 0 -1 1 1 3

S= A T G C A G T
T= A T A A G T
p(s,t) 1 1 -1 0 1 1 1 4
Ejemplo

Puntuacin con esquema simple

S= T T Y G A P P W C S
T= T G Y A P P P W S
p(s,t) -1 1 0 0 1 1 1 0 0 1 4

S= T T Y G A P P W C S
T= T G Y A P P P W S
p(s,t) 1 0 1 0 0 1 1 1 0 -1 4
El sentido de las puntuaciones

Los dos alineamientos del ejemplo anterior


puntan igual. Sin embargo
a) conserva residuos comunes (A, P, S, T)
b) conserva residuos menos habituales (W, Y)
El sistema de puntuar los emparejamientos
entre AA debera reflejar su relacin qumica y
biolgica
Residuos similares/distintos deberan puntuar
alto/bajo pues el cambiar uno por otro afectar
poco/mucho la funcin de la protena
Matrices de puntuacin (scoring) o de
substitucin (substitution)

Una forma usual de definir el sistema de


puntuacin es utilizando una matriz de
substitucin
Es una tabla que contiene las puntuaciones que
asignamos a cada pareja posible de caracteres,
(sirve para las coincidencias y las no-coincidencias)
El trmino substitucin refleja que lo que se
pretende al puntuar un emparejamiento es valorar
el coste evolutivo de cambiar un residuo por otro
Matrices para alinear ADN

Secuencia 1 actaccagttcatttgatacttctcaaa

Secuencia 2 taccattaccgtgttaactgaaaggacttaaagact

Matriz identidad A G C T
P(i,i)=1, A 1 0 0 0
P (i,j)=0 G 0 1 0 0
o alguna variante Match: 1
C 0 0 1 0 Mismatch: 0
P(i,i)=0.9,
T 0 0 0 1 Score = 5
P (i,j)=-0.1
Sistemas de puntuacion para proteinas
Los AA tienen distintas propiedades posibilidades
distintas de ser sustituidos unos por otros en la evolucion
tiny
P
aliphatic C S+S small
G
I A G S
V CSH N
L T D
hydrophobic M Y K E
F Q
W H R
positive
aromatic polar
charged
Matrices para protenas

Las matrices de puntuacin se construyen para que reflejen:


El n de mutaciones necesario para convertir una secuencia en otra
La similaridad qumica
Las frecuencias de mutacin observadas
La probabilidad de ocurrencia de cada AA.
La ms utilizadas son las PAM y las BLOSUM
PAM: Point Accepted Mutation Matrix
BLOSUM: BLOcks SUbstitution Matrix
Familias de Matrices de Puntuacin

No hay una matriz nica que se pueda usar siempre.


Segn familia de protenas y grado de similitud esperado.
PAM
Derivadas de alineamientos globales de secuencias prximas
A mayor nmero asumimos que hay n mayor distancia evolutiva
Mnimo: PAM40 (secs. Similares) Mx: PAM250 (secs distantes)
BLOSUM
Derivadas de alineamientos locales de secuencias distantes
A mayor nmero asumimos que mayor proximidad evolutiva
Minimo: BLOSUM90 Maximo: BLOSUM45
(El n representa porcentaje de identifdad)
Matrices de substitucin
Substituciones de aminocidos

Ciertas substituciones de AA son muy comunes en protenas


homlogas. Otras no lo son en absoluto.
Esto puede interpretarse como que:
Las primeras mantienen la funcin de la protena
Las segundas afectan negativamente a su funcin.
Las sustituciones inusuales tendrn menor grado de
aceptacin por por parte de la seleccin natural.
Para poder hacer alineamientos que reflejen el proceso
evolutivo que ha llevado a cambiar una secuencia por otra es
preciso disponer de estimaciones de la frecuencia con que se
produce cada cambio o sustitucin.
Para responder a esta necesidad se crearon las matrices de
sustitucin.
Modelos probabilsticos
para sustituciones entre AA

En la construccin de matrices de sustitucin


se utilizaron dos tipos de modelos
probabilsticos para las sustituciones.
Modelo de homologa: La probabilidad de una
substitucin entre dos AA1 y AA2 depende de si
se ve favorecida o no por la evolucin.
Modelo nulo: La probabilidad de observar una
sustitucin depende tan solo de la probabilidad
con que se encuentra AA1 y AA2 en la poblacin.
Razn de verosimilitudes
La probabilidad de las substituciones
bajo el modelo de homologa se estima
a partir de alineamientos entre
secuencias de relacin conocida.
La probabilidad de las sustituciones
bajo el modelo nulo se estima
simplemente como el producto de las
probabilidades
El cociente entre ambas probabilidades
nos da una idea de que resulta ms
verosmil
Hay homologia (R > 1, log(R) > 0)
Sustitucin al azar (R < 1, log(R) < 0)
Matrices de sustitucin y
log-verosimilitudes

Las matrices de sustitucin contienen para cada sustitucin el logaritmo


de la razn entre la probabilidad de la sustitucin suponiendo homologa o
suponiendo que se producen al azar.
Si la sustitucin se ve favorecida por la seleccin sera mas probable
observarla que lo que seria de esperar del simple azar El cociente ser
superior a uno y el logaritmo positivo.
Si la sustitucin se ve desfavorecida por la seleccin ser ms plausible
observarla por azar que porque se haya conservado evolutivamente El
cociente sera menor que uno y el logaritmo negativo.
Las sustituciones con valores positivos en las matrices de sustitucion suele
corresponderse con AA cuyas propiedades fisico=quimicas son similares.
Construccin de las matrices PAM
Derivadas de alineamientos globales de familias de protenas.
Dayhoff et al., 1978 escogieron familias de protenas cuyos miembros
presentaran como mnimo un 85% de identidad.
Para cada familia se construyeron rboles filogenticos
Se calcul el nmero de sustituciones para cada aminocido
El nmero de sustituciones se utiliz para calcular las matrices PAM-1,
que representan aquella situacin en que en promedio ha habido
sustituciones en tan slo el 1% de las posiciones.
La construccin de matrices para mayores tasas de sustituciones se
realiza mediante un modelo de Markov a partir de la matriz PAM-1.
PAM250 = 250 mutaciones por 100 residuos
Cuanto mayor es el nmero estamos suponiendo una mayor distancia
entre las secuencias que deseamos alinear.
PAM 250

A R N D C
C Q E G H I L K M F P S T W
W Y V B Z
A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1
R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2
N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3
D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4
C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4
Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5
E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5
G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1
H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3
I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1
L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1
K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2
M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0
F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4
P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1
S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1
T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1
W
W
Y
-6
-3
2
-4
-4
-2
-7
-4
-8
-8
0
-5
-4
-7
-4
-7
-5
-3
0
-5
-1
-2
-1
-3
-4
-4
-2
0
7
-6
-5
-2
-3
-5
-3
17
17
0
0
10
-6
-2
-4
-2
-4
-3
V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0
B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5
Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
BLOSUM (Blocks Substitution Matrix)

Derived from alignments of domains of distantly related


proteins (Henikoff & Henikoff,1992).
A
A
C
E
C

Occurrences of each amino acid pair A


in each column of each block alignment A-C =4
A A-E =2
is counted.
C C-E =2
E A-A =1
The numbers derived from all blocks were
C C-C =1
used to compute the BLOSUM matrices.
BLOSUM (Blocks Substitution Matrix)

Sequences within blocks are clustered according to their level of identity.

Clusters are counted as a single sequence.

Different BLOSUM matrices differ in the percentage of sequence identity


used in clustering.

The number in the matrix name (e.g. 62 in BLOSUM62) refers to the


percentage of sequence identity used to build the matrix.

Greater numbers mean smaller evolutionary distance.


TIPS on choosing a scoring matrix

Generally, BLOSUM matrices perform better than PAM matrices


for local similarity searches (Henikoff & Henikoff, 1993).

When comparing closely related proteins one should use lower


PAM or higher BLOSUM matrices, for distantly related proteins
higher PAM or lower BLOSUM matrices.

For database searching the commonly used matrix is BLOSUM62.


Penalizacin por gaps

En un sistema de puntuacin es importante


definir el coste de insertar o eliminar un residuo,
lo que en el alineamiento aparece como un
hueco (gap)
Suele penalizarse distinto
el primer hueco (gap opening)
que los restantes (gap extension) que parten de l
La variacin de estos parmetros puede tener
efectos importantes en el alineamiento final
Efecto del valor de la penalizacin
Coste de Coste de
apertura extensin Comentario
de gap del gap
Grande Grande Pocas inserciones o eliminaciones
Bueno para protenas muy relacionadas

Grande Pequeo Algunas inserciones grandes


Bueno si puede que se hayan insertado
dominios completos
Pequeo Grande Muchas inserciones pequeas
Bueno si se trata de protenas distantes
4. Algoritmos de alineamiento
ptimo para pares de secuencias
Un algoritmo exhaustivo para obtener
alineamientos ptimos
Un algoritmo para obtener el alineamiento
ptimo es:
Construir todos los posibles alineamientos
Calcular la puntuacin de cada uno
El alineamiento ptimo es el que obtenga el valor ms
grande (puede haber ms de uno!)
El nmero de alineamientos posibles es muy alto:
Si S, T constan de unos 20 caracteres pueden
hacer falta ms de 240 operaciones!!!
Una alternativa a la bsqueda exhaustiva:
La programacin dinmica (PD)
La programacin dinmica es una tcnica
de diseo de algoritmos consistente en
Considerar, en primer lugar, los casos ms
sencillos de un problema
Resolverlos
Combinarlos para obtener la solucin de
casos ms complicados
Hasta resolver el caso completo original
Veamos un ejemplo
Algoritmos de alineamiento ptimo

Los dos ms conocidos son


Needleman y Wunsch (1970) para alineamientos globales
Smith y Waterman (1981), una variante para alineamientos
locales
Sirven para alinear tanto DNA como protenas
Cada algoritmo retorna los alineamientos con la mxima
puntuacin posible para una matriz de substitucin y un
coste de gaps dados
El alineamiento obtenido no tiene necesariamente un
significado biolgico

Potrebbero piacerti anche