Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
H
S
Y
M
T
de
Alineamiento
Secuencias De Aminocidos
Y
Y
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
P
P
K
K
Las inserciones y sustituciones de residuos singulares estn generalmente enfatizadas en los alineamientos. Las inserciones aparecen representadas por caracteres
nulos aadidos a una de las secuencias, las cuales pueden ser alineadas con letras en
las otras (Rehm 2001). Existen dos tipos de alineamiento segn el nmero de secuencias en estudio: El alineamiento por pares y el mltiple (ASM).
P
P
S
T
F
M
A
L
I
I
N
N
A
A
F
F
S
S
Captulo
N
N
Q
D
H
H
P
P
K
K
P
P
Y
Y
S
T
F
M
A
L
I
I
N
N
A
A
F
F
S
S
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
S
Y
M
T
S
S
F
F
P
P
K
K
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
P
P
Y
Y
S
T
Como su nombre lo indica, consiste en comparar pares de secuencias. La utilizacin de este mtodo no posibilita encontrar informacin crtica sobre la funcin
de la protena. En contraste, a partir del alineamiento de mltiples secuencias es
posible sugerir un gen funcional.
F
M
A
L
I
I
El alineamiento de secuencias por pares y mltiple contina siendo una de las reas ms activas de los recursos bioinformticos y tiene por objeto encontrar la mejor similaridad entre ellas.
A
A
N
N
N
N
Q
D
H
H
P
P
K
K
P
P
Y
Y
S
T
F
M
ENTIDAD ADMINISTRADORA
Centro Nacional de Informacin en Biotecnologa (NCBI).
A
L
DESCRIPCIN
I
I
N
N
A
A
F
F
S
S
M
T
S
Y
K
H
K
H
S
Y
M
T
S
S
Q
D
UNIVERSIDAD DE CARTAGENA
N
N
3.1B.
H
H
P
P
K
K
P
P
Y
Y
S
T
3.1A.
F
M
A
L
I
I
N
N
A
A
F
F
N
N
Q
D
H
H
P
P
K
K
La tercera seccin muestra una representacin grfica de los alineamientos diferenciando por colores los porcentajes de identidades (Figura 3.1C). La cuarta parte
del informe presenta un resumen de todas las secuencias que produjeron alineamientos significativos junto con un valor de puntuacin (Score), lo cual, expresa
el grado de similaridad entre pares de secuencias. El valor E para una determinada
puntuacin indica cuntos alineamientos esperamos que por azar alcancen un valor igual o mayor y est dado por la Ecuacin 1:
P
P
- S
E=Kmn e
ECUACIN 1.
Y
Y
S
T
F
M
A
L
I
I
N
N
K y lambda ( ) son dos parmetros determinados empricamente, m y n correspondan las longitudes de las secuencias y S es la puntuacin del alineamiento).
Por lo tanto un valor de E de 0.001 (valor establecido por defecto para las
bsquedas con Blast) significa que hasta uno de cada 1000 alineamientos pueden
haberse dado al azar. Es recomendable obtener valores inferiores a 0.00001. Sin
embargo, lo mejor siempre es examinar los alineamientos en detalle, hacer
alineamientos mltiples y emplear anlisis filogenticos para confirmar si las
secuencias involucradas en el estudio estn relacionadas de manera evolutiva.
Como es posible apreciar en nuestro ejemplo, los valores E de los alineamientos
estn en el orden de 1E-70, lo cual es menos frecuente de encontrar, y resulta muy
confiable en cuanto a que las secuencias alineadas estn evolutivamente
relacionadas. Como era de esperarse, todas estas secuencias pertenecen a una
misma familia denominada cistena proteasas (Figura 3.1D).
A
A
F
F
La quinta parte muestra los alineamientos detallando los valores de las puntuaciones, identidad y valor E (Figura 3.1E). La ltima pantalla del informe seala
los parmetros utilizados en la bsqueda (Figura 3.1F).
S
S
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
S
Y
M
T
S
S
F
F
A
A
N
N
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
Figura 3.1. Resultado de la bsqueda Blast para una secuencia de protena (Actinidina de 30 kD).
P
P
3.1F.
K
K
P
P
Y
Y
S
T
F
M
A
L
I
I
3.1E.
N
N
Q
D
H
H
P
P
K
K
P
P
Y
Y
S
T
3C.
F
M
A
L
I
I
N
N
A
A
F
F
S
S
3D.
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
S
Y
S
S
M
T
I
I
N
N
A
A
F
F
Blast 2 Sequences
URL: http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi
(Tatusova et al., 1999).
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
P
P
K
K
P
P
Y
Y
S
T
F
M
URL: http://www.ch.embnet.org/software/LALIGN_form.html
(Huang y Miller, 1991)
A
L
LALING
N
N
Q
D
H
H
P
P
Clustal W
URL: http://www.ebi.ac.uk/Tools/clustalw/
K
K
ENTIDAD ADMINISTRADORA
P
P
DESCRIPCIN
Y
Y
S
T
F
M
A
L
I
I
N
N
A
A
F
F
Las secuencias de la Actinidina, 1aec, 2act y act c 1, son muy parecidas por
tratarse de una misma protena y por ende es aconsejable utilizar una metodologa
de alineamiento global, proporcionada por Clustal W.
S
S
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
S
Y
M
T
S
S
F
F
A
A
F
M
A
L
I
I
N
N
P
P
K
K
P
P
Y
Y
S
T
3.2A.
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
3.2B.
N
N
Q
D
H
H
P
P
K
K
P
P
Y
Y
S
T
3.2C.
F
M
A
L
Figura 3.2. Resultado de un alineamiento de mltiples secuencias por el servidor Clustal W. A) Resultado de bsqueda. B) Tabla de Puntuaciones o identidades (Score). C) Alineamiento.
I
I
N
N
A
A
F
F
S
S
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
S
Y
M
T
S
S
N
N
A
A
Una ventaja importante de Clustal W es que permite apreciar el alineamiento entre las secuencias con opciones a color o blanco y negro.
F
F
F
M
S
T
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
La versin 5 de MAFFT gener una mayor exactitud que otros mtodos de amplio
uso, incluyendo la versin 2 de Tcoffe y Clustal W en un test de prueba consistente
en ms de 50 secuencias alineadas (Katoch et al., 2002; Katoh et al., 2005).
Y
Y
P
P
DESCRIPCIN
K
K
P
P
ENTIDAD ADMINISTRADORA
A
L
I
I
URL: http://bioinformatics.uams.edu/mafft/
N
N
Q
D
H
H
P
P
K
K
ENTIDAD ADMINISTRADORA
Unidad de Recursos de Biologa Molecular, Universidad de Namur, Blgica.
P
P
DESCRIPCIN
Y
Y
S
T
F
M
PROBCONS
A
L
URL: http://probcons.stanford.edu/
I
I
ENTIDAD ADMINISTRADORA
N
N
Departamento de Ciencias Computacionales, Universidad de Stanford, California. USA. Grupo de Sarafim Batzoglou.
DESCRIPCIN
A
A
F
F
S
S
M
T
S
Y
K
H
K
H
S
Y
M
T
S
S
F
F
N
N
A
A
AltAVist
Y
Y
S
T
URL: http://bibiserv.techfak.uni-bielefeld.de/altavist/
(Morgenstem et al., 2003).
F
M
A
L
URL: http://www.ch.embnet.org/software/TCoffee.html
(Notredame et al., 2000).
I
I
T-COFFE
JEvTrace
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
URL: http://www.cmpharm.ucsf.edu/~marcinj/JEvTrace/
(Joachimiak et al., 2002).
P
P
K
K
URL: http://zeus.cs.vu.nl/programs/pralinewww/
(Simossis et al., 2005)
P
P
PRALINE
N
N
Q
D
MAO
H
H
URL: http://bips.ustrasbg.fr/LBGI/MAO/mao.
html (Thompson et al., 2005).
P
P
K
K
SPEM
P
P
URL: http://sparks.informatics.iupui.edu/Softwares-Services_files/spem.htm
(Zhou et al., 2005)
Y
Y
VISUALIZACIN DE ALINEAMIENTOS
S
T
F
M
A
L
INSTITUTO DE KAROLINSKA, Centro de Investigacin en Genomica.
URL:http://bioinformatics.abc.hu/tothg/biocomp/other/Belvu.html
I
I
N
N
ENTIDAD ADMINISTRADORA
Universidad de Queen. Ontario, Canada.
A
A
DESCRIPCIN
F
F
S
S
M
T
LALNVIEW
S
Y
URL: http://www.expasy.ch/tools/lalnview.html
UNIVERSIDAD DE CARTAGENA
K
H
K
H
S
Y
M
T
ENTIDAD ADMINISTRADORA
F
F
A
A
N
N
S
S
DESCRIPCIN
Creado por Patrice Gouet, Laboratorio de Biofsica (Oxford, OX1 3QU, UK) y Frderic
Metoz, Instituto de Biologa Molecular (Francia).
A
L
F
M
ENTIDAD ADMINISTRADORA
I
I
Y
Y
P
P
K
K
P
P
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
El programa ESPript permite la visualizacin rpida de secuencias alineadas de programas populares tales como Clustal W o GCG PILEUP en un
archivo de salida en formato Postscrip. Puede leer archivos generados por
diferentes mtodos de asignacin de estructuras secundarias tales como
DSSP (Data base of Secondary Structure in Proteins) (Kabsch y Sander,
1983), STRIDE (Frishman y Argos, 1996) y PHD (Rost, 1996). El archivo de
salida del programa ESPript 1.8 muestra datos de estructuras secundarias,
secuencias alineadas, una puntuacin que indica el grado de similaridad
entre pares de residuos alineados, datos de accesibilidad, hidropaticidad,
contactos intermoleculares, entre otros (Gouet et al., 1999).
S
T
DESCRIPCIN
N
N
Q
D
REFERENCAS
H
H
Altschul, S.F., Gish, W., Miller, W., Myers, E.W., Lipman, D.J. (1990). Basic local alignment search tool.
J. Mol. Biol. 215(3):403-410.
P
P
Barton, G.J., Sternberg, M.J.E. (1987). Evaluation and improvements in the automatic alignment of
protein sequences. Protein Eng. 1(2):89-94.
K
K
Caffrey, D.R., Dana, P.H., Mathur, V., Ocano, M., Hong, E.J., Wang, Y.E., Somaroo, S., Caffrey, B.E.,
Potluri, S., Huang, E.S. (2007). PFAAT version 2.0 : A tool for editing, annotating, and analyzing
multiple sequence alignments. BMC Bioinformatics. 8(1):381 [Epub ahead of print].
P
P
Chung,Y.S., Lee, W.H., Tang, C.Y., Lu C.L. (2007). RE-MuSiC: a tool for multiple sequence alignment
with regular expression constraints. Nucleic Acids Res. 35(Web Server issue):639-44.
Y
Y
Do, C., Mahabhashyam, M., Brudno, M., Batzoglou, S. (2005). ProbCons: Probabilistic consistencybased multiple sequence alignment. Genome Res. 15(2):330-340.
S
T
Duret, L., Gasteiger, E., Perriere, G. (1996). LALNVIEW: a graphical viewer for pairwise sequence
alignments. Comput. Appl. Biosci. 12(6):507-510.
F
M
A
L
Frishman. D., Argos, P. (1996). Incorporation of non-local interactions in protein secondary structure
prediction from the amino acid sequence. Protein Eng. 9(2):133-142.
I
I
Gaskell, J.G. (2000). Multiple Sequence Alignment Tools on the Web. BioTechniques. Appl. Microbiol.
Biotechnol. 57(1):579-592.
N
N
Goode, M.G., Rodrigo, A.G. (2007). SQUINT: a multiple alignment program and editor. Bioinformatics.
23(12):1553-1555.
A
A
F
F
Gouet, P., Courcelle, E., Stuart, D.I., Metoz, F. (1999). ESPript: multiple sequence alignments in
PostScript. Bioinformatics. 15(4): 305-308.
S
S
Huang X, y Miller W (1991) A time-efficient, linear-space local similarity algorithm.Adv Appl Math 12:
337-357
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H
K
H
Morgenstern, B., Goel, S., Sczyrba, A., Dress, A. (2003). AltAVisT: Compa-ring alternative
multiple alignments. Bioinformatics. 19(3):425-426.
Notredame, C., Higgins, D.G., Heringa, J. (2000). T-Coffee: A novel method for multiple sequence
alignments. J. Mol. Biol. 302(1): 205-217.
Pearson, W.R., Lipman D.J. (1988). Improved tools for biological sequence comparison. Proc.
Natl. Acad. Sci. USA. 85(8):2444-2448.
Pei, J., Grishin, N.V. (2006). MUMMALS: multiple sequence alignment improved by using hidden
Markov models with local structural information. Nucleic Acids Res. 34:4364-4374
S
S
F
F
A
A
N
N
I
I
N
N
UNIVERSIDAD DE CARTAGENA
Q
D
H
H
Pei, J, Grishin N.V. (2007). PROMALS: towards accurate multiple sequence alignment of
distantly related proteins. Bioinformatics. 23(7):802-808.
M
T
S
Y
McGinnis, S., Madden, T.L. (2004). BLAST: At the core of a powerful and diverse set of sequence
analysis tools. Nucleic Acids Res. 32(Web Server issue):20-25.
A
L
Lassmann, T., Sonnhammer, E.L. (2007). Automatic extraction of reliable regions from multiple
sequence alignments. BMC Bioinformatics. 8 Suppl 5:S9.
F
M
Lassmann, T., Sonnhammer, E.L. (2002). Quality assessment of multiple alignment programs. FEBS
Lett. 529(1):126-130.
S
T
Katoh, K., Kuma, K., Toh, H., Miyata T. (2005). MAFFT version 5: improvement in accuracy of Multiple
sequence alignment. Nucleic Acids Res. 33(2):511-518.
Y
Y
Katoh, K., Misawa, K., Kuma, K., Miyata, T. (2002). MAFFT: a novel method for rapid multiple
sequence alignment based on fast Fourier transform. Nucleic Acids Res. 30(14):3059-3066.
P
P
Kabsch, W., Sander, C. (1983). Dictionary of protein secondary structure: pattern recognition of
hydrogen-bonded and geometrical features. Biopolymers. 22(12):2577-637.
K
K
Joachimiak, M., Cohen, F. (2002). JEvTrace: refinement and variations of the evolutionary trace in
JAVA. Genome Biol. 3(12):1-12.
P
P
Huska, M.R., Buschmann, H., Andrade-Navarrom M.A. 2007. BiasViz: Visualization of amino acid
biased regions in protein alignments. Bioinformatics. Oct 6; [Epub ahead of print].
N
N
Q
D
Rehm, B.H.A. (2001). Bioinformatic tools for DNA/protein sequence analysis, functional
assignment of genes and protein classification. Appl. Microbiol. Biotechnol. 57(5-6):579-592.
H
H
P
P
K
K
Simossis, V., Heringa, J. (2005). PRALINE: a multiple sequence alignment toolbox that integrates
homology-extended and secondary structure information. Nucleic Acids Research. 33 (Web
Server issue):289-294.
P
P
Smith, F., Waterman, S. (1981). Identification of common molecular subsequences. J. Mol. Biol.
147(1):195-197.
Y
Y
S
T
Tatusova, T.A., Madden, T.L. (1999). Blast 2 sequences - a new tool for comparing protein and
nucleotide sequences. FEMS Microbiol. Lett. 174(2):247-250.
F
M
Thompson, J., Holbrook, S., Katoh, K., Koehl, P., Moras, D., Westhof, E., Poch, O. (2005). MAO: a
Multiple Alignment Ontology for nucleic acid and protein sequences. Nucleic Acids Res. 33(13):
4164-4171.
A
L
Webb, B., Liu, J., Lawrence, C. (2002). BALSA: Bayesian algorithm for local sequence alignment.
Nucleic Acids Res. 5(5): 1268-1277.
I
I
N
N
Wilbur, W.J., Lipman, D.J. (1983). Improved tools for biological sequence Comparison. Proc. Natl.
Acad. Sci. USA. 80:726-730.
A
A
Zhou, H., Zhou, Y. (2005). SPEM: Improving multiple-sequence alignment with sequence profiles
and predicted secondary structures. Bioinformatics. 21(18):3615-3621.
F
F
Zhou H., Zhou, Y. 2007. SPEM: improving multiple sequence alignment with sequence profiles
and predicted secondary structures. Bioinformatics. 21:36153621.
S
S
.
M
T
UNIVERSIDAD DE CARTAGENA
S
Y
K
H