Informe Final Bioinformatica Alineación de Secuencias

Estudio de ADN, ARN y protenas con Matlab y
herramientas WEB de base de datos sobre dos especies

de aves
F. Nicolas Diaz S, Estudiante (20131273034), Sebastian Vargas V, Estudiante (20131273012).
Universidad Distrital Francisco Jos de Caldas (Facultad Tecnolgica);
Ingeniera en Telecomunicaciones Bioinformtica
Bogot, Colombia; Diciembre de 2014
Abstract-In this paper the study of DNA and RNA sequences

with MATLAB of the two species of birds, Accipitridae or
common eagle and Sitta carolinensis or climbing pechiblanco
done. Additionally the alignment of DNA sequences in FASTA
format is done using the Needleman-Wunsch algorithm and web
EMBOST tool. Query protein sequence of each species were also
performed and compared to determine which subfamily and if
they belong to the same family knew. Are obtained as a
conclusion that the similarity of the DNA and RNA sequences,
and the nucleotide codons; the dominant proteins of each
species The similarity between subfamilies And finally concludes
that the two species belong to the same superfamily 3.90.1100.10
3.90.1110.10 direct DNA and RNA Polymerase like domain
lineal. Los cidos nucleicos portan la informacin gentica

que determina la estructura primaria de las protenas y los
fenotipos especie-especficos.
Cada nucletido se compone de una base nitrgenada
(purina o pirimidina), un azcar (D-ribosa o 2-deoxi-Ribosa)
y un cido Fosfrico. (Figura 1).
Key-DNA, RNA, nucleotides, codons, amino acids. Words

Protein subfamilies, super family.
ResumenEn este documento se hace el estudio de secuencias
de ADN y ARN con MATLAB de las dos especies de aves,
Accipitridae o aguila comn y el Sitta carolinensis o trepador
pechiblanco. Adicionalmente se hace la alineacin de
secuencias de ADN en formato FASTA utilizando los
algoritmo Needleman-Wunsch y la herramienta web
EMBOST. Tambin se realiza la consulta de la secuencia de
protenas de cada una de las especies y se compara para
determinar a qu subfamilia pertenecen y si son de la misma
supe familia. Se obtienen como conclusin que la similitud de
las secuencias de AND y ARN, los nucletidos y codones; las
proteinas dominante de cada especie La similitud entre
subfamilias Y finalmente se concluye que las dos especies
pertenecen a la misma super familia 3.90.1100.10 y
3.90.1110.10 con ADN directo de ARN con Polimerasa como
dominio
Palabras claveADN, ARN, nucletidos, codones,

aminocidos. Protenas, subfamilias, super familia.
I. INTRODUCCIN
Se trabaja con dos aves, la paloma y el guila; cuyos
cdigos genticos ADN han sido descargados por del
software Matlab por medio de la NCBI (National Center for
Biotechnology Information), en forma de base de datos, esta
informacin viene en forma de secuencia de caracteres
A,T,C,G la cual es procesada en Matlab para determinar la
densidad de nucletidos, observar la composicin del
genoma mitocondrial, hacer la traduccin a ARN, ver los
codones y comparar los resultados entre las dos especies.
II. MARCO TERICO

LOS CIDOS NUCLEICOS
Los cidos nucleicos (ADN y ARN), son
macromolculas con un nmero predeterminado de varios
monmeros diferentes en un arreglo ordenado en forma
Figura 1. Base nitrogenada, un azcar y un cido fosfrico.

Cada cido nucleico contiene un slo tipo de azcar, no
ambos. El ADN representa el material gentico de las
clulas y es constituido por nucletidos conocidos como
deoxiribtidos que contienen 2-deoxi-D-Ribosa.
Los nucletidos del ADN son Citosina (C), Timina (T),
Guanina (G) y Adenina (A); y los del ARN son Citosina
(C), Uracilo (U), Guanina (G) y Adenina (A).
MARCO ABIERTO DE LECTURA

Es una secuencia de informacin gentica que contiene
datos que pueden ser utilizados para codificar aminocidos;
Los marcos de lectura se encuentran en el ADN y ARN. En
el caso de ADN, el ADN contiene conjuntos de nucletidos
conocida como tripletes o codones. Cada codn puede ser
transcrito por el ARN en otro triplete.
El marco de lectura es la seccin de ADN o ARN que
contiene instrucciones para hacer una protena completa. En
el ADN, hay seis marcos de lectura posibles, ya que el
inicio de un marco de lectura depende de donde uno
empieza a leer, y el ADN es de doble cadena. Con el ARN,
existen tres posibles marcos de lectura. Una seccin de
lectura comienza con un codn de inicio (AUG) y uno de
parada
(UAA,
UAG
o
UGA).
Un marco abierto de lectura puede contener un gen completo,

o los genes que se solapan; el cdigo gentico no siempre es
tan ordenada como uno podra imaginar. De hecho, el cdigo
gentico contiene mucho de lo que se conoce como el ADN
no codificante, es decir, que el ADN no parece cumplir una
funcin en trminos de la expresin gnica. No codificante del
ADN puede contener informacin interesante acerca de la
herencia gentica de una especie, y puede utilizarse para otras
funciones.
Existen 6 sentidos en los que se puede aparecer un marco de
lectura: +1, +2, +3, -1, -2, -3.
Si una secuencia se empieza a leer desde el 1er carcter,
entonces el marco de lectura es +1; si se empieza desde la 2da,
entonces el marco de lectura es +2; Y si se comienza desde la
3era, entonces el marco de lectura es +3.
Para la secuencia complementaria, si se empieza a leer desde
el 1er carcter, entonces el marco de lectura es -1; si se
empieza desde la 2da, entonces el marco de lectura es -2; Y si
se comienza desde la 3era, entonces el marco de lectura es -3.
una matriz en las que, si es necesario, se insertan espacios para

que las zonas con idntica o similar estructura se alineen.
Las secuencias de ADN y protena marcan la funcin de las
protenas en los seres vivos.
Cuando ms similares sean dos secuencias ms similares
tendern a ser las funciones de las protenas codificadas por
ellas.
Las secuencias de un mismo gen en un conjunto de especies
sern ms distintas cuando ms alejadas filogenticamente
estn las especies comparadas.
Normalmente dos secuencias tienen una alta similitud porque
son homlogas, es decir comparten un ancestro comn.
A diferencia de la similitud, la homologa no es un trmino
cuantitativo, dos secuencias o son homlogas, derivan del
mismo ancestro, o no lo son.
A partir de la similitud de las secuencias inferimos la
homologa.
La acumulacin de mutaciones en el ADN a lo largo del
tiempo es la causa de que las secuencias de un mismo gen en
dos especies distintas no sean idnticas.
Cuanto ms tiempo pase desde el ltimo antecesor comn ms
diferente sern las secuencias., un ejemplo de ello est
representada. (Figura 1)
Figura 2. Marco de Lectura.

Para complementar se puede concluir que el Marco abierto
de lectura es una porcin de una molcula de ADN que cuando
se traduce a los aminocidos, no contiene codones de
terminacin. El cdigo gentico lee secuencias de ADN en
grupos de tres pares de bases, esto significa que, en una
molcula de ADN de doble hebra, hay 6 posibles sentidos en
los que pueden abrirse marcos de lectura --tres en direccin
hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
ALINEACION DE SECUENCIAS.
Un alineamiento de secuencias en bioinformtica es una forma
de representar y comparar dos o ms secuencias o cadenas
de ADN, ARN, o estructuras primarias proteicas para resaltar
sus zonas de similitud, que podran indicar relaciones
funcionales o evolutivas entre los genes o protenas
consultados. Las secuencias alineadas se escriben con las
letras (representando aminocidos o nucletidos) en filas de
Figura 1.
Los nucletidos del ADN son Citosina (C), Timina (T),
Guanina (G) y Adenina (A); y los del ARN son Citosina (C),
Uracilo (U), Guanina (G) y Adenina (A).
Los alineamientos sirven, entre otras cosas para:
Asegurarse de que dos secuencias son similares y

cuantificar su similitud.
Encontrar dominios funcionales.
Comparar un gen y su producto.
Buscar posiciones homlogas en las secuencias.
III. ESTUDIO DE SECUENCIA DE AND Y ARN

Se carga la base de datos de las especies en la pgina de la
NCBI, se hallan las grficas de densidad de nucletidos a lo
largo de la secuencia, ver el nmero de nucletidos en la
secuencia, se traduce la secuencia ADN a ARN para lograr la
secuencia de aminocidos de la protena correspondiente.
Se inicia el proceso con el Aguila utilizando Matlab para
bajar y acceder a la base de datos del ADN, se genera la grfica
de densidad de nucleotidos, se convierte de ADN a ARN, se
muestra la distribucin de las bases y los aminoacidos
presentes.
figure
dimercount(Aguila,'chart','bar')%Nucleotidos Adyacentes
%Se convierte de ADN-ARN
ARN_Aguila = dna2rna(Aguila)
%Convierte el valor de ADN-ARN
amino = nt2aa(Aguila)
%Toma la secuencia y lo convierte a aminoacidos
aminoacidos = aacount(amino)
%Cuenta la cantidad de aminoacidos de la secuencia
figure
basecount(Aguila,'chart','pie')
%Distribucion de las Bases
codoncount(Aguila)
Las secuencias de ADN obtenida a travs de Matlab son

demasiado extensas y se muestra en el Anexo 1 para el guila y
en el Anexo 2 para el trepador pechiblanco.
Figura 3. Imagen de un guila.
Figura 4. Densidad de nucletidos del guila.
Figura 3. Trepador pechiblanco.
Codigo en MATLAB utilizado para obtencin de densidad

de nucletidos de cada especie:
%ADN AGUILA
clc
clear
Aguila = getgenbank('NC_024087','SequenceOnly',true)
%Leer Secuencia
ntdensity(Aguila)
%La densidad de Nucleotidos dentro de la secuencia de ADN
basecount(Aguila)
%Informacion de los nucleotidos en la secuencia
basecount(seqrcomplement(Aguila))
%inverso de la funcion anterior
Figura 5. Densidad de nucletidos del trepador pechiblanco.

Se resalta que la densidad de los nucletidos vara bastante
entre las dos especies; Pero al observar la densidad de AT y
CG se observa una simetra similar en las dos aves, se puede
deducir que tienen de codificaciones de ADN similares, y

entonces pueden pertenecer a la misma familia.
AMINOACIDOS
Se hace la traduccin de ADN a ARN y se obtienen los
aminocidos. A dems hace el conteo de esos aminocidos,
estos se deben interpretar con la tabla 1.
Para el guila:
AGUILA
A: 208;
Q: 239;
L: 611;
S: 676;
Se abre el ORF Finder o busca marcos abiertos de lectura

(ORF) en la secuencia de ADN que se introduzca. El programa
devuelve el rango de cada ORF, junto con la traduccin de la
protena correspondiente. En este caso se utiliza la secuencia de
ADN en formato FASTA obtenida en la base de datos de
NCBI, del guila y del trepador pechiblanco. Cada espcimen
se pega en el cuadro or sequence in FASTA format y se da
click en OrfFind.
R: 293; N: 330;
E: 117; G: 141;
K: 244; M: 68;
T: 510; W: 42;
D: 107;
H: 342;
F: 125;
Y: 224;
C: 91;
I: 282;
P: 701;
V: 114
TREPADOR PECHIBLANCO
A: 267;
Q: 275;
L: 601;
S: 581;
R: 282; N: 250; D: 117; C: 78;

E: 122; G: 169; H: 262; I: 312;
K: 244; M: 57; F: 189; P: 591;
T: 460; W: 30; Y: 238; V: 173
IV. MARCO ABIERTO DE LECTURA

Marco abierto de lectura es una porcin de una molcula de
ADN que cuando se traduce a los aminocidos, no contiene
codones de terminacin. El cdigo gentico lee secuencias de
ADN en grupos de tres pares de bases, esto significa que, en
una molcula de ADN de doble hebra, hay 6 posibles sentidos
en los que pueden abrirse marcos de lectura: tres en direccin
hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
Para obtener el Marco Abierto de Lectura o ORF de las dos
especies de estudio,
Figura 7. Resultado encontrado del formato FASTA

insertado para el guila.
Primer se consulta en la pgina de la secuencia de ADN del

Accipitridae (Aguila) y del Sitta carolinensis (trepador
pechiblanco), seleccionando la base de datos Gene. Se
obtiene la secuencia de ADN en formato FASTA, ver figura 6.
Figura 8. BLAST para el trepador pechiblanco.

Figura 6. Secuencia de AND en formato FASTA.
V. ALINEACION DE SECUENCIAS.
Dadas dos secuencias A y B (guila y pechiblanco,

respectivamente)
Se define:
Una funcin de similitud (coincidencias) S(A,B) entre

los elementos A y B de las secuencias a alinear.
Los in/dels (inserciones o deleciones) se penalizan con
un peso W.
Se construye una matriz H de i+1 filas y j+1
columnas. (La secuencia A se ubica en las filas y la
secuencia B en las columnas).
1- Inicializacin: Se inicializa con ceros la primera fila y
la primera columna del ma matriz H.
2- Llenado de Matriz (scoring): La posicin Hij es la
mxima similitud de dos segmentos que terminan en A y B
respectivamente. El valor de Hij depende nicamente del los
valores H(i-1,j-1) , H(i-1, j) y H(i, j-1)
3- Recuperacin de la solucin (Backtracking): Consiste
en tomar la ltima coincidencia del alineamiento y comenzar a
buscar el camino que maximice la funcin. El retroceso
comienza en la posicin i+1,j+1 de la matriz, es en sta
posicin donde se presenta el mximo puntaje del
alineamiento.
El algoritmo recorre los vecinos de la celda actual para
identificar sus predecesores, es decir observa el vecino a la
izquierda, el vecino en la diagonal y el vecino de arriba, y se
selecciona el vecino que presente el valor ms alto. Es de notar
que en el caso que se presente un empate en posible obtener
diferentes alineamientos para las mismas secuencias.
Figura 10. Resultados de comparacin BLAST

Se observa que la similitud entre las dos especies es del
88% con una puntuacin de 10835, lo cual indica que son
especies muy cercanas.
Utilizando la herramienta EMBOST:
Se va a obtener un alineamiento entre dos secuencias
entonces se guarda cada una de sus secuencias de ADN en
formato txt, para que sean adjuntadas y se procede a hacer el
anlisis.
Finalmente se obtiene un archivo o texto de salida, el cual
se coloca como anexo al final del documento, ver anexo 1.
Se obtiene un porcentaje de similitud del 78.8%. con una
puntuacin de 41612 con lo cual tambin se confirma la
familiaridad entre las dos especies.
Utilizando la herramienta NCBI:

Se hace el estudio con el Accipitridae (Aguila) y el Sitta
carolinensis (trepador pechiblanco) obteniendo su informacin
gentica desde la pgina de la NCBI, donde se obtiene su
referencia para secuencia cromosoma, en este caso: MT;
NC_003128.3 y NC_024870.1 respectivamente.
Luego se hace el alineamiento de secuencias de nucletidos
en la plataforma BLAST que tiene la NCBI
VI. COMPARACION DE FAMILIAS

PROTEINAS
A NIVEL DE
Se utiliza el buscador de protenas, en donde se debe

colocar la descripcin de protenas obtenida en la NCBI de la
especie deseada, en este caso NADH dehydrogenase
Luego se utiliza la herramienta WEB Gene3D, en donde se
clasifican las estructuras de protenas descargadas del banco de
datos.
Primero se obtienen las secuencias de protenas de cada una
de las especies en formato FASTA. Una vez obtenidas las
secuencias en formato FASTA se introducen en el CATCH o
clasificador de familias, donde se introduce la secuencia de
protena en formato FASTA y arroja como resultado las
regiones, superfamilias y funcin de familia, como se muestra
en la siguiente figura 11.
Figura 9. Ingresando secuencias para el alineamiento BLAST.
Figura 11. Query de secuencias.
Los resultados son los mismos para las dos secuencias por
lo cual se concluye que pertenecen a las mismas regiones,
familias y superfamilias, la cuales son:
Regin
21-161, 457604, 672725
162-240,
359-456
Secuencia: QUERY
Superfamilia Funcional
3.90.1100.10
3.90.1110.10
605-668
2.30.150.10
727-802
2.40.50.100
803-833,
1085-1266
839-950,
1070-1084
2.40.270.10
2.40.50.150
DNA-directed RNA
polymerase -like domain
DNA-directed RNA
DNA-directed RNA
polymerase subunit beta like domain
DNA-directed RNA
DNA-directed RNA
DNA-directed RNA
Evaluacin
2.1E-124
1.2E-57
5.8E-20
3.9E-23
1.4E-78
2.2E-42
Tabla de resultados CATCH.

Se observ que ambas especies pertencen a la superfamilia
3.90.1100.10 y 3.90.1110.10 con ADN directo de ARN con
Polimerasa como dominio
CONCLUSIONES
desde la cadena general de ADN y ARN hasta las

secuencias de aminocidos y algunas protenas;
pero no es tan preciso ya que la diferencia entre
los dos mtodos, BLAST y EMBOSS fue de
aproximadamente un 10%.
Se puede hacer el estudio de ADN y ARN
nicamente consultando el nmero de secuencia
de cromosomas el cual se cuentra disponible en el
banco de informacin de la NCBI para todas las
especies disponibles hasta ahora, y es suficiente
para hacer la comparacin dado que el algpritmo
BLAST simplemente compara con la base de
datos. Mientras que con EMBOSS es necesario
obtener la secuencia completa y cargarla, por lo
cual es ms engorroso.
Se concluye que ambas especies pertencen a la
superfamilia 3.90.1100.10 y 3.90.1110.10 con
ADN directo de ARN con Polimerasa como
dominio.
Para seres vivos de la misma especie, cuya base de

datos de ADN sea analizada se observara que el
nmero de nucletidos es muy similar, al igual
que los aminocidos presentes en cada uno.
Se puede hacer el estudio de ADN y ARN para
determinar los aminocidos que caracterizan a un
ser vivo, y posteriormente ser til para para
determinar las protenas que constituyen a dicho
ser vivo.
Se lleg a la conclusin que los dos mtodos para
calcular alineamientos entre secuencias genticas
entre especies es bastante acertado en generar un
porcentaje de similitud alto ya que como se ha
visto en informes anteriores, las similitudes van
REFERENCIAS
[1] ROBERTO P. DIAZ Curso virtual Biologia
Computacional, Universidad Nacional de Colombia
Sede
Bogota.
http://www.virtual.unal.edu.co/cursos/ingenieria/2001832
/docs_curso/contenido.html
[2] Matlab aplicado a la bioinformtica Toolbox de
bioinformtica: entorno de software integrado para el
genoma y anlisis protemico - Jairo Pertuz Camp;
[3] MATLAB 7.1, Release 14 Service Pack 3, The
MathWorks Inc.; Bioinformatics Toolbox 2.1.1. The
MathWorks Inc; Bioinformatics Toolbox For Use with
MATLAB, User Guide, V. 21.1, The MathWorks Inc.
2005.
[4] Marcoregalia.com/ Bioinformtica - Universidad Distrital
Francisco Jos de Caldas - Copyright 2011 Open
Reading Frames (ORF) Consulta Octubre de 2014.
http://www.marcoregalia.com/STUFF/UDISTRITAL/Bio
informatica/Actividades/Resumenes%20Clases/Openread
ingframes.html
[5] Christopher P. Austin, M.D. National Human Genome
Research Institute, genome.gov Conuslta Octubre de 2014
http://www.genome.gov/GlossaryS/index.cfm?id= 146
[6] National Center for Biotechnology Information NCBI. Nov.
2014. 8600 Rockville Pike, Bethesda MD, 20894 USA
http://www.ncbi.nlm.nih.gov/
[7] Gene3D v12.0 2014. http://gene3d.biochem.ucl.ac.uk/
[8] CATCH / Gene3D, Protein Structure Classification Database by
I. Sillitoe, T. Lewis, D. Lee, J. Lees, C. Orengo is licensed under
a Creative Commons Attribution 4.0 International License.
2014. http://www.cathdb.info/

Informe Final Bioinformatica Alineación de Secuencias

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Informe Final Bioinformatica Alineación de Secuencias

Caricato da

Copyright:

Formati disponibili

Estudio de ADN, ARN y protenas con Matlab y

herramientas WEB de base de datos sobre dos especies

Abstract-In this paper the study of DNA and RNA sequences

lineal. Los cidos nucleicos portan la informacin gentica

Key-DNA, RNA, nucleotides, codons, amino acids. Words

Palabras claveADN, ARN, nucletidos, codones,

II. MARCO TERICO

Figura 1. Base nitrogenada, un azcar y un cido fosfrico.

MARCO ABIERTO DE LECTURA

Un marco abierto de lectura puede contener un gen completo,

una matriz en las que, si es necesario, se insertan espacios para

Figura 2. Marco de Lectura.

Asegurarse de que dos secuencias son similares y

III. ESTUDIO DE SECUENCIA DE AND Y ARN

Las secuencias de ADN obtenida a travs de Matlab son

Figura 3. Imagen de un guila.

Figura 4. Densidad de nucletidos del guila.

Figura 3. Trepador pechiblanco.

Codigo en MATLAB utilizado para obtencin de densidad

Figura 5. Densidad de nucletidos del trepador pechiblanco.

deducir que tienen de codificaciones de ADN similares, y

Se abre el ORF Finder o busca marcos abiertos de lectura

R: 282; N: 250; D: 117; C: 78;

IV. MARCO ABIERTO DE LECTURA

Figura 7. Resultado encontrado del formato FASTA

Primer se consulta en la pgina de la secuencia de ADN del

Figura 8. BLAST para el trepador pechiblanco.

Dadas dos secuencias A y B (guila y pechiblanco,

Una funcin de similitud (coincidencias) S(A,B) entre

Figura 10. Resultados de comparacin BLAST

Utilizando la herramienta NCBI:

VI. COMPARACION DE FAMILIAS

Se utiliza el buscador de protenas, en donde se debe

Figura 9. Ingresando secuencias para el alineamiento BLAST.

Figura 11. Query de secuencias.

Tabla de resultados CATCH.

desde la cadena general de ADN y ARN hasta las

Para seres vivos de la misma especie, cuya base de

Potrebbero piacerti anche