Sei sulla pagina 1di 7

Gua Bioinformtica BIO141c

BLAST (Basic Local Alignment Search Tool) es una herramienta bioinformtica


que permite encontrar regiones de gran similitud entre distintas secuencias.
Este programa es capaz de comparar secuencias nucleotdicas o
aminoacdicas (denominadas secuencias query) contra una base de datos, y
es utilizado para determinar la identidad de una secuencia desconocida.
A diferencia de otras herramientas bioinformticas, BLAST es sumamente
rpido en realizar alineamientos de secuencias. Sin embargo, este no puede
garantizar que el alineamiento entre la secuencia query y la base de datos
sea del todo ptimo. Y es por este motivo que para poder confiar en el
resultado que arroja nuestra bsqueda debemos tomar en cuenta un valor
denominado E-Value (Expect Value). Este valor indica el nmero de veces
que por azar nuestra secuencia puede alinear contra las secuencias de la base
de datos. Por lo tanto a menor E-Value (ms cercano a 0) nuestro
alineamiento posee un mayor grado de significancia.

AACGTTTCCAGTCCAAATAGCTAGGC
===--===
=-===-==-======
AACCGTTC
TACAATTACCTAGGC
Hits (+1): 18
Misses (-2): 5
Gaps (existence -2, extension -1): 1 Length: 3
Score = 18 * 1 + 5 * (-2) 2 2 = 6

Figura 1. Ejemplo de la puntuacin y penalizacin en un alineamiento de


secuencia realizado en BLAST.

Para acceder a la interfaz de BLAST se debe ingresar el siguiente link:


http://blast.ncbi.nlm.nih.gov/.

Figura 2. Interfaz de la herramienta BLAST.

Dentro de los usos ms comunes que los investigadores le dan a esta


herramienta, podemos encontrar:
- Identificacin de secuencias desconocidas

- Crear rboles de homologa para una protena

- Obtener pistas sobre la estructura de una protena buscando protenas


similares con estructuras conocidas.

Figura 3. Men de BLAST. Muestra los distintos tipos de herramientas


disponibles.

- En primer lugar, haremos click en la opcin que dice nucleotide


blast. Esta herramienta posee una base de datos de secuencias
nucleotdicas y nos permite ingresar una secuencia desconocida para
realizar un alineamiento vs la base de datos (Figura 3)
- Una vez que hayamos realizado esto, aparecer una interfaz donde
podremos copiar nuestra secuencia desconocida en un recuadro. Para que
el programa pueda reconocer esta secuencia deberemos darle el siguiente
formato (conocido como formato FASTA, Figura 4):
- >Secuencia desconocida (Aqu va el nombre que Uds. Le designarn a
su secuencia, ntese que debe incluir el signo > antes del nombre)

Figura 4. Formato FASTA de la secuencia desconocida.

A continuacin, seleccionaremos la base de datos con la cual


alinearemos nuestra secuencia problema. En esta seccin debemos hacer
click en Others (nr etc.) (Figura 5).
-

Figura 5. Base de datos de BLAST, este men nos permite seleccionar bases
de datos de secuencias de humano, ratn, etc.

- Finalmente, haremos click en Highly similar sequences, esta opcin


nos permitir seleccionar secuencias con un mayor porcentaje de
alineamiento y a continuacin, haremos click en BLAST (Figura 6).

Figura 6. Este recuadro determinar el grado de exigencia con el que ser


realizado el alineamiento de nuestras secuencias.

Una vez que sepamos a qu protena corresponde, podemos tomar la


secuencia completa de nuestra protena de inters haciendo click en el link
seguido de Sequence ID, como muestra la Figura 7. Luego accedemos al
formato FASTA de la secuencia donde podremos encontrar la secuencia
completa de la protena de nuestro inters.

Figura 7. Alineamiento de la secuencia query con una secuencia de la base de


datos de BLAST, correspondiente a la protena superxido dismutasa SOD1.

- Una vez que tengamos la secuencia completa del DNA de nuestra


protena haremos la conversin de DNA a secuencia de aminocidos
utilizando
una
herramienta
llamada
ORF
Finder.
http://www.ncbi.nlm.nih.gov/projects/gorf/
- Aqu podremos ingresar nuestra secuencia en formato FASTA para
luego obtener distintos marcos de lectura e identificar el que corresponde
a nuestra protena de inters (Figura 8).

Figura 8. Secuencia nucleotdica de la protena SOD1 en el programa ORF


finder.

- Una vez que hayamos apretado en OrfFind, podremos obtener el


nmero total de posibles marcos de lectura para nuestra protena de
inters. La Figura 9 muestra distintas posibilidades de marcos de lectura
dentro de la secuencia nucleotdica. En este caso, el primer marco de
lectura corresponde a la protena SOD1.

Figura 9. Resultado de la bsqueda de ORFs de la secuencia nucleotdica

Figura 10. Secuencia de aminocidos correspondiente a la protena SOD1


utilizando el programa ORF Finder.
Preguntas:

- Cuntos alineamientos con 100% de identidad pudo determinar a


partir de su secuencia desconocida? Cules son los e-values de los
alineamientos con mayor porcentaje de identidad?
- Cul es la protena que codifica su secuencia problema?
- De los resultados que arroj el anlisis, Existen alineamientos que no
posean el 100% de identidad? A qu se podra deber esto?
- Qu otros usos podra darle a estas herramientas bioinformticas?
- Investigue cual es la funcin y ubicacin de su protena problema.
- Si en un caso hipottico Ud. se encontrara con dos secuencias de
distintas protenas pero con % de indentidad y E-value similares, Qu
hara para determinar que alineamiento es el que corresponde a su
protena?

Potrebbero piacerti anche