Sei sulla pagina 1di 16

Bioinformtica Gentica Molecular

NCBI. Bases de Datos: Pubmed, Nucleotide, Protein, Structure

A lo largo de los ltimos 15 o 20 aos, se ha ido acumulando una gran cantidad de informacin
de naturaleza molecular (secuencias de genes, genomas, protenas, etc.), procedente de los
distintos proyectos genoma de diferentes especies (Homo sapiens, Pan troglodytes, Gallus
gallus, Drosophila melanogaster, Takifugu rubripes, Caenorhabditis elegans, etc. etc.).

Toda esta informacin se ha ido depositando en grandes almacenes de informacin de


secuencias, organizadas en bases de datos, con la intencin de que cientficos y pblico en
general, pudiera acceder a ella a travs de internet. Como complemento a esa informacin de
tipo molecular, estos almacenes han incorporado toda una coleccin de publicaciones y
textos cientficos de tipo biomdico. En este sentido, el que un bilogo sepa cmo acceder y
explotar esta informacin de un modo eficiente, resulta hoy en da algo absolutamente
imprescindible y necesario.

De todos estos almacenes de informacin de secuencias, el correspondiente al National


Center for Biotechnology Information (NCBI) puede considerarse como el de referencia en lo
que a obtencin de secuencias moleculares y publicaciones biomdicas se refiere.

Estas prcticas tienen por objeto aprender a manejar la informacin contenida en el NCBI de
una forma ms o menos sencilla o elemental.

La URL (Uniform Resource Locator) del NCBI es http://www.ncbi.nlm.nih.gov , y su pgina


inicial es a da de hoy la siguiente:

4 2

En ella hemos indicado los enlaces que nos llevan a los contenidos de informacin relativos a
publicaciones de ndole biomdica (1), de secuencias de nucletidos (2) y protenas (3), y de la
estructura tridimensional de molculas (4).

1
Bioinformtica Gentica Molecular

ENLACES A PUBLICACIONES DE NDOLE BIOMDICA.

Pubmed: PubMed comprende ms de 24 millones de citas de la literatura biomdica, revistas


de ciencias biolgicas, y los libros en lnea. Las citas pueden incluir vnculos al texto completo
de artculos de PubMed Central (ver ms abajo) y sitios web de editoriales, o solamente al
resumen de dichos artculos.
Bookshelf: Proporciona acceso gratuito a textos en lnea y documentos en ciencias de la vida y
de la salud.
PubMed Central: Es un archivo de revistas de carcter biolgico y biomdico, de libre acceso, y
depositado en la Biblioteca Nacional de Medicina, de los Institutos Nacionales de Salud
(NIH/NLM).
PubMed Health: Proporciona informacin a mdicos y pblico en general sobre la prevencin y
tratamiento de enfermedades y afecciones.

Veamos brevemente cmo buscar referencias biomdicas a travs de PubMed, sobre, por
ejemplo, la organizacin del promotor de eucariotas. El punto de partida de la bsqueda
puede realizarse desde distintos sitios, pero para sistematizar este procedimiento, vamos a
realizar la bsqueda desde la pgina inicial de PubMed. Para ello pinchamos en el enlace
PubMed que vemos en la figura de ms arriba, situado en la columna encabezada por Popular
Resources, lo que nos lleva a la siguiente pgina:

1
2

En la ventana de bsqueda (sealada con una flecha -1) podemos incluir los trminos de
bsqueda (generalmente, en ingls): eukaryotic promoter organization, lo que nos da una
relacin de ms de 250 artculos en los que aparecen cualquiera de los trminos anteriores,
que posteriormente podemos reordenar de acuerdo a distintos criterios: relevancia, tipo de
artculo (revisiones, descripciones completas de un paciente o enfermedad - case report-,
carta, noticia, etc.), periodo de publicacin en aos, etc. etc.

2
Bioinformtica Gentica Molecular

Alternativamente, podemos realizar una bsqueda avanzada de artculos (sealada con la


flecha 2 ver ms atrs), en la que podemos incluir trminos especficos para campos
concretos de la base de datos de PubMed (autor, fecha de publicacin, idioma de la
publicacin, revista, etc.), con lo que la bsqueda se vuelve ms especfica y precisa.

La bsqueda de informacin en las restantes bases de datos PubMed Central, Bookshelf o


PubMed Health, es similar a lo mostrado anteriormente. Conviene que practiques, buscando
en estas bases de datos la informacin que sea de tu inters.

3
Bioinformtica Gentica Molecular

BSQUEDA Y OBTENCIN DE SECUENCIAS NUCLEOTDICAS

El procedimiento es muy similar al indicado para buscar informacin en PubMed, slo que
ahora trabajaremos en una base de datos del NCBI diferente; en este caso ser la base datos
de Nucleotide. En la pgina principal de NCBI pinchamos en el enlace correspondiente a
Nucleotide (Popular resources, columna de la derecha), y entramos en la pgina inicial de
NUCLEOTIDE.

1
2

Al igual que veamos en PubMed, podemos introducir los trminos de bsqueda, bien la
ventanita (flecha 1) o bien a travs del procedimiento de bsqueda avanzad (flecha 2). Esto
ltimo es generalmente preferible, puesto que podemos afinar mucho ms nuestra bsqueda.

Imaginemos que queremos buscar la secuencia del mensajero del gen de la Tirosinasa en el
ratn (mutaciones en el gen de la tirosinasa, producen albinismo) usando el procedimiento de
bsqueda avanda. Introduciremos sucesivamente los trminos Mus musculus y tyrosinase en
los campos de organism y protein name

4
Bioinformtica Gentica Molecular

La respuesta tendra el siguiente aspecto:

Recuadrado en rojo aparece la entrada de Nucleotide correspondiente a la secuencia buscada.


Si pinchamos en el enlace Fasta, tendremos la secuencia en un formato utilizable en distintos
programas bioinformticos.

Una secuencia en formato FASTA, bien de nucletidos o de aminocidos, tiene una sintaxis
caracterizada por una primera lnea que obligatoriamente empieza por el smbolo mayor que
(>) seguido por una identificacin de la secuencia en cuestin; esta lnea es meramente
informativa. A partir de la segunda lnea y siguientes aparece la secuencia de la molcula
propiamente dicha. Por ejemplo, la secuencia de nucletidos ATTGCCGTTATGCAATTGAT en
formato FASTA aparecera como sigue:

>Ejemplo de secuencia en FASTA


ATTGCCGTTATGCAATTGAT

BSQUEDA Y OBTENCIN DE SECUENCIAS DE PROTENAS

El procedimiento de bsqueda es totalmente equiparable al de las bsquedas de secuencias


nucleotdicas, slo que la base de datos del NCBI sobre la que se ha de trabajar es la de
Protein. Podemos acceder a ella desde la pgina principal de NCBI; pinchamos en el enlace

5
Bioinformtica Gentica Molecular

correspondiente a Protein (Popular resources, columna de la derecha), y entramos en la


pgina inicial de PROTEIN.

1
2

Podemos introducir los trminos de bsqueda, bien la ventanita (flecha 1) o bien a travs del
procedimiento de bsqueda avanzad (flecha 2), lo que es preferible, puesto que podemos
afinar mucho ms nuestra bsqueda.

La bsqueda de la secuencia proteica de la tirosinasa (tyrosynase) del ratn (Mus musculus) a


travs del procedimiento de bsqueda avanzada, nos dara el siguiente resultado:

A partir de cualquiera de las entradas sealadas, podramos obtener la secuencia de la


protena buscada.

6
Bioinformtica Gentica Molecular

BSQUEDA Y OBTENCIN DE ESTRUCTURAS TRIDIMENSIONALES

El punto partida para obtener la estructura tridimensional de macromolculas es el enlace


Domains & Structures situado la pgina principal del NCBI, en la columna de la izquierda.
Pinchando en l, llegaremos a la pgina que nos permite acceder a las bases de datos de
estructuras moleculares tridimensionales.

Estas dos bases de datos que vemos recuadradas en la figura, se refieren a la coleccin de
estructuras 3D de una serie de dominios de protenas conservados a lo largo de la evolucin
(CDD), y a la coleccin de estructuras 3D de macromolculas.

Para buscar informacin en ellas se operara exactamente igual que en el caso de PubMed,
Nucleotide, y Protein. Por ello, no vamos a hacer ninguna indicacin especial en ese sentido.

No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas
especficos. NCBI utiliza el visualizador Cn3D (Seen 3D) como estndar.

7
Bioinformtica Gentica Molecular

PROGRAMA DE VISUALIZACIN DE ESTRUCTURAS: Cn3D

La descarga del programa Cn3D se realiza desde la misma pgina Domains & Structures
accesible desde la pgina principal del NCBI. Una vez en ella, activamos la pestaa Tools, y
desde aqu pinchamos en el enlace al programa Cn3D

Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposicin de ver


estructuras moleculares, bien molculas completas o bien dominios de protenas conservados
durante la evolucin. Durante el desarrollo de la prctica, veremos algn ejemplo de
estructura molecular a travs de este programa, as como algunos aspectos bsicos de su
manejo. En la figura que sigue, tan slo mostraremos las dos ventanas principales que se abren
cuando cargamos una estructura molecular en Cn3D. La molcula que vamos a ver es la que
corresponde a los dominios BRCT (BReast cancer C-Terminal domain) de la protena BRCA1.

8
Bioinformtica Gentica Molecular

Como podemos ver, se nos abren 2 ventanas que contienen por un lado la estructura 3D de los
2 dominios BCRT, y por otro la ventana correspondiente a la secuencia aminoacdica de dichos
dominios (1Y98_A) y la secuencia del pptido fosforilado Ctip, que interacta con la protena
BRCA1 (1Y98_B). Como se ha dicho, trabajaremos en la sesin de prcticas con esta estructura
a travs de Cn3D.
En el enlace https://galter.northwestern.edu/guides-and-tutorials/structure-viewers.pdf se
puede seguir una gua de utilizacin del programa (mens, opciones, etc.).

9
Bioinformtica Gentica Molecular

BSQUEDA DE ORFs (MARCOS ABIERTOS DE LECTURA)

El trmino ORF se refiere a una parte de una secuencia nucleotdica que tiene la potencialidad
de codificar un pptido o una protena; es decir, que debe contener un codn o triplete de
iniciacin y un codn de terminacin.

La bsqueda de ORFs en una secuencia de nucletidos tiene muchas utilidades en gentica


molecular. Por ejemplo, puede ayudar a la prediccin de genes, a la determinacin del origen
de pseudogenes, etc.

Veamos el siguiente ejemplo: Se trata de buscar posibles funciones de una secuencia annima
de nucletidos y buscar si presenta alguna relacin con otras secuencias depositadas en la
base datos de genes.
Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si presenta alguna
relacin con secuencias de genes ya conocidos, y si es as, tratar de deducir su posible funcin
fisiolgica, metablica, celular.

Imaginemos que la secuencia de cDNA problema es la siguiente:

1 TTGCGCGAGG GCCGCCCCAG CCGCCCGATC AGCGTCGGCC CCTGCGCTGG


51 CTGAGGGGGA ATCACCCCCC GCTGCCAAAC GCAGGCACGG ACCCCAGTCC
101 TGCGGCGCGC TGGCGGGCAG GTCAGACCGA GCCCTCCAGT GAATCAGGCG
151 ACAAATACAA CGCCAGGGAT CAGCGACGGC AGCGCTACAA GAATCGACGG
201 CGTGTTGGAG GGACCCAGCT CTATGCCGAG TTCAGTCGCC AGCAGAGGTA
251 CTGCCGTGAC TGGGAAGGCG GACCCCAGTA GCGCCTGTGA CGCGGGGACG
301 GGTCAGCGTC TGCCGGTAGC CGGACCGCCC AGGCAGGCTG ACCAAGCGGC
351 GCCTGTGGCA GTTGGCCCAA CAAACGAGCA CGTCCCCCGA ACCACGACGC
401 TGAGCGACAG TCTAGGCCGT GCTAGTGAAC GCACGTGAGC CACGAGACAC
451 TGCAAGTCAG CCGGACTCCT CGTCGGGTCG CCCGCTAGCC CTACCTCGAG
501 TGTCACCCCA GACCTTAAGC GCTGGCTCAT TAGGGTAGGC TCAATCGGGC
551 GGCGACGGCT CTGGCCCCAC AGACTGGGTA ACCTTGCCAA CCAGGCCTCG
601 ATGAAGTGGG TGTGGGCCCT GGCCCTGCTG GCCGCCTGGG CCGCCGCCGA
651 GCGCGACTGC CGCGTGAGCA GCTTCCGCGT GAAGGAGAAC TTCGACAAGG
701 CCCGCTTCAG CGGCACCTGG TTCGCCTTGG CCAAGAAGGA CCCCGAGGGC
751 CTGTTCCTGC AGGACAACTT CGTGGCCGAG TTCAGCGTGG ACGAGACCGG
801 CCAGATGAGC GCCACCGCCA AGGGCCGCGT GTGCCTGCTG AACAACTGGG
851 ACGTGTGCGC CGACAAGGTG GGCACCTTCA CCGACACCGA GGACCCCGCC
901 AAGTTCAAGA TGAAGTACTG GGGCGTGGCC AGCTTCCTGC AGAAGGGCAA
951 CGACGACCAC TGGATCGTGG ACACCGACTA CGACACCTAC GCCGTGCAGT
1001 ACAGCTGCCG CCTGCTGAAC CTGGACGGCA CCTGCGCCGA CGACTACAGC
1051 TTCGTGTTCA GCCGCGACCC CAACGGCCTG CCCCCCGAGG CCCAGAAGAT
1101 CGTGCGCCAG CGCCAGGAGG AGCTGTGCCT GGCCCGCCAG TACCGCCTGA
1151 TCGGCCACAA CGGCTACTGC GACGGCCGCA GCGAGCGCAA CCTGCTGTAA
1201 GGTGCGGCGC GTCTACTCTC CCCCATCCCG CTAGGGCCTG CGGTGTCGCC
1251 GGACCAGGGT CACACCAACC ATCTCACGTG CGGCCCTGTC GTTCACCCTC
1301 CCATCCACTG ACGGCGCGGC AGACCCGGGA GGCCGGCCGA CAGCTGGCGG
1351 CGCGCGCGCC AAGGGAGCTG GCGACGACTC CCGCCACCGG CTGGACGAAA
1401 ATGGCAAGTC TAGGCGCCAG CGTCGCCGTA GAAGGGGTCG TTTTCAGCCG
1451 GACATGGCCG GACACAGTGG CCAGTGGCCG ATCGTCAAGG CCTGATGCCC
1501 GTAAATGGCT TCGTTAGTTT GGCGCCCAGG CGCTCGGCCA GCCGGGCGTT
1551 AGAGCAACAC AGAGTTCGCC GCACCGCCCG CCCGAACGCA GAGAAGGCGA
1601 GAGCGAGTTT GGCCTATAGG AGCCGCCGCT CACGGCAACC GCGCACAAAC
1651 GGGTAAGCCC TCGGCCCAAC CCCGGAGTGC TTAACCCGGC TTCGCGAAGG
1701 CCGAAGTCCG GAGAGGACAG CATGGGTCGT GCGTCAGGGC CTGGCGTTCG
1751 TCGCAAAAAC GCACAAGCTA CCGGAGGATC ACAATGCCCA GACCACCCTA

10
Bioinformtica Gentica Molecular

1.- Bsquedas de Open Reading Frames (ORFs).

Lo primero que vamos a hacer es tratar de ver si contiene algn marco abierto de lectura
(Open Reading Frame ORF), es decir, si contiene un conjunto de codones que son capaces de
traducirse a protena. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el
NCBI (http://www.ncbi.nlm.nih.gov). Hacemos clic en el vnculo correspondiente a esa utilidad,
que se encuentra en la solapa Tools de la entrada Sequence analysis y entramos en la
pgina correspondiente a la bsqueda de ORFs.

La nueva pgina te presenta el programa, pudiendo introducir la clave de una de las secuencias
ya contenidas en las bases de datos, o una propia. Esto ltimo es lo que vamos a hacer
nosotros. En el cuadro grande en blanco vamos a introducir la secuencia problema en formato
FASTA (Formato muy utilizado en bioinformtica, pues todos los programas bioinformticos
reconocen este formato). Para ello escribimos en la primera lnea del cuadro en blanco una
lnea de identificacin de nuestra secuencia problema; dicha lnea empieza siempre con el
smbolo mayor que (>) y a continuacin un texto descriptivo, por ejemplo:

> secuencia problema

11
Bioinformtica Gentica Molecular

En las siguientes lneas ir la secuencia de nucletidos propiamente dicha. No importa que


vayan nmeros al principio de las lneas, ni que haya espacios en blanco.

Una vez que se haya pegado la secuencia hacemos click en OrfFind para ejecutar el programa.

El resultado del programa da los posibles ORFs en las dos cadenas (aparecen 3 posibilidades
para una cadena y otras 3 para la otra). De todas las ORFs que aparecen en cada una de las 3
pautas de lectura de las hebras plus (+) y minus (-), empezaremos por investigar con la mayor
de todas (presenta 600 nucletidos). En la figura siguiente est recuadrada en rojo y marcada
con una flecha. Pinchamos en lla, y aparecer una nueva pantalla con la ORF seleccionada, ya
aislada y con su traduccin a protena.

12
Bioinformtica Gentica Molecular

Traduccin a protena
de la ORF (parte)

Nos quedaremos con la secuencia de la protena que se codificara a partir de este ORF. Para
ello copiaramos la secuencia y la editaramos convenientemente utilizando el bloc de notas,
cuidando de ponerla en formato FASTA. Nos quedara algo as como:

>ORF +1 601-1200
M K W V W A L A L L A A W A A
A E R D C R V S S F R V K E N
F D K A R F S G T W F A L A K
K D P E G L F L Q D N F V A E
F S V D E T G Q M S A T A K G
R V C L L N N W D V C A D K V
G T F T D T E D P A K F K M K
Y W G V A S F L Q K G N D D H
W I V D T D Y D T Y A V Q Y S
C R L L N L D G T C A D D Y S
F V F S R D P N G L P P E A Q
K I V R Q R Q E E L C L A R Q
Y R L I G H N G Y C D G R S E
R N L L

Este archivo lo utilizaremos en un paso posterior, para ilustrar el uso de la herramienta BLAST

2.- BSQUEDAS DE HOMOLOGAS

Hasta ahora lo que tenemos es una secuencia de protena, pero no sabemos nada de ella, ni su
funcin, ni su familia ni el parentesco que guarda con otras protenas de la misma especie o de
otras especies.

13
Bioinformtica Gentica Molecular

Conocer la funcin de una protena es un trabajo duro de laboratorio; una forma aproximada
para saber algo de un protena problema es buscar en las bases de datos, otras protenas que
tengan parecido (homologa) con ella, es decir, tratar de deducir en la medida de lo posible y
por comparacin, la familia de protenas a la que pertenece y su posible funcin.

Uno de los programas ms utilizados para buscar parecidos u homologas es BLAST (Basic Local
Alignment Search Tool). Este programa compara una secuencia de protena o de nucletidos
con una base de datos (de protenas o de nucletidos). Nosotros vamos a utilizar la variante
BLASTP que compara una protena contra una base de datos de protenas.

Este BLAST lo podemos hacer directamente en la pgina web en la que hemos realizado la
bsqueda de ORFs. Para ello seleccionamos Blastp como programa, y como database
seleccionamos Swissprot (Ver figura de la pgina anterior).

Nosotros utilizaremos directamente la herramienta BLAST desde su pgina de inicio. El enlace


lo tenemos en la pgina inicial del NCBI, en la columna de la derecha (Recursos populares).

Puesto que se trata de una posible protena, utilizaremos la opcin Protein blast.

14
Bioinformtica Gentica Molecular

Aqu copiamos la
secuencia problema

Copiamos la secuencia de la protena problema en la ventana en blanco, y seleccionamos una


base de datos de protenas contra la que comparar (Buscar secuencias similares homlogas- a
la nuestra. En este caso hemos elegido la base de datos Refseq de protenas, aunque
podramos haber utilizado otra distinta. Refseq tiene la ventaja de que se trata de una
coleccin exhaustiva de secuencias de protenas no redundantes y bien anotadas. Una vez
incluida la secuencia de trabajo pincharemos en el botn BLAST que aparecer ms abajo en la
misma pgina. Con ello se iniciar el proceso de bsqueda de secuencias similares a la nuestra.
(En el siguiente enlace: ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf
podremos ver una gua explicativa acerca de la herramienta BLAST del NCBI y sus posibilidades
de utilizacin).

Durante el proceso de bsqueda de secuencias nos aparecen unas pantallas que ya nos indican
de qu tipo de protena se trata nuestra protena problema. Una de esas pantallas tiene el
siguiente aspecto:

15
Bioinformtica Gentica Molecular

Como se puede ver, se ha detectado un dominio de Lipocalinas. Si pinchamos en el esquema


que muestra el dominio de lipocalina podremos obtener informacin sobre esas protenas, e
incluso quiz su estructura en 3 dimensiones. Las lipocalinas son pequeas protenas con
forma de cesta que portan en su interior molculas hidrofbicas, y sus funciones son muy
variadas.

Una vez que est terminada la bsqueda aparece una pantalla con los resultados.

Bajamos la pgina hasta ver un listado de las secuencias encontradas. Podremos ver que las
primeras que se han encontrado son todas "Retinol Binding Proteins", es decir lipocalinas que
transportan retinol. Luego aparecen ms lipocalinas.

Cada protena homloga aparece marcada en azul, si pinchamos en los enlaces que aparecen
bajo la columna Accession podremos ver la informacin sobre esa protena, la secuencia,
quin la secuenci, otras bases de datos que tengan informacin sobre esa protena etc.

En resumen, podemos concluir de este anlisis, que nuestra secuencia es una lipocalina, y que
pertenece al grupo de las Protenas que unen retinol (Retinol Binding Proteins). Lo ms
probable, por tanto es que nuestra secuencia corresponda a una protena que tambin
transporte retinol.

16

Potrebbero piacerti anche