Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de Bioinformática
Autores:
Juan Capel Salinas
Fernando Juan Yuste Lisbona TEXTOS
DOCENTES
nº 5
Manual de prácticas de
BioinforMática
Departamento de
Biología y Geología, área de Genética
Manual de prácticas de Bioinformática
© del texto: sus autores
© Colección Textos docentes nº 5
Editorial Universidad de Almería, 2016
editorial@ual.es
www.ual.es/editorial
Telf/Fax: 950 015459
¤
ISBN: 978-84-16642-34-2
Depósito legal: AL 1567-2016
Índice
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Filogenias basadas en secuencias de proteínas . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 81
Identificación de familias multigénicas. . . . . . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 82
Alineamientos de secuencias como base de los árboles filogenéticos .. . . . ... . .... . . .. . ... ..... ....... 87
Creación de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . .... . ... . .... . . .. . ... ..... ....... 89
Corolario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
L que participan científicos de muy diversa índole. Por ello, la Bioinformática podría definirse como
una ciencia multidisciplinar donde convergen en armonía los planteamientos experimentales de
la Biología Molecular y Genética, con los enfoques metodológicos y tecnológicos de la Ciencia de la
Computación y la Ingeniería Informática, todo ello dirigido hacia la administración, el análisis y la
comprensión del conocimiento Biológico y Científico.
El desarrollo de herramientas bioinformáticas ha experimentado una importante revolución en la
última década, provocada por la combinación del impacto de Internet y los espectaculares avances
en el campo de la Genómica, los cuales generan ingentes cantidades de datos, cuya gestión y análisis
plantean numerosos problemas que deben ser resueltos desde una perspectiva bioinformática. Conocer
cómo abordar y solucionar estos problemas son competencias que deberían poseer los investigadores
y trabajadores en cualquiera de los ámbitos de la Biotecnología.
La asignatura de Bioinformática ofrece una amplia visión sobre las aplicaciones bioinformáticas
más comunes, así como los fundamentos científicos en las que se basan. El objetivo general de este
manual de prácticas es que los alumnos aprendan cómo acceder de forma eficiente a diferentes bases
de datos biológicas, así cómo utilizar herramientas computacionales para solucionar casos prácticos
que requieren el análisis de datos moleculares.
Q Volver al índice
Práctica 1: Bases de datos bibliográficas
Las bases de datos (BD) bibliográficas han popularizado su uso en la era de Internet y, hoy por hoy,
son un instrumento indispensable para la difusión y el conocimiento de la producción científica. En
general todas las bases de datos bibliográficas actuales se caracterizan por contener registros con in
formación básica sobre:
1. El documento (generalmente artículos) como título, tipo de documento, idioma, palabras claves
y descriptores.
2. La fuente de donde provienen los documentos (principalmente revistas) como título, año de
publicación, volumen, número y páginas.
3. La autoría, como el nombre o los nombres de los autores, institución de inscripción y país.
Normalmente, para cada documento se asignan descriptores para clasificarlos y utilizarlos pos
teriormente como referencia para recuperarlos por medio de las búsquedas. Las BD más completas
también contienen resúmenes, referencias, citas, conexión al documento en texto completo (libre o
restringido a un pago), los documentos relacionados, análisis bibliométricos y herramientas electrónicas
para almacenar y manejar las referencias recuperadas.
Entre las características más importantes a considerar en una BD bibliográfica están la cantidad
de registros y el tipo de campos que capturan, las herramientas de búsqueda, manejo y análisis de los
registros, así como la cobertura tipológica y temática.
Actualmente, la búsqueda de información publicada en diferentes BD bibliográficas es una de las
tareas más frecuentes para obtener información precisa y útil dirigida a solucionar un problema cien
tífico. Es por ello que los objetivos principales de la presente práctica son:
Q Volver al índice
10 Manual de prácticas de Bioinformática
http://www.ncbi.nlm.nih.gov/pubmed/
Veamos cómo buscar referencias bibliográficas a través de PubMed. Por ejemplo, vamos a buscar
información sobre una familia de factores de transcripción denominados “WUSCHEL-related homeo
box” (WOX), los cuales están relacionados con la organización de grupos de células meristemáticas
que mediante sucesivas etapas de diferenciación y división celular dan lugar a los diferentes órganos
de una planta.
En la ventana de búsqueda (flecha 1) podemos incluir los términos de búsqueda (en inglés): “WUS
CHEL-related homeobox”, lo que nos da una relación de 65 artículos en los que aparecen cualquiera de
los términos introducidos y que posteriormente podremos reordenar de acuerdo a nuestros criterios;
relevancia, tipo de artículo, periodo de publicación en años, etc.
Alternativamente, podemos realizar una búsqueda avanzada de artículos (flecha 2, página anterior), en
la que podemos incluir términos específicos para campos concretos de la BD de PubMed (autor, fecha de
publicación, idioma de la publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 11
https://www.recursoscientificos.fecyt.es/
WOS es un servicio en línea de información científica, suministrado por Thomson Reuters, integra
do en ISIWeb of Knowledge. Por ello, WOS incluye tres grandes BDpara cada rama del conocimiento:
Science Citation Index (SCI), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index
(A&HCI). De este modo, WOS facilita el acceso a un conjunto de BD en las que aparecen citas de
Q Volver al índice
12 Manual de prácticas de Bioinformática
artículos de revistas científicas, libros y otros tipos de material impreso que abarcan todos los campos
del conocimiento académico.
En este caso, al incluir como términos de búsqueda “WUSCHEL-related homeobox” y realizando
dicha búsqueda dentro de la categoría “Tema”, nos da una relación de 69 artículos, los cuales poste
riormente podremos reordenar de acuerdo a nuestros criterios: área de investigación, tipo de artículo,
periodo de publicación en años, etc.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 13
https://scholar.google.es/
A través de su funcionalidad de «Citado por», es posible consultar los resúmenes de aquellos artículos
que hayan citado el artículo de interés. Además, a través de su función de «Artículos Relacionados»,
Google Académico presenta una lista de artículos estrechamente relacionados, los cuales se ordenan
inicialmente por lo similares que sean estos artículos al resultado original, pero también teniendo en
cuenta la relevancia de cada documento.
Q Volver al índice
14 Manual de prácticas de Bioinformática
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe obtener las respuestas a las siguientes preguntas:
Q Volver al índice
Práctica 2: Bases de datos biológicas
Las bases de datos (BD) biológicas constituyen una herramienta esencial para almacenar, estructurar,
organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su
rápido crecimiento, hacen de las BD una herramienta clave. Por ello las BD se han convertido en un
instrumento indispensable para los científicos experimentales del campo de la biología, así como para
aquellos científicos del área de la bioinformática que desarrollan experimentos in silico. Los repositorios
de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura
de proteínas, genomas, expresión genética, taxonomía, metabolismo, factores de transcripción, etc.
Nos podemos hacer una idea de la cantidad y variedad de BD disponibles accediendo a la página
Database of Biological Database (DBD), a la cual puede acceder a través del siguiente enlace: http://
www.biodbs.info/
La búsqueda de información publicada así como la descarga de secuencias de moléculas de interés
desde las BD, son unas de las tareas más comunes en bioinformática. Esta práctica cubrirá con cierta
extensión esta labor, y al final de ella seremos capaces de extraer la información precisa de las BD más
comunes, de una manera eficiente. De este modo, los objetivos principales de la presente práctica son:
Clasificación de BD biológicas
Las BD biológicas se han desarrollado para diversos propósitos y almacenan datos muy heterogéneos.
Según el alcance y cobertura de los datos almacenados, las BD pueden clasificarse en:
• Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Entre este tipo de BD se
encuentran las tres BD de ácido nucleicos, que se localizan en Europa (EMBL, European Mole
cular Biology Laboratory, http://www.embl.de/), Japón (DDJB, DNA Data Bank of Japan, http://
www.ddbj.nig.ac.jp/) y Estados Unidos (NCBI, National Center for Biotechnology Information,
http://www.ncbi.nlm.nih.gov/). Estas tres BD fueron establecidas como una Colaboración
Internacional de BD de Secuencias de Nucleótidos en 1988, para colectar y compartir secuen
cias de ADN y ARN. Desde entonces, todas ellas están conectadas e intercambian las nuevas
secuencias todos los días. Por lo tanto, independientemente de la BD que se consulte, en las
tres se encuentra depositada la misma información.
• Especializadas: contienen información específica o de especies particulares. Por ejemplo, BD
de genomas de organismos concretos como Drosophila (Flybase, http://flybase.org/), Arabi
dopsis (TAIR, https://www.arabidopsis.org/) o vertebrados (ENSEMBL, http://www.ensembl.
org/); BD de factores de transcripción (PlantTFDB, Plant Transcription Factor Database, http://
planttfdb.cbi.pku.edu.cn/); o BD de rutas metabólicas (KEGG, http://www.genome.jp/kegg/).
Q Volver al índice
16 Manual de prácticas de Bioinformática
estos interfaces sean una página web, lo que posibilita que se acceda a los datos utilizando un simple
navegador web. En las diferentes BD, estos interfaces proporcionan herramientas de búsqueda y ficheros
de texto en los que mostrar la información. Cada uno de los ficheros incluye la información de uno
o varios registros de la BD. Durante la práctica utilizaremos la BD de nucleótidos de Estados Unidos,
gestionada por el NCBI, por ser una de las más sencillas e intuitivas. En cualquier caso, el formato en
el que se encuentran depositadas las secuencias de genes y proteínas en las tres BD principales (i.e.
EMBL, European Molecular Biology Laboratory; DDJB, DNA Data Bank of Japan; y NCBI, National
Centerfor Biotechnology Information) es el mismo, puesto que se estandarizaron los documentos en los
que se recogen la información necesaria para depositar una secuencia en cualquier BD. A continua
ción, analizaremos un ejemplo concreto de secuencia nucleotídica depositada en la BD del NCBI. El
procedimiento es muy similar al indicado en la Práctica 1 para buscar información en PubMed, sólo
que ahora trabajaremos con una BD del NCBI diferente; en este caso será la BD “Nucleotide”.
Podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha 1) o a través
de del procedimiento de búsqueda avanzada (flecha 2). Esto último es generalmente preferible, puesto
que podemos afinar mucho más nuestra búsqueda.
Imaginemos que queremos buscar la secuencia del mensajero de la adenosina quinasa (enzima
que cataliza la formación de adenosina monofosfato, AMP, a partir de adenosina más ATP) de la es
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 17
pecie Arabidopsis thaliana usando el procedimiento de búsqueda avanzada. Para ello introduciremos
sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos “Organism” y
“Title”, respectivamente.
Entre los resultados obtenidos vamos a seleccionar aquellas resultados que se incluyen dentro de
la BD Refseq, la cual corresponde a una colección de secuencias no redundantes y bien anotadas.
Este filtro se puede aplicar haciendo clic en la etiqueta “Refseq” (recuadro rojo) o bien al inicio de la
búsqueda avanzada, indicando dentro de la categoría “Filter” el término “Refseq”.
En las BD todas las nuevas secuencias que se van introduciendo reciben un número o referencia
que las identifica, en este caso entre los resultados obtenidos seleccionaremos la secuencia con núme
ro de identificador “NM_111817.3” (subrayado en rojo). Si pinchamos en el enlace “FASTA” (flecha),
tendríamos la secuencia en un formato utilizable en distintos programas bioinformáticos.
Q Volver al índice
18 Manual de prácticas de Bioinformática
Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis carac
terizada por un primer párrafo que obligatoriamente empieza por el símbolo “mayor que” (>) seguido
por un nombre, número o referencia que identifica la secuencia en cuestión; este párrafo es meramente
informativa. En el segundo párrafo se encuentra la secuencia de la molécula propiamente dicha. No
hay más párrafos en el formato FASTA.
De nuevo, podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha
1) o a través de del procedimiento de búsqueda avanzada (flecha 2), lo cual permite afinar mucho más
nuestra búsqueda.
La información que dispone la BD incluye la secuencia de aminoácidos de la proteína. En este caso
realizaremos la búsqueda de la secuencia proteica de la adenosina quinasa de la especie Arabidopsis
Q Volver al índice
Juan Capel Salinasy Fernando Juan Yuste Lisbona 19
thaliana usando el procedimiento de búsqueda avanzada. Para ello, al igual que en el caso anterior,
introduciremos sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos
“Organism” y “Title”, respectivamente. Tras realizareste proceso debúsqueda aparecen aparecen 17
proteínas de la especie Arabidopsis thaliana que incluyen el término “adenosine kinase“.
Al igual que con la BD de nucleótidos, entre los resultados obtenidos vamos a seleccionar aquellas
proteínas que se incluyen dentro de la BD Refseq, la cualtiene la ventaja de que se trata de una colec
ción de secuencias de proteínas no redundantes y bien anotadas. Este filtro se puede aplicar haciendo
clic en la etiqueta “Refseq” (flecha) o bien al inicio de la búsqueda avanzada, indicando dentro de la
categoría “Filter” el término “Refseq”.
Una vez filtrado los resultados, aparecen 4 proteínas, entre las cuales hay 2 secuencias de la pro
teína adenosine kinase 1, una con un tamaño de 302 aa y otra de 344 aa. A continuación pinchamos
Q Volveral índice
20 Manual de prácticas de Bioinformática
En esta parte de la práctica, siguiendo los procedimientos descritos anteriormente, el alumno debe
realizar las siguientes tareas:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 21
No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas específicos.
NCBI utiliza el visualizador Cn3D como estándar. La descarga del programa Cn3D se realiza desde la
misma página “Domains & Structures” accesible desde la página principal del NCBI. Una vez en ella,
activamos la pestaña “Tools”, y desde aquí pinchamos en el enlace al programa Cn3D.
Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver estruc
turas moleculares, bien moléculas completas o bien dominios de proteínas conservados durante la
evolución. Accedemos a la BD de dominios conservados (CDD) y realizamos la búsqueda del termino
“MADS”. El nombre de la familia multigénica MADS-box deriva de las iniciales de sus cuatro miembros
fundadores: MCM1 (Saccharomyces), AGAMOUS (Arabidopsis), DEFICIENS (Antirrhinum) y SERUM
RESPONSE FACTOR (Homo sapiens). Estas proteínas actúan como factores de transcripción, propios
de un buen número de eucariotas, destacándose su presencia en animales, plantas y en levaduras. A
su vez, intervienen en múltiples funciones, entre ellas destaca que están involucrados en el desarrollo
floral de muchas plantas.
Q Volver al índice
22 Manual de prácticas de Bioinformática
Durante el desarrollo de la práctica, veremos como ejemplo la estructura molecular del dominio
MADS a través del programa Cn3D, así como algunos aspectos básicos de su manejo. Si hacemos clic
en la etiqueta “MADS: MADS domain” (primer resultado, flecha), accederemos a la siguiente página:
En cuanto a su estructura, las proteínas MADS-box poseen sus dominios de interacción con el
ADN en su zona N-terminal (de unos 56 aminoácidos). Las secuencias de aminoácidos que definen
el dominio MADS pueden observarse al final de la página (recuadro rojo), en la sección “Sequence
Alignment”.
Haciendo clic en la figura del dominio MADS (flecha) se inicia la descarga de un fichero llamado
“cddsrv.cn3” que podemos abrir con el programa Cn3D. Al abrir dicho fichero podremos ver la es
tructura tridimensional del dominio MADS. Como podemos ver, se abren 2 ventanas que contienen
por un lado la secuencia aminoacídica que define al dominio:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 23
En la imagen se muestra que el dominio MADS está formado por dos hélices alfa (cilindros verdes)
y dos láminas beta (rectángulos amarillos).
Durante el transcurso de esta práctica sólo hemos visto los aspectos básicos del manejo del programa
Cn3D, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa (menús, opciones, etc.) que encontrará en el siguiente enlace: https://galter.northwestern.
edu/guides-and-tutorials/structure-viewers.pdf
Q Volver al índice
24 Manual de prácticas de Bioinformática
>cDNA_problema_1
AAAATCTCTTTACTACCAGCAAGTTGTTTTCTTGCTAACTTCAAACTTCTCTTTCTCTTGTTCCTCTCTAAGTCTT
GATCTTATTTACCGTTAACTTTGTGAACAAAAGTCGAATCAAACACACATGGAGCCGCCACAGCATCAGCAT
CATCATCATCAAGCCGACCAAGAAAGCGGCAACAACAACAACAACAAGTCCGGCTCTGGTGGTTACACGT-
GTCGCCAGACCAGCACGAGGTGGACACCGACGACGGAGCAAATCAAAATCCTCAAAGAACTTTACTACAACA-
ATGCAATCCGGTCACCAACAGCCGATCAGATCCAGAAGATCACTGCAAGGCTGAGACAGTTCGGAAAGATT-
GAGGGCAAGAACGTCTTTTACTGGTTCCAGAACCATAAGGCTCGTGAGCGTCAGAAGAAGAGATTCAACGGA-
ACAAACATGACCACACCATCTTCATCACCCAACTCGGTTATGATGGCGGCTAACGATCATTATCATCCTCTACTT
CACCATCATCACGGTGTTCCCATGCAGAGACCTGCTAATTCCGTCAACGTTAAACTTAACCAAGACCATCATCTC-
TATCATCATAACAAGCCATATCCCAGCTTCAATAACGGGAATTTAAATCATGCAAGCTCAGGTACTGAATGTGGT
CAACAACGTAGGTGGAGGATGGGCAAACATGGATCATCATTACTCATCTGCACCTTACAACTTCTTCGATAGA-
GTTGTTAATGCTTCTAATGGCTACATGAGTAGCCATGTCTATGGATCTATGGAACAAGACTGTTCTATGAATTA-
GCAAAGCCTCTGTTTGGTCTAGAAGGTCATCAAGAAGAAGAAGAATGTGGTGGCGATGCTTATCTGGAACATC-
GACGTACGCTTCCTCTCTTCCCTATGCACGGTGAAGATCACATCAACGGTGGTAGTGGTGCCATCTGGAAGTAT-
GGCCAATCGGAAGTTCGCCCTTGCGCTTCTCTTGAGCTACGTCTGAACTAGCTCTTACGCCGGTGTCGCTCGG
GATTAAAGCTCTTTCCTCTCTCTCTCTCTTTCGTACTCGTATGTTCACAACTATGCTTCGCTAGTGATTAATGAT
GCAGTTGTTATATTAGTAGTTAACTAGTTATCTCTCGTTATGTGTAATTTGTAATTACTAGCTAAGTATCGTCTA-
GGTTTTAATTGTAATTGACAACCGTTTTATCTCTATGATGAATAAGTTAAAATTTTA
Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura (Open
Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de traducirse
a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el NCBI. Hacemos
clic en el vínculo correspondiente a esa utilidad, que se encuentra en la etiqueta “Tools” de la entrada
“Sequence analysis” y entramos en la página correspondiente a la búsqueda de ORF’s.
Q Volver al índice
Juan Capel Salinasy Fernando Juan Yuste Lisbona 25
La nueva página permite introducir el identificador de una de las secuencias ya contenidas en las
BD, o analizar una secuencia problema. Esto último es lo que vamos a hacer nosotros. En el cuadro
grande en blanco vamos a introducir la secuencia problema en formato FASTA.
El programa da como resultado los posibles ORF’s, tanto para la hebra plus (+) como para la hebra
minus (-), mostrando 3 posibilidades para cada una de las hebras. De todos los ORF’s que aparecen en
cada una de las 3 pautas de lectura de las hebras plus (+) y minus (-). Empezaremos por investigar el
mayor de todos (en este caso 879 nucleótidos). En la figura siguiente está recuadrado en rojo y mar
cado con una flecha. Pinchamos sobre él, y aparecerá una nueva pantalla con el ORF seleccionado, ya
aislado y con su traducción a proteína.
Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para ello,
utilizando el bloc de notas, copiaríamos la secuencia y la editaríamos convenientemente en formato
FASTA. Nos quedaría algo así como:
Q Volveral índice
26 Manual de prácticas de Bioinformática
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVNVKL
NQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMDHHYS
SAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
Esta secuencia será objeto de estudio en la próxima práctica para ilustrar el uso de la herramienta
BLAST. No obstante, en este punto de la práctica, el alumno deberá analizar la secuencia del cDNA
problema mostrado a continuación e indicar en formato FASTA cuál sería su secuencia proteica pre
dicha más probable.
>cDNA_problema_2
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAAAA-
ATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGAATATTGA-
AGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGCTAAGTTGAGA
CAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGAAAGACAAAAGAAGA
GGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTCCACATCTTTGGAGATCTCCT-
GATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTCCATCACCATCTTCACATGGGGTATTAC-
CAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGAGAAGAGCTTTAGGGAGTGTTCAATATCAC-
CACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTTGATCCTTACAACAATATGAGTACTACTTCTCCAG
CAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACACTATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAA-
ATTACCAAAGGGGTAACTCTGCTTTAGAAACTCTGTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCT-
GCATCAAACATCATGAATCTTCTGGAGGATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCA-
ACTCTTTCCCCTAAATTATGAACTAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGC
TATTTGGACCTTATGGTAATGTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT
Mapas de restricción
Un mapa de restricción es la ubicación dentro de una secuencia nucleotídica de los sitios de corte
para diferentes enzimas. Generalmente, queremos conocer estos lugares de cortes para varios objetivos
relacionados con la tecnología del DNA recombinante. Para realizar este tipo de análisis de restricción
se utilizan herramientas bioinformáticas, las cuales localizan en la secuencia nucleotídica las dianas
de diferentes enzimas de restricción. Para hacer estos análisis necesitamos una BD que contenga las
secuencias reconocidas por las diferentes enzimas. Posteriormente, el programa utilizará esta BD para
localizar las diferentes dianas de restricción presentes en nuestra secuencia problema. Existen varias
herramientas bioinformáticas que nos indican las dianas de corte de enzimas de restricción. Algunas
de estas herramientas son:
WatCut http://watcut.uwaterloo.ca/watcut/watcut/template.php
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 27
remap http://www.bioinformatics.nl/cgi-bin/emboss/remap
Durante el desarrollo de esta práctica, utilizaremos la herramienta Webcutter 2.0 para la búsqueda
de dianas de restricción.
Q Volver al índice
28 Manual de prácticas de Bioinformática
En la sección “Please select the type of analysis you would like” indicaremos que se trata de una
secuencia linear; mientras que en la sección “Please indicate how you would like the restriction sites
displayed” indicaremos que nos muestre el mapa de restricción y la lista de los sitios de restricción
ordenados secuencialmente por número de base, tal y como se muestra en la siguiente figura.
En la sección “Please indicate which enzymes to include in the display”, indicaremos que tipo de
enzimas queremos que aparezcan en la página de resultados, en nuestro caso “All enzymes”. Posterior
mente, seleccionaremos que tipo de enzimas queremos incluir en el análisis dentro de la sección “Please
indicate which enzymes to include in the analysis”. En este caso utilizaremos sólo aquellas enzimas cuyas
dianas de restricción sean igual o mayor de 6 bases. Finalmente haremos clic en “Analyze sequence”.
Después de unos segundos, se abrirá una nueva página con los resultados del análisis. En primer
lugar aparece el mapa de restricción “Graphic map” (página siguiente).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 29
Q Volver al índice
30 Manual de prácticas de Bioinformática
En segundo lugar podemos encontrar la tabla donde se indican los sitios de restricción ordenados
secuencialmente por número de base, como se muestra en la siguiente figura.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 31
Por último, antes de terminar esta práctica, el alumno deberá buscar las dianas de restricción de
la secuencia nucleotídica problema que se muestra a continuación. Para ello utilizará sólo aquellas
enzimas cuyas dianas de restricción sean igual o mayor de 8 bases.
>Secuencia_problema
GAAAAGAAAAGTGAACAATACACTGTTTTTTACTAATTATTTTTTAGAAAAAGAAAAAAGGAATATTGTGT-
GTTTGCTTTTTTTTCTGACTAGTAGTATTGCTAACTATGTATTCCATTAAGGATTTGCTGTGAAAAAGCCTGATAT-
CAGTAAGCATAAAACTCGGGAGATCACTTACACACACACACCCTCGTAAAAAAGAGAAGAGAGATTTACT-
GTTAAACAGAGGTTTTTTTCCATTTCTTTTTTTTTTCTCAGTGTGTGTGAGAGAGAGAGATGGTTTTCATA-
GGCAAAAACAAATAGAAAGGAACAAAATTTAGAGTGAAGAAGAAAGTGTGTGAGAGAATAATGGAGGGT-
GGTTCTAGTGGAAATACTAGTACATCTTGTTTAATGATGATGGGATATGGAGATCATGAGAACAACAACAA-
CAACAATGGAAATGGTAATGGAAATGGAAATGGAAATGTAACAATTTGTGCTCCTCCAATGATGATGATGAT
GCCTCCTCCTCCTCCTTCTTTAACTAACAATAACAATGCAGAAACAAGCAGCAACAACATCCTTTTTCTTCCTTT
CATGGACAACAACAACAATAATCCTCAAGAAGACAACAACTCTTCTTCTTCTTCCATCAAGTCAAAGATTAT-
GGCTCATCCTCACTACCATCGTCTCTTGACTGCTTATCTCAATTGTCAAAAGATAGGAGCTCCGCCAGAAGTGGT-
GGCAAGGCTAGAGGAAATATGTGCCACGTCAGCAACAATGGGCCGTAGCAGTAGTAGTAGTGGTGGTGGAAT
CATTGGAGAAGATCCTGCACTAGATCAGTTCATGGAGGCTTATTGTGAGATGCTGACAAAATATGAACAAGA-
ACTCTCAAAACCCTTCAAGGAAGCCATGGTTTTTCTTTCAAGAATTGAGTGTCAGTTCAAAGCTTTAACTCTT
GACGTGAATAACAGTTTCATCGACCCCCAGGCTGAGGATAGAGAGCTCAAAGGTCAATTGTTGCGTAAGTA-
GCACCTAATTCTTCTCATGAATCTGCTTTGGGCGAGGCAATGGATAGAAATGGATCATCTGATGAAGAGGTT-
CAGCGGTTACTTGGGAAGCCTTAAGCAGGAGTTCATGAAGAAGAGGAAGAAAGGCAAGCTGCCTAAGGAA-
GCAAGGCAACAATTGGTGGATTGGTGGCTTAGACATATTAAATGGCCATATCCATCGGAATCTCAGAAGCTTG
CACTAGCTGAATCAACGGGATTGGACCAGAAGCAAATAAACAACTGGTTTATCAATCAAAGAAAGAGGCATT-
GGAAACCATCAGAAGATATGCAGTTTGTTGTGATGGATGCTGCTCATCCACATTACTATATGGATAATGTTCTT
GCTAACCATTTCCCAATGGATATGACACCCTCTCTCCTCTGAATTAAGATTTGTCATTATTAGTATCAAGGAT-
GTTTAATTAATTTGCATATTACTTGTGTGCATGTAGTAGTACAAGGTATTGTGACACAATCAACTTTTTATTAGAC-
CAAATATATAAAGTGCTTGTAATAGATCTTTCTATTATCATCTTTAATTATAGAATTAAATAGTTTGTACTTGCTAAA-
AATTTTGAAAAATAA
Q Volver al índice
Práctica 3: BLAST, una herramienta de análisis de secuencias
BLAST (Basic Local Alignment Search Tool) es un programa informático de alineamiento de secuen
cias, ya sea de ADN o de proteínas, que puede comparar una secuencia problema con otra secuencia
o con todas las secuencias que se encuentren en una base de datos (como por ejemplo la base de datos
de Refseq que contiene una colección de secuencias de proteínas no redundantes y bien anotadas)
encontrando las secuencias de la base de datos que tienen mayor parecido a la secuencia problema.
BLAST fue creado y es mantenido por el NIH (National Institutes of Health) a través del NCBI
(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/) siendo de dominio
público y de uso gratuito. La ventaja de utilizar BLAST a través del formulario que provee el NCBI es
que el usuario no tiene que mantener al día las bases de datos y además la búsqueda se realiza muy
rápidamente.
BLAST utiliza el algoritmo Smith-Waterman que se basa en el uso de programación dinámica para
garantizar que el alineamiento local encontrado es óptimo con respecto a un determinado sistema de
puntuación como las matrices tipo BLOSUM o PAM. Una matriz de este tipo contiene la puntuación
(score) que se le da al alinear un nucleótido o un aminoácido de la posición X de la secuencia A con
otro aminoácido de la posición Y de la secuencia B. El uso de este tipo de matrices permite a BLAST
dar una puntuación a los alineamientos que realiza. Además, BLAST utiliza un algoritmo heurístico
para calcular la significación de los resultados, lo que nos dará un parámetro con el que valorar los
resultados que se han obtenido tras la búsqueda.
Durante esta práctica se utilizará el programa BLAST para analizar tanto secuencias de ADN como
de aminoácidos. Durante su transcurso, aprenderemos a extraer, de forma estructurada y eficaz, la
información necesaria de las diferentes bases de datos moleculares. De este modo, el objetivo principal
de esta práctica es:
Q Volver al índice
34 Manual de prácticas de Bioinformática
CAMPO DESCRIPCIÓN
Sequencing:
PRIMERS M13 Forward,
PolyATail: no RV-M Reversed Cebadores utilizados para obtener la secuencia de
interés. Información sobre si la secuencia contiene
o no cola de poliA
SEQUENCE
CACTTGAAGAAGCCTGAGAACTGGGCTCTGGTTGGGAAGGCCA Secuencia
amplificada con los cebadores anterior
AGTTTTATTACATTGCTGGATTCTTCCTCACGGTATCACCAGAATCCATT-
mente descritos
CAGTTGGTACGTGAACATGCTGCTGCAAACAACAAGGTGTTCACGAT
GAACCTTTCTGCTCCATTCATCTGT
Entry
Last Updated:
Created: Oct 202010 Fecha de creación y última actualización del regis
tro
COMMENTS
Observaciones sobre cómo se ha obtenido la se
The sequence was obtained from samples subjected to vitrification cuencia
solution treatment of cryopreservation
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 35
CAMPO DESCRIPCIÓN
PUTATIVE ID
Función putativa y origen de esta asignación de
Assigned by submitter
función
adenosine kinase 1
LIBRARY
Lib Name: LIBEST_026723 Arabidopsis vitrification solution
Library
treatment
Organism: Arabidopsisthaliana
Ecotype: Col-0
Tissue type: Seedlings
Develop. stage: 2d and 3d
Lab host: E. coli DH5-alpha
Vector: pMD18-T simple vector
R. Site 1: EcoRI
Descripción de la genoteca: nombre, organismo,
Description: 2 & 3-day Arabidopsis thaliana seedlings were immer utilizado para obtener la geno
sed in loading solution (MS liquid medium+2M glycerol+0.4M su ecotipo y protocolo
teca a partir de la cual se ha obtenido la secuencia
crose) for 20 minutes atroom temperature. Loading solution was
removed from the cryovial and rapidly replaced by filtered sterilized
cryoprotective solution PVS2 (30% w/v glycerol, 15% w/v ethylene
glycoland 15% w/v DMSOin liquid MS medium supplemented with
0.4M sucrose) and left at 0degC for 50 minutes. cDNA library was
derived from these seedlings. cDNA synthesis was initiated using
a oligo(dT) primer. Double-stranded cDNA was blunted, digested
with EcoRI and MseI restriction endonuclease, ligated to EcoRI and
MseI adaptors, using cDNA-AFLP to screen the different expression
gene, and cloned into the pMD18-T simple vector.
SUBMITTER
Name: Ren Li
Lab: Ornamental Plant Germplasm Laboratory
Institution: School of Agriculture and Biology, Shanghai Jiaotong
Datos de contacto del investigador que han depo
University
sitado la secuencia en la base de datos de EST del
Address: NO.800, Dong Chuan Rd., Shanghai, P.R. China
NCBI
Tel: +86 2134205731
Fax: +86 2134205736
E-mail: renliaqx@gmail.com
CITATIONS
Title: Comparative cDNA-AFLP analysis reveals transcriptional profi
ling of2 & 3-day rabidopsis thaliana seedlings in response to vitrifi
cation solution treatment of cryopreservation Datos sobre como citar esta secuencia: Nombre del
Authors: Ren,L., Zhang,D., Shen,X.H. artículo, autores, fecha de publicación, revista, etc.
Year: 2010
Status: Unpublished
El NCBI no sólo ofrece el formato “EST” para mostrar información sobre una secuencia. Si hacemos
clic sobre el etiqueta “EST” (flecha), aparece un desplegable con los diferentes formatos en los que el
Q Volver al índice
36 Manual de prácticas de Bioinformática
NCBI permite visualizar la información sobre una secuencia (recuadro rojo). En la práctica anterior
(Práctica 2: Bases de datos biológicas) examinamos el formato FASTA, válido tanto para secuencias
de nucleótidos como de aminoácidos, el cual nos proporciona las secuencias en un formato utilizable
en distintos programas bioinformáticos.
CAMPO DESCRIPCIÓN
Identificador
aunque único delaentrada, no varía
se modifique
ACCESSION HO850244 secuencia
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 37
CAMPO DESCRIPCIÓN
SOURCE
Arabidopsis thaliana (thale cress)
ORGANISM Arabidopsis thaliana Nombre científico del organismo
Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Sper
matophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae;
rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis
REFERENCE 1 (bases 1 to 165)
AUTHORS Ren,L., Zhang,D. and Shen,X.H.
TITLE Comparative cDNA-AFLP analysis revealstranscriptional profiling of Datos sobre como citar esta secuencia:
Nombre del artículo, autores, fecha de
2 & 3-day Arabidopsis thaliana seedlingsin response to vitrification solu
tion treatment of cryopreservation publicación, revista, etc.
JOURNAL Unpublished (2010)
COMMENT
Contact: Ren Li.
Ornamental Plant Germplasm Laboratory School of Agriculture and Biolo
gy, Shanghai Jiaotong University NO.800, Dong Chuan Rd., Shanghai, P. R.
China Tel: +8621 34205731 Comentarios y observaciones sobre la
Fax: +86 2134205736
Email: renliaqx@gmail.com secuencia
The sequence was obtained from samples subjected to vitrification solu
tion treatment of cryopreservation
Seq primer: M13 Forward, RV-M Reversed
POLYA=No
FEATURES
Location/Qualifiers
Source 1..165 /organism=”Arabidopsis thaliana”/mol_type=”mRNA”/
ecotype=”Col-0”/db_xref=”taxon:3702”/clone=”AT74”/ tissue_
type=”Seedlings”/dev_stage=”2dand3d”/lab_host=”E. coliDH5-alpha”/
clone_lib=”LIBEST_026723 Arabidopsis vitrification solution treatment li
brary”/note=”Vector: pMD18-Tsimple vector; Site_1: EcoRI; 2& 3-day Ara
bidopsis thaliana seedlings were immersed in loading solution (MS liquid
medium+2M glycerol+0.4M sucrose) for 20 minutes atroom temperatu Características: contiene la información
re. Loading solution was removed from the cryovial and rapidly replaced biológica de la secuencia
by filtered sterilized cryoprotective solution PVS2 (30% w/v glycerol, 15%
w/v ethylene glycol and 15% w/v DMSO in liquid MS medium supple
mented with 0.4M sucrose) and leftat0degCfor 50 minutes. cDNA library
was derived from these seedlings. cDNA synthesis was initiated usinga
oligo(dT) primer. Double-stranded cDNA was blunted, digested with Eco
RI and MseI restriction endonuclease, ligated to EcoRI and MseI adaptors,
using cDNA-AFLP to screenthe differentexpression gene, and cloned into
the pMD18-T simple vector.”
ORIGIN
1 cacttgaaga agcctgagaa ctgggctctg gttgggaagg ccaagttttattacattgct Secuencia que contiene el identifica
61 ggattcttcc tcacggtatcaccagaatccattcagttgg tacgtgaacatgctgctgca dor seleccionado
121 aacaacaaggtgttcacgat gaacctttct gctccattcatctgt
Acceda al sitio web del NCBI donde se aloja la herramienta BLAST a través de la siguiente dirección:
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Q Volver al índice
38 Manual de prácticas de Bioinformática
Existen distintos tipos de programas BLAST para el análisis de secuencias tanto de nucleótidos
(blastn, tblastx, tblastn) como de proteínas (blastp, blastx). Para saber cuál utilizar es fundamental
tener en cuenta 3 factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y
(3) la base de datos donde se va a llevar a cabo la búsqueda. La siguiente tabla muestra las diferentes
versiones del programa BLAST:
Una vez en esta página pegaremos la secuencia en formato FASTA en la ventana en blanco de la
sección “Enter accession number(s), gi(s), or FASTA sequence(s)”. A continuación seleccionaremos una
base de datos contra la que comparar nuestra secuencia problema. El análisis puede realizarse frente a
diferentes bases de datos (recuadro rojo). En este caso hemos elegido la base de datos “nucleotide co
llection (nr/nt)”, que contiene una colección de secuencias nucleotídicas no redundantes (acrónimo nr).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 39
Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, el
algoritmo “megablast” es el más restrictivo entre los tres posibles, debido a que está diseñado para
identificar la propia secuencia problema (el parecido es del 100%) o para encontrar secuencias muy
parecidas (mayor del 95% de residuos nucleotídicos idénticos). En cuanto al algoritmo “discontiguous
megablast”, es más sensible y eficaz que el algoritmo “blastn” porque ignora algunas bases (la tercera
de cada codón) y porque al comparar la secuencia problema con la diana no es necesario que ambas
sean idénticas, sino que permite la presencia de discontinuidades.
En este caso utilizaremos el algoritmo “megablast”. Finalmente para ejecutar la búsqueda seleccio
naremos “Show results in a new window” y haremos clic en el botón “BLAST”.
Q Volver al índice
40 Manual de prácticas de Bioinformática
Finalmente en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntua
ción, High Score Pairs).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 41
Las barras verticales representan emparejamientos entre la secuencia que usamos para la búsqueda
(Query) y las secuencias de la base de datos (Sbjct), los espacios que no tienen barra vertical significa
que en ambas secuencias hay diferentes nucleótidos, mientras que las líneas horizontales son huecos
o gaps (en el ejemplo que se muestra no existe ningún gap), que deja BLAST para realizar mejor el
alineamiento.
En el ejemplo que se representa, la secuencia con identificador “BT033101.1” es el resultado más
probable del análisis blastn. Si accedemos a la página que contiene dicha secuencia podremos observar
la información que recoge el NCBI sobre esta secuencia en formato “GenBank”. Entre esta información
podemos distinguir los campos anteriormente descritos. Entre ellos, dado que se trata de una secuencia
de tipo CDS (CoDing Sequence), merece la pena reseñar la información que recoge el campo “FEA
TURES”, donde además de información biológica relevante podemos encontrar la secuencia proteica
que codifica dicho CDS (recuadro rojo), cuyo número de identificación es “ACF16163.1” (indicado
con una flecha roja).
Q Volver al índice
42 Manual de prácticas de Bioinformática
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 43
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe realizar las siguientes tareas:
•A partir de la secuencia
Encontrar el tejido adel EST del
partir de tomate
cual se con número de
ha obtenido dicho
identificador“BF113600.1”
EST.
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVN
VKLNQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMD
HHYSSAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
En esta práctica vamos a buscar si esta proteína problema presenta alguna relación con otras
secuencias depositadas en la base datos; es decir, tratar de deducir en la medida de lo posible y por
comparación, la familia de proteínas a la que pertenece y su posible función.
Acceda al sitio web del NCBI donde se aloja la herramienta BLAST a través de la siguiente dirección:
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Para realizar esta tarea, puesto que se trata de una secuencia proteica, se utilizará “protein blast”
(blastp), que compara una secuencia de aminoácidos contra una base de datos del mismo tipo.
Q Volver al índice
44 Manual de prácticas de Bioinformática
Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra. Durante el proceso
de búsqueda de secuencias nos aparecen unas pantallas que nos indican de qué tipo de proteína se
trata nuestra proteína problema. Una de esas pantallas tiene el siguiente aspecto:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 45
Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Como ocurre con
el análisis blastn, en la primera sección de la página de resultados, desplegando la etiqueta “Search
Summary” (flecha roja) se puede observar información relativa a la búsqueda donde por ejemplo se
puede ver el número de secuencias proteicas almacenadas en la base de datos utilizada (recuadro rojo),
en este caso Refseq.
Q Volver al índice
46 Manual de prácticas de Bioinformática
Bajamos la página hasta ver la sección “Descriptions” donde se muestra el listado de las secuencias
encontradas. La columna “E-value” es la mejor medida de calidad del resultado, donde los números
más bajos significan más hits, siendo 0.0 el mejor valor posible. Así, podemos observar que las pri
meras que se han encontrado pertenecen todas a la proteína WUSCHEL de Arabidopsis thaliana. A
continuación aparecen proteínas WUSCHEL de otras especies.
Al final, en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntuación,
High Score Pairs). En este caso existe un 100% de identidad entre la secuencia problema y la secuencia
con número de identificador “NP_565429.1”.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 47
Si pinchamos en el enlace que aparece en el epígrafe “Sequence ID” (flecha roja) podremos ver
información sobre esa proteína, la secuencia, quién la secuenció, otras bases de datos que tengan infor
mación sobre esa proteína etc. Entre ellas merece la pena reseñar el identificador de este gen/proteína
en la base de datos especializada TAIR “The Arabidopsis Information Resource” www.arabidopsis.org
(se indica con una flecha roja, dentro del campo “CDS”). Del mismo modo, dentro del campo “FEA
TURES” se marca con un recuadro rojo la función biológica de dicha proteína.
Q Volver al índice
48 Manual de prácticas de Bioinformática
Por último, antes de terminar esta práctica, el alumno deberá analizar la secuencia proteica problema
que se muestra a continuación indicando, en la medida de lo posible y por comparación, la familia de
proteínas a la que pertenece y su posible función.
>proteina_problema
TAYQSELGGDSSPLRKSGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALIVFSSRGRLYEYSNNS
VKGTIERYKKAISDNSNTGSVAEINAQYYQQESAKLRQQIISIQNSNRQLMGETIGSMSPKELRNLEGRLERSITRIRS
QPNNHHYSSAGRQDQTALQLV
KKNELLFSEIDYMQKREVDLHNDNQILRAKIAENERNNPSISLMPGGSNYEQLMPPPQTQSQPFDSRNYFQVAAL-
Para ampliar sus conocimientos sobre las posibilidades de uso de la herramienta BLAST encontrará
una guía explicativa en el siguiente enlace:
ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf
Q Volver al índice
Práctica 4: Diseño de cebadores para PCR in silico
La reacción en cadena de la polimerasa (PCR) tiene muchas aplicaciones en biología, medicina y biotec
nología. Todas estas aplicaciones dependen del empleo de parejas de oligonucleótidos como cebadores
o primers. Por ello, uno de los parámetros más importantes para tener éxito en la amplificación por
PCR es el diseño correcto de la pareja de oligonucleótidos. Porque si éstos no están bien diseñados,
a buen seguro la PCR no funcionará de forma adecuada. A lo largo de la práctica analizaremos las
principales variables a tener en cuenta a la hora de diseñar oligonucleótidos, entre ellas:
• Temperatura de fusión.
• Tamaño del oligonucleótido.
• Especificidad.
• Complementariedad en la secuencia de los oligonucleótidos.
Esta práctica es una aproximación, más o menos detallada, al diseño de oligonucleótidos utilizando
programas bioinformáticos y pretende dar una orientación a aquellas personas que, por primera vez,
están entrando en contacto con esta amplísima disciplina que es la Bioinformática. De este modo, el
objetivo principal de esta práctica es:
Temperatura de fusión
La temperaturas de fusión (Tm) es la temperatura a la cual la mitad de las dobles hebras de ADN están
desnaturalizadas. Es importante tener en cuenta que en una reacción de PCR hay dos oligonucleótidos
y ambos deberían diseñarse de manera que tengan Tm similares. Si los oligonucleótidos no tienen
Tm parecidas, la amplificación será menos eficiente o incluso puede no funcionar ya que el oligonu
cleótido con la Tm más alta podría anillar de forma inespecífica a temperaturas bajas mientras que el
oligonucleótido con la Tm más baja puede que no anille de forma eficiente a temperaturas más altas.
Las temperaturas de fusión de los oligonucleótidos se calculan de una manera muy exacta con
cálculos termodinámicos usando la siguiente fórmula:
Q Volver al índice
50 Manual de prácticas de Bioinformática
4 12ºC 22 66ºC
6 18ºC 24 72ºC
8 24ºC 26 78ºC
10 30ºC 28 84ºC
12 36ºC 30 90ºC
14 42ºC 32 96ºC
16 48ºC 34 102ºC
18 54ºC 36 108ºC
20 60ºC 38 114ºC
Por tanto, como se puede observar, la temperatura de fusión de un oligonucleótido depende princi
palmente de su longitud y del contenido en G+C. Así, la composición de bases de los oligonucleótidos
debería ser del 45% al 55% en G/C. Además, la secuencia del oligonucleótido debería elegirse de ma
nera que no contenga zonas de poli G o poli C que pueden conducir a hibridación no específica. Del
mismo modo, hay que evitar también las zonas ricas en poli A y poli Tya que estas regiones pueden
provocar una prematura separación de las hebras durante el proceso de anillamiento, lo que conduciría
a la rotura del complejo molde / oligonucleótido, reduciendo la eficiencia de amplificación.
Especificidad
La especificidad del oligonucleótido depende parcialmente del tamaño del oligonucleótido. Es evidente
que un oligonucleótido de 24 bases es más específico que uno de 10 bases. Con todo, debemos elegir
oligonucleótidos que tengan una secuencia única en el molde de DNA que queremos amplificar. Por
ejemplo: una pareja de oligonucleótidos diseñados con una secuencia altamente repetitiva dará lugar
a multitud de productos de PCR de diferentes tamaños cuando se utilice como ADN molde el ADN
genómico de una especie. Sin embargo, estos mismos oligonucleótidos pueden dar lugar a una sola
banda si amplificamos un clon de una genoteca de ADN.
Dado que la Taq Polimerasa que se usa en la PCR es activa en un amplio rango de temperaturas,
simplemente con que exista una pequeña homología en el extremo 3’ del oligonucleótido, puede ocurrir
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 51
una hibridación no específica del mismo y que tenga lugar una extensión del oligonucleótido a tempe
raturas bajas de hibridación. En general, una temperatura de fusión de 55°C - 72°C es la más adecuada
(fíjate que corresponde a un tamaño de oligonucleótido de 18 - 24 bases según la fórmula de Wallace).
Q Volver al índice
52 Manual de prácticas de Bioinformática
Existen una gran variedad de programa, muchos de ellos son gratuitos y de fácil acceso a través de
un interfaz web. Alguna de estas herramientas son:
Oligo http://www.oligo.net/
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 53
Netprimer http://www.premierbiosoft.com/netprimer/index.html
Primer3 http://bioinfo.ut.ee/primer3-0.4.0/
Primer3
Durante el desarrollo de esta práctica, utilizaremos la herramienta Primer3 para diseñar oligonucleóti
dos in silico. Primer3 es una aplicación que se encuentra para su libre uso en diferentes servidores web
alrededor del mundo. En esta oportunidad utilizaremos la implementación de éste programa ofrecida
por University of Tartu & Estonian Biocentre.
Al mover la ventana del navegador hacia abajo se aprecia que Primer3 cuenta con diversas secciones
que le permiten controlar una amplia variedad de parámetros relacionados con el diseño de oligonu
cleótidos. No hay que sentirse intimidado por la cantidad de parámetros modificables por Primer3
(más de 80), puesto la mayoría de esos parámetros rara vez son modificados.
Q Volver al índice
54 Manual de prácticas de Bioinformática
Por ser este nuestro primer acercamiento al diseño de oligonucleótidos mediante esta herramienta
utilizaremos un set de condiciones mínimo y la siguiente secuencia de ejemplo:
>Secuencia_1
ATTTTCTGCAAGCTCTCCTGTTCAAACCTATACAAAATAGGAACAAATTTGAAGAGAAAAAAATAAAAAAAA-
ATCTCTAAGTTTTTTTTTTCTTCTTTTCGATACAAGACGATATGGTTTTTCCTATTAATCAGGAATTACTTGTCGATG
AGTCGTCTTCTCAGTTGAGAAAAACAAGTGGAGGAACTGGTGGAGGAGGTAGAGGGAAGATTGAAATTAAAA-
GGATCGAAAATACGACAAATCGACAAGTTACGTTCTGCAAGCGTAGAAATGGGCTATTGAAAAAAGCTTATGA-
ACTTTCTGTTCTTTGTGATGCTGAAGTTTCACTAATTGTATTTTCCAGCCGCGGCCGTCTCTATGAATATGCCAA-
TAACAGTGTTAGGGCAACTATTGATAGGTACAAGAAACACCATGCTGATTCCACTAGTACTGGATCTGTTTCTGA-
AGCTAACACTCAGTACTACCAGCAAGAAGCATCCAAACTGCGACGACAAATTCGAGATATACAGACTTATAACA-
GGCAAATAGTTGGAGAGGCATTGGGCAGTTTAAGCCCTAGAGACCTCAAGAATTTGGAAGGGAAACTTGAAA-
AGGCCATTGGTAGAGTCCGTTCCAAAAAGAATGAATTGCTTTTCTCAGAAATAGAGCTCATGCAAAAGAGGGA-
GATTGAGCTGCAGAACGCCAACATGTATCTACGCATAGCAGAGGTAGAGAGAGCACAAGAGCAAATGAACTT
GATGCCTGGAGGCGGAGGCGGAGGCGGAGGCGGAGGAGGAGGAGGATCTGATCATCAATACCATCATCAGC
GACAATGGTGACCAAACTCCTCTCCAGCTTGTCTGATAATCATGGAGCAGGTATTCTGAAATTTGGGGTCAA-
CAAATTACGAAGATGCTCGCAATAACTTCCTGCCTGTAAATCTCCTGGAACCAAATCCTCATTACTCTCGTCGC-
GGCTCTTCATCTTCAGAAAAATGTGTACTACAATTTTTAACCTATAGTGTTGTAAATCATAATCATAATTATTGC-
CACTGAGATTTAAACTGTTTATTTTTAAGCAATATTATTCAGTCATCTGTTAATTAAGGAATGAAAAATCTTGTTT-
GTTATATTATGACTACTTCTATATACTTTTACAGCCTTATATAAATAATATGCTATTGAACTATACATACAACATTCTCT
Pegue esta secuencia en el campo de texto en la parte superior de la página de Primer3, como se
muestra a continuación (ver en página siguiente).
En la página de resultados, en primer lugar se encuentra la pareja de oligonucleótidos más eficiente
(recuadro rojo). Posteriormente encontramos la secuencia introducida y la posición de ambos oligo
nucleótidos en dicha secuencia (flechas).
Por defecto Primer3 tiene habilitadas las opciones de encontrar tanto un oligonucleótido corriente
arriba (“Pick left primer or use left primer below”) como corriente abajo de nuestra secuencia (“Pick
right primer, or use right primer below”). Deshabilitando cualquiera de ellas evitaremos que el programa
busque ese oligonucleótido en cuestión.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 55
Q Volver al índice
56 Manual de prácticas de Bioinformática
En este caso dejaremos estas opciones tal y como se encuentran, presionaremos el botón “Pick
Primers” y esperaremos unos segundos hasta que se genere la página de resultados de Primer3, cuyo
título es “Primer3 Output”:
Además, en la parte inferior de los resultados, Primer3 muestra por defecto 4 parejas de oligonu
cleótidos adicionales (en la sección “Additional Oligos”).
La mayoría de datos arrojados en la página de resultados son bastante explícitos, la posición (start),
el tamaño (len), la temperatura de fusión (tm) y el porcentaje de GC (gc%) están presentes para cada
pareja de oligonucleótidos. Si bien, los más confusos sean las columnas denotadas como “any” y “3’”. La
columna “any” refleja la tendencia del oligonucleótido a hibridar consigo mismo, mientras que la columna
“3’” muestra la tendencia de los oligonucleótidos izquierdo y derecho a formar dímeros.
Por otra parte, también se puede introducir en el programa de búsqueda la secuencia de uno de
estos oligonucleótidos en la casilla de texto justo debajo de las opciones “Pick left primer or use left
primer below” o “Pick right primer, or use right primer below”. De este modo, Primer3 diseñará la pareja
del oligonucleótido en cuestión para que la amplificación por PCR tenga éxito. Regrese a la página
inicial de Primer3 e introduzca la secuencia TGGGCAGTTTAAGCCCTAGA en el cuadro de texto
justo debajo de la opción “Pick left primer or use left primer below”, como se muestra a continuación.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 57
Además, entre los parámetros que Primer3 permiten controlar, es posible establecer el rango de
tamaño para el producto que se quiere amplificar por PCR. Así, podemos definir que los oligonucleó
tidos diseñados generen un fragmento de 300 a 500 bases introduciendo estos valores en la sección
“Product Size Ranges” (flecha) separados por un guion, como se muestra en la figura.
La nueva página de resultados genera un oligonucleótido que, junto con el que nosotros hemos
introducido, amplificará un producto de 346 bases (recuadro rojo).
Por otro lado, Primer3 permite delimitar una región de interés, la cual queremos amplificar, me
diante el uso de corchetes. De este modo, Primer3 diseñará los oligonucleótidos aguas arriba y abajo de
la secuencia nucleotídica delimitada por corchetes. En este caso, en la página de resultados la secuencia
delimitada por corchetes aparecerá marcada con asteriscos (*).
Q Volver al índice
58 Manual de prácticas de Bioinformática
La manera de operar con Primer3 es básicamente la misma para cualquiera de las otras opciones
disponibles. Como podrá notar el programa resulta bastante sencillo de utilizar, varíe las diferentes
opciones disponibles en Primer3 y familiarícese con algunas de ellas, y aplique las diferentes “reglas” o
consejos generales que se encuentran al comienzo de esta práctica para el diseño de oligonucleótidos.
Además de utilizar una herramienta bioinformática para el diseño de los oligonucleótidos, es muy
recomendable realizar un análisis BLAST, con los oligonucleótidos recién diseñados, de tal manera que
se asegure que dichos oligonucleótidos no sean complementarios a ninguna de las “posibles secuencias”
involucradas en su reacción de PCR.
No es posible asegurar con un 100% de certeza que un primer diseñado mediante una herramienta
bioinformática va a ser completamente efectivo. No obstante, este tipo de herramientas se hacen indis
pensables para aproximarse a la solución más óptima de una manera rápida y sencilla.
Finalmente, poniendo en práctica los conocimientos adquiridos a lo largo de esta asignatura, el
alumno deberá realizar las siguientes tareas:
Q Volver al índice
Práctica 5: Alineamiento de secuencias e identificación de
motivos
El objetivo de los algoritmos de alineamiento de secuencias es acomodar dos a más secuencias de tal
manera que se alcance el máximo de coincidencias entre los elementos de las mismas. Los alineamien
tos se pueden clasificar en: globales (cuando se pretende alinear las secuencias enteras, empleando
tantos caracteres o símbolos de los extremos de las secuencias como sea posible) y locales (cuando se
buscan porciones de las secuencias que presentan mayor cantidad de concordancias). Los algoritmos
de alineamiento de secuencias, emplean ciertas métricas para determinar la calidad del alineamiento,
una es el porcentaje de similitud de secuencia, que no es más que la fracción de elementos iguales
alineados, entre la cantidad de elementos de la secuencia más corta. Otra de las métricas empleadas
para representar la calidad del alineamiento es la puntuación (score), determinada por una función de
puntuación del algoritmo, para definir la bondad del alineamiento obtenido (generalmente se devuelve
un valor entre 0 y 100%), que mientras más elevado sea, mejor es el alineamiento.
El alineamiento múltiple de secuencias es una de las técnicas bioinformáticas más usadas, ya que
por medio de ella podemos realizar diversos análisis como por ejemplo:
• Encontrar homologías.
• Diseñar oligonucleótidos para PCR.
• Descubrir familias de proteínas (identificación de motivos y/o dominios conservados).
• Estudios evolutivos (Filogenias).
Al comparar simultáneamente varias proteínas relacionadas es común observar que aún en gru
pos donde la similitud entre ellas es baja, hay algunas partes de la secuencia que son similares. Estas
similitudes pueden abarcan pocos aminoácidos bastante conservados (motivos) o extenderse en una
región más grande, posiblemente con menor similitud (dominios). Los motivos no ocurren solamente
en proteínas, también podemos encontrar motivos en secuencias regulatorias de ADN. Determinar los
dominios y motivos presentes en una proteína nos puede ayudar a postular su función y/o estructura.
En el caso de promotores de genes nos sirve para saber qué factores pueden regular la trascripción.
Por esa razón, al realizar anotaciones o analizar secuencias es importante poder reconocer motivos y
dominios.
Durante el transcurso de esta práctica analizaremos diferentes algoritmos de alineamiento, tanto
de dos como de múltiples secuencias. Conjuntamente, utilizaremos los algoritmos de alineamiento
múltiple en la búsqueda e identificación de motivos conservados en secuencias biológicas. Así, los
objetivos principales de esta práctica son:
Q Volver al índice
60 Manual de prácticas de Bioinformática
En nuestro caso, utilizaremos el alineamiento de pares para buscar homologías entre la secuencia
codificante del gen Solyc03g118740.2.1 de la especie Solanum lycopersicum y su correspondiente re
gión genómica, para poder determinar así la estructura génica del gen; es decir, las regiones exónicas
e intrónicas. Para ello, utilizaremos la herramienta de alineamiento Needle a la cual podemos acceder
a través de la web de EMBOSS.
La herramienta Needle se utiliza para crear una alineación global óptima de dos secuencias (nu
cleotídicas o proteicas) utilizando el algoritmo de Needleman-Wunsch.
Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos
de entrada. En este caso introduciremos en el primer campo la secuencia codificante del gen So
lyc03g118740.2.1.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 61
>Solyc03g118740.2.1
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTA
ACCCCATTTCATCCTTTACTTGTAAAACCTGTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGA
TATTCCTTCTTTCTGCAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCA-
TAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGCCACTTTATGTAGCTATGATACTAGCTTATGGCTCT
GTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACAGATTTGTTGCACTTTTTGCAGTTC-
CACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCTGCAGATACTCTG
CAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA-
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGT
GTTTGAGTTTAGAGGTGCAAGACTGCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATT-
GATTTCTCTGGGAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTAT-
CATGTTGATTCTGATGTCATGTCATTAGATGGTAGACAAGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGAT
GGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATATATTTTCAAGAAGGTCAGGTG-
GATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCATCAAGAAATC-
CAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCA-
AACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAA-
GAAGAAAGTGGAAAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACT-
CATTATCCAGCACCAAATCCAGGCATGTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGC-
TAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATATGTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCT-
GATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACCTAATAAGGATGTGAGAGTACC-
TATCTCCCCTGGAAAAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGAGAGATGATTTCA-
GCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA-
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACC-
CAAACACTTATTCGAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTGGAATTTGAAGATGCCTGC-
TATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTTGGCATGGCAATGTTCAGTCTTGGTCTGTTCAT
GGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCTGTGAGATTCCTTACA-
GGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTACA-
GGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTTCATCCTGACATTCTTAGCA-
GGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCT
CAGCTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGGGACTTTGAAGA-
CACAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTT-
GTGCTTAATTAGCTGAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG
Q Volver al índice
62 Manual de prácticas de Bioinformática
>SL2.50ch03:67567401-67572000
CCCTTTGCTTTGGAGACTGTAAGCTTGCTCCCAATTCTCAAAGCTGTAATACTTATTACTTAATTCTTTCTATATTCCTTCTTTCTG
CAAAATCCCCACAACCCCATAAACCAAAACACATGCTCTTTGCTTATATTTACCAACCCCATTTCATCCTTTACTTGTAAAACCT-
GTTTTCTTGATTTGGGTATATCAAGAACATAGCAAAGATGATAACTTTATCTGATTTCTACCATGTTATGACTGCTGTTGTGC-
GATTTGTTGCACTTTTTGCAGTTCCACTTCTATCTTTCCACTTTATAGCTGCTAATAATCCTTACGCTATGAACTTGAGATTCATTGCT
CACTTTATGTAGCTATGATACTAGCTTATGGCTCTGTTAAGTGGTGGAAGATTTTCTCACCAGATCAGTGTTCTGGGATCAACA-
GCAGATACTCTGCAGAAACTTATTGTTCTTGGGGTTCTTGCTGTTTGGGCTAATGTAAGCAAAAGGGGTAGTTTGGAATGGAGTA
TAACTCTGTTTTCACTATCAACTCTTCCAAATACTTTAGTTATGGGCATTCCTTTGTTAAAAGGAATGTATGGTGATTTCTCTGG
GAGTTTAATGGTTCAAATTGTTGTATTACAGTGTATCATTTGGTACACTCTGATGCTTTTTATGTTTGAGTTTAGAGGTGCAAGACT-
GCTAATTTCTGAGCAGTTTCCTGATACTGCTGGTTCAATTGTATCTATTCATGTTGATTCTGATGTCATGTCATTAGATGGTAGACA-
AGTTTTAGAGACTGAAGCAGAGTTAAAAGAAGATGGAAAACTTCATGTCACTGTTAGAAAATCAAATGCCTCAAGGTCTGATA-
TATTTTCAAGAAGGTCAGGTGGATTTTCTTCTACTACACCAAGACCATCCAATTTGACAAATGCAGAGATTTACTCTCTGCAGTCAT-
CAAGAAATCCAACACCAAGAGGGTCTAGTTTTAATCATACTGATTTTTACTCAATGGTGGCTGGTACTGCTGGGAGAAACTCAA
ACTTTGGTGCTAATGATGTTTATGGTATGTCTAATAATTCAAGAGGGCCAACTCCAAGACCTTCTAATTATGAAGAAGAAAGTGGA
AAATCAAGATTCAATAATTATCATGGTGGAGCAGCAGCACCACAGAGTAATAGTAACACTCATTATCCAGCACCAAATCCAGGCAT-
GTTTTCACCTAGTAACAATGGCAACAAAGCACACAAGAGTACAGCTAAAAAAGGAGATCAAGAAGTTGGCAAGGATCTTCATAT-
GTTTGTTTGGAGTTCAAGTAACTCTCCTGTTTCTGATGTTTTTGGAGGACATGATTATACAGCTAATCTAGACCAGCCTGCAGCACC-
TAATAAGGATGTGAGAGTACCTATCTCCCCTGGAAAAGGTAATTAACTCTGTTCACTAAAAGGCTATATTAGTTTCGATTTGAACCT-
GAAGTCTCACGGTTAATAAAAAAAGTTTTTTATGCTTAATTAGTTGAGGGGCAAAGGAACAATAATCAAGAAAACTACATGGAGA
GAGATGATTTCAGCTTTGCAAATAGAGATGGAGTTGATCAAATGAACAATCAAGATGGTGAAAAAGCTGGAGAAAACAAAGCA
AAAGTAATGCCACCAACAAGTGTAATGACTAGGCTAATACTTATCATGGTTTGGAGAAAACTTATTAGAAACCCAAACACTTATTC
GAGCTTGTTTGGCCTCACTTGGTCTCTAGTTTCATTCAGGTAAATTTTACCAATTTCTATTCATTTTCTTTTTTAATTGTTGTTATATAT
TCTGATTATTTAAAAAAATGTAGGTGGAATTTGAAGATGCCTGCTATAATTGCACAGTCCATATCTATACTGTCAGATGCAGGACTT
GGCATGGCAATGTTCAGTCTTGGTGAGTACTTTTTTTTTCATTATTTGATCACAAGGAGGTCATTACTATTATTAAATTACTTGTTTA-
GAAGGGGGGAGCGTGCAAAAAAGCACAACAATATGCTCATCATAACATCTTTCTCTACATCTCTTCTTTAATTAATTAAAATTAA
TAACCCCATCTCAATGCTTCTCATTTGCTCTCAAATGGATACAATCATGATAACTACTACTAGTAGTAACACCCCACTAGTGGATGT
GATGATGCCATGCACTTGTTTTTTTTTAATTTTATTTTAATAGTGTCGTATATTCGAGTTTCTTTGTATGCATTTATCGAGTAATTCT
GTCAATCAAGATGTAAAGTTCGACGAATTTCATGAATATTTGTTACGTCCCACCAATATAAATATCGAATAGTTCTGTCAATCAAA
AGTTATTAGTATTTTGTATGCATTTCCATGGATTTTTAATATATATATATGTATCGAATAACTTTGTCACTCCAATTTTGAACGAATA
GAAAGAAATGGTTATTGCTTTCTTCTATAATTAGAAGTAAAATGTGATGGTCCCCTTAGTGCATGATGCCATGCACTTAAAAGAGA
AGGGGCTAGCTACTTTTTCCAAATGTGATATTTGATAGTTGGAAGTAGAAAAAAATATATATTTGCATGTTAGAAAAATGAAAC-
GATTTTTATGTATGACAGGTCTGTTCATGGCTTTGCAACCAAGGATCATAGCATGTGGAAATTCTGTTGCATCTTTTGCTATGGCT-
GTGAGATTCCTTACAGGTCCAGCTGTTATGGCAGCTGCTTCCATTGCTGTTGGTCTTCGTGGAACTCTATTACACGTGGCAATTGTA
CAGGTCATCATCAAATCTTAAAATTCTTTCTTTTATCATAAAACATTATGTTAATTATTTTATTTCAATCTCTACACTATGACCTACTAC
TATATTATAAATTAATTAACCAAAAAAAAAGCTGTTTCGAGCCCATACAGTTTCAAAACTCATTAATTTATATTGAGTGTGTTTTTAA
TATAATAAACGATAATTATTTCTAAGGTTTATTAGAAACACTTTTTCTATTTCATAGGTATGAAATTATGTATACTGAATATATTATT
CATCCTGACATTCTTAGCACAGCGTAAGTATAAATTAATTTAACATTTTTTTATAGTGTTTAATTTTTTTTAATTAGTTTTGTGATTGA
GTTGTTCAATCGATATGTACTAAAAACAGGCAGCTCTACCACAAGGAATTGTTCCTTTTGTCTTCGCTAAGGAATACAACGTT-
TAATTTTTTTTTTTATTTGTGTTTATTACAGTGTGATTTTTGGGATGTTGATTGCGTTGCCGATTACATTGGTGTATTACATATTTATGG
GACTTTGAAGAGGGATTTATAATTCCATGCAAATTAATATTTAATGCATGCAGCAATTGGCATGGAGATAAAAAAAAAAAAGCTCA
CAGCTTTTCTTTTTTTTGGTAATGAAAAGATTTAGTTTGTAACAAAGTGATGATGATGAAGAAGAAGATATTTGTGCTTAATTAGCT-
GAAACGTAATTAATTAACTTTCCCTAGCTCATTCAAATGTCTTTTAATGGATTATCTCTTTG
A continuación, utilizando los parámetros por defecto (comprueba solamente que el tipo de se
cuencia se corresponda con el que has proporcionado), ejecutamos el alineamiento haciendo clic en
“Submit”.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 63
Al principio de la página de resultados, la herramienta Needle nos muestra un resumen del análisis
realizado, donde se muestran los diferentes parámetros utilizados para ejecutar dicho análisis.
Q Volver al índice
64 Manual de prácticas de Bioinformática
En la parte inferior, encontramos los resultados del alineamiento. Analizando estos resultados po
demos determinar la estructura génica del gen Solyc03g118740.2.1. Las regiones exónicas se muestran
subrayadas en rojo, mientras que las regiones intrónicas se representan en azul (6 exones y 5 intrones).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 65
Q Volver al índice
66 Manual de prácticas de Bioinformática
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 67
Una vez realizado el alineamiento con Needle, utilizaremos la herramienta Align para hacer un
análisis BLAST (bl2seq) con estas dos mismas secuencias nucleotídicas. Podemos acceder a dicha he
rramienta a través de la página principal de BLAST en el NCBI (http://blast.ncbi.nlm.nih.gov/Blast.
cgi), haciendo clic en “Align“ dentro de la sección “Specialized BLAST”.
Q Volver al índice
68 Manual de prácticas de Bioinformática
Para hacer el alineamiento introduciremos las secuencias problema en cada uno de los campos de
entrada. A continuación, utilizando los parámetro por defecto, ejecutamos el alineamiento pinchando
sobre el botón “BLAST”.
Como tarea a realizar, el alumno deberá analizar la página de resultados y contestar a las siguientes
preguntas:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 69
>Solyc01g010240.2.1
MSSSSPNSSCLNLLESADHKINTMDPSEHLCYVRCSFCNTILAVGIPCKKLLDTVTVKCGHCGNLSFLSSRPPI
QPQFFDHQPILQHQDFFNNFKKGQSSSSSEPSSPKAPFVVKPPEKKHRLPSAYNRFMKDEIQRIKAAHPQIPHREA
FSAAAKNVHSKYSKWDLG
>Solyc05g005240.1.1
MSTLNNHLFELQDTICYVQCGYCTTILLVSVPCSSLCNKVVTVRCGHCTTLLSLNLIKPSLHLFASFDQTHQPPEVDK-
DETDDANKKNSNSDEEDQLENNVLPLNQVVNKPPEKRQRAPSAYNCFIKEEIKRLKTLYPNMTHKQAFSTAAKN
WAHFPPSQHRGGCSLGERKMAKVSAARNSMVPRDSNGLIP
>Solyc06g073920.2.1
MSLDMTYSSSSSERVCYVHCNFCSTILAVSVPCNSMMTIVTVRCGHCANLLSVNIAPSLQSLPIQDLQRQNESSIED
GMSRGYGSSSSSTNSFHRFSPIPTDHDQPRSPPIRVPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN
WAHFPHIHFGLKLDGNKQTNKLDHAVAGEGPQKTIGLY
>Solyc08g079100.2.1
MSSSNSLSLDHLPPPPPSEQLCYVHCNVCDTVLAVSVPCTSLFKTVTVRCGHCTNLLPGWLLPSTN-
HHHHHFGHTYFSPSHNLLDEISNATPNFLMNQSNSAHEFVQLPARPGFDDLPRPPPVVNRPPEKRQRVPSAYNR
FIKEEIQRIKAGNPDISHREAFSAAAKNWAHFPHIQFGLMPDQTVKRTNVRQQDGEDVLTKDGLFNTSANVSVSPY
>Solyc11g071810.1.1
MSFDMTFSSSPSSERVCYLQCNFCNTILAVSVPCSNMLTLVTVRCGHCANMLSVNIGSLIQALPLQDVQKLQRQQYT
NVENNSSNYKAYGSSSSSSSKFNRYSSIVSPQIEPKIPSIRPPEKRQRVPSAYNRFIKEEIQRIKASNPDISHREAFSTAAKN
WAHFPHIHFGLKLEGNK
>Solyc12g009580.1.1
MSSSYIDSTNFEKLCYIPCNFCNIVLVVSVPCSNLLDIVTVRCGHCTNLWSVNMAAAFHTNSWQNHLHHQVGN-
YTNSPHDQYKVDFASSSITNNSTLEERNVNRPPEKRQRGPSAYNQFIKEEIQRIKANNPDITHREAFSTAAKNWAHF
PHIQFGLMLETDNQAKLGASENKEKLIMHRAALPKIKTFTF
Q Volver al índice
70 Manual de prácticas de Bioinformática
El tiempo que el programa tarda en obtener los resultados depende de la carga de trabajo del ser
vidor en ese momento, así que el tiempo de espera debe ser directamente proporcional al número de
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 71
personas que estén haciendo uso del programa. Después de unos segundos (o minutos) aparecerá la
página de resultados.
Q Volver al índice
72 Manual de prácticas de Bioinformática
La descarga del programa se realiza pulsando “BioEdit.zip (Full install)”. Una vez descargado, debe
mos descomprimir el archivo “BioEdit.zip” y, posteriormente, instalar el programa ejecutando “setup.
exe”.
Una vez descargado e instalado en nuestro ordenador, abriremos con BioEdit el archivo generado
con MUSCLE. Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/
Windows, por tanto para abrir un archivo debe dirigirse al menú archivo (“File”) y escoger la opción
abrir (“Open”). Seleccionaremos nuestro archivo con la extensión “*.clw” e inmediatamente aparecerá
una ventana similar a la siguiente.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 73
Con el fin de visualizar mejor nuestro alineamiento, cambiaremos el esquema de colores presionan
do los botones “Shade Identities and Similarities in alignment window” y “Monochrome”. El resultado
obtenido debe ser similar al de la imagen siguiente.
En la última línea del alineamiento, denominada “Clustal Consensus”, podemos observar 3 tipos
de caracteres o la ausencia de ellos, que significan:
• Asterisco (*), indica que en dicha posición los residuos son 100% idénticos.
• Dos puntos (:), indica posiciones en las que se han realizado sustituciones conservativas.
• Punto (.), indica sustituciones menos conservativas.
• Ausencia de caracteres, indica que no existe un consenso en dicha posición.
Cuando hacemos un alineamiento múltiple lo que queremos evaluar es el nivel y lugar de conser
vación de nuestras secuencias. Por tanto, analizar la secuencia consenso es una manera apropiada de
conocer las características de nuestro alineamiento.
Generalmente (no siempre), las regiones N y C terminal son poco conservadas, por esta razón
encontramos en los dos alineamientos más gaps (huecos) y ausencia de similitudes en dichas regiones.
Por ahora, no tenemos métodos estadísticos para evaluar la validez de un alineamiento múltiple,
como ocurre por ejemplo con el valor E-value en BLAST. Si trabajamos con secuencias de ADN es fácil
hacerse una idea de lo bueno que es el alineamiento puesto que únicamente se valora positivamente
la identidad de los residuos en cada posición. Con las secuencias de proteínas el asunto es más com
plejo porque se valoran positivamente también los parecidos entre aminoácidos que no son idénticos,
pero que son químicamente similares y esto conduce a que los alineamientos de las secuencias al azar
puedan confundirse con alineamientos realmente significativos.
Q Volver al índice
74 Manual de prácticas de Bioinformática
Si tiene interés en conocer en profundidad BioEdit y todas sus aplicaciones puede consultar el
manual en el siguiente enlace:
http://www.mbio.ncsu.edu/BioEdit/BioDoc.pdf
En este punto de la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 75
Q Volver al índice
76 Manual de prácticas de Bioinformática
>Solyc01 g110470.2
MDDGGORENRRHRMDYSKGCYAPWNVVPPYOMKDOEAFMNTKRMVFAERDAAVEERNRAVEKKEAYAER
DFAOORDTAFAERDTAKERDNAAALHFLESTTNGSLGCRTRGTKRPEOPKNHRNYNTDSVCNRDVPVADAF
PSASSEAAKALOVKRSKVNKGMSTKSAKSPRKTKKVNEDLNRHLSKDGSKAEWDAHDLGSDOOFDESTMP
PVCTCTGPROCYKW/GSGGWOSS.CC.TTYLSEYPLPOLPNKRHARLGGRKMSGSVFSRLLTRFAVADRDLSMPD
LKTYWAKHGTNRYTK
>Solyc02g084230.1
AMAERDAA RERN MALEER.KRAFAERDMAMLORDA ALAERNALOERNDAAALRLODSSTNDN N—
MVPDSPGNGTESGAKHYNOOOMYRTTADAAHGSTEDPAAGYLKDTDTSEAKPKKVKRPKESRHNKOAK
PRVGKSTDSLS MOVATTSDDWVN LOEMDSDKEGDTOLTSWKDNLGLKNFDDSAMP\/PVCSCTGTPOP
CYKW/GHGGWOSACC.TTTSMYPLPOSNKRYSRVGGRKMSGGAFSKLLNRLAAOGYDLSPLDLKDHWAKHGTN
RYSTLK
>Solyc04g008380.2
MRNWGYYEPSLKGHLGLOLMSSMVDRDAKPYLTRRENPMLGANG\/FHSRDSPEAPLSH|DY\/RDSWIN.HR
DKFLHMFPGSPYTSVLPDASASTPMOMVOOPDT TKDVGVNVEEPSVKKESGPSKRKTGGATPKAPKAKKSKKVSSAP
KENGNPSORAKPAKKSMDVLNG|DMDSVPPVCSCTGSPOOCYRWGCGGWOSACC.TTSSMYPLPMSTKRRGA
RIAGRKMSOGAFKKVLEKLAAEGYNFANPDLRTHWAKHGTNKFVTRLCDLCEGHDSHKYO
>Solyc04g081170.2
MDDSGNRDNGRHKPPOGOWLMOHOPSMKOMAMAERDAAOERNLALSEKKAALAERDMALORDSAAERN
NAMERDNAFATLOYRETSMTAGOVRG\/KHMHHPOOHVHHOPHMGEPTYNPREMHMVEAPVSOPAPEPAKP
RRNKRAKEPKAATGSKKTPKASKKVKRETEDLNOTTYGKSPEWKGAOEMVGASDDLNROLSVAKPDWKDODLGL =
NOVAFDETTMP\/PVCSCTGVLRPCYKWGNGGWOSSCC.TTNLSMYPLPAVPNKRHARIGGRKMSGSAFTKLLSRLA
AEGHDLSNDVDLKNNWAKHGTNRYTK
>Solyc06g072370.2
MHRNWSYFEPTPTVPKGHLGLOFVSSMNEKPPHFRNHDNHOOOOOSHOPDHPSVMASTNGGAFHHHR\/CGL =
SESPMPMEYMRDSWVNOKDYREKYLNVLSSMOMHOOPNLVKVETAPLVEEVCOEGDNGGLAKKRGAGOSOELK
SPKPKKAKKATRAPKDESTSSPPRARAPRKSAEV\/INGNMDSVPPCSCTGAAOOCYRWGCGGWOSACC.TTNLS
SYPLPMN\/KRRGSRAGRKMSLGAFKK\/LEKLASEGYNFSNPDLKPHWARHGTNKFVR
>Solyc08g076230.1
MASOVNHKEETFDSHFPWHRDNFPPATOLGSKSKPCAAVPRSVAPTGEONVDVKFKAKSOKMKKNKKTSMN
G|RETVSELLKEKRFENKSSASKKPKGEAKCGEATVTKNPSS\/YGRASADFSGLPOPFCSCTGVSRRCYKCGGGWOS
SCC.TTSLSEYPLPFNPSKPGNRKAGRKMSNGAYNKLLCTLATEGHDLSNP\/DLKDHWAKHGSNKFTLK
En la sección “Select the sequence alphabet” indicaremos la opción “DNA, RNA or Protein”, puesto
que introduciremos nuestras secuencias problema en el formato estándar proteico. Estas secuencias
problema podemos añadirlas desde un archivo de texto (opción “upload sequences”) o bien, como es
nuestro caso, pegarlas directamente en formato FASTA en un cuadro de texto. Para ello indicaremos
la opción “Type in sequences” en la sección “Input the primary sequences”, como se indica en la figura.
O WOWer al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 77
Posteriormente, MEME nos pregunta acerca de la distribución y el número de motivos que van a
ser identificados en las secuencias problema. En la sección “Select the site distribution” tenemos que
establecer el número de repeticiones que esperamos encontrar de los motivos identificados a lo largo
de cada secuencia. En nuestro caso indicaremos que cada motivo aparezca cero o una vez por secuen
cia, por lo que escogeremos la opción “Zero or one occurrence per sequence”. Además, tendremos que
establecer el número de motivos que MEME debería encontrar. De este modo, en la sección “Select
the number of motifs” indicaremos 2 motivos.
Utilizaremos los parámetros avanzados por defecto y finalmente presionaremos el botón “Start
Search” en la parte inferior del formulario. Dependiendo del número y longitud de nuestras secuencias
los resultados de MEME pueden tardar en aparecer. Una vez finalizado el análisis, aparecerán distintas
opciones, escogeremos la primera de ellas, “MEME HTML output”.
La página de resultados de MEME es un extenso documento dividido en varias secciones. Al prin
cipio de la página nos indica como citar el uso de MEME en nuestras publicaciones
Q Volver al índice
78 Manual de prácticas de Bioinformática
A continuación encontramos la sección “Discovered Motifs” donde encontramos los motivos iden
tificados. En nuestro caso podemos observar dos motivos, uno de 34 y otro de 29 aminoácidos, los
cuales han sido identificados en las seis secuencias analizadas, como indica la columna “Sites”. Además,
en la columna “E-value” podemos hacernos una idea de cómo de significativo es nuestro resultado,
siendo 0.0 el valor más alto posible.
La representación gráfica nos da una idea de cuáles son las posiciones más conservadas en el mo
tivo, lo cual se mide en bits (para nuestro propósito es suficiente saber que la altura de la columna es
directamente proporcional a su nivel de conservación). Los colores corresponden al tipo de residuos
con mayor prevalencia en dicha posición (por ejemplo, el color rojo hace referencia a que en dicha
posición se encuentra mayoritariamente aminoácidos cargados positivamente).
Asimismo, podemos descargar una imagen de alta calidad de cada uno de los motivos identificados
haciendo clic en la flecha de la columna “Submit/Download”. En la pestaña “Download logo” escogere
mos el formato “EPS (for publication)” y finalmente pulsaremos el botón “Download”.
En la sección “Motif Locations”, encontramos como se encuentran distribuidos los diferentes motivos
a lo largo de cada una de las secuencias problema.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 79
Más abajo podemos observar la sección “Input & Settings”, donde encontramos un resumen de
ciertos detalles acerca de los datos que MEME utilizó para identificar los motivos; entre otros, el
número de secuencias problema, la frecuencia de cada residuo aminoacídico en nuestro conjunto de
secuencias y los parámetros utilizados para hacer el análisis.
Por último, al final de la página podemos encontrar información general acerca de la herramienta
MEME: número de versión, cita bibliográfica y la línea de comandos.
Q Volver al índice
80 Manual de prácticas de Bioinformática
MEMEurersion
4.11.2 (Release date: Thu May 05. 14:58:55 2016-0700)
Referenice
Timothy L. Bailey and Charles Elkan, "Fitting a mixture Inodelby expectation maximization to discºver motifs in biopolymers",
Proceedings of the Secord Internatiorral Conference on Inteligent Systems for Molecular Biology, pp. 28-36, AAAl Press, Menlo Park, California,
1 el 1.
Command line
TETIa EE.LErices.fa -prºtein-oc. -TICEtatus -tiTa 18.000 -Tlax EizE ECIC —TrdzCopE - IrlatifE 2-Tirw B -Tlaxw50
Como tarea a realizar, antes de finalizar esta práctica, el alumno deberá poner en práctica los cono
cimientos adquiridos para identificar motivos conservados en el siguiente conjunto de secuencias, utili
zando para ello los mismos parámetros que hemos seleccionado en el análisis anteriormente realizado.
MDDDGFRNWGYYEPAAATFKGNLGLOLMSTDRNTKPFLPGRDPNLMMGPNGSYHHOEPPHMSYNWINOOKDKFFNML =
P\/TTATPNYGNVLPETSSAPSMOMNLHHHLOTEENP\/KLEEE|\/VOTKKRKTNAKAGSTPKAKKPRKPKDENSNNNNNNNTNVTR
VKPAKKSVDLVNG\/SMDSGLPVPCTCTGAPOOCYRWGCGGWOSACC.TTNSMHPLPMSTKRRGARSGRKMSOGAFKKVLE
KLASDGENFGNPDLKSHWARHGTNKF\/TR
MMEEDGLNNRNWGYYEPSOFRPNLGFOLPSLDRNEKPFLSPHSONLNFTPSNVYGGGSSSVVSYPRDYTVSDAPFMSYSW –
NOHKDSKFFSNVPEVSRMTOSMOLLOPEV\/TEVDESVKRRHCSGGORGGVPKVKKEKKLKDNNMPRVORERSPLLRKCEMVINGVS
MDGGLP\/PVCSCTGMPOOCYRWGCGGWOSACC.TTNVSMYPLPVNTKRRGARIAGRKMSOGAFRKVLEKLSSDGFDFSNPDLK
SHWAKHGTNKF\/TR
> AT2G01930
MDDDGFRNWGYYEPAAASSFKGNLGLOLMSTDRNTKPFLPGRESNLMGSNGSYHSREODMNYSWINOPKDNKFFNMLPSTPSYS
NVLSETSGSNSOMHOPVLNSSRFEENPPPPAPCEEOTGKKRKMRGSATPTVPKAKKMRKPKEERDVTNNNVOOOOORVKP\/KK
SVDLVING\/SMDSGLP\/PVCTCTGTPOOCYRWGCGGWOSACC.TTNSVYPLPMSTKRRGARSGRKMSOGAFKKVLEKLSTEGYSFG
NADLKSHWARHGTNKF\/TR
> AT2G21240
MENGGOYDNARFKPDYFKGAOSMWNMPOHOKEOHNALVMNKKMSLAERDAAVHERNOAVSAKKEAVAARDEALOORDKAL =
SERDKALERDNAYAALOHHENSLNFALSGGKCVDGDDCFGGEPHKLEVFPLSTPPEVTNTKV\/NKRKKENKOGLSKVKKVGEDLNRR
VPAPGKKSRTDWDSODVGLNLVTFDETTMPVPMCSCTGSTROCYKWGNGGWOSSCC.TTTLSOYPLPOMPNKRHSRMGGRKMSG
NVFSRLLSRLSAEGYDLSCP\/DLKDYWARHGTNRYTK
> AT2G35550
MGLDSSFVNSSGFADFOSNNLERSNLFLYELOREGVFPLKLAKMNSFPAONLMLSATNANKDSGLRTSNAHWLHSCAVPKTTG|DLS
OEPPAEGVMVPOSHLFPPPRDSRNDTETVKOKSVNOSPSKALKPKPORKKRSVSNKSKKTPSPETKREKKNLDNDSSFDTSGVPPPVCSCT
GVSRVCYKWGMGGWOSSCCTSSTYPLPMSTTRPGARLAGRKMSNGAY\/KLLARLADEGYDLSHPLDLKNHWARHGTNKFVTK
> AT4G38910
MESGGOYENGRYKPDYYKGTOSVNVMPKKEOHNALVMNKKSLAERDAAVKERNEAVAATKEALASRDEALEORDKALSERDNA
METESALNALRYRENNLNYLSCAKRGGSORFTEESHLPNPSPSTPPEAANTRPTKRKKESKOGKKMGEDLNRPVASPGKKSRKD
WDSNDVL \/TFDEMTMPVPMCTCTGTAROCYKWGNGGWOSSCC.TTTLSEYPLPOMPNKRHSRVGGRKMSGSVFSRLLSRLAGEG
HELSSDVDLKNYWARHGTNRYTK
> AT5G42520
MDDGGHRENGRHKAAVOGOWLMOHOPSMKOVMSAERDAAOERNLASEKKAAVAERDMAFLORDTAAERNNAMERDSALT
ALOYRENSMV/TAPAANMSACPPGCOSRG\/KHLHHPHMHHHHOOH HIPOLITENAYETREMEPNDGLPTSPPAGSTLESAKPKRGKR
VNPKATTOTAANKRGPKNORKVKKESEDDLNKMFVKTTHDYTDEDSSKHLGSKSDWKSOEMVGLNOV\/YDETTMPPPVCSCTGV =
ROCYKW/GNGGWOSSCC.TTTLSMYPLPALPNKRHARVGGRKMSGSAFNKLLSRLAAEGHHDLSNPVDLKDHWAKHGTNRYTK
O WOWer al índice
Práctica 6: Construcción de árboles filogenéticos
La Filogenia es la ciencia que estudia las relaciones de parentesco entre las diferentes especies. Un
análisis filogenético no sólo nos indica las relaciones evolutivas entre especies o secuencias, sino tam
bién el grado de parentesco entre ellas, mediante el cálculo de distancias filogenéticas. Los métodos
filogenéticos nos permiten reconstruir un árbol que representa la historia evolutiva de las especies a
partir de las evidencias experimentales de las que dispongamos. Estas evidencias pueden ser datos
morfológicos, genotípicos y secuencias de ADN o de proteínas. No obstante, estrictamente hablando,
aunque las especies tengan una única filogenia, los distintos genes pueden haber tenido una historia
evolutiva diferente. En estos casos, podría calcularse la filogenia de cada gen, lo que permitiría recons
truir una filogenia consenso de la especie.
Los métodos de reconstrucción filogenética más habituales asumen que todas las secuencias o
especies provienen de un ancestro común. Del mismo modo, asumen que todas las secuencias o es
pecies de las que tenemos información son especies actuales y que ninguna de ellas es un antepasado
de cualquiera de las otras. Si alguna de estas condiciones no se cumpliesen no sería correcto intentar
reconstruir una filogenia. Así, por ejemplo, si estamos comparando poblaciones de una misma especie
puede que no se cumpla que las distintas poblaciones se hayan originado por una simple bifurcación
de las anteriores. Es común que varias poblaciones se mezclen por migración y esto no se tiene en
cuenta en los métodos de reconstrucción filogenética.
Un árbol filogenético (dendrograma) es un diagrama con ramas que muestra las relaciones evoluti
vas, la filogenia, de un conjunto de nodos. Estos nodos pueden ser especies, individuos, genes, etc. En
concreto, durante esta práctica conoceremos los fundamentos de los análisis filogenéticos por medios
informáticos. Principalmente cubriremos el uso de algunas de las herramientas bioinformáticas más
conocidas y construiremos un árbol filogenético de una familia multigénica a partir de sus secuencias
proteicas. De este modo, los objetivos principales de esta práctica son:
Q Volver al índice
82 Manual de prácticas de Bioinformática
Además, al construir un árbol filogenético estamos asumiendo que las secuencias utilizadas incluyen
información suficiente como para resolver el problema. Esta es una asunción que podemos y debemos
comprobar por algún método estadístico, así podremos establecer si el árbol filogenético obtenido es
robusto. Por último, hay que tener en cuenta que si pretendemos reconstruir un árbol de especies y
estamos utilizando una o varias secuencias para hacerlo, hemos de asumir que las secuencias elegidas
son representativas de las especies incluidas en el análisis. Si no fuese así, estaríamos generando un
árbol correcto de secuencias, pero no de especies.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 83
Acceda al sitio web Conserved Domain Database (CDD) del NCBI ubicado en la
siguiente dirección
http://www.ncbi.nlm.nih.gov/cdd
En la sección “Sequence Alignment” haremos clic en la pestaña “Include consensus sequence” (fle
cha). De este modo, aparecerá una nueva línea en el alineamiento que muestra la secuencia consenso
que define al dominio YABBY.
Q Volver al índice
84 Manual de prácticas de Bioinformática
Utilizando la secuencia consenso del dominio YABBY, realizaremos un análisis BLAST contra la
base de datos de proteínas (BLASTP), seleccionando en el epígrafe “Expectation” (localizado entre las
opciones avanzadas) un valor de corte de E-Value de “0.01”, como se muestra en la figura.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 85
Ejecutamos el análisis haciendo clic en “Submit” y en pocos segundos obtendremos una página de
resultados similar a la siguiente.
Acceda al sitio web Sol Genomics Network (SGN) ubicado en la siguiente dirección:
https://solgenomics.net/
Haga clic en “Tools” y seleccione la opción “BLAST”
Q Volver al índice
86 Manual de prácticas de Bioinformática
En este caso, la secuencia consenso del dominio YABBY será analizada mediante BLAST frente a
la base de datos “Tomato Genome cDNA (ITAG reléase 2.40)”, seleccionando la opción “tblastn (protein
to translated nucleotide db)” en el epígrafe “Program”.
De este modo, los resultados nos muestran que el genoma de Solanum lycopersicum contiene 9 ge
nes que codifican proteínas pertenecientes a la familia multigénica YABBY-like o lo que es lo mismo,
proteínas que contienen en su secuencia dominios similares al dominio YABBY.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 87
número de secuencias con gaps en una posición, regiones con nivel bajo de similitud, etc. Otro ejemplo
es el programa
html), el cual selecciona bloques según su nivel de conservación y elimina aquellas regiones con gaps
Gbloks (http://molevol.cmima.csic.es/castresana/Gblocks/Gblocks_documentation.
Q Volver al índice
88 Manual de prácticas de Bioinformática
Para hacer el alineamiento múltiple introduciremos las secuencias proteicas en formato FASTA de
los 15 genes YABBY-like en el campo de entrada “STEP 1 - Enter your input sequences”. Posteriormente,
utilizando los parámetros por defecto, ejecutamos el alineamiento haciendo clic en “Submit”.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 89
En el campo de entrada “STEP 1 - Enter your multiple sequence alignment”, aparece directamente el
enlace al alineamiento múltiple realizado anteriormente, por este motivo no debe introducir de nuevo
los datos de dicho alineamiento.
En el campo de entrada “STEP2 – Set your Phylogeny options”, nos detendremos en el método que
utilizaremos para la creación de nuestro árbol. Básicamente existen 2 categorías de métodos para la
creación de árboles en estudios filogenéticos: Métodos basados en matrices de distancia (UPGMA y
Neighbor Joining), y los métodos basados en la composición de las secuencias (métodos de máxima
parsimonia y máxima verosimilitud). Cada uno de estos métodos tiene sus fortalezas y sus debilidades,
pero el método que se utiliza más frecuentemente es el de Neighbor Joining. Además, este método es
el más recomendable si no estamos seguros de que se cumple la hipótesis del reloj molecular; es decir,
si esperamos que las distintas ramas de nuestro árbol puedan haber evolucionado a distinta velocidad.
Por tanto, para la reconstrucción filogenética de la familia YABBY-like seleccionaremos el método
Neighbor Joining. Además, escogeremos la opción “on” en el menú desplegable “EXCLUDE GAPS”,
puesto que, generalmente, no es conveniente crear un árbol filogenético haciendo uso de las regiones
ricas en gaps. Posteriormente, ejecutaremos el análisis haciendo clic en “Submit”.
En la página de resultados podemos encontrar dos tipos de filogramas. Si seleccionamos la opción
“Cladogram”, observamos que este tipo de árbol sólo representa un patrón de ramificación; es decir,
que la longitud de sus ramas no representan el tiempo. Sin embargo, si escogemos la opción “Real”,
Q Volver al índice
90 Manual de prácticas de Bioinformática
encontramos que este tipo de árbol no sólo representa el patrón de ramificación, sino también indica
el grado de divergencia evolutiva mediante la longitud de sus ramas.
Existe una amplia gama de programas específicamente desarrollados para reconstruir filogenias,
los cuales permiten controlar muchos más parámetros que la herramienta ClustalW2_Phylogeny. A
continuación utilizaremos el programa gratuito Phylogeny.fr para hacer una nueva filogenia de la
familia YABBY-like.
Phylogeny.fr es una herramienta esencial para aquellos usuarios que no tengan experiencia previa,
puesto que permite obtener filogenias robustas de una forma sencilla.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 91
Q Volver al índice
92 Manual de prácticas de Bioinformática
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 93
Bootstrap es un test estadístico que nos permite validar el árbol construido. Este test se puede aplicar
a todos los métodos de cálculo de distancias y consiste en crear réplicas de los dendrogramas a partir
del alineamiento original, de forma que se puede evaluar el porcentaje de árboles en los que aparece
cada nodo. Los nodos con un alto valor de bootstrap tienen una probabilidad alta de ser correctos
mientras que los que tienen un bajo valor de bootstrap podrían haberse generado simplemente por
azar. En nuestro caso, el número rojo que aparece en cada nodo corresponde con el valor de bootstrap.
En la pestaña “Tree Rendering” podrá observar diferentes opciones para editar el árbol generado.
Familiarícese con algunas de ellas y observe las diferencias entre los distintos árboles generados.
Para finalizar la práctica, utilizando los conocimientos adquiridos, el alumno tendrá que realizar
las siguientes tareas:
• Buscar la secuencia consenso del dominio de unión a ADN de tipo GAGA que
define a la familia BBR/BPC.
• dentificar los genes de la familia BBR/BPC en las especies Arabidopsis thaliana
y Solanum lycopersicum.
• Realizar la reconstrucción filogenética de la familia BBR/BPC, usando la herra
mienta Phylogeny.fr para construir el árbol filogenético.
Q Volver al índice
Práctica 7: Edición de genomas con CRISPR/Cas: diseño de ARN
guía
El origen de esta técnica lo encontramos en el sistema inmune adaptativo de las bacterias. Así, el
sistema CRISPR/Cas forma parte de un mecanismo natural de inmunidad para degradar y eliminar
secuencias de ADN invasoras, que se encuentran en aproximadamente el 40% de los genomas bacte
rianos y en el 90% de los genomas secuenciados de las arqueas. El vocablo CRISPR son las siglas de
Clustered Regularly Interspaced Short Palindromic Repeats (Repeticiones Palindrómicas Cortas Agrupadas
y Regularmente Interespaciadas), mientras que Cas, CRISPR associated, hace referencia al nombre dado
a una serie de proteínas implicadas en el proceso.
La tecnología CRISPR/Cas una herramienta molecular capaz de editar el genoma de una célula, de
forma que añade o elimina secuencias de ADN. Los grupos de investigación de Emmanuelle Charpen
tier y Jennifer Doudna publicaron un artículo en 2012 donde postularon el uso del sistema CRISPR/
Cas para la edición genética, las cuales han sido galardonadas con el premio Princesa de Asturias de
Investigación 2015 por el desarrollo de esta tecnología. Actualmente, esta técnica es una de las princi
pales herramientas para modificar el ADN. Su gran versatilidad y eficacia, junto con su fácil manejo
y bajo coste, han hecho que la prestigiosa revista Science eligiera la tecnología CRISPR/Cas el avance
científico más importante del 2015.
Una de las grandes fortalezas de la técnica CRISPR/Cas es su gran precisión, lo cual es primor
dialmente relevante, si llegado el momento, se pretende utilizar como terapia génica en humanos. No
obstante, en muchas ocasiones los genomas contienen zonas iguales o muy semejantes a la que se desea
editar, lo que puede llevar a que el sistema corte y edite en lugares diferentes al deseado. Es por ello
que están comenzando a desarrollarse herramientas bioinformáticas dirigidas a reducir al mínimo el
número de posibles dianas erróneas. A lo largo de esta práctica utilizaremos una de estas herramien
tas, Breaking-Cas, con la que aprenderemos a diseñar ARN guías para el sistema CRISPR/Cas. Así, el
objetivo principal de esta práctica es:
Tecnología CRISPR/Cas
La técnica CRISPR/Cas consiste en introducir una pequeña secuencia sintética de ARN, denominado
ARN guía (sgRNA, del inglés, small guide RNA) complementaria al fragmento de ADN que se quiere
modificar. Este sgRNA es utilizado como cofactor por una nucleasa, en este caso la proteína Cas9, y
dirige a la nucleada a la secuencia genómica que presente la secuencia complementaria a la guía y la
nucleasa abre la doble cadena de ADN y la corta. Tras esta rotura, pueden introducirse modificaciones
añadiendo una plantilla que la maquinaria celular usará para reparar el daño causado por la proteína
Cas9.
El desarrollo de la tecnología CRISPR/Cas está permitiendo una amplia gama de aplicaciones en
poco tiempo y su número no deja de crecer. Por ejemplo, manipular genéticamente especies que hasta
ahora habían sido esquivas a las técnicas de manipulación genética, lo cual podría aumentar el rango
de organismos modelo. Además, del mismo modo que se pueden dirigir sgRNAs para editar secuencias
génicas, se puede usar esta nueva tecnología para la edición de secuencias reguladoras o no-codicantes,
con el objeto de poder descubrir nuevas secuencias de este tipo o aclarar la función de alguna de ellas.
Q Volver al índice
96 Manual de prácticas de Bioinformática
No obstante, entre las aplicaciones más prometedoras se encuentra en desarrollar terapias génicas en
humanos, la cual ha sido probada en animales de laboratorio y permitirá corregir genes defectuosos
ligados a enfermedades humanas y diseñar estrategias contra el cáncer.
Fuente: SINC, Servicio de Información y Noticias Científicas, plataforma multimedia de comunicación científica.
Breaking-Cas
El Centro Nacional de Biotecnología del CSIC (CNB-CSIC) ha desarrollado una herramienta web
que facilita el diseño de experimentos de edición génica utilizando la conocida técnica CRISPR/Cas.
Breaking-Cas permite diseñar el ARN guía necesario para la implementación de esta técnica en dife
rentes organismos eucariotas.
En el sistema CRISPR/Cas, el ARN guía ha de ser específico para cada experimento concreto.
Breaking-Cas permite diseñar un ARN guía altamente específico para el segmento del genoma que se
quiere editar, reduciendo al mínimo el número de posibles dianas erróneas. Como ya se ha comen
tado, este ARN guía es el encargado de dirigir la nucleasa y toda la maquinaria del sistema al punto
adecuado del genoma.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 97
El primer paso para comenzar con el diseño de los ARN guías es escoger la especie cuyo genoma
queremos editar. Breaking-Cas permite editar los cerca de 700 genomas contenidos en la platafor
ma ENSEMBL (http://www.ensembl.org/index.html). En nuestro caso escogeremos el genoma de
Solanum lycopersicum.
Q Volver al índice
98 Manual de prácticas de Bioinformática
A continuación, introduciremos la secuencia del gen que queremos editar. Utilizaremos la secuen
cia codificante (cDNA) del gen Solyc02g083950.2.1, el cual codifica un factor de transcripción de tipo
“WUSCHEL-related homeobox” (WOX).
>Solyc02g083950.2.1
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAA-
AAATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGA-
ATATTGAAGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGC-
TAAGTTGAGACAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGA-
AAGACAAAAGAAGAGGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTC-
CACATCTTTGGAGATCTCCTGATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTC-
GAAGAGCTTTAGGGAGTGTTCAATATCACCACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTT
CATCACCATCTTCACATGGGGTATTACCAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGA-
GATCCTTACAACAATATGAGTACTACTTCTCCAGCAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACAC-
TATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAAATTACCAAAGGGGTAACTCTGCTTTAGAAACTCT
GTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCTGCATCAAACATCATGAATCTTCTGGAG-
GATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCAACTCTTTCCCCTAAATTATGAAC-
TAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGCTATTTGGACCTTATGGTAAT
GTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT
Copiar esta secuencia en formato FASTA y pegar en el cuadro de texto situado bajo el epígrafe
“Paste one or several query DNA sequences in FASTA format (up to 20,000 nucleotides in total)”.
Por otro lado, a diferencia de otras herramientas semejantes, Breaking-Cas permite ajustar las
características de la enzima nucleasa utilizada.
Existen diferentes posibilidades, aunque la más común es la nucleasa Cas9. El principal requeri
miento para que esta enzima Cas9 funcione es la presencia de una pequeña secuencia (en el caso de
Streptococcus pyogenes es “NGG” en 3´) conocida como PAM (del inglés, Protospacer Adjacent Motif)
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 99
que se encuentra adyacente al locus que se quiere editar en dirección 3´ y que es esencial para que las
proteínas Cas presenten especificidad por la secuencia de los sgRNA.
La herramienta Breaking-Cas contempla como opción enviar los resultados del análisis que reali
cemos a nuestro correo electrónico.
Finalmente, presionaremos el botón “submit” en la parte inferior del formulario. Una vez finalizado
el análisis, aparecerán distintas opciones, escogeremos la primera de ellas, “View online”.
Y en la parte inferior izquierda, encontramos una tabla donde aparece la información referente
a los RNA guías. Esta tabla nos muestra la posición (“START” y “END”), el sentido (“STRAND”), la
secuencia (“OLIGOS”), las dianas situadas en el gen de interés (“ONTARGETS”), las dianas situadas en
otras regiones del genoma (“OFFTARGETS”) y cuáles de estas dianas no específicas están ubicadas en
otros genes (“GENES”), así como un valor de puntuación (“SCORE”) para definir la bondad del ARN
guía diseñado (valor entre 0 y 100%), de forma que mientras más elevado sea, mejor es el ARN guía.
Q Volver al índice
100 Manual de prácticas de Bioinformática
Además, haciendo clic sobre cualquier de los ARN guías, aparecerá en la parte derecha de nues
tras pantallas un esquema gráfico con la ubicación del ARN guía en nuestro gen de interés, junto con
el resto de posibles dianas no específicas. Así, si hacemos clic sobre el primer resultado, aparecerá la
siguiente imagen.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 101
es muy específico, por lo que la existencia de “mismatches” (no coincidencias) en la secuencia diana
reduce considerablemente el valor “SCORE”. En este caso, la secuencia del ARN guía presenta 4 “mis
matches” (marcados en rojo) respecto a su diana genómica.
Finalmente, poniendo en práctica los conocimientos adquiridos a lo largo de esta asignatura, el
alumno deberá realizar las siguientes tareas:
A lo largo de esta práctica sólo hemos visto aspectos básicos del manejo del programa Breaking
Cas, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa que encontrará en el siguiente enlace:
http://bioinfogp.cnb.csic.es/tools/breakingcas/tutorial/help.html
Q Volver al índice
Práctica 8: Visualización y análisis de datos de secuenciación
masiva (NGS)
El continuo desarrollo de las denominadas nuevas tecnologías de secuenciación masiva (NGS, Next
Generation Sequencing) permite actualmente obtener millones de secuencias de ADN a una velocidad
sin precedentes y a un coste cada vez más reducido. Su potencial ha permitido el desarrollo de nue
vas aplicaciones, entre ellas la resecuenciación de un genoma completo de diferentes individuos de
una especie con el fin de caracterizar la diversidad genética, mediante la identificación de mutaciones
puntuales y variaciones estructurales.
La resecuenciación se puede llevar a cabo cuando se dispone de un genoma de referencia, preferi
blemente de la misma especie, o, en su defecto, de alguna especie cercana. Esta metodología consiste en
alinear (o mapear, del inglés mapping) las lecturas obtenidas en la resecuenciación sobre un genoma de
referencia para detectar diferencias entre ambos. Actualmente, los algoritmos de mapeo son mucho más
rápidos y precisos que los de ensamblaje, por tanto la resecuenciación de un genoma necesita menor
gasto computacional que ensamblar un genoma de novo. Además, como se parte de la disponibilidad de
un genoma de referencia, tiene la ventaja de no necesitar tanta cobertura de secuenciación (el número
de veces que, como media, se lee cada posición del genoma resecuenciado), reduciendo los costes.
Dado que están disponibles para uso público cientos de genomas de diferentes organismos euca
riotas (existen cerca de 700 genomas contenidos en la plataforma ENSEMBL; http://www.ensembl.
org/index.html), la resecuenciación de genomas completos es, hoy en día, una práctica habitual en
experimentos dirigidos al estudio de la variación genética entre individuos. En la presente práctica se
ofrece una visión general del manejo de la herramienta Integrative Genomics Viewer (IGV) con el
objeto de examinar y analizar datos NGS. Por tanto, los objetivos principales de la presente práctica son:
Q Volver al índice
104 Manual de prácticas de Bioinformática
Antes de descargar el programa es necesario rellenar un formulario de registro con tus datos per
sonales y tu dirección de correo electrónico, la cuál te dará acceso gratuito para descargar esta herra
mienta. IGV funciona tanto en entorno MS/Windows como en Mac, en nuestro caso escogeremos la
versión de MS/Windows y ejecutaremos el programa haciendo clic sobre el archivo “igv.bat”. Ten en
cuenta, que IGV requiere para funcionar correctamente que Java (versión 7 o superior) esté instalado
en su ordenador.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 105
Para comenzar a visualizar los datos NGS, en primer lugar tendremos que indicarle al programa
IGV el genoma de referencia que queremos utilizar. En nuestro caso trabajaremos con el genoma de la
especie Solanum lycopersicum, cuya secuencia puede obtenerse libremente en la base de datos Sol Geno
mics Network (SGN, https://solgenomics.net/) ubicado en el siguiente enlace: ftp://ftp.solgenomics.
net/ tomato_genome/annotation/ITAG2.4_release/ITAG2.4_genomic.fasta. Además, para completar
la información mostrada por el genoma de referencia, añadiremos los modelos génicos de tomate, los
cuales pueden obtenerse haciendo clic en este enlace: ftp://ftp.solgenomics.net/tomato_genome/
annotation/ITAG2.4_release/ITAG2.4_gene_models.gff3.
Este programa, tiene un entorno de trabajo similar al de todas las aplicaciones de MS/Windows;
por tanto, para crear un fichero que contenga el genoma de referencia de nuestra especie problema
debe dirigirse al menú “Genomes” y escoger la opción “Create .genome File…” (flecha roja).
Inmediatamente aparecerá una ventana similar a la que se muestra en la siguiente imagen. En primer
lugar escribiremos el nombre con el que queremos identificar nuestro genoma, en el campo “Unique
fasta” que en
identifier”, este caso
contiene la secuencia
“Tomato”. del genoma de referencia,
Posteriormente en el el
introduciremos campo
archivo
“FASTA
FASTAfile”.
“ITAG2.4_genomic.
Además, dentro
de las opciones, en el campo “Gene file” seleccionaremos el archivo que contiene los modelos génicos
“ITAG2.4_gene_model.gff3”. Finalmente, haremos clic en “OK”.
Q Volver al índice
106 Manual de prácticas de Bioinformática
Una vez creado nuestro genoma de referencia “Tomato”, la ventana principal de la aplicación tendrá
un aspecto similar a la imagen que se muestra a continuación, donde se muestra el significado de los
principales elementos de navegación:
El siguiente paso es abrir los ficheros que contienen las secuencias problema. En este caso, utiliza
remos las secuencias de 4 genotipos de tomate los cuales difieren en el tamaño y número de lóculos de
sus frutos. En la carpeta compartida del escritorio encontrará 4 archivos con extensión “*.bam”. Cada
uno de estos archivos contiene la información de un genoma completo.
Para abrir los archivos “*.bam” debe dirigirse al menú “File” y escoger la opción “Load from File…”
(flecha roja).
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 107
A continuación, nos dirigiremos hacia la región donde se ubica la mutación de interés. Para ello,
introduciremos “SL2.40ch02:41,766,325-41,766,382” en el cuadro de búsqueda y pulsaremos sobre “Go”.
La nueva ventana nos muestra en detalle esta región. Cada una de las líneas grises corresponde a
una lectura (del inglés, read) de secuenciación. Esta aplicación representa mediante colores los poli
morfismos o mutaciones existentes en la muestra problema respecto al genoma de referencia, mientras
Q Volver al índice
108 Manual de prácticas de Bioinformática
que las regiones no polimórficas se representan en color gris. Además, para conocer la cobertura de
una posición concreta en el genoma, podemos situar el puntero del ratón justo encima de la posición
de interés y aparecerá un recuadro amarillo donde se indica en primer lugar el número total de se
cuencias en esa posición (cobertura). Posteriormente encontramos el número de secuencias alineadas
en esa posición para cada una de las bases que se encuentran en el ADN (N: base desconocida debido
a un error durante el proceso de secuenciación).
A continuación se muestra un ejemplo de una posición polimórfica o mutada (flecha roja); es decir,
diferente a la base del genoma de referencia. En concreto, la base de referencia en esta posición es una
A, mientras que en este genoma existen un total de 30 secuencias alineadas o mapeadas en esa región
genómica que nos indican que existe un cambio nucleotídico de A ® G.
En la siguiente imagen se representa otro ejemplo, pero en este caso de un genoma donde esta
misma posición no está mutada (flecha roja). En esta región genómica han sido mapeadas un total de
27 secuencias y todas ellas nos muestran que en esta posición existe una A, la misma base que está
presente en el genoma de referencia.
Si observamos los 4 genomas problema, el segundo y tercer genoma presentan los dos polimor
fismos (T® C; A ® G) responsables del incremento en el número de lóculos, mientras que el primer y
último genoma no presentan mutaciones.
Q Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 109
Para terminar esta práctica, utilizando los 4 genomas de tomate previamente examinados, el alumno
deberá realizar las siguientes tareas:
En esta práctica únicamente se han abordado los aspectos básicos del manejo de la herramienta
IGV. Si está interesado en ampliar sus conocimientos sobre esta aplicación, puede consultar la guía
del usuario en el siguiente enlace:
https://www.broadinstitute.org/software/igv/UserGuide
Q Volver al índice
Corolario
• Flybase, http://flybase.org/
• The Arabidopsis Information Resource, TAIR: https://www.arabidopsis.org/
• Sol Genomics Network, SGN: https://solgenomics.net/
• ENSEMBL: http://www.ensembl.org/
• Plant Transcription Factor Database, PlantTFDB: http://planttfdb.cbi.pku.edu.cn/
• KEGG: http://www.genome.jp/kegg/
Análisis de secuencias
• BLAST: http://blast.ncbi.nlm.nih.gov/Blast.cgi/
• MUSCLE:
EMBOSS Needle:
http://www.ebi.ac.uk/Tools/msa/muscle/
http://www.ebi.ac.uk/Tools/psa/emboss_needle/
• Bioedit: http://www.mbio.ncsu.edu/BioEdit/bioedit.html/
• Multiple Em for Motif Elicitation, MEME: http://meme-suite.org/tools/meme/
Mapas de restricción
• WatCut: http://watcut.uwaterloo.ca/watcut/watcut/template.php/
• remap: http://www.bioinformatics.nl/cgi-bin/emboss/remap/
• Webcutter 2.0: http://rna.lundberg.gu.se/cutter2/
Diseño de oligonucleótidos
• Oligo: http://www.oligo.net/
• Primer designing tool – NCBI: http://www.ncbi.nlm.nih.gov/tools/primer-blast/
• Netprimer: http://www.premierbiosoft.com/netprimer/index.html/
• Primer3: http://bioinfo.ut.ee/primer3-0.4.0/
Q Volver al índice
112 Manual de prácticas de Bioinformática
Q Volver al índice