Sei sulla pagina 1di 22

03-Jun-14

Bioinformtica

Dr. Javier Moreno


03 Junio, 2014

Bioinformtica

03-Jun-14

*convertir datos a conocimientos


*generar nuevas hiptesis

Experimental

Datos

Conocimientos

Bases de
datos
pblicas

Bioinformtica

Extraccin de conocimiento biolgico a partir de datos complejos.

03-Jun-14

Bioinformtica

Aprox. 27 years
> 145 Giga bases

http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html

http://www.wellcome.ac.uk/Education-resources/Teaching-and-education/Big-Picture/All-issues/Genes-Genomes-andHealth/WTDV027167.htm

03-Jun-14

*convertir datos a conocimientos


*generar nuevas hiptesis

Experimental

Datos

Conocimientos

Bases de
datos
pblicas

*convertir datos a conocimientos


*generar nuevas hiptesis

Experimental
Datos

Conocimientos

Bases de
datos
pblicas

*Disear nuevos experimentos


y nuevas hiptesis

03-Jun-14

Proyectos genoma en curso


De acuerdo al National Center for Biotechnology Information (NCBI;
february 2012; http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html)

Prediccin de
genes

La expresin
gnica podra
facilitar la
prediccin
gnica

03-Jun-14

Plant Interactome Database

Human Interactome
Virus-Host Interactome
Worm Interactome
Yeast Interactome

FTs vs FTs de Arabidopsiss

Arabidopsis Consortium, Science 2011

Bioinformtica

OBJETIVO

Conocer qu es y qu puede hacer la bioinformtica para


resolver problemas, generar hiptesis y responder preguntas

03-Jun-14

Bioinformtica

Tiene cuatro grandes reas


-Organizacin de datos
-Anlisis
-Prediccin
-Testeo de hiptesis

Bioinformtica
Qu es una base de datos?
Tipos de bases de datos
Primarias
GENBANK, PDB
Datos biolgicos originales

Secundarias
UNIPROT
Informacin procesada, manual o automticamente

Especializadas
TAIR, FlyBase
Campos de investigacin ms especficos / Organismos

03-Jun-14

Ensembl

Posee anotacin automtica de genomas secuenciados


Integrados con datos biolgicos
Disponibles desde internet
Genome Browser
Web interface
BioMart

Genomas en Ensembl

03-Jun-14

Genomas en Phytozome

Donde es posible, cada gen fue anotado con datos de PFAM, KOG, KEGG y PANTHER y con conexiones a
bases pblicas como RefSeq, UniProt, TAIR y JGI.

Organizacin-Anotacin de genomas
Identificar de elementos del genoma
Asociar informacin biolgica para esos elementos

Anotacin automtica o curada


Informacin adicional sobre datos posicionales, funcionales, regulatorios y
evolutivos.
Ubicacin de unin exon-intron, splicing alternativo, isoformas proteicas,
miRNAs, sitios de iniciacin y terminacin de la transcripcin, expresin,
genes ortlogos y parlogos, relaciones sintnicas...
Links a bases de datos experimentales y predecidas computacionalmente.

03-Jun-14

Secuencias disponibles

Genmicas, mRNA, cDNA.


ESTs Expressed sequence tags
STSs Sequence tagged sites
GSSs Genome survey sequences
HTGSs - High throughput genomic sequences
Metagenomas
Protenas
Sintticas, Patentes

Bases de datos biolgicas


National Center for Biotechnology Information
www.ncbi.nlm.nih.gov

European Bioinformatics Institute


http://www.ebi.ac.uk/

10

03-Jun-14

Base de datos especializadas

11

03-Jun-14

12

03-Jun-14

Bioinformtica
Anlisis bioinformtico sobre tres tipos de datos:
-secuencias genmicas
-estructuras macromoleculares
-experimentos de genmica funcional (experimentos de expresin a gran escala,
ensayos de doble hbrido en levaduras a gran escala)

Tambin puede aplicarse a otros tipos de anlisis como rboles taxonmicos , relacin
entre vas metablicas, bsqueda de textos y manejos estadsticos de gran escala.

Bioinformtica
Tcnicas diversas
Alineamiento de secuencias primarias
Alineamiento de estructuras 3D
Construccin de rboles filogenticos
Prediccin y clasificacin de estructuras proteicas
Prediccin de estructura de RNAs
Prediccion de funcin proteica
Clustering o agrupamiento de datos de expresin gnica
Bsqueda de motivos y patrones conservados
El desarrollo de algoritmos es una parte importante de la bioinformtica.

13

03-Jun-14

Bioinformtica
Supuestos evolutivos
-El grado de conservacin de las secuencias en el alineamiento revela
asociaciones evolutivas y las variaciones reflejan los cambios que han ocurrido
durante la evolucin mediante sustituciones, inserciones y deleciones.
-Las relaciones evolutivas son tiles para caracterizar la funcin de distintas
secuencias, al transferir informacin a aquellas que no han sido
experimentalmente estudiadas.

Alineamiento global
CATGATGA
CTGAGAT

Cul es mejor alineamiento para estas dos secuencias?


introduce gaps de manera tal de maximizar el nmero de secuencias
que coinciden

14

03-Jun-14

Alineamiento global
CATGATGA
CTGAGAT

CATGATGAC-TGA-GAT
Nos puede ayudar a entender la funcin de un nuevo gen
Programacin dinmica es la solucin ptima.... pero es lenta
A menudo, los mtodos heuristicos son mas usados (BLAST, BLAT)

Alineamiento locales
Matrices de puntajes
-Se construyen del anlisis de regiones muy conservadas de familias de protenas
-Comprobaron las frecuencias relativas de aparicin de los aminocidos y las probabilidades
de sustitucin entre ellos
-A cada posible identidad o sustitucin se le asigna una puntuacin basada en las
frecuencias observadas en el alineamiento de protenas
-Se da una puntuacin positiva a las sustituciones ms probables, mientras que
corresponde una puntuacin negativa para sustituciones menos probables

BLOSUM 62

15

03-Jun-14

Matrices de puntaje
Alineamiento de dos secuencias

BLOSUM90
PAM30

BLOSUM62
PAM120

BLOSUM45
PAM250

Menos divergente

Ms divergente

Globina humana
vs chimpanc

Globina humana
vs bacterial

Algoritmos locales y globales


Alineamiento de dos secuencias

Los mtodos globales


intentan alinear todos los
residuos de cada secuencia,
son ms tiles cuando las
secuencias son menos
divergentes entre s

Por el contrario, los


mtodos locales tienden a
encontrar regiones similares
dentro de regiones ms
diferentes.

16

03-Jun-14

Elementos caractersticos de un alineamiento

Un alineamiento ptimo busca reducir al mnimo los gaps y los mismatches y


maximizar los matches. Para lograrlo se debe implementar una manera de calificar el
alineamiento basada en esas 3 variables!

Alineamientos mltiples
Tres o ms protenas (o acidos nucleicos) parcial o totalmente alineados.

Los residuos conservados podran cumplir una funcin conservada y


ser importantes evolutivamente.

La conservacin de esos residuos podra tener implicancias en la


conservacin de la estructura. i.e.: sitios activos, residuos en zonas
hidrofobicas como dominios transmembrana, seales de localizacin
subcelular.

17

03-Jun-14

Usos tpicos
Alineamientos mltiples

FAMILIAS

CONSERVACIN DE RESIDUOS

Al estudiar clones de cDNA, es una prctica comn secuenciarlos. Un alineamiento mltiple puede
mostrar si hay variantes o discrepancias en las secuencias

FILOGENIA

Cuando se examina los resultados de una bsqueda en bases de datos, ver dichos resultados como un
alineamiento mltiple puede ser muy til para revelar residuos o motivos conservados.

SPLICING ALTERNATIVO

Si una protena en estudio pertenece a un grupo de protenas, esta pertenencia puede proveer detalles
de la probable funcin, estructura y evolucin de dicha protena.

Los algoritmos de filogenia comienzan con alineamientos mltiples como dato inicial. La parte ms
crtica de hacer un rbol es realizar un alineamiento ptimo

ELEMENTOS REGULADORES

Las regiones regulatorias de muchos genes contienen sitios consenso para factores de transcripcin y
otros elementos conservados. Muchas de estas regiones se identifican en secuencias conservadas
mediante alineamientos mltiples

Prediccin de dominios
y motivos proteicos
Motivos
PROSITE
EMOTIF
Ejemplo: E-X(2)-[FHM]-X(4)-L

Dominios

PRINTS
BLOCKS
PFAM
PRODOM
SMART
INTERPRO

18

03-Jun-14

Prediccin de dominios
y motivos proteicos

Prediccin de genes
Categoras
De novo (basado en algoritmos)

Prediccin por comparacin (requiere de secuencias previas conocidas)


Prediccin por experimentacin (requiere de tiempo, puede cometer errores
con genes que se expresan slo en algunos tejidos estadios, o que se expresan a bajo nivel)

Depende de la existencia de secuencias

19

03-Jun-14

Prediccin de promotores y elementos


regulatorios
Categoras
Ab initio
Similitud (Phylogenetic footprinting)
Perfiles de expresin

Genmica funcional
Microarreglos o tcnicas de secuenciamiento masivo
Anlisis de coexpresin

Aproximacin de gentica reversa


Pueden ser letales o puede haber redundancia
Recombinacin homloga (ratn, levaduras)
RNAi (C. elegans, Drosophila)
Insercin al azar de T-ADN o biobalstica (plantas)

20

03-Jun-14

Genmica Comparativa

Qu es igual y qu diferente?
Genes conservados entre organismos. La conservacin sugiere una funcin compartida e
importante. Por ej.: un 80% de genes humanos responsables de enfermedades se encuentran
en el genoma de Drosophila. Esto sugiere que estos genes podran cumplir funciones
importantes en otros eucariotas y fortalece la utilizacin de especies modelo para su uso en
investigacin.
Genes NO conservado entre organismos. Podran ser responsables de las diferencias
fenotpicas entre dos organismos. Por ej.: I) M.leprae y M. tuberculosis. La primera tiene el
tiempo de duplicacin celular mas prolongado. La comparacin de los genomas muestra una
reduccin del nmero de genes a casi la mitad, aunque muchos permanecen como
pseudogenes. II) Humano vs. Chimpac: sus genomas se parecen en un 98.75%, la protena
promedio difiere en dos aminocidos, la mayor divergencia la muestran los transcriptomas de
los testculos y la menor divergencia es en el cerebro.

Genmica Evolutiva
Cmo los genomas cambian con el tiempo? Cules son
las fuerzas evolutivas responsables de esos cambios?
Tasa de prdida de genes.
Duplicacin gnica.
Podra suceder que luego de la duplicacin una de las copias sufra mutaciones y se
convierta en pseudogen, o que se favorezca la estabilidad de dos copias
funcionales, o una copia sufre mutaciones que le confieren otra funcin.

Patrones de variacin en la secuencia del genoma.

21

03-Jun-14

Herramientas

Filogenia

Bases de Datos

Modelado de
estructuras

Motivos/Dominios

Prediccin

Genes

HMM

Promotores/Elementos
regulatorios

Alineamientos de a
pares /mltiples

22

Potrebbero piacerti anche