Sei sulla pagina 1di 68

Introducción a la

Bioinformática

Fernando Barraza A., MS.c.


Agenda

–! Que es la bioinformática
–! Perspectiva mundial y en Colombia
–! Campos de aplicación
–! Participación de los Ingenieros
–! Herramientas bioinformáticas, frameworks y
plataformas de análisis
–! Conclusiones
Que es la Bioinformática?

! B i o i n f o r m á t i c a e s e l u s o d e h e r ra m i e n t a s
computacionales que permiten analizar, depurar y
agilizar el manejo grandes cantidades de información
genética y predecir en algunos casos función de genes
y proteínas con base en evidencia experimental de
secuencias o procesos similares.

La bioinformática parte de datos encontrados


experimentalmente".
¿Y que es eso que llamamos vida?

Alta organización Crecer y desarrollarse


Adaptación

Homeostasis
Transforman energía

Desde Grecia hasta


4
Reproducción hoy Estímulos
El Mundo Microscopico amplia la descripción de los seres vivos
Taxonomía: Clasificación de organismos en reinos, clases, generos,
especies, etc

Carl Von Linné Antoni van Leeuwenhoek


Aristóteles (1707-1778) (1632-1723)
(384-322 A.C)

1.! Todos los organismos vivos están formados por una o más células;
2.! las reacciones químicas de un organismo vivo tienen lugar dentro de
las células;
3.! las células se originan de otras células, y
4.! las células contienen la información hereditaria de los organismos. 5
La diversidad de la vida
Kingdoms Described species ! Estimated total species !

Bacteria 4 000 1 000 000

Protoctists 80 000 600 000

Animals 1 320 000 10 600 000

Fungi 70 000 1 500 000

Plants 270 000 300 000

TOTAL 1 744 000 ca.14 000 000

Dentro de animales se estima que 8.000.000 son


insectos, 10.000 son aves y 4.640 mamíferos son
reconocidos.
6
TODOS TENEMOS CÉLULAS!
Los Virus: ¿Seres Vivos?
No son células, y no cumplen con la capacidad de reproducirse por si
mismos.

Bacterioagos

Ébola
HIV
7
Clasificación de los seres vivos a partir de sus
células
Los Unicelulares

Bacterias Protozoarios Algunas


algas
Los Pluricelulares

Tejidos Células
8
Descubriendo el código secreto !
La genética
La Física y la Genética

Congreso de Solvey - 1927


Nacimiento de la biología molecular
Estructura del ADN

http://www.ba-education.demon.co.uk/for/science/dnamain.html!

http://www.ebi.ac.uk/microarray/biology_intro.html! http://www.lecb.ncifcrf.gov/~toms/DNA.Resources.html!

13
14
Ultimas fases
Los Genes

Las Unidades de Herencia de Mendel se convierten en genes.

Genoma: La totalidad del material


genético de una célula o individuo. El
conjunto completo de cromosomas de
una célula o individuo con sus genes
asociados.
16
17
Las características se heredan de padres a hijos!

Kirk Douglas! Michael Douglas!


http://www.eonline.com/Features/Specials/Surgery2/index4.html!

Mellizos y trillizos!

18
La historia de la bioinformática (1)

•! Fase 1: La genética:
–! 1865 – 1930. Mendel y sus leyes.
–! 1865 – 1952. La búsqueda del gen y la sustancia hereditaria.
•! Fase 2: La biología molecular:
–! 1953 – 1966. La doble hélice y el código genético.
–! 1967 – 1989. La ingeniería genética y la reacción en cadena
de la polimerasa.
•! Fase 3: La genómica:
–! 1990 – 2001. El proyecto genoma y la era post-genómica.
•! Nuevas tendencias: Proteómica, Metabolómica,
Biología sistémica.
La historia de la bioinformática (2)

-! 1930 – 1950 Primeros modelos computacionales


(Alan Turing)
-! 1950 – 1970 Evolución de las arquitecturas de
computadores (Von Neumann)
-! 1970 – 1980 Formalizacion de las bases de datos
(Codd)
-! 1980 – 1990 La era del PC
-! 1990 – 2000 Internet y la globalización
-! Nuevas tendencias: Grid Computing, Computación
ubicua, Nanocomputación.
Diversidad de ciencias cuantitativas
Áreas Biológicas

•! Genómica
–! Caracterización de ADN
–! Predicción de genes
•! Proteómica
–! Modelamiento de proteinas
•! Evolución
–! Análisis filogenético
•! Metabolómica
•! Biología Sistémica
Predicción de Genes

•! Dada una secuencia de DNA no


caracterizada, encontrar:
–! Qué región codifica para una proteína
–! Qué hebra codifica el gen
–! Cuál es el marco de lectura
–! Donde comienza y termina el gen
–! Donde comienza y termina un intron/
exon
–! Donde están las regiones regulatorias
del gen
Modelamiento de proteínas

Representación gráfica de las proteinas desde varias perspectivas


según la aplicación requerida:
–! Modelamiento de drogas
–! Dinámica de proteinas
–! Caracterización
–! Predicción de plegamiento
Análisis Filogenético

From the Tree of the Life Website,


University of Arizona

Orangutan Gorilla Chimpanzee Human


Áreas Computacionales

Bases de Datos
Computación Gráfica
Minería de Datos
Reconocimiento de patrones
Modelado y Simulación
Colaboración y Redes
Introductory Growth Maturity
Decline Stage
Stage Stage Stage

Total
Market
Sales

Time
Bases de Datos

Se caracteriza por la gran cantidad de datos a ser almacenados y


la necesidad de aplicar tecnologías y técnicas tales como:

•!Bases de datos orientadas a objetos


•!Bases de datos relacionales
•!Bodegas de datos
•!Diccionarios de Datos (Metadatos)
•!Diseño de bases de datos
Redes

Manipular, compartir, archivar y transportar la


información bioinformática requiere de tecnologías e
infraestructuras de redes que la soporten y faciliten
tales como:

•!Intranets
•!Internet
•!Sistemas Inalámbricos
•!Bases de datos Públicas
•!Máquinas de búsquedas en redes
Visualización de Datos

Se requiere de técnicas sofisticadas de computación


gráfica para expresar las posibles configuraciones de
proteínas y graficar los resultados de análisis
estadísticos:

Visualización en 2D
Visualización en 3D
Estadística

Se requiere aplicar algoritmos y técnicas aplicadas a la


probabilidad y métodos estadísticos para manejar la aleatoriedad
inherente en los procesos de muestreo.

Early Early Late


Innovators Laggards
Adoptors Majority Majority

Introductory Growth Maturity


Decline Stage
"The Stage Stage Stage
Chasm"

Total
Technology Adoption Process Market
Sales

Time
Minería de Datos

En algunos proyectos las


investigaciones se basan en las
búsquedas de cadenas de
secuencias en una amplia variedad
de bases de datos de otros
proyectos. Se utilizan técnicas
como son las de perfilar secuencias
o taxonomías.
Reconocimiento de Patrones

Tienen aplicación en investigaciones de biología


molecular y básicamente se requiere de aplicar
tecnologías de sistemas Expertos y AI.
Modelamiento y Simulación

Para modelar eventos que simulen interacciones entre


proteínas hasta el análisis de caminos biológicos
potenciales se requiere de modelos de manejos de
eventos tales como:

•!Event-Driven
•!Time-Driven
•!Hybrid simulation
Colaboración

Para obtener un alto grado de cooperación entre


investigadores que contribuyen con la base de
conocimiento genómico y proteomico se requiere
de aplicaciones Web que permitan manipular
grandes cantidades de información, multimedia y
herramientas colaborativas (mensajería, video,
etc.)
Tres revoluciones convergentes
CIFRAS DEL MERCADO BIOINFORMÁTICO MUNDIAL

Revenues 2000 2001 2002 2003 2004 2005 2010 CGR CGR
( $ % %
millions)
(2000 (2005
-2005 -2010
)

World 468 609 824 1,120 1,508 1,987 5,421 33.5 22


wide

________________________________________________________________
*Source: Front Line Strategic Management Consulting (FLSMC).**Compound Annual Growth.
The estimated size of the bioinformatics market in 2003 is US$1.1 billion and is growing at a rate of 33.5%.
Mercado Mundial
Campos de Aplicación

!! Medicina
o! Descubrimiento de drogas
o! Medicina personalizada
o! Terapias genética / Prevención
!! Agricultura
o! Mejoramiento de Cultivos
o! Tratamiento plagas y enfermedades
!! Ecología y Medio Ambiente
!! Energía
!! Antropología
!! Investigación forense
Medicina y tratamientos personalizados (ej: 23andme.com)
Mercado Laboral
Impactos Bioinformática

•! Surgimiento de nuevos paradigmas


•! Conceptos éticos y legales
•! Proyectos interdisciplinarios de alta complejidad
•! Necesidad de nuevas herramientas computacionales
•! Herramienta para acortar el “time to market” en el
desarrollo de productos
•! La frase “in Silico” se ha unido a “in Vivo” e “in Vitro”
Oportunidades en Colombia (1/2)

Específicamente se centran en desarrollar herramientas bioinformáticas para :

•! Fortalecer en el campo agrícola las áreas de estudios genómicos en


cultivos de interés estratégico nacional.
•! Mejorar en salud humana la capacidad de innovación en sistemas de
diagnóstico, el desarrollo de procesos y productos conducentes a la
obtención de vacunas para el tratamiento humano en enfermedades de
alta incidencia en el país.
•! En los temas de agua y producción limpia, implementar procesos de
tratamiento de residuos sólidos, líquidos industriales y domésticos y
procesos de biorremediación para el tratamiento de desechos bióticos y
xenobióticos.
Oportunidades (2/2)

•! En Biodiversidad y bosques fortalecer el conocimiento y la


innovación sobre los componentes genéticos de la biodiversidad
y aportar conocimiento de tipo genético a la conservación de las
especies.
•! En el área de mercados verdes obtener mecanismos para
agregar valor de tipo genético y mejorar los procesos de
escalamiento y obtención de los mismos.
•! Fortalecer las técnicas aplicadas al mejoramiento animal que
permitan conocer el potencial genético de las razas criollas.
•! Identificar y estudiar a nivel genético nuestra diversidad marina,
así como para usar esta de manera sostenible.
Necesidades bioinformáticas

•! Utilización de múltiples tools


•! Contextualización de la información
•! Espacios gráficos personalizados
•! Ejecución de consultas paralelizadas
•! Interoperabilidad semántica de las BD
•! Cooperación de equipos
investigadores
Desafíos

•!Grandes Volúmenes de información


•!Bases de datos heterogéneas y
dispersas
•!Diferentes estándares tecnológicos
•!Búsquedas extendidas y complejas
•!Gráficas avanzadas en 2D y 3D
•!Colaboración de equipos de
investigadores interdisciplinarios
•!Formación de bioinformáticos
Múltiples ciencias y disciplinas involucradas

Bioinformática
Biomatemáticas
Ciencias de la
Biología computación

Bioestadística Tecnología de
información
Subdisciplinas de la bioinformática

•! Desarrollo de nuevos algoritmos y


estadísticas para evaluar relaciones entre
un gran número de datos
•! Análisis e interpretación de datos de
secuencias de genes y proteínas
•! Desarrollo e implementación de
herramientas para el acceso eficiente a
los datos
La ingeniería de software en bioinformática

•! Desarrollo de herramientas aisladas y


heterogéneas
•! Interfases de usuarios limitadas
•! Mínima integración de información
biológica
•! Mercadeo open source amplio pero
limitado a soluciones puntuales
•! Iniciativas para incluir tecnologías de
punta
Campos de aplicación de la Ingenería en Bioinformática

•! Usabilidad
–! Patrones de uso
–! Colaboración
•! Arquitecturas de Software
–! Frameworks
–! SOA, ESB
•! Generación automática de interfases
–! Ontologías
–! Web Semántica
•! Integración de información
–! Workflows
–! Bases de datos
Integración de información

ID MURA_BACSU STANDARD; PRT; 429 AA.


DE PROBABLE UDP-N-ACETYLGLUCOSAMINE 1-CARBOXYVINYLTRANSFERASE
DE (EC 2.5.1.7) (ENOYLPYRUVATE TRANSFERASE) (UDP-N-
ACETYLGLUCOSAMINE
DE ENOLPYRUVYL TRANSFERASE) (EPT).
GN MURA OR MURZ.
OS BACILLUS SUBTILIS.
OC BACTERIA; FIRMICUTES; BACILLUS/CLOSTRIDIUM GROUP;
BACILLACEAE;
OC BACILLUS.
KW PEPTIDOGLYCAN SYNTHESIS; CELL WALL; TRANSFERASE.
FT ACT_SITE 116 116 BINDS PEP (BY SIMILARITY).
FT CONFLICT 374 374 S -> A (IN REF. 3).
SQ SEQUENCE 429 AA; 46016 MW; 02018C5C CRC32;
MEKLNIAGGD SLNGTVHISG AKNSAVALIP ATILANSEVT IEGLPEISDI
ETLRDLLKEI
GGNVHFENGE MVVDPTSMIS MPLPNGKVKK LRASYYLMGA MLGRFKQAVI
GLPGGCHLGP
RPIDQHIKGF EALGAEVTNE QGAIYLRAER LRGARIYLDV VSVGATINIM
LAAVLAEGKT
IIENAAKEPE IIDVATLLTS MGAKIKGAGT NVIRIDGVKE LHGCKHTIIP
DRIEAGTFMI
El problema de integración en bioinformática (2)

•! Como conocer la procedencia de los datos


desde sus diferentes fuentes?
•! Como enlazar de forma lógica las
referencias a las bases de datos?
•! Como reconstruir los análisis de los
workflows para afinar el proceso?
•! Como saber que una fuente de
información ha cambiado?
Entorno típico de un proyecto bioinformático

Generation &
Acquisition Data Files

Biomaterial
Filtering

Executing
Searching

User
Pipelined
Public & Private Searching Bioinformatics
Online Databases Tools Browsing,
Annotation

Local Databases Results


Elementos en un proyecto bioinformático

People
Methodologies

Plattform
Quien es un bioinformático?

•! Utiliza y desarrolla herramientas de


software bioinformáticas para analizar los
datos de secuencias y estructuras
moleculares y así responder preguntas de
tipo biológico y/o encontrar nuevo
conocimiento.
Competencias de bioinformáticos

•! Conocimientos en biología molecular


•! Entendimiento perfecto del dogma central
•! Experiencia en paquetes mas conocidos
de biología molecular
•! Conocimientos de ambientes linux
•! Experiencia en programación con C++,
Perl, etc.
Bioinformatic Plattform

Es la infraestructura necesaria de apoyo


colaborativo entre bioinformáticos y recursos a
través de sistemas con alta capacidad
computacional conformados por:

•! Hardware
•! Software
•! Bases de Datos
•! Redes
Niveles plataforma bioinformática

Search

Portal
LIMS
Workflow
Engine

Tools
Local Databases Web Services
Mining

KDM
DW
Public Databases

Back-end Services Front-end


Identificación de Componentes

hard Soft

•! Clustering •! Software Architecture


•! GigaSwitch •! Database Engines
•! Broadband Internet •! Analyses Tools
•! Middleware tool
Tools

•! Herramientas de análisis
–! Clustal, Blast, Phylip, Rasmol, etc.

•! Módulos de lenguajes
–! Bioperl, Biopython, Biojava, etc.

•! Frameworks bioinformáticos
–! Web Services, Databases, Portals, Workflows, etc.
Frameworks Bioinformáticos

Tool Tipo URL

Biopipe WorkFlow System www.biopipe.org

Taverna WorkFlow System taverna.sourceforge.net


Talisman Framework talisman.sourceforge.net
GMod Database Models www.gmod.ord

BioMoby FrameWork www.biomoby.org


EMBOSS Suite Análisis emboss.sourceforge.net
StackPack Suite Análisis www.egenetics.com
Gpipe WorkFlow System kun.homelinux.com/Pise/5.a/gpipe

Pegasys WorkFlow System bioinformatics.ubc.ca/pegasys/

MyGrid Framework www.mygrid.org


Web Services en bioinformática

•! Permiten ofrecer servicios de análisis desde servidores


especializados sin la intervención humana
•! Ofrecen información sobre las características de los servicios de
análisis

Cliente Web Service Tool Análisis

•! Uno de los más populares es BioMoby (www.biomoby.org)


myGrid

•! Es una middleware para bioinformática orientado a


servicios
•! El proyecto myGrid ha desarrollado una suite de
componentes de mediación acoplados específicamente
para soportar experimentos biológicos intensivos en
procesamiento de datos.
•! Workflows y consultas se enlazan a programas de
terceros y recursos locales usando protocolos basados
en web services.
Componentes de myGrid
Tuberías Bioinformáticas

RepeatMasker BLASTn Twinscan

•! Copiar y pegar desde una aplicación web a otra


anotando manualmente
•! Ventajas : Rápido, fácil acceso a recursos distribuidos
•! Desventajas: Consumo de tiempo, tendencia al error,
procedimientos tácitos que hacen difícil compartir
protocolos y resultados
Workflows Bioinformáticos

•! Tuberías de datos Bioinformatician


users
•! Computan datos
•! Actualización
frecuente de
recursos públicos Taverna workflow workbench
•! Se obtienen los computed computed collected
mismos productos BLAST BLAST metabolic
de datos en report report pathway
contextos de
experimentos
diferentes
CONCLUSIONES

•! Bioinformática es un campo donde la


computación y la ingeniería de software
tienen un alto potencial de aplicación
•! El desarrollo de la bioinformática requiere
de avances significativos en investigación
en temas de ingeniería
•! Existen posibilidades de proyectos en
diferentes campos de la ingeniería de
sistemas.
La Biografía de un ser vivo es la sumatoria de sus
genes mas la interacción entre ellos y el medio
ambiente; lo que hace que cada ser sobre la tierra
sea único, ya que es casi improbable que las
mismas condiciones genéticas y ambientales se
vuelvan a presentar.

67
Créditos

•! Moreno Pedro, Velez Patricia. Atlas


Biología Molecular Animado. Universidad
del Cauca, Colombia
•! Morgan Echeverry S., Proyecto de
Agrobiodiversidad y Biotecnología. CIAT
•! Diana Marcela Bernal Franco. Proyecto de
Agrobiodiversidad y Biotecnología. CIAT

68

Potrebbero piacerti anche