Tesis Beatriz Garcia Jimenez 2012

UNIVERSIDAD CARLOS III DE MADRID
T ESIS D OCTORAL Anotaci on Funcional de Prote nas basada en Representaci on Relacional en el entorno de la Biolog a de Sistemas
Autor: Beatriz Garc a Jim enez Directores: Dra. Araceli Sanchis de Miguel Dr. Alfonso Valencia Herrera
DEPARTAMENTO DE INFORMATICA Legan es, Junio 2012
FUNCIONAL DE PROTEINAS ANOTACION RELACIONAL BASADA EN REPRESENTACION DE SISTEMAS EN EL ENTORNO DE LA BIOLOGIA
AUTOR NEZ B EATRIZ G ARC I A J IM E
DIRECTORES A RACELI S ANCHIS DE M IGUEL Departamento de Inform atica Universidad Carlos III de Madrid (UC3M) A LFONSO VALENCIA H ERRERA Programa de Biolog a Estructural y Biocomputaci on Centro Nacional de Investigaciones Oncol ogicas (CNIO)
TESIS DOCTORAL
F UNCIONAL DE P ROTE A NOTACI ON I NAS R ELACIONAL BASADA EN R EPRESENTACI ON EN EL ENTORNO DE LA B IOLOG I A DE S ISTEMAS
Autor: Beatriz Garc a Jim enez Directores: Dra. Araceli Sanchis de Miguel Dr. Alfonso Valencia Herrera
Tribunal Calicador Presidente: Vocal: Vocal: Vocal: Secretario: ............................................................. ............................................................. ............................................................. ............................................................. .............................................................
Firma ................................. ................................. ................................. ................................. .................................
Calicaci on: ..................................................................................
Legan es, ......... de .................................... de 2012
A mis padres
Las grandes obras son hechas no con la fuerza, sino con la perseverancia. Samuel Johnson
Agradecimientos
Gracias a mis padres. Por d armelo todo a cambio de nada. Por dejarme llegar hasta el nal, aislada, sin preguntar ni compartir tiempo con vosotros, quiz a demasiado tiempo. A mi nimos, por las horas que no te he hermana Mar a, por facilitarme la vida del d a a d a, por los a dado. Al resto de mi familia. A Araceli y Alfonso, por llevar hasta el nal una tesis en bioinform atica dirigida en la distancia. Araceli, gracias por dejarme elegir libremente mi tema de tesis, por tu conanza y nimos y tus consejos; y por recordarme siempre que lo mejor es apoyo incondicional, por tus a enemigo de lo bueno. Alfonso, gracias por permitirme trabajar contigo y por dirigir mi tesis, por todo lo que he aprendido de ti sobre biolog a computacional y sobre investigaci on, por resolver siempre mis dudas en alg un momento, y por plantearme retos continuos para llegar a nalizar esta complicada tesis con signicado biol ogico real, a pesar de las m ultiples dicultades. A Tirso, gracias por ayudarme a nalizar parte de este trabajo. Realmente me ha encantado trabajar contigo a diario buscando la interpretaci on biol ogica de las prote nas. A David, Iakes y Edu, por las largas reuniones siempre desesperanzadoras, de las que nalmente empec ea aprender a investigar en biolog a molecular. Gracias de verdad David. A M.Paz, con la que he pasado m as horas que con nadie estos a nos. Por escucharme, por ayudarme, por aconsejarme, por ense narme, por animarme, por informarme, por protegerme,... Estamos unidas por m as de lo que pensamos. A Lourdes y Sandra, gracias por seguir ah . Lourdes, gracias por tu admiraci on y creencia innita en mi trabajo y en m ; acepta una fuerza e inteligencia que no est a enfrente, sino dentro de ti. A Ana s Baudot y Enrico Glaab, por sus interesantes y esclarecedores comentarios. A los desarrolladores de las herramientas ACE y CLUS por su importante ayuda, especialmente Daan Fierens, Jan Struyf y Leander Schietgat. A Giuliano Armano, por todos los contactos que hice durante mi estancia. A Ross King por sus consejos. A Agapito, por las sugerencias, por estar ah puntualmente a lo largo de la tesis. A Ricardo, por la primera publicaci on de mi tesis. A Paula, por dejarme compartir despacho contigo y por tus pragm aticos consejos al nal de la tesis. A Jose, por tu oportuna ayuda en la recta nal y el optimismo que emanas. A Germ an, por estimar y respetar mi trabajo siempre. A Juan, quien me iba a decir que ser as mi primer compa nero de docencia, del que aprend . A Jorge, por las conversaciones necesarias. Al resto de compa neros de CAOS, de SCALAB y de la UC3M, que alguna vez me animaron o aconsejaron. A mi grupo de bi ologos y bioinform aticos del Centro Nacional de Investigaciones Oncol ogicas: los que a un est an y los que estaban en mis inicios en el Centro Nacional de Biotecnolog a, especialmente a Jos e Mar a, Jos e Manuel, Angela y Almudena (gracias por acoger a la chica de los seminarios). A todos los que alguna vez me escucharon y ayudaron, gracias por vuestras ideas, consejos y resoluci on de dudas completamente desinteresada.
XI
XII
A pilates y baile, por empezar la tesis conmigo y acompa narme todo este tiempo. A Legan es Camina que se uni o despu es. Gracias a todos por los inevitables ratos de dispersi on, necesarios para continuar con la tesis. A Agust n, mi amigo incremental, gracias por tu realismo. A Tania, nimos y tus relatos. A Auentes, gracias por los interesantes, instructivos e gracias por tus a inolvidables momentos sobre la vida; Geraldina, gracias por ser t u, por haber compartido parte de tu apreciado tiempo conmigo. A mi nueva familia de all a, que me acogen sin apenas conocerme. Por apoyarme en la preparaci on de la presentaci on de esta tesis en plena Navidad. nimos y se han interesado por Gracias a todos mis amigos y conocidos que me han dado a el desarrollo de esta tesis. Gracias, gracias, gracias Tom as. Por todo lo que sabes que has representado en esta tesis, y lo que signicas en mi vida. Por tu apoyo, cr tica y ayuda fundamental en la tesis. Por las largas reexiones. Por reavivarme la pasi on por la curiosidad, por el conocimiento y por la vida. Por estar siempre ah en espera activa. Por todo lo que no te puedo agradecer en s olo unas l neas. Por supuesto, por los m ultiples detalles tambi en. Por n, el momento que tanto hemos esperado de despu es de la tesis ya est a aqu ...
Resumen
La anotaci on funcional es un tema de investigaci on abierto e importante en Biolog a Molecular. El problema de denir funci on a nivel de terminolog a es complicado, puesto que la funci on ocupa muchos niveles para una misma prote na y no existe un criterio unicado. Ante estas dicultades, la forma de determinar la funci on de una prote na es anotarla con distintos t erminos en diferentes vocabularios. Las prote nas desarrollan su funci on en cooperaci on con otras prote nas formando complejos. Estas interacciones se representan en una red, formada por interacciones que han sido demostradas experimentalmente entre prote nas. Analizar y utilizar la red de interacciones es una tarea de inter es debido al gran n umero de asociaciones existentes, y a las m ultiples formas en que una prote na puede inuir en la funci on de otras. Por lo tanto, esta tesis se centra en la predicci on de anotaci on funcional basada en redes. Es evidente que este complejo escenario no puede afrontarse sin el uso de herramientas rea de Biolog computacionales. De hecho existe una actividad considerable en el a a Computacional dedicada espec camente a este tema. Esta tesis es parte de este esfuerzo rea de Biolog en la aplicaci on de m etodos computacionales a problemas biol ogicos en el a a de Sistemas. Esta aproximaci on puede enmarcarse en este contexto de la Biolog a de Sistemas, puesto que no se analiza la funci on de forma aislada para cada mol ecula, sino a nivel de sistema, teniendo en cuenta todas las relaciones existentes entre genes y prote nas conectados a distintos niveles. Para aprovechar todas estas relaciones biol ogicas, y mantener su sem antica estructural, esta tesis plantea usar Representaci on Relacional, por ser un dominio particularmente apropiado para ello. A partir de dicha representaci on se aplican m ultiples transformaciones y t ecnicas de Inteligencia Articial para extraer conocimiento de las prote nas relacionadas, y proponer nuevas funciones a trav es de la predicci on de asociaciones funcionales entre prote nas. La propuesta general de esta tesis es la caracterizaci on de funci on de prote nas y genes bas andose en informaci on de redes, a trav es de la Representaci on Relacional y el Aprendizaje Autom atico. En concreto, partiendo de una representaci on relacional para anotaci on funcional, se busca el dise no computacional necesario para resolver dos problemas concretos, diferentes e interesantes en Biolog a. Uno es la predicci on de asociaciones funcionales entre pares de prote nas en E.coli, y el otro la extensi on de rutas biol ogicas en humanos. Ambos se eval uan en t erminos computacionales y de interpretaci on biol ogica. Tambi en se proponen nuevas anotaciones funcionales de prote nas a ser vericadas experimentalmente. Adem as, se exploran diversos enfoques en la representaci on del conocimiento y en las t ecnicas de aprendizaje, proponiendo estrategias concretas para resolver otros problemas bioinform aticos, especialmente inuenciados por la informaci on relacional y el aprendizaje multi-clase y multietiqueta.
XIII
XIV
Abstract
Functional annotation is an open and interesting research topic in Molecular Biology. Determining a function in terminology terms is a hard task, due to lack of unied criterion and also because a function takes up many levels for the same protein. Given this difculties, the way to determine a protein function is to annotate it with several terms from different vocabularies. Proteins carry out their function together with other proteins, being part of protein complexes. These interactions are represented in a network of experimentally veried proteinprotein interactions. Analyzing and using the interaction network is task of interest due to the great number of associations, and to the multiple ways in which a protein could inuence in the function of others. Therefore, this thesis focuses in the prediction of functional annotation based on networks. Its apparent that this complex scenario couldnt be faced without computational techniques. In fact, in Computational Biology, there is a considerable activity specially devoted to this topic. This thesis is part of this effort for applying computational methods to biological problems in the Systems Biology area. This approximation can belong to the Systems Biology context, because it does not analyze function in an isolated way for each molecule, but at system level, taking into account all the relations among genes and proteins linked at different levels. To take advantages of all these biological relations, and to preserve their structured semantics, this thesis suggests to use Relational Representation, since in particular it is suitable for the concerning domain. Over such representation, multiple transformations and Articial Intelligence techniques are applied to retrieve implicit knowledge from the related proteins, and to propose new functions through the prediction of functional associations between proteins. The main proposal of this thesis is to characterize the function of proteins and genes based on networks, through Relational Representation and Machine Learning. Specially, from a relational representation specic to functional annotation, we look for the computational design needed to solve two specic, biological interesting and different problems. The former consists of predicting functional association between pair of proteins in E.coli, and the latter comprises expanding pathways in humans. We perform an assessment in computational and biological interpretation terms. Besides, we propose new putative protein functional annotations to be experimentally veried. In addition, the thesis investigates diverse approaches to knowledge representation and learning techniques, suggesting specic strategies to tackle other biological problems, specially where relational data or multi-class and multi-label targets are present.
XV
XVI
Indice General
1. Introducci on 2. Estado del Arte 2.1. Aprendizaje Autom atico Proposicional . . . . . . . . . . . . . . . . . . 2.1.1. Introducci on al Aprendizaje Autom atico . . . . . . . . . . . . . 2.1.2. Algoritmos Proposicionales de Clasicaci on y Regresi on . . . . 2.1.3. Algoritmos Proposicionales de Caracterizaci on . . . . . . . . . 2.2. Aprendizaje Autom atico Relacional . . . . . . . . . . . . . . . . . . . 2.2.1. Denici on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Ventajas frente a Aprendizaje Autom atico Proposicional . . . . 2.2.3. Representaci on en L ogica de Predicados . . . . . . . . . . . . . 2.2.4. Transformaci on a Proposicional . . . . . . . . . . . . . . . . . 2.2.5. Herramientas de Aprendizaje Autom atico Relacional . . . . . . 2.3. Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular . . . . . 2.3.1. Biolog a Molecular como Campo del AA . . . . . . . . . . . . 2.3.2. Retos del AA en Bioinform atica . . . . . . . . . . . . . . . . . 2.4. Anotaci on Funcional con Informaci on de Redes . . . . . . . . . . . . . 2.4.1. Anotaci on Funcional . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. Biolog a Molecular, Redes y Biolog a de Sistemas . . . . . . . 2.4.3. Asociaciones Funcionales e Interacciones en Biolog a Molecular 2.4.4. Redes en Sistemas Complejos y en Biolog a . . . . . . . . . . . 2.4.5. Aproximaciones al Estudio de las Redes Biol ogicas . . . . . . . 2.5. Discusi on y Problemas Biol ogicos Afrontados . . . . . . . . . . . . . . 3. Objetivos y Alcance 4. Metodolog a de Evaluaci on 4.1. Enfoque de Evaluaci on Experimental . . . . . . . . . . 4.2. Medidas de Evaluaci on . . . . . . . . . . . . . . . . . 4.2.1. Evaluaci on del Rendimiento en la Clasicaci on 4.2.2. Interpretaci on y An alisis de las Predicciones . 1 5 5 5 6 8 9 9 10 12 14 15 20 20 23 25 25 26 27 29 30 32 35 37 37 38 39 42 45 46 47 48 49
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
5. Modelo de Representaci on Multi-Relacional para Anotaci on Funcional 5.1. Tipos de Relaciones Existentes en Biolog a Molecular . . . . . . . . . 5.2. Generalizaci on de Relaciones . . . . . . . . . . . . . . . . . . . . . . 5.3. Modelo Global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Aplicaci on a Bases de Datos Concretas . . . . . . . . . . . . . . . . .
XVII
. . . .
. . . .
. . . .
. . . .
. . . .
XVIII
INDICE GENERAL 51 51 52 53 55 57 60 60 62 62 62 64 64 67 68 70 72 73 75 75 79 79 80 81 83 84 86 87 90 90 90 92 93 93 96 96 98 99 102 104 105 106 107 108 108 110
6. Predicci on de Asociaciones Funcionales entre Pares de Prote nas en E.coli 6.1. Denici on del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Dise no/Materiales y M etodos . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Fuentes de Datos . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2. Representaci on del Conocimiento . . . . . . . . . . . . . . . . 6.2.3. Construcci on de Conjuntos de Datos . . . . . . . . . . . . . . . 6.2.4. Complejidad del Dominio . . . . . . . . . . . . . . . . . . . . 6.2.5. Algoritmos de Aprendizaje . . . . . . . . . . . . . . . . . . . . 6.2.6. Esquema Resumen Sistema de Aprendizaje . . . . . . . . . . . 6.3. Resultados e Interpretaci on . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1. Comparaci on de Varios Algoritmos . . . . . . . . . . . . . . . 6.3.2. An alisis de Relevancia de Atributos . . . . . . . . . . . . . . . 6.3.3. Mejora en la Combinaci on de Distintas Fuentes de Informaci on 6.3.4. Evaluaci on para Diferentes Categor as de Fuentes de Datos . . . 6.4. Aplicaci on para Filtrar Interacciones Experimentales . . . . . . . . . . 6.5. Comparaci on con la Base de Datos STRING . . . . . . . . . . . . . . . 6.6. Servidor de Predicciones EcID . . . . . . . . . . . . . . . . . . . . . . 6.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
7. Extensi on de Rutas Biol ogicas en Humanos 7.1. Denici on del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Dise no/Materiales y M etodos . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. Recopilaci on de Fuentes Originales de Datos . . . . . . . . . . . . . 7.2.2. Representaci on del Conocimiento . . . . . . . . . . . . . . . . . . . 7.2.3. Construcci on de Conjuntos de Datos . . . . . . . . . . . . . . . . . . 7.2.4. Lenguaje de Representaci on del Conocimiento . . . . . . . . . . . . 7.2.5. M etodo de Predicci on . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.6. Aplicaci on a Prote nas Desconocidas . . . . . . . . . . . . . . . . . 7.2.7. Sistemas de Anotaci on . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.8. Esquema Resumen Sistema de Aprendizaje . . . . . . . . . . . . . . 7.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1. Evaluaci on del Rendimiento de la Predicci on . . . . . . . . . . . . . 7.4. Interpretaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1. Relaci on entre Precisi on y Tama no de la Ruta . . . . . . . . . . . . . 7.4.2. An alisis de Predicados Relevantes en el Aprendizaje . . . . . . . . . 7.4.3. Cobertura y Diversidad en la Extensi on de Reactome . . . . . . . . . 7.4.4. Solapamiento entre Rutas . . . . . . . . . . . . . . . . . . . . . . . 7.4.5. Similitud Sem antica en la Extensi on de Reactome . . . . . . . . . . . 7.4.6. Interpretaci on de la Extensi on basada en Aprendizaje Relacional . . . 7.5. Comparaci on con Extensi on basada s olo en Similitud de Secuencia . . . . . . 7.6. Comparaci on con M etodo de Extensi on de Rutas basado s olo en Redes de Interacci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1. An alisis Cuantitativo . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.2. Comparaci on de Similitud Sem antica . . . . . . . . . . . . . . . . . 7.6.3. Comparaci on de Solapamiento entre Rutas . . . . . . . . . . . . . . 7.6.4. An alisis de Frecuencia de Predicados . . . . . . . . . . . . . . . . . 7.7. Relevancia Biol ogica de las Prote nas Predichas . . . . . . . . . . . . . . . . 7.7.1. Predicciones Simult aneas por Varios Sistemas . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
INDICE GENERAL
XIX
7.7.2. Relaci on con Propiedades Moleculares Simples . . . . . . . . . . . . . 113 7.7.3. Predicciones de novo . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.8. Conclusiones y Discusi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8. Otros Enfoques de Aprendizaje Autom atico en Bioinform atica 8.1. Programaci on Gen etica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1. Enfoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.2. Conguraci on Experimental . . . . . . . . . . . . . . . . . . . . . . . 8.1.3. Comparaci on de PG con otras T ecnicas de AA . . . . . . . . . . . . . 8.1.4. Gesti on de Valores Desconocidos y Simplicaci on de la Interpretaci on 8.1.5. Relevancia de Operadores . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Aprendizaje Multi-clase. Aprendizaje Multi-etiqueta . . . . . . . . . . . . . . 8.2.1. Enfoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.2. Predicci on con Multi-clasicador . . . . . . . . . . . . . . . . . . . . 8.2.3. Inuencia Evaluaci on Multi-clase . . . . . . . . . . . . . . . . . . . . 8.3. Extracci on de Patrones Frecuentes . . . . . . . . . . . . . . . . . . . . . . . . 8.4. Variaci on de la Representaci on del Conocimiento . . . . . . . . . . . . . . . . 8.4.1. Representaci on Relacional Directa . . . . . . . . . . . . . . . . . . . . 8.4.2. Representaci on Proposicional Directa . . . . . . . . . . . . . . . . . . 8.5. Inuencia de la Informaci on Relacional . . . . . . . . . . . . . . . . . . . . . 8.5.1. Predicci on sin Interacciones . . . . . . . . . . . . . . . . . . . . . . . 8.5.2. Predicci on con Anotaciones de Compa neros de Interacci on . . . . . . . 8.6. Incremento del Conocimiento con Anotaciones de Prote nas Principales . . . . 8.7. Predicci on con Homolog a Directa . . . . . . . . . . . . . . . . . . . . . . . . 8.8. An alisis de Relaciones Indirectas entre Genes y Prote nas . . . . . . . . . . . . 8.9. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 129 129 131 132 134 137 139 139 141 142 144 150 150 151 154 154 156 158 161 163 164
9. An alisis y Discusi on 171 9.1. Comparaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.2. Reexi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 10. Conclusiones 181 10.1. Repaso de Hip otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 10.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 11. L neas Futuras A. Publicaciones B. Anotaci on Funcional del Genoma y Proteoma B.1. Denici on de Anotaci on . . . . . . . . . . . . . . . . . . . . . . . B.2. Vocabularios de Anotaci on . . . . . . . . . . . . . . . . . . . . . . B.3. Metodolog as de Anotaci on . . . . . . . . . . . . . . . . . . . . . . B.3.1. Predicci on basada en Similitud de Secuencia (u Homolog a) B.3.2. Predicci on basada en Similitud Estructural . . . . . . . . . B.3.3. Predicci on basada en Patrones de Secuencia o Estructura . . B.3.4. Predicci on basada en Asociaci on o Contexto Gen omico . . B.3.5. Predicci on basada en Redes de Interacci on . . . . . . . . . B.3.6. Predicci on basada en Co-expresi on . . . . . . . . . . . . . 185 187 189 189 189 191 191 193 193 193 194 194
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
XX
INDICE GENERAL B.3.7. Predicci on basada en Miner a de Textos . . . . . . . . . . . . . . . . . 194 B.3.8. Predicci on basada en Propiedades Extra das de la Secuencia . . . . . . 195 B.3.9. M etodos H bridos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 B.4. M etodos de Determinaci on de Interacci on o Asociaciones Funcionales por Pares 196 B.4.1. M etodos Experimentales . . . . . . . . . . . . . . . . . . . . . . . . . 197 B.4.2. M etodos Computacionales . . . . . . . . . . . . . . . . . . . . . . . . 197 B.5. M etodos de Determinaci on de Rutas Biol ogicas . . . . . . . . . . . . . . . . . 200
C. Resumen de Resultados ERR-PRyC y ERR-PDR D. Detalles Extensi on por Ruta/Clase E. Resultados Comparaci on Hom ologos Anotados y Predichos F. Mapas de Agrupaci on de Prote nas por Propiedades Simples G. Figuras Interpretaci on con Sistema ERR-PRyC H. Resumen de Resultados Extensi on Rutas. Varios Sistemas Acr onimos Bibliograf a
201 203 207 211 215 221 223 225
Indice de Figuras
rboles de decisi 2.1. Esquema de la relaci on entre a on en l ogica proposicional y en l ogica de primer orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2. Esquema general de las aplicaciones de Aprendizaje Autom atico en Biolog a Molecular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.1. Modelo Entidad/Relaci on BioRepositorio Multi-Relacional. . . . . . . . . . . 49 6.1. Modelo Entidad/Relaci on para predicci on de asociaciones funcionales entre pares de prote nas en E.coli. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Esquema sistema de predicci on de AFPP en E.coli. . . . . . . . . . . . . . . . 6.3. Curvas de coste de varios algoritmos de AA que predicen AFPP. . . . . . . . . 6.4. Curvas ROC de varios algoritmos de AA que predicen AFPP. . . . . . . . . . . 6.5. Precisi on de m etodos individuales y m etodo unicado en el conjunto de test extendido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6. Precisi on de m etodos individuales y unicado en el conjunto de test. . . . . . . 6.7. Curvas de coste de m etodos individuales frente a unicado en conjunto de test. 6.8. Evaluaci on por diferentes categor as de fuentes de datos. . . . . . . . . . . . . 6.9. Precisi on del m etodo unicado sobre el conjunto experimental de Arifuzzaman. 6.10. Comparaci on de precisiones del m etodo unicado y STRING, sobre el conjunto de predicciones de STRING. . . . . . . . . . . . . . . . . . . . . . . 6.11. Ejemplo de vista de servidor de predicciones EcID. . . . . . . . . . . . . . . . 7.1. Modelo Entidad/Relaci on para extensi on de rutas biol ogicas en humanos. . . 7.2. Lenguaje de representaci on del conocimiento en el dominio de predicci on o extensi on de rutas metab olicas. . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Ejemplos de representaci on del conocimiento en el dominio de predicci on o extensi on de rutas metab olicas. . . . . . . . . . . . . . . . . . . . . . . . . . 7.4. Esquema m etodo de predicci on del sistema de extensi on de rutas de Reactome en humanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5. Conguraci on detallada sistemas de extensi on de rutas. . . . . . . . . . . . . 7.6. Esquema sistema de extensi on de rutas de Reactome en humanos. . . . . . . 7.7. Curvas media global para todas las rutas: (a) curvas PR y (b) curvas ROC. . . 7.8. Curvas PR: (a) ruta individual extendida con alta abilidad y (b) ruta individual extendida con baja abilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . 7.9. An alisis de rendimiento frente a tama no de ruta. Sistema ERR-PDR. . . . . . 7.10. An alisis de predicados relevantes en el aprendizaje. Sistema ERR-PDR. . . . 7.11. Porcentaje de solapamiento entre rutas. Ambos sistemas. . . . . . . . . . . . 7.12. Solapamiento entre rutas originales. . . . . . . . . . . . . . . . . . . . . . .
XXI
56 62 63 65 67 68 69 70 71 72 73
. 81 . 84 . 85 . . . . . . . . . 86 89 90 91 92 94 95 97 98
XXII
INDICE DE FIGURAS
7.13. Similitud de anotaci on funcional entre prote nas de la ruta original y prote nas a nadidas (por predicci on y aleatoriamente). Sistema ERR-PDR. . . . . . . . . 99 7.14. Regla que extiende la ruta Transporte transmembrana de mol eculas peque nas (16) en sistema ERR-PDR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7.15. Reglas que extienden la ruta Se nalizaci on de GPCR (10) en sistema ERR-PDR. 100 7.16. Frecuencia de predicados simples por ruta. Sistema ERR-PDR. . . . . . . . . . 101 7.17. Ejemplos de pares de prote nas hom ologas anotadas y no-anotadas en Reactome.103 7.18. Porcentaje de solapamiento entre rutas. Comparaci on Glaab et al. . . . . . . . . 105 7.19. Similitud de anotaci on funcional entre prote nas de la ruta original y las prote nas a nadidas (ERR-PDR y Glaab et al.) y entre ambos sistemas de extensi on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 7.20. Porcentaje de solapamiento entre rutas en Glaab et al. . . . . . . . . . . . . . . 107 7.21. Comparaci on de frecuencia de predicados simples por ruta. Sistema ERR-PDR. 109 7.22. Frecuencia de predicados en subconjuntos de prote nas predichas: Rutas Transcripci on y Expresi on g enica. . . . . . . . . . . . . . . . . . . . . . . . . 114 7.23. Mapa de agrupaci on de prote nas por propiedades simples. Ruta Interacciones de las integrinas en la supercie celular. . . . . . . . . . . . . . . . . . . . . . 115 7.24. Mapa de agrupaci on de prote nas por propiedades simples. Ruta Replicaci on del ADN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.25. Ruta humana de Interacciones de las integrinas en la supercie celular de Reactome extendida por el sistema ERR-PDR. . . . . . . . . . . . . . . . . . . 119 7.26. Ruta humana de Mantenimiento del Tel omero de Reactome extendida por el sistema ERR-PDR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.27. Red de interacci on para las rutas extendidas por el sistema ERR. . . . . . . . . 123 7.28. Ejemplos de curvas PR individuales con alta precisi on a baja cobertura. Sistema ERR-PDR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 rbol y tiempo. . . . 135 8.1. Inuencia de operador if ? y m etodo Tarpeian: tama no del a 8.2. Evoluci on al aplicar m etodo Tarpeian con distintos factores. . . . . . . . . . . 136 8.3. Arbol de uno de los mejores individuos usando operador if ? y m etodo Tarpeian.137 8.4. Frecuencia de operadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 8.5. Resumen de resultados multi-clasicador. . . . . . . . . . . . . . . . . . . . . 141 8.6. Curva PR y ROC con macro-media y micro-media en ERR-PRyC. . . . . . . . 143 8.7. Porcentaje de solapamiento entre rutas. Comparaci on 5 m etodos. . . . . . . . . 147 8.8. Similitud de anotaci on funcional. Comparaci on 5 m etodos. . . . . . . . . . . . 148 8.9. Curvas media-macro representaci on relacional directa. . . . . . . . . . . . . . 151 8.10. Curvas media-micro representaci on relacional directa. . . . . . . . . . . . . . . 151 8.11. Resumen de resultados representaci on proposicional directa. . . . . . . . . . . 153 rbol con representaci 8.12. Fragmento de a on proposicional directa. . . . . . . . . . . 153 8.13. Resumen de resultados sin interacciones PP ni complejos. . . . . . . . . . . . . 154 8.14. Fragmento de lenguaje de representaci on del conocimiento asociado a anotaciones funcionales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.15. Fragmento de sesgo del lenguaje para anotaciones de compa neros de interacci on.157 8.16. Resumen de resultados con anotaci on de compa neros de interacci on. . . . . . . 157 8.17. Fragmento de sesgo del lenguaje para anotaciones de cualquier prote na. . . . . 159 8.18. Fragmento de sesgo del lenguaje para hom ologos y sus anotaciones en Reactome.162 8.19. Resumen de resultados con homolog a directa. . . . . . . . . . . . . . . . . . . 162
INDICE DE FIGURAS
XXIII
B.1. Representaci on gr aca de los 5 m etodos computacionales de predicci on usados. 198 C.1. Resumen de resultados sistema ERR-PRyC. . . . . . . . . . . . . . . . . . . . 202 C.2. Resumen de resultados sistema ERR-PDR. . . . . . . . . . . . . . . . . . . . . 202 F.1. Mapa de agrupaci on de prote nas por propiedades simples. Ruta Cadena de transporte de electrones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 F.2. Mapa de agrupaci on de prote nas por propiedades simples. Ruta Mantenimiento del tel omero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 G.1. An alisis de rendimiento frente a tama no de ruta. Sistema ERR-PRyC. . . . . . 215 G.2. An alisis de predicados relevantes en el aprendizaje. Sistema ERR-PRyC. . . . . 216 G.3. Similitud de anotaci on funcional entre prote nas de la ruta original y prote nas a nadidas (por predicci on y aleatoriamente). Sistema ERR-PRyC. . . . . . . . . 217 G.4. Similitud de anotaci on funcional entre prote nas de la ruta original y las prote nas a nadidas (ERR-PRyC y Glaab et al.) y entre ambos sistemas de extensi on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 G.5. Comparaci on de frecuencia de predicados simples por ruta. Sistema ERR-PRyC.219 H.1. Resumen de resultados s olo con interacciones PP (sin complejos). . . . . . . . 221 H.2. Resumen de resultados s olo con complejos (sin interacciones PP). . . . . . . . 222
XXIV
INDICE DE FIGURAS
Indice de Tablas
5.1. Correspondencia categor as de relaciones con el modelo E/R. . . . . . . . . . . 48 6.1. Bases de datos de interacciones y asociaciones funcionales PP usadas. . . . . . 54 6.2. Estad sticas de los atributos para la predicci on de asociaci on funcional entre pares de prote nas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.3. Comparaci on de relevancia de atributos en predicci on de AFPP sobre el conjunto de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.1. Evaluaci on num erica de la extensi on de Reactome por sistema ERR-PRyC y ERR-PDR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.2. Comparaci on num erica de la extensi on de Reactome por Glaab et al. con los sistemas ERR-PRyC y ERR-PDR. . . . . . . . . . . . . . . . . . . . . . . . . 105 7.3. Lista de las rutas biol ogicas de Reactome y de las prote nas predichas simult aneamente por los m etodos ERR-PRyC, ERR-PDR y Glaab et al. . . . . 110 8.1. Valores de los principales par ametros de conguraci on en la soluci on de AFPP con Programaci on Gen etica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8.2. Comparaci on cuantitativa entre Programaci on Gen etica y Aprendizaje Autom atico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 etodo Tarpeian: tasa de aciertos en test. . . . . . 135 8.3. Inuencia del operador if ? y m 8.4. Combinatoria de n de clases, etiquetas y aprendizajes. . . . . . . . . . . . . . 140 8.5. Areas bajo la curva medias en ERR-PRyC. . . . . . . . . . . . . . . . . . . . . 143 8.6. Combinaciones Extracci on Patrones Frecuentes y Aprendizaje Multi-clase. . . 145 8.7. Evaluaci on num erica de la extensi on de Reactome por 5 m etodos. . . . . . . . 146 8.8. Evaluaci on num erica de la extensi on de Reactome sin interacciones. . . . . . . 155 8.9. Evaluaci on num erica de la extensi on de Reactome con anotaciones de compa neros de interacci on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 8.10. Comparaci on de la extensi on de Reactome con anotaciones de prote nas principales (homolog a indirecta). . . . . . . . . . . . . . . . . . . . . . . . . 159 8.11. Estrategias de aplicaci on de enfoques de AA seg un caracter sticas del problema. 166 9.1. Comparativa diferenciadora entre predicci on de AFPP y extensi on de rutas. . . 173 B.1. Comparativa entre m etodos experimentales a gran escala. . . . . . . . . . . . . 197 D.1. Resultados de la extensi on por creciente. Sistema ERR-PRyC. . . D.2. Resultados de la extensi on por creciente. Sistema ERR-PDR. . . ruta . . . ruta . . .
XXV
individual, . . . . . . individual, . . . . . .
ordenadas por . . . . . . . . . ordenadas por . . . . . . . . .
AUPRC . . . . . . 204 AUPRC . . . . . . 205
XXVI
INDICE DE TABLAS
E.1. Hom ologas de prote nas predichas por ERR-PDR y anotadas en Reactome de conjuntos de entrenamiento y test. . . . . . . . . . . . . . . . . . . . . . . . . 208 E.2. Hom ologas de prote nas predichas por ERR-PDR y anotadas en Reactome redundantes a entrenamiento y test. . . . . . . . . . . . . . . . . . . . . . . . . 209
Cap tulo 1
Introducci on
En la visi on de abajo a arriba de la Biolog a Molecular cl asica se analizan las mol eculas de forma independiente, con el objetivo de identicar los responsables biol ogicos de todos y cada uno de los procesos que suceden continuamente en un organismo vivo. Este inter es radica en que se trata de un conocimiento esencial, tanto para comprender el funcionamiento interno de todas las especies, como para poder dise nar f armacos que solventen las enfermedades y los des ordenes metab olicos, interviniendo sobre los genes y prote nas responsables. El origen de la Bioinform atica se puede situar incluso antes de los 70 y de la acumulaci on de datos [Ouzounis and Valencia, 2003], por la necesidad de utilizar procedimientos computacionales para analizar los diversos, complejos y heterog eneos datos biol ogicos. No obstante, el uso de la Inteligencia Articial en la Bioinform atica se ha vuelto m as relevante ltimos a en los u nos por la ingente cantidad de datos biol ogicos, que aparecen y que crecen exponencialmente, procedentes de la experimentaci on a gran escala con las denominadas tecnolog as de generaci on masiva automatizada de resultados (del ingl es, high-throughput technologies), que actualmente tambi en permiten la construcci on de grandes redes complejas. Todos estos datos se pueden manejar manualmente uno a uno por cient cos experimentales, como se ha hecho tradicionalmente. Pero el uso de la inform atica resulta imprescindible, no s olo para automatizar procesos, sino tambi en para facilitar el an alisis y extracci on de conocimiento de toda esta informaci on de car acter biol ogico. Existen diversas deniciones de Bioinform atica y Biolog a Computacional, a veces consider andolos sin onimos y otras no [Baldi and Brunak, 2001], dependiendo de la cantidad de implicaciones biol ogicas que conlleve el problema frente a un simple uso de habilidades t ecnicas. Aunque, desde un punto de vista inform atico, frecuentemente se simplica su denici on a la aplicaci on de t ecnicas computacionales a datos biol ogicos, en esta tesis se considera otra de las deniciones m as amplia. La denici on de Bioinform atica o Biolog a Computacional que se maneja en esta tesis es la de un campo multidisciplinar que utiliza t ecnicas computacionales, matem aticas y estad sticas para tratar problemas de Biolog a Molecular, afrontando temas de investigaci on cient ca, sin olvidar todas sus cuestiones intr nsecas, te oricas y experimentales. reas gen Dentro de la Bioinform atica o la Biolog a Computacional existen m ultiples a ericas de investigaci on, que a muy alto nivel incluyen: localizaci on de genes (regiones que codican prote nas), determinaci on de sitios de ensamblaje alternativo, localizaci on celular, predicci on de estructura secundaria y tridimensional, determinaci on de sitios funcionales, predicci on de anotaci on de funci on de genomas y proteomas, identicaci on de familias y dominios de prote nas, construcci on y predicci on de redes de interacci on de prote nas y de redes de 1
1. Introducci on
reas hay muchas divisiones regulaci on g enica, entre otros. Dentro de cada una de estas a posibles en problemas concretos, porque cada una representa un amplio conjunto de conceptos. Desde un punto de vista global, el mundo de las redes [Newman, 2010] est a revolucionando mbitos de la vida actual, abarcando desde las redes de ordenadores y comunicaciom ultiples a nes, Internet (red de documentos digitales hiper-enlazados), las redes formadas por art culos cient cos referenciados entre s , las redes profesionales, las redes sociales, ..., hasta las redes biol ogicas a diferentes niveles. Todas ellas comparten una estructura formada por nodos (entidades: ordenador, p agina web, documento, persona, mol ecula o c elula, etc.), y arcos (interacciones entre pares de entidades: conexi on el ectrica, enlace, referencia, amistad, reacci on bioqu mica o conexi on funcional, respectivamente, etc.) [Leskovec, 2008]. Muchas de estas redes complejas de diferente naturaleza comparten ciertas propiedades universales por ser redes libres de escala [Barabasi and Bonabeau, 2003]: la existencia de algunos nodos populares, con cientos o miles de interacciones frente a las dos o tres de la mayor a de nodos, robustez frente a fallos puntuales, pero vulnerabilidad a ataques coordinados. Por ejemplo, enfermedades como el c ancer o Internet son sistemas que comparten el hecho de que un fallo en un nodo clave (un gen o un servidor) puede desencadenar un problema grave [Sol e, 2009]. Por otro lado, el an alisis de la red completa proporciona nueva informaci on en forma de propiedades emergentes de la red, que no se podr an extraer de los elementos individuales que la componen. De forma que el estudio en conjunto, de estas redes complejas y sus propiedades, proporciona una nueva visi on opuesta al an alisis de las entidades individuales de forma aislada, que promete una mayor mbitos donde se comprensi on de los sistemas de redes, y nuevas aplicaciones en todos los a encuentran; desde la prevenci on de un ataque inform atico hasta la de una enfermedad. En Biolog a Molecular existen muchas redes, porque por todas partes hay interacciones y asociaciones entre las mol eculas, de diversos tipos y a distintos niveles. Las interacciones prote na-prote na relacionan pares de prote nas a nivel f sico, y los complejos de prote nas relacionan grupos de m as de dos prote nas tambi en f sicamente, formando extensas y complicadas redes de interacci on en un organismo. Otros ejemplos de relaciones entre prote nas o genes son las rutas biol ogicas (del ingl es, pathways), que asocian funcionalmente prote nas que participan en distintos pasos de una cadena de reacciones, como por ejemplo el transporte a trav es de la membrana celular. Existe una larga lista de posibles relaciones biol ogicas que permiten denir grupos y redes de genes o prote nas, caracterizados por participar en un mismo proceso o por compartir un valor com un para un criterio dado. Algunos ejemplos m as son: genes en la misma red de regulaci on g enica, prote nas con la misma localizaci on celular, prote nas de la misma familia o con un tipo de dominio compartido, o genes con datos fenot picos comunes (mismo tejido o implicaci on en una enfermedad). Hace poco m as de una d ecada surge la Biolog a de Sistemas [Kitano, 2000], con la idea de modelar circuitos, que permitan denir la estructura, din amica y simulaci on de los sistemas biol ogicos. Posteriormente tambi en se a nade a esta disciplina el estudio de las redes biol ogicas. rea que estudia los organismos vivos a un nivel de sistema, desde arriba hacia abajo y Es un a no a la inversa, como se hac a hasta entonces. Trata de afrontar las limitaciones de la visi on de abajo a arriba, siguiendo el lema el todo es m as que la suma de las partes, con muchos aspectos a analizar: topolog a de la red, propiedades emergentes, c omo construir o extender la red de interacciones, su inuencia en la anotaci on funcional, etc. La estructura de la red de interacci on es muy valiosa y ha sido ampliamente estudiada [Rojas et al., 2006], por contener mucho conocimiento sobre las colaboraciones que se producen entre prote nas para llevar a cabo una determinada funci on. Generalmente no existe nico gen o producto gen un u etico responsable de una funci on o proceso biol ogico en el
3 organismo, sino que dicho proceso es el resultado de la combinaci on de la acci on de varios genes o productos gen eticos. De ah la relevancia de las relaciones entre genes y prote nas, cuyo uso se pretende incentivar en esta tesis doctoral. Para el an alisis autom atico con t ecnicas computacionales y de Inteligencia Articial de los datos biol ogicos, que se encuentran altamente relacionados en redes de interacciones, resulta adecuado partir de una Representaci on Relacional [Dzeroski and Lavrac, 2001]. Es la forma natural de representar las interacciones, asociaciones funcionales y las propiedades correspondientes a los nodos o elementos biol ogicos, de m ultiples y variadas fuentes. Una Representaci on Relacional aprovecha el conocimiento impl cito en todas las relaciones biol ogicas existentes, evitando perder su estructura y sem antica, como le sucede a muchas otras t ecnicas. Para la extracci on autom atica de conocimiento, se ha extendido exitosamente rea de Inteligencia Articial. En el Aprendizaje Autom atico [Mitchell, 1997] dentro del a particular, el Aprendizaje Autom atico Relacional [Dzeroski and Lavrac, 2001] permite preservar f acilmente el origen estructurado de los elementos biol ogicos y la sem antica de sus relaciones, al contrario que el Aprendizaje Autom atico Proposicional cl asico, la metodolog a nica tabla m as frecuentemente utilizada, que tiene que plasmar toda la informaci on en una u atributo-valor [Dzeroski, 2003]. Ante el todav a vigente reto de la Biolog a Molecular de caracterizar funcionalmente el genoma y el proteoma, la predicci on de anotaci on funcional (en la que se centra esta tesis) rea de investigaci til es un a on de inter es biol ogico muy amplia. Esta predicci on podr a ser u para ordenar y/o seleccionar el subconjunto de las asignaciones de funci on m as probables o relevantes, para ser vericadas en un laboratorio experimental. As , se pueden reducir en gran medida los costes de los experimentos in-vivo de determinaci on de funci on, restringidos a unos cuantos frente a todas las posibles anotaciones funcionales. Por lo tanto, en esta tesis se quiere conocer c omo afecta el contexto relacional y su uso a la predicci on de anotaci on funcional del genoma y el proteoma, intentando explotar esta gran cantidad de relaciones de diversa ndole que ocurren (de forma estable o transitoria) entre genes y prote nas, de forma binaria o en grupos. La propuesta de tesis es estudiar el rea de predicci a on de anotaci on funcional centrado en la Biolog a de Sistemas, a trav es de la Representaci on Relacional y el Aprendizaje Autom atico. Se pretende usar redes biol ogicas o predecir parte de ellas, considerando una interacci on y una asociaci on funcional como un tipo de anotaci on; o tambi en se puede considerar una extensi on de la red, con interacciones o asociaciones funcionales punto a punto o grupales. La anotaci on funcional se puede descomponer en m ultiples dominios o problemas concretos, como son la predicci on de funci on molecular, la predicci on de proceso biol ogico, la predicci on de fenotipo, la predicci on de localizaci on celular, la predicci on de participaci on en una ruta metab olica, etc. Algunos de estos dominios se abordan durante el desarrollo de esta tesis doctoral, pero desde una perspectiva com un de predicci on de anotaci on funcional con/en redes de interacci on. Este documento contiene un proyecto de tesis doctoral, estructurado de la forma que se detalla a continuaci on. En el cap tulo 2 se describe el estado del arte, tanto del contexto biol ogico de anotaci on funcional y la Biolog a de Sistemas, como del Aprendizaje Autom atico, especialmente Relacional, principal enfoque computacional utilizado en esta tesis. En el cap tulo 3 se exponen los objetivos de la tesis. En el cap tulo 4 se describe la metodolog a de evaluaci on propuesta para este trabajo. Los cap tulos 5 al 8 presentan las aportaciones principales de esta tesis, describiendo una propuesta de representaci on relacional gen erica de datos biol ogicos para anotaci on funcional (cap tulo 5), la resoluci on de dos problemas
1. Introducci on
diferentes que combinan Biolog a de Sistemas, Representaci on Relacional y Anotaci on Funcional (cap tulos 6 y 7), y la exploraci on de diferentes enfoques de Aprendizaje Autom atico en problemas bioinform aticos (cap tulo 8). En el cap tulo 6 el problema afrontado es la predicci on de asociaciones funcionales entre pares de prote nas en E.coli y en el cap tulo 7, la extensi on de rutas biol ogicas en humanos. Posteriormente, el cap tulo 9 presenta un an alisis y discusi on de la anotaci on funcional con datos relacionales, derivada de los problemas ltimo, los cap afrontados en los cap tulos previos. Por u tulos 10 y 11 exponen las conclusiones generales y l neas futuras de investigaci on.
Cap tulo 2
Estado del Arte

reas principales dentro de las En este cap tulo se presenta una introducci on general a las a que se desarrolla este trabajo bioinform atico. Las dos primeras secciones describen el punto de vista computacional, introduciendo el Aprendizaje Autom atico Proposicional y principalmente describiendo el Aprendizaje Autom atico Relacional. En la tercera secci on se combina el aspecto computacional con el biol ogico, revisando sus aplicaciones en Biolog a y los retos que presenta. Mientras que la secci on cuarta resume el contexto biol ogico (Biolog a de Sistemas y Anotaci on Funcional). Finalmente se incluye una secci on de discusi on, con una recopilaci on de los aspectos relevantes de estudio en esta tesis y los dos problemas concretos que se afrontan.
2.1.
2.1.1.
Aprendizaje Autom atico Proposicional

Introducci on al Aprendizaje Autom atico
El Aprendizaje Autom atico (AA) es una disciplina cient ca, dentro del campo de la Inteligencia Articial, preocupada por mejorar el comportamiento de un sistema al realizar una tarea, mediante la adquisici on de conocimiento por medio de la experiencia [Mitchell, 1997]. El AA frecuentemente se relaciona con el An alisis o Miner a de Datos (del ingl es, Data Mining), o la extracci on de patrones a partir de los datos conocidos. Seg un su relaci on con el entorno, los sistemas de AA se pueden clasicar en supervisados y no supervisados [Borrajo et al., 2006]. En el AA supervisado se aprende a partir de un conjunto de ejemplos etiquetados previamente por una fuente externa. Mientras que en el AA no supervisado, el conjunto de entradas no est a etiquetado. El aprendizaje por refuerzo se encuentra a medio camino de las anteriores, aprendiendo a decidir la acci on m as adecuada ante una situaci on determinada, por medio de una serie de refuerzos externos. Otra clasicaci on del AA seg un el tipo de razonamiento [Borrajo et al., 2006] divide los sistemas en inductivos, deductivos, abductivos o anal ogicos. En el AA inductivo, se parte de las observaciones existentes para expandir el conocimiento que las gener o; en el AA deductivo se derivan nuevas reglas l ogicas a partir del conocimiento existente; en el AA abductivo, al contrario, partiendo del conocimiento y las consecuencias, se ineren las posibles premisas que stas; y el AA anal causaron e ogico es una combinaci on del inductivo junto con el deductivo. Una clasicaci on alternativa que depende m as del tipo de tarea a resolver por el AA [Borrajo et al., 2006], entre las que se distinguen tres tipos b asicos: Clasicaci on: se puede denir como la b usqueda de una relaci on de correspondencia entre las observaciones y las clases[Borrajo et al., 2006]. Se emplea cuando a cada 5
2. Estado del Arte
instancia se le debe asociar una clase o categor a, dando lugar a grupos mutuamente excluyentes; con una clase binaria (s /no) o con diferentes valores nominales. Un ejemplo t pico de esta tarea de aprendizaje es la concesi on o no de un cr edito bancario, en funci on de los datos del cliente. La regresi on es un caso particular de la tarea de clasicaci on, en el que la salida no son clases discretas, sino valores num ericos en un rango continuo. Por ejemplo, predecir la cantidad de energ a que se va a necesitar en una ciudad, para evitar apagones imprevistos. Tambi en son casos t picos de esta tarea la predicci on de series temporales [Mitchell, 1997]. Caracterizaci on: tambi en conocida como extracci on de reglas de asociaci on. Lo que se quiere obtener en este caso son relaciones entre combinaciones de atributos, sin que el atributo clase tenga una importancia relevante, pudiendo existir o no. As , se reconoce c omo la ocurrencia de un suceso (un valor de un atributo o un conjunto de ellos) puede generar la aparici on de otros. La extracci on de patrones frecuentes se puede considerar una subtarea del proceso de caracterizaci on, ya que dichos patrones se deben buscar, para posteriormente establecer reglas de asociaci on entre ellos. El ejemplo cl asico de la tarea de caracterizaci on es el an alisis de la cesta de la compra, que permite determinar qu e productos se compran generalmente juntos, para emplearlos en las estrategias de distribuci on o promoci on de productos de los supermercados [Agrawal and Srikant, 1994]. Agrupamiento (del ingl es, Clustering): en este caso no hay una clase, sino que se pretenden obtener grupos de elementos, los cuales abarquen instancias que tengan gran similitud entre s y muchas diferencias con los de otros grupos. Se obtiene generalmente un prototipo por grupo. Un ejemplo cl asico es la segmentaci on de personas en distintos grupos, bien empleados de una empresa, o bien clientes sobre los que hacer propaganda personalizada [MacQueen, 1967; Mitchell, 1997]. Uno de los enfoques m as extendidos y en el que se centra gran parte de esta tesis es el AA supervisado inductivo aplicado a la tarea de clasicaci on o regresi on. Es decir, se parte de un conjunto de ejemplos etiquetados (supervisado) a partir de los que extraer el conocimiento existente (inductivo) que ha permitido asignar las clases a dichos ejemplos, para poder predecir la clase de futuros ejemplos (clasicaci on).
2.1.2.
Algoritmos Proposicionales de Clasicaci on y Regresi on
xito Cabe destacar que en bioinform atica se utilizan con frecuencia y con reconocido e t ecnicas sub-simb olicas como las redes de neuronas articiales (del ingl es, Articial Neural Networks, ANN ) [Rumelhart and McClelland, 1986] [Jensen et al., 2002a; Rost and Sander, 1994] y las m aquinas de vector de soporte (del ingl es, Support Vector Machine, SVM ) [Vapnik, 1998] [Lee et al., 2009; Re and Valentini, 2009]. Sin embargo, en esta tesis se presta mayor atenci on a la aplicaci on de t ecnicas simb olicas rboles y reglas de decisi [Borrajo et al., 2006], como son los a on, ampliamente usados en bioinform atica [Che et al., 2011], por ser su modelo de salida m as f acilmente interpretable til para obtener justicaciones de la predicci yu on en t erminos biol ogicos y para facilitar el estudio experimental posterior.
2.1. Aprendizaje Autom atico Proposicional
Arboles y Reglas de Decisi on Se trata de algoritmos de clasicaci on cuyo modelo de salida est a representado en un rbol de decisi a on o un conjunto de reglas equivalente. Para denir sucesivamente los nodos rbol se realiza una elecci y ramas del a on sucesiva del atributo que m as discrimina del grupo seg un la medida m nima de entrop a. El autor principal de esta t ecnica es Quinlan, que inicialmente el algoritmo ID3 [Quinlan, 1986], y posteriormente su evoluci dise no on en C4.5 [Quinlan, 1993]. C4.5 incluye mejoras (como por ejemplo la poda) que resuelven ciertos problemas que presenta ID3 frente al ruido y la sobre-adaptaci on. rboles o reglas de regresi Los a on son una variante utilizada cuando el atributo clase es continuo, o tambi en se puede considerar su uso si se requiere una salida num erica en vez rboles de regresi de nominal. CART [Breiman et al., 1984] es el algoritmo original de a on, rbol. La selecci conteniendo valores num ericos en las hojas del a on de atributos maximiza la reducci on esperada en varianza o en desviaci on absoluta. M5 [Quinlan, 1993] es una variante de CART que tiene en cada hoja un modelo lineal construido con regresi on cl asica en funci on de los valores de los atributos seleccionados. Por otro lado, existe una variante C4.5Multi-label [Clare, 2003] que permite la clasicaci on de una instancia en m as de una clase a la vez. rbol de decisi CLUS [Blockeel et al., 1998] es un sistema de inducci on de reglas y a on que implementa el marco de agrupaci on de predicci on. Este marco unica la agrupaci on no supervisada y el modelado de predicci on, permitiendo una extensi on a predicciones m as complejas, como aprendizaje multi-tarea o clasicaci on multi-etiqueta. En este enfoque, un rbol de decisi a on se ve como una jerarqu a de agrupaciones (o clusters). Ah , el nodo superior corresponde a una agrupaci on que contiene todos los datos, que recursivamente se dividen en rbol, maximizando la reducci agrupaciones m as peque nas conforme se desciende en el a on de la varianza intra-cluster. Permite construir modelos de clasicaci on y de regresi on. Dependiendo rbol que prediga sobre de la denici on de distancia entre ejemplos, CLUS puede construir un a varios atributos de salida a la vez, incluso permitiendo la existencia de una jerarqu a entre ellos. De la misma forma, CLUS tambi en permite realizar clasicaci on multi-etiqueta. Su exibilidad y su previo uso en otras aplicaciones de anotaci on funcional [Vens et al., 2008] hace que CLUS sea uno de los principales algoritmos seleccionados en esta tesis para la fase experimental. Aprendizaje Basado en Instancias Como contraposici on a los sistemas sub-simb olicos, las t ecnicas de aprendizaje vago o basado en instancias y los algoritmos bayesianos, tambi en se pueden clasicar dentro del aprendizaje simb olico. El aprendizaje basado en instancias (del ingl es, Instance-Based Learning, IBL) [Aha et al., 1991] consiste en almacenar las instancias del conjunto de entrenamiento (todas o un subconjunto), sin construir ning un modelo concreto. Para clasicar los nuevos ejemplares se toma el valor de la clase del o de los ejemplos m as pr oximos almacenados. Un algoritmo cl asico es el de los k-vecinos m as pr oximos (del ingl es, K-Nearest Neighbour, KNN ) [Mitchell, 1997]. Clasicadores Bayesianos Los m etodos de clasicaci on bayesianos se basan en el teorema de Bayes, utilizando estimaciones de probabilidades de pertenecer a una clase seg un el valor de cada atributo en el conjunto de entrenamiento. El clasicador bayesiano cl asico es Naive Bayes [John and Langley, 1995], aunque existen algoritmos mejorados como las Redes Bayesianas (BayesNet)
2. Estado del Arte
ltimo de [Friedman et al., 1997; Bouckaert, 2004], o AODE [Webb et al., 2005], siendo este u especial inter es en esta tesis. AODE AODE (del ingl es, Averaged One-Dependence Estimators) [Webb et al., 2005] es un algoritmo de aprendizaje bayesiano o basado en probabilidades condicionadas. AODE calcula la media de un peque no conjunto de modelos alternativos bayesianos simples, que tienen una asunci on de independencia m as d ebil que el cl asico Naive Bayes (NB) [John and Langley, 1995]. De esta forma se evita el sesgo que provoca el incumplimiento de la independencia total de atributos en NB, mejorando los resultados de predicci on y manteniendo la eciencia computacional, con s olo un peque no incremento en la varianza. Otros algoritmos como LBR (del ingl es, Lazy Bayes Rules) [Zheng and Webb, 2000] y SP-TAN (del ingl es, Super Parent Tree Augmented Naive bayes) [Keogh, 1999] han demostrado mejoras sobre los resultados de NB, aliviando el aumento de error por independencia de atributos. Sin embargo, ambos enfoques son muy costosos computacionalmente, LBR en tiempo de clasicaci on y SP-TAN durante el entrenamiento. AODE es una t ecnica novedosa que exige una menor asunci on de independencia entre atributos que NB, y alcanza resultados comparables a los de LBR y SP-TAN sin incurrir en elevados costes computacionales, lo cual es deseable ante grandes conjuntos de datos, como los que se manejan en Biolog a Molecular. AODE se inspira en la noci on de estimadores de dependencia n [Sahami, 1996]. Un estimador de dependencia n es similar a NB salvo que cada atributo depende como m aximo de otros n atributos, aparte de la clase. NB es un estimador de dependencia n = 0, a diferencia de TAN (del ingl es, Tree Augmented Naive bayes) [Friedman et al., 1997], que es un estimador de dependencia n = 1. Estimadores de mayor dependencia t picamente tienen menor sesgo, pero mayor varianza y coste computacional que NB. AODE evita este aumento de la complejidad computacional porque no realiza una selecci on del mejor modelo. En su lugar, calcula la media de todos los modelos plausibles en los que todos los atributos dependen s olo de la clase y de un atributo m as, com un a todos los modelos, (s olo n = 1 para mantener la eciencia). De esta forma, adem as se disminuye la varianza frente a LBR y SP-TAN (a costa de un cierto incremento del sesgo). Esto es as porque, al seleccionar s olo un modelo, se escoge el que se adapta stos cambiaran, las variaciones en los mejor a los datos de entrenamiento, pero si e resultados ser an mayores, incrementando as la varianza.
2.1.3.
Algoritmos Proposicionales de Caracterizaci on
Los algoritmos de caracterizaci on extraen reglas de asociaci on. Una regla de asociaci on es una expresi on X Y donde X e Y son conjuntos de elementos [Agrawal et al., 1993]. El signicado intuitivo de estas reglas indica que un conjunto de datos que cumple X, tambi en tiende a cumplir Y. Un conjunto de elementos (X o Y ) es una serie de atributos binarios con valor verdadero. Esta tarea de AA extrae reglas semejantes a las de clasicaci on, pero en las que en la parte derecha de la regla puede aparecer cualquier atributo que no sea la clase; as se pueden obtener relaciones entre atributos, no s olo entre los atributos y la clase. Los algoritmos de caracterizaci on tratan de extraer todas las reglas de asociaci on que satisfagan un cierto nivel frecuencia y conanza.
2.2. Aprendizaje Autom atico Relacional
El algoritmo m as representativo es APRIORI [Agrawal et al., 1996]. Se divide en dos pasos: primero, calcular las frecuencias de los atributos y combinaciones de atributos; segundo, elegir las reglas m as frecuentes y que superen unos umbrales m nimos de aceptaci on (conanza y soporte o frecuencia). En la b usqueda de patrones frecuentes, se hace una b usqueda en anchura por niveles, yendo de la generaci on de patrones m as generales a m as espec cos. Se hace una iteraci on por niveles, generando especializaciones de los patrones que ya son frecuentes en el nivel anterior, podando los infrecuentes. Finalmente, se calculan las reglas de asociaci on, descomponiendo en dos partes los patrones frecuentes, y vericando una conanza m nima de que se cumpla el patr on completo frente a s olo la parte izquierda de la regla. La b usqueda por niveles s olo necesita recorrer la base de datos k+1 veces, siendo k el n umero de niveles de longitud o profundidad de los patrones, porque todos los candidatos de un nivel se eval uan en una sola pasada. Esta caracter stica permite reducir las dimensiones y complejidad, y ser aplicado a grandes conjuntos de datos, lo cual es muy importante en dominios de Biolog a Molecular, como los afrontados en esta tesis. Aplicado al contexto de esta tesis, de anotaci on funcional del proteoma, esta tarea de AA permite obtener relaciones (patrones frecuentes o reglas de asociaci on) entre los genes o prote nas de un conjunto con una misma anotaci on, a partir de los atributos simples. Por ejemplo, se pueden buscar reglas de asociaci on entre los elementos de una ruta metab olica particular, o los que tienen asociada una enfermedad, o los que tienen un perl de expresi on similar.
2.2.
2.2.1.
Aprendizaje Autom atico Relacional

Denici on
Mientras que la mayor a de enfoques en Aprendizaje Autom atico cl asico (del ingl es, Machine Learning) y An alisis de Datos (del ingl es, Data Mining) buscan patrones en una nica tabla de datos, el Aprendizaje Autom u atico Relacional (AAR) o Aprendizaje Relacional [Dzeroski and Lavrac, 2001; Raedt, 2008] busca patrones que involucran m ultiples relaciones de una base de datos relacional. La entrada de los algoritmos de AAR generalmente son varias tablas, no s olo una. Para enfatizar este hecho, frecuentemente se denomina Aprendizaje Autom atico Multi-Relacional [Dzeroski, 2003] 1 . mbito de este trabajo los t En el a erminos ingleses Relational Data Mining, Logical Learning y Relational Learning se unican en el t ermino Aprendizaje Autom atico Relacional (o su simplicaci on Aprendizaje Relacional). Adem as de que la diferencia entre estos conceptos es muy difusa, en este trabajo se considera que, seg un algunas tendencias recientes [Raedt, 2008], lo importante es combinar dos disciplinas cient cas de la Inteligencia Articial, como son el Aprendizaje Autom atico y la Representaci on del Conocimiento. Es decir, estudiar el Aprendizaje Autom atico y el An alisis de Datos, pero con una representaci on m as expresiva, como es la relacional. Las dos caracter sticas diferenciadoras del AAR son un lenguaje de representaci on m as expresivo y el uso de conocimiento del dominio. En el AAR el lenguaje de representaci on del conocimiento debe permitir representar los datos distribuidos en varias tablas y con todas sus relaciones. Para ello, el enfoque que se ha utilizado mayoritariamente se basa en la programaci on l ogica inductiva (del ingl es, Inductive Logic Programming, ILP [Muggleton, 1991], proveniente de la intersecci on entre el Aprendizaje Autom atico y la Programaci on
1
En este documento se utilizan indistintamente los t erminos relacionaly multi-relacional.
10
2. Estado del Arte
L ogica (del ingl es, Logic Programming [Lloyd, 1987]). En el Aprendizaje Autom atico atributovalor o Aprendizaje Autom atico Proposicional (AAP) se aprende de una sola tabla. Su denominaci on proviene del lenguaje de representaci on utilizado, que es la l ogica proposicional o de orden cero. Mientras que en el AAR el lenguaje de representaci on mayoritario es un subconjunto de la l ogica de primer orden o l ogica de predicados. Esta l ogica incluye predicados y variables no presentes en la proposicional, haciendo esta representaci on m as expresiva. As , el t ermino relaci on en una base de datos relacional se corresponde con el t ermino predicado en la representaci on en l ogica de predicados, y los atributos de una relaci on con los argumentos de un predicado, respectivamente. Respecto al conocimiento del dominio, dado que la entrada a los algoritmos de AAR est a expresada en l ogica de predicados, adem as de la informaci on propia de los ejemplos, se puede incluir otra informaci on de contexto en nuevos predicados l ogicos. Partiendo de una base de datos relacional, los datos se pueden transformar a representaci on proposicional para aplicar una t ecnica de Aprendizaje Autom atico atributo-valor. Transformar a representaci on proposicional [Dzeroski and Lavrac, 2001] consiste en integrar los datos de nica tabla, mediante uniones y agregados, generalmente varias tablas con sus relaciones en una u implicando una p erdida de informaci on o sem antica, que se evita con el AAR. Los modelos de representaci on de los patrones aprendidos a partir de una tabla se han extendido para m ultiples tablas. Por ejemplo, existen reglas de asociaci on relacionales, rboles de decisi a on relacionales y reglas de clasicaci on relacionales, entre otros. Igualmente, los algoritmos que generan estos modelos se han generalizado para ser aplicables a datos relacionales, manteniendo el algoritmo proposicional original como un caso particular. As , existen algoritmos para inducir: Reglas de decisi on relacionales: FOIL [Quinlan and Mostow, 1990] e ICL [Raedt and Laer, 1995], extendidos del algoritmo proposicional CN2 [Clark and Niblett, 1989]. Arboles de decisi on relacionales: S-CART [Kramer, 1996], extendido de CART [Breiman et al., 1984]; y T ILDE [Blockeel and Raedt, 1998], extendido de C4.5 [Quinlan, 1993]. Patrones frecuentes y reglas de asociaci on relacionales: WARMR [Dehaspe and Raedt, 1997], extendido de APRIORI [Agrawal et al., 1996]. Aprendizaje basado en distancias relacionales: RIBL [Emde and Wettschereck, 1996], extendido de KNN [Mitchell, 1997]. Aprendizaje por refuerzo relacional: RRL [Dzeroski et al., 2001] extendido del m etodo Q-learning [Kaelbling et al., 1996]. rboles de decisi Este tesis se centra principalmente en los a on relacionales. Estos se pueden construir en un solo paso con T ILDE [Blockeel and Raedt, 1998], o en dos pasos, a trav es de la rbol de decisi extracci on de patrones frecuentes con WARMR y el uso de un a on proposicional, como el ya descrito CLUS, con cl ausulas l ogicas en los nodos, para que sea relacional, como se explica en m as detalle dentro del apartado 2.2.5.
2.2.2.
Ventajas frente a Aprendizaje Autom atico Proposicional
El Aprendizaje Autom atico Multi-Relacional presenta las siguientes ventajas frente al enfoque proposicional o atributo-valor, siendo muchas de ellas relevantes en un dominio biol ogico:
11
Conservaci on de la sem antica del dominio: La representaci on del conocimiento en el AAR es m as expresiva, permitiendo incluir directamente informaci on estructurada (por ejemplo, redes o grafos de interacci on entre prote nas), mediante relaciones entre entidades. Adem as, se puede preservar la representaci on de la informaci on no relacional, con simples atributos num ericos o nominales. Decremento en el n umero de valores desconocidos e inexistentes: El AAR elimina la gran cantidad de valores nulos o celdas vac as que se generan en la nica del AAP, correspondientes a valores desconocidos o inexistentes de alguna tabla u propiedad (hecho muy frecuente en los dominios biol ogicos). En AAR los atributos con valores desconocidos no generan una tupla en la sub-tabla dividida correspondiente. Por ejemplo, si una prote na no posee un dominio transmembrana (un tipo de anotaci on particular), en AAP se tendr a un atributo reservado para dicha propiedad, que para esa prote na estar a vac o; mientras que en AAR se denir a el dominio transmembrana en una tabla independiente, asociada a las dem as por el identicador de la prote na, sin incluir tupla alguna para dicha prote na sin dominio transmembrana. Cabe destacar que esta ventaja existe bajo el supuesto del mundo cerrado con el que se trabaja en l ogica de predicados (t pica representaci on relacional), en la que se asume que todo lo no indicado expl citamente es falso. Aunque por la incertidumbre intr nseca de los datos biol ogicos no se puede asegurar dicho supuesto, en la pr actica los m etodos mbito de computacionales aplicados en Biolog a Molecular tienen que restringir su a trabajo a los datos realmente disponibles. Interpretaci on m as sencilla: Debido a la representaci on en l ogica de predicados, el AAR permite denir en el sesgo del lenguaje la estructura y tipo de predicados a incluir en el modelo de representaci on aprendido. Dicho sesgo se puede dise nar en funci on del tipo de salida deseado, para tiles para los cient justicar la clasicaci on hecha utilizando t erminos u cos que interpreten el modelo, como por ejemplo los bi ologos. Almacenamiento eciente de atributos multi-valuados: En la teor a de bases de datos relacionales, un atributo multi-valuado es aquel que puede tomar m as de un valor simult aneamente para el mismo atributo, con una cantidad indeterminada a priori de valores diferentes [de Miguel Casta no et al., 1999]. En AAP no se puede representar, al menos de manera eciente, porque se necesitar a un atributo booleano para cada uno de los posibles valores, que en la mayor a de los casos tomar a valor falso, incrementando de forma in util el tama no de la tabla de datos. Sin embargo, en AAR se puede separar dicho atributo en una nueva tabla o predicado independiente, compartiendo el atributo del identicador principal con la tabla original, e incluyendo tantas tuplas como sean necesarias para un mismo identicador, con un valor diferente del atributo multi-valuado. En dominios biol ogicos es muy frecuente la presencia de atributos multi-valuados, porque un gen o producto gen etico suele tener asociadas N anotaciones diferentes de un mismo tipo, por ejemplo m as de un t ermino Gene Ontology [Ashburner et al., 2000]. Mejora en el almacenamiento y gesti on del conocimiento del dominio:
12
2. Estado del Arte
En AAR los datos se organizan en m odulos o tablas independientes, seg un las relaciones denidas. Esta caracter stica hace m as f acil trabajar con muchos datos, manipulando diferentes predicados l ogicos (a nadir, eliminar, mezclar N tablas), y diversas fuentes de datos (incluyendo una nueva relaci on o tabla para cada fuente; como rutas, miner a de textos, perles de expresi on de genes u homolog a, entre otros). No hay que limitarse nica y enorme, como en el AAP, con miles de atributos, siendo muchos a una tabla u redundantes, con la dicultad que implica tratar un n umero de atributos muy elevado, incluso mayor que el n umero de ejemplos. En AAP los datos pueden llegar a ser inmanejables y los algoritmos tener un coste computacional excesivo, m as a un si se parte de un conjunto de datos muy amplio, como ocurre siempre en los dominios de biolog a molecular. En los dominios biol ogicos hay mucha informaci on relacional, debido a la estructura intr nseca de las mol eculas y a la importancia de la similitud entre diferentes secuencias y estructuras, de la misma o diferentes especies. Dichos datos relacionales son a un m as relevantes en el dominio de anotaci on funcional que se propone afrontar en este trabajo. Ya que las relaciones entre los diferentes genes y prote nas son fundamentales si se quiere explicar por qu e llevan a cabo una funci on juntos. Por ejemplo, a bajo nivel, las mol eculas (nodos) tienen enlaces qu micos (como en la estructura de un grafo). Adem as, a alto nivel, hay redes de interacci on compuestas de conexiones funcionales (enlaces) entre prote nas (nodos); o asociaciones de ortolog a entre un par de genes de diferentes especies con alta similitud entre sus secuencias de nucle otidos, lo que es una evidencia de una posible asociaci on funcional. Por todas estas razones, se considera que el Aprendizaje Autom atico Relacional es m as adecuado para el dominio de anotaci on funcional que el enfoque proposicional cl asico.
2.2.3.
Representaci on en L ogica de Predicados
En primer lugar, se introduce el lenguaje de representaci on de la mayor a de t ecnicas de rea de la Programaci AAR. Estas se han desarrollado principalmente en el a on L ogica Inductiva [Muggleton, 1991]. As , el lenguaje de representaci on son programas l ogicos, un subconjunto de la l ogica de primer orden, tambi en llamada l ogica de predicados. Prolog [Bratko, 2001] es el lenguaje de representaci on para las entradas y salidas. A continuaci on se presenta la terminolog a b asica usada en programaci on l ogica, siguiendo un orden de los elementos m as espec cos a los m as generales, como hace Vens [Vens, 2007]. Elementos b asicos: constantes y variables. Siguiendo la convenci on del lenguaje Prolog [Bratko, 2001], las variables se nombran empezando con may uscula. Un t ermino es una constante, una variable o una funci on (por ejemplo: f(X,Y,z), siendo X e Y variables y z una constante). Un predicado o a mbolo (que identica el predicado) seguido por una tupla tomo es un s de t erminos entre par entesis. Por ejemplo, nombre predicado(Var1,constante,Var2). De forma resumida, cuando no interesa el contenido de cada argumento, sino s olo su umero de cantidad, se puede representar como nombre predicado/N, siendo N el n argumentos. Un literal es un predicado o la negaci on de un predicado (representado como ). Una cl ausula es una disyunci on de literales, por ejemplo h1 h2 ... hj c1 c2 ... ck . Una cl ausula se suele escribir como una implicaci on de la forma
13
h1 h2 ... hj c1 c2 ... ck , donde h1 h2 ... hj (cabeza de la cl ausula) es la parte de hip otesis o conclusi on, y c1 c2 ... ck (cuerpo de la cl ausula) es la parte de condici on. Generalmente, y se sustituyen por comas. En una cl ausula, todas las variables de los literales est an cuanticadas universalmente. Una conjunci on de cl ausulas se denomina teor a clausal. Seg un el n umero de literales en la cabeza y el cuerpo de una cl ausula, se distinguen formas especiales de cl ausula: Una cl ausula de Horn es aquella que tiene como m aximo 1 literal en la cabeza. Una cl ausula determinada tiene exactamente 1 literal en la cabeza. Un patr on o query es una cl ausula con ning un literal en la cabeza. Un hecho es una cl ausula determinada sin literales en el cuerpo. Normalmente la echa de implicaci on se omite para los hechos. Una cl ausula programa es una cl ausula de la forma h l1 , l2 , ..., lm , donde h es un predicado y l1 , l2 , ..., lm son literales. La denici on de predicado es un conjunto de cl ausulas programa con el mismo nombre de predicado y n umero de argumentos en todas sus cabezas. Finalmente, un programa l ogico es un conjunto de deniciones de predicados. Un predicado de programaci on l ogica se corresponde con una relaci on en una base de datos relacional, los argumentos de un predicado se corresponden con los atributos de una relaci on, y las vistas de una base de datos se pueden representar en forma de clausulas. As , un programa l ogico que representa la informaci on de una base de datos relacional se compone de dos partes. Por un lado, la parte que se dene por extensi on, formada por una enumeraci on de hechos que representan los datos y relaciones de todas las tuplas de la base de datos. Por otro, la parte que sigue una denici on intensiva, compuesta por las cl ausulas que representan las vistas de la base de datos. Con ILP tambi en se pueden a nadir cl ausulas adicionales con conocimiento experto del dominio que facilite y mejore el aprendizaje (por ejemplo, representar la estructura interna o relaciones entre prote nas y genes). La combinaci on de la parte extensiva e intensiva se denomina conocimiento base. La programaci on l ogica es deductiva, porque s olo puede utilizar el conocimiento del dominio para extraer predicados que siempre son ciertos. Sin embargo, la programaci on l ogica inductiva (ILP) utiliza inferencia inductiva, porque partiendo de un conjunto de ejemplos (en forma de predicados l ogicos), se a nade conocimiento del dominio (parte t picamente deductiva), siendo as capaz de encontrar regularidades o hip otesis (que pueden ser ciertas o no) a ser aplicadas sobre nuevos ejemplos. Es muy importante destacar que la mayor a de sistemas de aprendizaje autom atico basados en ILP (como los usados en este trabajo) aprenden un programa l ogico. Es decir, un conjunto de cl ausulas programa, o una relaci on de salida en funci on de otras relaciones dadas como conocimiento del dominio. A partir de este apartado el resto se reeren a herramientas de AAR, que pr acticamente en su totalidad usan l ogica de predicados.
14
2. Estado del Arte
2.2.4.
Transformaci on a Proposicional
La transformaci on a proposicional se dene como un cambio de representaci on, de relacional a proposicional (o atributo-valor) [Dzeroski and Lavrac, 2001]. Este proceso involucra la construcci on de caracter sticas a partir del conocimiento del dominio y de las propiedades estructurales reejadas en una representaci on relacional. Esta aproximaci on permite aplicar algoritmos de AAP aunque los datos sean estructurados y tengan relaciones. Siempre que no existan relaciones entre los datos, se puede aplicar directamente AAP. Cuando aparecen relaciones, se puede elegir entre aplicar directamente AAR, o transformar a proposicional la representaci on para poder aplicar AAP. El aprendizaje con transformaci on a representaci on proposicional es una opci on pr actica que permite aprovechar los progresos en AAP, que est a m as desarrollado y sus avances tambi en son mayores frente al aprendizaje relacional puro, menos investigado. La desventaja es que no siempre se puede aplicar, o al menos sin perder sem antica en los datos, siempre y cuando la estructura sea compleja, y no sea simplicable a una representaci on basada en el individuo (o ejemplo). Lo cual sucede cuando hay recursividad o estructuras complejas en los individuos, y s olo se puede aplicar aprendizaje relacional puro. Ante una estructura relacional que no requiera estrictamente una representaci on en l ogica de primer orden (sin t erminos estructurados ni recursividad), se podr a aplicar AAR o una combinaci on de relacional y proposicional, y seleccionar la que proporcione mejores resultados, dado que una vez que se tiene denida la estructura relacional, cualquiera de los dos enfoques es f acilmente aplicable. A la hora de transformar los datos a representaci on proposicional existen m ultiples opciones [Dzeroski and Lavrac, 2001]. Generalmente se utiliza aprendizaje relacional para llevar a cabo la transformaci on a proposicional. Dado que la mayor a de sistemas de AAR est an basados en programaci on l ogica inductiva (ILP), como se ha comentado previamente, los atributos que se generan son conjunciones de literales, que se convierten en atributos booleanos en la representaci on proposicional. Inevitablemente se pierde sem antica al transformar a proposicional una representaci on relacional, porque no se pueden generar todas las caracter sticas derivadas de la aplicaci on de todas las instancias de relaciones existentes en el conjunto de datos. Las variantes de los m etodos para transformar a proposicional dependen del sesgo del lenguaje, que determina qu e subconjunto de atributos se derivan de todo el conocimiento relacional existente, dado que la derivaci on de todos los atributos posibles es inviable, debido al crecimiento exponencial con el tama no del conjunto de datos y del n umero de relaciones entre elementos. El sesgo es necesario para reducir el n umero de hip otesis candidatas. Se divide en sesgo del lenguaje (que determina el espacio de hip otesis) y sesgo de la b usqueda (que restringe el espacio de b usqueda de todas las posibles hip otesis). La b usqueda puede extraer todas las combinaciones restringidas a un subconjunto de variables [Lavrac et al., 1991]; realizar una selecci on probabil stica de las combinaciones que m as discriminan [Kramer et al., 1997]; o seleccionar combinaciones por frecuencia [Dehaspe and Raedt, 1997], principalmente. Tambi en existen m etodos para transformar a representaci on proposicional de prop osito espec co [Dzeroski and Lavrac, 2001]. Otra opci on para transformar parte de la informaci on relacional a proposicional ser a calcular agregados que codiquen de forma impl cita el conocimiento de las relaciones. Adem as, se debe tener en cuenta que no siempre es mejor obtener tantos atributos proposicionales como sea posible a partir de la representaci on relacional. No s olo porque decrementa la eciencia del m etodo de aprendizaje proposicional debido al tama no, sino porque puede incluir caracter sticas irrelevantes. Por lo tanto, tambi en se pueden desarrollar m ultiples enfoques para tratar este aspecto dentro de la construcci on de caracter sticas mediante
15
transformaci on a representaci on proposicional. Hay que diferenciar este enfoque de extracci on de caracter sticas por combinaci on de propiedades sencillas relacionadas (transformaci on a proposicional), frente a una selecci on de caracter sticas entre cientos o miles de atributos denidos originalmente en el conjunto de datos.
2.2.5.
Herramientas de Aprendizaje Autom atico Relacional
En esta secci on se introducen brevemente diferentes herramientas de AAR. La mayor a de ellas son sistemas de aprendizaje basados en l ogica de primer orden. FOIL, Progol y Aleph FOIL [Quinlan and Mostow, 1990] es el primer sistema de aprendizaje de reglas con l ogica de primer orden. Dichas reglas deben describir un conjunto de ejemplos positivos, de acuerdo al conocimiento del dominio, y no describir ning un ejemplo negativo. En el algoritmo, se van a nadiendo progresivamente literales seleccionados heur sticamente, hasta que se cubren todos los ejemplos. Otra herramienta de AAR que usa l ogica inductiva es Progol [Muggleton, rboles de decisi 1995]. Tanto FOIL como Progol aprenden reglas, no a on expl citamente. Aleph [Srinivasan, 2007] es un sistema ILP posterior, de aprendizaje de conceptos relacionados. Desde su versi on inicial, ha evolucionado de forma que actualmente, dependiendo de la conguraci on elegida por el usuario, puede realizar la misma funcionalidad que otros sistemas l ogicos como por ejemplo Progol, FOIL, T ILDE o WARMR. Arboles de Decisi on Relacionales: TILDE rboles de decisi La inducci on de a on (del ingl es, Top-Down Induction Decision Trees, TDIDT ) [Quinlan, 1986] es una de las t ecnicas m as conocidas en Aprendizaje Autom atico. Utiliza la estrategia divide y vencer as, que es la m as popular en el aprendizaje atributovalor. Debido a las diferencias en el formato de representaci on entre las cl ausulas de la l ogica rboles de decisi inductiva y la estructura de los a on, la estrategia divide y vencer as no se usa frecuentemente en Aprendizaje en L ogica de Primer Orden. En su lugar, se emplea la estrategia de cobertura, generalmente para inducir reglas (como hacen otros sistemas precursores como rboles. Al FOIL [Quinlan and Mostow, 1990] y Progol [Muggleton, 1995]) en vez de a rboles de decisi generalizar la estrategia de inducci on de a on proposicionales utilizando un rboles enfoque de ILP como es el aprendizaje por interpretaci on [Raedt, 1997], se obtienen a de decisi on relacionales, con un algoritmo (T ILDE [Blockeel and Raedt, 1998]) que extiende el cl asico C4.5 [Quinlan, 1993] (con sus heur sticas de selecci on de atributos y sus criterios de poda), como muestra la gura 2.1. T ILDE [Blockeel and Raedt, 1998; Blockeel, 1998] es un sistema de Aprendizaje rbol de decisi rbol de decisi Autom atico Relacional cuya salida es un a on relacional o a on en l ogica de primer orden. Est a incluido en la herramienta ACE-ilProlog [Blockeel et al., 2000, rbol de decisi rbol de 2006a]. Un a on relacional [Blockeel and Raedt, 1998] es como un a decisi on proposicional pero con conjunciones de literales (cl ausulas en l ogica de primer orden) rboles de decisi en los nodos, en lugar de comparaciones de valores de atributos. En los a on proposicionales se comprueba el valor de los atributos (con operadores de igualdad o menor o rboles de decisi mayor). Mientras que en los a on con l ogica de primer orden, se comprueba la existencia o no (verdadero o falso) de una conjunci on de literales.
16
2. Estado del Arte
Estrategias Abstraccin (Lgica de 1er Orden) Caso particular (Lgica Proposicional) Aprendizaje por interpretacin
Algoritmos TILDE
TDIDT
c4.5
rboles de decisi Figura 2.1: Esquema de la relaci on entre a on en l ogica proposicional y en l ogica de primer orden.
rbol relacional existe una diferencia en el proceso de renamiento Al construir un a (elecci on de cl ausulas de la condici on de un nodo): usar el operador de subsunci on- (del ingl es, -subsumption) [Plotkin, 1970]. Se trata de hacer una abstracci on, eligiendo predicados que incluyen a los existentes, que son un supra-conjunto. As , se van clasicando ejemplos por capas, unas m as generales sobre otras m as espec cas. Se comprueba qu e literal divide mejor los ejemplos (m as homog eneamente), calculando la m nima entrop a (C4.5) o el ratio de ganancia (T ILDE), que son medidas similares. Ese literal se a nade a la cl ausula del nodo que se est a renando. rbol de decisi El resto de caracter sticas son iguales que en un a on proposicional binario: Utiliza la estrategia divide y vencer as. rbol si se cumple la evaluaci Se selecciona la rama sucesora izquierda del a on del nodo o la derecha en caso negativo. Una variable que aparece en la rama positiva puede volver a evaluarse posteriormente en la misma rama, pero no en la negativa, que asume que no existe. Para evaluar un nuevo ejemplo se recorren todas las ramas que cumplan la condici on de los nodos intermedios hasta llegar a una hoja, que le asigne la clase mayoritaria; o la rbol de regresi media, si es un a on. rbol de decisi Un a on relacional puede transformarse en una lista de reglas de decisi on (y tambi en en un programa Prolog). rbol de decisi T ILDE permite construir un a on cuyos nodos contengan tanto predicados l ogicos como datos no relacionales (comparaciones con atributos num ericos). A continuaci on, se enuncian otros posibles usos del algoritmo T ILDE y versiones relacionales similares: Predicci on multiple [Blockeel et al., 1999]: para predecir varios atributos de salida a la vez. Uso de funciones agregadas [Blockeel and Dzeroski, 1999]: permite a nadir a los nodos comparaciones con el valor de salida del agregado (media, moda, m nimo, m aximo, etc.). tiles para dar relevancia a propiedades relativas a los N elementos de un Pueden ser u grupo.
17
Ranking [Todorovski et al., 2002]: si se usa un conjunto de clasicadores, permite rbol, as determinar cu al de ellos es mejor para cada rama del a como el orden entre rbol. los dem as, para cada clase asignada en una hoja del a Multi-clasicaci on jer arquica [Struyf et al., 2005]: para predecir un conjunto de clases (organizadas en una jerarqu a) para un ejemplo dado. ACE (del ingl es, A Combined Engine) [Blockeel et al., 2000, 2006a] es un sistema de miner a de datos con una interfaz com un para varios algoritmos de Aprendizaje Autom atico Relacional, incluyendo T ILDE [Blockeel and Raedt, 1998], WARMR [Dehaspe and Raedt, 1997], ICL [Raedt and Laer, 1995] y RRL [Dzeroski et al., 2001]. Patrones Frecuentes y Reglas de Asociaci on: PolyFARM y WARMR WARMR [Dehaspe and Raedt, 1997] es un sistema para extraer reglas de asociaci on en l ogica de primer orden. Tambi en est a incluido en la herramienta ACE. El objetivo del algoritmo de WARMR es encontrar todos los patrones de ocurrencia frecuente siguiendo unas restricciones dadas. Es un m etodo basado en niveles, similar al algoritmo APRIORI [Agrawal et al., 1996]. El algoritmo realiza una b usqueda en anchura en el espacio de patrones, ordenada por la generalidad de los patrones. La poda est a basada en la relaci on entre la especicidad y la frecuencia: si un patr on no es frecuente, entonces ninguna de sus especializaciones pueden serlo. As , este m etodo de aprendizaje es r apido y eciente en bases de datos grandes. ltimo conserva la eciencia de la t Si se compara WARMR con T ILDE, este u ecnica de rboles de decisi construcci on de los a on, que trabajan con un fragmento de datos cada vez m as peque no [Clare, 2003]. Por otro lado, T ILDE tiene un sesgo al ir construyendo particiones, de sta se propaga al resto de ramas inferiores del a rbol. forma que, si una decisi on es perjudicial, e Por su parte, las reglas de asociaci on no tienen este sesgo, y se pueden aplicar a bases de datos m as grandes, con una menor complejidad computacional. En el dominio de anotaci on funcional en el que se centra este trabajo, las reglas de asociaci on se podr an usar como un paso de pre-procesamiento ante una base de datos rbol de decisi inmanejable para un a on. As , primero, se extraen las relaciones m as importantes, stas se usan como atributos booleanos de un a rbol de decisi y segundo, e on, como se ha hecho en otras aplicaciones bioinform aticas [Clare et al., 2006]. La salida de WARMR tambi en se podr a usar para obtener descripciones que caractericen un grupo de genes o prote nas dado, en los t erminos deseados, deniendo los predicados l ogicos de entrada en funci on de ellos. PolyFARM [Clare and King, 2003] es un sistema de extracci on de reglas de asociaci on, semejante a WARMR, que adem as divide el procesamiento entre varias m aquinas de ejecuci on paralela. Est a implementado en Haskell. Su objetivo original fue acelerar la ejecuci on que proporcionaba WARMR, en el que est a basado. WARMR inicialmente era demasiado lento como para poder ser aplicado a un gran conjunto de datos, como los procedentes de la biolog a molecular. Posteriormente, mejor o notablemente, al implementarse la nueva versi on de la herramienta ACE (en la que est an incluidos WARMR y T ILDE), que usa desde entonces el motor de b usqueda ilProlog, m as eciente. Aprendizaje H brido: Relacional y Proposicional Se puede seleccionar el m etodo de aprendizaje a utilizar en funci on de los datos: proposicional, relacional o h brido. En esta tesis, la denominaci on Aprendizaje H brido se reere a la combinaci on de aprendizaje relacional y proposicional. En el aprendizaje h brido,
18
2. Estado del Arte
el aprendizaje relacional se utiliza para transformar los datos relacionales a representaci on proposicional (ver secci on 2.2.4). Entre las diversas opciones de aprendizaje h brido, existe una muy aplicada en dominios biol ogicos (ver secci on 2.3.1) semejantes al que se afronta en esta tesis. Se trata de transformar a representaci on proposicional mediante la extracci on de patrones frecuentes con un algoritmo de generaci on de reglas de asociaci on (PolyFARM [Clare and King, 2003] o WARMR [Dehaspe and Raedt, 1997]), de forma que cada uno de los patrones sea un atributo booleano proposicional, que toma valor 1 si la conjunci on de literales se cumple en rbol de decisi el ejemplo independiente, o 0 en caso contrario. Posteriormente, se aplica un a on proposicional (C4.5 [Quinlan, 1993] o CLUS [Blockeel et al., 1998]). rbol de Este aprendizaje h brido que combina extracci on de patrones frecuentes con un a decisi on proposicional se utiliza en el m etodo de predicci on DMP (del ingl es, Data Mining Prediction) [King et al., 2000b], que combina los algoritmos PolyFARM y C4.5. DMP se ha aplicado ampliamente en la predicci on funcional de diferentes especies (como E.coli, M.Tuberculosis, Arabidopsis Thaliana) desde hace algo m as de una d ecada [King et al., 2000a, 2001; Clare et al., 2006], incluso vericando sus predicciones experimentalmente [King et al., 2004b]. Posteriormente, a partir de DMP (ver evoluci on en secci on 2.3.1) se ha aplicado una nueva combinaci on de algoritmos m as actuales y exibles: WARMR y CLUS, tambi en aplicada xito en otros dominios de predicci con e on funcional gen omica, incluso multi-etiqueta y tiles jer arquica [Blockeel et al., 2006b; Vens et al., 2008]. Estos enfoques son especialmente u en Biolog a Molecular, porque los genes o prote nas est an involucrados en varias funciones (multi-etiqueta), y las funciones en biolog a se organizan con frecuencia en niveles (jer arquico). ltima combinaci Por lo tanto, se decide utilizar esta u on de aprendizaje h brido en el cap tulo 7 de esta tesis. Otros sistemas de Aprendizaje Relacional Aprendizaje Relacional con Probabilidad Cuando hay incertidumbre, ruido y/o valores desconocidos en los datos, puede resultar adecuado utilizar un enfoque estoc astico. Relacionado con esta idea, ha surgido una rea de investigaci nueva a on denominada Aprendizaje Relacional Estad stico (del ingl es, rea se dene como una Statistical Relational Learning) [Raedt and Kersting, 2003]. Esta a intersecci on entre el razonamiento probabil stico, la l ogica de primer orden y el Aprendizaje Autom atico. La probabilidad frecuentemente viene representada en forma de redes bayesianas, modelos ocultos de Markov o gram aticas estoc asticas. Existen m ultiples sin onimos o enfoques estrechamente relacionados, como por ejemplo: Modelos Probabil sticos Relacionales (del ingl es, Relational Probability Model), Programaci on L ogica Inductiva Probabil stica (del ingl es, Probabilistic ILP), Aprendizaje L ogico Probabil stico (del ingl es, Probabilistic Logic Learning), Programaci on L ogica Estoc astica (del ingl es, Stochastic Logic Programming), etc. A continuaci on se mencionan algunos ejemplos de herramientas de Aprendizaje Relacional Estad stico o Probabil stico. El algoritmo FAM (del ingl es, Failure Adjusted Maximization) [Cussens, 2001; Chen et al., 2008] asigna probabilidades a posteriori rbol de decisi a un a on completamente construido. Es una versi on de un algoritmo de estimaci on cl asico de Esperanza-Maximizaci on (EM) [Dempster et al., 1977]. Otro ejemplo es Prole (del ingl es, Probabilistic First-order LEarning), un conjunto de
19
diferentes herramientas desarrolladas en Java, para Aprendizaje Relacional Estad stico y Programaci on L ogica Inductiva Probabil stica. Incluye programas con versiones rboles de decisi relacionales probabil sticas para a on (Tilde-CRF [Gutmann and Kersting, 2006]), redes bayesianas (nFOIL [Landwehr et al., 2005] y Balios [Kersting and Dick, 2004]) y modelos ocultos de Markov (Xanthos [Kersting et al., 2006]). Un caso m as es el paquete de software Alchemy [Domingos et al., 2006], basado en una representaci on l ogica de Markov. Tambi en cabe mencionar otros sistemas como ProbLog [Raedt et al., 2007], una extensi on probabil stica del lenguaje Prolog, o PRISM [Sato and Kameya, 2001] (del ingl es, PRogramming In Statistical Modeling), un lenguaje de programaci on general para el modelado simb olico-estad stico. Enfoque Relacional no Basado en L ogica de Predicados: Weka Relacional Como extensi on de la herramienta Weka [Witten and Frank, 2005] de Aprendizaje Proposicional, surge Weka Relacional [Woznica, 2006] para Aprendizaje Autom atico Relacional. Lo m as relevante es su limitaci on a muy pocos algoritmos, muchos menos que Weka proposicional, as como su representaci on relacional no basada en la l ogica de predicados. Simplemente permite que los datos de entrada est en distribuidos en varias tablas relacionadas entre s , en lugar de una sola. El principal enfoque de aprendizaje que proporciona Weka Relacional es el basado en instancias (extensi on del algoritmo KNN [Mitchell, 1997]). Cabe mencionar que tambi en presenta una extensi on relacional de las m aquinas de vector de soporte (SVM [Vapnik, 1998]). Aunque la herramienta implementa diferentes medidas de distancia, el aprendizaje basado en instancias requiere denir una m etrica de distancia entre cada par de ejemplos. Entre atributos num ericos es sencillo establecer una distancia. Pero entre atributos nominales, como son la mayor a de las anotaciones que aparecen en los dominios biol ogicos como los afrontados en este trabajo, no es nada trivial establecer una distancia. Adem as, existe la complejidad a nadida de denir distancias entre atributos de diferentes tablas. Otra desventaja de Weka Relacional frente a un sistema de AAR con una representaci on en l ogica de predicados es la carga computacional (en memoria y tiempo). Primero, porque Weka Relacional est a implementado en lenguaje Java, que consume muchos recursos de memoria, cuya ocupaci on aumenta notablemente en aprendizaje relacional, por las m ultiples relaciones entre diversas tablas. Segundo, porque en el enfoque basado en instancias hay que calcular las distancias todos contra todos los elementos (relacionados o no), restringiendo la cantidad de instancias que el sistema puede manejar. Ambas limitaciones no son oportunas en dominios biol ogicos que trabajan con bases de datos muy grandes, con muchos elementos. Aprendizaje Multi-Instancia Por otro lado, en el l mite entre el Aprendizaje Proposicional y el Aprendizaje Relacional, se encuentra el Aprendizaje Multi-Instancia [Dietterich et al., 1997]. Este se origin o al afrontar un caso pr actico de descubrimiento de f armacos. La idea principal en este tipo de aprendizaje es que cada ejemplo es un conjunto de tuplas, de n umero indeterminado y que puede ser diferente para cada ejemplo. Es decir, la clase se asocia a una bolsa de instancias, en vez de tener asignada una clase a cada instancia particular. Dentro del conjunto de instancias, unas pertenecen realmente a la
20
2. Estado del Arte
clase y otras no. De forma que si una de las instancias cumple la condici on o condiciones de clasicaci on, se le asigna la clase positiva a todo el conjunto. Para este tipo de aprendizaje se puede usar una representaci on atributo-valor o relacional. El enfoque del Aprendizaje Multi-Instancia se podr a aplicar a la predicci on de funci on de listas de genes, aunque incluye algunos sesgos [Blockeel et al., 2005] que no lo hacen rboles de decisi estrictamente v alido para aprender a on como T ILDE .
2.3.
2.3.1.
Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular

Biolog a Molecular como Campo del AA
rea de aplicaci Adem as de ser un interesante a on, la Biolog a Molecular es un campo abierto para el Aprendizaje Autom atico [Larra naga et al., 2006; Tarca et al., 2007; Inza et al., 2010]. La gura 2.2 muestra una perspectiva de todas las tareas biol ogicas en las que se aplica el rea bien establecida, AA, poniendo de maniesto que la aplicaci on de AA a Biolog a es un a desde hace tiempo y que continua vigente.
Figura 2.2: Esquema general de las aplicaciones de Aprendizaje Autom atico en Biolog a Molecular. Fuente: [Inza et al., 2010].
Seg un un estudio reciente [Jensen and Bateman, 2011] los m etodos de Aprendizaje Autom atico supervisado m as usados en Biolog a son las redes de neuronas, las m aquinas de rboles de decisi vector de soporte, los modelos de Markov y los a on, con la aparici on creciente rboles aleatorios (del ingl de los bosques de a es, random forests). Para un repaso bibliogr aco exhaustivo, se pueden consultar las revisiones de aplicaci on a Biolog a de Aprendizaje Autom atico (y otros sistemas de inteligencia computacional) [Larra naga et al., 2006; Fogel, 2008]. A continuaci on se presentan algunos ejemplos de uso de diferentes t ecnicas del AA para distintos dominios de la Biolog a Molecular:
2.3. Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular
21
La denici on de sitios de iniciaci on de la traducci on en los genes de E.coli [Stormo et al., 1982] fue uno de los primeros usos de las redes de neuronas en bioinform atica. La localizaci on de genes en la secuencia de ADN (es decir, regiones que codican rea [Mathe prote nas) es una de las aplicaciones m as importantes del AA en este a rboles de decisi et al., 2002], usando a on o clasicadores bayesianos, entre otros; incluso combinando diferentes fuentes de informaci on [Allen et al., 2004], como tambi en se hace durante esta tesis (ver cap tulo 6). Para el reconocimiento de regiones promotoras de la transcripci on se han utilizado redes de neuronas, modelos de Markov, computaci on evolutiva y m etodos del vecino m as cercano [Fogel, 2008]. La detecci on de sitios de ensamblaje alternativo se ha realizado con modelos ocultos de Markov [Cawley and Pachter, 2003]. Para la predicci on de genes involucrados en enfermedades gen eticas se han utilizado rboles de decisi a on [L opez-Bigas and Ouzounis, 2004]. En la predicci on de los efectos fenot picos de polimorsmos de nucle otidos aislados (del ingl es, single nucleotide polymorphisms, SNP) no sin onimos se han comparado los rboles aleatorios, usando resultados de m aquinas de vector de soporte y bosques de a informaci on estructural y evolutiva [Bao and Cui, 2005]. A partir de datos de an alisis de ADN, se usa el algoritmo C4.5 para extraer reglas que proporcionen conocimiento comprensible por el humano [Sebban et al., 2002], con el mismo objetivo que se utilizan las reglas de decisi on en esta tesis (ver cap tulo 7). Para la predicci on de la estructura secundaria de prote nas se ha empleado el m etodo del vecino m as cercano [Yi and Lander, 1993]. Para la predicci on de estructura terciaria de las prote nas y clasicaci on en familias de prote nas se han utilizado redes bayesianas [Raval et al., 2002]. Para el reconocimiento de patrones partiendo de datos de microarrays se encuentran m ultiples t ecnicas de aprendizaje supervisado [Valafar, 2002; Xu et al., 2007a] y de agrupamiento [Sheng et al., 2005], consiguiendo principalmente subconjuntos de genes (perles de expresi on g enica) implicados en la diagnosis de c ancer. Para predecir si la respuesta reguladora de un gen es alta o baja se utiliza un conjunto de rboles de decisi a on [Middendorf et al., 2004]. rboles de PSORT II [Horton and Nakai, 1997] realiza localizaci on sub-celular usando a decisi on inicialmente, y k-vecinos m as cercanos en una versi on posterior. ProtFun [Jensen et al., 2002b] realiza anotaci on funcional con combinaciones de redes de neuronas. Se realiza modelado de redes de regulaci on g enica, por ejemplo, con redes de neuronas y optimizaci on por enjambre de part culas [Xu et al., 2007b].
22
2. Estado del Arte
rboles logen Para la reconstrucci on de a eticos se suelen aplicar otros sistemas inteligentes, como es la computaci on evolutiva, por ejemplo los algoritmos gen eticos [Matsuda, 1995] o las colonias de hormigas [Catanzaro et al., 2007]. Tambi en hay que mencionar la presencia de sistemas de inteligencia computacional en software comercial [Fogel, 2008], especialmente para el descubrimiento de f armacos [Thomsen, 2007]. Finalmente, cabe destacar la importancia de la anotaci on funcional (caracterizar funcionalmente genes y prote nas), tanto en gen omica como en prote omica, ya que es el objetivo m as rea en la que se centra esta importante de la Biolog a Molecular. La anotaci on funcional es el a tesis. Para m as detalles sobre anotaci on funcional, consultar la secci on 2.4.1 y el anexo B. Tras este breve repaso se puede concluir que el AA es una t ecnica de pasada y continua aplicaci on para resolver problemas en m ultiples dominios de la Biolog a Molecular, justicando as la metodolog a computacional elegida en esta tesis para afrontar varios problemas biol ogicos. Aplicaciones del AAR xito a dominios biol Desde sus inicios, el AAR ha sido aplicado ampliamente y con e ogicos y qu micos, siendo trabajos de referencia los de King, Muggleton, Page y Dzeroski, entre otros, como se detalla a continuaci on. La primera aplicaci on fue la resoluci on del problema de la mutag enesis en 1996 [Srinivasan et al., 1996]. Tambi en fue de los primeros problemas que se resuelven con AAR, porque el AAP (en concreto, regresi on lineal m ultiple) no puede solucionarlo. Otro ejemplo inicial son los errores cometidos por C4.5 que se corrigen con AAR en el dominio de la toxicolog a, en 1999 [Srinivasan et al., 1999]. En el trabajo de Page y Craven [Page and Craven, 2003] se puede consultar un an alisis estructurado y detallado de los tipos de problemas que se pueden afrontar con el Aprendizaje Autom atico Multi-Relacional en el dominio bioinform atico, junto con los datos de distinta naturaleza que se pueden incluir. Incluso, el reto de la conferencia de Programaci on L ogica Inductiva del a no 2005 (ILP2005) [Kramer and Pfahringer, 2005] estuvo centrado en un dominio biol ogico, como es la clasicaci on funcional de los genes de la bacteria Saccharomyces cerevisiae. A continuaci on, rea que se trata en se presentan algunos ejemplos concretos especialmente relacionados con el a este trabajo: la anotaci on funcional de genes y prote nas. xito a la predicci En la tesis doctoral de Clare [Clare, 2003] se aplica el AAR con e on de funci on de genes individuales de Saccharomyces cerevisiae (yeast), generando diversos trabajos derivados con los mismos conjuntos de datos [Struyf et al., 2005; Blockeel et al., 2006b], o aplicando la misma t ecnica a otras especies [Clare et al., 2006]. El trabajo de Clare se centra en aplicar el m etodo DMP (del ingl es, Data Mining Prediction), un sistema de aprendizaje h brido, que combina un algoritmo de inducci on de reglas de asociaci on rbol de decisi relacionales (PolyFARM), y posteriormente un a on proposicional, C4.5. Posteriormente se incluye una ampliaci on para predicci on multi-etiqueta aplicada tambi en rbol predice un vector de clases booleanas, en lugar de a gen omica funcional, de forma que el a una sola clase. Este enfoque evoluciona para predecir clases en varios niveles de una jerarqu a (clasicaci on multi-clase jer arquica) [Clare, 2003]. Aqu se asigna un coste mayor a errores de clasicaci on en niveles superiores de la jerarqu a frente al coste en niveles inferiores, donde es m as f acil equivocarse y, por tanto, se debe penalizar menos. Para ello se modica tanto la rbol herramienta que obtiene reglas de asociaci on (PolyFARM), como la que construye el a de decisi on proposicional (C4.5). Paralelamente se desarrolla otro sistema de clasicaci on
2.3. Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular
23
jer arquica y multi-etiqueta basado en el sistema CLUS de clustering de predicci on, que se aplica sobre el mismo conjunto de datos para predecir funciones individuales de yeast [Blockeel et al., 2006b; Vens et al., 2008]. Las t ecnicas de AAR tambi en se han aplicado a otros dominios biol ogicos similares. Algunos ejemplos recientes son la predicci on de interacci on prote na-prote na [Tran et al., 2005], la extracci on de grupos de genes a partir de datos de microarrays [Trajkovski et al., 2008], o la clasicaci on de lugares de enlace en hexosas [Nassif et al., 2009]. reas anes, u ltimamente se aplica el Aprendizaje Relacional o/y la Programaci En a on L ogica Inductiva a dominios dentro de la Biolog a de Sistemas. Valencia ha predicho la biodegradaci on de nuevos componentes qu micos por la acci on de microorganismos, utilizando el conocimiento relacional impl cito de la estructura qu mica a nivel at omico, transformado a una representaci on proposicional [G omez et al., 2007]. Dzeroski ha aplicado T ILDE al modelado ecol ogico, para simular y evaluar modicaciones gen eticas en algunos cultivos agr colas [Ivanovska et al., 2008]. Por su parte, Muggleton se centra en aplicaciones industriales. Por ejemplo, la mejora de las variedades de plantas de cultivo, a trav es de la predicci on de la maduraci on del tomate y su calidad, o la identicaci on de componentes metab olicos clave en un tumor de h gado [Muggleton et al., 2010]. Por su parte, hay que destacar el proyecto multidisciplinar Robot Scientist de King [King et al., 2004a, 2009], de gran relevancia internacional. Auna las ciencias de la computaci on y la microbiolog a para extraer autom aticamente conocimiento de experimentos in-vivo, a lo largo de varias iteraciones de procesamiento en laboratorio y en computador. Se trata de la primera implementaci on f sica de un laboratorio microbiol ogico controlado autom aticamente por hip otesis derivadas de t ecnicas de Aprendizaje Autom atico.
2.3.2.
Retos del AA en Bioinform atica
Existe una larga lista de retos para el AA asociados al dominio y contexto biol ogico que hacen, aunque dif cil, m as interesante el desarrollo del trabajo de esta tesis. Las principales son: Manejo de un gran n umero de datos, que obligan a automatizar absolutamente todos los procesos. Enormes cantidades de informaci on procedentes de una sola fuente de datos. Se requieren muchos recursos computacionales, impidiendo incluso la aplicaci on de ciertos m etodos est andar. Ruido intr nseco en los datos [Baldi and Brunak, 2001]. Las razones de dicho ruido, aparte de un error inicial experimental, pueden ser: un proceso err oneo de carga en las bases de datos p ublicas, una interpretaci on incorrecta de los experimentos, una revisi on de diferentes elementos por distintos supervisores, o la uni on de informaci on cargada en las bases de datos por diversas personas. Este ruido repercute en la inexactitud y falta de completitud de los datos utilizados para el entrenamiento del Aprendizaje Autom atico. Tanto en la asignaci on de clases, que siempre incluye falsos positivos y falsos negativos, como en los atributos, al utilizar los valores conocidos hasta el momento, que en un futuro pueden modicarse (por ejemplo, corrigiendo errores o a nadiendo anotaciones desconocidas). De forma que en un esquema ideal de clasicaci on, las predicciones positivas estar an repartidas entre los verdaderos y los falsos positivos; mientras que en problemas de clasicaci on en Biolog a, al estar basados
24
2. Estado del Arte
con frecuencia en conocimiento incompleto, las predicciones positivas se dividen con un porcentaje m nimo para verdaderos positivos, otro similar para falsos positivos, y la mayor parte para desconocidos o falsos falsos positivos [Yu et al., 2008]. As , hay que tener presente que dicho ruido y falta de completitud afecta al rendimiento de los resultados obtenidos en un proceso de AA, al depender en gran medida de la calidad de los datos de entrenamiento [Jansen and Gerstein, 2004]. M ultiples identicadores biol ogicos diferentes para un mismo elemento, lo cual exige un proceso de mapeo continuo [Huang et al., 2007], as como una posible fuente adicional de ruido. Interrelaci on compleja de todos los elementos biol ogicos. Se conoce que la mayor a de las anotaciones funcionales (utilizadas frecuentemente como datos de entrada de la predicci on) proceden de transferencia por homolog a [Rost et al., 2003] (ver una descripci on de la homolog a en la secci on B.3.1). Por lo tanto, se deben analizar siempre cuidadosamente dichas interrelaciones, para no sesgar el proceso de aprendizaje al incluir instancias muy similares para entrenar y para evaluar a la vez. Por ejemplo, muchos genes y prote nas pueden ser miembros de una misma familia por similitud en secuencia o estructura, incluso en diferentes especies. Redundancia en las bases de datos. Los mismos genes y prote nas pueden estar en distintos repositorios, hasta con distintos valores en sus propiedades. Incluso las secuencias pueden ser diferentes, debido a un proceso de secuenciaci on distinto o a la transcripci on alternativa. As , determinar el valor m as adecuado es un problema a nadido. Clasicaci on multi-clase. En Biolog a, frecuentemente no se afrontan problemas en los que una clasicaci on binaria sea suciente, sino que se necesita realizar una selecci on entre N posibles valores o funciones [Garc a-Pedrajas and de Haro Garc a, 2008]. Clasicaci on multi-etiqueta. Cada gen o prote na generalmente est a involucrado en m as de una funci on, requiriendo que se pueda asignar m as de un valor de la clase a cada ejemplo [Tsoumakas and Katakis, 2007]. La multi-funcionalidad es un reto importante y poco afrontado hasta hoy en la anotaci on funcional [Juncker et al., 2009]. Clases des-balanceadas. En Bioinform atica la cantidad de ejemplos positivos (con frecuencia, procedentes de fuentes experimentales) siempre es mucho menor que la de ejemplos negativos. En el dominio de anotaci on funcional, que tambi en es multi-clase, el n umero de instancias para cada una de las N posibles clases es, adem as, muy diferente entre s . Este des-balanceo de clases en predicci on de funci on puede venir dado porque unas funciones son m as comunes (transporte y enlace) en la c elula que otras (funciones cidos grasos y metabolismo de los fosfol relacionadas con a pidos); y tambi en porque las anotaciones est an sesgadas y limitadas a tipos de prote nas sobre las que se han hecho m as estudios y an alisis [Al-Shahib et al., 2005]. Denici on de clases imprecisa, no able y a veces a distintos niveles (por ejemplo: en una jerarqu a), o incluso con clase desconocida para algunos ejemplos. M ultiples fuentes de informaci on a integrar en un solo esquema de representaci on del conocimiento. Este reto tambi en implica decidir si tomar todos los datos disponibles o un subconjunto que cumpla unos criterios, si tomar los datos pre-procesados u originales, entre otras cuestiones.
2.4. Anotaci on Funcional con Informaci on de Redes
25
Valores desconocidos (del ingl es, missing values). Pueden ser debidos a la p erdida de datos por un problema particular de manejo de datos [Inza et al., 2010]. Pero los valores desconocidos m as relevantes, o m as complicados de gestionar, surgen del hecho de la inexistencia de anotaciones de todos los tipos de informaci on para todos los genes o prote nas, con una carga sem antica asociada de car acter biol ogico, que desaconseja su gesti on con los m etodos est andar. La representaci on del conocimiento debe cubrir este tipo de casos. Lista o grupo de elementos biol ogicos. Con frecuencia se utiliza como unidad el concepto de lista o grupo de genes/prote nas, en lugar de considerar un gen o producto gen etico independiente. Con lo que hay que asociar a cada grupo sus propiedades, intr nsecas y agregadas. Falta de estandarizaci on de los m etodos de predicci on de anotaci on de funci on. Dicultad en c omo y con qu e comparar, y qu e medida de evaluaci on utilizar. En conclusi on, existen m ultiples habilidades que las t ecnicas de AA deben desarrollar y evaluar para la resoluci on de problemas biol ogicos.
2.4.
2.4.1.
Anotaci on Funcional con Informaci on de Redes

Anotaci on Funcional
El objeto de estudio de esta tesis es caracterizar la funci on de genes y prote nas bas andose en informaci on de redes, a trav es de la representaci on Relacional y el Aprendizaje Autom atico. Como se ha comentado previamente, la anotaci on funcional es el problema fundamental a resolver en Biolog a Molecular, es decir, denir qu e tarea/s se encarga de desarrollar cada prote na y gen en un organismo, para conocer d onde actuar en caso de mal-funci on o enfermedad. En Biolog a, la funci on de un gen o prote na no es un t ermino denido expl citamente, sino que la funci on es un fen omeno complejo que se asocia al gen o prote na mediante muchos niveles solapados y entrelazados. Forma parte de la anotaci on funcional de una prote na, por ejemplo: identicar si est a involucrada en un proceso biol ogico, una red de regulaci on, con qu e mol eculas interacciona, cu al es su localizaci on celular o su funci on molecular; o asignarle su perl de expresi on o su fenotipo (tejido o asociaci on a enfermedad, entre otros). As , se puede usar la noci on generalizada de que funci on es todo lo que le pasa a y a trav es de una prote na[Rost et al., 2003]. Por lo tanto, la forma de denir la funci on de un gen o prote na (es decir, anotar funci on) es asignar distintos t erminos, en distintos vocabularios, y distintos niveles de funci on (ver debajo apartado Niveles de Anotaci on). El anexo B presenta m as informaci on sobre la anotaci on funcional en Biolog a. Desde el punto de vista del Aprendizaje Autom atico, la predicci on de anotaci on funcional se puede relacionar fundamentalmente con las aplicaciones habituales de clasicaci on o etiquetado. Aunque con ciertas exigencias y condiciones restrictivas, como algunas de las expuestas en la secci on 2.3.2. Las funciones celulares son casi siempre el resultado de la acci on coordinada de varias prote nas, interaccionando en complejos, asociadas en rutas o redes de prote nas [Bader et al., 2008]. As , conocer la red de interacci on es una tarea esencial para comprender y explicar la din amica de todos los procesos biol ogicos; debido al gran n umero de interacciones y
26
2. Estado del Arte
asociaciones funcionales existentes entre prote nas, sus condiciones variadas de aparici on, y a las m ultiples formas en que una prote na puede inuir en la funci on de otras. Por lo tanto, en la anotaci on funcional es muy importante tener presente la inuencia de las interacciones, asociaciones funcionales y los sistemas que forman, desde el enfoque de la Biolog a de Sistemas, descrito en la secci on 2.4.2 y siguientes. Niveles de Anotaci on La funci on de un gen o prote na se puede denir a distintos niveles, dependiendo de los aspectos bioqu micos, siol ogicos o fenot picos considerados [Friedberg, 2006]. Adem as, la anotaci on puede ser individual o para un grupo de elementos. El mismo compuesto biol ogico puede tener asignada una funci on diferente en cada nivel, incluso varias en el mismo nivel, porque su funci on tiene consecuencias desde el nivel subcelular hasta el nivel de organismo completo. Por ejemplo, una prote na quinasa, en un aspecto bioqu mico (funci on molecular, individual), su funci on es fosforilar un grupo hidroxilo; en un aspecto siol ogico (proceso biol ogico, grupo), la quinasa forma parte de una ruta de se nalizaci on, donde fosforila y es fosforilada a la vez; y en un aspecto fenot pico, una mutaci on en la quinasa podr a causar una enfermedad. Adem as, una misma prote na puede tener m as de una funci on dependiendo de diversos eventos, como modicaciones puntuales, interacciones con otras prote nas, formaci on de complejos y participaci on en una ruta biol ogica, entre otros. Tambi en hay que destacar que la composici on de dominios de una prote na puede hacer que realice distintas funciones, dependiendo de la parte de la prote na considerada. Las prote nas generalmente est an compuestas por uno o m as dominios, que son regiones funcional y estructuralmente independientes, dentro de una misma secuencia. Por lo tanto, al hablar de funci on biol ogica, hay que especicar el nivel de funci on del que se trata. As , al usar o desarrollar un m etodo de predicci on de funci on, unos enfoques ser an m as adecuados que otros, dependiendo del prop osito espec co (el nivel de funci on que se busca), eligiendo un vocabulario adecuado para ello, y teniendo en cuenta las relaciones sem anticas entre los datos usados para anotar.
2.4.2.
Biolog a Molecular, Redes y Biolog a de Sistemas
En su denici on original, la Biolog a de Sistemas es un nuevo campo de la Biolog a cuyo objetivo es desarrollar la comprensi on de los sistemas biol ogicos a nivel de sistema [Kitano, 2001; Ideker et al., 2001]. Actualmente, la Biolog a de Sistemas Molecular es una disciplina integradora que busca explicar las propiedades y comportamiento de los sistemas biol ogicos complejos en t erminos de sus componentes moleculares y sus interacciones [Aebersold, 2005; Likic et al., 2010]. Tradicionalmente los bi ologos moleculares estudian individualmente los genes y prote nas, sus interacciones y su inuencia en las mol eculas relacionadas. Recientemente, los progresos tecnol ogicos de experimentaci on a gran escala han permitido y creado la necesidad de construir autom aticamente grandes modelos de redes de interacci on a partir de los datos experimentales [Bader et al., 2008]. De esta forma se hace posible el estudio del comportamiento y las propiedades del sistema biol ogico completo, como indica la Biolog a de Sistemas. Este reciente inter es por el estudio de los sistemas completos proviene de la idea subyacente de que hay propiedades de la red que no se explican por una combinaci on sencilla de los componentes. En otras palabras, como el total es m as que la suma de las partes, se requiere
27
el estudio de la red como un todo. Esta nueva visi on de an alisis de arriba hacia abajo, trata de complementar todos los resultados obtenidos con la cl asica visi on de abajo a arriba, que estudia los genes y prote nas como entidades aisladas en la Biolog a Molecular, limitada por la complejidad de los sistemas vivos [Pazos et al., 2003]. La tarea central de la Biolog a de Sistemas es (a) reunir informaci on de forma exhaustiva sobre los elementos individuales del sistema a distintos niveles e (b) integrar estos datos para generar modelos de predicci on del sistema [Ideker et al., 2001]. La Biolog a de Sistemas no s olo incluye el dise no, la construcci on de la red y el an alisis de las propiedades emergentes, sino que tambi en considera la simulaci on y control de la din amica de la red a partir del modelo construido [Kitano, 2002].
2.4.3.
Asociaciones Funcionales e Interacciones en Biolog a Molecular
Como denici on general, se puede decir que un par de prote nas asociadas funcionalmente signica que est an relacionadas por la funci on que realizan. La asociaci on funcional puede tener diversos grados de fortaleza, desde establecer una conexi on f sica hasta pertenecer a puntos distantes en una misma ruta de se nalizaci on. Si dicha asociaci on funcional implica contacto f sico, entonces se denomina interacci on 2 . Para caracterizar funcionalmente el proteoma, la informaci on que aporta el interactoma (conjunto de interacciones y asociaciones funcionales) es fundamental. El gran n umero de posibles asociaciones entre prote nas, la variedad de condiciones ambientales y estados celulares en los que estas asociaciones pueden reorganizarse, y las m ultiples formas en que una prote na puede inuir en la funci on de otras, requieren el desarrollo de enfoques experimentales y computacionales para analizar y predecir asociaciones funcionales entre prote nas como parte de su actividad en el interactoma. Una parte considerable de la diversidad y complejidad biol ogica est a codicada en las interacciones y asociaciones funcionales entre mol eculas de mayor nivel que los genes, como son las prote nas [Rojas et al., 2006]. Por tanto, el conocimiento de las redes de prote nas es cr tico para poder comprender, explicar y regular la din amica de casi todos los procesos biol ogicos de los sistemas vivos, tales como: transducci on de se nal (como la replicaci on y traducci on de genes), metabolismo (como la s ntesis y uso del ATP), arquitectura celular (como la construcci on de estructura del citoesqueleto) y transferencia de informaci on. Establecer la estructura de todas las interacciones y asociaciones funcionales entre las prote nas de una c elula viva, incluyendo las variaciones temporales (seg un el estado celular) y espaciales (seg un el compartimento o zona de la c elula), es un problema muy complejo y sujeto a errores experimentales. En la secci on B.4 aparece una breve explicaci on sobre dicha obtenci on experimental de las interacciones. Para construir la red espec ca de un sistema biol ogico, se parte de las interacciones y asociaciones funcionales detectadas experimentalmente o mediante m etodos de predicci on (para una descripci on de estos procedimientos, ver las secciones B.4 y B.5).
2 En esta tesis se considera que las asociaciones funcionales incluyen a las interacciones, como un caso particular. No obstante, muchas veces se utilizan ambas denominaciones, para insistir en la existencia de interacciones f sicas dentro de las asociaciones funcionales. Por otro lado, desde el punto de vista de representaci on computacional, en esta tesis, todas las asociaciones funcionales, incluidas las interacciones, se denominan relaciones, donde tambi en se incluyen las relaciones entre un gen y las prote nas que genera su expresi on.
28 Tipos de Asociaci on Funcional e Interacci on
2. Estado del Arte
Existen m ultiples tipos de asociaciones funcionales entre genes, prote nas y otros productos gen eticos. Las asociaciones funcionales pueden ser transitorias o estables, d ebiles o fuertes, entre pares o entre grupos, a nivel f sico o a nivel funcional, etc. Es importante recordar que cuando existe contacto f sico se denominan interacciones. A parte de las interacciones entre prote nas, se pueden considerar interacciones entre regiones espec cas de una mol ecula, o incluso entre residuos concretos. Las interacciones pueden ser por pares, como las interacciones prote na-prote na; o entre m as de dos elementos, como en los complejos. As , las interacciones prote na-prote nas se pueden considerar interacciones f sicas directas, y las de complejos, interacciones f sicas indirectas. Esto se debe a que un complejo es un grupo de unas pocas prote nas con un alto grado de conexi on entre ellas, pero sin estar cada prote na del complejo en contacto directo con todas las dem as del mismo. No obstante, en las bases de datos se almacenan como pares de todas contra todas las prote nas del complejo, ya que los procesos experimentales de determinaci on de complejos (ver secci on B.4.1) generalmente no permiten diferenciar las interacciones f sicas directas de las indirectas dentro del complejo. A partir de los pares de asociaciones funcionales e interacciones prote na-prote na se pueden construir redes de prote nas. Por lo tanto, las redes incluyen las mismas prote nas que las interacciones o asociaciones funcionales por pares, pudiendo desempe nar muchas de ellas diversas funciones, dependiendo de con qui en y a qu e nivel se asocien. Si se tiene un grupo de muchas prote nas asociadas funcionalmente a nivel de sistema se habla de ruta biol ogica. De manera formal, una ruta biol ogica o proceso biol ogico (del ingl es, pathway) es una recopilaci on abstracta de unas decenas de prote nas y otros compuestos, implicados en la realizaci on de una misma funci on a nivel de sistema, generalmente organizados en cascadas de interacciones [Cary et al., 2005; Ooi et al., 2010]. Existen rutas o procesos metab olicos, de regulaci on y de se nalizaci on, como por ejemplo la degradaci on de compuestos, la replicaci on del ADN, la infecci on por el virus de la gripe, o la regulaci on de la hormona del tiroides. Finalmente, desde una perspectiva amplia a nivel funcional, cualquier tipo de anotaci on compartida entre prote nas puede representar una relaci on entre las mismas. Como por ejemplo prote nas con una localizaci on celular compartida, genes con un nivel de expresi on similar, prote nas de la misma familia o con un tipo de dominio compartido, genes con datos fenot picos comunes (mismo tejido o implicaci on en una enfermedad), etc. Para una lista m as detallada consultar la secci on 5.1 o [Lee et al., 2007]. Bases de Datos de Interacciones y Asociaciones Funcionales Aunque las bases de datos m as desarrolladas y mantenidas son las de los elementos individuales de la red, como son los genes y las prote nas principalmente, tambi en se deben almacenar las interacciones y asociaciones funcionales entre dichas mol eculas. Existen m ultiples bases de datos de interacciones y asociaciones funcionales [Klingstrom and Plewczynski, 2011], con distintas caracter sticas, en formato, contenido y localizaci on. Los datos que se pueden encontrar en las diversas bases de datos son variados, conteniendo interacciones experimentales (de peque na y gran escala) o predicci on de interacciones y asociaciones funcionales por m ultiples m etodos computacionales. Hay muchos grupos experimentales con sus datos accesibles a trav es de una p agina web est atica, aunque se han desarrollado interfaces gen ericas, que permiten el acceso a m ultiples repositorios distintos
29
desde un mismo punto, a trav es de servicios web, como los de la tecnolog a BioMOBY [Wilkinson and Links, 2002]. Las principales bases de datos de interacciones prote na-prote na son DIP [Salwinski et al., 2004], BIND [Alfarano et al., 2005], IntAct [Hermjakob et al., 2004b], MINT [Chatraryamontri et al., 2007] y, especialmente, BioGrid [Stark et al., 2006], que es el repositorio general de interacciones m as amplio, agrupando otras bases de datos m as peque nas. Dichas bases de datos, entre otras, forman un consorcio internacional para armonizar las bases de datos de interacciones y facilitar el intercambio de informaci on sobre interacciones, denominado IMEx (del ingl es, International Molecular Interaction Exchange consortium). Tambi en existe un formato est andar para intercambiar datos de interacciones moleculares en XML, llamado PSI-MI (del ingl es, Proteomics Standards Initiative - Molecular Interaction) [Hermjakob et al., 2004a], as como un est andar de m nima informaci on necesaria para divulgar una interacci on molecular experimental, MIMIx (del ingl es, Minimum Information required for reporting a Molecular Interaction experiment) [Orchard et al., 2007]. Sobre las asociaciones funcionales, centr andose en rutas biol ogicas, las bases de datos m as representativas son Reactome [Matthews et al., 2009], KEGG [Kanehisa and Goto, 2000] y MetaCyc [Caspi et al., 2010]. Reactome [Matthews et al., 2009] es una de las principales bases de datos de rutas, est a vericada por expertos y centradas en el humano. Est a organizada como una jerarqu a. Es la que se utiliza en esta tesis para estudiar rutas biol ogicas. Al igual que BioGrid en las interacciones, Pathway Commons [Cerami et al., 2011] trata de agrupar diversas bases de datos de asociaciones funcionales de rutas biol ogicas. Tambi en cabe destacar que existen bases de datos especializadas s olo en una especie concreta, cuando se dispone de datos particulares basados en estudios espec cos para esa especie, quiz a no conocidos para otras. Dichas bases de datos suelen contener datos m as ables que los procedentes de un estudio general para distintas especies, por tener en cuenta peculiaridades de la especie concreta. Un ejemplo de base de datos especializada es EcoCyc [Keseler et al., 2005] para la procariota E.coli, con un uso relevante en esta tesis. ltimo, la creciente importancia de la Biolog Por u a de Sistemas, y la cantidad de investigadores dedicados a su estudio, ha dado lugar a la necesidad del intercambio de informaci on formal, creando un lenguaje espec co para ello denominado SBML (del ingl es, Systems Biology Markup Language) [Hucka et al., 2004], as como una notaci on gr aca com un, SBGN (del ingl es, Systems Biology Graphical Notation) [Novere et al., 2009].
2.4.4.
Redes en Sistemas Complejos y en Biolog a
La informaci on biol ogica tiene varias caracter sticas importantes [Ideker et al., 2001]: Interviene en m ultiples niveles jer arquicos de organizaci on. Se organiza en redes complejas. Son redes de informaci on robustas, de forma que muchas perturbaciones peque nas apenas afectan a la red. Existen nodos clave, cuya modicaci on podr a ocasionar graves efectos en la red, trat andose de dianas importantes para la comprensi on y manipulaci on del sistema. La mayor a de estas propiedades de los datos biol ogicos coinciden con las de las denominadas redes libres de escala [Barabasi and Bonabeau, 2003]. Las redes libres de escala son redes complejas caracterizadas por la distribuci on de la cantidad de conexiones entre los
30
2. Estado del Arte
nodos, que sigue la ley de potencias: la probabilidad de que un nodo se conecte a otros k nodos es proporcional a 1/k n . Esta distribuci on dene una funci on continua decreciente en el n umero de enlaces, describiendo una red con unos pocos nodos muy conectados (nodos clave o hubs), y la mayor a de nodos con pocos enlaces. Esta distribuci on es muy diferente a la de Poisson (con forma de campana, con una cantidad de enlaces entre nodos distribuidos homog eneamente) que siguen las redes aleatorias, las cuales han sido el modelo de referencia de todas las redes complejas, como las biol ogicas, durante mucho tiempo. Las propiedades m as importantes que caracterizan las redes libres de escala son: Existencia de algunos nodos populares, con cientos o miles de conexiones a otros, mientras que el resto s olo unas pocas, pareciendo que la red no tiene escala. Son robustas frente a fallos puntuales o accidentales. Son vulnerables a ataques espec cos, por ejemplo, sobre un nodo clave. Muchos sistemas actuales cumplen el modelo de las redes libres de escala: Internet, las colaboraciones cient cas, las relaciones de amistad, la red comercial (en una tecnolog a espec ca, unas pocas empresas punteras tienen muchas m as conexiones que el resto), etc. y, por supuesto, las redes biol ogicas a distintos niveles (como las redes de regulaci on de prote nas o el metabolismo celular). No obstante, aunque todas estas redes comparten las propiedades mencionadas, las interacciones y asociaciones funcionales biol ogicas generalmente no pueden ser modeladas por completo simplemente con los principios de las redes libres de escala, por su mayor complejidad en diversos sentidos. Entre otros, las interacciones biol ogicas no son estables, ni en tiempo ni espacialmente; aunque las redes biol ogicas que representan dichos fen omenos de interacci on s son estables, pudiendo incluir todas las interacciones y asociaciones funcionales conocidas, aunque no sucedan simult aneamente. Tambi en, las redes biol ogicas son multifunci on, y son muy variadas entre s , por ejemplo, necesitando un an alisis de propiedades particular para cada red. Las redes biol ogicas que se pueden conseguir matem atica y computacionalmente hasta ahora son simplicaciones o limitaciones de la realidad biol ogica, que generalmente no alcanzan a representar toda su complejidad [Noble, 2006; Likic et al., 2010].
2.4.5.
Aproximaciones al Estudio de las Redes Biol ogicas
Las aproximaciones computacionales para el estudio de las redes biol ogicas son diversas, siempre con el objetivo de analizar la informaci on que contienen y de generar hip otesis [Junker and Schreiber, 2008]. Se basan principalmente en la teor a de grafos [Biggs et al., 1986; Newman, 2010], que se puede aplicar al estudio de las mol eculas biol ogicas, por encontrarse estructuradas en una red [Huber et al., 2007]. Desde el punto de vista de la Inteligencia Articial, en concreto del an alisis de datos (del ingl es, data mining), el uso de la teor a de grafos para extraer el conocimiento contenido en una red, se denomina miner a de grafos (del ingl es, graph mining) [Chakrabarti and Faloutsos, rea se aplica tanto en Biolog 2006]. Este a a como en redes sociales o en Internet, lo cual se conoce como miner a de la web (del ingl es, web mining). En esta secci on se presenta brevemente el uso de la teor a de grafos, pero centrado principalmente en su aplicaci on a redes biol ogicas.
31
La representaci on de las redes complejas como grafos ha permitido su an alisis sistem atico usando los conceptos te oricos de grafos, para sugerir nuevas hip otesis sobre la topolog a y la funci on de las redes biol ogicas [Aittokallio and Schwikowski, 2006]. Una vez que se construye la red, los enfoques de an alisis fundamentales son la caracterizaci on de la topolog a y la localizaci on de m odulos funcionales. Adicionalmente, se pueden realizar comparaciones de redes biol ogicas entre diferentes especies. Construcci on de Redes Biol ogicas El dise no de las redes biol ogicas es un paso previo al estudio de las mismas con la teor a de grafos. La informaci on de entrada son las interacciones y asociaciones funcionales entre genes o prote nas determinadas experimentalmente, por ejemplo, capturadas en experimentos ltimos a de expresi on g enica o secuenciaci on a gran escala, en auge en los u nos [Arma nanzas et al., 2012]. La construcci on de redes se lleva a cabo con distintos m etodos [Cho et al., 2007] (sistem aticos o a medida, de Aprendizaje Autom atico o no), entre los que destacan el uso de las redes bayesianas [Markowetz and Spang, 2007]. Las redes dise nadas pueden ser dirigidas o no dirigidas, sin o con pesos asociados a los arcos. Por ejemplo, una red de regulaci on de la transcripci on se puede modelar como un grafo dirigido con pesos, donde el peso de los arcos representa el grado del efecto regulador de un factor de transcripci on (nodo origen) a sus genes regulados (nodos destino) [Aittokallio and Schwikowski, 2006]. Cabe destacar que los datos experimentales disponibles suelen ser insucientes para la construcci on de la red completa, adem as de poder ser datos ruidosos [Aittokallio and Schwikowski, 2006]. Estos hechos provocan dicultades en el estudio de las redes biol ogicas por ser incompletas, debido a dicha falta de conocimiento, especialmente en las redes de interacciones prote na-prote na. Por lo tanto, para afrontar estos retos, son necesarios enfoques que renen o completen las redes que han sido previamente denidas, limitando el dise no a ltimo enfoque redes m as peque nas o integrando informaci on adicional, respectivamente. Este u de extensi on de redes es el adoptado en las propuestas de esta tesis, siguiendo la l nea de diversos m etodos computacionales, que integran m ultiples y heterog eneas fuentes de datos para la predicci on de redes [Marc, 2005]. Caracterizaci on de la Topolog a Una vez que se tiene una red denida, el nivel de an alisis m as general consiste en caracterizar la estructura global de la red, utilizando sus propiedades topol ogicas cuantitativas [Assenov et al., 2008]. Algunos de los par ametros topol ogicos calculados con m as frecuencia para describir una red son el grado de conectividad de los nodos de la red, el coeciente de agrupamiento, el di ametro, la densidad y la heterogeneidad de la red. Con estas propiedades globales se puede determinar si la red sigue una topolog a libre de escala, de alta frecuencia en las redes biol ogicas. De este estudio global cuantitativo s olo se obtiene un conocimiento limitado de la red, que generalmente se complementa con un an alisis local de conectividad entre pares de nodos. Del an alisis local, aplicando algoritmos convencionales de la teor a de grafos, se pueden extraer propiedades locales, como son la cantidad y complejidad de los sub-grafos contenidos en la red, la longitud del camino m as corto entre pares de nodos conectados indirectamente o la presencia de nodos centrales o esenciales en la red. Estas propiedades aportan conocimiento relevante, dado que la centralidad de un nodo puede identicar posibles dianas de f armacos, o
32
2. Estado del Arte
la redundancia de caminos entre nodos puede explicar la robustez de ciertos procesos celulares [Albert, 2005]. Localizaci on de M odulos Funcionales Para tratar la complejidad de las redes grandes, se lleva a cabo una descomposici on en grupos de mol eculas asociadas funcionalmente. Cada m odulo se puede comparar con otros datos del genoma a gran escala para generar hip otesis funcionales sobre la sub-red localizada. Existen varios tipos de m odulos funcionales, dependiendo de c omo se describen. Los principales son dos: los patrones (del ingl es, motif ), conocidos en miner a de grafos como sub-grafos frecuentes, y las agrupaciones (del ingl es, cluster) [Aittokallio and Schwikowski, 2006]. Los patrones son sub-grafos que aparecen con una frecuencia signicativamente mayor que la esperada por azar. Para detectarlos, se deben aplicar t ecnicas para calcular los sub-grafos presentes en una red, agruparlos en clases de sub-grafos isomorfos y determinar las clases m as frecuentes de lo esperado en modelos computacionales aleatorios. reas Una alternativa para la identicaci on de m odulos funcionales es el descubrimiento de a densamente conectadas (agrupaciones), potencialmente involucradas en funciones celulares o complejos de prote nas comunes. El agrupamiento de grafos se basa en la asunci on de que un grupo de nodos asociados funcionalmente es m as probable que tengan una alta conectividad entre ellos y est en m as separados del resto de la red. Adem as, los m odulos no suelen ser componentes de la red disjuntos, sino que comparten nodos, enlaces e incluso funciones, siguiendo preferentemente una organizaci on jer arquica, lo que se debe tener presente en el dise no de algoritmos de agrupaci on de redes [Barabasi and Oltvai, 2004]. Existen algoritmos que utilizan diferentes estrategias de b usqueda local, con distintas heur sticas basadas en propiedades de la red, otros basados en distancias, y otros supervisados [Aittokallio and Schwikowski, 2006].
2.5.
Discusi on y Problemas Biol ogicos Afrontados
A pesar de que se lleva trabajando desde hace bastantes a nos en Bioinform atica, a un hay muchos problemas por resolver computacionalmente en Biolog a Molecular, en particular en anotaci on funcional. Aunque se disponga de la secuencia de una prote na o gen, mientras no se conozca cu al es su funci on o en qu e procesos biol ogicos est a implicado, la caracterizaci on biol ogica no est a resuelta. Una parte de los genomas secuenciados est a anotada, acorde a m etodos ad-hoc y t ecnicas de aplicaci on parcial, pero otra gran parte a un no lo est a. De todos los genes conocidos, al menos el 50 % presentan una anotaci on funcional ambigua (desconocida, probable o tentativa) [Hawkins and Kihara, 2007]. Por tanto, la anotaci on funcional completa de genes y prote nas contin ua siendo uno de los retos bioinform aticos m as rea biol importante, y es en este a ogica en la que se centra esta tesis. ltima d Adem as, seg un se presenta en la secci on 2.4, en la u ecada, con la aparici on de la Biolog a de Sistemas, la anotaci on funcional ya no s olo se considera de forma individualizada para cada gen o prote na del organismo. Sino que se debe tener presente una visi on global del sistema biol ogico, con todas las asociaciones existentes entre los genes y prote nas conectados a distintos niveles en m ultiples redes. En esta tesis se relaciona la anotaci on funcional con la Biolog a de Sistemas desde dos puntos de vista complementarios. Primero, considerando las interacciones y asociaciones
2.5. Discusi on y Problemas Biol ogicos Afrontados
33
funcionales de un gen o prote na (en pares o en grupos) como un tipo de anotaci on en s misma. Segundo, usando dichas relaciones (parte de la red o completa) como fuente de informaci on con la que anotar compuestos biol ogicos en otro vocabulario (como por ejemplo con las funciones de la red), incluso para anotar con un tipo de asociaci on diferente, a distinto nivel. Para estudiar algunos aspectos de la anotaci on funcional encuadrada en la Biolog a de Sistemas, se escogen dos dominios espec cos y de relevancia biol ogica: 1. El primer problema consiste en predecir asociaciones funcionales entre pares de prote nas de E.coli, en un sentido amplio, sin necesidad de que exista interacci on f sica. Se puede considerar una forma de anotaci on, donde en lugar de asignar a una prote na un conjunto de t erminos en un vocabulario concreto, se le asignan las prote nas con las que se asocia funcionalmente. Igualmente se puede ver como una extensi on de una red punto a punto. 2. A su vez, las interacciones por pares se pueden emplear como entrada para predecir anotaci on funcional en otro vocabulario, en combinaci on con otras propiedades simples, como sucede en el segundo problema seleccionado. En este caso, se anota funcionalmente una prote na humana con las rutas biol ogicas en las que participa, es decir, se quiere predecir la pertenencia de una prote na a una ruta (pertenencia a un grupo con una anotaci on com un). Tambi en se puede considerar como predicci on de la asociaci on funcional de una prote na con un grupo, o extensi on de una red en grupo. Adem as, hay que destacar el inter es por extender la red en distintas zonas, es decir, con prote nas diversas en su funci on molecular, acorde a la heterogeneidad molecular de las rutas originales. En conclusi on, se trata de dos problemas diferentes, pero con un objetivo com un encuadrado en la Biolog a de Sistemas: extender redes, o lo que es lo mismo, anotar prote nas con interacciones o asociaciones funcionales. Por otro lado, el Aprendizaje Autom atico (descrito en la secci on 2.1) se presenta como una opci on para automatizar y unicar los mecanismos de anotaci on de genomas y proteomas. En concreto, el Aprendizaje Relacional (secci on 2.2) y, en especial, la Representaci on Relacional en la que se basa, podr a ser una alternativa interesante para intentar generalizar la representaci on de los datos de origen biol ogico y todas sus relaciones, aprovechando toda la sem antica del contexto biol ogico, intr nsecamente estructurado y con todos sus elementos exhaustivamente relacionados, tal y como se consideran en la Biolog a de Sistemas. Para afrontar los dos problemas elegidos se propone denir una representaci on relacional para anotaci on de funci on, y posteriormente realizar las transformaciones necesarias en la representaci on del conocimiento, para resolver cada problema con las aproximaciones de Aprendizaje Autom atico m as adecuadas. Se elige entre los enfoques y algoritmos proposicionales o relacionales presentados en las secciones 2.1 y 2.2, preriendo aquellos que cumplan las condiciones biol ogicas exigidas, como gestionar adecuadamente los valores xito una clasicaci desconocidos (como AODE), y afrontar con e on multi-clase y multi-etiqueta rboles de (como la combinaci on WARMR y CLUS). En ocasiones se menciona que los a decisi on no son la mejor t ecnica para predecir funci on [Al-Shahib et al., 2005], porque separan el espacio de b usqueda en rect angulos, y la naturaleza de los datos biol ogicos tiende a ser m as compleja, similar a los hiper-planos de las m aquinas de vector de soporte, que tienen en cuenta rboles de decisi varios atributos a la vez. No obstante, los a on permiten una mayor comprensi on del modelo de conocimiento extra do. Adem as, se puede modicar la forma del espacio de rboles, mediante un cambio en la representaci b usqueda de los a on de los datos, como se hace
34
2. Estado del Arte
en esta tesis al partir de una representaci on relacional, que se convierte en una proposicional, rbol una combinaci la cual incluye en cada atributo de entrada al a on de los atributos originales. El Aprendizaje Autom atico se plantea como una propuesta para integrar con relativa facilidad distintas fuentes de informaci on biol ogica y, a trav es de la generalizaci on, llegar a dos enfoques unicados de predicci on de asociaci on funcional, en un caso puntual y en otro grupal. Se trata de dos problemas de anotaci on que comparten la presencia de las relaciones biol ogicas como una parte fundamental de ambos, tanto en la informaci on de entrada como en el objetivo de predicci on de anotaci on; enfocados en el uso exclusivo de las secuencias y de pares de asociaciones funcionales o interacciones, sin propiedades complejas procedentes de la teor a de grafos. Pero estos dos problemas presentan diferencias interesantes por las que tambi en se han seleccionado. En particular, divergen en los datos (origen y caracter sticas), en las evidencias funcionales de origen biol ogico, y en el enfoque de aprendizaje requerido. Respecto a los datos, ambos problemas se diferencian principalmente en la especie de aplicaci on (procariota frente a eucariota), en el nivel de abstracci on de la informaci on de entrada (preprocesados frente a datos simples de la secuencia) y en la cantidad de relaciones diferentes denidas por prote na (quince frente a cientos de ellas). La base biol ogica del primer problema es la informaci on evolutiva, mientras que en el segundo se trata de predecir funci on en ausencia de evidencias evolutivas (sin homolog a), bas andose en propiedades simples de la secuencia. Sobre el aprendizaje, las diferencias fundamentales son la clasicaci on binaria asignando una clase a cada ejemplo, frente a la clasicaci on multi-clase y multi-etiqueta, ya comentadas. Para concluir, y acorde a la lista de retos descrita en la secci on 2.3.2, se puede ver que esta tesis pretende afrontar dos problemas de anotaci on complejos, con muchos aspectos biol ogicos a tener siempre presentes en la toma de cada decisi on de an alisis, dise no y resoluci on. La til en el a mbito biol nalidad es llegar a una aportaci on v alida y u ogico, y no s olo una simple aplicaci on de un m etodo computacional a datos reales, sin simplicar completa ni parcialmente su contexto, ni ignorar su sem antica asociada.
Cap tulo 3
Objetivos y Alcance
Teniendo en cuenta el estado de la cuesti on descrito en el cap tulo 2, y en particular las conclusiones presentadas en la secci on 2.5, la motivaci on general de esta tesis es contribuir al an alisis y extracci on de conocimiento autom atico de la gran cantidad de datos que se generan a diario en Biolog a Molecular, cuyo ritmo de crecimiento supera los procedimientos cl asicos, manuales y experimentales, limitados en tiempo y coste. En particular, se quiere conocer c omo afecta el contexto relacional y su uso a la anotaci on funcional del genoma y el proteoma. Ya que existen muchas relaciones entre compuestos, en vez de estudiar estos elementos individualmente, en Biolog a Molecular actualmente se enfocan los problemas desde las redes de interacci on. Como ya se ha mencionado, desde un punto de vista biol ogico, se denomina Biolog a de Sistemas, y desde el computacional, se puede encuadrar en la Representaci on y el Aprendizaje Autom atico Relacional. rea de predicci As , la propuesta de tesis es estudiar el a on de anotaci on funcional centrado en la Biolog a de Sistemas, a trav es de la representaci on relacional y el Aprendizaje Autom atico. Alcance rea de anotaci Afrontar dos casos espec cos dentro del a on funcional, que son anotar prote nas con asociaciones funcionales por pares y, utilizar propiedades simples para anotar prote nas con potenciales funciones similares en cadenas de reacciones biol ogicas. Analizar los resultados en t erminos de la potencial aplicaci on del Aprendizaje Autom atico a datos de Biolog a Molecular en el contexto de problemas de anotaci on y etiquetado. rea de anotaci Entender el a on funcional centrado en la Biolog a de Sistemas, sin rea; pretender cubrir todos los aspectos, ni solucionar todos los problemas del a limit andose a anotar prote nas con asociaciones funcionales, bas andose en interacciones y asociaciones (por pares o en redes). Interpretar los resultados en t erminos biol ogicos, discutiendo las diferencias entre ptimas en t soluciones o erminos biol ogicos y computacionales. rea Discutir la importancia de las consideraciones biol ogicas y detalles espec cos del a de aplicaci on, guiando las decisiones principalmente por las restricciones o intereses biol ogicos, m as que por los computacionales. 35
36 Objetivos
3. Objetivos y Alcance
rea espec 1. Dise nar un modelo de representaci on del conocimiento de un a ca de Biolog a Molecular con un enfoque relacional, que incluya genes y productos gen eticos, con sus propiedades y relaciones, v alido para la predicci on de anotaci on funcional en la Biolog a de Sistemas. 2. Recopilar, integrar y procesar diferentes fuentes de informaci on de relevancia biol ogica para la anotaci on funcional, construyendo as un conjunto de datos propio, prestando especial atenci on a la selecci on de datos actualizados y vericados por expertos. 3. Afrontar dos problemas reales y diferentes de predicci on de anotaci on funcional en Biolog a de Sistemas, teniendo en cuenta todas las restricciones y la complejidad del entorno biol ogico correspondiente. En concreto, se propone predecir asociaciones funcionales entre pares de prote nas en E.coli, y extender rutas biol ogicas en Humanos con prote nas predichas por su implicaci on en las mismas. 4. Proponer, comparar y analizar distintas representaciones del conocimiento de datos de gen omica y prote omica, evaluando su implicaci on en el proceso de Aprendizaje Autom atico para anotaci on funcional. 5. Analizar la relevancia del enfoque de la Biolog a de Sistemas en el Aprendizaje Relacional, es decir, de la importancia de las relaciones entre elementos biol ogicos, para predecir anotaci on funcional con aprendizaje autom atico. 6. Explorar, comprender y concluir los posibles enfoques a seguir en la aplicaci on de Aprendizaje Autom atico a la resoluci on de otros problemas de anotaci on funcional en Biolog a Molecular. 7. Usar combinaciones de componentes est andar de Inteligencia Articial y Bioinform atica (herramientas, algoritmos de aprendizaje, m etodos de predicci on, etc.).
Cap tulo 4
Metodolog a de Evaluaci on
Este cap tulo presenta y justica el sistema elegido para la evaluaci on de la consecuci on de los objetivos de esta tesis doctoral. Los objetivos se diferencian en dos grupos. Uno primero donde s olo se puede vericar la existencia de un modelo de representaci on de datos relacional para Biolog a Molecular, un conjunto de datos que cumplan con las consideraciones establecidas, y el uso de componentes est andar; abarcando los objetivos 1, 2 y 7, respectivamente. Y un segundo grupo o caso de evaluaci on, que requiere de un an alisis experimental, comprendiendo los restantes objetivos, del 3 al 6. En las siguientes secciones se exponen, primero, los criterios generales para evaluar la parte experimental de la tesis, y segundo, las medidas espec cas utilizadas. Las medidas de evaluaci on se dividen en aquellas centradas en valorar el rendimiento de la clasicaci on y las que permiten interpretar y analizar los resultados. Se describen en m as detalle las m as relevantes durante la tesis (curva PR y ROC) o menos frecuentes (curva de coste, media-macro y media-micro y similitud sem antica).
4.1.
Enfoque de Evaluaci on Experimental
Es muy importante tener en cuenta que para la parte experimental se utiliza una evaluaci on distinta a las medidas cl asicas de Aprendizaje Autom atico, ya que en este caso: No s olo es relevante comparar las nuevas propuestas con diferentes conguraciones y diferentes algoritmos de Aprendizaje Autom atico, sino con otros m etodos no basados en inteligencia computacional, pero de referencia en el campo de la anotaci on funcional en bioinform atica. No s olo se eval ua sobre ejemplos conocidos de un conjunto de test, sino sobre otros nuevos de los que se desconoce su anotaci on. No s olo se valora el rendimiento, sino tambi en la interpretaci on y an alisis de los resultados, y en gran medida. Por una parte, porque es necesario comprender lo que implica y signica biol ogicamente un conjunto de predicciones. Por otra parte, porque en esta tesis se quiere entender c omo y de qu e aprenden realmente los sistemas de clasicaci on propuestos. Adem as se eval uan los sistemas denidos seg un la relevancia biol ogica de su aplicaci on a datos reales, estudiando casos concretos, para valorar la calidad y utilidad de dichos 37
38 modelos de clasicaci on.
4. Metodolog a de Evaluaci on
Los resultados experimentales de esta tesis se eval uan fundamentalmente mediante la comparaci on de los sistemas propuestos con otros, para evaluar la bondad de los resultados en diferentes aspectos: Comparaci on con la aleatoriedad o valor por defecto: comprobar si se supera el m nimo admisible determinado por una predicci on aleatoria o mayoritaria. En situaciones muy restringidas en Biolog a, basta con lograr ser ligeramente mejor que la aleatoriedad, aunque las medidas est andar est en lejos de su l mite superior. Comparaci on con otras conguraciones del mismo algoritmo. Comparaci on con otros algoritmos de Aprendizaje Autom atico: sobre un mismo conjunto de prote nas o genes. Comparaci on con otras representaciones del conocimiento (relacional, proposicional, variantes y combinaciones). Comparaci on con otros m etodos bioinform aticos: realizar una evaluaci on externa con alg un m etodo de predicci on que resuelva la misma tarea de anotaci on funcional (sin necesidad del uso de Inteligencia Articial), si existe y est a disponible un m etodo comparable. Siempre que sea posible, las comparaciones se realizan sobre las mismas prote nas o genes, e incluso sobre los mismos conjuntos de entrenamiento y test. Para todas las comparaciones, se usan medidas combinadas de evaluaci on de rendimiento y de interpretaci on de resultados. Se elige entre los dos grupos de medidas de evaluaci on que se presentan en la siguiente secci on.
4.2.
Medidas de Evaluaci on
Las medidas utilizadas para evaluar los resultados de esta tesis se pueden descomponer en dos grupos, seg un su nalidad: 1. Evaluaci on del rendimiento en la clasicaci on. Se reere a las medidas cl asicas de Aprendizaje Autom atico. 2. Interpretaci on y an alisis de las predicciones, principalmente en un contexto biol ogico. Se trata de medidas adicionales, que var an seg un el aspecto concreto que se quiere analizar. Dependiendo del resultado a evaluar, se elige un subconjunto de medidas, que combina las de ambos grupos. Por ejemplo, en el cap tulo 8, que presenta otros enfoques de AA para resolver problemas de anotaci on funcional, se elige un subconjunto de medidas compuesto por: 1.- dos medidas de rendimiento (AUPRC y AUROC) y 2.- cuatro medidas de interpretaci on y an alisis de las predicciones (n umero de rutas biol ogicas extendidas o de clases predichas, n umero de prote nas a nadidas o de nuevos ejemplos predichos, similitud funcional sem antica y solapamiento entre las prote nas a nadidas a cada clase).
4.2. Medidas de Evaluaci on
39
4.2.1.
Evaluaci on del Rendimiento en la Clasicaci on
Se trata de medidas cuantitativas est andar de evaluaci on del rendimiento en tareas de Aprendizaje Autom atico. Pueden ser medidas uni-dimensionales o bi-dimensionales. Dado que el enfoque adoptado en esta tesis para realizar anotaci on funcional es fundamentalmente la clasicaci on, se deben considerar las medidas de evaluaci on utilizadas tradicionalmente en dicho paradigma. Existen m ultiples medidas, tanto num ericas (unidimensionales) como gr acas (bi-dimensionales), para validar un proceso de clasicaci on [Baldi et al., 2000]. Tradicionalmente, las medidas num ericas o uni-dimensionales de rendimiento m as frecuentemente usadas son la tasa de aciertos global, la sensibilidad (tasa de aciertos en positivos) (en ingl es, tambi en denominada recall), la especicidad (tasa de aciertos en negativos), la precisi on (tasa de aciertos en positivos, sobre el total de predichos como positivos), o verdaderos y falsos positivos y negativos (TP, FP, TN y FN ) [Baldi et al., 2000]. Tambi en existen medidas unicadas como el coeciente de correlaci on de Matthews (del ingl es, Matthews Correlation Coefcient, MCC) [Matthews, 1975], que combina los TP, FP, TN y FN en una sola medida o valor; o la medida F (del ingl es, F-measure o F-score) que unica la precisi on y la sensibilidad, con diferentes aproximaciones [van Rijsbergen, 1979]. En esta tesis, aunque ocasionalmente se pueden utilizar las anteriores, para medir el rendimiento en clasicaci on se preere usar curvas, para no depender de un umbral de conanza en la predicci on jo, frente a las medidas uni-dimensionales que lo suelen necesitar. Entre todas ellas, en esta tesis se seleccionan como m as adecuadas las curvas PR (del ingl es, Precision-Recall Curves), las curvas ROC (del ingl es, Receiver Operating Characteristic) y las curvas de coste (del ingl es, Cost Curves). Mayoritariamente se usan curvas PR y ROC (y sus uni-dimensionales correspondientes, AUPRC y AUROC), que es lo m as utilizado y comprensible en t erminos bioinform aticos. Curvas PR y ROC Las curvas PR [Davis and Goadrich, 2006] representan el ratio de acierto en los positivos predichos o precisi on (eje y) frente al ratio de acierto en los positivos reales o sensibilidad (eje x). Se puede ver un ejemplo en la gura 7.7(a) del cap tulo 7. Las curvas PR son m as adecuadas que las curvas ROC [Davis and Goadrich, 2006] cuando se trabaja con conjuntos de datos muy sesgados, es decir, con mucha diferencia en el n umero de ejemplos de cada clase. Este es el caso de la anotaci on funcional multi-clase, donde una clase s olo se asigna a unos pocos ejemplos, los cuales se suelen considerar ejemplos negativos para el resto de clases (o la gran mayor a de ellas). De forma que en el conjunto total hay muchos m as ejemplos negativos que positivos, para cada una de las clases en particular. Las curvas PR se centran principalmente en analizar los aciertos de la clase positiva, sin prestar apenas atenci on a los aciertos de la clase negativa, a los que las curvas ROC les da una mayor importancia [Davis and Goadrich, 2006]. Sin embargo, en el dominio de anotaci on funcional en Biolog a Molecular interesa principalmente ser certero en las predicciones positivas para un gen o prote na, es decir, las funciones que tiene asociadas, importando menos la precisi on en las funciones no relacionadas. Las curvas ROC [Fawcett, 2003] representan el ratio de verdaderos positivos o sensibilidad (eje y) frente al ratio de falsos positivos o 1-especicidad (eje x). Se puede ver un ejemplo en la gura 7.7(b). A lo largo de la tesis, tambi en se presentan las curvas ROC equivalentes a las PR elegidas,
40
porque son m as usadas en dominios biom edicos, y preferidas por los expertos bi ologos. Tanto las curvas PR como las curvas ROC se pueden transformar en una medida uni rea bajo su curva (denominados AUPRC o AUROC), factores que dimensional calculando el a se emplean en esta tesis muy frecuentemente. Curvas de Coste Las curvas de coste [Drummond and Holte, 2006] son una t ecnica gr aca que permite visualizar el rendimiento (ratio de error o coste esperado) obtenido por distintos clasicadores aplicados a problemas binarios, para el rango completo de posibles distribuciones de clase y de costes de error esperados en la clasicaci on. Se puede ver un ejemplo en la gura 6.3 en el cap tulo 6. En una interpretaci on simple, una curva de coste es un gr aco bi-dimensional, que representa la probabilidad de coste (eje x), equivalente [Drummond and Holte, 2006] al porcentaje de instancias de la clase positiva que hay en el conjunto de datos sobre el que se va a aplicar el clasicador, frente al coste esperado normalizado (eje y), que es equivalente al ratio de error cometido, tanto en t erminos de falsos positivos como de falsos negativos. La interpretaci on previa asume que el coste de error en la clasicaci on de ejemplos positivos (FN ) es el mismo que el coste de error en la clasicaci on de ejemplos negativos (FP). Pero cuando el coste de error en la clasicaci on es diferente entre los positivos y negativos, la interpretaci on var a. En ese caso, el eje x de la curva de coste no s olo representa la fracci on de instancias positivas, sino el producto del coste de error y de la probabilidad de que una instancia sea de la clase positiva. Mientras que el eje y indica la fracci on de la diferencia entre los costes m aximo y el m nimo posibles en los que se incurre al usar el clasicador [Drummond and Holte, 2006]. Por lo tanto, el eje y muestra el coste esperado normalizado correspondiente al escenario de probabilidad de coste y distribuci on de clases indicado por el valor del eje x. En el lado izquierdo del eje y se mide el ratio de falsos positivos (FP) en orden creciente, y en el lado derecho se mide el ratio de verdaderos positivos (TP) en orden decreciente. En consecuencia, la curva de coste de un clasicador se construye a partir de diferentes l neas rectas, las cuales tienen sus extremos a ambos lados del eje y, correspondiendo a varios pares <ratio FP, ratio TP> obtenidos para diferentes umbrales de clasicaci on. Los fragmentos de l nea no dominados por ninguna otra (es decir, los m as bajos) componen la curva de coste completa. As , en una sola curva se representan los modelos obtenidos tras aplicar distintos umbrales de discriminaci on entre clases, aplicados sobre la probabilidad a posteriori dada por el clasicador. Las curvas de coste permiten comparar f acilmente varios clasicadores, representados en una misma gura, procedentes de la aplicaci on de distintos algoritmos de Aprendizaje Autom atico o del empleo de diferentes conjuntos de entrenamiento y/o test. La representaci on gr aca de la curva de coste de un clasicador normalmente contiene tambi en la curva correspondiente al clasicador trivial (l nea roja en la gura 6.3, que forma un tri angulo), el cual siempre asigna la misma clase a cualquier ejemplo. La curva de coste de un clasicador til siempre deber u a estar por debajo de la curva del clasicador trivial, lo cual indica que es un buen clasicador para cualquier distribuci on entre positivos y negativos en el conjunto de datos. En un gr aco con varias curvas de coste, el mejor clasicador es el que tenga la curva m as baja (coste esperado m as bajo). Por lo tanto, los puntos de corte (si existen) de una curva con la del clasicador trivial, determinan el rango del eje x para el que no es adecuado usar dicho clasicador, ya que una clasicaci on por defecto tiene mejor rendimiento. Como regla sta se puede considerar v gen erica, a la hora de valorar la bondad de una curva de coste, e alida
41
si toma valores de probabilidad de coste (eje y) inferiores a 0,3. Es interesante destacar que se puede construir una curva ROC equivalente para cada curva de coste. La correspondencia entre estas dos t ecnicas gr acas es la siguiente: un punto en una curva ROC se corresponde con una l nea en la curva de coste equivalente. Las coordenadas de un punto en la curva ROC son los extremos izquierdo y derecho en los ejes y de la curva de coste. Cada l nea en una curva de coste se compone de muchos clasicadores procedentes de dos variables: diferentes umbrales y diferentes proporciones de positivos en el conjunto de datos. As , la mayor ventaja de las curvas de coste frente a las ROC es que permiten un comparaci on directa del rendimiento para cualquier combinaci on de coste de error y distribuci on de clases. Aunque ambas curvas permiten mostrar el rendimiento para diferentes umbrales de clasicaci on, las curvas de coste presentan una informaci on m as detallada sobre el rendimiento frente a distintas distribuciones de clases, porque tienen una l nea para representar este aspecto, no s olo un punto como las curvas ROC. Otra caracter stica positiva de las curvas de coste es que permiten comparar de inmediato varios clasicadores. Porque en las curvas de coste, la diferencia de error entre un par de clasicadores se puede medir autom aticamente a trav es de la distancia vertical, lo cual no es tan f acil en las curvas ROC, donde se deben combinar las distancias verticales y horizontales [Drummond and Holte, 2006]. En resumen, una curva de coste es equivalente a una curva ROC en la informaci on a partir de la que se construyen, pudiendo convertirse una en otra. Ser a m as adecuado usar curvas de coste cuando se necesite seleccionar el mejor clasicador mediante una simple visualizaci on, y siempre que se conozcan unas ciertas condiciones, como el coste de error en la clasicaci on y la probabilidad de aparici on de la clase positiva en el conjunto de datos sobre el que aplicar el clasicador. Media-micro y Media-macro En el dominio de predicci on de anotaci on funcional muchas veces se trabaja con una predicci on multi-clase: un gen o prote na tienen m as de una anotaci on del mismo tipo. Se suele obtener un predictor binario diferente por funci on (clase), siendo los ejemplos positivos las prote nas que tienen asociada la clase a predecir, y los negativos el resto de prote nas sin esa clase asociada (enfoque 1-contra-todos, aunque con clases solapadas) [Garc a-Pedrajas and de Haro Garc a, 2008; Lee et al., 2009]. Por tanto, los resultados se pueden presentar separados por clases individuales, pero tambi en se suele calcular una media para todas las clases, para tener una evaluaci on global conjunta. No obstante, hay que analizar la forma m as adecuada de calcular dichos valores promedio, tanto en una como en dos dimensiones. Existen dos m etodos convencionales para evaluar el rendimiento medio sobre todas las clases en un problema de aprendizaje multi-clase, denominados media-macro (del ingl es, macro-average) y media-micro (del ingl es, micro-average) [Yang, 1999]. En la media-macro, primero se calcula independientemente para cada clase la medida rea bajo la curva, etc.), con una en cuesti on (precisi on, tasa de aciertos en positivos, a tabla de contingencia individual, y despu es se promedian estas medidas por clase, para obtener la media global. Es decir, primero se eval ua localmente y luego globalmente. En la media-micro, directamente se calcula una tabla de contingencia global, donde cada celda contiene la suma de las celdas correspondientes de las tablas de contingencia individuales de cada clase, y entonces se usa esta tabla global para calcular la medida. Extendiendo la denici on de medida uni-dimensional a bi-dimensional, la curva de media-macro es la media de todas las curvas individuales; mientras que la curva de media-
42
micro calcula cada uno de sus puntos (par <precisi on,sensibilidad> en curva PR o par <sensibilidad,1-especicidad>) contabilizando todos los ejemplos, de todas las clases, a la vez, para cada uno de los umbrales considerados. Existe una gran distinci on entre las medidas promedio macro y micro [Sebastiani, 2002], pudiendo dar resultados bastante diferentes, sobre todo si las clases tienen distintas frecuencias sobre el conjunto de ejemplos. La media-micro da un peso equivalente a todos los ejemplos, y por lo tanto se considera una media por ejemplo, espec camente, una media por pares ejemploclase. Sin embargo, la media-macro da el mismo peso a cada una de las clases, sin importar su frecuencia, siendo por tanto una media por clase. Usar una u otra medida depende de los requisitos del problema. En los problemas de anotaci on funcional no suele existir una distribuci on homog enea de ejemplos en clases. Es decir, a nivel molecular, una funci on la pueden realizar muchas prote nas diferentes, y otra diferente ser una funci on en la que s olo est an especializadas unas pocas prote nas; y a nivel de proceso, una funci on puede necesitar la colaboraci on de cientos de xito con prote nas para llevarse a cabo, aunque otra funci on diferente pueda concluirse con e s olo diez prote nas. Por lo tanto, en esta tesis se decide usar principalmente la media-macro, para darle la misma importancia a lograr una buena predicci on en todas las clases por igual, para no favorecer que las m as frecuentes se predigan mejor que las minoritarias, como podr a suceder al optimizar una media-micro. No obstante, en algunas secciones de la tesis se muestra la media-micro de ciertas evaluaciones multi-clase, para compararlas con los resultados de la media-macro, demostrando experimentalmente las diferencias entre ambas.
4.2.2.
Interpretaci on y An alisis de las Predicciones
Este segundo grupo de medidas de evaluaci on, para la interpretaci on y an alisis de la predicci on, tienen como nalidad comprender los resultados obtenidos y valorarlos en su contexto de problema real. Para esta tarea, a lo largo de la tesis se usan medidas variadas, seg un el objetivo biol ogico espec co buscado, como por ejemplo, diversidad en las predicciones en una misma clase, solapamiento entre predicciones en distintas clases, cobertura, relevancia de atributos, signicado de las reglas de decisi on, similitud sem antica o anotaciones funcionales en bases de datos y en la literatura cient ca. Cabe destacar que las metodolog as de interpretaci on de los resultados no se utilizan de forma exclusiva sobre las prote nas no anotadas (no etiquetadas), sino que, en algunos casos, tambi en se pueden emplear sobre los conjuntos de elementos anotados usados en el entrenamiento y test. Este conjunto de medidas de interpretaci on y an alisis es amplio, pero la mayor a son medidas sencillas, de forma que se explican a lo largo de los cap tulos 6, 7 y 8, cuando se utilizan por primera vez. Sin embargo, las medidas de similitud sem antica s requieren de una breve introducci on, as como una explicaci on del uso concreto que se hace de ellas en esta tesis. Similitud Sem antica La similitud sem antica es una medida que estima cuantitativamente la similitud funcional entre genes y productos gen eticos, a trav es de sus anotaciones funcionales. Ante la falta de una evaluaci on experimental de anotaciones nuevas, la similitud sem antica es una alternativa que se ha propuesto como medida de evaluaci on en reuniones de predicci on funcional autom atica [Friedberg, 2006] (como en Automated Function Prediction 2005 meeting), como aproximaci on para evaluar la predicci on de anotaciones. Adem as, la similitud
43
sem antica se utiliza para otros an alisis en Biolog a Computacional, en los que se necesita conocer el grado de relaci on de dos o m as genes o prote nas en t erminos de sus anotaciones. Incluso existen diversas herramientas que calculan dichas similitudes autom aticamente, como GOSemSim [Yu et al., 2010], que se emplea en esta tesis. Las anotaciones funcionales consideradas deben pertenecer a una ontolog a, como por ejemplo la Ontolog a G enica (del ingl es, Gene Ontology, GO) [Ashburner et al., 2000]. Aunque la ontolog a de procesos biol ogicos de Gene Ontology (GO-BP) no fue dise nada para evaluar anotaciones funcionales individuales, porque no todas las relaciones entre los t erminos de GOBP se apoyan en asociaciones funcionales reales [Chagoyen and Pazos, 2010], es el vocabulario de anotaci on m as extendido y usado, tambi en empleado para evaluar predicci on de anotaci on funcional [Lord et al., 2003]. Las medidas de similitud sem antica requieren un vocabulario estructurado, con un conjunto de t erminos jos y relacionados, porque las medidas de similitud se basan en la teor a de la informaci on (las que se usan en esta tesis) o est an basadas en el grafo de la ontolog a [Pesquita et al., 2009]. En la teor a de la informaci on, se considera la frecuencia de aparici on de un t ermino de anotaci on en un corpus (por ejemplo la base de datos UniProt), consider andolo m as informativo cuanto menos aparezca en el corpus, y menos informativo cuanto m as aparezca, porque signica que es un t ermino m as general. En GO, dicha frecuencia incluye la suma de probabilidades de aparici on de todos sus nodos hijo, siendo el valor de frecuencia 1, el m aximo, para la ra z de la ontolog a (por ejemplo, el t ermino molecular function en GO-MF). As , para calcular la similitud funcional entre dos t erminos GO, se busca el ancestro com un m as bajo en la jerarqu a, y se traduce su frecuencia a medida de similitud. Es decir, cuanto m as alta es la frecuencia, menor es la similitud [Lord et al., 2003]. Sin embargo, un gen o prote na suele tener m as de un t ermino GO asociado, por lo que si se quieren comparar 2 productos gen eticos, se necesita extender esta denici on de similitud entre 2 t erminos, a medidas sem anticas entre 2 prote nas o genes (es decir, entre dos listas de t erminos GO). Para ello se han desarrollado varios enfoques [Pesquita et al., 2009]. Aunque hay algunas medidas basadas en grafos, los m etodos m as comunes se basan en calcular las similitudes por pares de t erminos y luego combinarlas, calculando principalmente la media, el m aximo, o la media de los mejores (del ingl es, best-match average). Se debe elegir la medida y combinaci on m as conveniente seg un el objetivo buscado con la medida de similitud sem antica. En Pesquita et al. se puede consultar una extensa y detallada revisi on de las medidas de similitud sem antica [Pesquita et al., 2009]. En esta tesis, como parte de la interpretaci on y an alisis de los resultados, se utilizan en varios puntos las medidas de similitud sem antica calculadas sobre las ontolog as Proceso Biol ogico (GO-BP) y Funci on Molecular (GO-MF) de Gene Ontology. Se utiliza GO-BP para calcular la similitud de las prote nas en el contexto de las rutas biol ogicas, y GO-MF para calcular la cohesi on funcional de un grupo de prote nas a nivel molecular. En concreto, se denen tres objetivos de uso de medidas de similitud sem antica, aplicadas en el cap tulo 7: 1. Objetivo 1: similitud entre 2 conjuntos: comparar prote nas que extienden una ruta biol ogica con las originales de la ruta. 2. Objetivo 2: similitud entre 2 conjuntos: comparar prote nas que extienden una ruta biol ogica por 2 sistemas de predicci on distintos. 3. Objetivo 3: similitud de prote nas de un mismo conjunto entre s .
44
Como en los objetivos planteados se comparan m as de 2 prote nas, es decir, conjuntos de N prote nas con M t erminos GO cada una, se debe extender a un tercer nivel la denici on de similitud sem antica, para determinar c omo se combinan las similitudes de una lista de prote nas. Se puede hacer f acilmente extrapolando los enfoques de media, m aximo y media de los mejores, denidos para combinar las similitudes de una lista de t erminos GO, descritos previamente. As , para cada uno de los objetivos de uso de similitud sem antica planteados, seg un las necesidades del mismo, se dene un c alculo diferente de dicha similitud, para este tercer nivel de combinaci on de las similitudes de una lista de prote nas: 1. Objetivo 1: media de los mejores en 1 sentido, con GO-BP: se calcula la similitud por pares de prote nas, tomando la m axima similitud de una prote na con todas las del otro conjunto, y entonces se calcula la media para todas las prote nas del primer conjunto. Aunque el est andar es calcular la media de los mejores en los dos sentidos, s olo se calcula en uno porque interesa el parecido de las prote nas predichas con las originales de la ruta, siendo indiferente la comparaci on contraria. 2. Objetivo 2: media de los mejores en 2 sentidos, con GO-BP: el c alculo de similitud es igual que en el objetivo 1, pero en los dos sentidos. Es decir, se calcula nalmente la media de similitudes de prote nas del primer conjunto con las del segundo y las del segundo conjunto con las del primero, porque ahora s interesa conocer cu anto se parecen entre s las prote nas de los dos conjuntos de predicciones. 3. Objetivo 3: media entre todas, con GO-MF : en este caso se calcula la similitud por pares de todas las prote nas respecto a todas las del conjunto, y se calcula la media, porque interesa conocer si todas las prote nas se parecen a todas, no s olo a alguna concreta, como suceder a si se calculara la media de los mejores, como en los objetivos previos. Para los tres objetivos de uso de similitud sem antica en esta tesis, en los dos niveles previos de similitud se utiliza la medida de Jiang y Conrath [Jiang and Conrath, 1997], como medida de similitud entre 2 t erminos GO (primer nivel), y la media de los mejores en los dos sentidos, como combinaci on de similitud entre N t erminos GO (segundo nivel).
Cap tulo 5
Modelo de Representaci on del Conocimiento en un BioRepositorio Multi-Relacional para Anotaci on Funcional

En este cap tulo se satisface el objetivo 1 de la tesis (ver cap tulo 3), dise nando un modelo de representaci on del conocimiento de Biolog a Molecular para anotaci on funcional, con un enfoque multi-relacional. En Biolog a Molecular se han generado y se siguen generando a diario muchos datos, que se almacenan en miles de bases de datos. El conocimiento biol ogico es muy extenso, de distinto tipo y generado de forma distribuida en m ultiples laboratorios. Todo esto da lugar a problemas porque las bases de datos biol ogicas son muchas, diversas, heterog eneas, variables y complejas en su contenido (desde formatos antiguos hasta modernos, con datos experimentales o predicciones autom aticas, etc.) [Quiles, 2005]. Las bases de datos presentan diferentes estructuras internas, por lo que es inviable dise nar un esquema global que lo integre todo, siendo m as adecuado realizar esquemas parciales, m as acordes a la tarea concreta a resolver. Por lo tanto, en esta tesis se propone denir una representaci on del conocimiento biol ogico relativo a relaciones y caracter sticas asociadas a los genes y prote nas, restringida a la tarea de anotaci on funcional, de forma an aloga a cuando en otros estudios se limita la representaci on a im agenes 3D [Quiles, 2005], por ejemplo. Esta representaci on sigue un enfoque relacional, y su uso est a principalmente centrado en la predicci on de anotaci on funcional con aprendizaje autom atico. Se pretende que el modelo de representaci on sea exible, permitiendo anotar distintos productos gen eticos, en distintos organismos y cubriendo las distintas relaciones existentes entre los datos. El cap tulo se estructura de la siguiente forma. La primera secci on lista los tipos de relaciones biol ogicas m as frecuentes que se pueden usar en anotaci on funcional. La segunda agrupa dichas relaciones en seis categor as generales. La tercera utiliza esas categor as de relaciones para dise nar el modelo Entidad-Relaci on (E/R) gen erico o abstracto propuesto en esta tesis, para representar el conocimiento biol ogico que se pueda necesitar en cualquier ltima secci problema de predicci on de anotaci on funcional. En la u on, se especican las bases que habr a que seguir para concretar dicho modelo E/R gen erico en un modelo E/R espec co para un problema concreto de predicci on de anotaci on funcional. En los cap tulos 6 y 7 se exponen los modelos E/R espec cos para representar los datos de los dos problemas concretos 45
46
5. Modelo de Representaci on Multi-Relacional para Anotaci on Funcional
de anotaci on funcional elegidos en esta tesis, generados a partir del modelo E/R gen erico propuesto en esta tesis en la secci on 5.3.
5.1.
Tipos de Relaciones Existentes en Biolog a Molecular
En los problemas de anotaci on funcional es necesaria una representaci on relacional, porque, como ya se ha comentado, todos los datos en Biolog a Molecular presentan relaciones de diversa ndole. A continuaci on se exponen las m as frecuentes: interacci on f sica entre 2 prote nas u otros compuestos metab olicos, enlace de una mol ecula con un fragmento de ADN, enlace con un factor de transcripci on, asociaciones binarias por co-expresi on (a partir del mismo gen, o una prote na induciendo la expresi on de la otra), genes que se fusionan a lo largo de la evoluci on, genes con perles de expresi on semejantes (observados en microarrays), prote nas en una misma ruta metab olica, de se nalizaci on o de regulaci on, genes o prote nas con una misma funci on molecular, genes o prote nas con una cierta similitud entre sus secuencias de nucle otidos o amino acidos, en la misma especie (par alogos) o en diferentes (ort ologos), pertenencia a una misma familia de prote nas, compartici on de un tipo de dominio en la secuencia, grupo de prote nas con una estructura tridimensional semejante, prote nas localizadas en la misma zona de la c elula, tejido com un donde se expresan varios genes, compuestos relacionados en alg un art culo de la literatura cient ca (extra dos a trav es de t ecnicas de miner a de textos), genes o prote nas con expresi on fenot pica similar, y genes o prote nas implicados en el desarrollo de la misma enfermedad. Adem as, el hecho de que existan muchas relaciones y de diferentes tipos en Biolog a Molecular, como se acaba de mostrar, justica que en esta tesis se apueste por representar siempre la informaci on utilizando un enfoque relacional. As se consigue mantener la sem antica asociada, sin las simplicaciones que exige una representaci on proposicional, adem as de permitir un mejor almacenamiento y gesti on de los datos divididos por m odulos. El resto de ventajas de la representaci on relacional se encuentran detalladas en la secci on 2.2.2.
5.2. Generalizaci on de Relaciones
47
5.2.
Generalizaci on de Relaciones
En esta secci on se agrupan las relaciones del apartado anterior en unas pocas categor as generales, como paso previo que facilite la denici on de un modelo de representaci on del conocimiento gen erico y compacto (ver secci on 5.3). Dichas categor as abarcan pr acticamente todos los tipos de relaciones que se pueden dar en un dominio de Biolog a Molecular sobre el que predecir anotaci on funcional. La mayor a de las grandes diferencias biol ogicas entre dos dominios, en este contexto, se pueden resolver con un cambio peque no en la representaci on (poner, quitar, duplicar relaciones), que generalmente va a estar dentro de este peque no subconjunto de categor as de relaciones: clase elemento(ID,valorClase): asocia la clase o funci on de un gen, prote na o grupo. Se debe establecer una relaci on de esta categor a si se quiere realizar aprendizaje supervisado. gen proteina(IDgen,IDproteina): se trata de una relaci on binaria uno a uno o uno a muchos, seg un la especie, que asocia un gen con todos los transcritos o isoformas que se derivan de su expresi on. propiedad X(IDelemento,valorPropiedad): para asociar propiedades individuales a un gen, una prote na o un grupo de ellos. En el modelo de datos nal, esta relaci on se puede simplicar y ser representada como un atributo (con valor variable o constante) de la relaci on correspondiente; a no ser que sea multi-valuado, como suele pasar con las anotaciones biol ogicas. par Y([IDpar],IDgen/IDproteina,IDgen/IDproteina): relaciones binarias entre genes o prote nas. El identicador del par es opcional, deni endose s olo cuando se vayan a asociar atributos al par. elemento en grupo(IDgen/IDproteina,IDgrupo): representaci on desagregada de relaciones entre m as de dos genes o prote nas. Esta categor a de relaci on permite l. denir un grupo, mediante la descripci on de todos los elementos que pertenecen a e propiedad grupo Y(IDgrupo,valorPropiedad): para asociar propiedades a grupos, es decir, relaciones entre m as de dos elementos. La denici on de una propiedad, tanto de un elemento como de un grupo (ver categor as propiedad X/2 y propiedad grupo Y/2), permite representar cualquier tipo de anotaci on. Adicionalmente se podr a a nadir un argumento m as a alguna relaci on, en el caso sta tenga atributos propios, o incluso quitar el atributo del valor de la propiedad, si de que e sta es binaria. Por ejemplo, se deber e an a nadir atributos al calcular valores agregados, que en esta categor a de relaciones se representar an como propiedad de un grupo. En particular, se podr a tener la relaci on propiedad grupo % GO(IDgrupo,terminoGO, %), que represente el porcentaje de elementos del grupo con una anotaci on concreta GO; o la relaci on propiedad grupo longitud ruta(IDgrupo,long), que indique el n umero de elementos de la ruta. Este tipo de agregados se calculan f acilmente mediante el uso de la l ogica inductiva, muy relacionada con los lenguajes de representaci on relacional del conocimiento (ver secci on 2.2.3). De cada una de estas categor as gen ericas de relaciones puede haber varias o ninguna, seg un el escenario concreto a representar. Por ejemplo:
48
de la categor a par Y/2 puede haber una para relaciones de homolog a (par homologo (IDprot,IDprot)) y otra para interacciones prote na-prote na (par ipp(IDprot, IDprot)). de la categor a propiedad X/2 puede haber una para cada tipo de anotaci on (dominio transmembrana/2, GO funcionMolecular/2, familia proteina Pfam/2, etc.). de la categor a elemento en grupo/2, si no hay grupos de m as de dos elementos, quiz a no haya ninguna relaci on asociada. Cada una de las relaciones particulares y cada una de las entidades relacionadas, en principio, se corresponder a con una tabla en una base de datos relacional, excepto por las simplicaciones concretas aplicadas al convertir el modelo Entidad/Relaci on en modelo relacional [de Miguel Casta no et al., 1999], que afectan a propiedades y relaciones binarias y multi-valuadas. Una vez denida la representaci on, en el conjunto de datos habr a varias las o tuplas de una relaci on, tantas como existan en el dominio real.
5.3.
Modelo Global del BioRepositorio Multi-Relacional para Anotaci on Funcional
La gura 5.1 muestra la propuesta de denici on para esta tesis de modelo Entidad/Relaci on (modelo E/R) [de Miguel Casta no et al., 1999] gen erico para representar toda la informaci on de Biolog a Molecular asociada a un proceso de anotaci on funcional, por supuesto, incluyendo todas las relaciones posibles. Cualquier dato necesario para un escenario de predicci on de anotaci on funcional cabe en este esquema general. Se pueden representar tanto propiedades individuales asociadas a un gen o prote na (entidad) concreta, como cualquier tipo de relaci on entre ellos. Como parte de la denici on de modelo E/R gen erico para datos biol ogicos usados en predicci on de anotaci on funcional, la tabla 5.1 describe c omo cada categor a posible de relaci on entre elementos biol ogicos, denidas en la secci on anterior, encaja en alguna de las entidades o relaciones denidas en el modelo E/R de la gura 5.1.
Tabla 5.1: Correspondencia entre categor as de relaciones (secci on 5.2) con el modelo E/R (gura 5.1).
Categor a de relaciones clase elemento gen proteina propiedad X par Y elemento en grupo propiedad grupo Y
Entidad o Relaci on en Modelo E/R relaci on anotado/a con relaci on se expresa en relaci on anotado/a con o atributo de entidad Secuencia o entidad Grupo relaci on pertenece a con entidad Grupo Binario relaci on pertenece a con entidad Grupo N-ario relaci on anotado con
Cabe destacar algunos aspectos de representaci on sobre el modelo E/R propuesto de la gura 5.1. En primer lugar, la entidad Grupo Binario se podr a simplicar a una relaci on de la entidad Secuencia consigo misma, pero de esta forma queda representado que una
5.4. Aplicaci on a Bases de Datos Concretas
49
Gen
1:N se expresa en
Protena
Secuencia
1:N anotada con
0:N
2:N pertenece a
0:N
Anotacin
Grupo
1:N anotado con
0:N
Grupo Binario * Slo tiene 2 relaciones pertenece a
Grupo N-ario * Tiene > 2 relaciones pertenece a
Figura 5.1: Modelo Entidad/Relaci on BioRepositorio Multi-Relacional.
relaci on binaria tambi en puede tener anotaciones o propiedades (por ejemplo, una interacci on prote na-prote na). Por otro lado, la entidad Anotaci on sirve para representar tanto el objetivo de predicci on (es decir, la clase) como una propiedad cualquiera de un gen, prote na o grupo de ellos. Adem as, la entidad Anotaci on se podr a representar directamente como un atributo de las entidades Secuencia o Grupo, o de la relaci on pertenece a. Dicha simplicaci on ser a v alida si el atributo no es multi-valuado, pero con la representaci on elegida en el modelo E/R propuesto en esta tesis se cubren todos los casos. Respecto a la cadena de nucle otidos nico. o amino acidos de una Secuencia, se puede almacenar la cadena completa en un atributo u Si se quisiera guardar alguna informaci on m as elaborada (como por ejemplo, la proporci on de cada amino acido o de cada par de amino acidos, o la carga asociada a la secuencia), se tendr an que a nadir atributos adicionales o relaciones de tipo anotada con, seg un la complejidad de los datos calculados a partir de la secuencia.
5.4.
Aplicaci on a Bases de Datos Concretas
El modelo E/R de la gura 5.1 se puede denominar modelo gen erico o abstracto, porque en los modelos E/R particulares para un problema de anotaci on funcional espec co habr a varias entidades y/o relaciones de cada tipo, como se explica en esta secci on. La representaci on del conocimiento del modelo E/R gen erico debe modicarse en funci on
50
de lo que se vaya a predecir, adapt andose al problema de anotaci on concreto. Entonces, para convertir el modelo E/R gen erico en uno espec co hay que determinar qu e relaciones y entidades incluir y cu ales no, as como decidir cu antas de cada tipo; como se hace en las secciones 6.2.2 y 7.2.2 para cada uno de los dos problemas de anotaci on funcional elegidos en esta tesis. La mayor a de las grandes diferencias biol ogicas de un escenario de anotaci on funcional a otro se pueden resolver con peque nos cambios en la representaci on, limitados a un subconjunto de casos, descritos a continuaci on. En primer lugar, hay que diferenciar si se quiere predecir para un gen, una prote na o un grupo de elementos (de dos o m as genes o prote nas). En funci on de ello, se tiene que denir la nica copia. relaci on objetivo clase elemento, de cuya categor a siempre va a existir una u Si el objetivo es anotar un grupo de elementos, va a existir una entidad para el Grupo concreto, y una relaci on pertenece a, que no existir an si se predice para genes o prote nas aislados. En segundo lugar, hay que denir si se predice anotaci on funcional en un organismo con isoformas o no, es decir, si un gen produce estrictamente una prote na (como suele suceder en especies simples como E.coli y S.cerevisiae) o si puede expresarse en m as de una prote na por procesos de ensamblaje alternativo (t pico de especies m as complejas, como los humanos). Esto inuye en la cardinalidad de la relaci on se expresa en (de la categor a de relaci on gen prote na), de la cual siempre hay una copia, dependiendo de si hay isoformas (cardinalidad un gen a muchas prote nas) o no (cardinalidad uno a uno). En ocasiones, a pesar de la existencia de isoformas, conviene obviarlas y trabajar con una forma principal, lo cual se puede representar con una relaci on adicional isoforma principal de la categor a gen proteina, o directamente simplicar la relaci on se expresa en a una cardinalidad uno a uno. Si la relaci on se expresa en tiene cardinalidad uno a uno, a veces las propiedades individuales de genes y prote nas, e incluso la clase, se pueden representar como atributos nica entidad, para no complicar innecesariamente el proceso de aprendizaje. de una u ltimo lugar, el n En tercer y u umero del resto de relaciones y entidades del modelo global depende del conjunto de datos de entrada concreto y del problema a representar. Las propiedades y relaciones son diferentes de una especie a otra, incluso entre todos los genes y prote nas de una misma especie puede haber una cantidad de informaci on distinta, o puede desearse seleccionar un subconjunto diferente entre la informaci on disponible, acorde a las restricciones del problema. En conclusi on, esta representaci on en un BioRepositorio Multi-Relacional es exible, permitiendo anotar un gen, una prote na o un grupo; en una especie simple o compleja; y cubriendo distintas propiedades o relaciones en los datos.
Cap tulo 6
Predicci on de Asociaciones Funcionales entre Pares de Prote nas en E.coli

El objetivo de este cap tulo es afrontar uno de los dos problemas de anotaci on funcional seleccionados en esta tesis: predecir Asociaciones F uncionales entre Pares de Prote nas (AFPP) en E.coli desde una perspectiva unicadora. En este cap tulo, primero se describe el contexto del problema, se detallan los datos a utilizar y su representaci on (aplicando el modelo E/R gen erico descrito en el cap tulo 5) y se expone el m etodo de aprendizaje seleccionado. A continuaci on se presentan los resultados de rendimiento de la clasicaci on y la comparaci on con otros m etodos de predicci on de asociaciones funcionales (frente a algoritmos de aprendizaje autom atico alternativos, frente a los m etodos computacionales individuales que unica el m etodo propuesto en esta tesis, y frente a una base de datos muy extendida de recopilaci on de estas asociaciones funcionales). Tambi en se expone la utilidad de la propuesta presentada para ltrar interacciones experimentales a gran escala, y el servidor de predicciones EcID donde se almacenan las predicciones que se consiguen en esta tesis.
6.1.
Denici on del Problema
Como se dene en el cap tulo 2, de forma general, se podr a decir que un par de prote nas asociadas funcionalmente signica que est an relacionadas por la funci on que realizan. Durante todo el cap tulo, las interacciones prote na-prote na, con contacto f sico entre las prote nas, tambi en se consideran incluidas dentro de las asociaciones funcionales. Las funciones celulares son casi siempre el resultado de la acci on coordinada de varias prote nas [Bader et al., 2008]. Por lo que frecuentemente se inere la funci on de una prote na desconocida mediante la identicaci on de las prote nas con las que interacciona o se asocia funcionalmente [Causier, 2004]. Esta perspectiva de Biolog a de Sistemas se emplea cada vez m as para la anotaci on funcional, porque los progresos tecnol ogicos permiten actualmente construir redes de interacci on a gran escala [von Mering et al., 2005]. Ante el elevado coste experimental de detecci on de interacciones (ver secci on B.4), los m etodos computacionales de predicci on permiten priorizar las m as probables. Se han desarrollado varios m etodos computacionales para predecir asociaciones funcionales en genomas/proteomas completos (ver secci on B.4). Tres de los m etodos frecuentemente 51
52
6. Predicci on de Asociaciones Funcionales entre Pares de Prote nas en E.coli
probados e implementados (PP, Phylogenetic Proles [Pellegrini et al., 1999]; GC, Gene Context) [Dandekar et al., 1998]; GF Gene Fusion) [Enright et al., 1999; Marcotte et al., 1999]) tienen en com un el uso de informaci on evolutiva. Posteriormente han aparecido variantes para ellos [Bowers et al., 2004; Morett et al., 2003; Wu et al., 2003]. Otros m etodos de predicci on comparten el uso de alineamientos m ultiples de secuencia y principios de co-evoluci on (I2H, In silico Two-Hybrid [Pazos and Valencia, 2002]; MT MirrorTree) [Pazos and Valencia, 2001]). Cuando se aplican sobre grandes colecciones de datos producen una cantidad considerable de falsos positivos, probablemente relacionados con tendencias evolutivas adicionales que diluyen la se nal de interacci on o asociaci on funcional, aunque se contin ua investigando para discernir mejor la informaci on co-evolutiva, dando lugar a m etodos m as ables en este aspecto [Pazos et al., 2005; Sato et al., 2005; Juan et al., 2008; Pazos and Valencia, 2008; Herman et al., 2011]. Ahora bien, los resultados derivados del estudio de las prote nas y de sus interacciones y asociaciones funcionales (ya sea a nivel experimental o computacional) no est an unicados; sino que, por el contrario, est an repartidos en m ultiples repositorios de informaci on. Por lo cual, es conveniente integrar las fuentes de conocimiento sobre interacciones y asociaciones funcionales, ya que son heterog eneas en enfoque, cobertura y abilidad. Si se usan de forma aislada, se limita el conocimiento que se puede extraer. Cada fuente puede aportar su parte relevante de informaci on, siendo cada una m as adecuada para un fragmento del espacio de interacciones donde las caracter sticas encajen con sus hip otesis. Por lo que para tener una visi on global de la red de interacciones entre las prote nas de un organismo se necesita tener una combinaci on de todo ello. Algunos estudios previos han utilizado la integraci on de datos provenientes de distintas fuentes (principalmente experimentales) para mejorar la predicci on de asociaci on funcional entre prote nas en Saccharomyces cerevisiae [Qi et al., 2006; Lu et al., 2005]. Dichos m etodos conf an en la gran cantidad de datos experimentales disponibles para este organismo, y se dedican fundamentalmente a asignar valores de abilidad a interacciones experimentales. En este trabajo se propone tambi en mejorar la predicci on de asociaciones funcionales, pero no mezclando datos experimentales, sino bas andose en la combinaci on de m etodos computacionales desarrollados independientemente. Adem as, se pretende descubrir nuevas asociaciones funcionales entre pares de prote nas, no restringidas a interacciones f sicas entre prote nas. Por lo tanto, este nuevo enfoque se diferencia de los estudios previos tanto en la informaci on de entrada, como en su consiguiente aplicabilidad. En este caso, se predicen asociaciones funcionales sobre el proteoma de un organismo procariota concreto: Escherichia Coli (E.coli). Se ha elegido por estar mejor caracterizado que otros a nivel molecular y porque las bacterias son un buen conjunto de prueba, por la cantidad de genomas secuenciados y por la arquitectura simple de sus c elulas (sin n ucleo denido, sin org anulos con membrana, ADN nico cromosoma, con una sola prote concentrado en un u na por gen, etc.). Tiene un total de 4.339 prote nas conocidas, entre las que determinar si existen interacciones o asociaciones funcionales por pares, aportando una probabilidad de conanza de la predicci on para cada par.
6.2.
Diseno/Materiales y M etodos
En esta secci on se describe cu ales son las fuentes de datos originales, c omo se representa y agrupa dicha informaci on para aplicar un algoritmo de aprendizaje autom atico, y c omo obtener un sistema que integre cinco m etodos de predicci on de asociaciones funcionales entre pares de prote nas en E.coli en uno solo unicado. Cada uno de estos m etodos est a basado en diferentes enfoques sobre la posible causa que provoca que un par de prote nas interaccione o se asocie
6.2. Dise no/Materiales y M etodos
53
ptima sobre funcionalmente a otra [Valencia and Pazos, 2002]. Cada m etodo predice de forma o un subconjunto concreto de todos los posibles pares, donde se cumplen todas sus premisas. Sin embargo, ning un enfoque individual es el m as apropiado para todos y cada uno de los pares de prote nas posibles, por lo que resulta adecuado combinarlos.
6.2.1.
Fuentes de Datos
ltima Antes de comenzar la descripci on, hay que destacar que, excepto los rankings (la u fuente de datos descrita en esta secci on), las otras tres fuentes de datos han sido recopiladas o implementadas por investigadores del programa de Biolog a Estructural y Biocomputaci on del Centro Nacional de Investigaciones Oncol ogicas. Para conocer m as detalles de los descritos aqu sobre la implementaci on del c alculo de ort ologos y de cada uno de los cinco m etodos computacionales, cuyas salidas se usan en este trabajo, consultar las publicaciones relacionadas [Garc a-Jim enez et al., 2010a; Leon et al., 2009]. Interacciones y Asociaciones Funcionales entre Pares de Prote nas Cada una de las bases de datos utilizadas (cuanticadas y referenciadas en la Tabla 6.1), contiene informaci on relativa a una evidencia que indica la posibilidad de que exista una interacci on o asociaci on funcional entre pares de prote nas. Estas bases de datos se pueden agrupar en distintas categor as: Datos experimentales: pares de prote nas que se ha comprobado que interaccionan f sicamente, mediante una experimentaci on a peque na escala en laboratorio. Fuentes: DIP, BIND e IntAct. Complejos: se consideran interacciones entre prote nas que pertenecen a un mismo complejo molecular, por estar unidas f sicamente entre s en un grupo. Se establece un enlace funcional por cada par de prote nas que forman parte del mismo complejo. Se usan dos fuentes de datos de complejos. El primer grupo est a basado en vericaciones manuales de la literatura cient ca, que representa un conjunto de alta calidad de complejos muy conocidos, con muy elevada probabilidad de certeza (fuente: EcoCyc complejos). El segundo procede de experimentaci on por co-immunoprecipitaci on a gran escala, con menos abilidad que el primero, en concreto, con sensibilidad m as alta y especicidad m as baja (fuente: conjunto de Butland). Regulaci on: bases de datos que tienen en cuenta procesos de regulaci on g enica. Se establecen enlaces funcionales entre cada regulador de la transcripci on y sus correspondientes genes regulados. Es decir, se incluyen pares de prote nas en los que una de las prote nas cataliza una reacci on para que se exprese la otra del par. Fuentes: EcoCyc regulados. Co-regulaci on: bas andose en el mismo tipo de informaci on que el conjunto previo, se establecen relaciones entre las prote nas que son reguladas por el mismo regulador. Es decir, se incluyen pares de prote nas (asociadas a un determinado gen) que se expresan a la vez. Fuentes: EcoCyc co-regulados. Rutas metab olicas: pares de prote nas involucradas en la misma ruta metab olica, bas andose en que las prote nas que participan en un mismo ujo de reacciones pueden interaccionar entre ellas. Se considera que todas las prote nas asignadas a la misma
54
ruta est an asociadas funcionalmente por pares, aunque no implique necesariamente una interacci on f sica directa entre ellas. Fuentes: KEGG y EcoCyc asociaciones funcionales. Miner a de textos: bases de datos que almacenan asociaciones funcionales extra das directamente de la literatura cient ca usando t ecnicas de miner a de textos. Espec camente, los pares se denen cuando hay una menci on de ambas prote nas en la misma frase de los res umenes de un art culo en PubMed, lo cual indica que puede existir alguna asociaci on entre ellas. Fuente: iHOP.
Tabla 6.1: Bases de datos de interacciones y asociaciones funcionales entre pares de prote nas usadas. Referencia y n umero de pares de prote nas extra dos de cada una. KEGG en su versi on 14 y EcoCyc en su versi on 15. Todas ellas conforman las instancias de la clase positiva.
Base de datos DIP BIND IntAct EcoCyc complejos conjunto de Butland EcoCyc regulados EcoCyc co-regulados KEGG EcoCyc asociaciones funcionales iHOP
Referencia [Salwinski et al., 2004] [Alfarano et al., 2005] [Hermjakob et al., 2004b] [Keseler et al., 2005] [Butland et al., 2005] [Keseler et al., 2005] [Keseler et al., 2005] [Kanehisa et al., 2006] [Keseler et al., 2005] [Hoffmann and Valencia, 2004] Total (sin solapamientos)
N Pares 401 58 2.684 950 4.745 1.686 58.275 20.860 3.446 6.686 89.401
Se intenta capturar la naturaleza compleja del dominio utilizando esta gran variedad de bases de datos externas. Unas fuentes proporcionan informaci on m as able que otras, apareciendo en el listado superior de mayor a menor abilidad te orica. Esto se debe, por una parte, a la evidencia en la que se jan, que biol ogicamente puede guardar m as o menos relaci on con las interacciones o asociaciones funcionales entre prote nas; y por otra, a la forma de a nadir contenido a la base de datos, ya que en algunos casos se permite que cualquiera que disponga de alguna informaci on la introduzca, mientras que en otros est a bastante m as restringido a expertos. No obstante, hay que aclarar que se trata de una abilidad te orica, por el tipo de evidencia usada, pero no por las bases de datos concretas disponibles para cada evidencia, entre las que pueden variar los niveles de abilidad. Por ejemplo, el conjunto de Butland [Butland et al., 2005] pertenece a la categor a de complejos, por ser la evidencia biol ogica en la que se basa; dicha categor a es la segunda con mayor abilidad te orica, y sin embargo se sabe que el conjunto de datos de Butland es de mala calidad en comparaci on a otros conjuntos de complejos. M etodos de Predicci on Computacional Otra fuente de datos es el grado de asociaci on (salida o puntuaci on; del ingl es, score) proporcionado por varios m etodos computacionales de predicci on de interacci on o asociaci on funcional entre prote nas [Valencia and Pazos, 2002]. Los fundamentos subyacentes de cada m etodo computacional de predicci on son variados, y se suelen dividir en cinco grupos, de los que se ha tomado un representante de cada una de ellos.
55
Uno est a basado en la similitud de perles logen eticos (PP, Phylogenetic Proles), examinando la presencia o ausencia de genes en especies relacionadas [Pellegrini et al., 1999]. Otro m etodo se basa en la conservaci on de genes adyacentes en diferentes especies (GC, Gene Context) [Dandekar et al., 1998]. Un tercer procedimiento se ja en los eventos de fusi on de genes, buscando los mismos dominios de prote nas en distintos genomas (GF, Gene Fusion) [Enright et al., 1999; Marcotte et al., 1999]. Los dos m etodos restantes est an basados en la rboles logen coevoluci on de prote nas, estudiando la similitud de sus a eticos (MT, MirrorTree) [Pazos and Valencia, 2001], o cuanticando el grado de co-variaci on entre los pares de residuos de las prote nas (mutaciones correlacionadas) (I2H, In silico Two-Hybrid) [Pazos and Valencia, 2002]. Ver la secci on B.4 para una descripci on m as detallada de los m etodos de predicci on originales. Cabe destacar que ninguno de estos m etodos computacionales distingue entre una predicci on entre pares de prote nas asociadas funcionalmente o m as restringida a una interacci on prote na-prote na, porque las evidencias que usan no son sucientes para ello. Caracter sticas Individuales de Prote nas Una tercera fuente de datos son un par de caracter sticas b asicas de una prote na. Por un lado, la longitud de la secuencia de amino acidos y, por otro, el n de secuencias ort ologas a la prote na dada. Se han seleccionado ambas caracter sticas por estar alta e intr nsecamente relacionadas con el rendimiento de algunos de los m etodos computacionales descritos en la secci on anterior. Ranking de Predicciones Centrado en la Prote na Esta cuarta fuente de datos se compone de valores derivados a partir del grado de asociaci on (o puntuaci on) de los m etodos de predicci on computacional, descritos previamente. Varios de estos m etodos computacionales tienen algunos sesgos, produciendo muchas predicciones con puntuaciones bajas. Por ejemplo, algunos perles logen eticos son m as usuales y, por lo tanto, PP sobre-predice asociaciones entre las prote nas correspondientes. As , para muchas prote nas, los m etodos individuales predicen m as interacciones y asociaciones de las razonables. Entonces, aunque se considere que cada par asociado es independiente de otro, no lo es realmente desde una sem antica biol ogica. Para hacer frente a esta situaci on, se denen caracter sticas para identicar el subconjunto de prote nas que es m as probable que interaccione o se asocie funcionalmente con una dada. Para cada prote na, y en funci on de la puntuaci on proporcionada por cada uno de los m etodos, se crea la lista ordenada de potenciales compa neras de par y en ella se calcula la posici on que ocupa la otra prote na del par. Entonces, la nueva fuente de datos est a compuesta por la posici on para cada una de las 2 prote nas del par en la lista de predicciones ordenada, construida para el otro elemento del par. Esto se repite para cada uno de los 5 m etodos, generando diez nuevos valores por par.
6.2.2.
Representaci on del Conocimiento
Modelo E/R para Predicci on de Asociaciones Funcionales entre Pares de Prote nas en E.coli Analizando este problema de anotaci on funcional desde el punto de vista del AA, la unidad a anotar est a formada por un grupo de 2 elementos (prote nas) al que asignar una clase binaria
56
(s /no interaccionan o se asocian funcionalmente). Se tienen atributos individuales (longitud y n de ort ologos), atributos asociados al grupo (grado de asociaci on seg un cada m etodo) y atributos relacionales (posici on en el ranking de una prote na frente a la otra). Todos estos atributos tienen valores num ericos. Por lo tanto, teniendo en cuenta este resumen de informaci on, las fuentes de datos previamente descritas en la secci on 6.2.1, y las instrucciones de la secci on 5.4 para convertir el modelo gen erico E/R del BioRepositorio multi-relacional (ver 5.1) en uno espec co, se obtiene el modelo E/R de la gura 6.1 para este problema concreto de anotaci on funcional.
N:M int.unificado
N:M Protena int.PP int.MT
N:M
N:M int.I2H int.GC
N:M int.GF
N:M
N:M int. real
Figura 6.1: Modelo Entidad/Relaci on para predicci on de asociaciones funcionales entre pares de prote nas en E.coli. En rojo, el objetivo de predicci on.
El modelo global aplicado al problema de predicci on de asociaciones funcionales entre pares de prote nas en E.coli se reduce a 1 entidad y 7 relaciones binarias, como muestra la gura 6.1. S olo se tiene la entidad Prote na porque la relaci on se expresa en (o gen proteina) (ver 5.1) es de cardinalidad uno a uno en E.coli, y no se usan datos del gen, por lo que ni siquiera hace falta representar su entidad asociada Gen. Las 7 relaciones binarias de la gura 6.1 se corresponden con la simplicaci on de 7 relaciones de tipo pertenece a entre la entidad Prote na y 7 entidades diferentes de tipo Grupo Binario, una para cada m etodo de predicci on (5 predictores individuales, 1 predictor unicado, y 1 relaci on para las interacciones o asociaciones funcionales reales). La relaci on int.Unicado representa el objetivo de predicci on, por ello se se nala en rojo en la gura 6.1. El score o grado de asociaci on seg un cada m etodo es un atributo correspondiente a cada uno de los grupos binarios (simplicados en una relaci on binaria cada uno). Por otra parte, la posici on en el ranking de una prote na frente a otra es un atributo asociado directamente a la relaci on, y derivado a partir de todas las asociaciones funcionales de una prote na denidas por un m etodo concreto. No es necesario denir entidades de tipo Anotaci on, porque las nico y diferente para propiedades de las entidades Prote na y Grupo Binario toman un valor u cada ejemplo, pudiendo representarse de forma sencilla como atributos.
57
Transformaci on a Representaci on Proposicional Partiendo del modelo de representaci on Multi-Relacional de la gura 6.1 y de las correspondencias con las categor as de relaciones biol ogicas descritas en la secci on 5.4, en este problema hay pocos tipos diferentes de relaciones entre elementos individuales (prote nas), y la mayor a de propiedades est an asociadas al grupo o par de prote nas. Adem as, todos los atributos son num ericos. Por lo tanto, el conocimiento se puede compactar en una representaci on proposicional o atributo-valor, con una tupla por cada par de prote nas, con menos de 20 atributos. Mantener la representaci on relacional dar a lugar a un modelo de datos innecesariamente extenso y complejo, que probablemente no aportar a ventajas durante el aprendizaje. No obstante, s se evitar an muchos valores desconocidos y la repetici on de los valores de longitud y n de ort ologos para cada secuencia de prote na. As , en este problema se va a usar Aprendizaje Autom atico Proposicional. Por lo tanto, cada par de prote nas (instancia), que puede estar asociado funcionalmente o no (clase positiva o negativa), se representa proposicionalmente mediante 19 atributos num ericos que se pueden clasicar en 3 grupos: 5 grados de asociaci on, proporcionados por los 5 m etodos individuales de predicci on, descritos en la secci on 6.2.1. 4 (2 por prote na) propiedades de las secuencias de prote nas: longitud y n de ort ologos. 10 posiciones en ranking (una por m etodo y por prote na) descritos en la secci on 6.2.1. ltimos grupos, que existe un valor para cada prote En los dos u na del par, se ordenan como valor m nimo y m aximo de cada par, para mantener una coherencia en todas las instancias. Los rangos de valores as como otros indicadores estad sticos se muestran en la Tabla 6.2. Los valores desconocidos para los 19 atributos se consideran como valores indeterminados y no se reemplazan con indicadores espec cos, porque en el contexto de este dominio, la ausencia de informaci on presenta diferencias con la existencia de ruido en los datos. As , no tener el valor de salida de un m etodo individual de predicci on implica que dicho m etodo no se puede aplicar a un determinado par de prote nas, porque no se cumplen las condiciones necesarias (ej: no hay un n umero m nimo de ort ologos que permita analizar el perl evolutivo) o porque no se verica la evidencia en la que est a basado el m etodo (ej: no se produce un evento de fusi on de genes). Aunque usar indicadores para reemplazar los valores desconocidos produce resultados similares, se ha preferido la alternativa de no reemplazarlos, ya que se ajusta mejor a la sem antica del dominio, tiene un ratio de recuperaci on positiva ligeramente mejor y gestiona directamente los valores desconocidos.
6.2.3.
Construcci on de Conjuntos de Datos
De las fuentes de datos expuestas en la secci on 6.2.1, seg un describe el apartado previo, todas se utilizan como atributos de entrada excepto las fuentes de interacci on y asociaci on funcional por pares de prote nas, que son las que se van a utilizar para denir los conjuntos de ejemplos positivos y negativos, necesarios para aplicar AA. Clase Positiva Cuando se hacen predicciones de interacci on y asociaciones funcionales entre pares de prote nas, una cuesti on particularmente controvertida es la denici on de qu e se considera una
58
Tabla 6.2: Estad sticas de los atributos para la predicci on de asociaci on funcional entre pares de prote nas. Total de instancias: 2665180. La media y la desviaci on t pica se calculan sin tener en cuenta las instancias con valores desconocidos. Atributo Valores conocidos / desconocidos Rango de Media Desviaci on (total y porcentajes) valores t pica I2H 1054149 / 1611031 (39,55 % / 60,45 %) [0-35,349] 0,771 0,585 MT 1054149 / 1611031 (39,55 % / 60,45 %) [0-0,991] 0,615 0,194 PP 2591226 / 73954 (97,23 % / 2,77 %) [0,088-1] 0,646 0,168 GC 11690 / 2653490 (0,44 % / 99,56 %) [1-145] 3,651 8,093 GF 668 / 2664512 (0,03 % / 99,97 %) [1-157] 7,266 18,837 longitud sec. m n. 2665180 / 0 (100,00 % / 0,00 %) [24-1538] 248,032 118,405 longitud sec. m ax. 2665180 / 0 (100,00 % / 0,00 %) [46-2003] 459,751 215,676 n ort ologos m n. 1594687 / 1070493 (59,83 % / 40,17 %) [16-113] 332,729 16,646 n ort ologos m ax. 2523554 / 141626 (94,69 % / 5,31 %) [16-113] 55,957 26,614 pos. rank. I2H m n. 1054149 / 1611031 (39,55 % / 60,45 %) [1-2168] 615,329 465,049 pos. rank. I2H m ax. 1054149 / 1611031 (39,55 % / 60,45 %) [1-2181] 998,099 545,625 pos. rank. MT m n. 1054149 / 1611031 (39,55 % / 60,45 %) [1-2137] 543,095 396,529 pos. rank. MT m ax. 1054149 / 1611031 (39,55 % / 60,45 %) [1-2181] 1039,962 535,107 pos. rank. PP m n. 2591226 / 73954 (97,23 % / 2,77 %) [1-2946] 1125,718 769,455 pos. rank. PP m ax. 2591226 / 73954 (97,23 % / 2,77 %) [1-2946] 1877,786 798,469 pos. rank. GC m n. 11690 / 2653490 (0,44 % / 99,56 %) [1-20] 4,275 2,895 pos. rank. GC m ax. 11690 / 2653490 (0,44 % / 99,56 %) [1-23] 7,588 4,563 pos. rank. GF m n. 668 / 2664512 (0,03 % / 99,97 %) [1-11] 1,121 0,549 pos. rank. GF m ax. 668 / 2664512 (0,03 % / 99,97 %) [1-25] 2,867 3,104
asociaci on funcional. En este trabajo se ha elegido una denici on inclusiva de asociaci on funcional, que es consistente con los distintos m etodos de predicci on que se emplean como atributos. Mientras que algunos de estos m etodos se centran m as en detectar interacciones f sicas (GF, I2H o MT), otros son m as adecuados para predecir rutas bioqu micas (GC) o tienen un alcance menos denido a un. As , la clase positiva est a formada por los pares de prote nas de E.coli que tienen una asociaci on funcional seg un la mencionada denici on inclusiva; es decir, todos los pares que aparecen en alguna de las bases de datos externas descritas en el primer apartado de la secci on 6.2.1. Se toma esta decisi on porque no existen ejemplos positivos sucientes para construir clasicadores independientes por evidencia o base de datos (ver cantidades de ejemplos en la tabla 6.1). En total, sin considerar los homod meros (es decir, los pares formados por dos prote nas iguales), el conjunto contiene 89.401 pares de prote nas diferentes. Con esta denici on de instancias positivas se intenta tener una representaci on extensa de las asociaciones funcionales entre prote nas, al incluir bases de datos variadas. Como consecuencia de la distinta cantidad de informaci on disponible para cada tipo de asociaci on funcional, los resultados van a revelar m as informaci on sobre las capacidades de predicci on de los principales contribuidores de instancias a este conjunto de positivos, es decir, los genes co-regulados y las asociaciones metab olicas. Clase Negativa Los pares de prote nas para la clase negativa se obtienen de lo que se podr a denominar la aplicaci on del supuesto del mundo cerrado. En este dominio signicar a que cualquier par
59
de prote nas que no se sabe que est a asociado funcionalmente (es decir, que dicho par no es una instancia positiva) es considerado un par que no se asocia funcionalmente entre s (una instancia negativa). De esta forma, la cantidad de instancias negativas es muy elevada (m as de un 99 % del total), debido a la explosi on combinatoria a la que dan lugar las 4.339 prote nas de E.coli, con un total de 9.411.291 pares posibles. Por ello, se aplica una serie de ltros que permiten reducir el conjunto de instancias negativas bas andose en ciertos criterios m as informativos que la simple aleatoriedad. Por ejemplo, s olo se escogen instancias que tienen sus dos prote nas en alg un par del conjunto de positivos. As , se intenta reducir la incertidumbre en la informaci on negativa, por considerar s olo prote nas sobre las que se tiene alguna informaci on acerca de su funci on. Es decir, que al menos se ha trabajado con ellas, y si no se ha encontrado una interacci on o asociaci on funcional, ser a m as probable que no exista, frente a un par de prote nas sobre las que no se ha investigado nada. Del conjunto de pares resultante, se eliminan los homod meros y tambi en aquellos pares para los que ning un m etodo de predicci on individual genera un valor de salida, porque no son relevantes para el aprendizaje. Este proceso arroja 2.575.779 pares de prote nas negativos. Es importante tener presente que este conjunto todav a podr a contener algunas asociaciones funcionales no denidas (es decir, falsos negativos). Conjuntos de Entrenamiento y Test La construcci on de los conjuntos para el aprendizaje debe ocuparse del problema del desbalanceo entre clases, ya que la clase negativa ltrada a un constituye casi el 97 % de todas las instancias. Por lo tanto, los conjuntos de entrenamiento y test se construyen con un 20 % de instancias positivas y un 80 % de negativas, estableciendo as un compromiso entre representar la distribuci on subyacente y alcanzar un mayor balance de ambas clases para no afectar al rendimiento de la clasicaci on. Aunque esta distribuci on entre clases se considera un buen equilibrio, previamente se han probado otras distribuciones que van del 20 % al 50 % de instancias positivas, no presentando ninguna de ellas resultados destacables. El conjunto de entrenamiento se compone de dos tercios de ejemplos positivos (completando el 20 % explicado previamente), qued andose el conjunto de test con el tercio restante de pares de prote nas positivos. Los conjuntos de entrenamiento y test se completan con instancias de la clase negativa, cogiendo aleatoriamente exactamente 4 veces el n umero de instancias positivas, para alcanzar el 80 % de instancias negativas en cada conjunto. As , se emplean todas las instancias positivas disponibles (asociaciones funcionales conocidas), bien en el conjunto de entrenamiento o bien en el de test. Por el contrario, se descartan muchas instancias negativas. De esta forma, seg un los criterios mencionados previamente, el conjunto de test tiene la mitad del tama no del conjunto de entrenamiento. El total de instancias disponibles es de 2.665.180 asociaciones funcionales (89.401 pares positivos y 2.575.779 negativos), que se reducen a 264.752 (16.566 positivas y 248.186 negativas) al aplicar un ltro, tanto a la clase positiva como a la negativa, asociado a los diez atributos de ranking. Este ltro consiste en eliminar las instancias donde ninguna de las posiciones de ranking est a entre las 100 primeras, en los rankings de PP, MT y I2H. Este paso reduce el ruido procedente de los pares menos puntuados que no deber an ser predichos por los m etodos de entrada. Si el par tiene un score de los m etodos GC o GF, la instancia se mantiene, ya que la cantidad de asociaciones funcionales para una prote na dada es mucho menor seg un estos dos m etodos. Resumiendo, tras aplicar la distribuci on del 20 % para positivos y el 80 % para negativos, los conjuntos nales se componen de 11.044 positivos y 44.176 negativos en el conjunto de entrenamiento, y 5.522 positivos y 22.088 negativos en el de test.
60
6.2.4.
Complejidad del Dominio
Conviene tener presente algunos problemas impl citos a la naturaleza biol ogica de los datos, los cuales establecen un alto nivel de complejidad que diculta la construcci on de un predictor de asociaci on funcional entre prote nas. Incertidumbre intr nseca: Como en la mayor a de los dominios de Biolog a Molecular, en este dominio no se puede asegurar que los datos de interacciones y asociaciones funcionales que se utilizan son completamente correctos (tanto en el conjunto de entrenamiento como en el de test), porque no existen experimentos espec cos en laboratorio que veriquen que todas las interacciones y asociaciones funcionales se producen en realidad. Esto a nade un cierto grado de imprecisi on a los conjuntos de entrada empleados, donde la distribuci on de clases que se pretende aprender no es exacta. Por ejemplo, se sabe que en los conjuntos de datos hay falsos negativos (correspondientes a asociaciones funcionales que a un no se han descubierto), que pueden ser muchos en comparaci on a la cantidad de verdaderos positivos, pero pocos en comparaci on al conjunto total de asociaciones funcionales que existen en el interactoma del organismo considerado. Desbalanceo extremo entre la cantidad de positivos y negativos: Como muestra de ello se presentan algunos valores num ericos. Si se tienen en cuenta todos los posibles pares resultantes de la combinaci on de todas las prote nas de E.coli (4.339 prote nas), se alcanza un valor de 9.411.291 posibles ejemplos sobre los que evaluar la existencia de asociaci on funcional o no, de los que menos del 1 % corresponde a instancias positivas. Aplicando algunos ltros para mejorar la utilidad y abilidad de los ejemplos negativos considerados, la cantidad de positivos alcanza tan solo algo m as del 6 %. Gran porcentaje de valores desconocidos en los atributos: Dadas las limitaciones de aplicaci on de cada uno de los m etodos computacionales de predicci on (como por ejemplo, la necesidad de un cierto n umero de secuencias ort ologas en el alineamiento m ultiple, la ocurrencia de un evento poco frecuente, o la exigencia de la secuenciaci on de la prote na completa, entre otros) es l ogico que existan muchos pares de prote nas sobre los que no se puede aplicar un m etodo, y por tanto no se tiene un valor asociado al atributo correspondiente a dicho m etodo. Como muestra, se puede mencionar que en los m etodos de conservaci on de genes adyacentes (GC) y de eventos de fusi on de genes (GF), los scores son desconocidos en m as del 99 % de los casos. Estos tres aspectos comentados dan una idea de las caracter sticas del conjunto de datos que se manejan.
6.2.5.
Algoritmos de Aprendizaje
Una vez denidas las instancias a utilizar en las fases de entrenamiento y test, el siguiente paso es determinar el algoritmo de aprendizaje con el que construir el clasicador. Entre las diferentes posibilidades se elige AODE (Averaged One-Dependence Estimators) [Webb et al., 2005], descrito en la secci on 2.1.2. AODE es un algoritmo bayesiano (basado en probabilidades condicionadas), que conserva la simplicidad, ecacia y eciencia de Naive Bayes [John and Langley, 1995], evitando los inconvenientes que ocasiona la exigencia de asumir la independencia total de los atributos. Este nuevo enfoque mejora la precisi on de Naive Bayes, sin incrementar de forma considerable
61
los costes computacionales; caracter stica deseable en grandes conjuntos de datos, como los que se manejan en este problema. Consultar la secci on 2.1.2 para una descripci on detallada del algoritmo. AODE requiere valores nominales en todos los atributos, que originalmente son continuos. Por lo tanto, se realiza una discretizaci on, usando el criterio de igual frecuencia, con un m nimo de 50 instancias por partici on. Este criterio se selecciona porque es el que mejores resultados ha proporcionado emp ricamente en este dominio, frente a otros esquemas posibles como el de tama no jo de la partici on. Adem as, cabe destacar que AODE maneja los valores desconocidos de atributos teniendo en cuenta s olo los conocidos para esa instancia, calculando el producto de probabilidades s olo de los atributos existentes. Dada la elevada cantidad de valores desconocidos en este dominio, esta idea para gestionarlos es adecuada, porque no rellena los desconocidos con la media o la mediana del atributo en todo el conjunto, ni obvia por completo la instancia, como hacen otros algoritmos. Rellenar los valores desconocidos con la media o el valor mayoritario (como ocurre en Naive Bayes y BayesNet [Friedman et al., 1997; Bouckaert, 2004]) no reeja la sem antica de los datos de este dominio, ya que atributos con un valor desconocido podr a implicar que no existen (que es diferente a que se haya extraviado el valor por ruido en los datos). Igualmente, ignorar las instancias con valores desconocidos no ser a viable en este dominio, dado que casi todas las instancias tienen alg un valor desconocido (s olo hay 82 instancias completas de un total de 2.665.180). Esta circunstancia se debe a que los m etodos computacionales individuales que se quieren unicar s olo dan un resultado en condiciones restringidas (ver descripci on de los m etodos [Valencia and Pazos, 2002]). Otro enfoque para mantener la sem antica biol ogica de los valores desconocidos es la denici on de un operador particular, que diferencie esos valores y los gestione de forma espec ca, como permite la t ecnica de Programaci on Gen etica, desarrollada en el cap tulo 8, en la secci on 8.1. Para seleccionar el algoritmo de aprendizaje, se han aplicado diferentes tipos de algoritmos de clasicaci on, intentando elegir una versi on reciente o mejorada de cada uno, o aquella que aproveche alguna caracter stica espec ca adaptada a los datos de este dominio. As , se ha hecho uso de regresi on lineal [Mitchell, 1997], como t ecnica b asica para combinar rboles de decisi ponderadamente atributos num ericos aproximando una funci on lineal; a on, en su nueva versi on ADTree [Freund and Mason, 1999]; razonamiento basado en casos, en su versi on Kstar [Cleary and Trigg, 1995], que permite seleccionar la manera en la que debe manejar los valores desconocidos de atributos; redes de neuronas (Perceptr on Multi-capa, MLP [Bishop, 1995; Rumelhart and McClelland, 1986]); reglas de decisi on (PART [Frank and rboles aleatorios (del ingl Witten, 1998]); bosques de a es, random forests [Breiman, 2001]), cuya eciencia se ha probado en otros dominios similares [Qi et al., 2006]; y otro m etodo bayesiano, (BayesNet [Friedman et al., 1997; Bouckaert, 2004]), que tambi en es un algoritmo relevante en este estudio. BayesNet [Bouckaert, 2004] es un algoritmo de redes bayesianas [Friedman et al., 1997] que aprende tanto la estructura de la red como la tabla de probabilidades. Para inferir la estructura de la red se usa un algoritmo de b usqueda llamado K2 [Cooper and Herskovits, 1992], que a nade arcos con un orden jo de las variables, usando una m etrica bayesiana [Bouckaert, 2004] para evaluar la calidad de la red aprendida. Para estimar las distribuciones de probabilidad condicional de la red bayesiana se usa un estimador simple [Bouckaert, 2004]. Hay una modicaci on en la conguraci on por defecto de BayesNet, que se reere al n umero m aximo de padres que puede tener un nodo en la estructura de la red, el cual se ja a 2, rbol aumentado (TAN) [Friedman et al., 1997]. aprendiendo as una red de bayes de a
62
Para toda la experimentaci on realizada con algoritmos de Aprendizaje Autom atico, se usa la implementaci on de la herramienta Weka [Witten and Frank, 2005].
6.2.6.
Esquema Resumen Sistema de Aprendizaje
La gura 6.2 resume el sistema descrito en las secciones previas, utilizado en este trabajo para predecir Asociaciones Funcionales entre Pares de Prote nas.
Datos Exps
Complejos
Regulacin
Rutas metablicas
Minera Textos
Lista prots BD
Positivos
extraer
prot 1 prot 2 prot 3 prot N
combinacin
pares posibles
filtros
Negativos
Atributos
- Mtodos intdividuales - Caractersticas biolgicas - Rankings Conjunto de datos
AODE
Modelo S
(score=0.988)
{ prot_1, prot_2 }
i
a er nt
cc
io
? an
Clasificador Unificado
NO
(score=0.456)
Figura 6.2: Esquema sistema de predicci on de AFPP en E.coli.
6.3.
6.3.1.
Resultados e Interpretaci on
Comparaci on de Varios Algoritmos
Se exploran varios algoritmos y varios conjuntos de entrenamiento con diferentes proporciones entre instancias positivas y negativas para alcanzar un buen compromiso con el desbalanceo de clases subyacente (porque la mayor a de pares no se espera que est en funcionalmente asociados). Esta experimentaci on permite determinar si los m etodos probados son adecuados para manejar la incapacidad de la mayor a de los algoritmos para gestionar conjuntos altamente desbalanceados (ver detalles en la secci on 6.2). Este proceso exploratorio genera varios clasicadores, cuya abilidad se compara a trav es del conjunto de test de asociaciones funcionales entre prote nas (ver 6.2.3). La comparativa se eval ua con curvas de coste [Drummond and Holte, 2006], que permiten elegir r apidamente el
6.3. Resultados e Interpretaci on
63
mejor clasicador por inspecci on visual directa. Para una descripci on del uso de estas curvas, consultar el cap tulo 4. Como regla general, los mejores clasicadores est an por debajo de los peores ya que tienen un coste m as bajo (errores de clasicaci on). De hecho, la diferencia de error entre un par de clasicadores se puede medir a trav es de la distancia vertical entre sus curvas. La gura 6.3 muestra las curvas de coste de diferentes clasicadores, representando los diferentes algoritmos de Aprendizaje Autom atico usados. Tras una inspecci on visual de este gr aco se aprecia claramente que el mejor algoritmo en la fase de test es AODE (l nea azul, gura 6.3). La curva de coste de AODE aparece por debajo de las curvas de coste de todos los otros algoritmos para la mayor a de los valores de probabilidad, lo que signica que AODE comete menos errores (falsos positivos y falsos negativos) que cualquier otro clasicador para la mayor a de distribuciones positivo/negativo.
Curvas de Coste
ADTree AODE BayesNet KStar MLP PART Random Forests NaiveBayes LinearRegression Trivial Classifier
0.5 0.45 0.4 0.35 Coste Esperado Normalizado 0.3 0.25 0.2 0.15 0.1 0.05 0.0 0.0
0.1
0.2
0.3
0.4 0.5 0.6 Probabilidad de Coste
0.7
0.8
0.9
1.0
Figura 6.3: Curvas de coste de varios algoritmos de AA que predicen AFPP. El eje x representa la probabilidad de coste y el eje y el coste esperado normalizado. Cada curva de coste corresponde a un algoritmo de Aprendizaje Autom atico diferente. Mirando la leyenda de arriba a abajo, los algoritmos rbol de decisi son: ADTree, un a on; AODE y BayesNet, 2 m etodos bayesianos; Kstar, un algoritmo de razonamiento basado en casos; MLP, una red de neuronas; PART, un m etodo de reglas de decisi on; rboles de clasicaci Random Forests, una combinaci on de a on; Naive Bayes; y Regresi on Lineal. El ltimo es el clasicador trivial, sin ning u un algoritmo asignado. Ver la secci on 6.2 para obtener la referencia de cada algoritmo.
BayesNet es el segundo mejor clasicador en t erminos de rendimiento, lo cual enfatiza que los algoritmos con enfoques bayesianos son los m as apropiados para afrontar este problema. Es interesante destacar que BayesNet es peor que AODE e incluso que el clasicador trivial (tri angulo rojo en la gura 6.3) cuando la probabilidad de coste es mayor de 0,8. Este hecho ser a irrelevante en la mayor a de los casos, excepto para experimentos que impliquen el ltrado de conjuntos de interacciones altamente ables obtenidas de fuentes experimentales. Adem as, BayesNet reemplaza todos los valores desconocidos con la mediana de los valores del
64
conjunto de entrenamiento para el atributo correspondiente, en vez de ignorar dichos valores desconocidos como hace AODE. Respecto a este punto, el enfoque de AODE es m as apropiado para la sem antica de este dominio, donde un valor desconocido implica la no existencia. Este aspecto es importante porque la mayor a de las instancias (o pares de prote nas) tiene al menos un valor desconocido, y la informaci on que representa la ausencia de un valor se espera que sea m as inestable y m as dif cil de extrapolar cuando se predice sobre nuevos pares de prote nas. Tambi en es importante destacar que, de acuerdo a las curvas de coste (gura 6.3), el tercer mejor clasicador es Naive Bayes [John and Langley, 1995] (que considera que existe una independencia completa entre los atributos de entrada). La comparaci on de estos tres m etodos bayesianos muestra que modelar adecuadamente la dependencia interna entre las caracter sticas de entrada mejora notablemente los resultados. rboles Aunque se ha demostrado el valor de otros algoritmos (como los bosques de a aleatorios [Breiman, 2001]) sobre trabajos previos relacionados [Qi et al., 2006], AODE se presenta como el m as apropiado de las combinaciones exploradas de problema, atributos y sistema experimental. Por lo tanto, el rendimiento superior de AODE sobre la evaluaci on en el test no se puede tomar como una prueba de superioridad general del algoritmo. Acorde a las caracter sticas espec cas de cada problema de predicci on, distintos m etodos consiguen diferentes resultados. Adem as, alguno de estos clasicadores podr an mejorar su comportamiento con la exploraci on detallada de su espacio de par ametros. Para prop ositos comparativos, la gura 6.4 muestra la evaluaci on de los algoritmos sobre el test con la ampliamente aplicada curva ROC. El an alisis de estas curvas ROC proporciona las mismas conclusiones y apoya la superioridad de los clasicadores bayesianos para este problema, aunque sin grandes diferencias entre los dos enfoques que tienen en cuenta la dependencia entre los atributos. Resumiendo brevemente, estos dos clasicadores bayesianos son claramente mejores que los otros clasicadores probados, aunque AODE proporciona un ligero rendimiento mayor en algunas condiciones. Como consecuencia de los resultados de esta evaluaci on, se considera AODE como una elecci on adecuada para resolver este problema, incluso siendo imposible garantizar que ser a mejor que cualquier otro clasicador en todas las condiciones.
6.3.2.
An alisis de Relevancia de Atributos
En esta secci on se analiza el rendimiento de AODE para distintas combinaciones de atributos de entrada. En la tabla 6.3 aparece una comparaci on de la contribuci on de las caracter sticas usadas en el aprendizaje, con distintas medidas de evaluaci on. Se realiza una inclusi on incremental de atributos, de abajo a arriba, incluyendo los rankings al nal porque se derivan de los m etodos correspondientes. Se puede observar que todos los atributos aportan valor, dado que los resultados, principalmente evaluados en AUROC y MCC, mejoran siempre que se a nade un nuevo grupo de atributos, es decir, al ir de abajo hacia arriba en la tabla 6.3. Para concluir, se verica que la combinaci on elegida, con todos los atributos (primera la de la tabla 6.3), es la que presenta una mejor evaluaci on, equilibrada entre AUROC y MCC.
6.3.3.
Mejora en la Combinaci on de Distintas Fuentes de Informaci on
En este apartado se compara la capacidad de predicci on del clasicador unicado frente a los m etodos computacionales individuales existentes previamente, cuyas salidas integra el
65
1.0 0.9 0.8 0.7 Coste Esperado Normalizado 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0
Curvas ROC
ADTree AODE BayesNet KStar MLP PART Random Forests NaiveBayes LinearRegression Trivial Classifier
0.1
0.2
0.3
0.7
0.8
0.9
1.0
Figura 6.4: Curvas ROC de varios algoritmos de AA que predicen AFPP. El eje x representa el ratio de aciertos positivos y el eje y el ratio de falsos positivos. La leyenda se debe interpretar como en la gura 6.3, con el mismo orden de algoritmos.
nuevo clasicador. En primer lugar, es conveniente comparar la exactitud de las predicciones positivas de los m etodos originales con las del clasicador basado en AODE, ya que cada m etodo tiene distinta aplicabilidad y es potencialmente capaz de detectar diferentes tipos de asociaciones funcionales. Se compara la precisi on de las n primeras predicciones de un conjunto de test extendido. Este incluye el conjunto completo de posibles predicciones para E.coli despu es de eliminar aquellos pares usados en el conjunto de entrenamiento. En la gura 6.5 cada l nea representa la precisi on, medida como el ratio de predicciones positivas verdaderas dividido por el n umero de predicciones en el conjunto de test extendido, para un n umero incremental de pares predichos (la gura 6.6 es la equivalente pero restringida s olo al conjunto de test). Como se puede ver, AODE se comporta mejor que cada uno de los m etodos individuales a lo largo de todo el rango de las n primeras predicciones. As , AODE tiene una precisi on de 0,97 para las 100 primeras predicciones, 0,69 para las 1.000 primeras, 0,56 para las 2.000 primeras, 0,49 para las 3.000 primeras, etc. Cuando la comparaci on se hace sobre el conjunto m as grande de pares predichos por los 5 m etodos (es decir, las 800 primeras predicciones de cada m etodo, que es el m aximo de predicciones proporcionadas por el m etodo GF), AODE es 1,41 veces m as preciso que el m etodo GC, 3,80 veces m as preciso que GF, 9,65 veces m as able que PP, 32,38 veces m as able que MT y 47,67 veces m as preciso que I2H. Los resultados obtenidos con GC son los m as cercanos a AODE y, de hecho, ambos m etodos denen casi el mismo perl, aunque AODE es 20 puntos porcentuales m as preciso. La raz on de esta diferencia parece ser la informaci on a nadida por los otros m etodos individuales (GF, I2H, MT y PP), as como los atributos adicionales (longitud de las prote nas y tama no de la familia de prote nas) que usa
66
Tabla 6.3: Comparaci on de relevancia de atributos en predicci on de AFPP sobre el conjunto de test. rea bajo la curva ROC, MCC: Coeciente de Correlaci AUROC: a on de Matthews, TP: verdaderos positivos, TN: verdaderos negativos, FP: falsos positivos, FN: falsos negativos.
Atributos M etodos, Longitud, Nort., Rankings M etodos, Longitud, Nort. M etodos, Longitud M etodos Longitud N ort ologos
AUROC 0,77 0,77 0,67 0,57 0,67 0,61
MCC 0,35 0,27 0,18 0,14 0,13 0,06
TP 1.362 903 542 305 306 146
TN 21.523 21.685 21.714 21.903 21.843 21.891
FP 4.160 4.619 4.980 5.217 5.216 5.376
FN 565 403 374 185 245 197
AODE. Adem as, se detecta que algunos m etodos individuales son muy imprecisos (menos del 10 %), como es el caso de I2H, MT y PP. Por el contrario, GC produce una proporci on de predicciones correctas mucho m as elevada, siendo alrededor de 8 veces m as preciso que PP (el mejor de los tres m etodos m as pobres en predicci on). GF proporciona muy pocas predicciones debido a que depende de la ocurrencia de un evento particular. La relativa baja frecuencia de eventos de fusi on de genes limita la habilidad de GF para predecir la mayor a de asociaciones funcionales. En segundo lugar, se puede hacer una comparaci on basada en la cobertura de aplicaci on de cada m etodo. Hay que resaltar que, en contraposici on a los m etodos individuales de partida, cuya salida est a muy limitada por las restricciones de aplicaci on de cada uno, el clasicador unicado es capaz de dar una predicci on (positiva o negativa, con su probabilidad asociada) para casi cualquier par de prote nas que se le presente. Como ejemplo claricador, los m etodos I2H y GF no dan predicci on para el 21 % y 99 % de los casos, respectivamente. Esta comparaci on, respecto a la cobertura de aplicaci on de cada m etodo, queda reejada en la gura 6.7, que representa mediante curvas de coste los 6 m etodos computacionales, aplicados sobre el mismo conjunto de test. Cualquier par de prote nas para el que un m etodo no da un valor de salida, se considera una predicci on negativa, con una puntuaci on 0. Teniendo esto en cuenta, se observa que los m etodos individuales tienden a solaparse con el clasicador trivial (triangulo central de la gura 6.7) a lo largo de casi todo el eje x. Mientras, el m etodo unicado (l nea roja de la gura 6.7) mantiene unos costes aceptablemente bajos en todo el rango. Por lo tanto, AODE logra una mayor cobertura de aplicaci on, siendo capaz de aportar predicciones para un conjunto m as amplio de pares de prote nas, frente a los m etodos individuales, que se encuentran muy limitados a su contexto o restricciones de aplicaci on. ltimo, es importante tener en cuenta que la denici Por u on global de asociaciones funcionales que se usa en este trabajo se centra en los tipos de asociaciones m as numerosos en los datos de partida (ver la secci on 6.2). En este estudio, las principales fuentes de interacciones y asociaciones funcionales son la co-regulaci on y las rutas metab olicas. Por lo tanto, es esperable que AODE sea m as ventajoso para la predicci on de estos dos tipos de asociaciones funcionales, al comparar AODE con otros m etodos basados en diferentes fuentes o con diferentes proporciones entre los tipos de asociaciones funcionales. En conclusi on, AODE fusiona varios m etodos de predicci on mejorando en rendimiento y cobertura a los m etodos computacionales individuales que combina y complementa con informaci on adicional.
67
1 0.9 0.8 0.7 0.6
Conjuntodetestextendido
Precisin
0.5 0.4 0.3 0.2 0.1
AODE I2H MT PP GC GF
1000
1300
1600
4000
4300
4600
Nmerodepredicciones
Figura 6.5: Precisi on de m etodos individuales y m etodo unicado en el conjunto de test extendido. El eje x representa el n umero de ejemplos (pares de prote nas) acumulados, sobre los que se aplica un m etodo, ordenados seg un la puntuaci on (o salida) de dicho m etodo. La puntuaci on es diferente en cada caso, por lo que las n primeras predicciones de cada m etodo no son las mismas. El eje y representa la cantidad de aciertos en la clase positiva entre el total de ejemplos para los que el m etodo en cuesti on es capaz de dar una clasicaci on (n de predicciones restringidas). AODE, I2H, MT, PP, GC y GF son los diferentes m etodos computacionales de predicci on.
6.3.4.
Evaluaci on para Diferentes Categor as de Fuentes de Datos
El objetivo de este apartado es presentar unas breves observaciones sobre la posibilidad de predecir asociaciones funcionales por categor as. En primer lugar, hay que decir que la construcci on de un predictor independiente para cada fuente de datos no es recomendable, o incluso inviable, porque se deben dividir los datos de entrenamiento. Con lo que las asociaciones funcionales que quedan pueden ser insucientes para aprender, mayoritariamente cuando la base de datos disponible no es grande, como por ejemplo la de regulaci on o de datos experimentales (ver tabla 6.1 con la cantidad de instancias positivas procedentes de cada base de datos). nica posibilidad es una evaluaci As , sin un entrenamiento individual, la u on con los datos de test por cada categor a de asociaciones funcionales o fuentes de datos. Dado que el criterio para construir el conjunto de ejemplos negativos del sistema AODE aplica a todo el conjunto de asociaciones funcionales, sin divisi on por base de datos, para no a nadir fuentes de ruido adicionales, la evaluaci on por categor a que se presenta se basa s olo en los ejemplos positivos del conjunto de test. Dicho conjunto de test, correspondiente al clasicador global, no sigue una distribuci on homog enea entre categor as. Seg un se describen en la secci on 6.2.1, dichas categor as son: datos experimentales (248 asociaciones funcionales en test), complejos (676 asociaciones), regulaci on (143 asociaciones), co-regulaci on (2.863 asociaciones), rutas
4900
1900
2200
2500
2800
3100
3400
3700
100
400
700
68
Conjuntodetest
1 0.9 0.8 0.7
AODE I2H MT PP GC GF
Precisin
0.6 0.5 0.4 0.3 0.2 0.1 0
1000
3400
3700
4000
4300
4600
Nmerodepredicciones
Figura 6.6: Precisi on de m etodos individuales y unicado en el conjunto de test. Los ejes x e y se deben interpretar como en la gura 6.5.
metab olicas (1.942 asociaciones) y miner a de textos (950 asociaciones), conteniendo ejemplos solapados entre distintas categor as. Por lo tanto, la comparativa presentada en la gura 6.8 y las conclusiones derivadas en este apartado se ven afectadas por todas estas limitaciones. Al observar la gura 6.8, como se esperaba, la tasa de aciertos en positivos en los datos experimentales es la m as baja, dado que el sistema est a entrenado con muchas m as asociaciones funcionales que interacciones f sicas. Sin embargo, sorprende que para casi cualquier umbral, las asociaciones de miner a de textos y las interacciones en complejos sean superiores al resto, porque no son las fuentes de datos m as abundantes, correspondientes a co-regulaci on y rutas metab olicas (ver tabla 6.1). En conclusi on, dadas las restricciones en los conjuntos independientes disponibles para evaluar el sistema global, este an alisis no se puede considerar una evaluaci on denitiva, sino simplemente una observaci on. Porque el sistema de predicci on de asociaciones funcionales est a basado en un clasicador global, con todas las fuentes de datos mezcladas. No obstante, nica alternativa con sucientes ejemplos para aprender. el sistema global es pr acticamente la u Por lo tanto, s olo se tiene una aproximaci on sesgada de la evaluaci on por fuentes, debido a las diferentes limitaciones del proceso de aprendizaje global.
6.4.
Aplicaci on para Filtrar Interacciones Experimentales
Para mostrar el potencial de AODE, se ha aplicado a un conjunto de datos experimentales no incluido originalmente en los conjuntos de entrenamiento ni test. Para este prop osito, se recopila el conjunto de complejos de prote nas detectados por Arifuzzaman et al. [Arifuzzaman
4900
1300
1600
1900
2200
2500
2800
3100
100
400
700
6.4. Aplicaci on para Filtrar Interacciones Experimentales
69
0.5 0.45 0.4 0.35 Coste Esperado Normalizado 0.3 0.25 0.2 0.15 0.1 0.05
Curvas de coste. Unificado vs Individuales

AODE GC GF I2H MT PP
0.0 0.0
0.1
0.2
0.3
0.7
0.8
0.9
1.0
Figura 6.7: Curvas de coste de m etodos individuales frente a unicado en conjunto de test. El eje x representa la probabilidad de coste y el eje y el coste esperado normalizado.
et al., 2006]. Estos datos se obtuvieron mediante un enfoque experimental a gran escala, basado en tecnolog as de co-immunoprecipitaci on, aplicadas a las prote nas de E.coli. Se ha demostrado que las tecnolog as a gran escala, aunque valiosas, frecuentemente producen un gran n umero de falsos positivos debido a diferentes defectos metodol ogicos. Se ha elegido este ejemplo en particular porque incluye una gran cantidad de asociaciones entre prote nas que no se han podido conrmar por ninguna otra fuente de datos disponible, es decir, que dichas asociaciones no se han detectado por ning un otro m etodo. De hecho, s olo el 7,85 % de los datos se conrman con el extenso conjunto de predicciones de asociaciones funcionales stas). El n de AODE (cubriendo s olo el 0,64 % de e umero de conrmaciones externas es peque no (un hecho com un cuando se comparan diferentes fuentes de asociaci on funcional), incluso aunque el conjunto de bases de datos externas recopiladas, con las que se entrena el sistema, incluya otros conjuntos de complejos de prote nas. No obstante, hay que recordar que el conjunto de entrenamiento del sistema combina muchas bases de datos diversas, incluidas algunas con m as (como los datos experimentales a peque na escala) y otras con mucha menos abilidad que los complejos (como las fuentes de miner a de textos). AODE se usa para detectar el subconjunto de interacciones que potencialmente tienen signicado biol ogico, tras asignarle un nivel de conanza a cada asociaci on entre prote nas de este conjunto de datos a gran escala. Para ello, se ordena el conjunto de pares de prote nas recopilados por Arifuzzaman usando la puntuaci on de AODE como medida de probabilidad de ser una asociaci on funcional. Entonces se compara el nivel de conrmaci on de la predicci on para los n pares mejor puntuados (l nea verde de la gura 6.9) con el nivel obtenido para el conjunto completo de Arifuzzaman (punto azul de la gura 6.9) y con el nivel de conrmaci on para aquellos pares predichos para el proteoma completo (l nea roja de la gura 6.9). Los resultados muestran claramente que la combinaci on de informaci on de AODE puede
70
Figura 6.8: Evaluaci on de la predicci on de asociaci on funcional por diferentes categor as de fuentes de datos. Sistema AODE entrenado con todas las fuentes de datos, y test sobre el subconjunto correspondiente a cada categor a, s olo de positivos. Se representa el ratio de aciertos en positivos (predicciones correspondientes a asociaciones funcionales reales) sobre el total de instancias positivas (asociaciones funcionales presentes en las fuentes origen) para distintos umbrales de corte en la probabilidad de predicci on.
extraer un conjunto de asociaciones funcionales signicativas a partir de la ruidosa colecci on de datos original. Por ejemplo, el 68 % de los primeros 100 pares y el 42 % de los primeros 1.000 pares se conrman en la lista puntuada con los valores de AODE. Estas cifras son muy signicativas cuando se comparan con el 8 % de conrmaci on original del conjunto completo de 7.283 asociaciones del conjunto de Arifuzzaman. Cuando se compara el conjunto de Arifuzzaman ltrado (l nea verde de la gura 6.9) y las predicciones de AODE (l nea roja de la gura 6.9) es importante destacar que las predicciones del conjunto ltrado son menos stas incluyen pares diferentes. De hecho, la ables que las del proteoma completo, porque e mayor a de los pares ables del proteoma completo no se recuperan con el experimento de Arifuzzaman y por lo tanto AODE no las puede incluir en el conjunto ltrado. Estos resultados muestran el poder de combinar diferentes fuentes de datos, de distinta abilidad, para asignar f acilmente un nivel de calidad a las interacciones entre prote nas procedentes de experimentos a gran escala, las cuales no poseen a priori un indicador de conanza de la predicci on, que permita ordenarlas para extraer las m as ables.
6.5.
Comparaci on con la Base de Datos STRING
STRING [Jensen et al., 2009] es una base de datos dedicada a la predicci on de asociaciones funcionales entre prote nas para un conjunto de genomas completamente secuenciados.
6.5. Comparaci on con la Base de Datos STRING
71
1 0.9 0.8 0.7 0.6
conjuntoArifuzzamanvsAODE
Precisin
AODE cjto.Arifuzzaman cjto.Arifuzzaman filtrado
0.5 0.4 0.3 0.2 0.1
Figura 6.9: Precisi on del m etodo unicado sobre el conjunto experimental de Arifuzzaman. Los ejes x e y se deben interpretar como en la gura 6.5. El conjunto ltrado (la l nea verde) se obtiene ordenando los pares de prote nas en el conjunto de Arifuzzaman, seg un la puntuaci on de AODE. La precisi on del conjunto de Arifuzzaman se representa por su valor medio (el punto azul), ya que este conjunto de datos no se puede ordenar por no tener una puntuaci on asociada a cada par.
Contiene una recopilaci on exhaustiva de informaci on, desde importaciones de bases de datos externas hasta predicciones generadas por el equipo de STRING, incluyendo versiones de algunos de los m etodos individuales descritos en este trabajo, como la fusi on de genes, el contexto gen omico o los perles logen eticos. STRING tiene su propia denici on de Patr on Oro (del ingl es, Gold Standard) para las asociaciones funcionales, que est a basado en las rutas metab olicas [Jensen et al., 2009]. Este enfoque diere de la estrategia adoptada en el presente trabajo, porque STRING no incluye relaciones de regulaci on entre factores de transcripci on y genes regulados, ni entre los genes regulados por el mismo factor de transcripci on. Incluso lo que es m as importante, STRING se aprovecha de la informaci on experimental disponible para predecir nuevas asociaciones funcionales metab olicas, utilizando interesantes datos experimentales adicionales para un par de prote nas dado. En cambio, las predicciones que produce AODE est an m as enfocadas a asociaciones sin conrmaci on experimental disponible. Lo que tambi en implica que, en principio, las predicciones de AODE son aplicables a cualquier prote na (dentro del proteoma de E.coli aqu analizado). Por lo tanto, la cobertura y la capacidad de descubrir asociaciones desconocidas de AODE deber a ser m as alto, mientras su capacidad para detectar asociaciones de prote nas bien caracterizadas ser a necesariamente m as bajo. Para probar estas ideas, se usa AODE para extraer aquellas entradas de STRING con puntuaciones m as altas, a partir de un conjunto de 240.885 pares de prote nas de STRING, con el valor de conanza de la predicci on m nimo al 0,15. Para obtener una visi on de la habilidad de ambos enfoques para detectar asociaciones funcionales desconocidas, todos los pares validados
100 700 1300 1900 2500 3100 3700 4300 4900 5500 6100 6700 7300 7900 8500 9100 9700
Nmerodepredicciones
72
experimentalmente se eliminan. En la gura 6.10 se compara la predicci on de las puntuaciones de STRING y AODE para el conjunto de 121.042 asociaciones comunes a ambos conjuntos, que representan un 50,25 % de los pares de STRING. Los resultados muestran claramente que ambas deniciones de enlaces funcionales s olo solapan parcialmente. Adem as, se concluye que AODE puede complementar las predicciones de STRING con una denici on m as extensa de asociaciones funcionales entre pares de prote nas.
STRINGvsAODE
1 0.9 0.8 0.7
Precisin
0.6 0.5 0.4 0.3 0.2 0.1
AODE STRING STRINGfiltrado
100
1000
1300
1600
2500
2800
3100
4000
4300
400
700
1900
2200
3400
3700
4600
Nmerodepredicciones
Figura 6.10: Comparaci on de precisiones del m etodo unicado y STRING, sobre el conjunto de predicciones de STRING. Los ejes x e y se deben interpretar como en la gura 6.5. El conjunto STRING ltrado (la l nea verde) se obtiene ordenando los pares de prote nas en la base de datos externa, es decir, STRING, seg un la puntuaci on de AODE. La l nea de STRING (azul) se calcula ordenando los datos seg un la puntuaci on de STRING, es decir, la puntuaci on para cada par de la base de datos externa.
6.6.
Servidor de Predicciones EcID
Los resultados de cada uno de los 5 m etodos de predicci on individuales y de su combinaci on en AODE est an integrados en el servidor EcID (del ingl es, E.coli Interaction Database, [Leon et al., 2009]), permitiendo al usuario extraer y navegar f acilmente por la red de interacciones y asociaciones funcionales entre prote nas. EcID proporciona dos modos b asicos de navegaci on por la red: el Modo Experimental enfocado en extraer asociaciones funcionales apoyadas experimentalmente (similar al enfoque de STRING), y el Modo de Predicci on centrado en suministrar predicciones para las prote nas menos caracterizadas. Las puntuaciones de AODE, calculadas seg un se describe en este cap tulo con el clasicador basado en AODE, se usan en EcID para generar un criterio
4900
6.7. Conclusiones
73
de conanza de la predicci on, para las asociaciones funcionales mostradas en el Modo de Predicci on. Este criterio de conanza, que aporta el sistema unicado de predicci on AODE, nica para seleccionar un conjunto de relaciones m permite al sistema EcID una medida u as probable para prote nas pobremente caracterizadas. Adem as, esto cumple otro de los prop ositos originales, como es conseguir resultados para las prote nas menos caracterizadas, adem as de ordenar las asociaciones bien conocidas entre prote nas que tambi en permite AODE. El servidor es de acceso libre en http://ecid.bioinfo.cnio.es/, presentando un aspecto como el mostrado en la gura 6.11.
Figura 6.11: Ejemplo de vista de servidor de predicciones EcID.
6.7.
Conclusiones
Este cap tulo presenta un enfoque basado en Aprendizaje Autom atico para la predicci on de asociaciones funcionales entre prote nas, integrando un par de caracter sticas b asicas de las dos prote nas, los resultados de cinco m etodos computacionales heterog eneos, y una medida de los pares potenciales de prote nas asociadas seg un cada m etodo. Los resultados sobre un conjunto de test independiente del de entrenamiento conrman la adecuaci on de los algoritmos bayesianos para afrontar el problema planteado, seg un un an alisis con curvas de coste y curvas ROC sobre algoritmos alternativos de Aprendizaje Autom atico. El mejor algoritmo es AODE, seguido de BayesNet, con resultados ligeramente peores. Adicionalmente, AODE es adecuado para problemas con valores desconocidos, siendo exible en su gesti on, lo que es conveniente en este caso donde no siempre es posible obtener predicciones con los cinco m etodos individuales para los mismos pares de prote nas. Adem as, til como medida unicada de abilidad de la AODE proporciona una estimaci on cuantitativa, u
74
asociaci on de cada par de prote nas (utilizada como agregado en el servidor de predicciones EcID). Todos los m etodos e informaci on de entrada del clasicador provienen de experimentos de secuenciaci on gen omica. Por lo tanto, el clasicador unicado aporta conocimiento preferentemente sobre las asociaciones funcionales poco caracterizadas, en vez de sobre las bien denidas. En este sentido, el nuevo enfoque propuesto en este cap tulo se diferencia de otros enfoques populares y exitosos, como STRING, porque es independiente de la informaci on experimental disponible para un par de prote nas considerado. Por otro lado, este clasicador basado en AODE mejora los resultados de los m etodos originales individuales que incorpora. Tanto en precisi on como en cobertura de aplicaci on. Especialmente es mucho mejor en este segundo aspecto, siendo capaz de aportar predicciones para cualquier par de prote nas con un solo m etodo aplicado, mientras que cada m etodo individual est a limitado a una regi on del espacio de predicciones que satisfaga sus restricciones. Sin embargo, existe una limitaci on en el sistema de predicci on presentado, debido a que integra otros m etodos existentes. Por tanto, las actualizaciones del clasicador basado en AODE requerir an que se actualicen previamente los m etodos que se combinan, o que se incorporen otros nuevos. El clasicador presentado en este trabajo tambi en permite renar y enriquecer otros listados de interacciones y asociaciones funcionales existentes. Particularmente, los pares de un experimento de co-immunoprecipitaci on a gran escala, que se ordenan y ltran seg un su signicado funcional. Este resultado destaca el valor de este tipo de enfoques para eliminar la considerable cantidad de falsos positivos que generan los enfoques experimentales a gran escala, por la falta de una medida de conanza de la predicci on, lo cual es todav a uno de los principales inconvenientes de dichas t ecnicas, que no denen cu ales son las predicciones m as ables.
Cap tulo 7
Extensi on de Rutas Biol ogicas en Humanos

En este cap tulo se describe el segundo problema afrontado en esta tesis de anotaci on funcional dentro de la Biolog a de Sistemas, junto con los resultados obtenidos y su interpretaci on. Se trata de a nadir prote nas a una red en la que se comparte funci on a nivel de proceso biol ogico, a partir de combinaciones de propiedades simples de la secuencia e informaci on relacional de prote nas, interaccionando por pares o en complejos. El contenido del cap tulo en detalle es el siguiente. En las dos primeras secciones se describe el contexto del problema, los datos recopilados, su representaci on seg un el modelo de conocimiento gen erico presentado en el cap tulo 5, y el m etodo de aprendizaje propuesto (h brido entre relacional y proposicional) para resolver el problema de anotaci on de rutas biol ogicas. En la secci on 7.3 se presentan los resultados del aprendizaje desde una perspectiva puramente computacional. En la secci on 7.4 se describe una serie variada de interesantes an alisis interpretativos de las predicciones, teniendo presente la realidad biol ogica a la que pertenecen. En las secciones 7.5 y 7.6 se compara la propuesta de esta tesis de extensi on de rutas biol ogicas con otros m etodos que podr an resolver la misma tarea de anotaci on funcional, pero que se basan en otros principios. La secci on 7.7 expone la relevancia biol ogica de las prote nas a nadidas a rutas biol ogicas concretas por el m etodo propuesto en esta tesis, detallando casos particulares de prote nas cuya predicci on parece estar justicada por anotaciones en bases de datos biol ogicas y publicaciones cient cas, a falta de una vericaci on experimental. Finalmente, se expone una discusi on y resumen de las conclusiones del cap tulo completo.
7.1.
Denici on del Problema
Las rutas biomoleculares representan una recopilaci on abstracta del conocimiento sobre procesos metab olicos, de regulaci on y de se nalizaci on, organizados como cascadas de interacciones entre prote nas, con la implicaci on de otros compuestos moleculares. Son las responsables de lograr resultados fenot picos biol ogicos espec cos [Cary et al., 2005; Ooi et al., 2010]. El n ucleo de la biolog a de sistemas son las redes bioqu micas y de se nalizaci on. Las rutas metab olicas y de se nalizaci on son cada vez una parte m as importante de la organizaci on del ltimos a conocimiento en la Biolog a de Sistemas [Kemper et al., 2010]. Adem as, en los u nos se ha mostrado un renovado inter es en almacenar y anotar rutas [Demir et al., 2010; Cerami et al., 2011], implicando varios retos que incrementan el inter es por las rutas biol ogicas. Entre 75
76
7. Extensi on de Rutas Biol ogicas en Humanos
dichos retos est a el crecimiento de la cantidad de informaci on experimental disponible, las limitaciones obvias en las bases de datos y los recursos de anotaci on, y las variadas deniciones sobre qu e constituye una ruta. Adicionalmente, en humanos, la des-regulaci on de los sistemas de se nalizaci on ha estado implicada en diversas patolog as, como el c ancer [Vogelstein and Kinzler, 2004], la degeneraci on neuronal, la atroa muscular, la inmunodeciencia y la diabetes [Sakharkar et al., 2007]. Como consecuencia de las distintas deniciones de ruta biol ogica encontradas en la literatura cient ca [Bader et al., 2006], su implementaci on no es la misma en bases de datos diferentes, como por ejemplo Reactome [Matthews et al., 2009], KEGG [Kanehisa and Goto, 2000] o MetaCyc [Caspi et al., 2010]. De hecho, existen esfuerzos dirigidos a desarrollar una forma est andar para representar, anotar y mostrar una visi on com un de las rutas biol ogicas (como Pathway Commons [Cerami et al., 2011]), pero se complica por las complejas diferencias, que en muchos casos se deben a criterios cient cos distintos sobre la denici on de una ruta. Debido a la naturaleza de integraci on de las rutas, se requiere un esfuerzo humano sustancial para construirlas. Los dise nadores expertos construyen una ruta despu es de leer e interpretar numerosos art culos cient cos [Kemper et al., 2010], quedando frecuentemente representada una ruta a trav es de interpretaciones conjuntas de hechos dispersos por la literatura [Kell and Oliver, 2004; Luciano and Stevens, 2007]. Adem as, distintos expertos podr an tener una interpretaci on diferente de los hechos. De forma que, ante el mismo conjunto de informaci on, el dise no de la ruta depende de qui en lo haga, variando el resultado nal en la inclusi on de algunas de las prote nas. Por todas estas razones, en este cap tulo existe un inter es por explorar las posibilidades de expandir rutas biomoleculares con prote nas potencialmente relacionadas, pero que no se incluyeron en la denici on original de las rutas. Estas prote nas adicionales, relacionadas con el mismo proceso biol ogico (tales como reguladores), no se consideraron como pertenecientes a la ruta por ruido en los procedimientos experimentales, por ausencia de informaci on en el momento del dise no o por la opini on personal de los expertos que la dise naron [Lu et al., 2007]. As , un reto a un pendiente es incluir estas prote nas en el proceso biol ogico en el que inuyen, siendo una tarea de dif cil generalizaci on por la variabilidad en la denici on de las rutas y por la falta de documentaci on en la que se basan las decisiones de los expertos que las denen, especialmente las razones por las que no se incluyen prote nas. Esta aproximaci on de extensi on de rutas diere de aquellas desarrolladas para descubrir nueva rutas [Karp et al., 2002; Adriaens et al., 2008; Prather and Martin, 2008], a trav es de redes de interacci on y otras caracter sticas de las secuencias. Es decir, extenderlas es distinto de predecir nuevas rutas. Cuando se conserva la denici on de la ruta original, el uso de homolog a es uno de los tiles para expandirlas [Korcsmaros et al., 2011]. Otra aproximaci enfoques m as u on es usar las anotaciones de dominios de las prote nas (por ejemplo las de InterPro [Hunter et al., 2009]), con las que se han extendido las rutas de KEGG [Frohlich et al., 2008]. Recientemente, se ha propuesto un m etodo alternativo para expandir rutas incorporando exclusivamente prote nas conectadas a la red por interacci on [Glaab et al., 2010]. Sin embargo, en esta tesis se propone el sistema de Extensi on basado en Representaci on Relacional (ERR) para extender rutas, usando principalmente caracter sticas extra das de las secuencias. El enfoque del sistema ERR est a relacionado con un conjunto de m etodos dise nados para predecir funci on por medio de combinaciones de propiedades de secuencia sencillas, usados en diferentes escenarios [Jensen et al., 2002b, 2003a; Bendtsen et al., 2004]. Entre estas
7.1. Denici on del Problema
77
aproximaciones, la m as similar a ERR es el m etodo ProtFun, desarrollado por el grupo de Soren Brunak, en particular cuando se emplea para asignar diferentes categor as de la ontolog a de Procesos Biol ogicos de Gene Ontology (GO-BP) a los genes humanos [Jensen et al., 2003a]. Hay que ser conscientes de que ambos sistemas, ProtFun y ERR, usan caracter sticas moleculares para predecir procesos biol ogicos, lo cual es aparentemente contradictorio, porque las entradas y el objetivo de predicci on no est an en el mismo nivel de funci on biol ogica. A pesar de ello, en esta tesis se considera un enfoque con sentido, porque el sistema ERR no busca caracter sticas comunes en la ruta global, sino propiedades espec cas asociadas a diferentes fragmentos de la ruta. Esta idea concuerda con la heterogeneidad impl cita de las rutas biol ogicas a nivel molecular. Metaf oricamente, al igual que para conseguir construir un edicio se necesita un conjunto de personas expertas en cada labor (arquitectos, alba niles, electricistas, transportistas, etc.), en una ruta biol ogica tambi en se necesita un grupo de prote nas encargadas de cada tarea particular (catalizar una reacci on, trasladar agua a trav es de la membrana, fosforilar un compuesto, enlazar con una mol ecula de ADN, etc.), porque no todos los miembros de la ruta realizan la misma tarea a nivel individual. As , al inducir conocimiento a partir de caracter sticas espec cas, las prote nas a nadidas se parecer an a algunas prote nas concretas de la ruta original, en vez de a todas ellas. El sistema ERR se concibe para resolver una tarea de predicci on de funci on, considerando que una ruta o proceso biol ogico (es decir, una funci on) se asigna a una prote na o gen. Tambi en se puede considerar como predicci on de pertenencia a un grupo de elementos relacionados (los que forman la ruta). Por lo tanto, el sistema se dise na de forma gen erica, para que se pueda aplicar a otros vocabularios de anotaci on funcional, incluso compartiendo datos. A continuaci on, se analizan en detalle las diferencias del sistema ERR con otros enfoques de anotaci on funcional muy semejantes; tanto frente a trabajos de perl m as biol ogico (Jensen y Brunak), como frente a otros de perl m as computacional (King y Vens). Por un lado, las diferencias m as importante con otros m etodos de predicci on basados s olo en secuencia y aplicables en ausencia de homolog a, como los desarrollados por Jensen y Brunak, son: 1) el uso de propiedades de secuencia m as simples, y 2) el uso de informaci on relacional (en este caso, las interacciones prote na-prote na y entre complejos). 1. ERR usa propiedades de secuencia muy simples, mientras que las aproximaciones de Jensen y Brunak usan caracter sticas complicadas (modicaciones post-traducci on, sitios de divisi on de pro-p eptidos, sitios de glicosilaci on, etc.). Estas propiedades se calculan a partir de la secuencia, pero necesitan un predictor dedicado a cada una, desarrollado en el grupo de Brunak, con complejos detalles internos que dicultan en gran medida que otros investigadores las pueden calcular. Sin embargo, las propiedades que usa el sistema ERR son muy sencillas (longitud, carga, etc.) y las puede obtener cualquier investigador f acilmente sin apenas procesamiento alguno. No obstante, el predictor resultante podr a ser menos potente. 2. ERR extiende rutas bas andose en una representaci on relacional. Porque, a parte de una colecci on de caracter sticas de la secuencia, este sistema tambi en usa informaci on extra da de una red de interacciones, en concreto conexiones entre prote nas. Esto hace que ERR se pueda considerar un m etodo de predicci on h brido, a medias entre los enfoques basados en redes y los basados en propiedades, descritos en la secci on B.3. La representaci on relacional permite incluir informaci on del contexto, como por ejemplo, las caracter sticas de la secuencia de un compa nero de interacci on. Este conocimiento del dominio es interesante porque puede inuir positivamente en la predicci on, aunque los datos no pertenezcan a las caracter sticas propias de la prote na principal. De este
78
modo, la representaci on relacional permite que el sistema ERR use una sosticada combinaci on de algoritmos de aprendizaje autom atico relacional y proposicional, de forma que primero se extraen patrones frecuentes relacionalmente y posteriormente se rboles de decisi inducen a on proposicionalmente. Por otro lado, se denen las diferencias m as importantes del sistema ERR frente a otros enfoques m as computacionales, que s usan datos y representaci on relacional, como son los trabajos desarrollados por King y/o Vens. Las divergencias principales son que ERR: 1) usa datos de entrada m as sencillos (sin homolog a), y 2) se aplica a un organismo m as complejo. 1. La predicci on en ausencia de homolog a (directa e indirecta), basada estrictamente en secuencia (consultar dicultades e implicaciones de este enfoque de predicci on de funci on en la secci on B.3.8), es la diferencia m as importante del sistema ERR con los previos mencionados, que aplican la misma combinaci on de aprendizaje relacional y proposicional para anotaci on de funci on. Principalmente se trata de los trabajos del grupo de King, aplicando el m etodo DMP (del ingl es, Data Mining Prediction) [King et al., 2000b] sobre datos de homolog a y otras m ultiples fuentes de informaci on (anotaciones, datos de expresi on, estructura terciaria, etc.), entre las que se incluyen atributos calculados a partir de alg un tipo de relaci on de similitud. Por ejemplo, en ltimos trabajos [Clare et al., 2006], con el m uno de sus u etodo DMP, se usan al menos tres fuentes de datos que implican homolog a, como son: anotaciones que se han podido producir por relaciones de similitud entre prote nas ort ologas, como los dominios InterPro; predicci on de estructura secundaria calculada con informaci on de similitud con el m etodo Prof [Ouali and King, 2000]; y la inclusi on directa de las relaciones de homolog a en predicados relacionales con su valor esperado (e-value) correspondiente. Con nes de an alisis, en el cap tulo 8 se estudia la inclusi on de relaciones de homolog a (indirecta y directa) para predecir anotaci on funcional, en las secciones 8.6 y 8.7. 2. Otra diferencia importante con los trabajos de King y derivados es que ERR se aplica a un organismo m as complejo, como es el humano, en vez de a especies procariotas o eucariotas simples. En concreto, King y Vens usan la misma combinaci on de aprendizaje relacional y proposicional para asignar t erminos de GO y MIPS a los genes de la especie vegetal Arabidopsis thaliana [Clare et al., 2006], y de la levadura Saccharomyces cerevisiae [Vens et al., 2008] (consultar m as detalles de la evoluci on de esta combinaci on en la secci on 2.3.1). En humanos, algunas asunciones para predicci on basada en secuencia no se cumplen (como la proximidad en el cromosoma), por lo que no se pueden aplicar, restringiendo m as la informaci on de entrada disponible para predecir. No obstante, hay que decir que el vocabulario de anotaci on al que se aplica el sistema ERR en este trabajo tiene menos t erminos que los vocabularios utilizados en los trabajos de King y derivados. En resumen, en comparaci on a otros enfoques semejantes, la tarea de predicci on por parte del sistema ERR se diculta notablemente. Por un lado, al limitar la informaci on de entrada a caracter sticas extra das s olo de la secuencia y que no incluyan homolog a directa ni indirecta (diferencia principal con trabajos de King) y, por otro lado, al intentar a su vez aprovechar el restante conocimiento relacional y s olo usar propiedades simples (diferencias principales con trabajos de Jensen y Brunak). Pero dichas limitaciones permiten que el sistema ERR sea aplicable a un conjunto restringido de prote nas, poco caracterizadas, sin informaci on experimental, ni hom ologos conocidos.
79
En este cap tulo se extienden las rutas del proteoma humano de Reactome [Matthews et al., 2009]. Se elige Reactome por ser una base de datos de rutas biol ogicas de autores expertos, revisada por pares y vericada manualmente, adem as de haberse usado ampliamente en otras investigaciones [Glaab et al., 2010; Jassal, 2011]. En las siguientes secciones se describe el sistema ERR y se presentan los resultados de la extensi on de Reactome, as como el an alisis de las prote nas predichas, tanto desde un punto de vista estad stico, como desde su interpretaci on a partir de sus anotaciones funcionales. Adem as, ERR se compara con otros m etodos del estado del arte que pueden resolver la misma tarea, pero basados en una informaci on de entrada diferente (s olo secuencia o s olo redes de interacci on).
7.2.
Diseno/Materiales y M etodos
En esta secci on se describe cu ales son las fuentes de datos originales, c omo se representa y agrupa dicha informaci on para aplicar algoritmos de aprendizaje relacional, y c omo obtener y aplicar un sistema que anote prote nas humanas con rutas metab olicas, de se nalizaci on y de regulaci on.
7.2.1.
Recopilaci on de Fuentes Originales de Datos
Para el desarrollo del sistema de predicci on se ha recopilado informaci on de diferentes fuentes para construir un conjunto de datos propio, dado que no existe ninguno sobre el que aplicar aprendizaje para afrontar este problema. Este incluye tanto caracter sticas individuales asociadas a las secuencias prote nicas y g enicas, como relaciones entre prote nas. Las secuencias de prote nas provienen de Ensembl [Hubbard et al., 2009], en concreto de la Enciclopedia de genes y variantes de genes (consorcio GENCODE) [Harrow et al., 2006] (tomadas de la versi on 3c de Marzo del 2010). Se trata de transcritos de Ensembl vericados manualmente y producidos por el grupo HAVANA (del ingl es, the Human and Vertebrate Analysis and Annotation) del instituto Welcome Trust Sanger, que forma parte del consorcio GENCODE. Tomando como entrada estas secuencias de amino acidos en formato FASTA, se calculan 3 propiedades num ericas asociadas a la secuencia de prote na (longitud, carga positiva y carga negativa) usando la herramienta BioWeka [Gewehr et al., 2007]. Se incluyen predicciones simples sobre las secuencias de prote nas (en concreto, si la prote na contiene alg un dominio transmembrana, de se nal o de h elice super-enrollada (del ingl es, coil-coiled) provenientes de Ensembl versi on 56 [Hubbard et al., 2009] (a trav es de BioMart [Smedley et al., 2009]). Las caracter sticas de la secuencia g enica (nombre del cromosoma, longitud, orientaci on del gen en el cromosoma y contador de transcritos o isoformas) se extraen tambi en de la misma versi on de Ensembl. Sobre los datos relacionales, se incluyen dos tipos de relaciones entre prote nas: interacciones prote na-prote na y complejos de prote nas, ambas representadas como parejas de prote nas. El primer grupo de datos relacionales consiste en pares de interacci on prote naprote na, extra dos del repositorio BioGRID (versi on 2.0.59) [Stark et al., 2006], que integra las bases de datos de interacci on m as importantes como MINT [Chatr-aryamontri et al., 2007], IntAct [Hermjakob et al., 2004b] y HPRD [Peri et al., 2003]. Se seleccionan los pares de BioGRID s olo de relaciones binarias f sicas, identicadas por los c odigos de evidencia Co-crystal structure, Far Western, FRET, PCA y Two-Hybrid. Los complejos de prote nas conforman el segundo grupo de relaciones. Cada complejo o grupo de prote nas se considera como un conjunto de pares de prote nas, ya que las bases de datos de complejos los representan
80
como pares independientes, y la informaci on disponible para reconstruir el complejo no es completa ni est a vericada para muchos casos. Los datos sobre complejos se extraen de la misma versi on de BioGRID, seleccionando en este caso las relaciones identicadas por los c odigos de evidencia Afnity Capture, Co-purication y Reconstituted complex. Finalmente, se toman los datos referentes al objetivo de anotaci on, es decir, las rutas biol ogicas de Reactome [Matthews et al., 2009]. En concreto, 37 de las 52 rutas de alto nivel para humanos, en su versi on 30. Estas 37 rutas se corresponden con aquellas que alcanzan un tama no m nimo de al menos 32 prote nas en la ruta original, m nimo necesario para aprender con el sistema ERR. En resumen, se recopilan 22.304 genes, 72.731 prote nas isoformas, 229.407 pares de interacci on prote na-prote na, 478.420 pares de interacci on en complejos y 37 rutas, con una media de 142 prote nas no redundantes por ruta. La secci on 7.2.4 describe en detalle el lenguaje de representaci on del conocimiento espec co para todos estos datos. Las fuentes de datos empleadas usan diferentes identicadores de genes y prote nas. Para unicarlos, todos los identicadores originales se mapean a los identicadores de Ensembl (de prote na, ENSP, o de gen, ENSG), usando el sistema de referencias cruzadas de BioMart [Smedley et al., 2009].
7.2.2.
Representaci on del Conocimiento
En esta secci on se presenta la conversi on del modelo E/R gen erico del BioRepositorio multi-relacional (propuesto en esta tesis en la secci on 5.3) para su aplicaci on a este problema espec co de extensi on de rutas biol ogicas, siguiendo las indicaciones de la secci on 5.4. Partiendo del modelo E/R global de la gura 5.1 para obtener el modelo E/R espec co de la gura 7.1 se utilizan bastantes entidades y relaciones de cada uno de los tipos generales (ver secci on 5.3), para cubrir la diversidad y restricciones del problema de extensi on de rutas en humanos. Se dene una entidad Prote na y otra Gen, con sus propiedades individuales cada una, y una relaci on se expresa en (ver tabla 5.1) con cardinalidad uno a muchos en humanos, representando la presencia de isoformas. La relaci on IPP es una simplicaci on de una relaci on pertenece a de la entidad Prote na con un Grupo Binario de dos prote nas que interaccionan, como en el problema descrito en el cap tulo 6. Lo mismo sucede para la relaci on binaria hom ologo, que representa dos prote nas humanas con alta similitud de secuencia. Del tipo de entidad Grupo N-ario del modelo global, en este modelo particular se denen dos entidades diferentes: Complejo y Ruta Biol ogica, cada una con su relaci on de tipo pertenece a (forma parte de y participa en, respectivamente) con la entidad Prote na. La relaci on participa en representa el objetivo de predicci on, y por ello aparece marcado en rojo en la gura 7.1. Del tipo de entidad Anotaci on se denen dos entidades principales (Dominio y Anotaci on Multi-valuada), con varias sub-entidades asociadas a cada una (ver gura 7.1). A su vez, cada una est a relacionada con la entidad Prote na mediante una relaci on de tipo anotada con (tiene y anotada con, respectivamente), heredadas por sus sub-entidades. Las 3 sub-entidades de Dominio pueden existir a la vez, asociando un valor booleano a la prote na. De la misma forma, las 3 sub-entidades de Anotaci on Multi-valuada (GO, Pfam e InterPro), pueden tomar varios valores diferentes de cada una de las cinco categor as inferiores para una misma prote na, por lo que no basta con un simple atributo asociado a la entidad Prote na. Mientras que en este cap tulo las relaciones usadas se limitan a interacciones prote naprote na y en complejos, las entidades y relaciones asociadas a Anotaci on Multi-valuada y

0:N
81
tiene
Dominio
Gen
D.seal
1:N
D.hlice
se expresa en
D.transmembrana
N:M homlogo
Protena
anotada con 0:N
Anotacin Multi-valuada
N:M IPP Pfam InterPro
GO
2:N forma parte de 0:N 2:N participa en 0:37
GO-BP Complejo Ruta Biolgica
GO-MF
GO-CC
Figura 7.1: Modelo Entidad/Relaci on para extensi on de rutas biol ogicas en humanos. En rojo, el objetivo de predicci on. Sombreado en gris, las entidades y relaciones que s olo se utilizan en el cap tulo 8.
hom ologo, sombreadas en gris en la gura 7.1, se utilizan en el cap tulo 8. En particular, en las secciones 8.5 y 8.6 se realiza un an alisis de la inuencia de la informaci on relacional en el aprendizaje para anotaci on funcional, empleando estas otras fuentes de relaciones adicionales.
7.2.3.
Construcci on de Conjuntos de Datos
En las siguientes sub-secciones se detalla la construcci on de los conjuntos de datos que se necesitan para resolver el problema planteado con aprendizaje autom atico. Por un lado, el conjunto de entrenamiento y el de test, etiquetados con las anotaciones de Reactome, con los que se construye y valida el modelo. Por otro lado, el conjunto de aplicaci on, con las prote nas no anotadas, con las que se extienden las rutas de Reactome. Conjuntos de Entrenamiento y Test Dado que la hip otesis de partida es predecir rutas bas andose s olo en caracter sticas de la secuencia, no en homolog a, el objetivo en este trabajo es capturar propiedades funcionales de las secuencias, no similitudes entre cadenas de amino acidos. Por lo tanto, se construye un conjunto de datos no redundante. De esta forma, en el proceso de aprendizaje se evitan
82
sesgos en la evaluaci on del rendimiento de la predicci on, debidos a relaciones indirectas entre prote nas similares en los conjuntos de entrenamiento y test, comentadas en [Hobohm et al., 1992] y en el cap tulo 8, en la secci on 8.8. La reducci on de redundancia es un proceso conservador t pico, siendo la mejor opci on cuando la relaci on entre el origen evolutivo y las caracter sticas de la secuencia no es f acil de determinar. Como desventaja, el tama no del conjunto de datos decrece en un porcentaje elevado, al tener que ignorar muchas prote nas anotadas. Se elimina la redundancia en dos aspectos distintos: isoformas y similitud de secuencia. Un mismo gen se puede expresar dando lugar a varias prote nas o transcritos, llamados isoformas, por procesos de ensamblaje alternativo. Aunque habitualmente no se utilice en la predicci on de anotaci on, hay que tener presente que en este trabajo el n umero de isoformas se preserva en el aprendizaje como una caracter stica de la secuencia g enica. Sin embargo, para reducir la redundancia del conjunto de datos, se selecciona s olo una forma principal entre todas las prote nas expresadas desde el mismo gen. En este caso, se dene la isoforma principal como la prote na con el n umero m as alto de anotaciones en Reactome, ya que es el objetivo de predicci on. Si varias isoformas tienen el mismo n umero de anotaciones, la secuencia m as larga se considera la forma principal. Tras la eliminaci on de redundancia por isoformismo, el n umero de prote nas decrece de 72.731 a 3.510 isoformas principales con anotaci on en Reactome. Cabe destacar que m as del 97 % de las isoformas con m as anotaciones en Reactome coinciden con las isoformas de mayor longitud. Seg un los estudios publicados [Tress et al., 2008], lo razonable ser a que coincidieran hasta aproximadamente un 75 % de las isoformas. As , este 97 % podr a indicar que en las bases de datos asignan expl citamente las anotaciones conocidas a la prote na isoforma de mayor longitud, aunque no se haya experimentado expl citamente con ella, incluyendo imprecisi on en los datos, como ocurre con frecuencia en los problemas de Biolog a Molecular. Otra alternativa para seleccionar la isoforma principal ser a utilizar el m etodo APPRIS [Rodr guez et al., 2012], actualmente en desarrollo, que combina diferentes fuentes de informaci on para una denici on m as able de la isoforma principal. A continuaci on, sobre el conjunto previo de prote nas sin isoformas, se realiza una reducci on por similitud de secuencia, basada en alineamientos BLAST [Altschul et al., 1990]. Se utiliza uno de los dos algoritmos de Hobohm [Hobohm et al., 1992], originarios de la herramienta PDBselect [Hobohm et al., 1992], que posteriormente se han ampliado [Griep and Hobohm, 2010] y usado en estudios previos [Emanuelsson et al., 1999; Jensen et al., 2003a; Wang et al., 2009]. El algoritmo Hobohm 2 maximiza el tama no del conjunto no redundante de salida, en un n umero m nimo de pasos. El algoritmo elimina toda prote na del l, yendo de las de mayor similitud a las de conjunto que tiene alguna otra similar dentro de e menos. Se implementa una ligera modicaci on de este algoritmo, con una medida de similitud basada en secuencia en vez de en estructuras. En el algoritmo Hobohm 2 original se utiliza como medida de similitud de prote nas la funci on HSSP [Sander and Schneider, 1991]. Dicha funci on est a basada en el mismo algoritmo de alineamiento de secuencias con programaci on din amica [Smith and Waterman, 1981] que usa BLAST [Altschul et al., 1990], y aqu se usan los resultados de BLAST como medida de similitud. Adicionalmente, el algoritmo Hobohm 2 original aplica un umbral por homolog a estructural que aqu no se usa. Otras opciones para obtener un conjunto no redundante ser an usar la base de datos sin hom ologos PDB select [Hobohm et al., 1992; Griep and Hobohm, 2010] (que busca prote nas con estructuras 3D diferentes almacenadas en PDB [Berman et al., 2000]), o las herramientas CD-HIT [Li and Godzik, 2006] o RedHom [Lund et al., 1997], que reducen un conjunto de secuencias a un subconjunto representativo con baja similitud de secuencia. Una tercera
83
opci on, que reduce menos el tama no del conjunto resultante, ser a restringirse a eliminar las prote nas redundantes entre los conjuntos de entrenamiento y test (como se hace en [Jensen et al., 2003a]), sin necesidad de que absolutamente todas las prote nas de un mismo conjunto sean no redundantes entre s , independientemente de d onde est en, como s se asegura al decidir aplicar el algoritmo de Hobohm. Se calcula la similitud de secuencia en el proteoma humano completo con BLASTP [Altschul et al., 1997] sobre las secuencias FASTA de HAVANA (ver secci on 7.2.1). Los par ametros de BLASTP, diferentes de la conguraci on por defecto, son: 0,01 como umbral sobre el valor esperado (e-value), 500 secuencias de salida como m aximo y BLOSUM62 como matriz de puntuaci on entre amino acidos. Tras la ejecuci on de BLASTP, se aplica un ltro para obtener todos los pares de prote nas similares con una identidad de secuencia superior al 30 %. La reducci on por similitud de secuencia sobre el conjunto de secuencias isoformas principales deja 1.654 prote nas anotadas en las 37 rutas de Reactome consideradas. Estas prote nas se dividen aleatoriamente en dos tercios para el conjunto de entrenamiento (1.108 prote nas) y un tercio para el conjunto de test (546 prote nas). Finalmente, no hay redundancia ni entre el conjunto de entrenamiento y el de test, ni dentro de cada conjunto entre s . Conjunto de Aplicaci on Por otro lado, de las prote nas presentes en las 37 rutas de Reactome de inter es, 18.794 no est an anotadas (22.304 isoformas principales menos las 3.510 con alguna anotaci on en Reactome). Igual que el conjunto de prote nas anotadas, el conjunto de prote nas no anotadas debe ser no redundante. Primero, se eliminan todas las prote nas similares en secuencia con las prote nas de los conjuntos de entrenamiento y test, quedando 14.016 prote nas. Segundo, sobre las prote nas resultantes se ejecuta la implementaci on modicada del algoritmo Hobohm 2 descrita previamente, reduciendo el conjunto de aplicaci on a 8.187 prote nas, que no tienen similitud de secuencia, ni entre ellas, ni con el conjunto de entrenamiento ni con el de test. Estas 8.187 prote nas no anotadas en Reactome se usan como entrada para expandir las rutas, a trav es del sistema de predicci on ERR presentado en este cap tulo. Estas prote nas son no redundantes, pero no se descarta que sus hom ologos pudieran expandir la misma ruta.
7.2.4.
Lenguaje de Representaci on del Conocimiento
En las rutas biol ogicas, las interacciones prote na-prote na y los complejos de prote nas son relaciones importantes. Por lo tanto, se ha decidido incluir estos tipos de interacciones en el proceso de aprendizaje, como informaci on relacional que pueda inuir en la predicci on nal. En el Aprendizaje Autom atico cl asico, los datos se representan de forma proposicional. Es decir, se tiene una tabla, con una la por prote na, y una lista de columnas (o caracter sticas) para cada prote na espec ca. La representaci on proposicional de los datos recopilados en este estudio requerir a miles de atributos booleanos por prote na: uno para cada uno de los potenciales compa neros de interacci on en el proteoma completo. Adem as, la mayor a de las columnas tomar an valor falso. Por el contrario, en una representaci on relacional [Dzeroski and Lavrac, 2001], es suciente con denir un predicado binario y, en caso de que la pareja de interacci on exista realmente, incluir una instancia de dicho predicado, de forma exible. La representaci on relacional tambi en permite tener en cuenta las propiedades de secuencia del compa nero de interacci on en el aprendizaje, a trav es de enlaces por su identicador. Por ejemplo, se podr a anotar una prote na A con la ruta tr aco de membrana, justicando que la
84
prote na A tiene una interacci on en un complejo con una prote na B que contiene un dominio transmembrana. Por lo tanto, el enfoque relacional permite una representaci on m as intuitiva para conceptos relacionados, y facilita la inclusi on de informaci on adicional asociada a una relaci on entre objetos. El principal lenguaje de representaci on relacional es la programaci on l ogica, un subconjunto de la l ogica de primer orden, tambi en llamada l ogica de predicados, donde cada elemento es un predicado. Todos los datos recopilados, descritos en la secci on 7.2.1, se representan como predicados en sintaxis Prolog (ver la gura 7.2 con el lenguaje de representaci on completo, y la gura 7.3 con un ejemplo con datos concretos de un par de prote nas). Esta representaci on permite aplicar Aprendizaje Relacional.
protein(proteinID,length,positiveCharge,negativeCharge). protein_class(proteinID,reactomeID). protein_gene(proteinID,geneID). gene(geneID,chrName,length,strand,numTranscriptsOrIsoforms). transmembrane_domain(proteinID). ncoils_domain(proteinID). signal_domain(proteinID). ppinteraction_pair(proteinID,proteinID). complex_interaction(proteinID,proteinID). // discretized(gene(A,B,C,D,E),[C],[5715,20226]).. // discretized(gene(A,B,C,D,E),[E],[1,3]) // discretized(protein(A,B,C,D),[B],[300,396,629]). // discretized(protein(A,B,C,D),[C],[0.086957,0.109316,0.129964]). // discretized(protein(A,B,C,D),[D],[0.072897,0.110656,0.133171]). gene(+ID,W,X,Y,Z), X < 3860. gene(+ID,W,X,Y,Z), X > 30447. gene(+ID,W,X,Y,Z), Z = 1. gene(+ID,W,X,Y,Z), Z > 4. protein(+ID,X,Y,Z), X < 300. protein(+ID,X,Y,Z), X > 629. protein(+ID,X,Y,Z), Y < 0.086957. protein(+ID,X,Y,Z), Y > 0.129964. protein(+ID,X,Y,Z), Z < 0.072897. protein(+ID,X,Y,Z), Z > 0.133171.
Figura 7.2: Lenguaje de representaci on del conocimiento en el dominio de predicci on o extensi on de rutas metab olicas.
Para incrementar la expresividad de los argumentos num ericos de los predicados protein/4 y gene/5, se discretizan en 4 particiones (ver los resultados en las l neas discretizedde la gura 7.2), y se a naden comparaciones num ericas al lengua ltimas l je de representaci on (ver diez u neas de la gura 7.2). As , se consigue discriminar los valores del primer cuartil (los valores m as bajos) y del cuarto cuartil (los valores m as altos). Estos cuartiles representan, por ejemplo, secuencias cortas (protein(+ID,length,A,B), length <300), secuencias cargadas positivamente (protein(+ID,A,positiveCharge,B), positiveCharge >0.129964) o genes con muchos transcritos (gene(+ID,A,B,C,transcripts), transcripts >4).
7.2.5.
M etodo de Predicci on
El sistema de Extensi on basado en Representaci on Relacional (ERR) propuesto se divide en dos pasos: primero, extraer patrones frecuentes relacionales y, segundo, aplicar un algoritmo

protein(ENSP00000299992,1775,0.065916,0.092394). length > 629 /*secuencia de prote na larga*/ posCharge < 0.086957 /*baja carga positiva*/ transmembrane_domain(ENSP00000299992). signal_domain(ENSP00000299992). protein_gene(ENSP00000299992,ENSG00000166763). gene(ENSG00000166763,15,118700,-1,3). protein(ENSP00000373536,230,0.134782,0.104348). length < 300 /*secuencia de prote na corta*/ posCharge > 0.129964 /*alta carga positiva*/ protein_gene(ENSP00000373536,ENSG00000165863). gene(ENSG00000165863,10,6275,-1,3). ppinteraction_pair(ENSP00000373536,ENSP00000340995). ppinteraction_pair(ENSP00000373536,ENSP00000363440). ppinteraction_pair(ENSP00000373536,ENSP00000363453). ppinteraction_pair(ENSP00000373536,ENSP00000379226). ppinteraction_pair(ENSP00000373536,ENSP00000395815). ppinteraction_pair(ENSP00000373536,ENSP00000410143).
85
Figura 7.3: Ejemplos de representaci on del conocimiento en el dominio de predicci on o extensi on de rutas metab olicas.
rbol de decisi de construcci on de un a on proposicional. Esta descomposici on de la predicci on en dos, aunque con otras conguraciones y datos, ya se ha aplicado en otros trabajos previos relacionados con anotaci on funcional, con herramientas distintas [Clare et al., 2006] o iguales [Vens et al., 2008], con las diferencias que se comentan en la secci on 7.1. Otra opci on posible ser a utilizar un m etodo de predicci on de un solo paso, bien relacional o bien proposicional, enfoques desarrollados y analizados en el cap tulo 8, secci on 8.4. En el primer paso, se extraen los patrones frecuentes (es decir, una secuencia relevante de predicados) con WARMR [Dehaspe and Raedt, 1997], un algoritmo de extracci on de reglas de asociaci on en l ogica de primer orden, el cual toma como entrada un conjunto de datos relacional. Est a implementado en la herramienta ACE [Blockeel et al., 2000, 2006a]. WARMR encuentra todos los patrones que satisfacen un sesgo del lenguaje y cubren una frecuencia m nima en el conjunto de datos de entrada. Hace una b usqueda por niveles, t ecnica similar a la del algoritmo APRIORI [Agrawal et al., 1996], r apida y eciente para bases de datos grandes. APRIORI limita la generaci on de patrones con los valores de soporte (proporci on de ejemplos que cumplen el patr on) y conanza. Pero siempre a nade los atributos de manera indiscriminada, sin guiar la b usqueda de patrones frecuentes entre elementos relacionados, como s permite WARMR. Sin embargo, WARMR, al seguir un enfoque relacional, permite delimitar la generaci on de patrones frecuentes seg un el tipo de los argumentos y las relaciones entre los predicados, no s olo por profundidad como en la versi on proposicional (APRIORI). En este problema se aplica WARMR a las prote nas de cada ruta independientemente. De esta forma, se extraen los patrones frecuentes que caracterizan cada ruta particular. Despu es, se unen los patrones frecuentes para todas las rutas o se mantienen individualmente para construir el sistema predictor. Finalmente, cada patr on frecuente es una entrada del siguiente paso, la rbol de decisi inducci on del a on, con un algoritmo proposicional, transformando cada patr on en un atributo booleano, dependiendo de si el patr on es satisfecho o no por la prote na particular. rboles de decisi En el segundo paso, se construyen a on relacionales usando el sistema rbol de agrupaci CLUS [Blockeel et al., 1998]. Este sistema implementa el marco de a on de rboles de decisi predicci on (del ingl es, predictive clustering tree framework), que induce a on
86
rbol de decisi con un algoritmo similar a C4.5 [Quinlan, 1993], aunque viendo un a on como una jerarqu a de agrupaciones. El nodo ra z es una agrupaci on con todas las instancias, el cual se divide recursivamente en grupos m as peque nos, de tal forma que la variaci on intraagrupaciones se minimice. Con esta idea, este marco permite afrontar problemas de predicci on rboles de decisi m as complejos. Se elige CLUS en vez de otros algoritmos de inducci on de a on porque CLUS nos permite realizar un aprendizaje multi-clase y multi-etiqueta f acilmente. Esto se corresponde con el presente problema de anotaci on de rutas, debido a que el n umero de posibles rutas con las que anotar una prote na es mayor que dos (multi-clase) y cada prote na podr a pertenecer a m as de una ruta (multi-etiqueta). rboles de decisi El o los a on relacionales obtenidos despu es de aplicar WARMR y CLUS a los datos recopilados, permite asociar nuevas prote nas a las rutas de Reactome. La gura 7.4 muestra un esquema del m etodo h brido de predicci on, descrito en esta secci on, aplicado sobre datos concretos, siguiendo la representaci on del conocimiento en predicados l ogicos utilizada en este problema.
protein('ENSP00000360860',482,0.145228,0.147303). protein('ENSP00000414042',434,0.145162,0.142857). protein('ENSP00000308292',283,0.091873,0.166078). ... ncoils_domain('ENSP00000409350'). ncoils_domain('ENSP00000005259'). transmembrane_domain('ENSP00000299992'). signal_domain('ENSP00000299992'). signal_domain('ENSP00000398296'). ... protein_gene('ENSP00000417064','ENSG00000183938'). protein_gene('ENSP00000370639','ENSG00000196433'). ... gene('ENSG00000183938','9',466,1,2). gene('ENSG00000196433','X',28081,1,4). gene('ENSG00000166763','15',118700,-1,3). ... ppinteraction_pair('ENSP00000000412','ENSP00000245541'). ppinteraction_pair('ENSP00000001008','ENSP00000410881'). ppinteraction_pair('ENSP00000214870','ENSP00000252597'). ppinteraction_pair('ENSP00000221891','ENSP00000360280'). ...
protein(A,B,C,D),B<300, protein(A,E,F,G),F>0.129964
s
signal_domain(A), protein(A,B,C,D),B<300
no
ppinteraction_pair(A,B), not(B=A),ncoils_domain(B)
s
REACT_6167 REACT_1505 REACT_604 ... [0.1836] [0.3695] [0.0123]
no . . .
s . . .
...
no
...
...
PREDICADOS LGICOS
RBOL DE DECISIN RELACIONAL
WA RM R
US CL
freq(2,1,[ncoils_domain(A)],0.391304347826087). freq(2,2,[ppinteraction_pair(A,B),not(B=A)],0.347826086956522). freq(2,7,[protein_gene(A,B),gene(B,C,D,E,F),D>30447],0.782608695652174). freq(2,6,[protein(A,B,C,D),B<300],0.37037037037037). freq(3,6,[ppinteraction_pair(A,B),not(B=A),ncoils_domain(B)],0.260869565217391). freq(3,63,[protein_gene(A,B),gene(B,C,D,E,F),D>30447,protein(A,G,H,I),G>629],0.608695652173913). freq(3,1,[id(A),transmembrane_domain(A),signal_domain(A)],0.259259259259259). freq(3,3,[id(A),transmembrane_domain(A),protein(A,B,C,D),D<0.072897],0.391891891891892). ....
PATRONES FRECUENTES
Figura 7.4: Esquema m etodo de predicci on del sistema de extensi on de rutas de Reactome en humanos.
7.2.6.
Aplicaci on a Prote nas Desconocidas
En este trabajo se expanden las rutas de Reactome aplicando el sistema dise nado a prote nas no anotadas, es decir, al conjunto de aplicaci on (ver secci on 7.2.3). Dicho conjunto contiene 8.187 prote nas sin anotaci on en Reactome, no redundantes (ni isoformas, ni similares en secuencia) con ninguna prote na anotada (usadas en entrenamiento y test), ni entre s . El sistema de aprendizaje asocia una lista de probabilidades a posteriori a cada prote na que clasica. As , cada prote na tiene una probabilidad para cada ruta. Por lo tanto, se debe
87
seleccionar una lista de umbrales para discriminar entre qu e prote nas se predicen como pertenecientes a cada ruta y cu ales no. El umbral podr a ser el mismo para todas las clases, incluso tomar uno por defecto al 0,5. Pero en este dominio, como las rutas son muy diferentes entre s , y por lo tanto los valores de probabilidad tambi en divergen mucho, no ser a razonable nico, que funcionar establecer un umbral u a bien en algunas clases y mal en otras. Entre m ultiples opciones, en este trabajo se selecciona la siguiente combinaci on como criterio razonable: Se establece la expansi on de cada ruta en un m aximo situado en el 20 % del tama no de esa ruta original, sin contar las prote nas redundantes. Para cada ruta, se ordenan las prote nas del conjunto de aplicaci on por valor de probabilidad de predicci on decreciente. A continuaci on, ltimo cambio de valor de probabilidad antes de se seleccionan todas las prote nas hasta el u alcanzar el 20 % del tama no de la ruta. Si no hay un cambio de probabilidad antes del 20 %, el sistema no expande esa ruta con ninguna prote na. El umbral de predicci on de cada ruta es el valor de probabilidad m as bajo del conjunto de prote nas seleccionadas en el conjunto de aplicaci on.
7.2.7.
Sistemas de Anotaci on
El m etodo de predicci on descrito en la secci on 7.2.5 puede generar muchos sistemas de anotaci on diferentes, dependiendo de los par ametros de conguraci on. Algunos de los par ametros m as relevantes son la frecuencia m nima y la profundidad m axima en WARMR, nico a rbol de los niveles de poda en CLUS, la resoluci on del problema multi-clase con un u rboles decisi on multi-clasicador (como se hace en el cap tulo 8, en la secci on 8.2) o con N a binarios, la extracci on de los patrones frecuentes de una o de todas las rutas a la vez (cuya inuencia se analiza en el cap tulo 8, en la secci on 8.3), la medida de probabilidad asociada a cada predicci on, etc. rbol de decisi En un a on cada rama, desde la ra z a una hoja, es equivalente a una regla de decisi on. En el presente problema, cada regla explica por qu e una prote na se anota en esa ruta rbol mediante una conjunci on de patrones frecuentes. As , dos reglas procedentes del mismo a describen formas alternativas de extender una ruta. En esta aplicaci on biol ogica, se busca extender una misma ruta con prote nas diversas, acorde a la variabilidad molecular de las prote nas que conforman la ruta (ver secci on 7.1). Ya que pueden existir criterios alternativos que relacionen la ruta original con las prote nas que la extienden (por ejemplo, localizaci on celular com un, interacci on f sica con la ruta, implicaci on conjunta en causar una enfermedad, etc.), se necesita una gran diversidad de reglas entre aquellas que extienden cada ruta. Teniendo en cuenta la versatilidad permitida por los par ametros de conguraci on y la diversidad de reglas buscada, despu es de una extensa experimentaci on con conguraciones diferentes, se encuentran dos soluciones distintas: el sistema ERR-PRyC (ERR que Prioriza el Rendimiento y la Cobertura), con el mejor rendimiento evaluado sobre el conjunto de test. el sistema ERR-PDR (ERR que Prioriza la Diversidad de Reglas), con un equilibrio/compromiso entre una p erdida en rendimiento y una elevada variabilidad de reglas en el conjunto de aplicaci on. Se decide considerar dos sistemas alternativos porque, tras extender las rutas de Reactome con el sistema de anotaci on que s olo prioriza el rendimiento, la variedad de las reglas aplicadas
88
sobre las prote nas no anotadas no alcanza el objetivo esperado. Es decir, se necesita seguir una selecci on del modelo guiada tambi en por la diversidad de reglas. A pesar de las m ultiples modicaciones en la conguraci on, no se puede conseguir una mejora en la diversidad de sta s reglas si e olo se mide y eval ua sobre los conjuntos de entrenamiento y test, durante el proceso de aprendizaje. Esto se debe a las restricciones biol ogicas, tales como la casi ausencia de homogeneidad entre los conjuntos de entrenamiento y test (rutas originales) y el conjunto de aplicaci on (prote nas no anotadas), en t erminos del n umero de reglas aplicadas y de la cantidad de prote nas que cumple cada regla. Por lo tanto, de cara a la aplicaci on biol ogica, se decide dise nar una estrategia ad-hoc que incremente la diversidad de reglas a la vista del conjunto de aplicaci on (o de prote nas no anotadas) disponible. Para ello, entre la selecci on de los par ametros posibles, se elige construir un clasicador individual para cada ruta y no rboles de decisi podar los a on. La salida de esta estrategia es el sistema de Extensi on basado en Representaci on Relacional que Prioriza la Diversidad de Reglas (ERR-PDR). La diferencia de conguraci on m as importante entre ambos sistemas de extensi on es la medida de la probabilidad asociada a cada predicci on. El sistema que prioriza el rendimiento rbol de decisi s olo usa la probabilidad de salida del a on correspondiente. Mientras que el sistema que prioriza la diversidad de reglas tiene en cuenta la similitud sem antica entre las prote nas que cumplen la misma regla en el conjunto de entrenamiento, as como el n umero de patrones evaluados en la regla. La similitud sem antica seleccionada mide la compacidad funcional a nivel molecular del fragmento de la ruta descrito por la regla espec ca. De esta forma, el sistema ERR-PDR preere reglas que cubren un grupo de prote nas coherentes en t erminos de propiedades moleculares, en vez de valorar exclusivamente una precisi on alta. La gura 7.5 detalla la conguraci on de ambos sistemas. El estimador-M al que se hace referencia en la gura 7.5 corrige la probabilidad directa de rbol para hacer el sistema m salida del a as robusto. Se aplica en todos los sistemas ERR que se presentan en esta tesis, como mejora de las predicciones frente al uso de la frecuencia de clase relativa simple. La estimaci on-M que se aplica es la propuesta por CLUS, donde se asume un conjunto virtual de ejemplos adicionales a la hora de calcular la probabilidad de predicci on rbol. Se considera el conjunto virtual de tama positiva de una hoja del a no 1, estimando entonces cu antos son positivos con la frecuencia de esa clase en el conjunto completo de datos. As , para cada regla, la probabilidad corregida es la suma de los ejemplos positivos que se clasican en la hoja correspondiente m as la frecuencia de clase, dividido entre la cantidad total de ejemplos que se clasican en la hoja (acertados o no) m as 1 ejemplo adicional.
89
Sistema ERR-PRyC
Extraer patrones frecuentes: Para cada ruta por separado (en vez de todas a la vez). Parametros WARMR (distintos a valores por defecto): frecuencia m nima de 0,005 y profundidad maxima de 5. Aplicar algoritmo arbol de decision: 37 arboles binarios individuales, uno por ruta (en vez de un arbol multi-clasicador unico). Estrategia uno-contra-todos para denir los ejemplos negativos. de los patrones Atributos: iguales para todos los arboles de decision: union frecuentes de todas las rutas (eliminando patrones repetidos y/o redundantes). 12.144 patrones frecuentes. Poda: no (valor por defecto en CLUS). Probabilidad de pertenecer a una ruta, asociada a cada regla clasicadora: probabilidad = f recuencia relativa de clase corregida con estimador M Sistema ERR-PDR Extraer patrones frecuentes: Para cada ruta por separado (en vez de todas a la vez). Parametros WARMR (distintos a valores por defecto): frecuencia m nima de 0,2 y profundidad maxima de 4. Aplicar algoritmo arbol de decision: 37 arboles binarios individuales, uno por ruta (en vez de un arbol multi-clasicador unico). Estrategia uno-contra-todos para denir los ejemplos negativos. Atributos: diferentes para cada arbol de decision: solo patrones frecuentes extra dos de la ruta concreta. 247,2 patrones frecuentes por ruta, en media; con t desviacion pica de 117,3. Poda: no (valor por defecto en CLUS). Probabilidad de pertenecer a una ruta, asociada a cada regla clasicadora: probabilidad = donde: Similitud corregida SimGOMF = = SimGOM F + (SimGOM F F actor de diversidad) 2 similitud sema ntica (en te rminos de F uncio n M olecular de GO) calculada entre todas las prote nas de entrenamiento, por ruta y por regla. Si la regla cubre so lo una prote na, SimGOM F = 0. 1 1 nu m. patrones f recuentes de la regla Similitud corregida + F recuencia relativa de clase corregida 2 (7.2) (7.1)
Factor de diversidad
La Similitud semantica se calcula como la media de similitud entre todas las combinaciones de prote nas del conjunto, por pares, con la medida de similitud de Jiang y Conrath [Jiang and Conrath, 1997], usando el paquete GOSemSim [Yu et al., 2010] de R.
Figura 7.5: Conguraci on detallada de sistemas de extensi on de rutas priorizando rendimiento y cobertura (ERR-PRyC) o diversidad de reglas (ERR-PDR).
90
7.2.8.
Esquema Resumen Sistema de Aprendizaje
La gura 7.6 resume el sistema descrito en las secciones previas, utilizado en este trabajo para extender rutas de Reactome en humanos con prote nas adicionales.
predictores simples:
eJEnsembJ
Ncoils TMHMM SignalP
,-M INT
...
l:tmlij;Jlll
Bio
;;;eactome
Train y test
Reducir redundancia
No Anotadas
Predicados lgicos
Protenas Humanas Isoformas
1.654
72.731
8.187
WARMR
ERR-PRyC
Patrones frecuentes
CLUS
REACT_6167 REACT_1505 REACT_604 ... [ 0. 1836] [ 0. 3695] [ 0. 0123] ...
...
...
ERR-PDR
rboles de Decisin
Repositorio Predicados Lgicos
Protena nueva
patrn patrn patrn patrn ... patrn
1 2 3 4
verdad falso falso verdad
n verdad
protena clase01 0.643 clase02 0.077 clase03 0.153 ... claseM 0.856
Figura 7.6: Esquema sistema de extensi on de rutas de Reactome en humanos.
7.3.
7.3.1.
Resultados
Evaluaci on del Rendimiento de la Predicci on
El objetivo de esta secci on es analizar c omo rinden los sistemas de expansi on de rutas, tanto para una visi on global como para cada ruta independiente. Este an alisis computacional de los resultados de aprendizaje se eval ua con las curvas PR (ver cap tulo 4). Esta medida de evaluaci on concuerda con la distribuci on de clases altamente sesgada de este problema y con un mayor inter es en este dominio por las predicciones positivas frente a las negativas (es decir, prote nas que expanden alguna ruta frente a las que no expanden ninguna) [Davis and Goadrich, 2006]. Sin embargo, tambi en se presenta la evaluaci on con la curva ROC equivalente para los lectores habituados a ella.
7.3. Resultados
91
Evaluaci on Global Se preere la media-macro frente a la media-micro [Yang, 1999; Sebastiani, 2002] a la hora de combinar, en una medida global, las medidas individuales de rendimiento para las reas bajo la 37 rutas de Reactome. Esto signica dar preferencia a la media de todas las a rea bajo la curva de la media de todas las rutas (media-micro). curva (media-macro) frente al a Se selecciona esta opci on porque la media-macro no sesga el resultado hacia las clases m as frecuentes, proporcionando una visi on homog enea de los resultados para todas las clases [Vens et al., 2008]. Para un an alisis m as detallado sobre la inuencia de elegir la media-micro o media-macro en problemas multi-clase consultar las secciones 4.2.1 y 8.2.3. La gura 7.7(a) muestra la media-macro de las curvas PR para los sistemas ERR-PRyC y ERR-PDR, el clasicador aleatorio y el clasicador por defecto. El clasicador por defecto se rbol de decisi nica hoja, el cual proporciona las frecuencias corresponde con un a on de una u de clase como probabilidades de predicci on, para cualquier prote na dada. La gura 7.7(b) representa las curvas ROC equivalentes, donde la diferencia entre ambos sistemas es menor que en las PR.
(a) Curvas PR.
(b) Curvas ROC.
Figura 7.7: Curvas media global para todas las rutas: (a) curvas PR y (b) curvas ROC.
nica de rendimiento se elige el a rea bajo la curva (AUC, del Como medida cuantitativa u ingl es, Area Under Curve) de la PR, y de forma alternativa tambi en de la ROC. As , en t erminos cuantitativos medios, los sistemas ERR-PRyC y ERR-PDR logran un AUPRC de 0,1695 y 0,1337, respectivamente, y un AUROC de 0,7028 y 0,6914. Aunque los valores de AUPRC y AUROC no son muy altos (a un siendo mayores que los de la expansi on de rutas aleatoria y por defecto), para la evaluaci on de estos resultados se debe tener en cuenta la denici on de las rutas originales (ver discusi on en secci on 7.8). Evaluaci on por Clase/Ruta Cuando se analiza el comportamiento por ruta o clase independiente, se puede observar que existe una gran variedad en los niveles de rendimiento, siendo la expansi on de unas rutas mejor predicha que la de otras; como se muestra en el anexo D, en las tablas D.1 y D.2 detalladas por ruta, para el sistema ERR-PRyC y ERR-PDR, respectivamente. As , 16 rutas tienen un AUPRC 3 rutas presentan un AUPRC mayor que la media (extensiones de rutas de alta abilidad), y 2 o
92
peor que la extensi on aleatoria o por defecto correspondiente a esa ruta (extensiones con baja abilidad, sombreadas en rosa en las tablas D.1 y D.2). Las guras 7.8(a) y 7.8(b) presentan dos ejemplos de curvas PR para rutas individuales, con una extensi on de alta y baja abilidad, respectivamente.
(a) Transporte transmembrana de mol eculas (b) Metabolismo de carbohidratos (REACT peque nas (REACT 15518). 474).
Figura 7.8: Curvas PR: (a) ruta individual extendida con alta abilidad y (b) ruta individual extendida con baja abilidad.
El sistema ERR-PRyC es mejor que el ERR-PDR en rendimiento global. Sin embargo, por rutas individuales, el orden del AUPRC de las rutas var a entre ambos sistemas. Adem as, algunas rutas las extiende mejor el sistema ERR-PDR que el ERR-PRyC, principalmente para baja cobertura, como muestra la gura 7.8(a). Incluso en el sistema ERR-PDR una misma ruta puede estar por encima de la media y en el ERR-PRyC por debajo, o viceversa.
7.4.
Interpretaci on
El objetivo de esta secci on es interpretar los resultados de extensi on de rutas desde una colecci on de enfoques variada, tales como conocer: la relaci on entre la precisi on de la predicci on y el tama no de la ruta, los predicados m as relevantes para aprender, la cobertura y diversidad de las prote nas a nadidas, la cantidad de prote nas que extienden y conectan varias rutas, la similitud sem antica de las nuevas prote nas con respecto a las originales y la aportaci on del aprendizaje relacional para interpretar las caracter sticas de las prote nas predichas. Antes de pasar a la descripci on detallada por apartados, cabe destacar cu al es la forma en que se exponen los resultados en toda esta secci on. Hay que tener en cuenta que se han desarrollado dos sistemas alternativos para expandir rutas, cuyas diferencias fundamentales son: El sistema ERR-PRyC es mejor que el ERR-PDR en rendimiento y cobertura (evaluaci on con curvas PR). El sistema ERR-PDR es mejor que el ERR-PRyC en cantidad de reglas diferentes por ruta, y en n de rutas extendidas. Existe mucha variaci on entre las rutas expandidas por uno y otro sistema.
7.4. Interpretaci on
93
Aparte de estas tres, de forma global (es decir, en media para todas las rutas) no se pueden mbitos extraer m as conclusiones interesantes al comparar los dos sistemas, en ninguno de los a de interpretaci on (relevancia de atributos, predicados m as frecuentes, similitud sem antica funcional, etc.). Esto hace que no tenga sentido describir comparaciones gen ericas para los dos sistemas. El resto tendr an que ser comparaciones detalladas ruta a ruta para cada uno de mbitos, que har los a an tediosa la lectura de este documento. Por lo tanto, se omite cualquier comparaci on exhaustiva para cada una de las rutas, y se describen s olo los resultados para uno de los dos sistemas, asumiendo que se tienen presentes las tres diferencias fundamentales con el otro. Se elige el sistema ERR-PDR, porque la mayor a de las interpretaciones tienen un enfoque de utilidad biol ogica, para lo cual es m as conveniente una alta cantidad y diversidad de reglas por ruta, que una mayor cobertura. No obstante, espor adicamente, se comenta alg un caso particular cuando se considera relevante. Ante un inter es concreto del lector por alguna ruta, se pueden tomar las dos guras correspondientes, que se muestran en todos los an alisis, y extraer f acilmente la conclusi on buscada. Por ejemplo, para responder la cuesti on a la hora de predecir la pertenencia a la ruta X, var an las caracter sticas m as relevantes entre el sistema ERR-PRyC y el ERRPDR?, bastar a con observar la gura G.2 del anexo G y la gura 7.10 de este cap tulo, y comparar la la de la ruta X en el sistema ERR-PRyC y la la correspondiente en el ERRPDR, observando si los puntos de mayor tama no se encuentran en las mismas columnas y si son del mismo color; o para la pregunta baja o sube la similitud sem antica de las prote nas que extienden la ruta Y al usar el sistema ERR-PDR en vez del ERR-PRyC?, lo m as sencillo ser a consultar las tablas detalladas por ruta del anexo D.
7.4.1.
de la Ruta Relaci on entre Precisi on y Tamano
Como se puede observar en la gura 7.9, cuanto mayor es el tama no de la ruta (cantidad de prote nas que la forman, es decir, barra horizontal m as larga en la gura 7.9), m as able es la predicci on en t erminos de AUPRC (es decir, m as abajo est a la ruta en la gura 7.9). Aunque con excepciones, tales como rutas peque nas con AUPRCs mayores que la media. Por ejemplo, en el sistema ERR-PDR, en las rutas Interacciones de las integrinas en la supercie celular (8) y Transporte transmembrana de mol eculas peque nas (16), con un tama no no redundante menor a 50 prote nas, y con AUPRC tan alto como el de rutas con m as de 100 prote nas. En el anexo G, la gura G.1 es la equivalente para el sistema ERR-PRyC.
7.4.2.
An alisis de Predicados Relevantes en el Aprendizaje
En esta secci on, para cada ruta, se buscan las propiedades m as importantes en el proceso de aprendizaje, con el objetivo de denir los elementos que m as inuyen para extender cada una de las rutas. Para lograr este prop osito, se emplean las mismas dos medidas de relevancia que en el m etodo de predicci on ProtFun [Jensen et al., 2003a]. La primera consiste en evaluar el rendimiento despu es de entrenar el sistema usando cada uno de los predicados individualmente. Los c rculos rojos representan estos AUPRCs en la gura 7.10. La segunda medida es la p erdida en AUPRC al eliminar un predicado particular. Entonces, el rendimiento de entrenar el sistema sin un predicado se resta del AUPRC original, obteniendo el rendimiento de la combinaci on de todos los predicados juntos. La gura 7.10 visualiza estas diferencias en AUPRC en c rculos morados. La primera medida s olo pone de maniesto si un predicado es relevante por s mismo; pero no tiene en cuenta si un predicado es importante cuando se usa en combinaci on con otros,
94
18-S ealizacin PDGF 13-S ealizacin Opioides 27-S ealizacin Ins ulina 09-Trans mis in S inptica 01-S ealizacin Rho GTP 04-Trfico Membrana 05-Metabol.Vitam.YCofact. 19-Metabol.Nucletidos 37-S ealizacin EGFR 22-Orientacin Axn 17-Proces amiento ARNm 03-S ealizacin NGF 36-Mantenimiento Telmero 07-Oxidaciones Biolgicas 25-Replicacin ADN 23-S is t.Adhes in Cel-Cel 24-Reparacin ADN 26-Metabol.Carbohidratos 06-Metabol.Aminocidos 28-Apoptos is 30-Hemos tas ia 29-Metabol.Lpidos 14-Control Ciclo Celular 32-Infeccin VIH 33-Cadena Trans p. Electrones 21-Trans cripcin 08-Interac.Integrinas S up.Cel. 02-S ealizacin Wnt 34-S ealizacin S is t.Inmune 20-Metabol.Protenas 15-Rutas Diabetes 31-Infeccin Gripe 11-Integr. Metabol. Energa 10-S ealizacin GPCR 12-Ciclo Celular, Mittica 16-Trans porte trans membrana 35-Expres in Gnica
Rutas (ordenadas por AUPRC creciente)
... -0
Tamao Ruta
100
200
300
400
500
600
700
N Protenas
Tamao ruta original
Tamao ruta no redundante
Figura 7.9: An alisis de rendimiento frente a tama no de ruta. Sistema ERR-PDR. Rutas ordenadas de arriba a abajo, de menor a mayor AUPRC. Las barras verdes representan la cantidad de prote nas de la ruta original, y las barras naranjas la cantidad de prote nas tras eliminar las redundantes entre s (las que se usan en el aprendizaje).
lo cual se revela con la segunda medida. Como ambas medidas son complementarias entre s , un predicado se considera relevante cuando alguna de las dos medidas alcanza un valor alto [Jensen et al., 2003a]. Debido a que se usa una representaci on relacional, como entradas al sistema de aprendizaje se tienen predicados en vez de atributos. Por lo tanto, las columnas de la gura 7.10 se corresponden con predicados l ogicos. Cada columna representa un predicado individual, excepto las columnas 5 a 7 que son los argumentos num ericos del predicado protein (ver los argumentos de los predicados en la gura 7.2), y las columnas 12 y 13 del predicado gene. Las columnas Protein/4 y Gene/5 incluyen las comparaciones num ericas de todos sus argumentos. Ambas interacciones es un agregado de los dos tipos de interacciones consideradas (las dos columnas previas). Al analizar la gura 7.10, se observa que las propiedades relevantes para cada ruta son diferentes. En la predicci on media de rutas (situada hacia el medio de la gura 7.10) no aparece ning un predicado m as importante que los otros, por lo que se puede concluir que ninguna caracter stica contribuye m as que el resto. Lo que es m as, la relevancia es m as clara conforme mejora la abilidad de la predicci on, es decir, conforme se baja en el gr aco. Esto signica que, por un lado, en los casos malos (situados en la parte superior de la gura 7.10, generalmente peores que la aleatoriedad o por defecto), ning un predicado es
95
Figura 7.10: An alisis de predicados relevantes en el aprendizaje. Los c rculos rojos (izquierda) representan una propiedad relevante por s misma. Los c rculos morados (derecha) representan una propiedad relevante en combinaci on con otras. Las rutas (las) est an ordenadas, de abajo a arriba, de mejor a peor AUPRC, seg un el sistema. Sistema ERR-PDR.
relevante. Por ejemplo, en la ruta Tr aco de membrana (04) el predicado que representa un dominio transmembrana (transmembrane domain) deber a ser relevante para el sistema de aprendizaje, pero no lo es. Por otro lado, en los casos buenos (rutas de la parte inferior de la gura 7.10, por debajo de la media) hay diferencias obvias de relevancia entre predicados distintos de la misma ruta. El predicado m as importante (la columna con c rculos m as grandes) es protein/4, que es un agregado de las caracter sticas que m as discriminan: protein length y protein positive charge. Por el contrario, las interacciones (las tres primeras columnas) no son propiedades tan fundamentales en el proceso de aprendizaje. Cabe destacar que el tama no de los puntos es mayor en el sistema ERR-PRyC (ver en el anexo G, la gura G.2). Es decir, la relevancia de propiedades es m as acusada en el sistema ERR-PRyC que en el ERR-PDR, pero la diferenciaci on entre atributos relevantes y no relevantes est a m as denida en el segundo. Si se analizan algunos casos espec cos en el sistema ERR-PDR, en la ruta Expresi on g enica (35) cada uno de los predicados aisladamente alcanza una buena predicci on en casi
96
ltima la todos los casos (se observa en la gura 7.10 que casi todos los c rculos rojos de la u son de gran tama no). Mientras que en Transporte transmembrana (16), Interacciones de las integrinas en la supercie celular (08) y Se nalizaci on de Wnt (02) casi todos los predicados dependen entre s , sin contribuir de forma independiente (se ven varios c rculos morados de tama no similar en las las correspondientes a estas rutas). En la ruta Transporte transmembrana (16), los m as relevantes son la carga positiva (por si sola), y el dominio transmembrana y el de se nal (ambos en combinaci on con el predicado protein). Las interacciones, principalmente en complejos (segunda columna), por s solas comprenden la informaci on m as importante para predecir la ruta Metabolismo de l pidos (29); aunque en el sistema ERR-PRyC todos son igual de relevantes. Por su parte, en la ruta Infecci on VIH (32), las interacciones en complejos seguidas de la carga negativa son las caracter sticas fundamentales en el sistema ERR-PDR, mientras que en el ERR-PRyC no se detecta la relevancia de la carga negativa (ver gura G.2).
7.4.3.
Cobertura y Diversidad en la Extensi on de Reactome
En esta secci on se eval ua la extensi on de las rutas originales con prote nas no anotadas, tras la aplicaci on de los sistemas de predicci on presentados. Al aplicar el procedimiento descrito en la secci on 7.2.6 a las prote nas sin anotaci on en Reactome, y no redundantes con las anotadas (ver secci on 7.2.3), el sistema ERR-PRyC extiende 18 rutas y el ERR-PDR 28, a pesar de que sus AUCs sean m as bajos, como muestra la tabla 7.1. Las 37 rutas originales tras la eliminaci on de redundancia se componen de 2.762 prote nas, siendo distintas entre todas las rutas 1.654 prote nas. Recordando la importancia de la diversidad entre las reglas que expanden la misma ruta (ver secci on 7.2.7), se debe remarcar que el sistema ERR-PDR logra aplicar varias reglas en 15 rutas, comparado con las escasas 5 rutas por parte del sistema ERR-PRyC. Por lo tanto, el sistema ERR-PDR consigue una mayor cobertura de expansi on y una alta variabilidad molecular, de las prote nas que a nade a la misma ruta, para m as de la mitad de aquellas que extiende. Cada una de las prote nas que predicen los sistemas ERR comparten propiedades de secuencia con una o unas pocas prote nas de la ruta original, no con todas, ni en todas sus propiedades. Este comportamiento concuerda con la denici on real de las rutas biol ogicas, que realizan una funci on com un a nivel de proceso, pero sus propiedades a nivel de secuencia son diferentes.
Tabla 7.1: Evaluaci on num erica de la extensi on de Reactome por sistema ERR-PRyC y ERR-PDR.
Sistema ERR-PRyC ERR-PDR
AUPRC 0,1695 0,1337
AUROC 0,7028 0,6914
nrutas (total/>1regla) 18 / 5 28 / 15
nprote nas anadidas (total/distintas) 249 / 218 383 / 329
En el anexo D se pueden consultar las tablas D.1 y D.2, para el sistema ERR-PRyC y ERR-PDR respectivamente, donde se detalla el n umero de prote nas predichas frente al tama no original de cada ruta, entre otros valores.
7.4.4.
Solapamiento entre Rutas
En este apartado se analiza la diversidad entre prote nas que extienden distintas rutas. El objetivo es conocer si el sistema ERR predice prote nas espec cas para cada ruta, o si se trata
97
de prote nas de caracter sticas y funciones gen ericas presentes en varias rutas. En primer lugar, se puede calcular el valor absoluto de las prote nas que extienden m as de ltima columna de la tabla 7.1 se extrae que un 87,50 % y un 85,90 % una ruta. A partir de la u de las prote nas a nadidas a las rutas son diferentes, para el sistema ERR-PRyC y el ERR-PDR, respectivamente. Esto quiere decir que existe menos de un 15 % del conjunto de prote nas a nadidas que expande m as de una ruta, en ambos sistemas. Si ahora se analiza el solapamiento de forma relativa, y se calcula la media del porcentaje de prote nas solapadas con otra ruta, siguiendo un enfoque todas contra todas las rutas, el solapamiento es 1,58 % para el sistema ERR-PRyC y 2,67 % para el ERR-PDR. En ambos casos es muy bajo, como se verica tambi en en las representaciones gr acas de la gura 7.11, donde el solapamiento se representa por los puntos coloreados fuera de la diagonal principal, y como se observa ah existen muy pocos puntos diferentes al blanco. Se puede observar un solapamiento ligeramente mayor en el sistema ERR-PDR que en el ERR-PRyC. Aunque ste es capaz de extender diez rutas m teniendo en cuenta que e as, aumentando as la probabilidad de coincidencia, el incremento de solapamiento no es muy signicativo.
(a) Sistema ERR-PRyC.
(b) Sistema ERR-PDR.
Figura 7.11: Porcentaje de solapamiento entre rutas. (a) sistema ERR-PRyC y (b) sistema ERR-PDR. Las rutas est an ordenadas por AUPRC creciente seg un cada sistema, de izquierda a derecha en el eje x y de abajo a arriba en el eje y. Cada celda representa el porcentaje (seg un el c odigo de colores mostrado a la derecha) de prote nas a nadidas a la ruta del eje x que tambi en extienden la ruta correspondiente del eje y. Situaci on ideal (sin solapamiento): s olo diagonal en verde, resto blanco.
Es importante destacar este reducido porcentaje de prote nas comunes entre diferentes rutas en las extensiones de ERR, dado el gran nivel de solapamiento existente entre prote nas de las rutas originales, como muestran los gr acos de la gura 7.12. Es decir, se consigue predecir prote nas diferentes para cada clase o ruta, aunque las rutas originales no sean disjuntas.
98
1200
1000
n protenas en N rutas
800
600
400
200
0 1 2 3 4 5 6 7 8
n rutas compartiendo protenas
(a) Porcentaje de solapamiento.
(b) Solapamiento absoluto.
Figura 7.12: Solapamiento entre rutas originales. (a) Porcentaje de solapamiento: cada celda representa el porcentaje de prote nas de la ruta del eje x que tambi en est an en la ruta correspondiente del eje y. (b) Solapamiento absoluto: el eje y indica el n de prote nas que est an a la vez en el n de rutas que indica el eje x.
7.4.5.
Similitud Sem antica en la Extensi on de Reactome
Una aproximaci on sencilla para conocer si las prote nas a nadidas son biol ogicamente similares a las de la ruta que extienden, es llevar a cabo un an alisis de similitud sem antica entre las anotaciones funcionales de las prote nas en una base de datos externa (ver descripci on del concepto de anotaci on funcional y derivados en B.1, 2.4.1 y B.2). Dado que todas las prote nas en una ruta biol ogica est an relacionadas funcionalmente a un nivel de proceso, se utilizan los t erminos de anotaci on denidos en la ontolog a Proceso Biol ogico de GO [Ashburner et al., 2000], GO-BP (extra dos de la versi on 56 de Ensembl [Hubbard et al., 2009]). Se escogen todos los c odigos de evidencia excepto ISS (del ingl es, Inferred from Sequence or Structural Similarity), para evitar relaciones circulares o indirectas, derivadas de anotaciones inferidas por similitud de secuencia o de estructura. En este caso, no existe un problema de falta de ortogonalidad entre los t erminos de GO-BP y los de Reactome, porque las prote nas a nadidas por el sistema ERR (para las que se hace el an alisis de similitud sem antica) no tienen anotaciones en Reactome, y por tanto no puede haber solapamiento con los t erminos de GO-BP. Se usa la medida de similitud de Jiang y Conrath [Jiang and Conrath, 1997], que adapta las medidas de la teor a de la informaci on para establecer una distancia sem antica entre t erminos de GO (ver secci on 4.2.2), teniendo en cuenta la compleja estructura de grafo ac clico dirigido de esta ontolog a. Con dicha medida de similitud, se comparan las prote nas originales de la ruta con las prote nas a nadidas mediante predicci on (dichas prote nas se identican a partir de aqu en el texto como prote nas predichas), en t erminos de similitud sem antica funcional a nivel de proceso. Se calcula la media del m aximo de similitud de cada prote na (del ingl es, best-match average [Pesquita et al., 2009]) de todas las combinaciones por pares de prote nas, obteniendo as un valor de similitud sem antica para cada ruta. Adem as se comparan estas similitudes con aquellas calculadas entre las prote nas de la ruta original y una extensi on aleatoria del mismo
99
tama no, siguiendo el ejemplo de un trabajo previo [Glaab et al., 2010]. Se puede ver un an alisis con distintas posibilidades para agregar similitudes en funci on del objetivo en la secci on 4.2.2. La gura 7.13(a) muestra que, en la mayor a de las 28 rutas extendidas, las prote nas predichas presentan mayor similitud sem antica funcional con las prote nas de la ruta original que las prote nas seleccionadas aleatoriamente. Sin embargo, las rutas con bajo AUPRC no se corresponden completamente con las que tienen peor similitud funcional con la ruta original frente al aleatorio (ver gura 7.13(b)). Por lo que no hay correlaci on entre la abilidad de la predicci on y la similitud sem antica.
(a) Orden por similitud creciente.
(b) Orden por AUPRC creciente.
Figura 7.13: Similitud de anotaci on funcional entre prote nas de la ruta original y prote nas a nadidas (por predicci on y aleatoriamente). Sistema ERR-PDR. Las rutas sin extensi on no se representan. (a) Rutas ordenadas por similitud creciente en el grupo de predicciones. Cada punto representa la similitud absoluta de las prote nas a nadidas a la ruta original. (b) Rutas ordenadas por AUPRC creciente en el grupo de predicciones. Cada punto representa la diferencia de similitud a la ruta original entre las prote nas predichas y las prote nas aleatorias (Sim.PredichasSim.Aleatorias) para esa ruta. As , la l nea roja representa la inexistencia de mejora de las predicciones frente a la aleatoriedad, en t erminos de similitud.
En este an alisis de similitud sem antica, el sistema ERR-PRyC es ligeramente mejor, como se puede observar en los anexos en la gura G.3.
7.4.6.
Interpretaci on de la Extensi on basada en Aprendizaje Relacional
Esta secci on explica brevemente qu e tipo de prote nas extiende cada ruta seg un el sistema rbol de decisi propuesto ERR, acorde a las reglas extra das del a on y su relaci on con las propiedades m as frecuentes. El an alisis se centra en dos ejemplos de rutas que extiende el sistema ERR-PDR. Una regla extiende la ruta Transporte transmembrana de mol eculas peque nas (16) con 5 prote nas, que cumplen al menos las siguientes propiedades (ver gura 7.14): dominio transmembrana, secuencia larga de amino acidos y nucle otidos, carga positiva, sin dominio de se nal y con dos interacciones prote na-prote na (una de ellas con un prote na de alta carga negativa).
100

Regla 11: ========= IF transmembrane_domain(A),protein_gene(A,B),gene(B,C,D,E,F),D>30447, protein(A,G,H,I),H<0.086957 = 0 AND transmembrane_domain(A) = 1 AND protein_gene(A,B),gene(B,C,D,E,F),D>30447,protein(A,G,H,I),G>629=1 AND transmembrane_domain(A),signal_domain(A) = 0 AND complex_interaction(A,B),not(B=A),protein(B,C,D,E),C<300, protein(B,F,G,H),G<0.086957 = 0 AND ppinteraction_pair(A,B),not(B=A),ppinteraction_pair(A,C),not(C=A), not(C=B),protein(C,D,E,F),F>0.133171 = 1 THEN [0.504964]
Figura 7.14: Regla que extiende la ruta Transporte transmembrana de mol eculas peque nas (16) en sistema ERR-PDR.
Por otro lado, el sistema ERR-PDR expande la ruta Se nalizaci on de GPCR (10) con 2 rbol de decisi reglas o ramas diferentes del a on, que a naden 11 y 3 prote nas respectivamente (ver gura 7.15). La primera regla describe prote nas con secuencia larga, sin dominio de se nal, con varias interacciones en complejo y sin baja carga negativa. En contraste, la segunda regla dene prote nas con baja carga negativa, con dominio transmembrana, sin secuencia corta y con interacci on en complejo.
Regla 60: ========= IF protein(A,B,C,D),D<0.072897 = 0 AND signal_domain(A) = 0 AND protein(A,B,C,D),B>629 = 1 AND complex_interaction(A,B),not(B=A),ppinteraction_pair(B,C),not(C=A), not(C=B),complex_interaction(A,D),not(D=A),not(D=B), not(D=C) = 0 AND complex_interaction(A,B),not(B=A),complex_interaction(B,C),not(C=A), not(C=B),signal_domain(C) = 1 AND complex_interaction(A,B),not(B=A),protein(B,C,D,E),E>0.133171 = 1 THEN [0.688929] Regla 9: ======== IF protein(A,B,C,D),D<0.072897 = 1 AND signal_domain(A),protein(A,B,C,D),C>0.129964 = 0 AND protein(A,B,C,D),B<300,protein(A,E,F,G),G<0.072897 = 0 AND transmembrane_domain(A),protein(A,B,C,D),D<0.072897 = 1 AND complex_interaction(A,B),not(B=A),complex_interaction(A,C),not(C=A), not(C=B),protein(C,D,E,F),F>0.133171 = 1 AND complex_interaction(A,B),not(B=A),transmembrane_domain(B), complex_interaction(B,C),not(C=A),not(C=B) = 0 THEN [0.866684]
Figura 7.15: Reglas que extienden la ruta Se nalizaci on de GPCR (10) en sistema ERR-PDR.
Adem as, se pueden comparar los patrones que componen las reglas, con las propiedades moleculares frecuentes en el conjunto de prote nas que extiende cada ruta. Dichas propiedades se representan en la gura 7.16 como predicados l ogicos y su importancia como su frecuencia de aparici on en el conjunto de prote nas concreto. S olo se seleccionan los elementos b asicos (ver columnas de la gura 7.16), entre todas las posibles combinaciones de patrones frecuentes
101
complejos, los cuales se extraen con el algoritmo WARMR (ver secci on 7.2.5). El t ermino bajo/alto en un predicado representa un valor num erico situado en el primer/ ultimo cuartil de la distribuci on de valores en el conjunto completo de prote nas, respectivamente (ver secci on 7.2.4).
Figura 7.16: Frecuencia de predicados simples por ruta. Sistema ERR-PDR. Los c rculos representan la frecuencia en las prote nas predichas por el sistema ERR-PDR.
Los puntos de mayor frecuencia en la gura 7.16, en una ruta extendida por varias reglas, tienden a ser los correspondientes a las propiedades que se comparten entre reglas. En alg un caso puede haber unos referentes a una regla y otros a otra. Aunque no todas las altas frecuencias que muestran los puntos de la gura 7.16 se corresponden con un patr on de alguna regla, y viceversa. Por ejemplo, cabe destacar que la caracter stica diferenciadora (valor opuesto sobre la carga negativa) entre las dos reglas que muestra la gura 7.15 que extienden la misma ruta, no se reeja sobre las propiedades frecuentes (ver cuarta la empezando por debajo en la gura 7.16). Otra muestra de la falta de equivalencia total entre altas frecuencias y reglas es la regla de la gura 7.14 para la ruta Transporte transmembrana de mol eculas peque nas (16), que no incluye en ninguno de sus patrones interacciones en complejos ni un alto n umero de transcritos, mientras que las frecuencias s lo reejan. Las razones de esta falta de correspondencia entre reglas y propiedades frecuentes pueden ser los patrones de una regla
102
que no se exige que se cumplan (con valor igual a 0 en las guras 7.14 y 7.15), que no tienen una interpretaci on directa; o patrones que se satisfacen pero no se verican en ninguna regla. No obstante, en general s existe una coherencia razonable entre ambas interpretaciones: las reglas de decisi on y las propiedades frecuentes.
7.5.
Comparaci on con Extensi on basada s olo en Similitud de Secuencia
Dado que el sistema ERR predice prote nas bas andose principalmente en propiedades de la secuencia, cabe pensar en una comparaci on con una t ecnica de b usqueda de prote nas por similitud de secuencia. Es decir, buscar prote nas hom ologas con la herramienta BLASTP [Altschul et al., 1997] (ver la secci on B.3.1 para una denici on de homolog a), y suponer una transferencia de las anotaciones de Reactome entre prote nas hom ologas. No hay que olvidar que el sistema ERR se ha dise nado para ser aplicable en ausencia de similitud de secuencia (que en el resto de esta secci on se denomina homolog a), por lo que las prote nas que se podr an asignar por homolog a se han excluido expl citamente del proceso de evaluaci on y aplicaci on. As , en esta secci on se analiza si una prote na hom ologa respecto a otra prote na anotada en la base de datos Reactome o predicha por el sistema ERR, tambi en est a anotada o se predice como perteneciente a la misma ruta, y el porqu e de estos hechos. Para decidir si dos prote nas son similares (hom ologas) se realizan comparaciones de secuencias con la herramienta BLASTP [Altschul et al., 1997], y se contabilizan como hom ologos aquellos pares que poseen al menos un 30 % de identidad en secuencia, y a la vez, el alineamiento cubre el 75 % de una de las secuencias. Se decide imponer la restricci on de un 75 % de cobertura de secuencia, pues con un valor de 60 % se detectan pares de prote nas que s olo comparten uno o varios dominios Pfam. La estrategia de b usqueda es la siguiente: se seleccionan las prote nas predichas por ERR-PDR en los conjuntos de entrenamiento y test y se comparan con las prote nas no-anotadas en las rutas de Reactome, que se incluyen en el conjunto de aplicaci on o no (denominado conjunto de resto de prote nas no-anotadas). Adem as, las prote nas seleccionadas tambi en se comparan respecto a otro conjunto de prote nas anotadas en las rutas de la base de datos Reactome, pero que no se incluyeron en los conjuntos entrenamiento y test por ser redundantes a ellos. En el anexo E se presenta un resumen cuantitativo de los resultados obtenidos en la b usqueda de hom ologos en dos tablas. La tabla E.1 recopila informaci on sobre las prote nas anotadas contenidas en los conjuntos de entrenamiento y test, y la tabla E.2 sobre las anotadas que se eliminaron de dichos conjuntos por ser redundantes. Al analizar las tablas, se descubren casos donde existen: 1. Prote nas hom ologas con una anotada en la ruta y la otra no. 2. Prote nas hom ologas con una predicha por ERR y la otra no. El primer caso se puede vericar comparando las columnas primera (prote nas anotadas en las rutas) y tercera (prote nas hom ologas entre las no-anotadas) de cualquiera de las dos tablas E.2. En la gura 7.17 se muestran algunos de estos ejemplos, en diferentes resumen, E.1 o rutas, seleccionando los que poseen los mayores porcentajes de identidad en secuencia. El segundo caso se corrobora al observar que entre las columnas cuarta y quinta de las tablas E.1 y E.2 hay diferencia. Ambas columnas representan prote nas hom ologas a las predichas,
7.5. Comparaci on con Extensi on basada s olo en Similitud de Secuencia

Ruta Metabolismo de prote nas: RL36A_HUMAN / RL36L_HUMAN (prote na ribosomal 60S L36a/tipo-L36a) * 99.06% identidad * Vector de propiedades: RL36A_HUMAN | 0,1,1,0,0,1,1,0,0,0,0,0,0,0,1 RL36L_HUMAN | 0,0,1,0,0,1,1,0,0,0,0,1,0,1,0 Ruta Ciclo celular, fase mit otica: DYR_HUMAN / DYRL1_HUMAN (Dihidrofolato reductasa/tipo-reductasa prote na 1) * 93.44% identidad * Vector propiedades: DYR_HUMAN | 1,1,1,0,0,1,0,1,0,0,0,0,0,1,0 DYRL1_HUMAN | 0,0,1,0,0,1,0,1,0,0,0,0,0,0,1 Ruta Transcripci on: TCEA1_HUMAN / TCEA2_HUMAN (Factor A elongaci on transcripci on prote na 1/2) * 66.78% identidad * Vector propiedades: TCEA1_HUMAN | 1,1,0,0,0,1,0,1,0,0,1,0,1,0,0 TCEA2_HUMAN | 1,1,1,0,0,1,0,1,0,0,0,0,0,0,1
103
Figura 7.17: Ejemplos de pares de prote nas hom ologas anotadas y no-anotadas en Reactome. La primera prote na pertenece al conjunto anotadas en rutas y la segunda a las no-anotadas (ya sea predicha o no). Los componentes del vector de propiedades de la secuencia, de izquierda a derecha, son: interacci on prote na-prote na, interacci on en complejo, longitud de la secuencia de prote na baja y alta, carga positiva de la prote na baja y alta, carga negativa de la prote na baja y alta, dominio transmembrana, dominio de se nal, dominio h elice, longitud de la secuencia g enica baja y alta, y n umero de isoformas bajo y alto.
pero s olo las de la columna 5 se predicen por ERR, y s olo en los pares (entrenamiento-o-test, no-anotada). Para explicar las respuestas a estas cuestiones, el primer elemento que se debe considerar es que los resultados que se obtienen con una b usqueda de similitud de secuencias mediante la herramienta BLASTP, no tienen que coincidir con los obtenidos por el sistema ERR. BLASTP utiliza s olo la informaci on de la secuencia de amino acidos de las prote nas, mientras que ERR incluye adem as, otro conjunto de propiedades. Por ejemplo, el n umero de transcritos (isoformas), la longitud del gen que codica la prote na, interacciones por pares con otras prote nas, y participaci on en complejos de prote nas. Por ello, s olo se podr an esperar resultados similares entre ERR y BLASTP en los casos en que el porcentaje de identidad entre las secuencias que se comparan es elevado. Adem as, nicamente de la secuencia si s olo se consideran en ERR las propiedades que dependen u de amino acidos (longitud, cargas positiva y negativa, dominios transmembrana, de se nal y en h elice), estas propiedades dieren entre las prote nas de una misma familia, cuando los porcentajes de identidad en secuencia disminuyen. Considerando todos estos elementos, y utilizando ejemplos como los que se muestran en la gura 7.17, se observa que, en la mayor a de los casos, las prote nas hom ologasque no se predicen es por diferencias en la existencia de interacciones prote na-prote na o participaci on en complejos de prote nas. Este hecho se cumple, en diferentes rutas, en los pares de prote nas (RL36A HUMAN,RL36L HUMAN) y (DYR HUMAN,DYRL1 HUMAN), ya que tienen diferencias en las dos primeras componentes del vector de propiedades, correspondiente a las interacciones (ver gura 7.17). No obstante, existen otros casos que ERR no predice, a pesar de tener anotaciones
104
de interacciones prote na-prote na y/o participar en complejos, porque la prote na con que interact uan diere en caracter sticas tales como: n umero de isoformas, longitud del gen y de la prote na, y presencia de dominios en h elice. Este hecho se cumple en el par (TCEA1 HUMAN,TCEA2 HUMAN) de la ruta Transcripci on, cuyos vectores de propiedades aparecen en la gura 7.17. Tambi en se observan casos extremos como por ejemplo el par de prote nas hom ologas (RL36A HUMAN,RL36L HUMAN), de la ruta Metabolismo de prote nas, que poseen un 99 % de identidad en secuencia, y sin embargo RL36L HUMAN no se predice porque no participa en un complejo en el que interaccione con una prote na de alta carga positiva. Por otro lado, cabe destacar el par hom ologo (TCEA1 HUMAN,TCEA2 HUMAN) de la ruta Transcripci on, con casi un 67 % de identidad, d onde la diferencia entre la prote na predicha y la no-predicha es muy espec ca. En concreto, ERR no predice la hom ologa por: no tener interacci on en un complejo, con una prote na con dominio en h elice y baja carga negativa. Es decir, la justicaci on para no predecir depende tambi en de las propiedades de las secuencias con las que interacciona la prote na, no s olo las de la prote na en cuesti on TCEA2 HUMAN. En este caso tambi en es destacable que la prote na TCEA2 HUMAN participa en complejos, pero ninguna de las prote nas con las que se relaciona tienen un dominio en h elice y baja carga negativa. Por otro lado, este ejemplo tambi en verica la utilizaci on de la informaci on adicional que la representaci on relacional permite. ltimo elemento a considerar es que se limita la b Un u usqueda de prote nas hom ologas en el conjunto de no-anotadas en Reactome, a aquellas que poseen identicador UniProt. As , se eliminan las que s olo poseen identicadores UniParc en febrero del 2010, excepto en la quinta columna de la tabla E.1. Este criterio implica que no se detecten las cuatro prote nas predichas hom ologas de prote nas anotadas tambi en predichas. En conclusi on, por un lado, una extensi on de rutas basada s olo en similitud de secuencia calculada con la herramienta BLASTP no coincidir a con la extensi on del sistema ERR, porque BLASTP utiliza menos informaci on basada en la secuencia de la que emplea el sistema ERR, a parte de las interacciones. Por otro lado, hay que destacar que existen prote nas similares en secuencia a las de la ruta original que no est an anotadas en Reactome; por lo que no es excesivamente sorprendente que prote nas similares en secuencia a las predichas por ERR tampoco se predigan.
7.6.
Comparaci on con M etodo de Extensi on de Rutas basado s olo en Redes de Interacci on
El objetivo de esta secci on es comparar los sistemas de extensi on de rutas desarrollados en este trabajo con otro m etodo que tambi en expande rutas, aunque usando s olo informaci on de redes de interacciones moleculares. Glaab y colaboradores [Glaab et al., 2010] ha propuesto recientemente una metodolog a para extender rutas biol ogicas y otros procesos celulares. Su m etodo mapea el conjunto de prote nas de la ruta sobre una red de interacciones prote na-prote na y, entonces, extiende la ruta a nadiendo prote nas que hagan que la ruta nal aumente su conectividad y sea m as nica entrada de este m compacta. La red de interacci on es la u etodo, y los candidatos para el procedimiento de extensi on son s olo las prote nas conectadas por interacci on directa a la ruta original. Cuando una prote na candidata cumple una serie de condiciones topol ogicas [Glaab et al., 2010] y compacta la ruta, entonces se elige para extender la ruta. Para comparar en las mismas condiciones, se ha re-implementado este m etodo para poder aplicarlo sobre las rutas y
7.6. Comparaci on con M etodo de Extensi on de Rutas basado s olo en Redes de Interacci on
105
la red de interacci on usada en el presente trabajo (ver secci on 7.2.1), que es diferente de la red empleada originalmente en el m etodo [Glaab et al., 2010].
7.6.1.
An alisis Cuantitativo
Usando como entrada las rutas completas (con las prote nas redundantes en t erminos de similitud de secuencia, seg un lo descrito en la secci on 7.2.1), el m etodo Glaab et al. extiende 29 de 37 rutas, con 150 prote nas directamente conectadas en total, siendo 90 de ellas diferentes (lo que supone un 60 % del total de 150 a nadidas), como muestra la tabla 7.2. No se han tomado las rutas no redundantes, como en ERR, porque en ese caso las extensiones del m etodo Glaab et al. eran muy escasas, al depender s olo de las interacciones, que se ven reducidas al eliminar la redundancia.
Tabla 7.2: Comparaci on num erica de la extensi on de Reactome por Glaab et al. con los sistemas ERRPRyC y ERR-PDR.
Sistema Glaab et al. ERR-PRyC ERR-PDR
nrutas extendidas 29 18 28
nprote nas anadidas (total/distintas/ %distintas) 150 / 90 / 60,00 % 249 / 218 / 87,55 % 383 / 329 / 85,90 %
El m etodo Glaab et al. extiende 21 rutas en com un con el sistema ERR-PDR y 15 rutas con el ERR-PRyC. Sin embargo, para cada ruta concreta hay muy pocas prote nas predichas en com un por Glaab et al. y por los sistemas ERR. En el sistema ERR-PDR hay 5 prote nas comunes: 2 en la ruta Expresi on g enica (35) y 3 en Transcripci on (21). En el sistema ERRPRyC hay 11 prote nas comunes: 2 en la ruta Expresi on g enica (35), 2 en Transcripci on (21), 5 en Apoptosis (28), 1 en Hemostasia (30) y 1 en Infecci on VIH (32).
(a) Sistema ERR-PRyC.
(b) Sistema ERR-PDR.
Figura 7.18: Porcentaje de solapamiento entre rutas. Comparaci on Glaab et al. con (a) sistema ERRPRyC y (b) ERR-PDR. Las rutas est an ordenadas por AUPRC creciente seg un cada sistema, de izquierda a derecha en el eje x y de abajo a arriba en el eje y.
106
Adem as, si se consideran las prote nas comunes a nadidas por los m etodos a diferentes rutas, tampoco aumenta mucho el n umero de coincidencias, como se puede ver en la gura 7.18. Por lo tanto, se puede concluir que ambos m etodos de extensi on de rutas son complementarios entre s , pues a naden prote nas diferentes. Adem as, los sistemas ERR extienden con muchas m as prote nas que el m etodo Glaab et al.
7.6.2.
Comparaci on de Similitud Sem antica
En este apartado, se usa una medida de similitud sem antica funcional para comparar ambos m etodos de extensi on de rutas. Se aplica el mismo esquema descrito previamente en la secci on 7.4.5, basado en las anotaciones de Proceso Biol ogico de GO. La similitud sem antica entre las prote nas de la ruta original y las prote nas a nadidas es mayor para el m etodo Glaab et al. que para los sistemas ERR (ver gura 7.19 para ERR-PDR y G.4 para ERR-PRyC). Las medias de similitud, calculadas sobre el n umero de rutas que extiende cada sistema, son: 0,700 (Glaab et al., para 29 rutas), 0,591 (ERR-PDR, para 28 rutas) y 0,589 (ERR-PRyC, para 18 rutas).
Figura 7.19: Similitud de anotaci on funcional entre prote nas de la ruta original y las prote nas a nadidas (ERR-PDR y Glaab et al.) y entre ambos sistemas de extensi on.
Adem as, las prote nas predichas por cada m etodo de extensi on son m as similares sem anticamente a la ruta original que entre ellas (0,483 y 0,412 de similitud entre Glaab et al. y el sistema ERR-PRyC y ERR-PDR, respectivamente). Este hecho verica que los conjuntos de prote nas para ambos m etodos de extensi on son muy distintos entre s . Por lo tanto, se puede concluir que las predicciones del m etodo Glaab et al. es una extensi on limitada a un rea funcional pr a oxima (es decir, prote nas muy conectadas con las rutas), mientras que las prote nas propuestas por los sistemas ERR son m as distintas entre ellas y exploran m as espacio funcional.
7.6. Comparaci on con M etodo de Extensi on de Rutas basado s olo en Redes de Interacci on
107
7.6.3.
Comparaci on de Solapamiento entre Rutas
Si se analiza la cantidad de prote nas comunes a nadidas a diferentes rutas, el solapamiento de las extensiones del m etodo Glaab et al. es mayor que en los sistemas ERR: un 30 % de las prote nas extienden m as de una ruta en el m etodo Glaab et al., mientras que s olo alrededor ltima columna de la tabla 7.2. De de un 15 % en los sistemas ERR, como se observa en la u hecho, se puede observar este mismo efecto en la gura 7.20, que representa el solapamiento de las extensiones de Glaab et al. entre s , donde existen muchas celdas coloreadas fuera de la diagonal principal, en contraposici on a la escasa existencia de estos puntos en los sistemas ERR-PRyC (gura 7.11(a)) y ERR-PDR (gura 7.11(b)).
Figura 7.20: Porcentaje de solapamiento entre rutas en Glaab et al.
Si se elimina el solapamiento, es decir, las prote nas que extienden m as de una ruta, ambos m etodos se parecen m as en t erminos de similitud sem antica a la ruta original. As , el m etodo Glaab et al. ser a m as similar en 15 rutas y los sistemas ERR-PRyC y ERR-PDR en otras 15 rutas. Es importante tener en cuenta que, sin el solapamiento, el sistema ERR-PDR s olo deja de extender 1 ruta, qued andose en 27 de 37; mientras que Glaab et al. pierde 10 rutas, extendiendo
108
s olo 19 de 37. Por lo tanto, este resultado refuerza las conclusiones de las secciones anteriores: el m etodo Glaab et al. busca pocas relaciones obvias y cercanas, contrastando con los sistemas ERR que localizan muchas relaciones lejanas; conrmando tambi en la complementariedad de ambos m etodos de extensi on de rutas.
7.6.4.
An alisis de Frecuencia de Predicados
En esta secci on se comparan las propiedades de las prote nas de las rutas originales con las propiedades de las prote nas a nadidas por ERR-PDR y por Glaab et al. Las propiedades y su importancia se representan con predicados l ogicos y su frecuencia en el conjunto de prote nas, igual que en la gura 7.16. En este caso, en cada cruce de los ejes X (propiedad) e Y (ruta) de la gura 7.21 se representa un tr o de c rculos. El c rculo izquierdo (rojo) representa la frecuencia en el conjunto de prote nas de la ruta original; el c rculo central (azul) representa la frecuencia en el conjunto de prote nas predichas por el sistema ERR-PDR, y el c rculo derecho (verde), la frecuencia en el conjunto de prote nas expandidas por el m etodo Glaab et al. Aunque presentan un aspecto similar, las guras 7.21 y 7.10 son distintas, porque una propiedad puede ser frecuente en un conjunto, pero no ser relevante para el proceso de aprendizaje, y viceversa. Al analizar la gura 7.21 (ver nal del cap tulo), se concluye que no hay correlaci on completa entre los c rculos rojos, azules y verdes. Sin embargo, los c rculos rojos y azules tienen m as correlaci on que los rojos y verdes (observar que en la gura 7.21 hay m as pares de c rculos rojo-azul que rojo-verde). Esto quiere decir que las propiedades moleculares de las prote nas de las rutas originales se parecen m as a las propiedades de las prote nas predichas por ERR-PDR que las expandidas por Glaab et al. Este hecho era esperable porque el m etodo Glaab et al. no est a basado en todas estas propiedades moleculares, sino s olo en las interacciones. As , en las extensiones de ruta del m etodo Glaab et al. (c rculos verdes), la propiedad asociada a las interacciones (principalmente en complejos) siempre toma la frecuencia m as alta de todas las propiedades. En este sentido, hay que tener en cuenta que en el c alculo de la frecuencia de predicados se consideran interacciones con cualquier prote na, perteneciente o no a la ruta. En los sistemas ERR-PRyC y ERR-PDR se considera lo mismo cuando se usa un predicado de interacci on entre pares de prote nas o en complejo. Tampoco hay correlaci on entre los puntos azules y verdes, lo cual verica otra vez que ambos m etodos de extensi on a naden prote nas diferentes, con propiedades diferentes. Comparando los sistemas ERR-PRyC y ERR-PDR (ver gura G.5 y 7.21), el segundo presenta una densidad de c rculos azules mayor que el primero, ya que el sistema ERR-PDR extiende 10 rutas m as. Por otro lado, hay variaciones en la frecuencia de las propiedades cuando una ruta se extiende mediante varias reglas en vez de s olo con una, con la se nal de frecuencia diluida entre m as propiedades.
7.7.
Relevancia Biol ogica de las Prote nas Predichas
La pregunta que se quiere contestar en esta secci on es: existen evidencias biol ogicas que corroboren la asociaci on entre las predicciones de ERR y las rutas extendidas? Es decir, se trata de explicar la relaci on entre las rutas biol ogicas originales y las anotaciones funcionales de las prote nas que se predice que extienden cada ruta, para dar una coherencia y signicado
7.7. Relevancia Biol ogica de las Prote nas Predichas
109
Figura 7.21: Comparaci on de frecuencia de predicados simples por ruta. Sistema ERR-PDR. Los c rculos izquierdos/rojos representan la frecuencia en las prote nas de las rutas originales, los c rculos centrales/azules la frecuencia en las prote nas predichas por el sistema ERR-PDR, y los c rculos derechos/verdes la frecuencia en las prote nas expandidas por el m etodo Glaab et al.
biol ogico. Se buscan anotaciones de dominios y hallazgos en la literatura para a nadir evidencias rea biol ogicas que apoyen las nuevas predicciones del sistema, que justiquen su utilidad en el a biol ogica. El contenido de las siguientes sub-secciones es el que sigue. Primero se analizan las extensiones comunes entre los sistemas ERR-PRyC, ERR-PDR y Glaab et al. Segundo, se estudia el signicado biol ogico basado en las propiedades moleculares simples de las prote nas predichas en una ruta, en subconjuntos y en prote nas independientes. Tercero, se presentan algunos ejemplos concretos de prote nas analizadas en detalle para cuatro rutas diferentes, cuya predicci on est a sucientemente justicada en t erminos biol ogicos, a falta de una vericaci on experimental.
110
7.7.1.
Predicciones Simult aneas por Varios Sistemas
Partiendo de la idea de que predicciones comunes entre distintos m etodos independientes nico sistema, se localizan las extensiones de rutas son m as ables que las que predice un u simult aneas entre los dos sistemas ERR propuestos en este cap tulo, compar andolas tambi en con los resultados propuestos por el m etodo de Glaab et al. [Glaab et al., 2010]. Para ilustrar la utilidad de dichas predicciones, se analizan las anotaciones funcionales de la base de datos UniProt [Consortium, 2011] y algunas extra das de la literatura cient ca. La tabla 7.3 resume los identicadores de UniProt de las prote nas predichas simult aneamente por ERR-PRyC y ERR-PDR, as como las coincidencias con las predicciones de Glaab et al.
Tabla 7.3: Lista de las rutas biol ogicas de Reactome y de las prote nas predichas simult aneamente por los m etodos ERR-PRyC, ERR-PDR y Glaab et al. Los identicadores de las prote nas se anotan de acuerdo a la nomenclatura de la base de datos UniProt.
Id. ruta Nombre ruta ERR-PRyC + ERR-PDR Glaab + ERR-PRyC + ERR-PDR Glaab + ERR-PRyC Glaab + ERR-PDR
12 16
20
Ciclo celular, fase mit otica Transporte transmembrana de mol eculas peque nas Metabolismo de prote nas
UCHL1 HUMAN LNP HUMAN A6ND05 HUMAN
RT14 HUMAN ZFAN5 HUMAN TBCD7 HUMAN RPP38 HUMAN A6NGZ2 HUMAN CNRG HUMAN RT24 HUMAN POP7 HUMAN RT25 HUMAN TUSC2 HUMAN RPP29 HUMAN TAF2 HUMAN RPC3 HUMAN CREG1 HUMAN TAF2 HUMAN RPC3 HUMAN TAF2 HUMAN RPC3 HUMAN SPNS1 HUMAN AVEN HUMAN SEC20 HUMAN FKBP8 HUMAN BIK HUMAN CD22 HUMAN SUPT3 HUMAN FIBP HUMAN PURA HUMAN MED11 HUMAN MED21 HUMAN TEBP HUMAN TBCD7 HUMAN RPP38 HUMAN A6NGZ2 HUMAN CNRG HUMAN CRIPT HUMAN TUSC2 HUMAN TF2H5 HUMAN TAF2 HUMAN RPC3 HUMAN B3KRR0 HUMAN
21 28
Transcripci on Apoptosis
30 32
Hemostasia Infecci on VIH
35
Expresi on g enica
MED19 HUMAN E9PDR7 HUMAN
PDCD4 HUMAN MED29 HUMAN
111
A continuaci on se discuten 3 escenarios diferentes, correspondientes a los tres subconjuntos de predicciones simult aneas en los que se pueden agrupar los resultados de la tabla 7.3: 1. Las predicciones coincidentes entre Glaab et al. y los sistemas ERR-PRyC y ERR-PDR 2. Las predicciones coincidentes entre Glaab et al. y s olo uno de los dos sistemas de anotaci on 3. Las predicciones coincidentes por los dos sistemas de anotaci on, pero diferentes al m etodo de Glaab et al. 1. Glaab et al. y ERR-PRyC o ERR-PDR En el primer caso, s olo coinciden dos prote nas: TAF2 HUMAN y RPC3 HUMAN, ambas propuestas para extender la ruta Transcripci on. TAF2 HUMAN es la subunidad 2 del factor de iniciaci on de la transcripci on TFIID, mientras que RPC3 HUMAN es la subunidad C3 de la ARN polimerasa III dirigida al ADN. Adem as, estas prote nas tienen una localizaci on subcelular en el n ucleo, donde se produce el proceso de transcripci on del ADN. En conclusi on, todas las anotaciones encontradas est an relacionadas con la transcripci on, indicando una coherencia en las predicciones. 2.a. Glaab et al. y ERR-PDR La comparaci on de las predicciones del sistema ERR-PDR y Glaab et al. indica que s olo 5 prote nas coinciden: TAF2 HUMAN, RPC3 HUMAN y B3KKR0 HUMAN propuestas para extender la ruta Transcripci on, y por su parte se sugieren MED29 HUMAN y PDCD4 HUMAN en la ruta Expresi on g enica. En el apartado anterior, relativo al primer escenario, ya se ha explicado la inclusi on de las prote nas TAF2 HUMAN y RPC3 HUMAN en la ruta de Transcripci on. La restante B3KKR0 HUMAN es una prote na no caracterizada, la que s olo ha sido anotada con una alta similitud a la prote na ERCC-1 de reparaci on del ADN por escisi on. Por otro lado, MED29 HUMAN es un mediador de la subunidad 29 de transcripci on de la ARN polimerasa II. Es destacable que otro miembro de este complejo, MED19 HUMAN tambi en se predice por el sistema ERR-PRyC en la misma ruta (ver siguiente secci on). PDCD4 HUMAN, la prote na 4 de la muerte celular programada, inhibe la iniciaci on de la traducci on por uni on con el factor de iniciaci on eucari otico 4A (eIF4A), y tambi en inhibe la actividad helicasa de eIF4A. Aunque la relevancia biol ogica de estos hallazgos requieren una mayor investigaci on, las anotaciones de UniProt de estas prote nas y la predicci on simult anea por dos m etodos independientes, incrementa la abilidad de estos resultados. 2.b. Glaab et al. y ERR-PRyC Por su parte, el sistema ERR-PRyC y el m etodo Glaab et al. predicen nuevas prote nas en 5 rutas, como muestra la pen ultima columna de la tabla 7.3. TAF2 HUMAN y RPC3 HUMAN en la ruta Transcripci on, MED19 HUMAN y E9PDR7 HUMAN en la ruta Expresi on g enica, TF2H5 HUMAN en Infecci on VIH, CD22 HUMAN en Hemostasia, y SPNS1 HUMAN, AVEN HUMAN, BIK HUMAN, SEC20 HUMAN y FKBP8 HUMAN en la ruta Apoptosis. Las prote nas de la ruta Transcripci on ya se han comentado en el apartado del escenario 1.
112
MED19 HUMAN es un mediador de la subunidad 19 de transcripci on de la ARN polimerasa II, y un co-activador involucrado en la transcripci on regulada de casi todos los genes dependientes de la ARN polimerasa II. El complejo mediador est a compuesto por MED1, MED4, MED6, MED7, MED8, MED9, MED10, MED11, MED12, MED13, MED13L, MED14, MED15, MED16, MED17, MED18, MED19, MED20, MED21, MED22, MED23, MED24, MED25, MED26, MED27, MED29, MED30, MED31, CCNC, CDK8 y CDC2L6/CDK11. La otra prote na predicha para la Expresi on g enica, E9PDR7 HUMAN, es una prote na no caracterizada. En la ruta Infecci on VIH, TF2H5 HUMAN, la subunidad 5 del factor de trascripci on general IIH (TFIIH) est a involucrada en la reparaci on del ADN por escisi on de nucle otidos, y cuando forma un complejo con CAK, participa en la transcripci on del ARN por la ARN polimerasa II. Merece la pena resaltar que, en esta ruta, los dos sistemas de anotaci on, ERRPRyC y ERR-PDR, predicen MED11 HUMAN y MED21 HUMAN, ambos componentes del complejo mediador descrito antes en la ruta Expresi on g enica. Por lo tanto, Infecci on VIH y Expresi on g enica son procesos conectados. CD22 HUMAN media interacciones c elula-B con c elula-B, y enlaza prote nas que en su cido si estructura de oligosac arido contienen a alico. Aunque no existen evidencias, su papel en la Hemostasia podr a estar asociado al mecanismo de agregaci on de plaquetas. De hecho, la cascada de migraci on de c elulas-B est a modulada por plaquetas [Li, 2008]. Acerca de la ruta Apoptosis, SPNS1 HUMAN podr a estar involucrado en la muerte celular necr otica o autof agica; AVEN HUMAN protege contra la apoptosis mediado por Apaf-1; BIK HUMAN acelera la muerte celular programada; SEC20 HUMAN est a implicada en la supresi on de la muerte celular, y la forma activa de FKBP8 HUMAN podr a por lo tanto jugar un papel en la regulaci on de la apoptosis. 3. ERR-PRyC y ERR-PDR Para el tercer escenario, es interesante observar que se predicen 5 prote nas simult aneamente por los dos sistemas de anotaci on propuestos en esta tesis en dos rutas diferentes, Metabolismo de prote nas y Expresi on g enica. TBCD7 HUMAN podr a actuar como una prote na de activaci on del GTP para la familia de prote nas Rab; RPP38 HUMAN es una subunidad p38 de la prote na RNasaP; A6NGZ2 HUMAN es una prote na no caracterizada; CNRG HUMAN, la subunidad-gamma de la fosfodiesterasa cGMP en la retina humana, participa en procesos de transmisi on y amplicaci on de la se nal visual; y TUSC2 HUMAN podr a funcionar como un supresor de tumores. Al contrario que en los dos escenarios previos, aqu hay anotaciones funcionales de las prote nas predichas muy diversas. Por lo que sabemos, hasta ahora estas prote nas no se han enlazado a estos procesos. Tambi en en este tercer escenario, se puede se nalar que los sistemas ERR-PRyC y ERRPDR a naden en com un una prote na m as a la ruta Transcripci on, a parte de las otras dos que na secretada compart an con Glaab et al. Se trata de CREG1 HUMAN, que aunque es una prote por la c elula, en sus anotaciones funcionales de UniProt argumenta expl citamente que podr a contribuir al control de la transcripci on del crecimiento y diferenciaci on de la c elula. En el caso de otras rutas donde existen predicciones de prote nas que los extienden, y que se realizaron simult aneamente por los dos sistemas ERR, existe poca informaci on en la literatura que permita argumentar la inclusi on o no de las prote nas predichas en las rutas biol ogicas estudiadas. Por otro lado, est a ampliamente documentado en la literatura cient ca que la participaci on de algunas prote nas en m ultiples procesos sugiere que existen comunicaciones extensas entre
113
diferentes procesos celulares. El an alisis realizado en este trabajo revela que Ciclo celular, fase mit otica, Expresi on g enica y Metabolismo de amino acidos son las rutas con el mayor n umero de prote nas predichas que conectan otros procesos celulares. 68 prote nas predichas se predicen en al menos dos procesos, de las cuales s olo 10 prote nas est an en tres rutas al mismo tiempo.
7.7.2.
Relaci on con Propiedades Moleculares Simples
En esta secci on, el an alisis de relevancia biol ogica se basa en las propiedades moleculares simples que usa el predictor. Dichas propiedades, procedentes principalmente de la secuencia, se representan mediante los predicados l ogicos usados (ver la gura 7.2). Se realizan dos an alisis: primero se analiza la frecuencia de los predicados en subconjuntos de prote nas y, segundo, se estudia la presencia o ausencia de cada predicado por prote na independiente. Por Subconjuntos de Prote nas En los sistemas ERR propuestos, en com un con otros trabajos previos [Jensen et al., 2002b, 2003a; Bendtsen et al., 2004] que usan combinaciones complejas de propiedades sencillas, es dif cil interpretar los resultados seg un dichas propiedades. No obstante, aunque un an alisis gen erico y exhaustivo no sea posible, un investigador interesado en un aspecto concreto de una ruta o prote na podr a analizar el fragmento espec co de la gura 7.21 relacionado con ello, por ejemplo, como se hace a continuaci on. Este an alisis es una muestra de la utilidad del enfoque, por lo que s olo se centra en algunas extensiones del sistema con mayor diversidad en reglas por ruta (ERR-PDR). En concreto, se discuten las predicciones coincidentes entre el m etodo Glaab et al. y el sistema ERR-PDR. Como se ha comentado previamente y se observa en la tabla 7.3, entre el sistema ERR-PDR y Glaab et al. s olo coinciden 5 prote nas: TAF2 HUMAN, RPC3 HUMAN y B3KKR0 HUMAN en la ruta Transcripci on, y MED29 HUMAN y PDCD4 HUMAN en la ruta Expresi on g enica. Un an alisis detallado de la frecuencia de los predicados en esta predicci on, indica que estas cinco prote nas comparten una frecuencia alta del predicado complex interaction, al igual que m as del 90 % observado en las 131 prote nas anotadas originalmente en la ruta Transcripci on, y m as de un 75 % en las 379 prote nas en la ruta Expresi on g enica. Este hecho est a de acuerdo con la estrategia de complejos multiprote na para la regulaci on de funciones celulares [Cramer et al., 2000]. Otros predicados con baja frecuencia, por ejemplo gene transcriptCount low en la ruta Transcripci on y protein negCharge high en la ruta Expresi on g enica, ayudan a diferenciar estas cinco prote nas de otras predichas y de aquellas anotadas en las rutas, como se observa en la gura 7.22. Por Prote nas Independientes La hip otesis de partida del sistema ERR es que las prote nas de una ruta pueden ser distintas a nivel molecular (ver secci on 7.1). Por lo tanto, no se espera que todas las prote nas originalmente anotadas en una ruta tengan sus propiedades de secuencia en com un, ni las prote nas predichas tampoco. Para claricar este punto, se incluye un an alisis que consiste en comparar individualmente las propiedades de todas las prote nas de una ruta; tanto las de la ruta original como las prote nas
114
Transcripcin
Interaccin PP Interaccin complejo Prot. Longitud baja Prot. Longitud alta Prot.CargaPos baja Interaccin PP Interaccin complejo Prot. Longitud baja Prot. Longitud alta

Expresin Gnica
predicado
Prot. CargaPos alta Prot. CargaNeg baja Prot. CargaNeg alta
predicate
J~
"'"
Prot.CargaPos baja Prot. CargaPos alta Prot. CargaNeg baja Prot. CargaNeg alta
Dom. transmembrana Dominio seal Dominio hlice Gen longitud baja Gen longitud alta N Transcritos bajo N Transcritos alto 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Dom. transmembrana Dominio seal Dominio hlice Gen longitud baja Gen longitud alta N Transcritos bajo N Transcritos alto
--
"
0.8
0.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
frecuencia de predicado en subconjunto protenas predichas
frecuencia de predicado en subconjunto protenas predichas
3 protenas en comn con Glaab et al.
15 protenas NO comunes con Glaab et al.
131 protenas de ruta original
2 protenas en comn con Glaab et al.
50 protenas NO comunes con Glaab et al.
379 protenas de ruta original
Figura 7.22: Frecuencia de predicados en subconjuntos de prote nas predichas: Rutas Transcripci on y Expresi on g enica.
no anotadas en Reactome, pero a nadidas a la ruta por el sistema ERR-PDR o por el m etodo de Glaab et al. Para ello, tomando como atributos las propiedades moleculares simples, representadas en predicados l ogicos, se aplica un algoritmo de agrupamiento o clustering sobre las diferentes prote nas (originales, predichas por ERR y predichas por Glaab et al.). Se realiza un clustering rbol binario de abajo hacia arriba, de las hojas jer arquico de aglomeraci on, construyendo un a rbol, prote a la ra z. En el a nas con un ancestro com un cercano son m as similares que las que tienen un ancestro com un lejano. Como medida de distancia entre elementos se usa el coeciente de correlaci on de Pearson, t pico al agrupar prote nas o genes. Esta medida se aplica sobre las propiedades utilizadas para representar cada prote na (simples de secuencia y presencia de interacciones). As , se obtiene un mapa coloreado con las prote nas agrupadas por semejanza en perles de propiedades simples. Como las propiedades son predicados l ogicos, s olo va a haber una escala de dos colores: amarillo si se satisface el predicado l ogico y rojo si no se satisface. Algunos ejemplos de estos mapas, coloreados y agrupando prote nas horizontalmente, se muestran en las guras F.1, 7.24, 7.23 y F.2, para las rutas Cadena de transporte de electrones, Replicaci on del ADN, Mantenimiento del tel omero e Interacciones de las integrinas en la supercie celular, respectivamente. Dos de las guras se encuentran en esta secci on como ejemplo, y las otras dos en el anexo F. Se han elegido estas rutas de Reactome por ser las mismas con propuestas reales de extensi on con prote nas de novo, analizadas en detalle en la secci on 7.7.3. Todas las prote nas mencionadas en dicha secci on se pueden localizar en estos mapas coloreados. En general, las guras ilustran que dentro de la misma ruta se pueden encontrar varios perles de propiedades, muy distintos entre s . Cada uno s olo agrupa unas pocas prote nas, y no todas las de una ruta, vericando la diversidad de las rutas en t erminos moleculares. Tambi en se puede observar que las prote nas predichas (con el sujo >> ERR <<) no se agrupan entre ellas sino que est an m as pr oximas a prote nas de la ruta original, incluso pueden
115
Interacciones Integrinas en Superficie Celular

FINC_HUMAN BCAR1_HUMAN RAP1A_HUMAN AB1IP_HUMAN LAMC1_HUMAN GRP3_HUMAN TLN1_HUMAN OSTP_HUMAN MADCA_HUMAN SIAL_HUMAN ICAM2_HUMAN JAM1_HUMAN FIBG_HUMAN AUP1_HUMANGlaab ITA2B_HUMAN IL3RB_HUMAN>>>ERR<< CD22_HUMAN>>ERR<< BASI_HUMAN ITA7_HUMAN ICAM4_HUMAN ITAD_HUMAN NPHN_HUMAN>>ERR<< ITA9_HUMAN FPRP_HUMAN>>ERR<< ITA1Q_HUMAN VWF_HUMAN CNTN1_HUMAN>>ERR<< JAML1_HUMAN ITB8_HUMAN
interaccion_complejo
proteina_longitud_baja
proteina_longitud_alta
proteina_CargaPos_baja
proteina_CargaPos_alta
proteina_CargaNeg_baja
proteina_CargaNeg_alta
dominio_transmembrana
dominio_helice
gen_longitud_baja
gen_longitud_alta
gen_NumTranscritos_bajo
predicados
Figura 7.23: Mapa de agrupaci on de prote nas por propiedades simples. Se incluyen prote nas de la ruta original, y predichas por ERR o por Glaab et al. (con los sujos >> ERR << y Glaab en las etiquetas de las las, respectivamente). Cada propiedad simple se representa con un predicado l ogico (cada columna). Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0). Se usan los identicadores de UniProt. Ruta Interacciones de las integrinas en la supercie celular.
ser m as parecidas que prote nas originales entre ellas. Adem as, las prote nas predichas por el m etodo de Glaab et al. (con el sujo Glaab ) presentan propiedades diferentes de las predichas por ERR, situ andose ambas generalmente en regiones distantes del mapa coloreado. En concreto en la gura 7.23 se observa que las prote nas predichas por ERR se distribuyen entre al menos dos o tres grupos diferentes de propiedades similares, siendo semejantes a distintas prote nas de la ruta original. En la gura 7.24, las prote nas predichas por ERR (y tambi en las de Glaab et al.) est an m as dispersas a un, porque se usan 3 reglas de clasicaci on diferente para extender esta ruta. Aunque tambi en puede inuir que la ruta original sea de mayor tama no que la anterior. ltimo, existen evidencias biol Por u ogicas que relacionan funcionalmente algunas de estas prote nas predichas con las de la ruta original, lo cual se analiza en detalle en la siguiente secci on.
gen_NumTranscritos_alto
interaccionPP
dominio_senal
protenas
116
Replicacin del ADN

PSD12_HUMAN PSMD3_HUMAN CCD47_HUMAN>>ERR<< SLD5_HUMAN GEMI_HUMAN PSMD6_HUMAN ORC1_HUMAN RB_HUMAN DPOD1_HUMAN MBB1A_HUMAN>>ERR<< PSMD8_HUMAN CDC6_HUMAN CDC7_HUMAN CBX4_HUMAN>>ERR<< PODO_HUMAN>>ERR<< FEN1_HUMAN PSD7_HUMAN DNLI1_HUMAN DPOD3_HUMAN PRI1_HUMAN CDT1_HUMAN PSD13_HUMAN RFC2_HUMAN DPOD2_HUMAN PSMD5_HUMAN PSB5_HUMAN HMOX1_HUMANGlaab PSB1_HUMAN PSB4_HUMAN PSMF1_HUMAN RBPMS_HUMAN>>ERR<< PSA1_HUMAN RFA3_HUMAN PSD11_HUMAN ORC2_HUMAN CDC45_HUMAN DPOLA_HUMAN DBF4A_HUMAN MCM10_HUMAN ORC4_HUMAN ORC5_HUMAN ORC3_HUMAN PSMD2_HUMAN MCM2_HUMAN PSMD4_HUMAN DPOE1_HUMAN ARI2_HUMAN>>ERR<< MCM8_HUMAN PSMD1_HUMAN DNA2L_HUMAN RFC1_HUMAN HELB_HUMANGlaab PRI2_HUMAN PSF1_HUMAN PSDE_HUMAN PSB7_HUMAN FZR_HUMAN PSB2_HUMAN DPOA2_HUMAN RFA1_HUMAN DPOE2_HUMAN RFA4_HUMAN TXD17_HUMAN>>ERR<< DPOD4_HUMAN PSME3_HUMAN PCNA_HUMAN PSF2_HUMAN ORC6_HUMAN PSA6_HUMAN PSB3_HUMAN TMM33_HUMAN>>ERR<<
dominio_helice
gen_longitud_baja
gen_longitud_alta
predicados
Figura 7.24: Mapa de agrupaci on de prote nas por propiedades simples. Se incluyen prote nas de la ruta original, y predichas por ERR o por Glaab et al. (con los sujos >> ERR << y Glaab en las etiquetas de las las, respectivamente). Cada propiedad simple se representa con un predicado l ogico (cada columna). Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0). Se usan los identicadores de UniProt. Ruta Replicaci on del ADN.
7.7.3.
Predicciones de novo
En esta secci on se exponen diversos casos concretos de prote nas analizadas, correspondientes a predicciones de novo, en las que hay una tendencia de correlaci on positiva entre la ruta extendida y las anotaciones funcionales en las bases de datos (UniProt) y en la literatura cient ca de las prote nas predichas. Como ejemplos de predicciones de novodel sistema ERR-PDR, se usan las rutas Cadena de transporte de electrones, Replicaci on del ADN, Mantenimiento del tel omero e Interacciones de las integrinas en la supercie celular. Los dos primeros ejemplos presentados incluyen una justicaci on breve y sencilla, mientras que para los otros dos ejemplos se plantea una propuesta de modelo de extensi on de la ruta, acorde a las evidencias biol ogicas existentes para cada caso.
interaccionPP
dominio_senal
protenas
117
Cadena de transporte de electrones En la ruta Cadena de transporte de electrones, las cinco prote nas predichas (CC078 HUMAN, CA151 HUMAN, A8MTT3 HUMAN, MANBL HUMAN y SPAT9 HUMAN) se anotan como prote nas de membrana de paso simple, lo que est a relacionado con las prote nas originales de la ruta, con la existencia del predicado transmembrane domain en un 42 % de las 77 prote nas originales en esta ruta. La corta longitud de las secuencias de las prote nas es un hecho m as para justicar biol ogicamente que las prote nas predichas son similares a las originales a nivel molecular, ya que la frecuencia del predicado protein length low es del 100 % en las prote nas predichas y del 78 % en la ruta original. As , para esta ruta existe una vericaci on biol ogica sencilla, porque existen anotaciones en las bases de datos referentes a dominios de membrana, y adem as coinciden con las frecuencias de propiedades simples de la secuencia (o predicados l ogicos). Aqu se justica tambi en la utilidad de la representaci on relacional, mediante la l ogica de predicados, que permite denir f acilmente t erminos en funci on de los cuales se quieren interpretar los resultados.
Replicaci on del ADN La ruta de Replicaci on del ADN de Reactome, a menor nivel, se divide en tres: fases mit oticas M-M/G1, s ntesis del ADN y regulaci on de la replicaci on del ADN. As , las anotaciones de las 61 prote nas no redundantes originales de esta ruta son variadas. Entre ellas se observan 6 prote nas que se asocian al complejo de reconocimiento de los sitios de origen de la replicaci on (del ingl es, Origin Recognition Complex, ORC), y 22 prote nas que est an relacionadas con el proteosoma. El ORC es un componente central para la replicaci on del ADN en eucariotas, localizado en el n ucleo. Por su parte, el proteosoma es un complejo proteico grande presente en todas las c elulas eucariotas y de otras especies. En eucariotas, los proteosomas est an localizados en el n ucleo y en el citoplasma [Peters et al., 1994]. Su funci on es degradar prote nas no necesarias o da nadas. En los tres procesos comentados en los que se descompone la replicaci on del ADN, existen prote nas que son degradadas por el proteosoma 26S, como por ejemplo, ORC1 HUMAN, GEMI HUMAN y CDC6 HUMAN. Este hecho explica la cantidad de componentes del proteosoma que est an anotados en la ruta original. Adem as, como el proteosoma puede estar en el citoplasma, las prote nas de esta ruta a degradarse se tendr an que desplazar al citosol. Por ejemplo, el compuesto ORC1-ubicuitinado (ORC1 HUMAN marcada para degradaci on) que tambi en se localiza en el citosol. As , prote nas grandes localizadas en el n ucleo, como acidos, probablemente no puedan difundir a trav es de la el ORC1 HUMAN con 861 amino membrana nuclear para llegar al citosol. Por lo tanto, puede que alguna prote na de membrana est e implicada en su transporte, como las prote nas CCD47 HUMAN y TMM33 HUMAN, dos prote nas de membrana que predice el sistema ERR-PDR como pertenecientes a esta ruta, entre las ocho que propone. CCD47 HUMAN es una prote na de membrana de paso simple y tambi en contiene un dominio h elice, seg un las anotaciones de UniProt. TMM33 HUMAN es la prote na transmembrana 33, que pertenece a la familia PER33/POM33, siendo una prote na de membrana multi-paso. Se puede observar la asociaci on entre las propiedades simples de secuencia de estas prote nas en el clustering jer arquico coloreado de la gura 7.24. En conclusi on, aunque no hay evidencias denitivas, las encontradas sugieren que algunas de las predicciones podr an tener sentido biol ogico.
118 Interacciones de las integrinas en la supercie celular
Las integrinas son los receptores que median la adhesi on de la c elula con la matriz extracelular, compuesta de diversas mol eculas que se relacionan con la c elula. En esta secci on se analiza la ruta de Reactome Interacciones de las integrinas en la supercie celular. Seg un las anotaciones en las bases de datos, de las cinco prote nas a nadidas por ERRPDR a esta ruta, cuatro son receptores de la supercie celular, para diferentes mol eculas y prote nas. Adem as, tienen una arquitectura de membrana de paso simple. Dichas prote nas son IL3RB HUMAN, CD22 HUMAN, NPHN HUMAN y FPRP HUMAN. IL3RB HUMAN es la subunidad B de un receptor de citoquinas, CD22 HUMAN es un receptor de c elulas-B, NPHN HUMAN es un receptor espec co de adhesi on a la c elula y FPRP HUMAN es un receptor de prostaglandina F2. Por su lado, CNTN1 HUMAN (contactin-1 o glicoprote na gp135) es una prote na situada fuera de la membrana (anclada mediante l pidos), pero relacionada con esta ruta, porque media las interacciones en la supercie celular durante el desarrollo del sistema nervioso. La gura 7.25 representa parcialmente esta ruta, incluyendo algunas de las prote nas anotadas originalmente en Reactome, sus conexiones y las similitudes con las prote nas predichas por ERR-PDR. IL3RB HUMAN y CD22 HUMAN, predichas por ERR-PDR, tienen un perl de propiedades simples de secuencia similar a la prote na original de la ruta ITA2B HUMAN (integrina alfaIIb-beta3). IL3RB HUMAN es un receptor de alta anidad para la interleucina-3, la interleucina-5 y el factor estimulante de colonias de granulocitos y macr ofagos. CD22 HUMAN media las interacciones entre dos c elulas B. Por otro lado, seg un muestra el panel B de la gura 7.25, CNTN1 HUMAN es semejante en propiedades a otra prote na diferente de la ruta original, VWF HUMAN (mult mero VWF), ambas situadas en la matriz extra-celular, fuera de la membrana. De este modo se verica la diversidad de reglas buscada por el sistema ERR-PDR, para extender las rutas con prote nas heterog eneas a nivel molecular. Se puede observar la cercan a de las prote nas mencionadas en la agrupaci on por propiedades simples de la gura 7.23. Cabe destacar que, en contraposici on a la coherencia biol ogica de las predicciones del sistema ERR-PDR en esta ruta, el m etodo de Glaab et al. propone una prote na (AUP1 HUMAN) sin relaci on con las prote nas originales de la ruta Interacciones de las integrinas en la supercie celular. AUP1 HUMAN es una prote na de membrana de tipo III, no existiendo otras prote nas con esta caracter stica en la ruta. Adem as, su localizaci on es en la membrana del ret culo endoplasm atico, y no en la membrana celular. Por lo tanto, en este caso particular, tienen m as l ogica las prote nas predichas por ERR-PDR que la predicha por el m etodo de Glaab et al. Mantenimiento del tel omero Los tel omeros son complejos prote na-ADN situados al nal de los cromosomas lineales, siendo importantes para la estabilidad del genoma, al evitar la p erdida de informaci on de los extremos y la fusi on con otros cromosomas. El ADN de los tel omeros humanos es una secuencia de 6 nucle otidos (TTAGGG), repetida cientos de veces. Los tel omeros se van acortando en cada divisi on celular, degradando los cromosomas. Cuando son demasiado cortos, la c elula no se vuelve a replicar para evitar c elulas err oneas, y se produce la muerte celular. Por til de las c lo tanto, para permitir las m ultiples divisiones de la vida u elulas, se necesita un mecanismo para mantener estable la longitud de los tel omeros, evitando el envejecimiento y la
119
citosol
Integrina alfaIIb-beta3:Fibronectina Integrina alfaIIb-beta3
Integrina alfaIIb-beta3:Trombospondina 1
Integrina alfaIIb-beta3:Complejo VWF membrana

------------------------l
Integrina alfaIIb-beta3:Complejo Fibrina
IL3RB_HUMAN CD22_HUMAN
..
s ...................... tore cep re
zona extracelular Fibronectina Multmero fibrina Trombospondina 1
!
I
l~~~~~~~~~~J... . . . . . .
CNTN1_HUMAN
antg e nos
Multmero VWF
Vector propiedades simples de secuencia
Integrina alfaIIb-beta3 (ITA2B_HUMAN)- [1,1,0,1,1,0,0,0,1,1,0,0,0,0,0] Receptor citocina (IL3RB_HUMAN)- [1,1,0,1,1,0,0,0,1,1,0,0,0,0,0] Receptor clula-B (CD22_HUMAN)- [1,1,0,1,0,0,0,0,1,1,0,0,0,0,0] Factor von Willebrand (VWF; VWF_HUMAN)- [1,1,0,1,0,0,0,0,0,1,0,0,1,0,0] Contactin-1 (CNTN1_HUMAN)- [0,1,0,1,0,0,0,0,0,1,0,0,1,0,0] [1,1,0,1,0,0,0,0,1,1,0,0,0,0,0]
anotada en la ruta prediccin ERR* prediccin ERR* anotada en la ruta prediccin ERR*
Figura 7.25: Ruta humana de Interacciones de las integrinas en la supercie celular de Reactome extendida por el sistema ERR-PDR. El panel A presenta un diagrama con algunas de las prote nas anotadas en la ruta originalmente, sus conexiones y tres prote nas predichas por ERR-PDR. Las l neas discontinuas representan las prote nas predichas por el sistema ERR-PDR. El panel B muestra una comparaci on entre los vectores de propiedades simples de secuencia, de las prote nas anotadas y de las predichas. Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0). El vector num erico de ejemplo es un vector de consenso, con la moda de los cinco vectores coloreados de arriba.
muerte celular. El mecanismo principal para mantener los tel omeros en humanos est a basado en la telomerasa, una enzima que permite alargar los tel omeros. La telomerasa es un complejo ribo-nucleo-prote na que incluye un dominio de transcriptasa inversa (del ingl es, TElomerase Reverse Transcriptase, TERT ) y una plantilla de ARN (del ingl es, TElomerase RNA Component, TERC). La telomerasa usa la plantilla de ARN para a nadir varias veces la secuencia TTAGGG que conforma los tel omeros. La actividad de la telomerasa es reducida o est a ausente en tejidos normales con c elulas maduras, una vez superada la fase de divisi on celular desarrollada en las c elulas som aticas. Sin embargo, se ha encontrado que en el 80-90 % de las c elulas cancer genas hay una mayor actividad de la telomerasa que en los tejidos sanos maduros [Kim et al., 1994]. As , las c elulas cancerosas proliferan indenidamente y crean tumores, lo que es un punto clave de su malignidad. Es decir, dicha proliferaci on se debe a la elongaci on de sus tel omeros por la
120
actividad continua de la telomerasa. Por lo tanto, la inhibici on de la activaci on de la telomerasa es un enfoque novedoso para la lucha contra el c ancer [Philippi et al., 2010]. En humanos, contin ua existiendo una pobre denici on de los mecanismos de replicaci on del tel omero, y se necesita m as conocimiento sobre la regulaci on de la transcripci on, de la traducci on y de la post-traducci on de las prote nas de enlace con el tel omero [Xu, 2011]. A un no se ha logrado comprender bien la recesi on y s ntesis de los tel omeros, ni c omo se coordinan los pasos de elongaci on mediados por la telomerasa, por lo que podr an estar involucradas otras prote nas [Smogorzewska and de Lange, 2004]. Nuestro sistema ERR-PDR predice cinco prote nas para extender la ruta Mantenimiento del tel omero, que hipot eticamente estar an implicadas en estos procesos relacionados con la estabilidad de los tel omeros. El an alisis de esta ruta, en cuanto a la frecuencia de aparici on de predicados (ver gura 7.21), revela que los predicados complex interaction y transcripts low se cumplen con una frecuencia del 100 % en las prote nas predichas (HPGDS HUMAN, CSN4 HUMAN, PIAS4 HUMAN, DTX1 HUMAN y APBP2 HUMAN), y un 64 % y 49 %, respectivamente, en las 45 prote nas anotadas originalmente en esta ruta. As , todas las prote nas a nadidas tienen alguna interacci on en un complejo. Cabe destacar que esta ruta es la nica que se extiende usando el predicado transcripts low. De forma que las prote u nas predichas no tienen isoformas, codicando cada gen para un solo transcrito en cada caso. Por otro lado, seg un las anotaciones de la base de datos InterPro, excepto HPGDS HUMAN una enzima bi-funcional: la prostaglandina sintetasa D hematopoy etica (EC 5.3.99.2) y la S-transferasa Glutati on (EC 2.5.1.18), las cuatro prote nas restantes predichas, presentan pa cidos nucleicos, lo cual es coherente con la denici trones de enlace a a on de tel omero como complejo prote na-ADN. Tales patrones son: el represor de la transcripci on h elice-giro-h elice Winged de enlace al ADN; el patr on de secuencia SAP, un enlace al ADN tentativo encontrado en diversas prote nas nucleares involucradas en la organizaci on cromos omica; los dominios Zinc-nger, ahora reconocidos como enlaces al ADN, ARN, prote nas y/o l pidos; la regi on repetida de p eptido tetr atico, la cual a pesar de mediar interacciones prote na-prote na y el ensamblaje de complejos multi-prote na en un gran rango de prote nas, adopta una disposici on h elice-giro-h elice que se encuentra com unmente en prote nas de enlace al ADN (para m as detalles, ver las anotaciones de InterPro [Hunter et al., 2009] de estas prote nas). No se conocen conexiones denidas entre la ruta Mantenimiento del tel omero y la prote na predicha APBP2 HUMAN, la prote na 2 de enlace a prote nas amiloides, que podr a desempe nar un papel en el transporte intracelular de prote nas. Sin embargo, es interesante destacar que tres de las prote nas predichas restantes (CSN4 HUMAN, PIAS4 HUMAN y DTX1 HUMAN) se han relacionado con la ruta de conjugaci on de la ubicuitina, seg un las anotaciones de UniProt. La ubicuitina (Ub) es una peque na prote na cuya principal funci on es la de marcar otras prote nas para su degradaci on. El acoplamiento de la ubicuitina regula principalmente interacciones con otras macromol eculas, tales como enlaces proteosomasustrato o captaci on de prote nas para la cromatina [Hochstrasser, 2009]. Hay similitudes evidentes en las rutas involucradas en la activaci on y conjugaci on Ub y las prote nas tipoubicuitina (Ubl, del ingl es ubiquitin-like proteins), con residuos de lisina particulares con prote nas de salida. No obstante, el mecanismo de intercambio entre prote nas SUMO (del ingl es, Small Ubiquitin-like Modier) y la ubicuitinaci on contin ua sin estar claro [Bailey and OHare, 2005; Hochstrasser, 2009], por lo que m as prote nas podr an estar implicadas en los procesos de ubicuitinaci on, para degradar prote nas como la telomerasa. Aunque no existan sucientes evidencias experimentales, en la gura 7.26 se propone un papel tentativo de las tres prote nas predichas en la ruta de Mantenimiento del tel omero
121
relacionadas con la ubiquitinaci on.
A
complejo signalosoma COP9
Ruta Mantenimiento del Telmero

?
Sistema de conjugacin Ub/Ubl (ubicuitinacin) experimento*
TERC (Componente ARN telomerasa) RUVBL1
MKRN1_HUMAN
TERT
(Transcriptasa inversa telomerasa)
TELOMERASA (Complejo RNP)
CSN4_HUMAN
(subunidad 4)
DTX1_HUMAN PIAS4_HUMAN
...
*TERT ubicuitinado
se degrada
B
dominios RING RING-finger
alineamientos de secuencia MKRN1_HUMAN DTX1_HUMAN PIAS4_HUMAN 299 438 336 FGILSNCNHTYCLKCIRKWRSAKQFESKIIKSCPECR VGRLGRCGHMYHLLCLVAMYSNGNKDGSL--QCPTCK PCRAETCAH---LQCFDAVFYLQMNEKKPTWMCPVCD 335 472 364
Vector propiedades simples de secuencia
Ub-ligasa E3 (MKRN1_HUMAN)- [1,1,0,1,1,0,0,0,1,1,0,0,0,0,0] anotada experimentalmente Ubl-ligasa (DTX1_HUMAN)- [1,1,0,0,0,0,1,0,0,0,0,0,0,0,1] prediccin ERR Ligasa protena-SUMO E3 (PIAS4_HUMAN)- [1,1,0,1,0,0,0,0,1,1,0,0,0,0,0] prediccin ERR Transcriptasa inversa Telom.(TERT_HUMAN)- [1,1,0,1,0,1,1,0,0,0,0,0,1,0,1] anotada en la ruta
Figura 7.26: Ruta humana de Mantenimiento del Tel omero de Reactome extendida por el sistema ERRPDR. En el panel A, la relaci on tentativa de las prote nas predichas con la ruta original, as como la relaci on entre MKRN1 y TERT vericada experimentalmente [Kim et al., 2005] y anotada en UniProt como modicaci on postraduccional. Dentro del complejo RNP (ribo-nucleo-prote na) que constituye la telomerasa, TERT interacciona entre otras con TERC, la plantilla de ARN, y con RUVBL1, la prote na 1 RuvB, un componente b asico de la cromatina propuesto para remodelar el complejo INO80, el cual est a involucrado en la regulaci on de la transcripci on, en la replicaci on del ADN y probablemente en la reparaci on del ADN. En el panel B, se presentan las tres prote nas propuestas para enlazar con TERT, con su composici on de dominios (izquierda), incluyendo todas un dominio de tipo RING-nger (en rojo), y el alineamiento de secuencia del dominio en las tres prote nas (derecha), conservando el residuo esencial de histidina, marcado en rojo. En el panel C, se muestra una comparaci on de los vectores de propiedades simples de secuencia para algunas de las prote nas implicadas. Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0).
Seg un muestra la gura 7.26, para la ruta de Mantenimiento del tel omero ERR-PDR predice a las prote nas CSN4 HUMAN, DTX1 HUMAN y PIAS4 HUMAN. As , dentro de las prote nas predichas, CSN4 HUMAN es un componente del complejo signalosoma COP9 (involucrado en la regulaci on de la degradaci on de las prote nas) que es un regulador esencial de la ruta de conjugaci on de la ubicuitina en respuesta a da nos en el ADN [Groisman et al., 2003]; PIAS4 HUMAN es una ligasa prote na SUMO E3 [Ihara et al., 2005]; y DTX1 HUMAN ltimas maniesta una actividad Ub-ligasa in vitro [Takeyama et al., 2003], formando estas dos u parte del sistema de conjugaci on Ub/Ubl. Por otro lado, se sabe que el dominio C-terminal (residuos 946-1132) de la telomerasa humana ha sido ecientemente ubiquitinado in vivo por la E3-ligasa MKRN1 HUMAN,
122
y que el dominio RING-nger de esta ligasa es esencial para la interacci on f sica entre estas prote nas. De hecho, la mutaci on His307Glu en el dominio RING-nger abole su actividad de ubiquitinaci on [Kim et al., 2005]. Es decir, seg un representa el panel A de la gura 7.26, el dominio RING-nger de MKRN1 promueve la degradaci on de TERT (subunidad de la telomerasa) mediante la ubiquitinaci on de la misma, decrementando la actividad de la telomerasa, subsecuentemente reduciendo la longitud del tel omero, y con ello facilitando la muerte celular. Las ligasas predichas por el sistema ERR-PDR (PIAS4 HUMAN y DTX1 HUMAN), poseen un dominio RING-nger igual que MKRN1, con un residuo conservado de Histidina (H ), indispensable para la uni on a TERT, aparte de varios residuos conservados de Ciste na C (marcados en rojo (H) y azul (C), respectivamente, en el alineamiento de las secuencias del panel B, en la gura 7.26). Adem as, el perl de propiedades simples de secuencia mostrado en el panel C de la gura 7.26, muestra la similitud molecular entre las tres prote nas mencionadas, y a su vez distinto al de TERT, otra prote na de la ruta. Por lo tanto, si MKRN1 HUMAN toma un papel importante en la modulaci on de la longitud del tel omero, por la existencia del dominio RING-nger, y comparte con PIAS4 HUMAN y on con la telomerasa, es posible que DTX1 HUMAN este dominio esencial para la interacci estas prote nas sugeridas por ERR-PDR tambi en est en implicadas en la estabilizaci on de la longitud del tel omero. Tambi en, recientemente se ha propuesto una conexi on entre el mantenimiento de la estabilidad del genoma y la conservaci on evolutiva de la familia de las ubicuitinas (en particular, las Ub-ligasas dirigidas a prote nas SUMO) [Nagai et al., 2011]. Esto representa una evidencia m as para justicar que estas tres prote nas anotadas con la ubiquitinaci on puedan estar involucradas en la ruta de Mantenimiento del tel omero. En conclusi on, aunque se necesitan m as evidencias para corroborar esta hip otesis, junto con las anotaciones y los hallazgos en la literatura, la conservaci on del dominio RING nger entre la prote na MKRN1 HUMAN (que degrada la telomerasa) y las prote nas predichas por nuestro sistema, podr a indicar que dichas prote nas son interesantes para investigaciones sobre la supresi on de tumores y la prevenci on del envejecimiento.
7.8.
Conclusiones y Discusi on
Este cap tulo presenta un sistema de extensi on de rutas basado en un enfoque de predicci on de funci on que conf a en combinaciones de propiedades simples asociadas a cada prote na. Las predicciones se basan principalmente en caracter sticas extra das de la secuencia (incluido el n umero de isoformas), pero tambi en incluye algunas propiedades relacionadas con la posici on de las prote nas en la red de interacci on prote na-prote na y en los complejos de prote nas, es decir, parejas de interacci on con sus correspondientes propiedades. Esta informaci on relacional hace que este sistema sea diferente de otros basados s olo en caracter sticas individuales. Con estas propiedades, se buscan prote nas espec cas similares a nivel molecular a alguna prote na de la ruta original, en vez de satisfacer caracter sticas generales para todas las prote nas de la ruta completa, a nivel de proceso biol ogico. Desde una representaci on relacional, el sistema de Extensi on basado en Representaci on Relacional propuesto en esta tesis expande 28 rutas de Reactome en humanos, con 383 prote nas, dado el umbral espec co elegido (denido en la secci on 7.2.6). Como cada predicci on de ERR tiene un valor de conanza asociado, se podr a elegir un umbral m as restrictivo, pero teniendo en cuenta que varias prote nas comparten el mismo valor de conanza rbol de decisi (aquellas que se clasican con la misma rama del a on). El nivel de extensi on
7.8. Conclusiones y Discusi on
123
cambia de ruta a ruta, en t erminos de rendimiento y de las diferentes propiedades moleculares de las prote nas a nadidas. Permitiendo una p erdida de precisi on en el sistema, se consigue una expansi on con mayor variabilidad molecular por ruta, lo cual incrementa el signicado biol ogico de la extensi on de las rutas. La gura 7.27 muestra un diagrama en el contexto de la Biolog a de Sistemas. En ella se representan las extensiones de rutas de ERR-PDR con alta abilidad, incluyendo las prote nas originales y las a nadidas, realzando las principales rutas discutidas en la secci on de relevancia biol ogica (secci on 7.7).
Transcripcin ARN Polimerasa II (Transcripcin)
Mantenimiento del telmero
Rutas de Reactome extendidas
Interacciones integrinas en superficie celular
Figura 7.27: Red de interacci on para las rutas extendidas por el sistema ERR. El diagrama central muestra la red de interacci on con todas las prote nas de rutas extendidas con alta abilidad. Alrededor, se destacan tres subconjuntos de la red central, correspondientes a tres rutas individuales discutidas en la secci on de relevancia biol ogica. Los enlaces verdes son interacciones en complejos, y los morados de interacciones prote na-prote na. Los tri angulos rojos representan las prote nas a nadidas por ERR, y los c rculos grises las prote nas originales de la ruta. La escala de grises se corresponde con diferentes reglas de predicci on, es decir, distintas combinaciones de propiedades simples.
Aunque el rendimiento global del sistema ERR no sea muy alto, se debe tener en cuenta la denici on original de una ruta biol ogica, porque determinan los datos con los que se aprende. Dichas deniciones dependen parcialmente de las opiniones subjetivas de los expertos que dise nan las rutas [Lu et al., 2007], por lo que quiz a no representan un patr on 100 % able (del ingl es, gold standard). Consecuentemente, en este contexto es muy dif cil alcanzar altas tasas de acierto en predicci on, justicado por la dependencia de la calidad de los datos de entrenamiento [Jansen and Gerstein, 2004]. Con respecto a la relevancia de las caracter sticas, los resultados de predicci on se nalan nica propiedad u til en el proceso de aprendizaje, ya que estas que las interacciones no son la u
124
relaciones por s solas no son capaces de lograr rendimientos de extensi on tan altos como el sistema completo, a pesar de que la interacci on entre prote nas tiende a ser una caracter stica frecuente. Por lo tanto, en los problemas de extensi on de rutas es necesario incluir propiedades de la secuencia en el aprendizaje, aparte de las interacciones, ya que una ruta no tiene todas sus prote nas conectadas con alguna otra de la ruta. Como se esperaba, las extensiones de los sistemas presentados en este cap tulo son diferentes a las que se alcanzan con el m etodo de Glaab et al., un enfoque distinto basado s olo en redes de interacci on. El solapamiento entre ambos sistemas (ERR y Glaab et al.) es escaso, incluso aunque ERR tambi en usa alg un conocimiento de interacciones. Adem as, el nuevo sistema ERR proporciona una mayor diversidad de funciones, no restringi endose a buscar en un espacio pr oximo (lo que se ilustra con menos prote nas predichas en la intersecci on entre rutas). Como el sistema ERR se centra en las particularidades moleculares de prote nas espec cas, y no en prote nas que conectan diferentes rutas, las extensiones de ERR consiguen evitar el solapamiento original entre diferentes rutas. Como las rutas son heterog eneas a nivel molecular, se necesita un an alisis por separado para cada una de ellas, como se hace a lo largo del cap tulo, profundizando en algunas de ellas. Los til nuevos componentes tentativos predichos por ERR proporcionan informaci on explicativa u para algunos de los procesos celulares estudiados en este cap tulo. Son notables las prote nas predichas para las rutas Transcripci on, Expresi on g enica, Cadena de transporte de electrones, Replicaci on del ADN y especialmente para Interacciones de las integrinas en la supercie celular y Mantenimiento del tel omero. De forma que las anotaciones de UniProt y los hallazgos en la literatura cient ca, cuando se combinan con los resultados de ERR, incrementan la abilidad de la asignaci on de una prote na a una ruta. ltimos resultados tambi Estos u en conrman que un bajo AUPRC, tal como el obtenido para la ruta de Mantenimiento del tel omero (0,0713 sobre 1), no siempre implica una mala predicci on en las prote nas espec cas en t erminos de utilidad biol ogica. Es decir, falsos positivos computacionales, no son falsos positivos biol ogicos[Mateos et al., 2002]. Incluso en t erminos de abilidad computacional, una mala predicci on global (un bajo AUPRC), puede no serlo para prote nas espec cas. Porque en la regi on izquierda de la curva (con baja cobertura o recall), la precisi on de las predicciones puede ser alta, como sucede en la curva PR individual de la ruta de Mantenimiento del tel omero (ver gura 7.28(a)). As , tras seleccionar un umbral, la precisi on en test de la/s regla/s nalmente aplicadas, puede corresponder con dicha regi on izquierda de la curva PR. Por lo tanto, las prote nas que ERR a nade a la ruta siguen la parte de la curva de alta precisi on. Incluso se alcanza la precisi on m axima para las prote nas predichas en la ruta de Interacciones de las integrinas en la supercie celular (ver regi on izquierda de la gura 7.28(b)). Este hecho justica de nuevo que las bajas curvas PR no sean determinantes en la evaluaci on de bondad del sistema ERR. Finalmente, se debe tener presente que el sistema ERR, sosticado en cierta manera, se puede usar de forma gen erica para extender otras bases de datos de rutas o procesos celulares, siempre que las prote nas anotadas disponibles sean sucientes para aprender. Quiz a este procedimiento podr a contribuir a unicarlas. De forma m as general, este procedimiento de Anotaci on basado en Representaci on y Aprendizaje Relacional se podr a aplicar f acilmente a diferentes vocabularios, para anotar funcionalmente genes y prote nas no caracterizados, siguiendo las estrategias propuestas en el cap tulo 8. Incluso se podr an compartir datos que ya se encuentran representados relacionalmente en la base de conocimiento.
7.8. Conclusiones y Discusi on
125
(a) Ruta Mantenimiento del tel omero.
(b) Ruta Interacciones de las integrinas en la supercie celular.
Figura 7.28: Ejemplos de curvas PR individuales con alta precisi on a baja cobertura. Sistema ERRPDR.
126
Cap tulo 8
Otros Enfoques de Aprendizaje Autom atico en Bioinform atica

El objetivo de este cap tulo es explorar diversos enfoques en la representaci on del conocimiento y en las t ecnicas de aprendizaje, para analizar y comprender el uso de la inteligencia computacional en la resoluci on de problemas bioinform aticos. Especialmente se analizan los escenarios que implican aprendizaje multi-clase y multi-etiqueta (frecuentes en anotaci on funcional de prote nas y genes), y representaci on y aprendizaje relacional (por la elevada presencia de relaciones en los datos biol ogicos). En denitiva, se quiere aprender de los diversos planteamientos computacionales considerados a lo largo de la tesis, que han sido la base imprescindible para conseguir encontrar una soluci on v alida para los dos problemas elegidos de Biolog a Molecular con Aprendizaje Autom atico (cap tulos 6 y 7). A partir del an alisis de estos enfoques, se pretenden denir directrices generales que sirvan como gu a para la aplicaci on de Aprendizaje Autom atico a otros problemas de anotaci on funcional en bioinform atica (o incluso en algunos casos a un dominio diferente), describiendo en cada caso la estrategia propuesta seg un las caracter sticas a afrontar del problema por resolver. La mayor parte de los enfoques estudiados (excepto la secci on 8.1) se analizan en el contexto del problema de extensi on de rutas biol ogicas (ver cap tulo 7). Debido a su mayor complejidad e inter es anal tico, por la existencia de muchas m as relaciones entre los datos (las que se usan y las que se podr an a nadir f acilmente) y por tratarse de una tarea de clasicaci on multi-clase y multi-etiqueta. Este cap tulo se estructura como se detalla a continuaci on. La secci on 8.1 aplica Programaci on Gen etica, como otra t ecnica de inteligencia computacional para integrar atributos num ericos, en un contexto con muchos valores desconocidos con sem antica biol ogica asociada. La secci on 8.2 propone aprender con un solo clasicador en vez de usar uno independiente para cada clase, en un problema multi-clase, y tambi en con las restricciones de un problema multi-etiqueta. La secci on 8.3 analiza diferentes transformaciones de una representaci on relacional a proposicional, pero siempre bas andose en la extracci on de patrones frecuentes. La secci on 8.4 estudia distintas combinaciones de representaci on y aprendizaje, aplicando s olo aprendizaje relacional, o s olo aprendizaje proposicional, en vez de la combinaci on h brida utilizada en el cap tulo 7 de la tesis. De la secci on 8.5 a la 8.8 se analiza c omo afecta la inclusi on de m as relaciones biol ogicas como informaci on de entrada para anotar funcionalmente con un m etodo basado en representaci on y aprendizaje relacional. Finalmente, se expone un resumen de las conclusiones del cap tulo y, como contribuci on de 127
128
8. Otros Enfoques de Aprendizaje Autom atico en Bioinform atica
este cap tulo, una tabla recopilatoria que sugiere estrategias de aplicaci on de AA seg un las caracter sticas del problema biol ogico. Metodolog a de Evaluaci on Este apartado describe la metodolog a de evaluaci on seguida en este cap tulo, en el que se comparan distintas soluciones para un mismo problema. Bas andose en los criterios presentados en el cap tulo 4, los resultados experimentales se eval uan mediante la comparaci on de los sistemas propuestos con otros, como por ejemplo una soluci on previa, como se decide hacer en este cap tulo. Esta soluci on previa puede ser una soluci on base, la mejor encontrada o no, pero con las mismas condiciones de partida que lo que se quiere comparar. A parte de la elecci on del sistema con el que comparar, se deben denir las medidas de evaluaci on. Dado que los dos problemas tratados en esta tesis son muy diferentes, los m etodos de comparaci on y medidas de evaluaci on tambi en deben divergir. Para los enfoques de AA evaluados con el problema de predicci on de asociaciones funcionales entre pares de prote nas (secci on 8.1) se compara con una soluci on base, m as simple (con menos atributos) que la presentada en el cap tulo 6, pero obtenida en las mismas condiciones que el nuevo enfoque propuesto con el que se compara. Como medidas de evaluaci on se utilizan: para el rendimiento, la tasa de aciertos en el conjunto de test, y para la interpretaci on, el tama no de la soluci on, su facilidad de interpretaci on y la frecuencia de aparici on de cada operador. Para los enfoques de AA evaluados con el problema de extensi on de rutas (secciones 8.2 a 8.8), la mayor a de las veces se compara con la soluci on del sistema que prioriza rendimiento y cobertura (ERR-PRyC), descrito en el cap tulo 7. No obstante, si el an alisis inuye en el n umero de rutas extendidas o la cantidad de reglas empleadas, se compara tambi en con los valores del sistema que prioriza la diversidad de reglas (ERR-PDR), el cual est a enfocado para obtener mejores resultados en este aspecto. De esta forma, en general se hereda la conguraci on completa del sistema ERR-PRyC, a excepci on del par ametro afectado por el enfoque propuesto, cuyos efectos se quieren evaluar siguiendo el m etodo cient co. Para mantener una comparativa coherente y estable, no se alterna el uso de las conguraciones de los sistemas ERR-PRyC y ERR-PDR. Se puede asumir que si mejora la diversidad de reglas sobre ERR-PRyC, tambi en lo har a sobre ERR-PDR; ya que el sistema ERR-PDR sigue una construcci on incremental a partir de una conguraci on de ERR-PRyC aceptable, una vez que se han superado unos m nimos (en rendimiento, solapamiento, etc.). Aunque para alg un enfoque propuesto pudiera ser mejor otra conguraci on distinta a la de ERR-PRyC, es inviable probar todas las combinaciones posibles, adem as de no ser un objetivo de esta tesis. A lo sumo, si las limitaciones computacionales no permiten mantener la conguraci on exacta, se opta por otra m as sencilla, relajando el valor en un par ametro concreto. Por ejemplo, en el sistema ERR-PRyC la profundidad en la extracci on de patrones es muy elevada, y puede ser inviable aplicarlo cuando existen muchas m as relaciones y combinaciones posibles de predicados (como sucede en las secciones 8.5.2, 8.6 y 8.7). Respecto a las medidas de evaluaci on, se decide emplear un subconjunto b asico de las ya usadas en el cap tulo 7. Espor adicamente se incluye una gura adicional para evaluar un aspecto relevante en la secci on espec ca, no analizado con las medidas b asicas. Se denen como b asicas AUPRC, AUROC, n de rutas extendidas (es decir, n de clases predichas) total y con m as de una regla, n de prote nas a nadidas total y porcentaje de prote nas diferentes, similitud sem antica con respecto a la ruta original y solapamiento entre las prote nas a nadidas ltimas medidas se utilizan representaciones gr a cada ruta. Para las dos u acas denidas en el cap tulo 7. Este subconjunto de medidas b asicas seleccionadas se muestra en todas las
8.1. Programaci on Gen etica
129
secciones, aunque en cada caso s olo se comentan las medidas que son importantes para ese an alisis. Se puede observar que este grupo de medidas b asicas incluyen algunas sobre el conjunto de test y otras sobre el de aplicaci on, porque en Biolog a Molecular es muy importante la interpretaci on de los resultados sobre el problema en cuesti on, como expone el cap tulo 4.
8.1.
Programaci on Gen etica para Predicci on de Asociaciones Funcionales entre Pares de Prote nas
Motivaci on-Hip otesis: Se puede mejorar la interpretaci on de los resultados, o la predicci on, o incluir m as contenido sem antico, usando otro enfoque de Inteligencia Articial como es la Programaci on Gen etica? Se puede conseguir una gesti on de los valores desconocidos que respete la sem antica biol ogica de los mismos?
8.1.1.
Enfoque
En el cap tulo 6 se afronta el problema de predicci on de asociaciones funcionales entre pares de prote nas, integrando varios m etodos disponibles para unicar las predicciones existentes. Se enfoca como un problema de clasicaci on binaria, resuelto mediante algoritmos de aprendizaje autom atico. El objetivo de esta secci on es aplicar Programaci on Gen etica (PG) a este problema biol ogico debido a la exibilidad de esta aproximaci on para adecuarse a las caracter sticas del problema, como por ejemplo una gran cantidad de valores desconocidos [Garc a-Jim enez et al., 2008b,a]. La PG es una t ecnica que evoluciona autom aticamente programas de ordenador [Koza, 1992]. En esta secci on, la PG se usa para obtener una ecuaci on equivalente a un clasicador binario, que determine si un par de prote nas dado presenta alguna asociaci on funcional. Una de las razones para elegir la PG es que esta t ecnica permite al dise nador denir las primitivas seg un los requisitos del problema. Por ejemplo, para el problema de predicci on AFPP se dene el operador if desconocido (if ?) (explicado en detalle en las secciones 8.1.2 y 8.1.4) para intentar resolver el inconveniente de los valores desconocidos, lo cual es una cuesti on relevante en este dominio biol ogico, porque hay una gran cantidad de ellos en los conjuntos de datos. Tambi en, con la PG el criterio a optimizar se puede denir en la funci on de evaluaci on, en lugar de conar s olo en la tasa de aciertos media que se usa t picamente en Aprendizaje Autom atico. Se denomina valor desconocido al vac o de informaci on en un atributo para alguna de las instancias. Las aproximaciones m as usadas para gestionar los valores desconocidos en Aprendizaje Autom atico son (1) ignorar la instancia completa o (2) rellenar con el valor medio del atributo. El primer enfoque es adecuado cuando hay pocos valores desconocidos. Sin embargo, en el problema de predicci on AFPP casi todas las instancias tienen alg un valor desconocido, de forma que si se ignoran todas ellas, los datos se reducen considerablemente, a menos del 0,005 % del tama no original. La segunda propuesta consigue una aproximaci on adecuada cuando hay ruido durante la recopilaci on de los datos, y consecuentemente algunos valores se pierden u olvidan. Pero este tampoco es el caso del problema a resolver, porque no reeja la sem antica de los datos reales: la mayor a de los valores desconocidos en el problema de predicci on AFPP representan datos no-existentes en una base de datos particular (en contraposici on a perdidos u olvidados). Esto se debe a que las fuentes de datos, es decir, la salida de varios m etodos computacionales
130
de predicci on, proporcionan un valor s olo si se satisfacen todas las condiciones del m etodo. Algunas de estas restricciones son disparar un evento o alcanzar un n umero m nimo de ort ologos en el alineamiento m ultiple de secuencia de las prote nas del par (ver la descripci on de los m etodos en detalle en la secci on B.4). Por lo tanto, como no se puede suponer cualquier valor medio como v alido, la mejor soluci on es gestionar los valores desconocidos como valores especiales. En este trabajo se propone una nueva forma de manejar los valores no-existentes de los atributos, que consiste en preservar como tal los desconocidos en los conjuntos de datos (representados por ?). Al usar esta nueva aproximaci on se obtiene una representaci on con m as sentido en t erminos de interpretaci on biol ogica. Otra opci on para gestionar los valores desconocidos de forma especial es reemplazar los valores no-existentes con una marca ltima opci num erica espec ca. Esta u on tiene una desventaja frente a la nueva propuesta, consistente en que los valores num ericos pasan a tener dos interpretaciones sem anticas diferentes: los valores reales y las marcas. No obstante, estas dos propuestas para gestionar valores desconocidos de forma especial se eval uan en la secci on 8.1.4. Adem as, es bien sabido que la PG sufre el problema del crecimiento desmesurado (del ingl es, bloat problem) [Mahler et al., 2005]. Esto es, los individuos de PG tienden a crecer en tama no sin una ganancia aparente en la evaluaci on. De ah , para intentar mejorar la tasa de aciertos y la legibilidad de las ecuaciones evolucionadas por la PG, se usa el mecanismo de control del crecimiento Tarpeian, el cual sesga la evoluci on hacia soluciones sencillas [Poli, 2001, 2003]. Tambi en se suele esperar que el m etodo Tarpeian acelere la evoluci on de las soluciones. Programaci on Gen etica La PG es un paradigma evolutivo que aplica algoritmos gen eticos para generar autom aticamente programas de ordenador [Koza, 1992]. Cada individuo de la poblaci on se representa rbol, con terminales en las hojas y operadores o funtradicionalmente con una estructura de a rbol. La PG permite denir los operandos y operadores neciones en los nodos internos del a cesarios para cada tarea que se quiera resolver, seg un el dominio de aplicaci on. La evaluaci on, necesaria para la evoluci on gen etica, se determina por medio del rendimiento del individuo en la tarea concreta. rbol, reduciendo Con frecuencia, en PG se produce un crecimiento desmesurado del a en gran medida la velocidad del proceso evolutivo [Mahler et al., 2005]. Este crecimiento descontrolado presenta tres efectos negativos. Primero, soluciones dif ciles de comprender, enormes y con fragmentos in utiles. Este aspecto podr a ser muy importante en la predicci on de interacciones y asociaciones funcionales entre prote nas, si se quiere comprender las razones de lo aprendido por la PG despu es de la evoluci on. Segundo, el proceso evolutivo se hace muy lento, porque se invierte mucho tiempo en evaluar los individuos m as grandes de lo normal. Finalmente, en el contexto de los problemas de clasicaci on, los individuos muy grandes podr an tener una tasa de aciertos baja, porque tienden a estar sobre-entrenados. En este apartado se aplica el m etodo Tarpeian [Poli, 2001, 2003], una t ecnica bien fundada de control del crecimiento desmesurado. Brevemente, este m etodo aborta estoc asticamente rbol es mayor que la media algunos individuos durante el proceso evolutivo, si el tama no de su a ltima generaci de la poblaci on de la u on (en nodos o profundidad). As , el tama no de la soluci on rbol, mejora su interpretaci se limita de forma exible y, la disminuci on del tama no del a on. Con este m etodo tambi en se reduce el tiempo de ejecuci on, ya que los individuos abortados no se eval uan, asign andoles directamente el peor valor posible de evaluaci on. Adem as, en las
131
rbol es semejante a seguir la regla de la navaja tareas de aprendizaje, reducir el tama no del a de Occam, pudiendo mejorar la tasa de aciertos de la predicci on mediantes soluciones m as sencillas.
8.1.2.
Conguraci on Experimental
Esta secci on describe los elementos necesarios para aplicar PG a la resoluci on del problema de predicci on de asociaciones funcionales prote na-prote na descrito en el cap tulo 6. La herramienta de PG usada en la fase experimental es lil-gp 1.1 [Zongker and Punch, 1998], que est a basada en los dos primeros libros de Koza [Koza, 1992, 1994]. Conjunto de Datos Al presentar esta secci on una prueba de concepto, se compara con una versi on previa del predictor nal descrito en el cap tulo 6, como ya se ha comentado. En esta versi on m as simple, las fuentes de datos y la construcci on de los conjuntos de datos siguen los mismos criterios que se denen en la secci on 6.2. S olo se diferencian de la conguraci on nal en que se usan 10.000 ejemplos para el entrenamiento y 10.000 para el test, con una distribuci on al 50 % entre positivos y negativos, y s olo con 9 atributos por par de prote nas. Los 10 atributos de ranking de predicciones centrado en la prote na no se incluyen, y por tanto no se aplica el ltro de pares con un ranking menor a los 100 primeros. Codicaci on de la Soluci on En la PG es necesario denir los elementos (es decir, los terminales y los operadores) que rboles que representan los distintos individuos de la poblaci forman parte de los a on. 1. Terminales rboles: Con estos 9 elementos se rellenan las hojas de los a 5 grados de asociaci on, proporcionados por los 5 m etodos individuales de predicci on, descritos en la secci on 6.2.1. 4 (2 por prote na) propiedades de las secuencias de prote nas: longitud y n de ort ologos. 1 terminal ERC (del ingl es, Ephemeral Random Constant, constante aleatoria ef mera) que representa a cualquier constante num erica aleatoria, la cual puede aparecer varias veces a lo largo del proceso evolutivo. Su valor se establece en el rango [0, 1]. Un requisito t pico en PG es que las operaciones sean cerradas, es decir, todos los terminales deben tener siempre un valor en cualquier instancia de entrada. Por lo tanto, la alta cantidad de valores no-existentes en el dominio de predicci on AFPP se deben gestionar de una manera especial, como ya se ha mencionado. En un primer enfoque, dichos valores se rellenan con una marca espec ca: una constante num erica con un -1, seg valor muy distante al del resto de caracter sticas (0 o un cual sea el valor m nimo alcanzado en cada terminal). Adem as, todos los terminales se normalizan, para homogeneizar los resultados.
132 2. Operadores Se usan los siguientes:
Operadores aritm eticos: suma, resta, multiplicaci on y divisi on protegida (que controla la divisi on por cero). Operadores condicionales: Si(a>=b) Entonces x ; Si no y . S olo se con ste, pues la comparaci sidera e on contraria ser a redundante. Operador if ?: Si(k es desconocido) Entonces x ; Si no y . Es un nuevo operador espec co, dise nado para este dominio. Este operador se dene como segundo enfoque para gestionar los valores desconocidos o no-existentes, haci endolos muy diferentes del resto. As , cuando se usa este operador, los valores desconocidos se conservan, sin reemplazarlos con ninguna constante num erica. La forma de proteger el resto de operaciones, frente a un valor desconocido, consiste en devolver siempre como salida el valor desconocido (?), si alguno de los operandos es desconocido. Con esta implementaci on se valora de la misma forma que hayan aparecido uno o varios valores desconocidos, en cualquier combinaci on con operadores a lo largo de una secuencia concreta. Proceso Evolutivo Para predecir asociaciones funcionales entre dos prote nas (p1, p2), se aplica el individuo evolucionado f sobre las prote nas, y se usa un umbral para determinar la clase positiva o negativa. As , Si (f umbral) = (p1, p2) est an asociadas funcionalmente; Si no = (p1, p2) no est an asociadas funcionalmente. En todos los experimentos que se presentan en este trabajo el umbral es 0,5. En este trabajo la funci on de evaluaci on es la tasa de aciertos, es decir, el porcentaje de instancias clasicadas correctamente, seg un la ecuaci on 8.1. evaluaci on = (T P + T N ) (T P + T N + F P + F N ) (8.1)
donde TP son verdaderos positivos, TN son verdaderos negativos, FP son falsos positivos y FN son falsos positivos [Fawcett, 2003]. En el proceso evolutivo, hay muchos par ametros a establecer, dando lugar a diferentes conguraciones para los experimentos. Los par ametros principales se ajustan con el rango de valores que muestra la tabla 8.1 (segunda columna), encontrando una conguraci on base (ver tabla 8.1, tercera columna) apropiada para los experimentos presentados en las siguientes secciones. En el manual de la herramienta lil-gp [Zongker and Punch, 1998] aparece una lista completa de par ametros, con su signicado y descripci on detallada. Adicionalmente se a nade un nuevo par ametro a la herramienta lil-gp: el factor Tarpeian. Se dene como la probabilidad de abortar un individuo si su tama no es mayor que la media. Los par ametros de la conguraci on base presentados en la tercera columna de la tabla 8.1 se obtienen emp ricamente, excepto la profundidad m axima y el m etodo de selecci on de individuos, que son los valores por defecto del libro de Koza previamente mencionado [Koza, 1994].
8.1.3.
Comparaci on de PG con otras T ecnicas de AA
Esta secci on presenta los resultados obtenidos tras aplicar PG al problema de predicci on de AFPP. Todas las conguraciones mostradas proceden de un promedio de 30 ejecuciones de
133
Tabla 8.1: Valores de los principales par ametros de conguraci on en la soluci on de AFPP con Programaci on Gen etica. Rango de valores (segunda columna) y valores en conguraci on base sin control de crecimiento (tercera columna).
Par ametro Tama no poblaci on N generaciones Profundidad m axima N nodos m aximo rbol Operadores del a Probabilidad operadores gen eticos M etodo selecci on individuos Factor Tarpeian
Rango de valores 1.000-25.000 15-250 17 25-300 +, -, *, /, , if ? cruce (0,3-0,9) reproducci on (0,1-0,4) mutaci on (0,0-0,4) torneo (tama no=7) 0,0-0,9
Valor 1.000 50 17 200 +, -, *, /, cruce (0,5) reproducci on (0,1) mutaci on (0,4) torneo (tama no=7) 0,0
PG. En la conguraci on base, la tasa de aciertos en test es del 60,83 % en media y de 61,44 % en la mejor ejecuci on encontrada, con una varianza muy baja. La tabla 8.2 resume los resultados de varios algoritmos de Aprendizaje Autom atico (de la herramienta Weka [Witten and Frank, 2005]) para comparar con la PG. Todos los par ametros siguen los valores por defecto de Weka.
Tabla 8.2: Comparaci on cuantitativa entre Programaci on Gen etica y Aprendizaje Autom atico sobre el conjunto de test. Los valores est an medidos en porcentaje. La la PG presenta los resultados en media/mejor ejecuci on. Los algoritmos de Aprendizaje Autom atico usados son de diferentes tipos: rbol de decisi ADTree, un a on; AODE, m etodo bayesiano; Kstar, un algoritmo de razonamiento basado en casos; MLP, una red de neuronas; PART, un m etodo de reglas de decisi on; SimpleLogistics, un m etodo de regresi on log stica; y SMO, m aquinas de vector de soporte (SVM). Ver la secci on 6.2 para obtener la referencia de cada algoritmo.
Algoritmo PG ADTree AODE KStar MLP PART SimpleLogistic SMO
Tasa de aciertos 60,38 / 61,44 60,02 61,32 61,60 58,22 61,96 60,70 59,96
Tasa de aciertos con valores desconocidos 60,67 / 61,22 60,35 58,99 58,92 60,00 58,33 57,61 57,62
Sensibilidad (TP/TP+FN) 58,87 / 63,54 64,56 48,60 60,24 20,40 60,84 56,34 56,98
Especicidad (TN/TN+FP) 62,62 / 59,34 55,48 74,04 62,96 96,06 63,08 65,06 62,94
La segunda columna de la tabla 8.2 muestra que la tasa de aciertos en test de la PG es tan alta como en la mayor a de los algoritmos tradicionales de Aprendizaje Autom atico que se han ltimas columnas de la tabla presentan los resultados segregados probado. Adem as, las dos u en sensibilidad y especicidad. Si se interpretan estas medidas como la precisi on por clase, la
134
primera para la clase positiva y la segunda para la negativa, se puede notar que casi todos los algoritmos consiguen predicciones aceptables en ambas clases. Las excepciones son AODE y MLP, que est an sesgados hacia la clase negativa, provocando que las instancias de la clase positiva se predigan peor que la aleatoriedad. Este hecho se resuelve en la soluci on denitiva presentada en el cap tulo 6, con 10 atributos adicionales y una distribuci on del 20 % de ejemplos positivos y un 80 % de negativos, alcanzando un 70,68 % de sensibilidad y un 83,80 % de especicidad.
8.1.4.
Gesti on de Valores Desconocidos y Simplicaci on de la Interpretaci on
Este apartado describe qu e pasa cuando se a nade un nuevo operador a los existentes: el operador if ?. Intenta gestionar el importante problema de los valores desconocidos debido al gran n umero de ellos en este dominio, como ya se ha comentado. Tambi en se analizan los efectos derivados de la aplicaci on del m etodo Tarpeian para el control del crecimiento desmesurado. Comparaci on Manteniendo Valores Desconocidos Aqu se eval uan los dos enfoques diferentes comentados para gestionar los valores desconocidos. El primero los rellena con una marca num erica espec ca (conguraci on base). El segundo conserva los valores desconocidos en los datos, y cada algoritmo usa su propio criterio para procesarlos. Por ejemplo, la PG a nade un nuevo operador (if ?), y los algoritmos de Weka los rellenan con la media o ignoran la instancia completa (ver la secci on 8.1.1 para una explicaci on detallada de este aspecto). Las columnas segunda y tercera de la tabla 8.2 muestran la tasa de aciertos en test correspondiente al primero y segundo enfoque descritos, respectivamente. As , cuando se analiza la tasa de aciertos (segunda columna), el algoritmo PART es ligeramente mejor que PG. Sin embargo, al mirar la tercera columna, PG presenta el valor m as alto de toda la columna. Esto signica que si se conservan los valores desconocidos en los conjuntos de datos, PG sobresale por encima de los algoritmos de Aprendizaje Autom atico. Control del Crecimiento Desmesurado de la Soluci on La tabla 8.3 y la gura 8.1 muestran c omo cambian varias medidas (tasa de aciertos en test, rbol y tiempo de ejecuci tama no del a on) para seis conguraciones diferentes. La conguraci on Base es la mejor encontrada, sin control de crecimiento desmesurado, cuyos par ametros se pueden consultar en la tabla 8.1. Base sin l mite se reere a la conguraci on base sin restringir rbol. if ? es la conguraci el tama no m aximo del a on base pero a nadiendo este nuevo operador (ver secci on 8.1.2 para la descripci on del operador if ?). Finalmente, la conguraci on Tarpeian incluye dicho m etodo de control del crecimiento desmesurado y la caracter stica sin l mite. if ? & sin l mite y if ? & Tarpeian combinan las conguraciones de ambos elementos. En la tabla 8.3 se observa que la tasa de aciertos en test es casi constante en todas las conguraciones, alrededor de un 60,5 %; con un muy ligero descenso cuando se incluye el rbol (n operador if ? o/y el m etodo Tarpeian. Sin embargo, con respecto al tama no del a umero de nodos) y el tiempo (ver gura 8.1), los valores para las conguraciones con el operador if ? o el m etodo Tarpeian son considerablemente m as bajos que los otros. Con el m etodo Tarpeian as cuando ambos se usan juntos. De la reducci on es mayor que con el operador if ?, e incluso m
135
Tabla 8.3: Inuencia del operador if ? y m etodo Tarpeian: tasa de aciertos en test.
Id. a b c d e f
Conguraci on Base Base sin l mite if ? if ? & sin l mite Tarpeian if ? & Tarpeian
Tasa de aciertos 60,83 % 60,93 % 60,67 % 60,65 % 60,43 % 60,27 %
rbol y tiempo. El eje y cuantica Figura 8.1: Inuencia de operador if ? y m etodo Tarpeian: tama no del a el tama no (en n umero de nodos) y el tiempo (en segundos). La escala es la misma para ambas medidas.
la conguraci on b a la f, en media, el tama no disminuye en m as de 638 nodos y el tiempo en casi 3.000 segundos. Adem as, cuando se aplica el operador if ? la longitud de la soluci on (es decir, el n umero de rbol) es bastante m nodos del a as corta que en el algoritmo PART, que es el mejor algoritmo de Aprendizaje Autom atico seg un la tasa de acierto en test (ver tabla 8.2). En la lista de decisi on rboles soluci de PART hay 250 nodos (operandos y operadores) y en los a on de PG con la conguraci on f hay 38 nodos en media. En conclusi on, el operador if ? y el m etodo Tarpeian rbol y el tiempo, disminuyendo escasamente la tasa de aciertos. reducen el tama no del a rboles abortados (es decir, no evaluados) seg La gura 8.2(a) presenta la cantidad de a un el valor del factor Tarpeian. La conguraci on que se usa para generar este diagrama incluye tambi en el operador if ?. rboles no evaluados se incrementa Por un lado, la gura 8.2(a) se nala que el n umero de a rboles con el factor Tarpeian, hasta alcanzar el valor 0,7. Cabe destacar que la mayor a de los a que no se eval uan, se debe a un exceso tanto en nodos como en profundidad media. Por otro lado, esta gura demuestra porqu e usar el m etodo Tarpeian implica una reducci on en el tiempo de ejecuci on. La evaluaci on de los individuos es la parte de la evoluci on que exige m as tiempo. rboles, no evaluando ninguno de ellos, entonces Como el m etodo Tarpeian aborta muchos a hace que se decremente signicativamente el tiempo de ejecuci on. En cuanto a la tasa de aciertos, la gura 8.2(b) indica que se mantiene casi constante para
136
n rboles no evaluados
14000 12000 10000 8000 6000 4000 2000 0 0.0 0.1 0.2
14000 12000 10000 8000 6000 4000 2000 0 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Factor Tarpeian
Por nodos Por profundidad Por nodos y profundidad
rboles abortados (por diferentes criterios: nodos, profundidad (a) N a y ambos).

0.62 0.62
tasa de aciertos
0.61
0.61
0.60
0.60
0.59
0.59
0.58
0.58
Test
0.57 0 0.1
Entrenamiento
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.57 0.9
Factor Tarpeian
(b) Tasa de aciertos.
rboles abortados y Figura 8.2: Evoluci on al aplicar m etodo Tarpeian con distintos factores: (a) n de a (b) tasa de aciertos.
valores del factor Tarpeian del 0,0 al 0,6, y se produce un decremento considerable a partir del 0,7. Del valor 0,7 a 0,8 del factor Tarpeian, los valores m as altos alcanzados bajan mucho, rboles abortados (ver que la columna 0,8 es la primera m tanto en cantidad de a as baja que las anteriores en la gura 8.2(a)), como en tasa de aciertos (ver un descenso signicativo del 0,7 al 0,8 en la gura 8.2(b), con menos del 60 %). 0,7 consigue un buen equilibrio entre la tasa de aciertos y la eciencia, por lo que es el valor elegido. Aunque la tasa de aciertos es ligeramente mejor en la conguraci on base con un factor Tarpeian de 0,0 (ver tabla 8.3), aplicar este m etodo de control del crecimiento con un factor 0,7 aporta ventajas en cuanto al tama no de la soluci on y el tiempo de ejecuci on en PG. rbol s Resumiendo, disminuir el tama no del a olo implica una escasa p erdida en la tasa de rboles obtenidos permiten una aciertos con respecto a la conguraci on base. Sin embargo, los a interpretaci on m as sencilla y un proceso evolutivo mucho m as r apido. Por lo tanto, se considera conveniente incluir en la propuesta de soluci on con PG ambos elementos, el operador if ? y el m etodo Tarpeian.
137
Arbol de Salida rbol, semejante al ejemplo La salida de cada proceso evolutivo de un sistema de PG es un a mostrado en la gura 8.3. El ejemplo seleccionado procede de la conguraci on if ? & Tarpeian, rboles m porque es la que genera los a as peque nos. En concreto, el experimento que genera este rbol tiene una tasa de aciertos de un 60,44 %. a rbol se puede vericar que aparecen casi todos los terminales y que el operador En este a if ? se usa con mucha frecuencia, como se analiza en el siguiente apartado. Si se interpreta el rbol, despu a es de simplicar la expresi on, se puede decir que: si el doble de length seq min es mayor que 0,59129 (primera l nea) y n seqs min o I2H es desconocido (segunda l nea), o tambi en si el doble de dicho valor es menor que 0,59129 (primera l nea) y GF o length seq max es desconocido (tercera l nea), entonces la expresi on comprueba si GC y MT son desconocidos tambi en, retornando 0,74748 en ese caso; lo que signica una predicci on de asociaci on funcional positiva para el par de prote nas dadas. Por el contrario, si ninguna de las condiciones anteriores se cumple, la predicci on depende de las operaciones aritm eticas espec cas sobre las cantidades num ericas concretas. rbol, la interpretaci Para concluir, a pesar del peque no tama no del a on biol ogica es complicada. No obstante, cuando el tama no es un poco mayor (lo que sucede en cuanto el operador if ? y el m etodo Tarpeian no se aplican), ni siquiera se podr a intentar interpretar el rbol. a
ARBOL: nodos: 20 (if\_? (>= (+ length_seq_min length_seq_min) 0.59129 (/ n_seqs_min I2H) (/ GF length_seq_max)) (if\_? GC (if\_? MT 0.74748 n_seqs_min) 0.59129) 0.59129)
Figura 8.3: Arbol de uno de los mejores individuos usando operador if ? y m etodo Tarpeian.
8.1.5.
Relevancia de Operadores
En este apartado se determina cu al es la selecci on de operadores que realiza el proceso evolutivo, analiz andolo en t erminos de frecuencia de aparici on. Una ventaja de la PG es que el proceso evolutivo selecciona autom aticamente los terminales y operadores m as relevantes para cada individuo. Por esta raz on, se analiza la frecuencia con la rboles de salida. Los elementos m que aparece cada uno en los a as frecuentes deber an ser los m as relevantes. La gura 8.4 representa la distribuci on de los operadores en el conjunto de experimentos de la conguraci on base (a) y la conguraci on if ? & Tarpeian (b). La gura 8.4(a) muestra la misma proporci on para cada operador. Por el contrario, cuando se a nade el operador ste cubre la mayor proporci if ?, e on dentro de los operadores usados, con un 31 % cuando s olo se incluye el operador if ? y un 44 % si tambi en se a nade el m etodo Tarpeian, c omo ilustra la gura 8.4(b). La raz on que explique este hecho podr a ser la elevada cantidad de valores desconocidos (?) en el conjunto de datos. Por lo tanto, parece importante considerar
138
estos valores desconocidos de forma diferente a los restantes num ericos, y aplicar c alculos rboles soluci especializados para los desconocidos, como los a on de PG hacen frecuentemente. Adem as, conservar el valor ? (en vez de reemplazarlo con una marca num erica) reeja mejor la situaci on, es m as acorde con la sem antica biol ogica real, como explica la secci on 8.1.1. Se ha
Figura 8.4: Frecuencia de operadores. (a) conguraci on base y (b) conguraci on if ? y Tarpeian.
aplicado la misma idea para la selecci on de terminales. Pero no se extrae ninguna conclusi on relevante, porque todos los atributos aparecen en proporciones similares. En general, cada caracter stica tiene una relevancia similar, pero el operador if ? es el m as importante, de acuerdo a las propiedades del dominio. Conclusiones Los resultados de la Programaci on Gen etica en t erminos de tasa de aciertos est an en los mismos niveles que varios algoritmos de Aprendizaje Autom atico por defecto. Sin embargo, con la exibilidad de la PG se consigue un manejo de los valores desconocidos o no-existentes mucho m as cercano a la realidad biol ogica que con cualquiera de los otros algoritmos de AA. Adem as, se consigue limitar el tama no de las soluciones (incluso m as que en los algoritmos de AA), facilitando su lectura, con el uso del m etodo Tarpeian, que tambi en mejora la eciencia, sin apenas p erdida en tasa de aciertos. Los resultados se podr an mejorar m as usando PG. Por ejemplo, con una funci on de evaluaci on del proceso de evoluci on m as elaborada que la simple tasa de aciertos, d andole m as peso a los aciertos positivos que son m as importantes que los negativos en este dominio, lo cual se puede hacer f acilmente con PG. No obstante, en esta secci on s olo se trata de demostrar la val a del uso de PG aplicado a este problema, y no experimentar con todas las conguraciones posibles. Por otro lado, se podr a extender el conjuntos de terminales y funciones, usar ADFs [Koza, 1994], y otras mejoras del m etodo Tarpeian [Mahler et al., 2005; Poli et al., 2007]. La PG es un enfoque v alido e interesante para aplicarlo a otros dominios sobre todo cuando se necesite un dise no personalizado de los operadores. Tambi en se podr a usar en otros problemas directamente el operador if ? aqu planteado, si se tiene la misma dicultad por la gran cantidad de valores desconocidos y representan algo diferente, porque la mayor a de algoritmos de AA no lo gestionan adecuadamente. Por otro lado, si se necesita una soluci on interpretable, el m etodo Tarpeian resulta fundamental.
8.2. Aprendizaje Multi-clase. Aprendizaje Multi-etiqueta
139
8.2.
Aprendizaje Multi-clase. Aprendizaje Multi-etiqueta
Motivaci on-Hip otesis: Se puede construir un modelo de predicci on compuesto por un nico a rbol (en vez de uno por clase) que simplique el aprendizaje y la interpretaci u on de los resultados?
8.2.1.
Enfoque
Una clasicaci on multi-clase, como contrapuesto a la binaria, signica que hay m as de dos clases entre las que distribuir las instancias. Por su parte, una clasicaci on multi-etiqueta permite que a una instancia se le asocie m as de una clase. El problema planteado en el cap tulo 7 pertenece a ambas categor as, como suele suceder en la anotaci on funcional biol ogica. Porque las funciones moleculares o de procesos biol ogicos evidentemente son m as de dos (multiclase), y adem as un gen o producto gen etico no est a involucrado s olo en una de ellas (multietiqueta). As , para afrontar un dominio multi-clase y/o multi-etiqueta se plantean diversas opciones, seg un la cardinalidad de las clases y de los valores de las mismas, y la descomposici on en sub-problemas de aprendizaje que se realice. Para resolver un aprendizaje multi-clase se pueden considerar dos soluciones b asicas: a) dividir la salida del clasicador entre m as de 2 valores, si el algoritmo de aprendizaje lo rboles de decisi permite, como es el caso de los a on; o b) descomponer el problema en varios clasicadores. Existen m ultiples formas de descomposici on en clasicadores (uno-contratodos, uno-contra-uno, p-contra-q, etc.) [Ou and Murphey, 2007], pero en este caso s olo se considera la m as sencilla y extendida (a pesar de sus limitaciones [Ou and Murphey, 2007]) para problemas con un n umero elevado de clases (como las 37 de la extensi on de rutas): un predictor binario por clase siguiendo la estrategia uno-contra-todos. Por otra parte, para un problema multi-etiqueta, las soluciones b asicas que se consideran son: a) un clasicador con un vector de salida con tantas posiciones como etiquetas; o b) descomponer el problema en tantos clasicadores como etiquetas. Para la opci on b, igual que para el problema multi-clase, se elige la opci on de predictores binarios uno-contra-todos. Aunque la descomposici on en binarios es igual para multi-clase y multi-etiqueta, a la hora de clasicar una nueva instancia, en el primer caso se verican los clasicadores hasta encontrar la clase asignada; mientras que para el multi-etiqueta se deben miran las salidas de todos rbol de los clasicadores y recopilar el conjunto de clases con asignaci on positiva. Para un a regresi on (con un valor num erico en las hojas en lugar de uno nominal), en un multi-clase b asico habr a que seleccionar s olo la clase con valor de salida m as alto, mientras que en un multi-etiqueta se establecer a un umbral para cada clase, y se dar a como salida el conjunto de clases que supere su umbral espec co. En la tabla 8.4 se recopila una combinatoria de posibilidades b asicas, teniendo en cuenta la resoluci on multi-clase y multi-etiqueta comentada. En el problema a resolver, la extensi on de rutas, s olo son aplicables los casos [N,M,?] ltimas las de la tabla 8.4), porque son las opciones que resuelven los problemas (ver las dos u multi-clase y multi-etiqueta simult aneamente, mediante combinaciones de los casos previos m as simples. La principal ventaja del caso [N,M,1] es la sencillez tanto en aprendizaje, porque s olo se construye un clasicador, como en interpretaci on, ya que se predicen todas las nico modelo con la salida compactada. Adem clases a la vez en un u as, facilita un aprendizaje jer arquico (si lo hubiera) puesto que, cuando unas clases est an relacionadas con otras, es m as necesario realizar un aprendizaje conjunto. En el caso [N,M,N] puede que la predicci on
140
Tabla 8.4: Combinatoria de n de clases, etiquetas y aprendizajes. La columna clases indica cu antas clases distintas hay en el problema. La columna etiquetas indica cu antas clases se pueden asignar a una sola instancia. La columna aprendizajes indica cu antos procesos de aprendizaje diferentes se hacen, es decir, cu antos modelos de predicci on se construyen. Id. Clases Etiquetas Aprendizajes Observaciones Valores 2, N 1, M 1, N (N=multi- (M=multiclase) etiqueta) (MN) [2,1,1] 2 1 1 Aprendizaje binario (clases=[pos, neg]) [2,1,N] 2 1 N No existe (N aprendizajes para s olo 2 clases nica). binarias y etiqueta u [2,M,1] 2 M 1 Aprendizaje multi-etiqueta unico , con salida en forma de vector de dos posiciones. [2,M,N] 2 M N Aprendizaje multi-etiqueta, descompuesto en M=2 binarios b asicos [2,1,1], uno por etiqueta. [N,1,1] N 1 1 Aprendizaje multi-clase unico (una etiqueta) (clases=[a, b, c, ..., N]) [N,1,N] N 1 N Divisi on del problema multi-clase en N binarios b asicos [2,1,1], uno por clase. [N,M,1] N M 1 Aprendizaje multi-clase y multi-etiqueta unico , con salida en forma de vector de M posiciones. [N,M,N] N M N Divisi on del problema multi-clase y multietiqueta en M=N binarios b asicos.
proporcione unos resultados m as ables, por no mezclar clases e incluso permitir un an alisis independiente por clases. No obstante, requiere un mayor procesamiento y complejidad en la construcci on del modelo con N predictores diferentes, con el consecuente coste en tiempo de aprendizaje y tambi en de interpretaci on, a trav es de un modelo de mucho mayor tama no. Si se quisiera aplicar este enfoque a un aprendizaje jer arquico, habr a que restringir manualmente las predicciones de las clases de nivel superior (m as generales) seg un las predicciones positivas de las clases de nivel inferior (m as espec cas), porque los predictores que se generan por separado no se pueden considerar realmente independientes. Desde otro punto de vista, cabe destacar que todas las combinaciones de aprendizaje de la tabla 8.4 se podr an afrontar f acilmente con una representaci on relacional, como la propuesta en el cap tulo 5. S olo ser a necesario cambiar el objetivo de predicci on, la asignaci on de clases a instancias y seleccionar el subconjunto de predicados l ogicos correspondiente, pero el conocimiento del dominio se mantendr a constante en contenido y representaci on distribuida en tablas. Incluso se puede usar un mismo algoritmo de aprendizaje, como los interpretables rboles de decisi a on, y una misma herramienta (T ILDE o CLUS), siendo congurables para la mayor a de combinaciones; lo que tambi en facilitar a una comparaci on de resultados. De forma opuesta, una representaci on proposicional requerir a m as cambios, necesitando una reconstrucci on de la tabla de datos seg un el tipo de aprendizaje. Referente a los multi-clasicadores, existe una posibilidad alternativa, que la herramienta CLUS tambi en contempla. Se trata de generar un modelo que prediga a la vez N atributos diferentes. Cada uno de ellos corresponder a a un ruta en el problema analizado. Pero dado
141
nico a rbol, con la salida para cada uno de los atributos en cada que se genera igualmente un u rbol, el resultado es pr hoja del a acticamente equivalente a construir un multi-clasicador con nico atributo de salida que sea un vector. un u
8.2.2.
Predicci on con Multi-clasicador
Aunque en la soluci on al problema de extensi on de rutas se utiliza el caso [N,M,N], ya se ha introducido el uso de multi-clasicadores del tipo [N,M,1] para anotaci on funcional gen omica en estudios previos [Vens et al., 2008], incluso con jerarqu as funcionales, aunque sobre especies m as simples que los humanos. Dichos estudios revelan que el uso de un multi-clasicador presenta un mayor rendimiento que el de un conjunto de clasicadores nico m individuales. Por lo tanto, en esta secci on se eval ua si el uso de un modelo u as simple mejora los resultados de los 37 clasicadores individuales construidos para el problema de extensi on de rutas. Manteniendo la misma conguraci on que en el sistema ERR-PRyC, se obtienen los resultados que muestra la gura 8.5.
AUPRC 0,1559 AUROC 0,6395 nrutas (total/ >1regla) 21 / 10 nprote nas a nadidas (total/ %dif.) 297 / 75,76 %
Figura 8.5: Resumen de resultados multi-clasicador.
Al comparar la gura 8.5 con la de referencia del sistema ERR-PRyC (gura C.1) se observa que el rendimiento en AUPRC es algo peor, aunque no baja hasta llegar al rendimiento del sistema ERR-PDR. No obstante, el AUROC es m as bajo incluso que en ERR-PDR, lo cual indica que la predicci on sobre instancias negativas es peor, es decir, se discrimina peor entre las instancias que no deben pertenecer a una clase. Tras una comprobaci on emp rica, nico ha alcanzado rendimientos con varias conguraciones, el enfoque del multi-clasicador u superiores a la versi on de clasicadores individuales, comparando ambos enfoques en las mismas condiciones (compartiendo dicha conguraci on entre la versi on con multi-clasicador y la de clasicadores individuales). Frente a ERR-PRyC se consiguen extender 3 rutas m as. Pero es m as relevante que se dobla el n umero de rutas predichas con m as de una regla. No obstante, en ambos aspectos se sigue estando por debajo del sistema ERR-PDR. Sin embargo, lo m as destacado es que el multi-clasicador presenta mucho solapamiento entre rutas, incluso total entre algunas, como Expresi on g enica (35), Infecci on por gripe
142
(31) y Metabolismo de prote nas (20) (las dos primeras columnas y la sexta, de izquierda a derecha, en la parte derecha de la gura 8.5). Al compararlo con el solapamiento original de las rutas (ver gura 7.12(a)), se comprueba que el solapamiento entre estas 3 rutas existe originalmente, y el clasicador no lo resuelve en las nuevas predicciones. Pero tambi en se observa un elevado solapamiento en otras 5 rutas con menos AUPRC que forman una especie de cuadrado conc entrico en la gura 8.5. Son Ciclo celular (12), Infecci on por VIH (32), Puntos de control del ciclo celular (14), Metabolismo de amino acidos (6) y Replicaci on del ADN (25). La raz on en este caso no es un solapamiento original de las rutas, sino que probablemente se rbol, con probabilidades semejantes, extendiendo predicen varias clases en un mismo nodo del a con exactamente las mismas prote nas. Esta coincidencia en nodo s olo se puede producir en el nico, lo que parece un inconveniente, de cara a la diversidad de enfoque de multi-clasicador u predicciones entre distintas clases. Adem as, el total de prote nas a nadidas son un 10 % menos diferentes entre s , lo cual tampoco es favorable cuando el objetivo es una alta diversidad. Conclusiones nico, el rendimiento en t Aprendiendo con un multi-clasicador u erminos de AUPRC es peor que en el sistema que prioriza rendimiento y cobertura, pero mejor que en el que prioriza diversidad de reglas. Las predicciones sobre las instancias negativas son peores. Pero lo m as relevante es el elevado solapamiento entre las predicciones de distintas rutas, lo cual no es admisible cuando se da preferencia a la variabilidad de prote nas a nadidas. En la aplicaci on a otros problemas, si no importa que las predicciones solapen entre diferentes clases y s olo se est a interesado en las predicciones positivas, construir un multiclasicador es mejor en t erminos de coste computacional y de simplicidad de resultados, sin perder demasiado en rendimiento. Incluso existen trabajos que arman que un multiclasicador es la mejor soluci on, vericado sobre problemas concretos de predicci on de anotaci on funcional de genes [Vens et al., 2008]. Ahora bien, depende del problema y del inter es. Por ejemplo, si las clases est an relacionadas en una jerarqu a (como en el trabajo mencionado) probablemente no importe que solapen las predicciones, o incluso convenga en los casos de clases padre e hija. Por otro lado, si interesa una mayor cobertura de anotaci on que una elevada precisi on (es decir, preferir una mayor cantidad de anotaciones frente a un conjunto m as restringido y able) probablemente tambi en sea m as adecuado un multi-clasicador.
8.2.3.
Inuencia Evaluaci on Multi-clase
Para evaluar un problema de aprendizaje multi-clase con una medida global de rendimiento se debe elegir entre los dos m etodos para promediar explicados en la secci on 4.2.1: la micromedia y la macro-media. Es importante elegir la m as conveniente acorde a las caracter sticas del dominio para evaluar los aspectos que realmente interesan, y adem as poder alcanzar el objetivo buscado con el aprendizaje, sobre todo cuando se gu a la b usqueda del mejor modelo con esta medida promedio, como es el caso del sistema ERR-PRyC. En concreto, en el problema de extensi on de rutas interesa hacer una predicci on buena para todas las rutas, o el mayor n umero posible de ellas, frente a una predicci on buena para el mayor n umero de instancias, aunque casi todas pertenezcan a un par de clases mayoritarias. Por lo tanto, se elige la media-macro que proporciona un valor medio por clase, no por instancia, sin sesgar el resultado hacia la clases m as frecuentes, como hace la media-micro. Como se puede observar en las curvas de la gura 8.6 existe una diferencia notable entre la media-micro y la media-macro para el sistema ERR-PRyC, tanto en ROC como en PR, siendo la media-micro
143
m as optimista que la media-macro. En realidad, lo que sucede es que la media-micro sesga el rendimiento global hacia el buen rendimiento de unas pocas clases mayoritarias, ocultando la informaci on de rendimiento de las clases minoritarias, lo cual no interesa en este dominio.
(a) Curva PR media-micro.
(b) Curva PR media-macro.
(c) Curva ROC media-micro.
(d) Curva ROC media-macro.
Figura 8.6: Curva PR y ROC con macro-media y micro-media en ERR-PRyC.
reas bajo las Estas diferencias tambi en se pueden vericar cuantitativamente, con las a curvas correspondientes que aparecen en la tabla 8.5. En el caso de la media-micro se calcula rea bajo la curva media (AU(mediaPRC)), mientras que en la media-macro se calcula la el a reas bajo la curva calculadas previamente de forma individual (media(AUPRC)). media de las a
Tabla 8.5: Areas bajo la curva medias en ERR-PRyC. Distintos enfoques.
ERR-PRyC AUPRC AUROC
Media-Micro 0,2286 0,1695
Media-Macro 0,7893 0,7028
Para la aplicaci on a otros problemas, con caracter sticas diferentes a la extensi on de rutas, se deber a usar una media-micro cuando lo que realmente interese sea el medir el mayor n umero
144
de aciertos, independientemente de la clase a la que pertenezcan. O tambi en cuando no haya una distribuci on heterog enea de los ejemplos entre clases.
8.3.
Extracci on de Patrones Frecuentes
Motivaci on-Hip otesis: Qu e diferencias existen al extraer los patrones frecuentes de todas las clases a la vez o por separado? Qu e implicaciones tiene juntar los patrones frecuentes en cada clase o mantenerlos por separado, para usarlos como entrada de los clasicadores individuales? Opciones Extracci on Patrones El modelo de predicci on del sistema de ERR para expansi on de rutas biol ogicas se descompone en dos fases, siendo la primera de ellas la extracci on de patrones frecuentes. En esta secci on se plantean 3 opciones posibles para esta fase, dependiendo de c omo se calculan los mismos. 1. Opci on 1 (opc1): Generar patrones frecuentes de todas las rutas a la vez, no limit andose a buscar frecuencia en cada ruta por separado. Esta opci on permite usar a continuaci on nico clasicador o un clasicador para cada ruta. un u 2. Opci on 2 (opc2): Generar patrones frecuentes para cada ruta independientemente y luego juntarlos todos como entrada del clasicador. Esta opci on tambi en permite un nico o uno por ruta. clasicador u 3. Opci on 3 (opc3): Usar directamente para la clasicaci on los patrones frecuentes generados independientemente para cada ruta (extra dos como en la opc2), sin juntarlos rbol independiente para cada con los del resto de rutas. Por lo que s olo se puede usar un a ruta. Hasta ahora, en los trabajos de anotaci on funcional que se han realizado usando la combinaci on extracci on de patrones frecuentes + uso de clasicador proposicional, s olo se ha contemplado la opci on 1 [Clare et al., 2006; Vens et al., 2008]. En la opci on 1, al existir muchas m as instancias sobre las que calcular frecuencias frente a la opci on 2, para que un mismo patr on se considere frecuente, el m nimo exigido debe ser menor. Entonces, para obtener un n umero suciente de patrones, tambi en se puede aumentar la cantidad de predicados a incluir en cada patr on (es decir, aumentar la profundidad de b usqueda de patrones). As tambi en se consiguen patrones base m as complejos, lo que signica un aumento del n umero de atributos para la fase de clasicaci on posterior. rbol a los patrones frecuentes en esa clase Por su parte, la opci on 3 limita la entrada del a particular, independientemente de los que son frecuentes en otra, o en todas. As , se pueden seleccionar los mejores subconjuntos de patrones, que describan las propiedades relevantes de las prote nas de esa ruta. Esta opci on es equivalente a usar directamente los patrones frecuentes rbol selecciona los patrones que se en una ruta. Pero de forma m as eciente, porque el a tienen que vericar y c omo se tienen que combinar, pudiendo obtener varias reglas, con m as probabilidad de ser diferentes al resto, y asoci andoles una medida de certeza. Por el contrario, si se exigiera que se cumpla el conjunto completo de patrones, s olo se obtendr a una regla (conjunci on de todos los patrones frecuentes en esa ruta).
8.3. Extracci on de Patrones Frecuentes
145
Adicionalmente existir a la posibilidad de limitar el modelo de aprendizaje al c alculo de los rbol de decisi patrones frecuentes por clases independientes, sin incluir ning un a on posterior. Pero en este caso habr a que establecer un criterio para decidir qu e patrones es obligatorio vericar para la predicci on: todos los patrones, limitar a los N m as frecuentes o a los que tengan una frecuencia superior a un umbral, limitar a patrones con alta frecuencia en esa rbol de decisi clase y baja en las otras, limitar a patrones seleccionados por un a on com un (es decir, construido con un multi-clasicador), etc. No se trata de una decisi on trivial, porque se debe prestar atenci on a no a nadir redundancia en el procesamiento de los datos, realizando tareas que ya haga autom aticamente alg un algoritmo de aprendizaje autom atico utilizado. Por rbol ejemplo, el criterio de selecci on de patrones a utilizar no lo hace autom aticamente el a de decisi on? Por otro lado, hay restricciones como obtener m as de una regla (porque con un subconjunto de patrones s olo se tendr a una), y una medida de probabilidad de la bondad de la predicci on, que el clasicador proporciona autom aticamente. Por lo tanto, esto verica que la segunda fase ( arbol de decisi on, CLUS) del m etodo de aprendizaje no es redundante con la primera (extracci on de patrones, WARMR), aunque se extraigan los patrones separados por clase, porque no se sabe cu ales elegir para componer cada regla. Combinaci on con Aprendizaje Multi-clase Si se combinan las tres opciones de extracci on de patrones con el uso de un multiclasicador o un clasicador individual por clase (analizado en la secci on 8.2), resultan 5 m etodos de aprendizaje alternativos, resumidos en la tabla 8.6. 3 son m etodos con clasicadores individuales por clase (CI) y 2 con multi-clasicador (MC).
Tabla 8.6: Combinaciones Extracci on Patrones Frecuentes y Aprendizaje Multi-clase.
Multi-Clasicador Extracci on Patrones Opci on 1 en todas las clases a la vez Opci on 2 en cada clase por separado, con uni on patrones Opci on 3 en cada clase por separado, sin uni on patrones MC opc1-MC
Clasicadores Individuales CI opc1-CI
opc2-MC
opc2-CI
opc3
A continuaci on se realiza una comparativa de resultados de los 5 m etodos alternativos de aprendizaje aplicados al problema de extensi on de rutas, con la misma conguraci on que el sistema ERR-PRyC (opc2-CI), excepto en lo que se reere a extracci on de patrones y enfoque multi-clase. Se utilizan las mismas medidas de comparaci on con el sistema ERRPRyC denidas al inicio de este cap tulo, pero distribuidas entre medidas cuantitativas (ver Tabla 8.7), solapamiento (ver Figura 8.7) y similitud sem antica (ver Figura 8.8). En primer lugar, desde una perspectiva l ogica, la opci on 2 deber a ser la mejor, porque incluye informaci on de otras clases para discriminar con la actual. Este resultado se conrma en t erminos de rendimiento en la tabla 8.7, dado que la opc2-CI se corresponde con el sistema
146
ERR-PRyC. La tabla 8.7 muestra que el rendimiento en t erminos de AUPRC es m as bajo en los sistemas MC que CI, sobre todo en la opc2-MC y en ERR-PDR. Estos dos sistemas son tambi en los que consiguen mayor n umero de rutas extendidas con m as de 1 regla, de lo que se concluye que se necesita ceder en rendimiento para obtener una mayor diversidad en las predicciones. Cabe destacar que en los sistemas MC presentan valores de AUROC bastante m as bajos que los CI, que indica que estos clasicadores cometen m as errores en los ejemplos negativos, es decir, en las prote nas que no pertenecen a las rutas.
Tabla 8.7: Evaluaci on num erica de la extensi on de Reactome por 5 variantes seg un extracci on patrones frecuentes y enfoque aprendizaje multi-clase.
Sistema opc1-MC opc1-CI opc2-MC opc2-CI (ERR-PRyC) opc3-CI ERR-PDR
AUPRC 0,1620 0,1676 0,1559 0,1695 0,1677 0,1337
AUROC 0,6488 0,7111 0,6395 0,7028 0,7073 0,6914
nrutas (total/>1regla) 21 / 9 20 / 6 21 / 10 18 / 5 18 / 5 28 / 15
nprote nas anadidas (total/ %dif.) 293 / 74,74 % 277 / 88,09 % 297 / 75,76 % 249 / 87,55 % 259 / 88,03 % 383 / 85,90 %
Lo m as relevante al observar la gura 8.7 es el mayor solapamiento entre las predicciones para distintas clases en los sistemas MC que en los CI. Este solapamiento se produce principalmente en las clases o rutas bien predichas (situadas en la esquina inferior izquierda de cada gr aco), siendo adem as de alta intensidad (observar coloraci on en tonos superiores ltima columna de la tabla 8.7 tambi de la escala derecha, como verdes). La u en conrma esta situaci on, con un porcentaje de prote nas a nadidas diferentes bastante menor en los sistemas MC que en los CI. Al analizar la similitud sem antica funcional respecto a las rutas originales de las cinco combinaciones propuestas no se observan diferencias signicativas entre unos y otros en la gura 8.8. No obstante, se puede apreciar que en la opci on 2 todas las rutas extendidas tienen su punto por encima de la l nea, lo que representa que en absolutamente todas las predicciones del sistema son mejores que una extensi on aleatoria. En el resto de sistemas, alguna ruta se extiende peor que la aleatoriedad (punto por debajo de la l nea) o est a m as cerca de ello. Pero bas andose en la conguraci on del sistema ERR-PRyC (con baja frecuencia y alto nivel de profundidad al extraer patrones frecuentes) cualquier sistema presenta una buena similitud sem antica frente a las rutas originales. Hay que mencionar que durante la experimentaci on realizada s se han encontrado algunos sistemas con perles de similitud sem antica m as cercanos a la aleatoriedad.
147
(a) Opci on 1 - MC.
(b) Opci on 1 - CI.
(c) Opci on 2 - MC.
(d) Opci on 2 - CI (sistema ERR-PRyC).
(e) Opci on 3 - CI.
Figura 8.7: Porcentaje de solapamiento entre rutas. Comparaci on 5 variantes seg un extracci on patrones frecuentes y enfoque aprendizaje multi-clase. Las rutas est an ordenadas por AUPRC creciente seg un cada sistema, de izquierda a derecha en el eje x y de abajo a arriba en el eje y.
148
(a) Opci on 1 - MC.
(b) Opci on 1 - CI.
(c) Opci on 2 - MC.
(d) Opci on 2 - CI (sistema ERR-PRyC).
(e) Opci on 3 - CI.
Figura 8.8: Similitud de anotaci on funcional entre prote nas de la ruta original y prote nas a nadidas (por predicci on y aleatoriamente). Comparaci on 5 variantes seg un extracci on patrones frecuentes y enfoque aprendizaje multi-clase. Cada punto representa la diferencia de similitud a la ruta original entre las prote nas predichas y las prote nas aleatorias (Sim.PredichasSim.Aleatorias) para esa ruta. As , la l nea roja representa la inexistencia de mejora de las predicciones frente a la aleatoriedad, en t erminos de similitud. Las rutas est an ordenadas por AUPRC creciente en el grupo de predicciones. Las rutas sin extensi on no se representan.
149
Conclusiones Del an alisis de las cinco combinaciones se extraen las siguientes conclusiones: Las opciones 1 y 2 de extracci on de patrones combinadas con un multi-clasicador (opc1-MC y opc2-MC) son pr acticamente iguales en todas las evaluaciones. Tras una comprobaci on emp rica, se puede decir que se parecen m as conforme se disminuye la frecuencia y se aumenta la profundidad en la extracci on de patrones frecuentes, porque estos tienden a ser los mismos. El rendimiento (AUPRC) es mayor al usar los mismos patrones para clasicar sobre ltima opci todas las rutas (opc1 y opc2) que al dividirlos por ruta (opc3), pero esta u on tiende a presentar un menor solapamiento y la mayor diversidad en las predicciones. Los m etodos con clasicadores individuales permiten aumentar el n umero de reglas por clase y su diversidad, lo cual es de notable inter es en el problema de extensi on de rutas tratado. La l ogica indica que al extraer los patrones separados por rutas (opc2 y opc3) la frecuencia m nima se deber a mantener alta, para obtener patrones frecuentes s olo en cada ruta o clase particular. No obstante, parece que al bajar la frecuencia mejoran los resultados en ambos casos, aunque los patrones extra dos dejen de ser exclusivos por clase. El sistema ERR-PDR sigue la combinaci on opc3-CI (extrae los patrones por rutas separadas y mantiene dicha separaci on en los clasicadores individuales por ruta) con una frecuencia m nima de 0,2. La misma combinaci on opc3-CI con otra frecuencia m nima m as baja (0,005) permite que el rendimiento sea m as alto, pero la diversidad en reglas cae hasta el valor m as bajo del resto de opciones. En la aplicaci on a otros problemas para determinar qu e combinaci on de las cinco presentadas es m as adecuada, se debe tener en cuenta la cantidad de ejemplos, predicados y niveles sucesivos de relaciones que se tengan, porque inuye directamente en el coste computacional de extracci on de patrones por separado para cada clase, y de entrenar clasicadores independientes. En una evaluaci on emp rica, con menos patrones extra dos (por mayor frecuencia m nima y menos profundidad en la extracci on de patrones), los sistemas con multi-clasicador presentan un mayor rendimiento (en AUPRC) que los de clasicadores individuales, y m as a un sobre la opci on 3. Por lo que, si no se tiene mucho poder de c omputo o la cantidad de ejemplos o predicados es muy elevada, se extraer an menos patrones, donde un sistema con multi-clasicador es la mejor opci on. Aunque esta elecci on s olo ser a v alida si no importa el solapamiento de predicciones entre diferentes clases, que en los multi-clasicadores se mantiene para cualquier cantidad de patrones extra dos. Si simplemente se busca alcanzar el mayor rendimiento, independientemente del coste, es mejor la opc2-CI. Pero sobre todo extraer muchos patrones, con una frecuencia m nima muy baja y un nivel de profundidad tan alto como se pueda en la extracci on de patrones. Si por el contrario, se quiere la mayor diversidad posible en las predicciones, la elecci on es la opc3-CI con una frecuencia m nima no muy baja, como en el sistema ERR-PDR. Finalmente, hacer notar que no hay ning un criterio jo que permita determinar cu al va a ser el mejor sistema para todas las medidas de evaluaci on.
150
8.4.
Variaci on de la Representaci on del Conocimiento
En el problema de extensi on de rutas se ha seleccionado una representaci on del conocimiento h brida, partiendo de una representaci on relacional que posteriormente se transforma a proposicional mediante la extracci on de patrones frecuentes (ver secciones 2.2.4, 7.2.4 y 7.2.5). En esta secci on se analiza la inuencia en el aprendizaje de otras representaciones del conocimiento posibles.
8.4.1.
Representaci on Relacional Directa
Motivaci on-Hip otesis: Se puede aprender con una representaci on relacional directa, sin necesidad de una transformaci on a representaci on proposicional intermedia? Cu ales son las diferencias con el sistema de representaci on h brido usado para extender rutas? En qu e condiciones conviene utilizar una representaci on relacional directa? Con la denominaci on representaci on relacional directa se asume la aplicaci on de algoritmos de Aprendizaje Autom atico Relacional sobre la informaci on distribuida en varias tablas. Para resolver las preguntas planteadas en esta secci on, se aplica un clasicador relacional para el problema de predecir la pertenencia a una ruta, y se comparan los resultados. Entre las diversas herramientas disponibles que realizan AAR (ver secci on 2.2.5) se selecciona T ILDE rboles de decisi porque induce a on, que es el mismo modelo utilizado para el problema de extensi on de rutas con el que se compara. rbol de decisi Aunque la salida de ambos enfoques es un a on relacional, con predicados l ogicos en los nodos, la representaci on h brida utilizada en el cap tulo 7 permite la evaluaci on de una conjunci on compleja de literales, mientras que la representaci on relacional directa s olo permite la existencia de un literal por nodo. Por otro lado, el proceso de aprendizaje con una rbol de representaci on relacional directa es m as sencillo, construyendo en un solo paso el a decisi on. Se utiliza exactamente la misma representaci on (ver gura 7.2) y cheros de datos (ver secci on 7.2.3) que en el cap tulo 7, desde donde se extraen los patrones frecuentes con el algoritmo WARMR (ver secci on 7.2.5), que tambi en es de naturaleza relacional. Los resultados de clasicaci on que arroja el algoritmo T ILDE se eval uan mediante las correspondientes curvas media PR (gura 8.9(a)) y ROC (gura 8.9(b)). Se observa que el rendimiento del uso de una representaci on relacional directa es equivalente al de una predicci on aleatoria. Incluso, si se observan las curvas con media-micro (ver gura 8.10), seg un estudios previos [Vens et al., 2008], se podr a decir que el sistema est a sobre-entrenado, al ser peor que la clasicaci on por defecto. Conclusiones No se consigue aprender, qued andose la representaci on relacional directa en una clasicaci on aleatoria. Tras diversas conguraciones diferentes a las del sistema de referencia del cap tulo 7, se concluye que el inconveniente de la representaci on relacional directa radica en la evaluaci on rbol de decisi de un solo predicado por nodo del a on. Ya que en la mayor a de los casos un predicado independiente no es capaz de discriminar por si solo, sino que necesita combinarse con otros relacionados en un mismo paso de clasicaci on, mediante patrones frecuentes o agregados, entre otras opciones.
8.4. Variaci on de la Representaci on del Conocimiento
151
(a) Curvas PR.
(b) Curvas ROC.
Figura 8.9: Curvas media-macro representaci on relacional directa: (a) curvas PR y (b) curvas ROC.
(a) Curvas PR.
(b) Curvas ROC.
Figura 8.10: Curvas media-micro representaci on relacional directa: (a) curvas PR y (b) curvas ROC.
Respecto a la aplicaci on a otros problemas, en un dominio con menos relaciones b asicas entre las instancias, donde no fueran necesarias tantas conexiones entre tablas para obtener una informaci on que discrimine, este sencillo enfoque de aprendizaje relacional directo podr a funcionar; quiz a con la ayuda de un evento que eval ue un par de predicados en el mismo nodo (como permiten las t ecnicas denominadas en ingl es lookahead [Blockeel and Raedt, 1998]). Pero, el uso de 3 tablas y 2 relaciones entre ellas para acceder, por ejemplo, a la informaci on del gen correspondiente a una prote na (protein-protein gene-gene) es demasiado complejo para que T ILDE llegue a evaluarlo y detectarlo como diferenciador para la clasicaci on.
8.4.2.
Representaci on Proposicional Directa
Motivaci on-Hip otesis: El AA Relacional aporta ventajas frente al cl asico proposicional, al permitir incluir relaciones complejas sin p erdida de sem antica?
152
Con el t ermino representaci on proposicional directa se quiere denominar a la representaci on atributo-valor m as sencilla, a la que se llega sin ninguna transformaci on, donde s olo nica se representan los atributos num ericos o nominales que pueden estar contenidos en una u tabla (ver secci on 2.2.4). Al aplicar esta representaci on al problema de extensi on de rutas, se simplica notablemente el lenguaje de representaci on de los datos, al denirse una columna de la tabla por cada caracter stica num erica o nominal, quedando la siguiente lista de 11 atributos: identicador de prote na, longitud de prote na, carga positiva, carga negativa, identicador de gen, longitud de gen, orientaci on del gen dentro del cromosoma, n de transcritos, dominio transmembrana, dominio h elice y dominio de se nal. El identicador de gen, al igual que el de prote na, es un atributo nominal que funciona como clave de cada ejemplo, obvi andose du ltimos atributos, relativos a la presencia de uno o m rante el aprendizaje. Los tres u as dominios de cada tipo en la secuencia de prote na, son binarios. El resto toma valores num ericos. Por otro lado, se ignora toda la informaci on de interacciones porque implica relaciones con otras prote nas, lo que no se puede representar de forma directa. La aproximaci on m as directa para incluir las interacciones consistir a en a nadir 22.303 (n umero de isoformas humanas principales 1) atributos, con uno por cada posible prote na diferente interaccionando. No parece una opci on razonable porque muchos de estos atributos estar an vac os la mayor a de las veces, ya que una prote na generalmente no tiene miles de interacciones, aunque la cantidad de atributos deba mantenerse constante para todos los ejemplos. Adem as, cada uno podr a tomar 72.731 valores diferentes (n umero de isoformas humanas, con sus diferentes expresiones para cada gen) que implica una variabilidad excesiva, dicultando notablemente la localizaci on de regularidades que discriminen en la clasicaci on. Esta inclusi on de miles de atributos con miles de posibles valores tambi en incrementar a el coste computacional, pudiendo llegar con relativa facilidad a una insuciencia de memoria. Aparte de los inconvenientes t ecnicos, esta soluci on tambi en implicar a una p erdida de sem antica, puesto que las propiedades de las relaciones y de los elementos relacionados no quedar an representadas. Como por ejemplo, la carga de una prote na compa nera de interacci on o si dicha secuencia con la que se interacciona tiene alg un dominio transmembrana, que son aspectos inuyentes para determinar la funci on de una nueva prote na relacionada con otras. Parte de esta informaci on incluida en las relaciones, se podr a a nadir a una representaci on proposicional de forma impl cita utilizando agregados, como la suma de prote nas con las que se interacciona. Pero el objetivo de esta secci on es evaluar los resultados que se pueden obtener con una representaci on proposicional directa, sin transformaciones intermedias a partir de una representaci on relacional, como la que ya se hace en la representaci on h brida utilizada en el cap tulo 7, con la que se compara a continuaci on. rbol Referente al modelo de clasicaci on, la representaci on proposicional genera un a de decisi on no relacional, es decir, sin conjunciones l ogicas en los nodos como en el caso relacional, sino con comparaciones num ericas de atributos concretos. S olo se eval ua el rboles de decisi aprendizaje proposicional con a on, porque es la misma t ecnica que se usa en el cap tulo 7 con cuyos resultados se quiere comparar, y adem as interesa la interpretaci on de los resultados. Para facilitar y hacer able la comparaci on se emplea CLUS [Blockeel et al., rboles que se usa en el cap 1998], el mismo algoritmo y conguraci on de inducci on de a tulo 7 (tras la transformaci on a representaci on proposicional con patrones frecuentes), generando un rbol individual por ruta biol a ogica. Observando los resultados de la gura 8.11, los valores de rendimiento (en AUPRC y AUROC) est an en torno a los resultados del sistema ERR-PDR, y son peores que en ERRPRyC, ambos basados en la representaci on h brida. Pero lo m as destacado es que s olo es capaz de extender 3 rutas de Reactome, con ninguna variabilidad (ninguna ruta se predice con m as
8.4. Variaci on de la Representaci on del Conocimiento
153
de 1 regla), y adem as con baja similitud sem antica, lo que se sit ua muy lejos de los resultados de predicci on alcanzados por los sistemas de representaci on h brida.
AUPRC 0,1386 AUROC 0,6775 nrutas (total/ >1regla) 3/0 nprote nas a nadidas (total/ %dif.) 42 / 100,00 %
Figura 8.11: Resumen de resultados representaci on proposicional directa.
Adem as, la interpretaci on de los resultados tambi en es m as compleja con la representaci on rboles presentan muchas m proposicional, porque los a as comparaciones num ericas con cualquier umbral, y muchas sobre el mismo atributo, como muestra la gura 8.12.
geneLength > 122131.0 (10%) +--yes: negCharge > 0.136499 (24.3%) | +--yes: geneLength > 134587.0 (92.6%) | | +--yes: geneLength > 558075.0 (12%) | | | +--yes: [0.50519]: 3 ...
rbol con representaci Figura 8.12: Fragmento de a on proposicional directa.
Por otro lado, cabe destacar que con la representaci on relacional una regla que extiende una ruta en el sistema ERR-PDR contiene el fragmento:
complex_interaction(A,B),not(B=A),transmembrane_domain(B)
Es decir, que realmente, al contrario que en una representaci on proposicional, en una relacional se accede a las propiedades de las secuencias con las que se interacciona y no s olo de la prote na A sobre la que se predice. Incluso podr a aparecer el literal transmembrane domain(A) en otro patr on de la misma regla, indicando que ambas prote nas que interaccionan en un complejo contienen un dominio transmembrana. Conclusiones El rendimiento del AA proposicional puro es peor que en el sistema ERR-PRyC, que usa el AA relacional con una representaci on h brida para la extensi on de rutas de Reactome. Si se
154
compara con el sistema ERR-PDR, con el mismo enfoque de aprendizaje que ERR-PRyC, pero priorizando la diversidad, el rendimiento del AA proposicional puro es pr acticamente igual. Sin embargo, la cantidad de predicciones es muy baja y sin ninguna variedad, y el modelo de clasicaci on menos interpretable, a pesar de la sencillez en la representaci on y del proceso de aprendizaje proposicional. nico importante es el rendimiento y Referente a la aplicaci on a otros problemas, si lo u la cobertura, y no se tiene restringida la cantidad de instancias que se pueden predecir en cada clase, se puede simplicar el problema al uso de una representaci on proposicional. Pero si existen restricciones adicionales como en la extensi on de rutas de Reactome, se necesita una representaci on del conocimiento m as rica. Por otro lado, si existiera mucha informaci on relacional, se perder a conocimiento por no poder representar dicho conocimiento, o la tabla de datos contendr a informaci on redundante. Por ejemplo, si se considerara un ejemplo diferente cada uno de los transcritos procedentes de un mismo gen, con la representaci on proposicional directa, se tendr a informaci on del gen duplicada en varias las.
8.5.
Inuencia de la Informaci on Relacional en la Predicci on de Funci on
Motivaci on-Hip otesis: Cu anto inuye la informaci on relacional (b asicamente interacciones, con su informaci on asociada) en la predicci on de la anotaci on funcional?
8.5.1.
Predicci on sin Interacciones
En esta secci on se analizan los resultados de extensi on de rutas de Reactome sin incluir en el aprendizaje las interacciones prote na-prote na (IPP) y/o interacciones en complejos. La gura 8.13 muestra el resumen de resultados tras eliminar ambos tipos de interacciones del aprendizaje.
nrutas (total/ >1regla) 6/1 nprote nas a nadidas (total/ %dif.) 119 / 96,64 %
AUPRC 0,1408
AUROC 0,6782
Figura 8.13: Resumen de resultados sin interacciones PP ni complejos.
En la gura 8.13 se observa que sin interacciones PP ni de complejos el rendimiento baja
8.5. Inuencia de la Informaci on Relacional
155
casi 3 puntos, de los 17 alcanzados (sobre 100) por el sistema ERR-PRyC que s incluye ambos tipos de interacciones. Tambi en, consigue extender pocas rutas (s olo 6), dentro de las cuales adem as existe solapamiento entre dos pares (ver gr aco derecho de la gura 8.13), y la similitud sem antica con la ruta original de las dos rutas mejor predichas es peor que la de una extensi on aleatoria (ver gr aco de la izquierda en gura 8.13). La tabla 8.8 compara los resultados de eliminaci on de distinto tipo de informaci on relacional por separado, en este caso, distinto tipo de interacciones. Tambi en se incluye una comparaci on con los resultados de la Representaci on Proposicional Directa (ver secci on 8.4.2), que tambi en representa los datos sin ninguna informaci on relacional. El resumen de resultados completo para el aprendizaje sin interacciones PP o sin interacciones de complejos, se encuentra en la gura H.2 y H.1, respectivamente.
Tabla 8.8: Evaluaci on num erica de la extensi on de Reactome sin interacciones.
Sistema ERR-PRyC sin complejos sin IPP sin IPP ni complejos repr.proposicional
AUPRC 0,1695 0,1559 0,1331 0,1408 0,1386
AUROC 0,7028 0,7063 0,6635 0,6782 0,6775
nrutas (total/>1regla) 18 / 5 16 / 6 11 / 2 6/1 3/0
nprote nas anadidas (total/ %dif.) 249 / 87,55 % 254 / 86,22 % 162 / 83,33 % 119 / 96,64 % 42 / 100,00 %
Como era esperable, si se elimina cualquiera de los tipos de interacci on los resultados empeoran, tanto en AUPRC como en rutas extendidas. Al aprender sin las interacciones de complejos (segunda la de la tabla 8.8) la predicci on empeora mucho menos que al aprender ltimas parecen m sin las interacciones PP (tercera la), por lo que estas u as importantes. De hecho, lo llamativo es que al eliminar s olo las interacciones PP se pierde mucho m as que si se eliminan los dos tipos de interacciones (cuarta la). Este hecho puede ser debido a que al quitar las interacciones de cualquier tipo del aprendizaje, haya alguna combinaci on de atributos que discrimine m as que cuando se usan complejos. De esta forma adem as se demuestra que aunque no exista informaci on relacional, el sistema de representaci on h brido sigue aportando ltimas las alguna ventaja frente a una representaci on proposicional directa (comparar dos u de la tabla 8.8). La mejora en rendimiento es m nima, pero en cobertura el sistema ERRPRyC sin informaci on relacional extiende el doble de rutas que el sistema con representaci on proposicional directa, y hasta una con cierta diversidad. Conclusiones Los resultados empeoran ligeramente sin utilizar informaci on relacional en el aprendizaje, tanto en rendimiento como en cantidad de rutas predichas y su diversidad. La p erdida es mayor al eliminar interacciones prote na-prote na que interacciones de complejos. A la hora de usar este conocimiento para aplicarlo a otros problemas, se puede decir que si la informaci on relacional no fuera muy relevante en el aprendizaje y el principal inter es est a en el rendimiento del sistema, se podr a simplicar el problema al uso de una representaci on proposicional directa, porque sobre el resto de datos la representaci on relacional no aporta ventajas. Sin embargo, si existe alguna limitaci on en la cantidad de predicciones por clase o se busca diversidad en reglas, es mejor el enfoque de aprendizaje h brido del sistema ERR.
156
8.5.2.
Predicci on con Anotaciones de Companeros de Interacci on
En esta secci on se analizan los resultados tras a nadir m as informaci on relacional, al contrario que en la secci on anterior, donde se eliminaba dicha informaci on relacional. Lo que se a naden son m as niveles de relaciones, en concreto, anotaciones funcionales de los compa neros de interacci on, no de la prote na principal sobre la que se aplica el sistema. Se incluyen cinco tipos diferentes de anotaciones funcionales de las prote nas: familias de prote nas (de Pfam [Finn et al., 2010]), dominios de prote nas (de InterPro [Hunter et al., ltimas 2009]), procesos biol ogicos, componentes celulares y funciones moleculares. Las tres u categor as de anotaciones se extraen de Gene Ontology [Ashburner et al., 2000], y s olo incluyen resultados experimentales, que ignoran las anotaciones autom aticas, para evitar en lo posible sesgos inducidos por solapamientos con otras fuentes de anotaci on. Todas estas anotaciones se extraen de Ensembl versi on 56 [Hubbard et al., 2009] a trav es de BioMart [Smedley et al., 2009]. Adicionalmente se a nade como anotaci on de un compa nero de interacci on a qu e rutas de Reactome pertenece (si pertenece a alguna); informaci on impl citamente incluida en el m etodo Glaab et al. (por considerar s olo prote nas interaccionando con alguna de la ruta original), pero completamente desconocida para el sistema ERR. Las nuevas fuentes de informaci on se representan como predicados l ogicos binarios, que asocian a un identicador de prote na el identicador de la anotaci on correspondiente (ver gura 8.14). Dichos predicados se a naden al lenguaje de representaci on del conocimiento de partida para la extensi on de rutas (denido en la gura 7.2).
pfam_domain(proteinID,pfamID). interpro_domain(proteinID,interproID). go_annotation_bioProcess(proteinID,goID). go_annotation_cellComponent(proteinID,goID). go_annotation_molFunction(proteinID,goID). protein_in_pathway(reactID,proteinID).
Figura 8.14: Fragmento de lenguaje de representaci on del conocimiento asociado a anotaciones funcionales.
Tambi en se incluye como parte del sesgo del lenguaje las directivas que muestra la gura 8.15, para que el aprendizaje restrinja a que las anotaciones s olo se asocien a compa neros de interacci on, y no a prote nas principales. Tras incluir todas las anotaciones en un sistema con la misma conguraci on que ERRPRyC, excepto para la frecuencia m nima (0,2) y la profundidad m axima (3), se obtienen los resultados que muestra la gura 8.16. La gura 8.16 presenta una gran mejora de los resultados, con un rendimiento cercano al doble del alcanzado con el sistema de referencia ERR-PRyC. Tambi en se extienden 8 rutas m as, de las cuales 3 m as son con varias reglas. El solapamiento entre las predicciones de distintas rutas se reduce un poco, habiendo menos prote nas a nadidas diferentes entre clases. Hay que destacar que la extracci on de patrones frecuentes est a limitada frente al sistema ERR-PRyC (por razones de coste computacional) y a un as se consigue mejorar la predicci on de forma tan elevada, dejando un margen de mejora adicional. La tabla 8.9 compara los resultados de inclusi on de anotaciones de compa neros de interacci on, separado entre pertenencia a una ruta de Reactome, y el resto de anotaciones
8.5. Inuencia de la Informaci on Relacional

(ppinteraction_pair(+ProtID,\X), (ppinteraction_pair(+ProtID,\X), (ppinteraction_pair(+ProtID,\X), (ppinteraction_pair(+ProtID,\X), (ppinteraction_pair(+ProtID,\X), (ppinteraction_pair(+ProtID,\X), (complex_interaction(+ProtID,\X), (complex_interaction(+ProtID,\X), (complex_interaction(+ProtID,\X), (complex_interaction(+ProtID,\X), (complex_interaction(+ProtID,\X), (complex_interaction(+ProtID,\X), interpro_domain(X,#)). pfam_domain(X,#)). go_annotation_bioProcess(X,#)). go_annotation_cellComponent(X,#)). go_annotation_molFunction(X,#)). protein_in_pathway(#,X)). interpro_domain(X,#)). pfam_domain(X,#)). go_annotation_bioProcess(X,#)). go_annotation_cellComponent(X,#)). go_annotation_molFunction(X,#)). protein_in_pathway(#,X)).
157
Figura 8.15: Fragmento de sesgo del lenguaje para anotaciones de compa neros de interacci on.
nrutas (total/ >1regla) 23 / 8 nprote nas a nadidas (total/ %dif.) 303 / 78,22 %
AUPRC 0,3155
AUROC 0,7776
Figura 8.16: Resumen de resultados con anotaci on de compa neros de interacci on.
funcionales de bases de datos externas (Pfam, InterPro y GO). Los resultados indican que los dos subconjuntos de anotaciones considerados permiten conseguir una gran mejora de forma independiente al otro, aunque ligeramente inferior a la conseguida con el uso de todas las anotaciones. Adem as, cabe destacar que el uso de anotaciones de Pfam, InterPro y GO incrementan la diversidad de las predicciones (con mayor cantidad de rutas extendidas por m as de una regla), mientras que las anotaciones de Reactome mantienen dicha diversidad frente a ERR-PRyC e incluso disminuye el porcentaje de prote nas diferentes entre rutas. Comparando desde otra perspectiva, ante esta gran cantidad de conocimiento relacional, una representaci on proposicional directa (ver secci on 8.4.2) no puede abarcar toda esta informaci on sin complicar en exceso el modelo de datos. Ahora no se tratar a s olo de representar en una sola la los posibles compa neros de interacci on de una prote na, sino tambi en todas las anotaciones de los mismos, y con anotaciones de diferentes bases de datos. Las anotaciones a naden una dicultad adicional, como es transformar a representaci on proposicional los atributos multi-valuados, es decir, aquellos con m as de un posible valor a la vez para la misma instancia. Por ejemplo, las anotaciones con varios t erminos del
158
Tabla 8.9: Evaluaci on num erica de la extensi on de Reactome con anotaciones de compa neros de interacci on. Sistema AUPRC AUROC nrutas nprote nas anadidas (total/>1regla) (total/ %dif.)
ERR-PRyC todas las anotaciones s olo Pfam, InterPro y GO s olo Reactome
0,1695 0,3155 0,2881 0,2939
0,7028 0,7776 0,7679 0,7943
18 / 5 23 / 8 23 / 10 21 / 5
249 / 87,55 % 303 / 78,22 % 294 / 82,31 % 260 / 76,15 %
mismo vocabulario (Pfam, InterPro, GO, etc.), o pertenencia a varios grupos del mismo tipo (pertenencia a varias rutas metab olicas, varios complejos, etc.). La soluci on proposicional podr a consistir en crear un atributo booleano por cada posible valor. Esto provocar a nica de datos. Adem much simas celdas vac as en la tabla u as, habr a que repetir las propiedades ancladas al grupo (si las hubiera) para cada aparici on de ese grupo, provocando muchos valores repetidos en la tabla. Sin embargo, con una representaci on relacional, varias de estas propiedades se podr an calcular con programaci on l ogica inductiva con agregados on-line, o f acilmente con l ogica deductiva off-line. Conclusiones Los resultados mejoran mucho con las anotaciones de los compa neros de interacci on, y sin necesidad de usar informaci on directa de la prote na sobre la que se quiere determinar la funci on (o pertenencia a ruta), sino de otras relacionadas que s pueden tener anotaciones. No obstante, es cierto que se requiere m as informaci on que la simple secuencia, aunque no sea directa de la secuencia original, sino de las relacionadas. Para la aplicaci on a otros problemas, ante la presencia de tanta informaci on relacional no conviene aplicar una representaci on proposicional directa, pues se perder a mucho conocimiento, o la tabla de datos ser a de gran tama no y con mucha informaci on redundante. Por otro lado, ante atributos multi-valuados con cientos o miles de valores diferentes (como son los de las anotaciones funcionales usados en esta secci on) es importante limitar cautelosamente la cantidad de patrones frecuentes a extraer, para no desbordar al sistema de aprendizaje. Finalmente, cabe destacar que esta aproximaci on se puede usar tambi en para un conjunto restringido de prote nas sin caracterizar, porque las anotaciones que se necesitan son de los compa neros de interacci on.
8.6.
Incremento del Conocimiento con Anotaciones de Prote nas Principales
Motivaci on-Hip otesis: Mejora la predicci on de funci on al incluir anotaciones asociadas a cada prote na principal como nuevos atributos/predicados? En comparaci on con la secci on anterior, en esta se permite acceder a la informaci on de anotaciones de todas las prote nas, no s olo cuando una prote na es compa nera de interacci on de otra, lo cual restringe mucho menos el conocimiento a nadido, por no estar asociado a la relaci on (ver gura 8.15), sino a la instancia principal (ver gura 8.17). La inclusi on de las anotaciones para cualquier prote na se puede interpretar como uso
8.6. Incremento del Conocimiento con Anotaciones de Prote nas Principales

(protein(\X,_,_,_), (protein(\X,_,_,_), (protein(\X,_,_,_), (protein(\X,_,_,_), (protein(\X,_,_,_), interpro_domain(X,#)). pfam_domain(X,#)). go_annotation_bioProcess(X,#)). go_annotation_cellComponent(X,#)). go_annotation_molFunction(X,#)).
159
Figura 8.17: Fragmento de sesgo del lenguaje para anotaciones de cualquier prote na.
de homolog a, aunque de forma indirecta. Las anotaciones se pueden considerar atributos calculados a partir de alg un tipo de informaci on de similitud con otros genes o prote nas, ya que dichas anotaciones muchas veces proceden de experimentos en otra especie, cuyos resultados se extrapolan autom aticamente por homolog a a las bases de datos de anotaci on del resto de especies. Una vez que se permite el uso de anotaciones de las prote nas principales (denomin andolo homolog a indirecta), no se restringe la inclusi on de anotaciones de compa neros de interacci on. Porque al permitir ya el uso de anotaciones de las prote nas principales, sem anticamente da igual usar tambi en las anotaciones de las prote nas con las que se enlaza, ya que se requiere m as informaci on aparte de la secuencia de la prote na principal, por lo que con menos inuencia se puede usar m as informaci on de las prote nas relacionadas. Como se puede observar en la gura 8.17, se usan las mismas fuentes de anotaci on que en la secci on anterior (Pfam, InterPro y Gene Ontology), excepto Reactome que es el objetivo de aprendizaje. En esta experimentaci on con anotaciones de cualquier prote na, se mantiene la misma conguraci on que ERR-PRyC, excepto para la frecuencia m nima (0,2) y la profundidad m axima (3), que limitan la cantidad de patrones frecuentes extra dos por razones de coste computacional, igual que al a nadir nuevos predicados multi-valuados en la secci on 8.5. En la tabla 8.10 se presenta el resumen de resultados de la extensi on de las rutas de Reactome permitiendo el uso de diferentes subconjuntos de anotaciones. Al observar la tabla 8.10 se
Tabla 8.10: Comparaci on de la extensi on de Reactome con anotaciones de prote nas principales (homolog a indirecta). Ordenaci on por AUPRC creciente, de arriba a abajo.
Sistema ERR-PRyC GO-MF GO-CC Pfam InterPro InterPro y Pfam GO-BP GO Pfam y GO Pfam, InterPro y GO InterPro y GO
AUPRC 0,1695 0,1752 0,2202 0,2554 0,2868 0,2888 0,3290 0,3599 0,3973 0,4035 0,4060
AUROC 0,7028 0,7325 0,7721 0,7474 0,7595 0,7644 0,7880 0,7926 0,7982 0,7914 0,7922
nrutas (total/>1regla) 18 / 5 21 / 12 22 / 16 17 / 5 22 / 9 23 / 8 15 / 7 26 / 14 23 / 11 23 / 11 23 / 14
nprote nas anadidas (total/ %dif.) 249 / 87,55 % 278 / 83,09 % 185 / 80,00 % 149 / 71,14 % 226 / 78,76 % 239 / 78,24 % 132 / 93,94 % 239 / 84,94 % 171 / 84,21 % 195 / 82,56 % 237 / 83,97 %
puede comprobar que la inclusi on de cualquier anotaci on mejora los resultados frente al sistema de referencia ERR-PRyC, a pesar de tener restringida la generaci on de patrones. La
160
combinaci on de anotaciones que proporciona un mayor rendimiento en t erminos de AUPRC es cuando est an todas juntas, aunque con una ligera mejora si no se incluye Pfam, que quiz a sea ltimas las de la tabla 8.10). redundante con InterPro (ver 2 u Tambi en se incluyen las anotaciones de cada ontolog a GO por separado, para vericar que GO-BP es la que m as aporta individualmente con diferencia, tambi en frente a InterPro y Pfam por separado. Se trata de un resultado esperado por ser en los procesos biol ogicos el nivel de anotaci on funcional m as cercano a las rutas de Reactome que comprenden el objetivo de predicci on; estando m as distantes (de m as a menos AUPRC) los tipos de dominios (InterPro), las familias de dominios (Pfam), los componentes celulares (GO-CC) y nalmente las funciones moleculares (GO-MF). De hecho, es necesario recordar que se necesita ortogonalidad entre los atributos de entrada y el objetivo de predicci on. Muchas veces hay relaciones desconocidas o indirectas (procedentes de la homolog a, o alguna anotaci on por homolog a), como podr a suceder en este caso entre las anotaciones GO-BP y el objetivo de predicci on que son el vocabulario de Reactome, de ah el elevado rendimiento cuando se usan estas anotaciones. En cuanto a la diversidad de las prote nas a nadidas por cada combinaci on de anotaciones, todas se mantienen en el mismo rango de valores que el sistema ERR-PRyC. Excepto las que s olo incluyen anotaciones de dominios (Pfam y/o InterPro), donde el porcentaje de prote nas diferentes entre rutas baja del 80 %; y cuando s olo se usan anotaciones de GO-BP, que el porcentaje sube hasta casi un 94 % de prote nas distintas. Por otro lado, a continuaci on se analizan las diferentes representaciones relacionales de los atributos multi-valuados, como son las anotaciones utilizadas en esta secci on. Como punto de partida, se decide incluir un predicado diferente para cada tipo de anotaci on, para diferenciar las fuentes de datos, seg un muestra la gura 8.14. Cada predicado tiene dos campos: el identicador de la prote na y el t ermino de anotaci on seg un el vocabulario correspondiente. El segundo atributo es multi-valuado por poder estar anotada una misma prote na con m as de un t ermino de un mismo vocabulario. De forma que un mismo identicador de prote na puede tener muchos literales distintos de un mismo predicado (predicados instanciados con valores concretos). A la hora de extraer patrones frecuentes, el t ermino de anotaci on (segundo atributo de un predicado de anotaci on) se puede equiparar: 1) como una variable 2) como una constante. En el caso de ser variable, durante la b o usqueda de patrones se genera un literal por predicado; mientras que si es constante, se genera un literal por cada valor diferente del vocabulario de anotaci on, dando lugar a muchos m as patrones. As , en el primer caso (equiparaci on como variable) se podr a localizar otro literal con exactamente el mismo valor, generando patrones interesantes, aunque poco frecuentes, como por ejemplo: ppinteraction(protA,protB), interpro domain(protA,X), interpro domain(protB,X), que representa un par de prote nas interaccionando con un mismo tipo de dominio, sin necesidad de especicar cu al. Sin embargo, en el segundo caso (equiparaci on como constante) se pueden generar muchos m as patrones con suciente frecuencia como para ser seleccionados por el algoritmo de extracci on de patrones, como por ejemplo: complex interaction(A,B),not(B=A), go annotation cellComponent(B,GO:0005672). Adem as, como constante se especica el valor concreto de la anotaci on (en el ejemplo, el componente celular), que puede ser de utilidad en la interpretaci on biol ogica. La equiparaci on de t erminos de anotaci on como constante presenta una gran mejora en t erminos de rendimiento frente a s olo equipararlo como variable. Finalmente, para aprovechar las ventajas de las dos, se decide utilizar ambas equiparaciones al incluir anotaciones.
8.7. Predicci on con Homolog a Directa
161
Conclusi on Usar informaci on procedente de homolog a indirecta mejora notablemente la predicci on. No obstante, requiere m as informaci on (y m as compleja) que s olo la secuencia de amino acidos de la prote na nueva sobre la que predecir. Adem as, sin anotaciones, el modelo aprendido se puede aplicar a un conjunto m as estricto (restringido) de prote nas sobre las que no se tienen anotaciones disponibles. Para aplicarlo a otros problemas, si se decide usar informaci on de homolog a, tambi en se podr an incluir muchas m as fuentes de datos, con conocimiento obtenido a partir de alguna similitud por homolog a, indirecta o directa (ver secci on 8.7). Pero hay que asegurarse de si la combinaci on de m ultiples fuentes de datos con homolog a aporta ventajas frente a buscar la secuencia m as parecida y tomar la anotaci on de la misma directamente como predicci on.
8.7.
Predicci on con Homolog a Directa
Motivaci on-Hip otesis: Los resultados de predicci on de anotaci on mejoran a nadiendo datos de homolog a directa como entrada del sistema? En este trabajo, se denomina predicci on con homolog a directa, al uso expl cito de relaciones de similitud entre secuencias en el aprendizaje. En vez de incluir anotaciones funcionales, como en la homolog a indirecta, se a nade directamente qu e pares de prote nas son hom ologos como dato de entrada. El sistema ERR es un m etodo v alido en ausencia de homolog a, al contrario que muchos sistemas de predicci on de anotaci on funcional que se basan o incluyen homolog a como fuente de datos (ver secci on B.3). Sus rendimientos son mucho mayores que los presentados en este trabajo, incluso usando enfoques de aprendizaje parecidos [Clare et al., 2006; Vens et al., 2008], y sin olvidar la dicultad adicional para ERR en la extensi on de rutas por su denici on no est andar y subjetiva frente a otros vocabularios de anotaci on. Con la experimentaci on de esta secci on simplemente se quiere demostrar que el m etodo de predicci on ERR-PRyC permite f acilmente su ampliaci on con el uso de datos de homolog a y que, por supuesto, el rendimiento de la predicci on mejora, al igual que en otros predictores de funci on que usan homolog a. No obstante, los resultados presentados aqu probablemente sean peores que una b usqueda de similitud de secuencia con BLAST cuando realmente existe homolog a. Pero el alcance de esta secci on no es superar a BLAST con la b usqueda del mejor sistema con homolog a, sino comprobar que una m nima cantidad de informaci on de homolog a directa mejora el rendimiento de la predicci on de ERR-PRyC. En esta experimentaci on, se incluyen datos de homolog a directamente, pero de una forma limitada en varios sentidos, por coste computacional. Al igual que en secciones previas, la b usqueda de patrones est a restringida con una frecuencia m nima mayor (0,2) y una profundidad m axima menor (3) que en la conguraci on del sistema ERR-PRyC. Por otro lado, s olo se incluyen las relaciones de homolog a con la primera secuencia hom ologa de cada prote na. Finalmente, las relaciones de homolog a s olo se calculan dentro de la especie humana. Las relaciones de homolog a se representan como una relaci on binaria m as entre dos prote nas, al igual que las interacciones prote na-prote na y las interacciones en complejos, como se puede observar en la gura 8.18, incluyendo 69.452 nuevos predicados instanciados. Adem as, tambi en se incluyen las anotaciones en Reactome s olo de los hom ologos (ver gura 8.18), de forma que se tenga un predictor parecido a lo que realizar a un sistema de anotaci on por homolog a (mirar anotaci on de la prote na que se parece m as): buscar la secuencia m as similar (primer hom ologo) y comprobar qu e anotaci on tiene en el vocabulario objetivo
162
(anotaci on en Reactome del hom ologo), para asign arselo a la nueva prote na. Tambi en se permite la b usqueda de hom ologos de compa neros de interacci on.
homolog(proteinID,proteinID). protein_in_pathway(reactID,proteinID). (homolog(+ProteinID,\X), protein_in_pathway(#,X)).
Figura 8.18: Fragmento de sesgo del lenguaje para hom ologos y sus anotaciones en Reactome.
AUPRC 0,4566
AUROC 0,8505
nrutas (total/ >1regla) 28 / 16
nprote nas a nadidas (total/ %dif.) 299 / 82,61 %
Figura 8.19: Resumen de resultados con homolog a directa.
A pesar de las limitaciones en el uso de homolog a directa, en la gura 8.19, se observa que el rendimiento (en AUPRC) del sistema con homolog a directa es mucho mejor que en el sistema ERR-PRyC (gura C.1), y tambi en un poco mejor que con el uso de homolog a indirecta (gura 8.10). Tambi en se consiguen extender 10 rutas m as que en el sistema ERRPRyC, y m as del triple con variabilidad de reglas. Conclusi on La extensi on de rutas de Reactome es mejor incluyendo relaciones de homolog a que stas no se usan. Aunque el sistema ERR tambi cuando e en es v alido si existe homolog a, no asegura ventajas sobre una b usqueda BLAST. Pero gracias a no incluir informaci on de hom ologos, el sistema es aplicable sobre un conjunto restringido de dif cil anotaci on, cuando hay ausencia de homolog a, es decir, las prote nas sobre las que una b usqueda BLAST no produce resultados. Para el uso de homolog a directa en la aplicaci on a otros problemas con una representaci on relacional y con la transformaci on a proposicional previa mediante patrones frecuentes, hay que tener muy en cuenta las limitaciones de memoria. Porque se produce un crecimiento muy elevado de predicados, y un aumento exponencial de los patrones frecuentes generados, requiriendo mucha potencia computacional. La cantidad de predicados crece f acilmente, por
8.8. An alisis de Relaciones Indirectas entre Genes y Prote nas
163
ejemplo, al combinar homolog a directa e indirecta, o incluir todos los hom ologos y no s olo el primero, o considerar hom ologos tambi en en otras especies. Por otro lado, el margen de mejora esperado tambi en es muy amplio, pues se ha comprobado que con la inclusi on de informaci on de homolog a limitada ya se consiguen grandes incrementos en rendimiento y cobertura. No obstante, es cierto que el sistema de predicci on con homolog a ideado deber a ser capaz de superar en alg un sentido las renadas y sencillas b usquedas BLAST. Por lo tanto, la decisi on del uso de homolog a o no depende de las capacidades computacionales que se puedan emplear para resolver el problema.
8.8.
An alisis de Relaciones Indirectas entre Genes y Prote nas
Motivaci on-Hip otesis: C omo inuyen las relaciones de homolog a e isoformismo entre los conjuntos de entrenamiento y test en el aprendizaje autom atico? Para reducir la nomenclatura, en esta secci on se simplica el signicado de prote nas hom ologas o isoformas a prote nas parecidas. As , en este apartado se explican las dicultades provocadas por estas relaciones indirectas de parecido entre las prote nas que conforman los ejemplos de entrenamiento y test. En primer lugar, hay que evitar confundir el an alisis de esta secci on con la predicci on basada en homolog a (directa o indirecta) tratada en las dos secciones previas. En t erminos de aprendizaje autom atico, se podr a decir que en las secciones previas la homolog a inuye para la selecci on de atributos o caracter sticas, mientras que en la secci on actual afecta a la elecci on de ejemplos de entrenamiento y test. Ambos aspectos ligados al concepto de homolog a no se pueden obviar. Mientras que en los apartados anteriores se analiza la restricci on del m etodo para que se pueda aplicar en ausencia de homolog a, en este caso se analiza c omo evitar un sesgo en la evaluaci on de los resultados, para no dar una visi on de los resultados m as optimista que la realidad. As , se necesita una separaci on extremadamente cuidada de los datos de entrenamiento y test que se usan en un proceso de aprendizaje autom atico, sin ninguna relaci on de alta semejanza entre ellos, para no sobre-estimar el rendimiento de la predicci on, que se eval ua sobre el conjunto de test [Hobohm et al., 1992]. De forma que si hay ejemplos muy parecidos con una muestra en el conjunto de entrenamiento y otra en el de test, se sesga la abilidad de la predicci on hacia arriba por estos ejemplos de alta similitud. Mientras que ante un conjunto de nuevos ejemplos de aplicaci on, menos parecidos al entrenamiento que el test, la predicci on posiblemente ser a m as desfavorable; como sucede frecuentemente con prote nas no anotadas, por falta de homolog a con las anotadas. Las isoformas producen un efecto similar a los hom ologos, incrementado incluso por el mayor parecido de las secuencias isoformas frente a las hom ologas. Si las bases de datos estuvieran construidas de forma perfecta, las isoformas s olo se distanciar an por los fragmentos de secuencia que diferencian a la isoforma principal de las dem as, procedentes de la fragmentaci on alternativa, heredando pr acticamente las mismas propiedades, o subconjuntos de ellas. Esto ser a equivalente a tener pr acticamente el mismo ejemplo, o fragmentos del mismo, en entrenamiento y en test. Existen diferentes formas de reducir la redundancia por homolog a, entre dos conjuntos o sobre un mismo conjunto, como ya se ha comentado en la secci on 7.2.3. Para la reducci on de isoformismo, basta con seleccionar un criterio para seleccionar la forma principal entre todas las que proceden de la expresi on del mismo gen; ya que en las bases de datos se suele seleccionar la m as larga, pero se est a estudiando si esa deber a ser realmente la isoforma
164
principal [Tress et al., 2008; Rodr guez et al., 2012]. Por otro lado, la reducci on de redundancia en homolog a e isoformismo tambi en decrementa notablemente el conjunto de ejemplos disponibles para el aprendizaje, dicultando a un m as la tarea, pero haciendo los resultados m as cercanos a la realidad. Comparando el tama no de los conjuntos de datos, en el sistema ERR-PRyC, tras la reducci on de homolog a e isoformismo quedan 1.108 prote nas para el entrenamiento y 546 para el test, muchas menos que las respectivas 3.165 y 1.615 con redundancia entre entrenamiento y test. A un si se decide eliminar s olo la redundancia entre entrenamiento y test pero no internamente en cada conjunto, para reducir menos el tama no de los datos, aplicando una modicaci on del algoritmo propuesto por Jensen et al. [Jensen et al., 2003a] quedan 1.105 prote nas en el conjunto de entrenamiento y 693 en el de test. Tambi en se puede evaluar la inuencia de incluir los ejemplos parecidos en el conjunto de entrenamiento, siguiendo el m etodo de aprendizaje de ERR. Por ejemplo, patrones que no rbol eran frecuentes pueden pasar a ser frecuentes y a nadirse un atributo en la inducci on del a de decisi on (aunque no se sabe si ese atributo ser a relevante tambi en o no en otras clases). O patrones frecuentes que se a nad an al l mite del umbral de frecuencia originalmente, por ser una caracter stica muy espec ca, s olo visible en algunos ejemplos de esa clase; al a nadir nuevos til como atributo ejemplos, puede que desaparezca ese patr on como frecuente, aunque fuera u (lo cual puede ser malo o bueno, a priori no se sabe). No obstante ser a complejo determinar qu e ejemplos incluir y cu ales no en el conjunto de entrenamiento, debido a la naturaleza del problema multi-clase y multi-etiqueta que no hace que una divisi on aleatoria sea v alida. Conclusi on Cuando hay homolog a entre conjuntos, los resultados de rendimiento sobre el test pueden estar sobrestimados, sin mostrar la realidad en caso de que se prediga sobre ejemplos sin mucho parecido a los datos de entrenamiento. Es decir, computacionalmente se dir a que no se estima sobre el peor caso. Cuando no hay parecidos entre los conjuntos de entrenamiento y test, hay muchos menos ejemplos para aprender y los resultados que se generan pueden presentar menor rendimiento, aunque est an m as cercanos a la realidad, ante la ausencia de fuertes similitudes con los datos de entrenamiento. En la aplicaci on a otros problemas se debe recordar siempre que el aprendizaje autom atico en biolog a molecular se complica con las relaciones indirectas entre genes y prote nas. Se debe eliminar la redundancia (isoformas y hom ologos) entre conjuntos de entrenamiento y de test, as como internamente. A lo sumo, se podr a aceptar un conjunto de entrenamiento redundante (incrementando el tama no del mismo), siempre que el test se mantenga no redundante, para evitar sobrestimar la abilidad de la predicci on dada.
8.9.
Conclusiones
En este apartado nal se resumen brevemente las conclusiones de cada uno de los an alisis realizados en cada secci on de este cap tulo. Para la predicci on de asociaciones funcionales entre pares de prote nas tambi en se puede aplicar Programaci on Gen etica, obteniendo una tasa de aciertos en los mismos niveles que varios algoritmos de AA por defecto, pero consiguiendo una gesti on particular mejorada de los valores desconocidos.
8.9. Conclusiones
165
nico el rendimiento puede ser mejor, dependiendo de lo Al aplicar un multi-clasicador u que se priorice en la evaluaci on, pero lo m as relevante es un solapamiento muy elevado entre las predicciones de distintas rutas biol ogicas o clases. Es equivalente extraer los patrones frecuentes para todas las clases a la vez o por separado pero junt andolos posteriormente en un multi-clasicador, siendo m as similares conforme disminuye la frecuencia y aumenta la profundidad. El rendimiento es mayor al usar los mismos patrones para clasicar sobre todas las rutas que al dividirlos por ruta, pero esta ltima opci u on tiende a presentar un menor solapamiento y la mayor diversidad en las predicciones. Variando la representaci on del conocimiento, con una representaci on relacional directa, no se consigue aprender, generando una clasicaci on aleatoria, porque un solo predicado rbol de decisi independiente por nodo del a on no es capaz de discriminar, necesitando combinarse con otros. Por otro lado, con una representaci on proposicional directa, el rendimiento es igual o peor que con aprendizaje h brido, con muy pocas predicciones, sin variabilidad en las mismas y con un modelo de clasicaci on menos interpretable. Sin informaci on relacional, los resultados empeoran, tanto en rendimiento como en cantidad de rutas predichas y su diversidad. Contrariamente, los resultados mejoran bastante con informaci on relacional adicional, como son las anotaciones de los compa neros de interacci on, y sin necesidad de usar informaci on directa de la prote na sobre la que se quiere determinar la funci on (o pertenencia a ruta). Usar informaci on procedente de homolog a indirecta o directa mejora notablemente la predicci on, pero requiere m as informaci on (y m as compleja) que s olo la secuencia de la prote na nueva. Sin anotaciones, el modelo aprendido se puede aplicar a un conjunto m as estricto (restringido) de prote nas sobre las que no se tienen ni anotaciones disponibles (homolog a indirecta), ni prote nas similares (homolog a directa). Si existe homolog a entre las prote nas de los conjuntos de entrenamiento y test, no se estima sobre el peor caso, tendiendo a ser la evaluaci on del rendimiento sobre el test mejor que en la realidad, en caso de que se prediga sobre prote nas sin mucho parecido a los datos de entrenamiento. Adem as, cada una de las t ecnicas y representaciones presentados en este cap tulo se pueden aplicar para resolver otros problemas con aprendizaje autom atico. En la tabla 8.11 se recopila el contenido de los p arrafos al nal de cada secci on que hablan de la aplicaci on a otros problemas del enfoque planteado. As , se obtiene un conjunto de estrategias (segunda columna), a aplicar si las caracter sticas u objetivos del problema coinciden con los que se exponen (primera columna), principalmente para dominios de clasicaci on multi-clase y/o multi-etiqueta con informaci on relacional. No siempre las estrategias propuestas se limitan a su uso en problemas bioinform aticos, sino que en unos casos es aplicable a cualquier otro dominio. No obstante se detallan los casos particulares de aplicaci on en Biolog a, principalmente en anotaci on funcional de prote nas.
166
Tabla 8.11: Estrategias de aplicaci on de enfoques de AA seg un caracter sticas del problema.
Sec. 8.1 Caracter sticas/Objetivo Mantener sem antica biol ogica de gran cantidad de valores desconocidos Aprendizaje multi-clase y multi-etiqueta, con: bajo coste computacional simplicidad en modelo aprendido preferencia cobertura sobre precisi on sin p erdida o con mejora del rendimiento sin importar alto solapamiento entre clases 8.3 En el uso de aprendizaje h brido: relacional (extracci on patrones frecuentes) + proposicional ( arbol de decisi on): - Extracci on de patrones: Priorizar rendimiento, sin mucha capacidad computacional (para problema biol ogico: con muchos ejemplos, predicados y niveles sucesivos de relaciones) conjunta (todas las clases a la vez) frecuencia m nima en torno al 0,2 y 4 niveles (centenas profundidad en 3 o de patrones) - Multi-clasicador - Extracci on de patrones: Priorizar rendimiento, independientemente del coste computacional conjunta (todas las clases a la vez) frecuencia m nima muy baja y un nivel de profundidad lo m as alto posible (miles de patrones) - Clasicadores individuales por clase Buscar estrategia equilibrada en funci on de la combinaci on de condiciones planteadas que se cumplan en el problema Se produce alto solapamiento entre distintas clases, por utilizar multi-clasicador Estrategia Dise no operador particular/personalizado para gesti on de desconocidos con Programaci on Gen etica Multi-clasicador Observaciones Mejor gesti on de desconocidos, sin p erdida de rendimiento Si una o varias de las pre-condiciones no siguen el objetivo buscado, la opci on es el uso de N clasicadores, individuales por cada etiqueta, que consigue predicciones m as diversas y precisas
8.2
8.9. Conclusiones
- Extracci on de patrones: Priorizar diversidad separada por clases 0,3 frecuencia m nima superior a 0,2 o (no baja) - Clasicadores individuales por clase 8.4 En el uso de aprendizaje simple, no h brido: Sin apenas relaciones encadenadas y uso de aprendizaje m as sencillo que el h brido Representaci on y aprendizaje relacional directo 3 relaciones encadeSi se necesitan m as de 2 o nadas para alcanzar informaci on que discrimine, esta estrategia no es adecuada, porque s olo consulta un predicado por paso en la clasicaci on Desventajas: - Se permite redundancia de informaci on - Modelos de interpretaci on m as complejos
Preferir representaci on y aprendizaje cl asico Sin restricci on en cantidad y diversidad de predicciones Priorizar cobertura y rendimiento Sin inter es en mantener la sem antica de las relaciones 8.5-8.8 8.5.1 En el uso de informaci on relacional: No hay informaci on relacional Sin restricci on en cantidad y diversidad de predicciones
Representaci on y aprendizaje proposicional directo
Representaci on y aprendizaje proposicional directo
Representaci on relacional Hay informaci on relacional
Desaconsejable usar una representaci on proposicional directa, por p erdida de sem antica e informaci on
167
168
Hay informaci on relacional y: Atributos multi-valuados con cientos o miles de valores. En Biolog a, anotaciones en vocabularios amplios Existencia de informaci on adicional abundante de los elementos, relacionados en varios niveles. En Biolog a, por ejemplo, anotaciones m ultiples de prote nas (principales o con las que se interacciona) en diversos vocabularios 8.5.2 Hay informaci on relacional y: Ausencia de informaci on asociada a instancia principal sobre la que predecir. En Biolog a, sin anotaciones de prote na principal Existencia de informaci on adicional de elementos relacionados. En Biolog a, anotaciones de prote nas con las que se interacciona 8.6 Hay informaci on relacional y: Existencia de informaci on asociada a instancia principal sobre la que predecir. En Biolog a, con anotaciones de prote na principal
- Aconsejable aprendizaje h brido. Con extracci on de patrones frecuentes (por niveles sucesivos de relaciones), pero con cautela, para no desbordar el sistema de aprendizaje supervisado posterior - Usar toda la informaci on adicional y relaciones disponibles, limitando por restricciones computacionales
- Ventaja: mejora sobre predicci on sin relaciones - Desventaja: en problemas biol ogicos, implica la necesidad de m as informaci on (y m as compleja) que la simple secuencia
(Idem celda superior)
- Ventajas: - Mejora sobre predicci on sin relaciones - El modelo aprendido se podr a aplicar a un conjunto restringido de prote nas poco caracterizadas, sobre las que apenas se dispone de informaci on, a parte de la secuencia - Desventaja: en problemas biol ogicos, en este escenario, no se requiere informaci on adicional a la secuencia de la prote na sobre la que se quiere predecir, pero s de las prote nas relacionadas
- Ventaja: mejora sobre predicci on con informaci on adicional de elementos relacionados (escenario anterior) - Desventaja: en problemas biol ogicos, este escenario requiere informaci on adicional a la secuencia de la prote na principal, por lo que no se puede aplicar a prote nas sin caracterizar
8.9. Conclusiones
8.7 Hay informaci on relacional y: Existencia de m ultiples relaciones de parecido entre elementos sobre los que predecir. En Biolog a, relaciones de homolog a entre prote nas principales
- Ventaja: mejora sobre predicci on con informaci on adicional de elementos principales (escenario anterior). - Desventajas: - Igual que en el anterior, en problemas biol ogicos, no se puede aplicar a prote nas sin caracterizar - No se puede asegurar mejor rendimiento que la predicci on de anotaci on funcional basada en similitud de secuencia (BLAST) Riesgo de evaluaci on m as optimista de la real, sin estimar sobre el peor caso
8.8
Existencia de relaciones de parecido (en Biolog a, prote nas hom ologas o isoformas) entre ejemplos de entrenamiento y test
Construir conjuntos no redundantes, o con todos los ejemplos parecidos en un mismo subconjunto
169
170
Cap tulo 9
An alisis y Discusi on: Predicci on en Biolog a de Sistemas con Aprendizaje Autom atico
9.1. Comparaci on
En este apartado se comparan los dos problemas afrontados en esta tesis realizando una discusi on conjunta. Ambos problemas versan sobre la predicci on de anotaci on funcional encuadrados en la Biolog a de Sistemas (marco de las redes biol ogicas), con distintos enfoques a la hora de usar o predecir relaciones. El primer problema consiste en la predicci on de asociaciones funcionales entre pares de prote nas (AFPP) en el organismo modelo E.coli (ver cap tulo 6). El segundo es la extensi on de rutas biol ogicas en humanos, bas andose en propiedades simples e interacciones puntuales (ver cap tulo 7). En un caso se extiende la red con nuevas asociaciones funcionales puntuales, y en el otro se a naden elementos a un grupo de prote nas ya relacionadas. En un contexto de anotaci on, se trata de saber qu e prote na pertenece a esas redes. rea de anotaci Se eligen dos problemas diferenciados que permiten entender el a on funcional en Biolog a de Sistemas, se trabaja en ellos a lo largo de la tesis y se presenta una aproximaci on v alida biol ogicamente para cada uno. Similitudes Se han seleccionado espec camente dos problemas que comparten similitudes en el origen relacional de los datos, y en la aproximaci on y objetivo biol ogico. Ambos tratan la extensi on de redes biol ogicas, partiendo de unos conjuntos de prote nas y encontrando una que pertenece a uno de ellos. En la siguiente lista se mencionan los puntos comunes entre ambos problemas: Objetivo: Extender redes biol ogicas, porque las redes de interacci on no est an completas. O anotar prote nas con interacciones o asociaciones funcionales (puntuales o grupales). Representaci on en forma relacional del conocimiento original, puesto que en los dos problemas elegidos las interacciones y asociaciones funcionales entre los componentes son particularmente relevantes, adem as de ser los datos biol ogicos intr nsecamente relacionales. 171
172
9. An alisis y Discusi on
Uso de Aprendizaje Autom atico para plantear una soluci on, que generalice la predicci on reas de los dos problemas elegidos (predicci de anotaci on funcional en las a on de asociaci on funcional por pares y extensi on de rutas). Integraci on de diferentes fuentes de informaci on. tiles por heterogeneidad en la denici Sistemas u on y representaci on de relaciones, tanto en asociaciones funcionales por pares como en rutas. Se trata de llegar a un enfoque unicado, generalizando en ambos casos. Aplicables a prote nas poco caracterizadas (sin datos experimentales en asociaciones funcionales por pares o sin homolog a en rutas). Diferencias Una vez analizadas las semejanzas entre ambos problemas, en la tabla 9.1 se exponen las interesantes diferencias respecto a las relaciones, las caracter sticas de los datos, y la aproximaci on computacional requerida; siendo la mayor a ya previsibles y comentadas en la descripci on de la propuesta de tesis. Se puede observar en la tabla 9.1 en primer lugar que, respecto a los datos, comparados en la parte superior de la tabla, los organismos est an rbol logen muy distantes entre s en el a etico de la vida, perteneciendo E.coli al reino de las bacterias y el ser humano al de los animales. Pero, fundamentalmente, ambos problemas est an diferenciados por la informaci on de entrada bien distinta entre s . En la predicci on de AFPP la mayor a de los datos son de alto nivel, procedentes del pre-procesamiento de las secuencias a bajo nivel por m etodos o algoritmos externos. Mientras que en la extensi on de rutas se parte de caracter sticas b asicas de las secuencias de amino acidos, as como las interacciones prote naprote na y de complejos, reducidas a una representaci on por pares. En realidad se pueden ver como dos tipos de redes conectadas entre ellas, porque parte de las asociaciones funcionales predichas en E.coli (las interacciones prote na-prote na y de complejos), se utilizan como entrada para extender las rutas, aunque en humanos. Partiendo ambos de una representaci on relacional, en el primer caso se pueden integrar varios m etodos de predicci on existentes y en el segundo integrar datos base, sin apenas procesar. Tambi en es importante tener en cuenta que en E.coli cada gen s olo se expresa en una prote na, mientras que en humanos existen N prote nas asociadas a un mismo gen, lo cual implica una relaci on m as en la representaci on, as como una gesti on de la redundancia que las prote nas isoformas a naden. Adem as, el conjunto de datos a alto nivel no requiere de una recopilaci on tan detallada como los de bajo nivel, incluyendo la b usqueda y tratamiento por bases de datos distribuidas. En la parte central de la tabla 9.1, dedicada al aprendizaje, se observa que ambos problemas son diferentes en todos los sentidos, siendo mucho m as complicado en el caso de la extensi on de rutas (multi-clase, multi-etiqueta, combinaci on de varios enfoques de aprendizaje, creaci on del sistema desde cero, etc.). Destaca el uso de un aprendizaje proposicional simple frente a un enfoque h brido, aunque ambos conjuntos de datos son originalmente relacionales. Sobre el numero de atributos, los 9 predicados de la extensi on de rutas tienen de 1 a 5 argumentos cada uno, dependiendo del caso. La proporci on de valores num ericos o relaciones asociadas a cada instancia de aprendizaje tambi en var a entre ambos problemas. En la predicci on de AFPP hay 19 atributos num ericos, con las relaciones impl citas en el c alculo de caracter sticas derivadas, como por ejemplo la posici on de las prote nas en las listas de ranking. Mientras que en la extensi on de rutas, a parte de los 10 atributos num ericos o booleanos asociados a cada prote na (simplicando entre los distintos predicados), pueden existir decenas
9.1. Comparaci on
173
Tabla 9.1: Comparativa diferenciadora entre predicci on de AFPP y extensi on de rutas. En la parte superior de la tabla se presentan las diferencias asociadas a los datos de entrada de cada problema, en la parte central las referentes al proceso de aprendizaje y predicci on, y en la parte inferior aparecen algunos valores num ericos referentes a los conjuntos nales de datos.
predicci on AFPP DATOS DE E NTRADA organismo E.coli (procariota) origen datos alto nivel propiedades longitud y nort ologos individuales propiedades scores y rankings relacionales (derivados de asociaci on) predicci on basada contenido evolutivo en: A PRENDIZAJE Y P REDICCI ON extensi on red con: enlace puntual denici on ejemplo par de prote nas clasicaci on binaria nclases/ejemplo 1 aprendizaje proposicional VALORES C UANTITATIVOS sistema predicci on unicar m etodos previos, con datos adicionales natributos 19 atributos nejs. entrenamiento 55.220 pares nejs. test 27.610 pares nejs. aplicaci on 479.582 pares
extensi on rutas Humano (eucariota) bajo nivel longitud,carga,nisoformas, cromosoma,dominios,etc. interacciones PP y complejos, 1 gen con N prote nas combinaci on propiedades simples (ausencia de homolog a) enlace con un grupo 1 prote na multi-clase varias (multi-etiqueta) relacional + proposicional crear nuevo sistema desde el principio 9 predicados, con 1-5 argumentos 1.108 prote nas 546 prote nas 8.187 prote nas
de interacciones prote na-prote na y en complejos para una misma prote na, dado que los argumentos de estas dos relaciones de interacci on son multi-valuados. Hay que hacer notar que en los 9 predicados que indica la tabla 9.1 no est an incluidas las anotaciones, que se utilizan en algunas secciones del cap tulo 8, que incrementar an notablemente las propiedades asociadas a cada ejemplo. ltimas las de la tabla 9.1 muestran claramente que hay Sobre el numero de ejemplos, las u muchos m as ejemplos para aprender en la predicci on de AFPP que en la extensi on de rutas, y tambi en tiene un mayor campo de aplicaci on cuantitativamente hablando, sobre pares de prote nas de E.coli. Sin embargo, el modelo de extensi on de rutas es aplicable m as f acilmente a muchos otros problemas diferentes de anotaci on funcional, estando la predicci on de pares m as restringida en este sentido. ltimo, es importante se Por u nalar que realmente el problema de extensi on de rutas es mucho m as complicado, por: usar datos a bajo nivel, necesitando recopilar informaci on de distintas bases de datos y manipular sus diferentes formatos hasta llegar a los conjuntos de datos nales; gestionar el ruido, inconsistencias y redundancias, por relaciones indirectas (homolog a, isoformismo o sem antica similar); centrarse en un organismo m as complejo; predecir a nivel de proceso con informaci on a nivel de secuencia; clasicar entre m as de dos
174
opciones (multi-clase); asignar m as de una clase por ejemplo (multi-etiqueta); etc. Tambi en es un problema m as amplio, y por ello se le dedican muchas m as secciones en esta tesis. Estudio/Discusi on detallada A continuaci on se detallan los aspectos espec cos aprendidos al analizar y resolver los dos problemas, predicci on de asociaciones funcionales entre pares de prote nas y extensi on de rutas, desde diversas perspectivas. Qu e diferencia cada enfoque de los m etodos existentes previamente? La predicci on de AFPP propuesta en el cap tulo 6 integra m etodos de predicci on computacionales heterog eneos y permite el descubrimiento de asociaciones funcionales. Otros sistemas de predicci on de asociaciones funcionales por pares integran m etodos experimentales y/o s olo predicen interacciones f sicas. Por su parte, la extensi on de rutas descrita en el cap tulo 7 est a basada en una representaci on relacional que permite combinar propiedades simples de la secuencia. Unos m etodos dise nan nuevas rutas partiendo desde cero, no extendiendo las ya existentes. Otros m etodos comparten el enfoque de expansi on de rutas, pero usando dominios o redes de interacci on como informaci on de entrada. Entre las aproximaciones que anotan funcionalmente a nivel de sistema y usando propiedades de la secuencia, dichas caracter sticas no se calculan f acilmente, y no usan representaci on ni conocimiento relacio ltimo, otro grupo de m nal. Por u etodos comparte un enfoque relacional (representaci on y aprendizaje), pero en presencia de homolog a y se aplica sobre organismos m as simples que el humano. Precisamente, debido a la informaci on de entrada, el primer sistema presenta una limitaci on a la hora de ser actualizado, necesitando tambi en re-entrenar o actualizar los m etodos de predicci on computacionales que integra, o utilizando otros nuevos. Como prueba de concepto de la viabilidad de la idea es una buena propuesta, pero no es pr actico para un mantenimiento a largo plazo. No obstante, este tipo de dependencias entre varios m etodos de predicci on son comunes, integrando los resultados de unos como entrada de otros, como en los trabajos de Brunak et al. ya comentados [Jensen et al., 2002b; Bendtsen et al., 2004]. Por todo ello, en el segundo sistema presentado en la tesis se evitan dichas dependencias de otros m etodos de predicci on, usando una informaci on de entrada m as b asica, como son las secuencias. En resumen, ambas propuestas se diferencian en la informaci on de entrada y en la aplicabilidad de los m etodos. Rendimiento alcanzado en el aprendizaje El rendimiento es mucho m as alto en la predicci on de AFPP que en la extensi on de rutas, porque el Patr on Oro (del ingl es, Gold Standard) (fuentes de datos) est a mucho m as vericado y documentado en el primer caso, y las asociaciones funcionales por pares no tienen la inuencia de la perspectiva personal del dise nador de rutas metab olicas, de se nal o de regulaci on. No obstante, en la extensi on de rutas, el rendimiento var a mucho seg un la ruta en cuesti on, incrementando generalmente con el tama no de la ruta, aunque con varias excepciones. Algoritmo seleccionado
9.1. Comparaci on
175
En la predicci on de AFPP, el algoritmo de aprendizaje seleccionado, y vericado como mejor bajo las condiciones denidas en el cap tulo 6, es AODE, un algoritmo bayesiano (sub-simb olico) que exige una menor independencia entre los atributos, e ignora los valores desconocidos de forma puntual. Cabe destacar que, durante la nalizaci on de esta tesis, se ha entrado en contacto con los autores del algoritmo AODE, principalmente Geoff Webb, profesor de investigaci on en la Facultad de Tecnolog a de la Informaci on, de la Universidad Monash, en Melbourne, Australia. Ellos nos han proporcionado nuevas versiones mejoradas del algoritmo, denominadas A2DE y AnDE, a un no nalizadas ni publicadas por completo. Con estas nuevas versiones se quiere evaluar el enfoque consistente en ampliar ligeramente la dependencia entre atributos; en particular, increment andola de uno (One) a 2 o n atributos, respectivamente. Al aplicar las nuevas versiones del clasicador bayesiano elegido para predecir AFPP sobre el conjunto de datos denido en esta tesis para E.coli, por el momento no se ha conseguido mejorar la tasa de aciertos obtenida por AODE. Estamos trabajando con los autores para resolver los problemas y mejorar los nuevos algoritmos, de forma que se logre su aplicaci on sobre conjuntos de datos reales. En la extensi on de rutas, seg un las restricciones descritas en el cap tulo 7, la combinaci on est m as adecuada para resolver el problema es un aprendizaje h brido. Este a formado por una extracci on relacional de patrones frecuentes, seguida de la inducci on proposicional rboles de decisi de a on. Como caracter sticas adicionales se requiere un clasicador independiente por ruta, poca poda, y reordenar las reglas de decisi on si se busca una mayor diversidad por ruta. En este problema no se ha comparado con algoritmos rbol de decisi alternativos al a on porque interesa la interpretaci on de los resultados que aporta este enfoque simb olico, y el enfoque m as cercano, la extracci on de reglas de decisi on, es pr acticamente igual. Relevancia de atributos En la predicci on de AFPP en E.coli el atributo asociado al m etodo de conservaci on de genes adyacentes (GC [Dandekar et al., 1998]) es el que presenta una tasa de acierto en positivos m as cercana al m etodo unicado propuesto, a lo largo de las 5.000 primeras predicciones. En la extensi on de rutas de Reactome en humanos ning un atributo es mejor que otro en media, sino que depende de la ruta concreta. Cabe destacar que las interacciones no presentan una mayor relevancia que el resto de atributos. Comparaci on con m etodos alternativos que resuelven una tarea semejante En la predicci on de AFPP se compara con la base de datos STRING [Jensen et al., 2009] dedicada a las asociaciones funcionales entre prote nas, tanto a nivel experimental como de predicci on. Se determina que STRING es m as adecuado para asociaciones en prote nas con informaci on experimental conocida, y el enfoque propuesto en esta tesis para prote nas poco caracterizadas experimentalmente. Por su parte, la extensi on de rutas propuesta en el cap tulo 7 (ERR) se compara con el m etodo de expansi on denido por Glaab y colaboradores [Glaab et al., 2010], basado s olo en redes de interacci on. Se verica que existen muy pocas predicciones en com un entre ambos m etodos, dado que las evidencias en las que se basan dieren claramente. ERR expande las rutas de Reactome con un mayor n umero de prote nas, al no estar restringido a las que interaccionan expl citamente con la ruta original. Las
176
predicciones de Glaab et al. presentan una mayor similitud funcional sem antica con las rutas originales; mientras que las predicciones de ERR presentan m as variabilidad entre las distintas rutas. Es decir, las extensiones de ERR est an relativamente poco solapadas ltimo, ERR es entre s , en comparaci on con el solapamiento original de las rutas. Por u m as parecido que Glaab et al. a las rutas originales en sus propiedades moleculares m as frecuentes. El m etodo ERR tambi en se compara con una predicci on basada en b usqueda de similitud de secuencia (resultados de la herramienta BLASTP [Altschul et al., 1997]). En este caso, en general, no es esperable que los resultados de ambos enfoques coincidan, porque el m etodo ERR utiliza m as informaci on que la contenida en la secuencia de amino acidos, como es el n umero de transcritos (isoformas), la longitud del gen que codica la prote na, interacciones prote na-prote na, participaci on en complejos de prote nas, e incluso propiedades de secuencia de prote nas compa neras de interacci on, accesibles gracias a la representaci on relacional.
Uso y utilidad En cuanto a la utilidad de la propuesta de predicci on de AFPP, durante esta tesis se demuestra que el m etodo unicado es mejor que cualquiera de los m etodos individuales, en precisi on y sobre todo en cobertura. Esto hace que la puntuaci on que proporciona el sistema unicado de predicci on se pueda usar como criterio de conanza de las asociaciones funcionales. Dicho criterio es usado por el servidor de predicciones EcID, nica que permite seleccionar un conjunto de asociaciones presentando una medida u m as probable para prote nas pobremente caracterizadas, utilizando un solo m etodo de predicci on. Adicionalmente, el predictor unicado se puede usar para asignar una medida de conanza a las interacciones procedentes de los enfoques experimentales a gran escala. Sin embargo, esta propuesta no es v alida para predecir AFPP por fuentes de datos independientes, principalmente por insuciencia de datos en algunas de ellas. El sistema ERR sirve para extender rutas de Reactome en humanos, proponiendo una lista de prote nas para diversas rutas sobre las que resta una vericaci on experimental. No obstante, s se conrma su utilidad biol ogica con las anotaciones de UniProt y las extra das de la literatura cient ca. Por ejemplo, sobre 2 prote nas (PIAS4 HUMAN y DTX1 HUMAN) propuestas para extender la ruta de Mantenimiento del tel omero, quedando caracterizadas por las anotaciones de UniProt y por la existencia de un dominio RING-nger conservado, relacionada en la degradaci on de la telomerasa, la cual inuye en el envejecimiento celular. Adem as, se pueden usar las reglas de decisi on extra das por el sistema ERR y los predicados frecuentes calculados para conocer las propiedades moleculares de las prote nas que conforman cada ruta. Adicionalmente, recordando el contexto de la Biolog a de Sistemas, las predicciones obtenidas para ambos problemas (es decir, las interacciones y asociaciones funcionales puntuales o con un grupo), podr an utilizarse en el an alisis de redes complejas biol ogicas, teniendo en cuenta las caracter sticas y propiedades descritas de este tipo de redes.
9.2. Reexi on
177
9.2.
Reexi on sobre Aplicaci on de Aprendizaje Autom atico en Biolog a
En esta secci on se presenta una reexi on sobre la aplicaci on del Aprendizaje Autom atico a problemas biol ogicos. Se trata de una reexi on general, no s olo centrada en los dos problemas elegidos, como la comparaci on de la secci on 9.1. En el apartado Estudio/Discusi on detallada de la secci on 9.1 ya se discute la relaci on de los sistemas propuestos en esta tesis con otros m etodos existentes, y en el cap tulo 10 se exponen los objetivos conseguidos y las aportaciones de la tesis. Por lo tanto, en la presente secci on se exponen conclusiones de car acter general y personal, a las que se ha llegado tras el desarrollo de esta tesis y el an alisis del proceso llevado a cabo con el AA en Biolog a. De forma general, se ha detectado una serie de ventajas que aporta el AA para la anotaci on en Biolog a Molecular. Permite desarrollar ideas complejas, como por ejemplo, la integraci on de varias evidencias, de origen diverso, como caracter sticas extra das de la secuencia, interacciones y anotaciones funcionales. Los resultados pueden no ser mejores que ste aporta una predicci un m etodo m as sencillo sin aprendizaje, pero e on alternativa y permite una integraci on estructurada de datos y representaciones exibles. Aunque no resuelva por completo el problema biol ogico, el aprendizaje analiza propuestas de sistemas de predicci on. Desde la perspectiva de la Biolog a de Sistemas, los procesos o tareas que se llevan a cabo en los organismos a cualquier nivel se deben tratar como un todo, y no analizarlos a trav es de cada elemento independiente que participa en el sistema, porque todos ellos est an relacionados por sus interacciones y asociaciones funcionales. Esta inuencia de las relaciones en todos los sistemas biol ogicos justica la Representaci on Relacional que se elige en esta tesis para abordar los problemas de Biolog a Molecular, en este caso centrado en la anotaci on funcional. Respecto a la relevancia de la informaci on relacional en Biolog a, hay que decir que las m ultiples relaciones que existen entre las mol eculas parec a una ventaja muy importante inicialmente para optar por usar Aprendizaje Relacional. Pero estas mismas relaciones (muchas veces indirectas) se convierten frecuentemente en un inconveniente m as que en una ventaja: por no sesgar los resultados, por evitar que no se solapen las predicciones de unas clases con las de otras, por no usarlas para un proceso complejo de aprendizaje cuando una simple b usqueda exhaustiva entre las secuencias puede dar la soluci on, por exigir el uso de varias medidas de evaluaci on continuamente, etc. Tras el desarrollo de esta tesis, aunque la representaci on de los datos m as adecuada sea de tipo relacional, que conserva la naturaleza estructurada impl cita de los datos biol ogicos con muchas relaciones, esto no justica que el mejor sistema de aprendizaje sea uno relacional. Antes de aplicar el aprendizaje, hay que valorar qu e transformaci on (parcial, total o nula) conviene realizar sobre dicha representaci on. Las opciones son mantener la representaci on relacional y usar AAR (como en la secci on 8.4.1), transformar la representaci on a proposicional y usar AAP (como en el cap tulo 6), o mantener inicialmente la representaci on relacional y usar un h brido que combine el AAR y AAP (como en el cap tulo 7). La elecci on depende de los datos espec cos que se manejen, la cantidad de atributos num ericos y nominales, la diversidad de valores de los mismos, el objetivo buscado (primar la facilidad de interpretaci on o la precisi on), etc. En conclusi on, aunque el AAR parezca la mejor opci on para una representaci on relacional, no siempre es as . Otro punto interesante sobre el que reexionar en esta tesis es la generalizaci on de los m etodos computacionales para la aplicaci on a otros problemas biol ogicos. Aunque computacionalmente se antoja viable, en t erminos biol ogicos carece de sentido denir un marco com un de anotaci on funcional para cualquier contexto en Biolog a. Por ejemplo,
178
pr acticamente el mismo esquema de AA utilizado para resolver el problema de extensi on de rutas ser a f acilmente aplicable a la predicci on de funci on de grupos [Garc a-Jim enez et al., 2009, 2010b], concluyendo que las principales dicultades no son computacionales, sino biol ogicas. En primer lugar, c omo denir los grupos de genes o prote nas con sentido biol ogico; segundo, la disponibilidad de anotaciones individuales ables, que permitan expandir este enfoque de anotaci on de uno a un grupo de secuencias. El planteamiento inicial puede ser general y com un, pero nalmente en los detalles de dise no se necesita particularizar en cada entorno de aplicaci on concreto, porque cada problema biol ogico tiene muchas peculiaridades dependientes del dominio que necesitan un tratamiento diferente, concreto para ese problema. No obstante, para algunas partes independientes del proceso de anotaci on funcional s se pueden denir unas directrices estructuradas de recopilaci on, representaci on y aplicaci on de AA gen ericas, para predecir funci on de genes, prote nas, pares o grupos de ellos. Primero, respecto a la representaci on de la informaci on, seg un sobre qu e bases se quiera explicar la anotaci on, los datos de entrada ser an unos u otros: propiedades de la secuencia, interacciones por pares, anotaciones, relaciones de m as alto nivel, etc. En este sentido, en esta tesis se consigue una generalizaci on en la representaci on, con el modelo global de representaci on del conocimiento propuesto en el cap tulo 5, que descompone las anotaciones individuales y las anotaciones de grupo, y es una abstracci on com un v alida para todos los problemas de anotaci on funcional a resolver con AA. Para cada aplicaci on concreta, este modelo gen erico se puede instanciar f acilmente, seg un las indicaciones de la secci on 5.4. Tambi en se pueden compartir datos representados relacionalmente seg un el modelo, o incluso los ya recopilados en la aplicaci on del cap tulo 7. A parte de la representaci on, el resto del proceso de AA requiere un dise no espec co para cada problema biol ogico. Sin embargo, aunque no se pueda aplicar un m etodo computacional predenido, s se pueden seguir las estrategias descritas en el cap tulo 8 de esta tesis, recopiladas en la tabla 8.11, a partir de pruebas de concepto, que no pretenden denir soluciones absolutas. No obstante, con dichas recomendaciones, seg un las caracter sticas y objetivos del problema biol ogico a resolver, se puede decidir por usar uno de los variados enfoques de AA planteados (multi-clasicador, extracci on variada de patrones, reordenaci on de reglas seg un distintos criterios, uso de anotaciones de compa neros de interacci on o de prote nas principales, representaci on proposicional o h brida, etc.). Con estas propuestas de representaci on y estrategias gen ericas, el mismo conjunto de estrategias con el que se ha afrontado la extensi on de rutas basada en representaci on relacional es reutilizable f acilmente, siempre que se satisfagan o adapten algunos requisitos m nimos del m etodo. As , se podr a aplicar para extender otras bases de datos de rutas, procesos celulares, otro tipo de redes de prote nas o grupos a menor nivel (como los complejos). Tambi en se puede aplicar el enfoque para anotar funcionalmente con cualquier otro vocabulario, aunque no implique expl citamente una interacci on con los elementos del grupo; por ejemplo, en la extensi on de listas de genes sobre-expresados, mutados, con un mismo fenotipo, relacionados con una misma enfermedad, con una misma anotaci on en un vocabulario o agrupados por alguna otra raz on. Se tratar a de una anotaci on funcional a distintos niveles (con m as o menos relaciones entre sus elementos). Por otro lado, la interpretaci on biol ogica de los resultados puede hacer cambiar por completo el planteamiento, repetidas veces. Muchas soluciones que parecen adecuadas inicialmente, e incluso buenas en t erminos de rendimiento, no consiguen resolver los problemas desde la perspectiva biol ogica. Pero este hecho con frecuencia no se descubre hasta que se ltima fase del ciclo de miner llega a la interpretaci on de resultados, la u a de datos, despu es
9.2. Reexi on
179
de mucho trabajo avanzado en una direcci on concreta. Adem as, los resultados realmente var an signicativamente al modicar los conjuntos de datos, no por peque nos cambios en los par ametros de conguraci on, lo cual obliga a cambios profundos, desde el principio del proceso de aprendizaje. Relacionado con el punto anterior, a lo largo de la tesis con frecuencia se plantea la discusi on de una dicotom a entre las soluciones preferidas computacionalmente y las preferidas biol ogicamente. Es muy importante destacar que en Biolog a Computacional no ptima, ni mejorar m se tiende a buscar la soluci on o nimamente el rendimiento de un m etodo tras analizar una serie de conguraciones variadas. Sino que se pretende alcanzar una soluci on v alida con una interpretaci on biol ogica con sentido, lo cual ya exige una gran dedicaci on e implica un alto grado de complejidad. En parte, el problema es la validez de los sistemas para datos o problemas cambiantes en el tiempo, lo que hace m as necesario la b usqueda de m etodos robustos, frente a otros un poco mejores en condiciones muy determinadas. Sin embargo, una soluci on m as robusta que priorice principalmente una evaluaci on puramente til en t computacional, puede ser muy gen erica y no ser u erminos biol ogicos; mientras que priorizando una evaluaci on biol ogica, la soluci on puede estar desviada hacia el contexto de los til para resolver el problema biol datos de aplicaci on, pero ser v alida y u ogico concreto. Por lo tanto, suele resultar m as adecuado e interesante abordar un problema diferente entre todos los existentes, que repetir la experimentaci on para una conguraci on distinta o un sistema de aprendizaje alternativo, con el objetivo de mejorar ligeramente el rendimiento del sistema. Es decir, se puede concluir que el proceso de aprendizaje debe estar guiado por el dominio, por la biolog a, los datos y los detalles; no por la metodolog a ni los intereses computacionales de evaluar uno u otro m etodo con unas caracter sticas concretas. Los an alisis computacionales podr an ser innumerables, pero hay que limitarlos equilibradamente, buscando el rigor y sentido biol ogico, muy dif cil de alcanzar. Finalmente, se expone una reexi on de car acter m as personal sobre la resoluci on de problemas en Biolog a Computacional con AA. Trabajar en Biolog a Molecular desde una perspectiva computacional resulta dif cil, como cualquier otra tarea interdisciplinar, pero a reas por investigar. Realmente se la vez es una tarea interesante e intensa, con muchas a necesita m as an alisis computacional automatizado, mucho m as que un simple almacenamiento organizado o una extracci on de regularidades sencillas. Por el contrario, la aplicaci on de t ecnicas de Inteligencia Articial a problemas reales en Biolog a no es trivial, ni generalizable. Adem as, no es factible aplicar pr acticamente ninguna simplicaci on t pica del Aprendizaje Autom atico, m as bien al contrario: en Biolog a todo tienden a ser excepciones.
180
Cap tulo 10
Conclusiones
La tesis de esta tesis se expone desde dos puntos de vista, el computacional y el biol ogico. Computacionalmente, en los problemas reales, al menos en Biolog a Molecular, de un ciclo cl asico de descubrimiento del conocimiento con Aprendizaje Autom atico, se requiere dedicar un gran porcentaje de tiempo a la interpretaci on y an alisis de resultados, m as que a mejorar los par ametros de conguraci on del modelo computacional para incrementar unas d ecimas el rendimiento, que suelen ser irrelevantes en la evaluaci on biol ogica. Biol ogicamente, se puede decir que a un hay muchos an alisis por realizar y conocimiento a extraer de todos los datos de relaciones biol ogicas de los que se dispone, a cualquier nivel. Por lo tanto, queda latente el potencial que ofrece la representaci on y el aprendizaje relacional combinado con el enfoque de la Biolog a de Sistemas.
10.1.
Repaso de Hip otesis
Si se repasan los objetivos planteados en el cap tulo 3, se puede concluir que se han logrado todos: Se consigue denir una representaci on relacional gen erica del conocimiento de Biolog a Molecular para cualquier tarea de anotaci on funcional en Biolog a de Sistemas (en el cap tulo 5), posteriormente reutilizable y/o adaptable a cada caso, veric andose el objetivo 1. Se construyen los cuidados conjuntos de datos (objetivo 2) (descritos en las secciones de 6.2.1 a 6.2.3 y de 7.2.1 a 7.2.4) necesarios para aplicar aprendizaje a los dos problemas biol ogicos seleccionados. Se resuelven dos problemas de anotaci on funcional desde la perspectiva de la Biolog a de Sistemas (objetivo 3), como son la predicci on de asociaciones funcionales entre pares de prote nas en E.coli (en el cap tulo 6) y la extensi on de rutas biol ogicas en humanos (en el cap tulo 7). Como indica el objetivo 4, se utilizan y eval uan distintas representaciones del conocimiento para la predicci on de anotaci on funcional (codicaci on de operadores para Programaci on Gen etica, representaciones relacional y proposicional directa, transformaci on a proposicional o extracci on de patrones con diferentes criterios), cuyos resultados se presentan en las secciones 8.1, 8.3 y 8.4. 181
182
10. Conclusiones
En las secciones de 8.5 a 8.8, se analiza desde distintas perspectivas la relevancia de las relaciones biol ogicas en el aprendizaje, es decir, la importancia de la Biolog a de Sistemas en la anotaci on funcional, dando respuesta al objetivo 5. Para satisfacer el objetivo 6, en los apartados aplicaci on a otros problemas de todas las secciones del cap tulo 8 y resumido en la tabla 8.11, se propone cu ando y c omo aplicar Aprendizaje Autom atico en otros problemas de anotaci on funcional. ltimo, el objetivo 7 tambi Por u en se satisface, usando componentes est andar de la Inteligencia Articial y la Bioinform atica, como: los predictores ad-hoc basados s olo en evidencias biol ogicas (I2H, MT, GC, GF y PP); algoritmos y herramientas cl asicas de bioinform atica (BLAST, algoritmo de reducci on de homolog a de Hobohm, rboles de similitud sem antica de Jiang y Conrath, etc); sistema de aprendizaje de a decisi on relacionales (T ILDE); o WARMR+CLUS como combinaci on de algoritmos de aprendizaje h brido (relacional y proposicional) ya utilizada. Tambi en se usan repositorios de informaci on biol ogica, tanto de bajo nivel como preprocesado, para construir o procesar los conjuntos propios de datos. Es decir, se reutilizan componentes est andar existentes y se combinan seg un los requisitos de cada problema a resolver, sin necesidad de construir para cada tarea independiente de la tesis un sistema computacional propio, con menos potencial que los ya desarrollados y renados a lo largo del tiempo.
10.2.
Contribuciones
mbito cient Esta secci on expone las aportaciones que realiza esta tesis en el a co y en la comunidad de Aprendizaje Autom atico. Las aportaciones en Biolog a son: Los dos conjuntos de predicciones a vericar en el laboratorio, de asociaciones funcionales entre pares de prote nas en E.coli y de extensi on de rutas en humanos, estando algunas apoyadas por anotaciones de bases de datos de referencia y por la literatura cient ca, como las prote nas relacionadas con el tel omero y las integrinas. La interpretaci on de las predicciones mencionadas, que puede ayudar a comprender mejor el funcionamiento de los sistemas biol ogicos, principalmente a trav es de las relaciones. Un m etodo para complementar la predicci on de asociaciones funcionales entre pares de prote nas que, frente a otros enfoques populares y exitosos como STRING, es adecuado para aportar conocimiento sobre el desconocido y exigente grupo de prote nas poco caracterizadas experimentalmente. Una medida integrada de abilidad de la predicci on autom atica de asociaciones funcionales entre pares de prote nas en E.coli, que evita consultar los resultados de cada m etodo por separado, si no se est a interesado en los detalles. Un m etodo para asignar un nivel de calidad a la predicci on de interacciones prote naprote na con t ecnicas de experimentaci on masiva, las cuales originalmente carecen de medida de conanza. Un m etodo para extender rutas biol ogicas en humanos novedoso e interesante por basarse principalmente en caracter sticas de la secuencia.
10.2. Contribuciones
183
rea computacional son: Las contribuciones cient cas en el a Un modelo de datos multi-relacional con el que representar el conocimiento de Biolog a Molecular para anotaci on funcional. Este modelo se puede aplicar para representar un subconjunto cualquiera de entidades y relaciones biol ogicas, y realizar anotaci on funcional en cualquier otro vocabulario, con Aprendizaje Autom atico o incluso otra t ecnica. La anotaci on funcional se dene en un sentido amplio, abarcando tambi en la predicci on de pertenencia de una prote na a un grupo. Las estrategias de aplicaci on del AA seg un las caracter sticas del problema biol ogico. Se trata del planteamiento de otras t ecnicas, representaciones y conguraciones en Aprendizaje Autom atico para ser aplicado a otros dominios de anotaci on funcional o tambi en fuera de la Biolog a. Seg un los objetivos y caracter sticas del problema, se sugiere el uso de una estrategia o aproximaci on concreta. Por ejemplo, usar una representaci on relacional o proposicional, un multi-clasicador o clasicadores individuales, c omo gestionar los valores desconocidos o qu e variante de representaci on de relaciones multi-valuadas elegir, entre otras. La combinaci on de sistemas computacionales ya existentes, para la predicci on de asociaciones funcionales por pares. Una medida de probabilidad para reordenar reglas de decisi on, priorizando un criterio adicional, como es la diversidad molecular (en la gura 7.5). La b usqueda de las estrategias, algoritmos, t ecnicas de evaluaci on, criterios de poda, m etodo de evasi on de homolog a, etc. adecuadas para resolver los dos problemas afrontados. Las contribuciones tangibles a la comunidad de Aprendizaje Autom atico son: Los dos conjuntos de datos para el aprendizaje. Los conjuntos de datos biol ogicos no estaban denidos a priori, por lo que ha sido necesario construirlos e ir deniendo los l mites para renarlos a lo largo de la tesis. Ambos conjuntos se pueden utilizar para evaluar otros algoritmos, de forma gen erica o con un prop osito espec co, como la gesti on de clases des-balanceadas. Por separado, el conjunto para la predicci on de til para evaluar la gesti asociaciones funcionales entre pares de prote nas en E.coli es u on eciente de valores desconocidos. Por su parte, el conjunto de datos de rutas biol ogicas es un conjunto no redundante para tareas de clasicaci on multi-clase y multi-etiqueta, ltimo con pocas instancias y un gran desbalanceo de distribuci on entre clases. Este u conjunto es reutilizable m as all a de una simple evaluaci on basada en entrenamiento y test, porque la informaci on que contiene es m as rica, y estructurada en m odulos relacionales, de forma que se puede simplicar o ampliar f acilmente para su uso en aprendizaje relacional, o incluso proposicional. Las diferentes opciones de extracci on de patrones frecuentes en el proceso de transformaci on de representaci on relacional a proposicional. En trabajos previos con aplicaciones biol ogicas [Clare et al., 2006; Vens et al., 2008] siempre se han extra do los patrones frecuentes en todas las clases a la vez. Sin embargo, en esta tesis se propone la posibilidad de extraer los patrones frecuentes en cada clase por separado, pudiendo luego juntarlos con los del resto de clases para realizar un aprendizaje proposicional conjunto, o llevar a cabo diferentes procesos de aprendizaje de forma individual, fomentando la diversidad.
184
10. Conclusiones
Cap tulo 11
L neas Futuras
Existen muchas investigaciones todav a pendientes en anotaci on funcional en Biolog a Mo rea muy amplia, no existe ning lecular. Porque es un a un m etodo gen erico, ni aproximaciones particulares que resuelvan todos los problemas de anotaci on funcional existentes, ni siquiera en esta tesis se abarca el uso de la Biolog a de Sistemas en todos los sentidos posibles. Por lo tanto, se plantean algunos de los m ultiples trabajos futuros que se podr an realizar en el mismo mbito de estudio de esta tesis doctoral. a A corto o medio plazo se plantean las siguientes propuestas: Profundizar en el an alisis concreto de las prote nas predichas, su relevancia biol ogica y su similitud en propiedades de secuencia. Ampliar el estudio de otros enfoques de dise no en la aplicaci on de Aprendizaje Autom atico a otros dominios (presentado en el cap tulo 8 de esta tesis). Se podr an analizar las opciones en la b usqueda de reglas de clasicaci on diversas, la optimizaci on rbol de clasicaci de la poda del a on, la evaluaci on basada en similitud sem antica en conjuntos de anotaciones en varios niveles, o las opciones de establecimiento del umbral de predicci on. Usar otras representaciones h bridas m as sencillas, aparte de las conjunciones de predicados relacionales como atributos proposicionales binarios. Por ejemplo, se podr an usar s olo los predicados simples, sin construir combinaciones complejas, y evaluar si existe p erdida cuantitativa o interpretativa en los resultados. Aplicar Aprendizaje Relacional directo al problema de predicci on de asociaciones funcionales entre pares de prote nas, y compararlo con la soluci on proposicional presentada. Actualizar el predictor de asociaciones funcionales entre pares de prote nas, utilizando nuevos conjuntos de datos experimentales a peque na escala (m as numerosos y ables), que han aparecido tras la construcci on del sistema presentado en la tesis. Usar nuevas versiones del clasicador bayesiano elegido (AODE) para predecir asociaciones funcionales entre pares de prote nas, evaluando si el enfoque de ampliar ligeramente la dependencia entre atributos puede mejora los resultados alcanzados. Como trabajos a largo plazo, se proponen algunas l neas futuras: 185
186
11. L neas Futuras
Incluir en el proceso de aprendizaje propiedades topol ogicas de las redes biol ogicas y otro conocimiento derivado de la teor a de grafos. Analizar en el contexto de las redes las predicciones de interacciones y asociaciones funcionales obtenidas. Usar agregados como fuente adicional de informaci on relacional, que recopilen caracter sticas globales de un conjunto de prote nas relacionadas por alg un criterio. Aunque los patrones frecuentes se pueden considerar agregados, otra alternativa ser a, por ejemplo, incluir la moda de anotaci on en familias de dominios de las prote nas pertenecientes a una ruta biol ogica. Reutilizar un subconjunto de los datos relacionales recopilados para la predicci on de rutas biol ogicas, y usarlos para la anotaci on funcional de prote nas humanas en otro vocabulario de anotaci on, como por ejemplo la implicaci on en enfermedades. Aplicar el modelo de representaci on de datos biol ogicos a un problema en Biolog a de Sistemas, con nuevas relaciones (procedentes de microarrays o tecnolog as de secuenciaci on de nueva generaci on, etc.), y dise nar su resoluci on siguiendo las sugerencias expuestas en el cap tulo 8 de esta tesis.
Ap endice A
Publicaciones
A continuaci on se presenta una lista de las publicaciones que est an ligadas al desarrollo de esta tesis.
T tulo: Autores: Publicaci on: Fecha: Sequence Features and Interactions for Relational Learning-based Human Reactome Pathways Extension Beatriz Garc a-Jim enez, Tirso Pons, Araceli Sanchis y Alfonso Valencia Proceedings of the 11th European Conference on Computational Biology (ECCB), issue of the Bioinformatics journal (en revisi on, Abril 2012)
T tulo: Autores: Publicaci on: Fecha:
Relational Learning-based Extension for Reactome Pathways with Sequence Features and Interactions Beatriz Garc a-Jim enez, Tirso Pons, Araceli Sanchis y Alfonso Valencia Proceedings of the 11th Spanish Symposium on Bioinformatics (JBI) Enero 2012
MMRF for Proteome Annotation Applied to Human Protein Disease Prediction Beatriz Garc a-Jim enez, Agapito Ledezma y Araceli Sanchis Proceedings of the 20th International Conference on Inductive Logic Programming (ILP) Junio 2010
S.cerevisiae Complex Function Prediction with Modular Multi-Relational Framework Beatriz Garc a-Jim enez, Agapito Ledezma y Araceli Sanchis Proceedings of the 23rd International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA/AIE) Junio 2010
Inference of Functional Relations in Predicted Protein Networks with a Machine Learning Approach Beatriz Garc a-Jim enez, David Juan, Iakes Ezkurdia, Eduardo Andres-Le on y Alfonso Valencia PLoS ONE 5(4): e9969 Abril 2010
187
188
A. Publicaciones
Modular Multi-Relational Framework for Gene Group Function Prediction Beatriz Garc a-Jim enez, Agapito Ledezma y Araceli Sanchis Poster. 19th International Conference on Inductive Logic Programming (ILP) Julio 2009
EcID. A database for the inference of functional interactions in E.coli Eduardo Andres Le on, Iakes Ezkurdia, Beatriz Garc a-Jim enez, Alfonso Valencia y David Juan Nucleic Acids Research, Vol. 37, D629-D635 Enero 2009
Genetic Programming for Predicting Protein Networks Beatriz Garc a-Jim enez, Ricardo Aler, Agapito Ledezma y Araceli Sanchis Proceedings of the 11th Ibero-American Conference on Articial Intelligence (IBERAMIA) Octubre 2008
Protein-Protein Functional Association Prediction Using Genetic Programming Beatriz Garc a-Jim enez, Ricardo Aler, Agapito Ledezma y Araceli Sanchis Proceedings of the International Conference on Genetic and Evolutionary Computation (GECCO) Julio 2008
Ap endice B
Anotaci on Funcional del Genoma y Proteoma

En los siguientes apartados se presenta de forma breve qu e es anotar funcionalmente, qu e tipos de anotaciones existen, y c omo anotar (m etodos).
B.1.
Denici on de Anotaci on
La anotaci on funcional consiste en asignar informaci on biol ogica a secuencias de genes y de productos gen eticos, principalmente prote nas y ARN [Stein, 2001]. Se puede hablar indistintamente de la anotaci on de genoma, de proteoma o de otro producto gen etico. La secuenciaci on ahora es r apida y barata, generando el mapa gen omico de muchas especies, pero sin saber cu al es la funci on de cada gen y prote na. En algunos casos tambi en se conoce la estructura, pero no se sabe la funci on. La distancia entre el conocimiento del genoma y la anotaci on del mismo est a creciendo en gran medida [Rost et al., 2003; Friedberg, 2006; Hawkins and Kihara, 2007]. Se necesita saber en qu e tarea participa cada gen y prote na, cu ales son los implicados en cada tarea del metabolismo, para conocer d onde actuar en caso de mal-funci on o enfermedad. La informaci on biol ogica a asignar puede ser muy diversa, seg un se expone en la secci on 2.4.1.
B.2.
Vocabularios de Anotaci on
Un vocabulario de anotaci on es un conjunto de t erminos denidos para describir las mbito. funciones de los genes y productos gen eticos dentro de un mismo a Los vocabularios se dividen en distintas categor as, que no coinciden necesariamente con los distintos niveles de funci on (descritos en la secci on anterior), tendiendo a existir m as de una categor a por cada nivel. Algunos ejemplos de categor as de anotaci on son: funci on molecular, localizaci on celular, dominio de prote na, asociaci on con una enfermedad, participaci on en una ruta metab olica, etc. Algunos vocabularios son simples listas planas de t erminos, otros est an organizados en niveles, otros presentan alguna relaci on padre-hijo o de inclusi on entre t erminos, y otros incluso est an distribuidos en jerarqu as. Existen muchos cat alogos diferentes para la misma o diferentes categor as [Ouzounis et al., 2003]. Unos est an asociados a genes y prote nas individuales, otros a conjuntos de ellos, y otros a ambos. En general, para cualquier vocabulario de anotaci on 189
190
B. Anotaci on Funcional del Genoma y Proteoma
existen muchas bases de datos biol ogicas, espec cas y tambi en solapadas entre ellas [Galperin and Fern andez-Su arez, 2011]. No siendo el objetivo de este anexo presentar una lista exhaustiva, debido a la gran cantidad de vocabularios que existen, a continuaci on se presentan s olo las categor as de anotaci on a las que se hace referencia en este documento y los vocabularios correspondientes m as relacionados: Asociaciones funcionales entre pares de prote nas y rutas biol ogicas: Estos dos tipos de relaciones tambi en se pueden considerar anotaciones funcionales, a la vez que usarlas como entrada para predecir otras categor as de anotaci on. Estas categor as de anotaci on ya se han descrito en detalle, en la secci on 2.4.3, junto con sus correspondientes vocabularios. Funci on molecular: Las funciones moleculares de un gen o producto gen etico son las tareas que hace o las habilidades que tiene. Por ejemplo, transportar, enlazar o modicar alguna mol ecula. El primer vocabulario de funci on molecular desarrollado fue Enzyme (EC) [Bairoch, 2000], dise nado para describir s olo la actividad enzim atica. FunCat (MIPS Functional Catalogue) [Ruepp et al., 2004] extiende la idea a m as prote nas y funciones a trav es de su cat alogo de clasicaci on. Gene Ontology (GO) [Ashburner et al., 2000] es otro vocabulario de funci on, siendo el m as usado y conocido en Biolog a Molecular, aunque no sea completo. Est a estructurado en forma de ontolog a, como grafo ac clico. GO tambi en incluye otros dos vocabularios, en ontolog as separadas, sobre procesos biol ogicos (asociados a grupos) y localizaci on celular (asociada a elementos individuales). Adem as, existen versiones reducidas (GOSlim), una gen erica y otras espec cas para algunas especies, incluyendo menos t erminos pero m as generales. Estos tiles en tareas de clasicaci vocabularios simplicados pueden ser u on con Aprendizaje Autom atico, t ecnicas para las cuales es muy dif cil predecir con cientos o miles de clases diferentes. Familias y dominios: Las familias incluyen diferentes prote nas relacionadas evolutivamente, y pueden ser agrupaciones de dominios de prote na t picos en la naturaleza, que proporcionan alguna evidencia sobre la funci on con la que est an asociadas. Por lo tanto, las familias y dominios tambi en se consideran anotaciones funcionales. Estos patrones de secuencia se extraen de alineamientos de secuencia m ultiples de segmentos, patrones de expresiones regulares o modelos ocultos de Markov (del ingl es, Hidden Markov Models, HMMs) [Yoon, 2009]. Los resultados se almacenan en bases de datos o vocabularios de categor as de dominios y familias con distintos enfoques, como PRINTS [Attwood, 2002], PROSITE [Sigrist et al., 2010] o Pfam [Finn et al., 2010]. InterPro [Hunter et al., 2009] es un recurso integrado de familias de prote nas, dominios y sitios funcionales, que combina informaci on de varias de las anteriores, siendo la base de datos de dominios m as exhaustiva y potente. Pfam e InterPro son dos de los vocabularios con mayor cobertura de anotaci on del proteoma. A pesar de la larga lista de vocabularios de anotaci on existente, tambi en se podr a desarrollar un m etodo de predicci on de anotaci on funcional sobre un vocabulario nuevo, creado para unas necesidades espec cas no cubiertas con ninguno previo.
B.3. Metodolog as de Anotaci on
191
B.3.
Metodolog as de Anotaci on
Debido a la complejidad y amplitud de las funciones de genes y prote nas, la asignaci on de funci on a un producto gen etico no caracterizado se podr a enfocar desde distintas direcciones. Dentro de los m etodos de anotaci on, en primer lugar, hay que diferenciar entre la anotaci on experimental y la predicci on de anotaci on computacional. Las t ecnicas experimentales de anotaci on son costosas en recursos y tiempo invertido. Requieren la dedicaci on de expertos cient cos experimentalistas para el dise no, preparaci on de muestras, ejecuci on de pruebas y an alisis, utilizando qu micos y materiales biol ogicos en un laboratorio cl asico; frente nicamente de elementos a los laboratorios inform aticos o de ordenadores, compuestos u de silicio, menos costosos y de ejecuci on mucho m as veloz. Las t ecnicas experimentales proporcionan una anotaci on real del gen o producto gen etico considerado, mientras que las t ecnicas computacionales s olo pueden dar una predicci on, con mayor o menor abilidad, pero que no se puede considerar como una anotaci on vericada. No obstante, las t ecnicas til en los u ltimos a computacionales se presentan como una alternativa u nos [Pavlidis et al., 2002], debido a las limitaciones ya comentadas en las t ecnicas experimentales. As , las t ecnicas computacionales de predicci on de anotaci on proporcionan una serie de anotaciones predichas, las anotaciones m as probables, que ser an las prioritarias para ser vericadas experimentalmente en los laboratorios cl asicos [Pe na-Castillo et al., 2008]. Para afrontar la anotaci on funcional de genomas y proteomas existen multitud de m etodos computacionales. Dependiendo del organismo, el nivel de funci on denido, el vocabulario, la evidencia utilizada, etc. se pueden utilizar muchos m etodos ad-hoc, restringidos a un reas bioinform subconjunto de elementos biol ogicos, al igual que en otras a aticas. Cada m etodo se aplica con unas determinadas caracter sticas y sobre una determinada especie, cuyo planteamiento espec co tendr a que modicarse en gran medida si se cambia alguna de las limitaciones o consideraciones. A continuaci on se presenta una posible clasicaci on de los distintos enfoques de predicci on de anotaci on funcional considerados en Biolog a Computacional [Rost et al., 2003; Friedberg, 2006; Hawkins and Kihara, 2007]. Esta clasicaci on se basa en las evidencias funcionales (o informaci on asociada al producto gen etico) que utilizan los m etodos. Los vocabularios de anotaci on (secci on B.2) son tambi en un subconjunto de los posibles tipos de informaci on asociada a un producto gen etico. No obstante, a la hora de hacer predicci on funcional, se necesita ortogonalidad entre los atributos de entrada (evidencias funcionales) y el objetivo de predicci on (vocabulario de anotaci on), para no sesgar la predicci on con datos comunes en la entrada y la salida. Muchas veces hay relaciones indirectas y desconocidas (procedentes de la homolog a) que hay que evitar para no sesgar el m etodo (ver un an alisis m as detallado en el cap tulo 8).
B.3.1.
Predicci on basada en Similitud de Secuencia (u Homolog a)
La t ecnica b asica para anotar nuevos genomas en biolog a computacional es el m etodo comparativo. La gen omica comparativa [Hardison, 2003] pretende descubrir las funciones de un gen por comparaci on de m ultiples secuencias gen omicas [Bandyopadhyay et al., 2007], bas andose en el principio evolutivo que arma que las funciones codicadas en el genoma se conservan a trav es de las especies. Los principios fundamentales de la gen omica comparativa son sencillos [Hardison, 2003]. Las caracter sticas comunes entre dos especies se codican en los fragmentos de ADN conservados. M as espec camente, las secuencias de ADN que codican las prote nas
192
ltimo ancestro com responsables de las funciones conservadas desde el u un de las especies, deben estar presentes en las secuencias gen omicas actuales. Igualmente, se deben conservar las secuencias de ADN que controlan la expresi on de los genes regulados de forma similar en dos especies relacionadas. Por el contrario, las secuencias que codican (o controlan la expresi on de) las prote nas responsables de las diferencias entre especies deben ser divergentes. Aplicar la gen omica comparativa a la predicci on de anotaci on funcional consiste en comparar la secuencia de un nuevo gen o prote na con el resto de secuencias ya anotadas, de una misma o diferente especie, para inferir la nueva anotaci on a partir de las secuencias anotadas que tengan un mayor grado de similitud. Es decir, utilizar el conocimiento previo de anotaciones de secuencias completas o fragmentos, para determinar la funci on biol ogica de una secuencia desconocida. El concepto de homolog a, desde un punto de vista evolutivo, indica que una misma caracter stica presente en dos especies diferentes procede de un ancestro com un [Lankester, 1870]. En biolog a molecular evolutiva se aplica el t ermino homolog a para identicar la similitud o grado de identidad entre secuencias, de nucle otidos o amino acidos. El grado de identidad permite presuponer un origen evolutivo com un de las secuencias que se comparan [Saladrigas, 2006]. Se dice que dos secuencias son hom ologas cuando tienen un porcentaje de identidad de secuencia elevado, en una porci on relevante de la secuencia. La homolog a se puede separar a su vez en los conceptos de paralog a y ortolog a, dependiendo si las secuencias similares comparadas son de la misma o de distinta especie, respectivamente. As , comparten funci on por un proceso de duplicaci on de la secuencia dentro del mismo organismo de una especie (par alogos) o por un proceso de especiaci on a partir de un ancestro com un (ort ologos) a lo largo del proceso evolutivo. No obstante, no hay que confundir la identidad (absoluta) de ltima permite m secuencia con la similitud (relativa) de secuencia. Esta u as exibilidad en la comparaci on y establece diferentes grados en la sustituci on de un nucle otido o amino acido por otro en la misma posici on de la secuencia. As , el enfoque de predicci on basado en similitud de secuencia consiste en buscar la secuencia m as similar a una prote na dada desconocida, a la que se le asigna la anotaci on de la prote na similar encontrada. El algoritmo o m etodo b asico de b usqueda de secuencias similares por pares es el famoso y eciente BLAST (del ingl es, Basic Local Alignment Search Tool) [Altschul et al., 1990], que encuentra regiones de similitud entre miles de secuencias, tanto de nucle otidos como de amino acidos, calculando la relevancia estad stica de los emparejamientos. Existen m ultiples especializaciones de BLAST [Ye et al., 2006] y m etodos que a naden informaci on adicional a la homolog a. Otro m etodo precursor muy conocido es FASTA [Pearson and Lipman, 1988]. No obstante, para anotaci on funcional en realidad la t ecnica m as utilizada es la evoluci on de las b usquedas por pares, es decir, los alineamientos m ultiples de secuencia (del ingl es, Multiple Sequence Alignment, MSA), que contienen informaci on evolutiva que las comparaciones por pares no tienen. Existen m ultiples algoritmos, enfoques y mejoras progresivas para calcular dichos alineamientos [Do and Katoh, 2008]. El enfoque basado en similitud es el m as extendido para anotar funcionalmente. Pero con el paso del tiempo, la similitud no es suciente para asignar anotaci on, porque empieza a anotar menos secuencias y muchas veces amplica errores existentes. Porque si las prote nas buscadas tienen una mala anotaci on (por una asignaci on equivocada), la predicci on por similitud tambi en ser a err onea, propagando el error. Con el crecimiento exponencial de secuencias, tambi en crece su diversidad, y las secuencias conocidas anotadas no sirven porque no se parecen lo suciente a las nuevas [Friedberg, 2006]. Por lo tanto, surgen los enfoques descritos en los siguientes
193
apartados.
B.3.2.
Predicci on basada en Similitud Estructural
Se puede extender el concepto de similitud de secuencia a similitud estructural, comparando estructuras tridimensionales de prote nas (si est an disponibles) en vez de secuencias lineales, pero conservando el n ucleo de signicaci on de similitud por evoluci on com un. La estructura se conserva m as que la secuencia, por lo que prote nas con poca o ninguna similitud de secuencia pueden tener similitud de estructura, lo que permite aplicar este enfoque. Estos m etodos conf an en el contenido de PDB (del ingl es, Protein Data Bank) [Berman et al., 2000], donde buscan las estructuras a comparar.
B.3.3.
Predicci on basada en Patrones de Secuencia o Estructura
Muchas veces las funciones no dependen de la secuencia o estructura completa, sino de una peque na regi on altamente conservada. Por lo tanto, en muchos casos, basta con identicar un patr on caracter stico en la secuencia o en la estructura, que es la que se asocia con la funci on. En distintas prote nas existen tipos de dominios similares, que han seguido un proceso evolutivo com un, que se suelen agrupar en familias. As , se trata de buscar dominios y familias comunes para anotar una prote na. Se pueden consultar m as detalles sobre estas aproximaciones en [Friedberg, 2006; Hawkins and Kihara, 2007].
B.3.4.
Predicci on basada en Asociaci on o Contexto Gen omico
La logen omica indica que hay que tener en cuenta la historia evolutiva de los posibles hom ologos cuando se usa la similitud para asignar funci on. En la pr actica, signica transferir la anotaci on del ort ologo m as cercano, no de la secuencia m as similar. Se suelen denominar m etodos basados en logen etica, y se deber an aplicar cuando BLAST devuelve m as de una anotaci on, discriminando la correcta con el uso de la historia evolutiva de los hom ologos en cuesti on. Son m etodos que usan la secuencia, pero no usan la transferencia de funci on por similitud directamente. La organizaci on del gen es una fuente de evidencias funcionales, dentro del organismo y entre especies. Se pueden diferenciar tres asociaciones gen omicas diferentes relacionadas con la funci on: la similitud de perles logen eticos, la proximidad cromos omica y los eventos de fusi on de genes o dominios. Una de estas tres evidencias o varias se utilizan en los m etodos de predicci on de funci on, haciendo corresponder los perles de prote nas desconocidas con los perles de las que ya est an anotadas. El perl logen etico de un gen es un vector booleano, con un 1 si tiene hom ologo en un genoma (especie) dado y un 0 si no lo tiene. As , se considera que dos prote nas con el mismo, o muy cercano perl han evolucionado juntas, y probablemente est en asociadas funcionalmente [Pellegrini et al., 1999]. En genomas procariotas existen m as evidencias semejantes que se suelen utilizar en predicci on basada en contexto gen omico, porque los genes asociados funcionalmente nico, para facilitar una transcripci suelen estar cercanos en el cromosoma u on com un [Dandekar et al., 1998].
194
Si dos genes pueden fusionarse dentro de un mismo gen, aunque como dos dominios diferentes, tambi en se muestra una clara asociaci on funcional [Enright et al., 1999; Marcotte et al., 1999].
B.3.5.
Predicci on basada en Redes de Interacci on
En estos m etodos, a partir de un conjunto de interacciones y asociaciones funcionales experimentales o predichas, inicialmente se construye la red, y despu es se necesita realizar un an alisis para extraer la funci on de los elementos de la red, para asignar funci on a las prote nas desconocidas de la misma, porque es razonable que compartan funci on con sus parejas de interacci on o asociaci on funcional. Los principales enfoques para este an alisis [Sharan et al., 2007] son: 1) la asignaci on de la funci on de los vecinos m as cercanos de la red y 2) la agrupaci on de elementos de la red a los que se asigna una funci on com un. Como ejemplo avanzado del primer enfoque [Chua et al., 2006], se puede explorar toda la red, en lugar de consultar s olo las funciones de las dos o tres prote nas m as pr oximas, y asignar diferentes pesos en funci on de la distancia a las prote nas anotadas y la frecuencia de la funci on en la red. Como ejemplo del segundo, Prodistin [Brun et al., 2003] realiza una agrupaci on jer arquica basada en una medida de distancia m as elaborada que el camino m as corto entre pares de prote nas, aplic andolo a varias especies, incluida la humana. Adem as est a disponible en una aplicaci on web [Baudot et al., 2006]. Adem as, se ha demostrado que las interacciones detectadas por t ecnicas experimentales masivas contienen muchos falsos positivos [von Mering et al., 2002]. A la hora de predecir funci on, estas interacciones (y la predicci on de funci on que derive de ellas) deber an considerarse de menos calidad, cuando generalmente se tratan todas igual.
B.3.6.
Predicci on basada en Co-expresi on
Los microarrays examinan los patrones de expresi on de cientos o miles de genes a la vez. Desde su desarrollo en 1995 [Schena et al., 1995], esta tecnolog a se ha convertido en mbitos de investigaci un m etodo experimental est andar en un gran rango de a on biol ogica, empezando actualmente a sustituirse por la secuenciaci on de nueva generaci on (del ingl es, Next Generation Sequencing, NGS) [Mardis, 2011]. De los datos de intensidad de la expresi on de genes se pueden extraer grupos estad sticamente signicativos que probablemente est an involucrados en un proceso biol ogico coordinado [Chen, 2007]. As , genes de funci on desconocida, que se co-expresan con genes conocidos, til para pueden ser anotados con la funci on del segundo por esta asociaci on. Este m etodo es u predecir funci on de proceso biol ogico o celular, no funci on molecular o bioqu mica.
B.3.7.
Predicci on basada en Miner a de Textos
Estos m etodos tratan de extraer conocimiento del an alisis autom atico de la literatura cient ca biom edica, mediante t ecnicas de procesamiento del lenguaje natural u otras diferentes [Krallinger et al., 2010]. Con esta base, por ejemplo, cuando los identicadores de genes o prote nas aparecen verbalmente asociados en un texto, en diferentes grados, se puede realizar la transferencia de anotaci on entre ambos [Hoffmann and Valencia, 2004].
195
B.3.8.
Predicci on basada en Propiedades Extra das de la Secuencia
En este caso, la entrada se limita a la secuencia de nucle otidos o amino acidos, sobre la que se aplican c alculos sencillos y algoritmos simples, para obtener diferentes atributos. Se incluyen desde par ametros f sicos y qu micos (peso molecular, longitud de la secuencia, composici on de nucle otidos o amino acidos, carga el ectrica, etc.), similares a los extra dos de la herramienta ProtParam [Gasteiger et al., 2005], hasta modicaciones post-traducci on y localizaci on subcelular [Jensen et al., 2003b; Lee et al., 2007; Juncker et al., 2009]. As , algunos enfoques de Aprendizaje Autom atico reducen la entrada a atributos num ericos [Jensen, 2002] aplicando redes de neuronas [Jensen et al., 2003a] o m aquinas de vector de soporte [Lee et al., 2009], t ecnicas sub-simb olicas con salida poco interpretable, pero muy usadas en Biolog a Computacional. La predicci on de funci on basada s olo en caracter sticas de la secuencia es la opci on m as restrictiva (en datos disponibles y condiciones a comprobar) dentro de la anotaci on funcional, y por tanto la m as compleja y de las menos afrontadas. Es por ello que no hay que confundir m etodos basados en caracter sticas (procedentes s olo de la secuencia o no) con m etodos en ausencia de homolog a. Para que la predicci on de funci on basada en propiedades de la secuencia pueda ser aplicable en ausencia de homolog a, no deber a contener ninguna informaci on de similitud con otros genes o prote nas, por homolog a directa o indirecta. En la mayor a de m etodos h bridos, aunque se trate de predicci on basada en caracter sticas, se incluyen atributos calculados a partir de alg un tipo de relaci on de homolog a (anotaciones de dominios, predicci on de estructura secundaria usando datos de similitud de secuencia, etc). Al eliminar estas anotaciones, que muchas veces proceden de experimentos en otra especie y que se extrapolan autom aticamente por homolog a a las bases de datos de anotaci on del resto de especies, se restringe notablemente la cantidad de informaci on a usar en la predicci on. Usar informaci on procedente de esta homolog a indirecta (por anotaciones) mejora notablemente la predicci on. Sin embargo, la predicci on no ser a necesaria si a partir de dicha anotaci on se puede deducir la clase directamente.
B.3.9.
M etodos H bridos
Estos m etodos utilizan diferentes enfoques para combinar e integrar muchos tipos de fuentes de datos diferentes, tales como caracter sticas de la secuencia, predicci on de estructura secundaria y estructura terciaria, anotaciones de dominios y familias, rutas metab olicas, patrones de expresi on, redes de interacci on, etc. Algunos ejemplos son [Al-Shahrour et al., 2006] (Babelomics), [Clare et al., 2006], [Tetko et al., 2008] y [Linghu et al., 2009]. Cabe mencionar tambi en el sistema DAVID [Dennis et al., 2003] en este apartado, porque usa como entrada varias fuentes de anotaciones; aunque no es estrictamente un m etodo de predicci on, sino que calcula las anotaciones enriquecidas en una lista de genes no caracterizada, comparada con un conjunto de genes ya anotados. Otros aspectos de la anotaci on funcional El resto de vocabularios distintos del objetivo de anotaci on funcional, se pueden utilizar como informaci on de contexto para predecir la salida. Por ejemplo, si el objetivo es anotar el genoma de una especie con las enfermedades en las que puede estar involucrado cada uno de sus genes, como datos de entrada se pueden utilizar el resto de categor as de anotaci on de las que se tenga informaci on disponible: rutas metab olicas y redes de interacci on a las
196
que pertenece, tipos de dominios y familias de prote nas en las que se clasica, funciones moleculares, localizaci on celular, perles de expresi on g enica, etc. No obstante, hay que tener en cuenta que cualquier combinaci on de atributos de entrada no es v alida. La informaci on de contexto y el objetivo de predicci on deben ser ortogonales. Es decir, dado que en biolog a todos los elementos est an muy relacionados entre s , hay que usarlos cuidadosamente, para evitar predecir algo evidente, como puede ser predecir una categor a de anotaci on en funci on de otras con las que mantiene una relaci on de implicaci on directa o indirecta. Por ejemplo, no til predecir a qu ser a u e complejo de prote nas pertenece una nueva prote na dada, utilizando como conocimiento de contexto las interacciones prote na-prote na, ya que los complejos se construyen a partir de dichos pares. Tambi en hay que tener en cuenta que para distintas especies no hay la misma informaci on disponible en las bases de datos. Puede haber menos, m as, o tener que buscar en una base de datos especializada en cada especie de forma independiente (por ejemplo, EcoCyc [Keseler et al., 2005] para E.coli, SGD (del ingl es, Saccharomyces Genome Database) [Cherry et al., 1998] para Saccharomyces cerevisiae, o FlyBase [Tweedie et al., 2009] para Drosophila melanogaster); o incluso especializada en un tipo de datos concreto en una especie, como HPID (del ingl es, Human Protein Interaction Database) [Han et al., 2004] que contiene s olo datos sobre asociaciones entre prote nas humanas. Toda esta informaci on asociada a los productos gen eticos est a almacenada en m ultiples bases de datos diferentes y distribuidas en toda la web. A principios de cada a no la revista Nucleic Acids Research presenta una revisi on de todas las bases de datos disponibles para biolog a molecular [Galperin and Fern andez-Su arez, 2011]. La mayor a son de acceso p ublico, aunque existen algunas que pueden requerir un registro previo para b usquedas m as detalladas (por ejemplo, STRING [Jensen et al., 2009]). Los formatos de acceso a los datos son variados, sobresaliendo la interfaz web como el mayoritario, aunque tambi en se pueden encontrar simples cheros de texto plano o tabulados. Aunque en general se accede directamente a cada base de datos en la que se est e interesado, para obtener los datos de forma m as able y actualizada, tambi en existen algunos sistemas web que integran varias fuentes. Por ejemplo, BioMart [Smedley et al., 2009] que integra los datos de los genes y prote nas de una de las principales fuentes de secuencias como es Ensembl [Flicek et al., 2010], o los recursos bioinform aticos DAVID [Dennis et al., 2003], que permiten obtener datos variados de un grupo de genes o de uno concreto. Estos sistemas facilitan la extracci on de informaci on, evitando tener que ir a las bases de datos independientes para cada tipo de informaci on. Aunque si las condiciones en las cuales la herramienta recopila, almacena y presenta la informaci on no coinciden con el planteamiento del problema, no es adecuado utilizarla para alcanzar el objetivo buscado.
B.4.
M etodos de Determinaci on de Interacci on o Asociaciones Funcionales por Pares
La forma tradicional de detectar interacciones sigue procedimientos experimentales ejecutados en laboratorios biol ogicos. Puesto que la aplicaci on de estos m etodos es costosa ltimos a en tiempo y recursos, en los u nos ha surgido un inter es creciente en el uso de m etodos computacionales de predicci on, que consiguen reducir dichos costes, permitiendo priorizar las interacciones m as probables. En esta secci on se revisan los m etodos de anotaci on espec cos para interacciones y asociaciones funcionales de prote nas por pares, tanto experimentales como computacionales.
B.4. M etodos de Determinaci on de Interacci on o Asociaciones Funcionales por Pares
197
B.4.1.
M etodos Experimentales
Aparte de los experimentos a peque na escala, dise nados individualmente para identicar un conjunto peque no de interacciones concretas, existen dos t ecnicas b asicas experimentales de determinaci on de interacciones que se pueden aplicar de forma masiva [Causier, 2004]: el m etodo de los dos h bridos en levadura (del ingl es, yeast two-hybrid) y la co-precipitaci on y espectrometr a de masas. El m etodo de los dos h bridos [Fields and kyu Song, 1989; Ito et al., 2001] utiliza la premisa descubierta por Fields y Song en levadura, consistente en que los factores de transcripci on en eucariotas son modulares. Es decir, que la transcripci on se produce sin necesidad de que el dominio de activaci on est e unido f sicamente con el dominio de enlace al ADN, sino s olo conectados indirectamente a trav es de dos prote nas que interaccionan, unidas cada una a uno de los dominios del factor de transcripci on de la levadura. El proceso de fusi on de dominios para formar el factor de transcripci on se produce in vivo, dentro del organismo de la levadura. Posteriormente se comprueba si el producto resultante de la transcripci on est a presente en el organismo para vericar la existencia de la interacci on f sica. En el m etodo de espectrometr a de masas [Gavin et al., 2002; Ho et al., 2002], se sigue un proceso en el que primero se etiquetan las prote nas problema para identicarlas posteriormente, y se deja que formen complejos f sicos libremente. A continuaci on se separan los componentes del complejo por puricaci on de anidad, se obtienen p eptidos de cada stos se identican mediante las t componente, y e ecnicas propias de espectrometr a de masas, comparando su masa con los registros en bases de datos. Ambas t ecnicas se comparan en la tabla B.1.
Tabla B.1: Comparativa entre m etodos experimentales a gran escala.
M etodo de los h bridos (Y2H) Espectrometr a de masas (MS) Detecta interacciones: Detecta interacciones: - binarias - en complejos (grandes) - d ebiles y transitorias - abundantes y estables - f sicas directas - f sicas indirectas In vivo In vitro Menor n de interacciones Mayor n de interacciones (pero indirectas) Escaso solapamiento entre distintas t ecnicas Muchos falsos positivos y falsos negativos
B.4.2.
M etodos Computacionales
Los m etodos computacionales de predicci on de interacciones y asociaciones funcionales entre prote nas se suelen clasican en cinco categor as, seg un las evidencias que utilizan. En este apartado se describe un representante de cada una de estas cinco categor as, correspondientes a las t ecnicas que se utilizan en este trabajo [Valencia and Pazos, 2002], representadas de forma gr aca en la Figura B.1. Perles logen eticos (PP, Phylogenetic Proles) Este m etodo se basa en la similitud de perles logen eticos, examinando la presencia o ausencia de los genes en diferentes especies. De forma que si las mismas prote nas
198
Figura B.1: Representaci on gr aca de los 5 m etodos computacionales de predicci on usados. (a) PP: Perles logen eticos, (b) GC: Conservaci on de genes adyacentes, (c) GF: Eventos de fusi on de genes, rboles logen (d) MT: Similitud de a eticos, (e) I2H: Mutaciones correlacionadas. Fuente: [Valencia and Pazos, 2002].
se mantienen constantes a lo largo de un conjunto de especies (igual o muy semejante perl), esto es indicativo de que ambas son necesarias para realizar alguna funci on conjunta. Presenta varios inconvenientes. Por un lado, no asegura la existencia de interacci on f sica, sino que s olo se trata de asociaci on funcional; y por otro, este m etodo necesita el genoma completo de todos los organismos implicados, para poder saber si un determinado gen falta realmente o no. Un esquema de este m etodo aparece en la Figura B.1(a), y una descripci on detallada en [Pellegrini et al., 1999]. Conservaci on de genes adyacentes (GC, Gene Context) Se considera que dos prote nas interaccionan o se asocian funcionalmente cuando sus genes est an cercanos en los genomas de varios organismos. Este m etodo se basa en que se conoce que en los genomas bacterianos los genes adyacentes a veces se expresan a la vez, y cuando estas relaciones de vecindad se conservan en diferentes especies, pueden dar lugar a prote nas con una misma funci on. El problema de este m etodo es que s olo puede ser aplicado a organismos procariotas,
B.4. M etodos de Determinaci on de Interacci on o Asociaciones Funcionales por Pares
199
que es donde se cumple dicha propiedad. Un esquema de este m etodo aparece en la Figura B.1(b), y una descripci on detallada en [Dandekar et al., 1998]. Eventos de fusi on de genes (GF, Gene Fusion) En este caso, se dice que dos prote nas de un organismo dado interaccionan o se asocian funcionalmente si dichas prote nas forman parte de una sola prote na en otra especie. Se trata de buscar los mismos dominios de prote na en distintas especies, de forma que en una aparezcan los dominios en distintas prote nas, y en otra especie aparezcan los dos dominios fusionados dentro de la misma prote na. Para ello se necesita buscar previamente secuencias semejantes en m ultiples especies, utilizando t ecnicas de alineamiento m ultiple de secuencia. La desventaja de este m etodo es que los eventos de fusi on de dominios no ocurren con frecuencia. Un esquema de este m etodo aparece en la Figura B.1(c), y una descripci on detallada en [Enright et al., 1999; Marcotte et al., 1999]. rboles logen Similitud de a eticos (MT, MirrorTree) Este m etodo (MT) y el siguiente (I2H) se basan en la co-evoluci on de prote nas para determinar la interacci on o asociaci on funcional. Incluso el m etodo PP ya descrito, se podr a decir que se basa en una co-evoluci on extrema de interdependencia funcional entre las dos prote nas. rboles logen En el primer caso se estudia la similitud de sus a eticos (los cuales representan la historia evolutiva de una prote na), pues se conoce que las prote nas que rboles m interaccionan o se asocian funcionalmente tienen a as similares entre s que las que no est an asociadas. En primer lugar, se obtiene un alineamiento m ultiple de secuencia, reducido al conjunto de especies comunes en las que aparezcan ambas prote nas del par. De cada alineamiento m ultiple de secuencia, asociado a cada una de las prote nas, se construye la correspondiente matriz de distancia entre secuencias. Estas rbol logen matrices se utilizan generalmente para construir el a etico de la prote na. Pero rboles) en este m etodo se utilizan directamente las matrices (en representaci on de los a para calcular la correlaci on lineal entre las prote nas del par. As , una correlaci on elevada rboles, y entre las matrices se interpreta como indicativo de una alta similitud entre los a por tanto se considera una asociaci on funcional. Este m etodo presenta el inconveniente de que necesita un alineamiento m ultiple de secuencia de calidad, con secuencias de las dos prote nas del par en las mismas especies. Un esquema de este m etodo aparece en la Figura B.1(d), y una descripci on detallada en [Pazos and Valencia, 2001] y en su servidor web [Ochoa and Pazos, 2010]. Mutaciones correlacionadas (I2H, In Silico Two-Hybrid) En este caso tambi en se emplea la co-evoluci on, pero cuanticando el grado de covariaci on entre los pares de amino acidos de las prote nas (lo cual se denomina mutaciones correlacionadas). Estas posiciones de la secuencia que cambian tanto en una como en la otra prote na del par que interacciona o se asocia funcionalmente, pueden ser debidas a modicaciones (mutaciones) compensatorias, para estabilizar el cambio producido en una prote na con el de la otra. As , se contabilizan por separado las mutaciones, mediante coecientes de correlaci on entre cada par de residuos.
200
Posteriormente se calcula la probabilidad de interacci on, seg un la comparaci on de la distribuci on de los valores de correlaci on de las mutaciones intraprote na (de cada prote na del par), con la correlaci on de las mutaciones interprote na. Este m etodo presenta el mismo inconveniente del m etodo MT, necesitando un alineamiento m ultiple de secuencia de calidad. Un esquema de este m etodo aparece en la Figura B.1(e), y una descripci on detallada en [Pazos and Valencia, 2002]. Todos estos m etodos se basan en informaci on gen omica, y en las secuencias de las prote nas. Otros m etodos computacionales de predicci on de interacci on o asociaci on funcional entre prote nas se basan en coevoluci on de dominios [Sprinzak and Margalit, 2001], coevoluci on de niveles de expresi on g enica [Fraser et al., 2004] u homolog a (inter ologos) [Yu et al., 2004].
B.5.
M etodos de Determinaci on de Rutas Biol ogicas
A partir de la combinaci on de interacciones o asociaciones funcionales por pares, determinadas seg un los m etodos descritos en la secci on anterior, se pueden derivar rutas biol ogicas (denidas en la secci on 2.4.3). La comparaci on de rutas biol ogicas reconstruidas para diferentes especies revela exibilidad, con muchas variaciones espec cas de la especie. Estas desviaciones de la ruta can onica se pueden usar para identicar dianas de f armacos cuando ciertas enzimas alternativas son espec cas de un pat ogeno [Gabald on and Huynen, 2004]. Por lo tanto, resulta interesante la construcci on de redes biol ogicas a partir del genoma. Tradicionalmente se ha potenciado la producci on natural de sistemas biol ogicos, para posteriormente reconstruirlos. Existen tres enfoques para el dise no de rutas: la combinaci on de fragmentos de rutas existentes, la modicaci on o extensi on de una ruta previa, o la creaci on ltima opci de cada paso de la ruta independientemente. Centr andose en la u on, existen diversos m etodos y herramientas de denici on de nuevas rutas desde cero (o de novo) [Karp et al., 2002; Adriaens et al., 2008; Prather and Martin, 2008], basados en diferentes enfoques que combinan el uso de homolog a para determinar la funci on molecular de las prote nas, con datos de experimentaci on a gran escala y t ecnicas basadas en contexto para identicar sus patrones funcionales [Gabald on and Huynen, 2004]. Se han desarrollado diversas herramientas para la reconstrucci on y validaci on de rutas biol ogicas, como PathoLogic [Karp et al., 2002], PathMiner [McShan et al., 2003] o PathFinder [Goesmann et al., 2002], aunque muchas se limitan a la visualizaci on y manipulaci on de la ruta. Como consecuencia de las distintas deniciones de ruta biol ogica [Bader et al., 2006], su implementaci on no es la misma en bases de datos diferentes, como por ejemplo Reactome [Matthews et al., 2009], KEGG [Kanehisa and Goto, 2000] o MetaCyc [Caspi et al., 2010]. Los esfuerzos para representarlos de forma com un est an en marcha (como Pathway Commons [Cerami et al., 2011]), pero todav a no se han resuelto las diferencias.
Ap endice C
Resumen de Resultados Extensi on Rutas Metab olicas para Comparaci on. Sistema ERR-PRyC y ERR-PDR
201
202
C. Resumen de Resultados ERR-PRyC y ERR-PDR
AUPRC 0,1695
AUROC 0,7028
Figura C.1: Resumen de resultados sistema ERR-PRyC.
AUPRC 0,1337
AUROC 0,6914
Figura C.2: Resumen de resultados sistema ERR-PDR.
Ap endice D
Resultados Detallados de Extensi on por Ruta/Clase. Sistema ERR-PRyC y ERR-PDR
203
on por ruta individual, ordenadas por AUPRC creciente. Sistema ERR-PRyC. Tabla D.1: Resultados de la extensi
Id. Id. ruta clase Reactome 18 REACT_16888 9 REACT_13685 22 REACT_18266 17 REACT_1675 1 REACT_11044 36 REACT_7970 13 REACT_15295 5 REACT_11193 2 REACT_11045 23 REACT_19331 4 REACT_11123 24 REACT_216 8 REACT_13552 3 REACT_11061 19 REACT_1698 26 REACT_474 29 REACT_602 25 REACT_383 6 REACT_13 32 REACT_6185 37 REACT_9417 7 REACT_13433 30 REACT_604 15 REACT_15380 27 REACT_498 34 REACT_6900 11 REACT_1505 28 REACT_578 16 REACT_15518 12 REACT_152 20 REACT_17015 14 REACT_1538 21 REACT_1788 33 REACT_6305 10 REACT_14797 31 REACT_6167 35 REACT_71 N N prot. Media Tamao de protenas predichas precisin Similitud N prot. Media ruta no predichas por Glaab predichas N reglas diversidad en test de GO-BP redundante por ERR et al. reglas en comn extensin predicciones reglas 12 0 4 0 0 0 0 0 26 0 1 0 0 0 0 0 33 0 6 0 0 0 0 0 24 4 3 0 1 1 0 0,42 33 4 2 0 1 1 0 0,33 26 4 0 0 1 1 0,20 0,24 13 35 27 12 33 84 23 71 62 53 126 61 97 120 16 39 85 186 18 110 144 66 36 197 148 59 101 76 117 119 274 0 0 0 0 0 0 0 9 0 0 1 11 8 19 0 0 13 32 0 0 16 13 4 37 16 10 6 0 0 0 42 2 0 2 0 0 4 1 7 1 0 1 2 0 7 4 1 12 3 3 21 2 13 0 12 5 2 6 0 2 2 19 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 5 0 0 0 0 2 0 0 0 2 0 0 0 0 0 0 0 1 0 0 1 1 1 2 0 0 3 2 0 0 1 1 1 2 1 2 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 1 1 1 0 0 0,72 1 0 0 1 1 1 0,87 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0,50 0,25 0,13 0 0 0,20 0,25 0 0 0 0,75 0 0,75 0,63 0,67 0,89 0 0 0 0,79 0 0 0 0 0 0 0 0,62 0 0 0,52 0,70 0,51 0,76 0 0 0,80 0,65 0 0 0,65 0,64 0,41 0,73 0,72 0,47 0,82 0 0 0 0,61
204
Nombre ruta Reactome AUPRC AUROC Sealizacin de PDGF 0,0055 0,5000 0,0236 0,5705 Transmisin Sinptica Orientacin por Axn 0,0265 0,5875 Procesamiento de ARNm 0,0377 0,5530 Sealizacin de Rho GTP 0,0388 0,6366 Mantenimiento del Telmero 0,0508 0,6835 ALEATORIO (MEDIO) 0,0524 0,4913 Sealizacin de Opioides 0,0527 0,6474 Metabol.Vitaminas y Cofactores 0,0532 0,8606 Sealizacin de Wnt 0,0572 0,6890 Sist.Adhesin Clula-Clula 0,0676 0,6240 Trfico de Membrana 0,0688 0,6377 Reparacin del ADN 0,0721 0,6533 Interac.Integrinas Sup.Celular 0,0747 0,6287 Sealizacin de NGF 0,0871 0,6887 Metabolismo de Nucletidos 0,0974 0,6666 Metabolismo de Carbohidratos 0,1029 0,6924 Metabolismo de Lpidos 0,1111 0,6967 Replicacin del ADN 0,1233 0,6654 Metabolismo de Aminocidos 0,1362 0,6716 Infeccin VIH 0,1474 0,7020 Sealizacin de EGFR 0,1554 0,5380 MEDIA 0,1695 0,7028 Oxidaciones Biolgicas 0,1728 0,8084 Hemostasia 0,1907 0,7410 Rutas de la Diabetes 0,2272 0,6856 Sealizacin Insulina 0,2421 0,6674 Sealizacin Sistema Inmune 0,2428 0,7379 Integracin Metabol. Energa 0,2638 0,7583 Apoptosis 0,2717 0,7958 0,2829 Pequeas 0,9268 Transporte Transmembrana de Molculas 0,2864 0,7730 Ciclo Celular, fase mittica Metabolismo de Protenas 0,2895 0,7290 Controles del Ciclo Celular 0,2941 0,8338 Transcripcin 0,3119 0,7102 Cadena Transp. Electrones 0,3528 0,9269 Sealizacin de GPCR 0,3750 0,7706 Infeccin Gripe 0,4126 0,8072 Expresin Gnica 0,4653 0,7378
D. Detalles Extensi on por Ruta/Clase
AUPRC < clasificadores Aleatorio o por Defecto (individuales) Sin extensin <= 20% tamao de la ruta
Tabla D.2: Resultados de la extensi on por ruta individual, ordenadas por AUPRC creciente. Sistema ERR-PDR.
Id. Id. ruta clase Reactome 18 REACT_16888 13 REACT_15295 27 REACT_498 9 REACT_13685 1 REACT_11044 4 REACT_11123 5 REACT_11193 19 REACT_1698 37 REACT_9417 22 REACT_18266 17 REACT_1675 3 REACT_11061 36 REACT_7970 7 REACT_13433 25 REACT_383 23 REACT_19331 24 REACT_216 26 REACT_474 6 REACT_13 28 REACT_578 30 REACT_604 29 REACT_602 14 REACT_1538 32 REACT_6185 33 REACT_6305 21 REACT_1788 8 REACT_13552 2 REACT_11045 34 REACT_6900 20 REACT_17015 15 REACT_15380 31 REACT_6167 11 REACT_1505 10 REACT_14797 12 REACT_152 16 REACT_15518 35 REACT_71 N N prot. Media Tamao de protenas predichas precisin Similitud N prot. Media ruta no predichas por Glaab predichas N reglas diversidad en test de GO-BP redundante por ERR et al. reglas en comn extensin reglas predicciones 12 0 4 0 0 0 0 0 13 0 2 0 0 0 0 0 18 1 3 0 1 1 0 0,83 26 1 1 0 1 1 0 0,91 33 2 2 0 1 1 0 0,50 33 0 0 0 0 0 0 0 35 5 0 0 1 1 0 0,83 62 9 1 0 2 0,84 0 0,38 16 33 24 71 26 39 61 12 84 53 97 66 85 126 59 120 76 101 23 27 110 148 186 119 144 117 197 36 274 0 0 3 0 5 0 8 1 0 8 18 8 11 25 10 20 5 18 5 0 22 26 36 24 18 14 23 5 52 4 6 3 7 0 1 2 0 4 0 0 13 12 1 2 7 0 6 1 2 21 5 3 2 2 2 12 0 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 2 0 0 1 0 1 0 3 1 0 2 2 1 2 3 1 2 1 2 1 0 3 3 2 4 2 2 1 1 13 0 0 1 0 1 0 0,90 1 0 0,83 0,87 1 1 0,68 1 0,57 1 1 1 0 0,53 0,61 1 0,43 0,87 1 1 1 0,29 0 0 0,50 0 0,33 0 0 0 0 0,13 0 0,33 0 0 0,25 0,50 0,50 0,50 1 0 0 0,33 0,50 0,42 0,25 0,30 0,63 0 0,34 0 0 0,57 0 0,41 0 0,46 0,91 0 0,53 0,55 0,60 0,66 0,71 0,51 0,64 0,11 0,80 0,68 0 0,75 0,56 0,32 0,51 0,26 0,68 0,72 0,56 0,63
Nombre ruta Reactome AUPRC AUROC Sealizacin de PDGF 0,0188 0,6611 0,0203 0,6313 Sealizacin de Opioides Sealizacin Insulina 0,0243 0,6242 Transmisin Sinptica 0,0244 0,5765 Sealizacin de Rho GTP 0,0395 0,6156 Trfico de Membrana 0,0418 0,5927 Metabol.Vitaminas y Cofactores 0,0472 0,6823 Metabolismo de Nucletidos 0,0517 0,6048 ALEATORIO (MEDIO) 0,0524 0,4913 Sealizacin de EGFR 0,0569 0,6967 Orientacin por Axn 0,0572 0,7164 Procesamiento de ARNm 0,0616 0,4899 Sealizacin de NGF 0,0626 0,6354 Mantenimiento del Telmero 0,0713 0,7685 Oxidaciones Biolgicas 0,0729 0,6060 Replicacin del ADN 0,0757 0,7429 Sist.Adhesin Clula-Clula 0,0806 0,5697 Reparacin del ADN 0,0896 0,7188 Metabolismo de Carbohidratos 0,0948 0,6276 Metabolismo de Aminocidos 0,0990 0,6268 Apoptosis 0,1227 0,6898 Hemostasia 0,1287 0,7624 MEDIA 0,1337 0,6914 Metabolismo de Lpidos 0,1394 0,7254 Controles del Ciclo Celular 0,1460 0,8437 Infeccin VIH 0,1525 0,6190 Cadena Transp. Electrones 0,1581 0,7750 Transcripcin 0,1585 0,6669 Interac.Integrinas Sup.Celular 0,1602 0,7557 Sealizacin de Wnt 0,1839 0,7986 Sealizacin Sistema Inmune 0,1885 0,7201 Metabolismo de Protenas 0,2158 0,7024 Rutas de la Diabetes 0,2499 0,6832 Infeccin Gripe 0,2620 0,7726 Integracin Metabol. Energa 0,2723 0,7157 Sealizacin de GPCR 0,2955 0,8272 Ciclo Celular, fase mittica 0,3159 0,6983 Transporte Transmembrana de Molculas 0,3483 Pequeas 0,9488 Expresin Gnica 0,3581 0,6889
205
AUPRC < clasificadores Aleatorio o por Defecto (individuales) Sin extensin <= 20% tamao de la ruta
206
D. Detalles Extensi on por Ruta/Clase
Ap endice E
Resultados Cuantitativos Hom ologos Anotados y Predichos por ERR-PDR
207
208
nas predichas por ERR-PDR y anotadas en Reactome de conjuntos de entrenamiento y test. Tabla E.1: Hom ologas de prote
Cjto.A: Homlogas de cjto.A en Anotadas Cjto.B: Reactome Predichas por no anotadas entrenamiento y ERR en (Aplicacin(8187) / Resto Id. No Anotadas(10607)) test cjto.A clase Nombre ruta Reactome 1 Sealizacin de Rho GTP 33 2 0 / 34 2 Sealizacin de Wnt 27 0 0/7 3 Sealizacin de NGF 71 0 0 / 141 4 Trfico de Membrana 33 0 0 / 44 5 Metabol.Vitaminas y Cofactores 35 3 0 / 17 6 Metabolismo de Aminocidos 97 4 0 / 37 7 Oxidaciones Biolgicas 39 0 0 / 48 8 Interac.Integrinas Sup.Celular 23 3 0 / 67 9 Transmisin Sinptica 26 2 0 / 40 10 Sealizacin de GPCR 117 11 0 / 144 11 Integracin Metabol. Energa 144 5 0 / 59 12 Ciclo Celular, fase mittica 197 14 0 / 53 13 Sealizacin de Opioides 13 0 0 / 17 14 Controles del Ciclo Celular 59 7 0/7 15 Rutas de la Diabetes 186 5 0 / 158 16 Transporte Transmembrana de Molculas Pequeas 36 2 0 / 21 17 Procesamiento de ARNm 24 3 0/1 18 Sealizacin de PDGF 12 0 0 / 14 19 Metabolismo de Nucletidos 62 0 0 / 22 20 Metabolismo de Protenas 148 23 0 / 44 21 Transcripcin 101 16 0 / 21 22 Orientacin por Axn 33 0 0 / 53 23 Sist.Adhesin Clula-Clula 12 2 0 / 34 24 Reparacin del ADN 84 0 0 / 41 25 Replicacin del ADN 61 6 0/3 26 Metabolismo de Carbohidratos 53 0 0 / 40 27 Sealizacin Insulina 18 3 0 / 11 28 Apoptosis 66 4 0 / 66 29 Metabolismo de Lpidos 126 6 0 / 101 30 Hemostasia 85 7 0 / 252 31 Infeccin Gripe 119 29 0 / 60 32 Infeccin VIH 120 16 0 / 79 33 Cadena Transp. Electrones 76 3 0/5 34 Sealizacin Sistema Inmune 110 12 0 / 147 35 Expresin Gnica 274 79 0 / 79 36 Mantenimiento del Telmero 26 3 0/1 37 Sealizacin de EGFR 16 0 0 / 23 AUPRC < clasificadores Aleatorio o por Defecto (individuales) Sin extensin <= 20% tamao de la ruta Homlogas de cjto.B en no anotadas (Aplicacin(8187) / Resto No Anotadas(10607)) 0 / 27 0/0 0/1 0/0 0/3 0 / 15 0/2 0/5 0/0 0/0 0/0 0/0 0/5 0/1 0/0 0/1 0/0 0/0 0/5 0 / 87 0/4 0/0 0/0 0/4 0 / 22 0/0 Homlogas de cjto.B en no anotadas Y predichas por ERR (Aplicacin / Resto No Anotadas) 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/1 0/0 0/0 0/0 0/0 0/3 0/0 Cjto.C: Anotadas Reactome no incluidas en Homlogas Homlogas entrenamiento ni de cjto.A en de cjto.B en test cjto.C cjto.C 91 42 19 25 11 11 137 96 96 17 11 11 11 13 0 64 55 3 73 68 68 57 42 7 43 24 3 574 500 38 68 57 0 95 58 1 50 39 39 52 18 1 81 64 0 87 79 2 8 1 0 52 22 22 25 23 0 52 27 1 30 4 0 106 46 46 35 25 3 20 7 7 33 17 3 43 45 6 21 12 1 57 26 0 92 57 1 143 71 12 44 19 1 60 28 0 1 1 0 150 68 2 105 52 7 19 15 0 31 11 11 Homlogas de cjto.B en cjto.C Y predichas por ERR 0 0 0 1 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -
E. Resultados Comparaci on Hom ologos Anotados y Predichos
Tabla E.2: Hom ologas de prote nas predichas por ERR-PDR y anotadas en Reactome redundantes a entrenamiento y test.
Cjto.A: Homlogas de cjto.A en Anotadas Reactome no Cjto.B: no anotadas Id. incluidas ni en Predichas por (Aplicacin(8187) / Resto clase Nombre ruta Reactome entrenamiento ni en test ERR en cjto.A No Anotadas(10607)) 1 Sealizacin de Rho GTP 91 0 3 / 66 2 Sealizacin de Wnt 25 0 0 / 52 3 Sealizacin de NGF 137 0 6 / 232 4 Trfico de Membrana 17 0 2 / 15 5 Metabol.Vitaminas y Cofactores 11 0 0/8 6 Metabolismo de Aminocidos 64 0 2 / 65 7 Oxidaciones Biolgicas 73 0 1 / 36 8 Interac.Integrinas Sup.Celular 57 3 3 / 102 9 Transmisin Sinptica 43 0 3 / 95 10 Sealizacin de GPCR 574 18 10 / 252 11 Integracin Metabol. Energa 68 0 1 / 79 12 Ciclo Celular, fase mittica 95 2 3 / 220 13 Sealizacin de Opioides 50 0 0 / 103 14 Controles del Ciclo Celular 52 0 1 / 111 15 Rutas de la Diabetes 81 2 5 / 262 16 Transporte Transmembrana de Molculas Pequeas 87 0 0 / 23 17 Procesamiento de ARNm 8 0 0 / 25 18 Sealizacin de PDGF 52 0 3 / 165 19 Metabolismo de Nucletidos 25 0 0 / 12 20 Metabolismo de Protenas 52 0 2 / 75 21 Transcripcin 30 2 3 / 99 22 Orientacin por Axn 106 0 6 / 193 23 Sist.Adhesin Clula-Clula 35 0 5 / 49 24 Reparacin del ADN 20 0 0 / 28 25 Replicacin del ADN 33 0 0 / 82 26 Metabolismo de Carbohidratos 43 1 2 / 53 27 Sealizacin Insulina 21 1 2 / 117 28 Apoptosis 57 2 0 / 141 29 Metabolismo de Lpidos 92 0 6 / 145 30 Hemostasia 143 2 8 / 303 31 Infeccin Gripe 44 1 1 / 25 32 Infeccin VIH 60 1 3 / 122 33 Cadena Transp. Electrones 1 0 0/0 34 Sealizacin Sistema Inmune 150 5 5 / 256 35 Expresin Gnica 105 10 6 / 94 36 Mantenimiento del Telmero 19 0 0 / 17 37 Sealizacin de EGFR 31 0 4 / 113 AUPRC < clasificadores Aleatorio o por Defecto (individuales) Sin extensin <= 20% tamao de la ruta Homlogas de cjto.B en no anotadas (Aplicacin(8187) / Resto No Anotadas(10607)) 0/0 0/0 0/0 0/0 0/0 2 / 14 0/0 0/2 0/0 0/3 0/0 0/0 0/0 0/2 0/0 0/0 0/0 0/4 0/0 0/8 0/0 0/0 0/0 0/5 0/3 0/0 Homlogas de cjto.B en no anotadas Y predichas por ERR (Aplicacin / Resto No Anotadas) 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 0/0 -
209
210
E. Resultados Comparaci on Hom ologos Anotados y Predichos
Ap endice F
Mapas de Agrupaci on de Prote nas por Propiedades Simples
211
212
F. Mapas de Agrupaci on de Prote nas por Propiedades Simples
Cadena de Transporte de Electrones

ENSP00000356972 ENSP00000252711 ENSP00000203407 ENSP00000356953 ENSP00000234301 ENSP00000394616>>ERR<< ENSP00000417806>>ERR<< ENSP00000325491>>ERR<< ENSP00000380342>>ERR<< ENSP00000384331>>ERR<< ENSP00000184266 ENSP00000339720 ENSP00000418438 ENSP00000299166 ENSP00000259037 ENSP00000252576 ENSP00000367934 ENSP00000347988 ENSP00000364649 ENSP00000342895 ENSP00000327268 ENSP00000392709 ENSP00000264932 ENSP00000303552 ENSP00000267950 ENSP00000268379 ENSP00000266544 ENSP00000376037 ENSP00000307786 ENSP00000258424 ENSP00000315774 ENSP00000007516 ENSP00000309565 ENSP00000247866 ENSP00000417656 ENSP00000311740 ENSP00000262946 ENSP00000364699 ENSP00000301457 ENSP00000233627 ENSP00000322450 ENSP00000287022 ENSP00000276689 ENSP00000317780 ENSP00000268668 ENSP00000215565 ENSP00000362873 ENSP00000330737 ENSP00000296684 ENSP00000263774 ENSP00000306397 ENSP00000377772 ENSP00000369176 ENSP00000330937 ENSP00000274137 ENSP00000410600 ENSP00000362060 ENSP00000311930 ENSP00000281031 ENSP00000360492 ENSP00000330787 ENSP00000297564 ENSP00000253452 ENSP00000354876 ENSP00000354665 ENSP00000229379 ENSP00000354982 ENSP00000354728 ENSP00000355206 ENSP00000321260 ENSP00000354687 ENSP00000354499 ENSP00000354813 ENSP00000354961 ENSP00000355046 ENSP00000354554 ENSP00000252102 ENSP00000247655 ENSP00000317159 ENSP00000410055 ENSP00000332887
dominio_senal
interaccionPP
dominio_helice
gen_longitud_baja
gen_longitud_alta
predicados
Figura F.1: Mapa de agrupaci on de prote nas por propiedades simples. Se incluyen prote nas de la ruta original y predichas por ERR (con el sujo >> ERR << en las etiquetas de las las). No hay predichas por Glaab et al. Cada propiedad simple se representa con un predicado l ogico (cada columna). Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0). Se usan los identicadores de UniProt. Ruta Cadena de transporte de electrones.
protenas
213
Mantenimiento del Telmero

PIAS4_HUMAN>>ERR<< CSN4_HUMAN>>ERR<< APBP2_HUMAN>>ERR<< RFA1_HUMAN DPOA2_HUMAN DTX1_HUMAN>>ERR<< DPOE2_HUMAN ACD_HUMAN TINF2_HUMAN PCNA_HUMAN HPGDS_HUMAN>>ERR<< RFA3_HUMAN DPOD3_HUMAN DNLI1_HUMAN PRI1_HUMAN FEN1_HUMAN TE2IP_HUMAN H4_HUMAN DPOD4_HUMAN DKC1_HUMAN TERT_HUMAN DPOD2_HUMAN RFC2_HUMAN POTE1_HUMAN DPOE1_HUMAN DPOD1_HUMAN DNA2L_HUMAN DPOLA_HUMAN TERF1_HUMAN RFC1_HUMAN PRI2_HUMAN
interaccionPP
dominio_senal
dominio_helice
gen_longitud_baja
gen_longitud_alta
predicados
Figura F.2: Mapa de agrupaci on de prote nas por propiedades simples. Se incluyen prote nas de la ruta original y predichas por ERR (con el sujo >> ERR << en las etiquetas de las las). No hay predichas por Glaab et al. Cada propiedad simple se representa con un predicado l ogico (cada columna). Para cada prote na, el amarillo representa que la propiedad es cierta (1) y el rojo que es falsa (0). Se usan los identicadores de UniProt. Ruta Mantenimiento del tel omero.
protenas
214
F. Mapas de Agrupaci on de Prote nas por Propiedades Simples
Ap endice G
Figuras Interpretaci on Extensi on Rutas con Sistema ERR-PRyC

Tamao Ruta
18-S ealizacin PDGF 09-Trans mis in S inptica 22-Orientacin Axn 17-Proces amiento ARNm 01-S ealizacin Rho GTP 36-Mantenimiento Telmero 13-S ealizacin Opioides 05-Metabol.Vitam.YCofact. 02-S ealizacin Wnt 23-S is t.Adhes in Cel-Cel 04-Trfico Membrana 24-Reparacin ADN 08-Interac.Integrinas S up.Cel. 03-S ealizacin NGF 19-Metabol.Nucletidos 26-Metabol.Carbohidratos 29-Metabol.Lpidos 25-Replicacin ADN 06-Metabol.Aminocidos 32-Infeccin VIH 37-S ealizacin EGFR 07-Oxidaciones Biolgicas 30-Hemos tas ia 15-Rutas Diabetes 27-S ealizacin Ins ulina 34-S ealizacin S is t.Inmune 11-Integr. Metabol. Energa 28-Apoptos is 16-Trans porte trans membrana 12-Ciclo Celular, Mittica 20-Metabol.Protenas 14-Control Ciclo Celular 21-Trans cripcin 33-Cadena Trans p. Electrones 10-S ealizacin GPCR 31-Infeccin Gripe 35-Expres in Gnica 0 100 200 300 400 500 600 700
Rutas (ordenadas por AUPRC creciente)
N Protenas
Tamao ruta original
Tamao ruta no redundante
Figura G.1: An alisis de rendimiento frente a tama no de ruta. Sistema ERR-PRyC. Rutas ordenadas de arriba a abajo, de menor a mayor AUPRC. Las barras verdes representan la cantidad de prote nas de la ruta original, y las barras naranjas la cantidad de prote nas tras eliminar las redundantes entre s (las que se usan en el aprendizaje).
215
216
G. Figuras Interpretaci on con Sistema ERR-PRyC
Figura G.2: An alisis de predicados relevantes en el aprendizaje. Los c rculos rojos (izquierda) representan una propiedad relevante por s misma. Los c rculos morados (derecha) representan una propiedad relevante en combinaci on con otras. Las rutas (las) est an ordenadas, de abajo a arriba, de mejor a peor AUPRC, seg un el sistema. Sistema ERR-PRyC.
217
(a) Orden por similitud creciente.
(b) Orden por AUPRC creciente.
Figura G.3: Similitud de anotaci on funcional entre prote nas de la ruta original y prote nas a nadidas (por predicci on y aleatoriamente). Sistema ERR-PRyC. Las rutas sin extensi on no se representan. (a) Rutas ordenadas por similitud creciente en el grupo de predicciones. Cada punto representa la similitud absoluta de las prote nas a nadidas a la ruta original. (b) Rutas ordenadas por AUPRC creciente en el grupo de predicciones. Cada punto representa la diferencia de similitud a la ruta original entre las prote nas predichas y las prote nas aleatorias (Sim.PredichasSim.Aleatorias) para esa ruta. As , la l nea roja representa la inexistencia de mejora de las predicciones frente a la aleatoriedad, en t erminos de similitud.
218
Figura G.4: Similitud de anotaci on funcional entre prote nas de la ruta original y las prote nas a nadidas (ERR-PRyC y Glaab et al.) y entre ambos sistemas de extensi on.
219
Figura G.5: Comparaci on de frecuencia de predicados simples por ruta. Sistema ERR-PRyC. Los c rculos izquierdos/rojos representan la frecuencia en las prote nas de las rutas originales, los c rculos centrales/azules la frecuencia en las prote nas predichas por el sistema ERR-PDR, y los c rculos derechos/verdes la frecuencia en las prote nas expandidas por el m etodo Glaab et al.
220
Ap endice H
Resumen de Resultados Extensi on Rutas para Comparaci on. Varios Sistemas

nrutas (total/ >1regla) 16 / 6 nprote nas a nadidas (total/ %dif.) 254 / 86,22 %
AUPRC 0,1559
AUROC 0,7063
Figura H.1: Resumen de resultados s olo con interacciones PP (sin complejos).
221
222
H. Resumen de Resultados Extensi on Rutas. Varios Sistemas
AUPRC 0,1331
AUROC 0,6635
Figura H.2: Resumen de resultados s olo con complejos (sin interacciones PP).
onimos Acr
AA AAP AAR ADN AFPP AODE ARN ATP AUC AUPRC AUROC BLAST CI E/R EGFR ERC ERR ERR-PDR ERR-PRyC FN FP GC (m etodo) GF (m etodo) GO GO-BP GO-MF GO-CC GPCR GTP Aprendizaje Autom atico Aprendizaje Autom atico Proposicional Aprendizaje Autom atico Relacional Acido DesoxirriboNucleico Asociaci on/es Funcional/es entre Pares de Prote nas Promedio de estimadores con una dependencia (del ingl es, Averaged OneDependence Estimators) Acido RiboNucleico Adenos n Trifosfato (del ingl es, Adenosine TriPhosphate) Area bajo la curva (del ingl es, Area Under Curve) Area bajo la curva PR (del ingl es, Area Under PR Curve) Area bajo la curva ROC (del ingl es, Area Under ROC Curve) Herramienta de b usqueda de alineamientos de secuencia de forma local (del ingl es, Basic Local Alignment Search Tool) Clasicadores Individuales por clase Entidad-Relaci on (modelo) Receptor del factor de crecimiento epid ermico (del ingl es, Epidermal Growth Factor Receptor) Constante aleatoria ef mera (del ingl es, Ephemeral Random Constant) Extensi on basada en Representaci on Relacional Extensi on basada en Representaci on Relacional que Prioriza la Diversidad de Reglas Extensi on basada en Representaci on Relacional que Prioriza el Rendimiento y la Cobertura Falsos Positivos (del ingl es, False Negatives) Falsos Positivos (del ingl es, False Positives) Conservaci on de genes adyacentes (del ingl es, Gene Context) Eventos de fusi on de genes (del ingl es, Gene Fusion) Ontolog a G enica (del ingl es, Gene Ontology) Ontolog a G enica de Proceso Biol ogico (del ingl es, Gene OntologyBiological Process) Ontolog a G enica de Funci on Molecular (del ingl es, Gene OntologyMolecular Function) Ontolog a G enica de Componente Celular (del ingl es, Gene OntologyCellular Component) Receptor acoplado a prote nas G (del ingl es, G Protein-Coupled Receptor) Guanos n Trifosfato (del ingl es, Guanosine TriPhosphate) 223
224 I2H (m etodo) ILP IPP MC MCC MT (m etodo) NGF ORC PDGF PG PP (m etodo) PR (curva) ROC (curva) SNP TERC TERT TN TP VIH
ACRONIMOS Mutaciones correlacionadas (del ingl es, In Silico Two-Hybrid) Programaci on L ogica Inductiva (del ingl es, Inductive Logic Programming) Interacci on/es Prote na-Prote na (tambi en aparece como interacciones PP) Multi-Clasicador Coeciente de Correlaci on de Matthews (del ingl es, Matthews Correlation Coefcient) rboles logen Similitud de a eticos (del ingl es, MirrorTree) Factor de crecimiento nervioso (del ingl es, Nerve Growth Factor) Complejo de reconocimiento de los sitios de origen de la replicaci on (del ingl es, Origin Recognition Complex) Factor de crecimiento derivado de plaquetas (del ingl es, Platelet-Derived Growth Factor) Programaci on Gen etica Perles logen eticos (del ingl es, Phylogenetic Proles) Precisi on-Sensibilidad (del ingl es, Precision-Recall) Caracter stica operativa del receptor (del ingl es, Receiver Operating Characteristic) Polimorsmos de nucle otidos aislados (del ingl es, Single Nucleotide Polymorphisms) Componente ARN de la telomerasa (del ingl es, Telomerase RNA Component) Transcriptasa inversa de la telomerasa (del ingl es, Telomerase Reverse Transcriptase) Verdaderos Negativos (del ingl es, True Negatives) Verdaderos Positivos (del ingl es, True Positives) Virus de Inmunodeciencia Humana
Bibliograf a
Adriaens, M. E., Jaillard, M., Waagmeester, A., Coort, S. L. M., Pico, A. R., and Evelo, C. T. A. (2008). The public road to high-quality curated biological pathways. Drug Discovery Today, 13(19-20):856862. Aebersold, R. (2005). Molecular Systems Biology: a new journal for a new biology? Molecular Systems Biology, 1. Agrawal, R., Imieli nski, T., and Swami, A. (1993). Mining association rules between sets of items in large databases. In Proceedings of the ACM SIGMOD international conference on Management of data, pages 207216. ACM. Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., and Verkamo, A. I. (1996). Fast Discovery of Association Rules, pages 307328. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules in large databases. In Proceedings of the 20th International Conference on Very Large Data Bases, pages 487499. Morgan Kaufmann. Aha, D. W., Kibler, D., and Albert, M. K. (1991). Instance-based learning algorithms. Machine Learning, 6(1):3766. Aittokallio, T. and Schwikowski, B. (2006). Graph-based methods for analysing networks in cell biology. Briengs in Bioinformatics, 7(3):243255. Al-Shahib, A., Breitling, R., and Gilbert, D. (2005). Feature selection and the class imbalance problem in predicting protein function from sequence. Applied Bioinformatics, 4(3):195 203. Al-Shahrour, F., Minguez, P., Tarraga, J., Montaner, D., Alloza, E., Vaquerizas, J. M., Conde, L., Blaschke, C., Vera, J., and Dopazo, J. (2006). BABELOMICS: a systems biology perspective in the functional annotation of genome-scale experiments. Nucleic Acids Research, 34(suppl 2):W472476. Albert, R. (2005). Scale-free networks in cell biology. Journal of Cell Science, 118(21):4947 4957. Alfarano, C., Andrade, C. E., Anthony, K., Bahroos, N., Bajec, M., Bantoft, K., Betel, D., Bobechko, B., Boutilier, K., Burgess, E., Buzadzija, K., Cavero, R., DAbreo, C., Donaldson, I., Dorairajoo, D., Dumontier, M. J., Dumontier, M. R., Earles, V., Farrall, R., Feldman, H., Garderman, E., Gong, Y., Gonzaga, R., Grytsan, V., Gryz, E., Gu, V., Haldorsen, E., Halupa, 225
226
BIBLIOGRAFIA
A., Haw, R., Hrvojic, A., Hurrell, L., Isserlin, R., Jack, F., Juma, F., Khan, A., Kon, T., Konopinsky, S., Le, V., Lee, E., Ling, S., Magidin, M., Moniakis, J., Montojo, J., Moore, S., Muskat, B., Ng, I., Paraiso, J. P., Parker, B., Pintilie, G., Pirone, R., Salama, J. J., Sgro, S., Shan, T., Shu, Y., Siew, J., Skinner, D., Snyder, K., Stasiuk, R., Strumpf, D., Tuekam, B., Tao, S., Wang, Z., White, M., Willis, R., Wolting, C., Wong, S., Wrong, A., Xin, C., Yao, R., Yates, B., Zhang, S., Zheng, K., Pawson, T., Ouellette, B. F. F., and Hogue, C. W. V. (2005). The Biomolecular Interaction Network Database and related tools 2005 update. Nucleic Acids Research, 33(suppl 1):418424. Allen, J. E., Pertea, M., and Salzberg, S. L. (2004). Computational gene prediction using multiple sources of evidence. Genome Research, 14(1):142148. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215(3):403410. Altschul, S. F., Madden, T., Schaffer, A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Research, 25(17):33893402. Arifuzzaman, M., Maeda, M., Itoh, A., Nishikata, K., Takita, C., Saito, R., Ara, T., Nakahigashi, K., Huang, H.-C., Hirai, A., Tsuzuki, K., Nakamura, S., Altaf-Ul-Amin, M., Oshima, T., Baba, T., Yamamoto, N., Kawamura, T., Ioka-Nakamichi, T., Kitagawa, M., Tomita, M., Kanaya, S., Wada, C., and Mori, H. (2006). Large-scale identication of protein-protein interaction of Escherichia coli K-12. Genome Research, 16(5):686691. Arma nanzas, R., Larra naga, P., and Bielza, C. (2012). Ensemble transcript interaction networks: A case study on Alzheimers disease. Computer Methods and Programs in Biomedicine, in Press. Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis, A. P., Dolinski, K., Dwight, S. S., Eppig, J. T., Harris, M. A., Hill, D. P., Issel-Tarver, L., Kasarskis, A., Lewis, S., Matese, J. C., Richardson, J. E., Ringwald, M., Rubin, G. M., and Sherlock, G. (2000). Gene Ontology: tool for the unication of biology. The Gene Ontology Consortium. Nature Genetics, 25(1):2529. Assenov, Y., Ram rez, F., Schelhorn, S.-E., Lengauer, T., and Albrecht, M. (2008). Computing topological parameters of biological networks. Bioinformatics, 24(2):282284. Attwood, T. K. (2002). The PRINTS database: A resource for identication of protein families. Briengs in Bioinformatics, 3(3):252263. Bader, G. D., Cary, M. P., and Sander, C. (2006). Pathguide: a pathway resource list. Nucleic Acids Research, 34(suppl 1):D504D506. Bader, S., K uhner, S., and Gavin, A.-C. (2008). Interaction networks for systems biology. FEBS Letters, 582(8):12201224. Bailey, D. and OHare, P. (2005). Comparison of the SUMO1 and ubiquitin conjugation pathways during the inhibition of proteasome activity with evidence of SUMO1 recycling. Biochemical Journal, 392(2):271281. Bairoch, A. (2000). The ENZYME database in 2000. Nucleic Acids Research, 28(1):304305.
BIBLIOGRAFIA
227
Baldi, P. and Brunak, S. (2001). Bioinformatics: The Machine Learning Approach. Bradford Books, Cambridge, Massachusetts, U.S.A., Massachusetts. Baldi, P., Brunak, S., Chauvin, Y., Andersen, C. A. F., and Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classication: an overview. Bioinformatics, 16(5):412 424. Bandyopadhyay, S., Maulik, U., and Wang, J. T. L. (2007). Analysis of biological data. A soft computing approach., volume 3. World Scientic, Singapore. Bao, L. and Cui, Y. (2005). Prediction of the phenotypic effects of non-synonymous single nucleotide polymorphisms using structural and evolutionary information. Bioinformatics, 21(10):21852190. Barabasi, A. L. and Bonabeau, E. (2003). Scale-free networks. Scientic American, 288(5):60 69. Barabasi, A.-L. and Oltvai, Z. N. (2004). Network biology: understanding the cells functional organization. Nature Reviews. Genetics, 5(2):101113. Baudot, A., Martin, D., Mouren, P., Chevenet, F., Guenoche, A., Jacq, B., and Brun, C. (2006). PRODISTIN Web Site: a tool for the functional classication of proteins from interaction networks. Bioinformatics, 22(2):248250. Bendtsen, J. D., Jensen, L. J., Blom, N., von Heijne, G., and Brunak, S. (2004). Feature-based prediction of non-classical and leaderless protein secretion. Protein Engineering Design and Selection, 17(4):349356. Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalov, I. N., and Bourne, P. E. (2000). The Protein Data Bank. Nucleic Acids Research, 28(1):235 242. Biggs, N., Lloyd, E. K., and Wilson, R. J. (1986). Graph Theory, 1736-1936. Clarendon Press, New York, NY, USA. Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford University Press, New York. Blockeel, H. (1998). Top-Down Induction of First Order Logical Decision Trees. PhD thesis, Informatics Section, Department of Computer Science, Faculty of Engineering. Blockeel, H., Dehaspe, L., Demoen, B., Janssens, G., Ramon, J., and Vandecasteele, H. (2000). Executing query packs in ILP. In Proceedings of the 10th International Conference on Inductive Logic Programming, volume 1866 of Lecture Notes in Articial Intelligence, pages 6077. Springer. Blockeel, H., Dehaspe, L., Ramon, J., Struyf, J., Assche, A. V., Vens, C., and Fierens, D. (2006a). The ACE data mining system. Users manual. Blockeel, H. and Dzeroski, S. (1999). Experiments with TILDE in the river water quality domain. Technical report, Institut J. Stefan, Ljubljana.
228
BIBLIOGRAFIA
Blockeel, H., Dzeroski, S., and Grbovic, J. (1999). Simultaneous prediction of multiple chemical parameters of river water quality with TILDE. In Proceedings of the Third European Conference on Principles of Data Mining and Knowledge Discovery, volume 1704 of Lecture Notes in Articial Intelligence, pages 3240. Springer. Blockeel, H., Leander, S., Struyf, J., Dzeroski, S., and Clare, A. (2006b). Decision trees for hierarchical multilabel classication: A case study in functional genomics. In Proceedings of the 10th European Conference on Principles and Practice of Knowledge Discovery in Databases, volume 4213, pages 1829. Springer. Blockeel, H., Page, D., and Srinivasan, A. (2005). Multi-instance tree learning. In Proceedings of the 22nd International Conference on Machine Learning, pages 5764. Blockeel, H. and Raedt, L. D. (1998). Top-down induction of logical decision trees. Articial Intelligence, 101 (1-2):285297. Blockeel, H., Raedt, L. D., and Ramon, J. (1998). Top-down induction of clustering trees. In Proceedings of the 15th International Conference on Machine Learning, pages 5563. Morgan Kaufmann. Borrajo, D., Gonzalez, J., and Isasi, P. (2006). Aprendizaje Automatico. Sanz Y Torres, Madrid. Bouckaert, R. R. (2004). Bayesian Network Classiers in Weka. Technical report, University of Waikato. Bowers, P., Cokus, S., Eisenberg, D., and Yeates, T. (2004). Use of logic relationships to decipher protein network organization. Science, 306(5705):22462249. Bratko, I. (2001). Prolog Programming for Articial Intelligence. Addison Wesley, Harlow, England. Breiman, L. (2001). Random Forests. Machine Learning, 45(1):532. Breiman, L., Friedman, J., Stone, C., and Olshen, R. A. (1984). Classication and Regression Trees. Chapman and Hall/CRC. Brun, C., Chevenet, F., Martin, D., Wojcik, J., Guenoche, A., and Jacq, B. (2003). Functional classication of proteins for the prediction of cellular function from a protein-protein interaction network. Genome Biology, 5(1):R6. Butland, G., Peregrin-Alvarez, J. M., Li, J., Yang, W., Yang, X., Canadien, V., Starostine, A., Richards, D., Beattie, B., Krogan, N., Davey, M., Parkinson, J., Greenblatt, J., and Emili, A. (2005). Interaction network containing conserved and essential protein complexes in Escherichia coli. Nature, 433(7025):531537. Cary, M. P., Bader, G. D., and Sander, C. (2005). Pathway information for systems biology. FEBS Letters, 579(8):18151820. Caspi, R., Altman, T., Dale, J. M., Dreher, K., Fulcher, C. A., Gilham, F., Kaipa, P., Karthikeyan, A. S., Kothari, A., Krummenacker, M., Latendresse, M., Mueller, L. A., Paley, S., Popescu, L., Pujar, A., Shearer, A. G., Zhang, P., and Karp, P. D. (2010). The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Research, 38(suppl 1):D473D479.
BIBLIOGRAFIA
229
Catanzaro, D., Pesenti, R., and Milinkovitch, M. C. (2007). An ant colony optimization algorithm for phylogenetic estimation under the minimum evolution principle. BMC Evolutionary Biology, 7:228. Causier, B. (2004). Studying the interactome with the yeast two-hybrid system and mass spectrometry. Mass Spectrometry Reviews, 23(5):350367. Cawley, S. L. and Pachter, L. (2003). HMM sampling and applications to gene nding and alternative splicing. Bioinformatics, 19(suppl 2):ii36ii41. Cerami, E. G., Gross, B. E., Demir, E., Rodchenkov, I., Babur, O., Anwar, N., Schultz, N., Bader, G. D., and Sander, C. (2011). Pathway Commons, a web resource for biological pathway data. Nucleic Acids Research, 39(suppl 1):D685D690. Chagoyen, M. and Pazos, F. (2010). Quantifying the biological signicance of gene ontology biological processes - implications for the analysis of systems-wide data. Bioinformatics, 26(3):378384. Chakrabarti, D. and Faloutsos, C. (2006). Graph mining: Laws, generators, and algorithms. ACM Computing Surveys, 38(1):2. Chatr-aryamontri, A., Ceol, A., Palazzi, L. M., Nardelli, G., Schneider, M. V., Castagnoli, L., and Cesareni, G. (2007). MINT: the Molecular INTeraction database. Nucleic Acids Research, 35(suppl 1):D572574. Che, D., Liu, Q., Rasheed, K., and Tao, X. (2011). Decision tree and ensemble learning algorithms with their applications in bioinformatics. Advances in Experimental Medicine and Biology, 696:191199. Chen, J., Kelley, L. A., Muggleton, S., and Sternberg, M. J. E. (2008). Protein fold discovery using stochastic logic programs. In Proceedings of the Probabilistic Inductive Logic Programming, volume 4911 of Lecture Notes in Articial Intelligence, pages 244262. Chen, J. J. (2007). Key aspects of analyzing microarray gene-expression data. Pharmacogenomics, 8(5):473482. Cherry, J., Adler, C., Ball, C., Chervitz, S., Dwight, S., Hester, E., Jia, Y., Juvik, G., Roe, T., Schroeder, M., Weng, S., and Botstein, D. (1998). SGD: Saccharomyces Genome Database. Nucleic Acids Research, 26(1):7379. Cho, K. H., Choo, S. M., Jung, S. H., Kim, J. R., Choi, H. S., and Kim, J. (2007). Reverse engineering of gene regulatory networks. IET Systems Biology, 1(3):149163. Chua, H. N., Sung, W.-K., and Wong, L. (2006). Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions. Bioinformatics, 22(13):16231630. Clare, A. (2003). Machine learning and data mining for yeast functional genomics. PhD thesis, University of Wales Aberystwyth. Clare, A., Karwath, A., Ougham, H., and King, R. D. (2006). Functional bioinformatics for Arabidopsis thaliana. Bioinformatics, 22(9):11301136.
230
BIBLIOGRAFIA
Clare, A. and King, R. D. (2003). Data mining the yeast genome in a lazy functional language. In Proceedings of the 5th International Symposium Practical Aspects of Declarative Languages, volume 2562 of Lecture Notes in Computer Science, pages 1936. Springer. Clark, P. and Niblett, T. (1989). The CN2 induction algorithm. Machine Learning, 3(4):261 283. Cleary, J. G. and Trigg, L. E. (1995). K*: an instance-based learner using an entropic distance measure. In Proceedings of the 12th International Conference on Machine Learning, pages 108114. Morgan Kaufmann. Consortium, T. U. (2011). Ongoing and future developments at the Universal Protein Resource. Nucleic Acids Research, 39(suppl 1):D214D219. Cooper, G. F. and Herskovits, E. (1992). A bayesian method for the induction of probabilistic networks from data. Machine Learning, 9(4):309347. Cramer, P., Bushnell, D. A., Fu, J., Gnatt, A. L., Maier-Davis, B., Thompson, N. E., Burgess, R. R., Edwards, A. M., David, P. R., and Kornberg, R. D. (2000). Architecture of RNA polymerase II and implications for the transcription mechanism. Science, 288(5466):640 649. Cussens, J. (2001). Parameter estimation in stochastic logic programs. Machine Learning, 44(3):245271. Dandekar, T., Snel, B., Huynen, M., and Bork, P. (1998). Conservation of gene order: a ngerprint of proteins that physically interact. Trends in Biochemical Sciences, 23(9):324 328. Davis, J. and Goadrich, M. (2006). The relationship between Precision-Recall and ROC curves. In Proceedings of the 23rd International Conference on Machine learning, pages 233240. ACM. de Miguel Casta no, A., Velthuis, M. G. P., and Mart nez, E. M. (1999). Dise no de bases de datos relacionales. Ra-Ma, Madrid. Dehaspe, L. and Raedt, L. D. (1997). Mining association rules in multiple relations. In Proceedings of the 7th International Workshop on Inductive Logic Programming, pages 125 132. Springer. Demir, E., Cary, M. P., Paley, S., Fukuda, K., Lemer, C., Vastrik, I., Wu, G., DEustachio, P., Schaefer, C., Luciano, J., Schacherer, F., Martinez-Flores, I., Hu, Z., Jimenez-Jacinto, V., Joshi-Tope, G., Kandasamy, K., Lopez-Fuentes, A., Mi, H., Pichler, E., Rodchenkov, I., Splendiani, A., Tkachev, S., Zucker, J., Gopinath, G., Rajasimha, H., Ramakrishnan, R., Shah, I., Syed, M., Anwar, N., Babur, O., Blinov, M., Brauner, E., Corwin, D., Donaldson, S., Gibbons, F., Goldberg, R., Hornbeck, P., Luna, A., Murray-Rust, P., Neumann, E., Reubenacker, O., Samwald, M., van Iersel, M., Wimalaratne, S., Allen, K., Braun, B., WhirlCarrillo, M., Cheung, K.-H., Dahlquist, K., Finney, A., Gillespie, M., Glass, E., Gong, L., Haw, R., Honig, M., Hubaut, O., Kane, D., Krupa, S., Kutmon, M., Leonard, J., Marks, D., Merberg, D., Petri, V., Pico, A., Ravenscroft, D., Ren, L., Shah, N., Sunshine, M., Tang, R., Whaley, R., Letovksy, S., Buetow, K. H., Rzhetsky, A., Schachter, V., Sobral, B. S., Dogrusoz, U., McWeeney, S., Aladjem, M., Birney, E., Collado-Vides, J., Goto, S., Hucka,
BIBLIOGRAFIA
231
M., Novere, N. L., Maltsev, N., Pandey, A., Thomas, P., Wingender, E., Karp, P. D., Sander, C., and Bader, G. D. (2010). The BioPAX community standard for pathway data sharing. Nature Biotechnology, 28(9):935942. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society. Series B. Methodological, 39(1):138. Dennis, G., Sherman, B., Hosack, D., Yang, J., Gao, W., Lane, H. C., and Lempicki, R. (2003). DAVID: Database for Annotation, Visualization, and Integrated Discovery. Genome Biology, 4(5):P3. Dietterich, T. G., Lathrop, R. H., and Lozano-P erez, T. (1997). Solving the multiple instance problem with axis-parallel rectangles. Articial Intelligence, 89(1-2):3171. Do, C. B. and Katoh, K. (2008). Protein multiple sequence alignment. Methods in Molecular Biology, 484:379413. Domingos, P., Kok, S., Poon, H., Richardson, M., and Singla, P. (2006). Unifying logical and statistical AI. In Proceedings of the 21th National Conference on Articial Intelligence, pages 27. Drummond, C. and Holte, R. C. (2006). Cost curves: An improved method for visualizing classier performance. Machine Learning, 65(1):95130. Dzeroski, S. (2003). Multi-relational data mining: an introduction. Newsletter, 5(1):116. Dzeroski, S. and Lavrac, N. (2001). Relational Data Mining. Springer. Dzeroski, S., Raedt, L. D., and Driessens, K. (2001). Relational reinforcement learning. Machine Learning, 43(1/2):752. Emanuelsson, O., Nielsen, H., and Heijne, G. V. (1999). ChloroP, a neural network-based method for predicting chloroplast transit peptides and their cleavage sites. Protein Science, 8(5):978984. Emde, W. and Wettschereck, D. (1996). Relational instance-based learning. In Proceedings of the 13th International Conference on Machine Learning, pages 122130. Enright, A., Iliopoulos, I., Kyrpides, N., and Ouzounis, C. A. (1999). Protein interaction maps for complete genomes based on gene fusion events. Nature, 402(6757):8690. Fawcett, T. (2003). ROC Graphs: Notes and Practical Considerations for Data Mining Researchers. Technical report, HP Laboratories. Fields, S. and kyu Song, O. (1989). A novel genetic system to detect protein-protein interactions. Nature, 340(6230):245246. Finn, R. D., Mistry, J., Tate, J., Coggill, P., Heger, A., Pollington, J. E., Gavin, O. L., Gunasekaran, P., Ceric, G., Forslund, K., Holm, L., Sonnhammer, E. L. L., Eddy, S. R., and Bateman, A. (2010). The Pfam protein families database. Nucleic Acids Research, 38(suppl 1):D211222. SIGKDD Explorer
232
BIBLIOGRAFIA
Flicek, P., Aken, B. L., Ballester, B., Beal, K., Bragin, E., Brent, S., Chen, Y., Clapham, P., Coates, G., Fairley, S., Fitzgerald, S., Fernandez-Banet, J., Gordon, L., Graf, S., Haider, S., Hammond, M., Howe, K., Jenkinson, A., Johnson, N., Kahari, A., Keefe, D., Keenan, S., Kinsella, R., Kokocinski, F., Koscielny, G., Kulesha, E., Lawson, D., Longden, I., Massingham, T., McLaren, W., Megy, K., Overduin, B., Pritchard, B., Rios, D., Rufer, M., Schuster, M., Slater, G., Smedley, D., Spudich, G., Tang, Y. A., Trevanion, S., Vilella, A., Vogel, J., White, S., Wilder, S. P., Zadissa, A., Birney, E., Cunningham, F., Dunham, I., Durbin, R., Fernandez-Suarez, X. M., Herrero, J., Hubbard, T. J. P., Parker, A., Proctor, G., Smith, J., and Searle, S. M. J. (2010). Ensembls 10th year. Nucleic Acids Research, 38(suppl 1):D557562. Fogel, G. B. (2008). Computational intelligence approaches for pattern discovery in biological systems. Briengs in Bioinformatics, 9(4):307316. Frank, E. and Witten, I. H. (1998). Generating accurate rule sets without global optimization. In Proceedings of the 15th International Conference on Machine Learning, pages 144151. Morgan Kaufmann Publishers Inc. Fraser, H. B., Hirsh, A. E., Wall, D. P., and Eisen, M. B. (2004). Coevolution of gene expression among interacting proteins. Proceedings of the National Academy of Sciences of the United States of America, 101(24):90339038. Freund, Y. and Mason, L. (1999). The Alternating Decision Tree Learning Algorithm. In Proceedings of the 16th International Conference on Machine Learning, pages 124133. Morgan Kaufmann Publishers Inc. Friedberg, I. (2006). Automated protein function prediction - the genomic challenge. Briengs in Bioinformatics, 7(3):225242. Friedman, N., Geiger, D., and Goldszmidt, M. (1997). Bayesian Network Classiers. Machine Learning, 29(2-3):131163. Frohlich, H., Fellmann, M., S ultmann, H., Poustka, A., and Beissbarth, T. (2008). Predicting pathway membership via domain signatures. Bioinformatics, 24(19):21372142. Gabald on, T. and Huynen, M. A. (2004). Prediction of protein function and pathways in the genome era. Cellular and Molecular Life Sciences, 61(7):930944. Galperin, M. Y. and Fern andez-Su arez, X. M. (2011). The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection. Nucleic Acids Research. Garc a-Jim enez, B., Aler, R., Ledezma, A., and Sanchis, A. (2008a). Genetic Programming for predicting protein networks. In Proceedings of the 11th Ibero-American Conference on Articial Intelligence, IBERAMIA, volume 5290 of Lecture Notes in Articial Intelligence, pages 432441. Springer. Garc a-Jim enez, B., Aler, R., Ledezma, A., and Sanchis, A. (2008b). Protein-protein functional association prediction using Genetic Programming. In Proceedings of the International Conference on Genetic and Evolutionary Computation, GECCO, pages 347348. ACM.
BIBLIOGRAFIA
233
Garc a-Jim enez, B., Juan, D., Ezkurdia, I., Andr es-Le on, E., and Valencia, A. (2010a). Inference of functional relations in predicted protein networks with a machine learning approach. PLoS ONE, 5(4):e9969. Garc a-Jim enez, B., Ledezma, A., and Sanchis, A. (2009). Modular Multi-Relational Framework for gene group function prediction. In Proceedings of the 19th International Conference on Inductive Logic Programming. Poster. Garc a-Jim enez, B., Ledezma, A., and Sanchis, A. (2010b). S.cerevisiae complex function prediction with Modular Multi-Relational Framework. In Proceedings of the 23rd International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems, IEA-AIE, volume 6098 of Lecture Notes in Articial Intelligence, pages 8291. Garc a-Pedrajas, N. and de Haro Garc a, A. (2008). Output Coding Methods: Review and Experimental Comparison, pages 327344. Pattern Recognition Techniques, Technology and Applications. InTech, Austria. Gasteiger, E., Hoogland, C., Gattiker, A., Duvaud, S., Wilkins, M., Appel, R., and Bairoch, A. (2005). Protein Identication and Analysis Tools on the ExPASy Server, pages 571607. The Proteomics Protocols Handbook. Humana Press. Gavin, A.-C., Bosche, M., Krause, R., Grandi, P., Marzioch, M., Bauer, A., Schultz, J., Rick, J. M., Michon, A.-M., Cruciat, C.-M., Remor, M., Hofert, C., Schelder, M., Brajenovic, M., Ruffner, H., Merino, A., Klein, K., Hudak, M., Dickson, D., Rudi, T., Gnau, V., Bauch, A., Bastuck, S., Huhse, B., Leutwein, C., Heurtier, M.-A., Copley, R. R., Edelmann, A., Querfurth, E., Rybin, V., Drewes, G., Raida, M., Bouwmeester, T., Bork, P., Seraphin, B., Kuster, B., Neubauer, G., and Superti-Furga, G. (2002). Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature, 415(6868):141147. Gewehr, J. E., Szugat, M., and Zimmer, R. (2007). BioWeka extending the Weka framework for bioinformatics. Bioinformatics, 23(5):651653. Glaab, E., Baudot, A., Krasnogor, N., and Valencia, A. (2010). Extending pathways and processes using molecular interaction networks to analyse cancer genome data. BMC Bioinformatics, 11(1):597. Goesmann, A., Haubrock, M., Meyer, F., Kalinowski, J., and Giegerich, R. (2002). PathFinder: reconstruction and dynamic visualization of metabolic pathways. Bioinformatics, 18(1):124129. Griep, S. and Hobohm, U. (2010). PDBselect 1992-2009 and PDBlter-select. Nucleic Acids Research, 38(suppl 1):D318D319. Groisman, R., Polanowska, J., Kuraoka, I., ichi Sawada, J., Saijo, M., Drapkin, R., Kisselev, A. F., Tanaka, K., and Nakatani, Y. (2003). The ubiquitin ligase activity in the DDB2 and CSA complexes is differentially regulated by the COP9 signalosome in response to DNA damage. Cell, 113(3):357367. Gutmann, B. and Kersting, K. (2006). TildeCRF: Conditional Random Fields for Logical Sequences. In Proceedings of the 15th European Conference on Machine Learning, pages 174185.
234
BIBLIOGRAFIA
G omez, M. J., Pazos, F., Guijarro, F. J., de Lorenzo, V., and Valencia, A. (2007). The environmental fate of organic pollutants through the global microbial metabolism. Molecular Systems Biology, 3:114. Han, K., Park, B., Kim, H., Hong, J., and Park, J. (2004). HPID: The Human Protein Interaction Database. Bioinformatics, 20(15):24662470. Hardison, R. C. (2003). Comparative genomics. PLoS Biology, 1(2):e58. Harrow, J., Denoeud, F., Frankish, A., Reymond, A., Chen, C.-K., Chrast, J., Lagarde, J., Gilbert, J., Storey, R., Swarbreck, D., Rossier, C., Ucla, C., Hubbard, T., Antonarakis, S., and Guigo, R. (2006). GENCODE: producing a reference annotation for ENCODE. Genome Biology, 7(Suppl 1):S4. Hawkins, T. and Kihara, D. (2007). Function prediction of uncharacterized proteins. Journal of Bioinformatics and Computational Biology, 5(1):130. Herman, D., Ochoa, D., Juan, D., Lopez, D., Valencia, A., and Pazos, F. (2011). Selection of organisms for the co-evolution-based study of protein interactions. BMC Bioinformatics, 12(1):363. Hermjakob, H., Montecchi-Palazzi, L., Bader, G., Wojcik, J., Salwinski, L., Ceol, A., Moore, S., Orchard, S., Sarkans, U., von Mering, C., Roechert, B., Poux, S., Jung, E., Mersch, H., Kersey, P., Lappe, M., Li, Y., Zeng, R., Rana, D., Nikolski, M., Husi, H., Brun, C., Shanker, K., Grant, S. G. N., Sander, C., Bork, P., Zhu, W., Pandey, A., Brazma, A., Jacq, B., Vidal, M., Sherman, D., Legrain, P., Cesareni, G., Xenarios, I., Eisenberg, D., Steipe, B., Hogue, C., and Apweiler, R. (2004a). The HUPO PSIs molecular interaction format[mdash]a community standard for the representation of protein interaction data. Nature Biotechnology, 22(2):177 183. Hermjakob, H., Montecchi-Palazzi, L., Lewington, C., Mudali, S., Kerrien, S., Orchard, S., Vingron, M., Roechert, B., Roepstorff, P., Valencia, A., Margalit, H., Armstrong, J., Bairoch, A., Cesareni, G., Sherman, D., and Apweiler, R. (2004b). IntAct: an open source molecular interaction database. Nucleic Acids Research, 32(Database issue):4525. Ho, Y., Gruhler, A., Heilbut, A., Bader, G. D., Moore, L., Adams, S.-L., Millar, A., Taylor, P., Bennett, K., Boutilier, K., Yang, L., Wolting, C., Donaldson, I., Schandorff, S., Shewnarane, J., Vo, M., Taggart, J., Goudreault, M., Muskat, B., Alfarano, C., Dewar, D., Lin, Z., Michalickova, K., Willems, A. R., Sassi, H., Nielsen, P. A., Rasmussen, K. J., Andersen, J. R., Johansen, L. E., Hansen, L. H., Jespersen, H., Podtelejnikov, A., Nielsen, E., Crawford, J., Poulsen, V., Sorensen, B. D., Matthiesen, J., Hendrickson, R. C., Gleeson, F., Pawson, T., Moran, M. F., Durocher, D., Mann, M., Hogue, C. W. V., Figeys, D., and Tyers, M. (2002). Systematic identication of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature, 415(6868):180183. Hobohm, U., Scharf, M., Schneider, R., and Sander, C. (1992). Selection of representative protein data sets. Protein Science, 1(3):409417. Hochstrasser, M. (2009). 458(7237):422429. Origin and function of ubiquitin-like proteins. Nature,
BIBLIOGRAFIA
235
Hoffmann, R. and Valencia, A. (2004). A gene network for navigating the literature. Nature Genetics, 36(7):664. Horton, P. and Nakai, K. (1997). Better prediction of protein cellular localization sites with the k nearest neighbors classier. In Proceedings of the International Conference on Intelligent Systems for Molecular Biology, volume 5, pages 147152. Huang, H., Hu, Z. Z., Arighi, C. N., and Wu, C. H. (2007). Integration of bioinformatics resources for functional analysis of gene expression and proteomic data. Frontiers in Bioscience: a Journal and Virtual Library, 12:50715088. Hubbard, T. J. P., Aken, B. L., Ayling, S., Ballester, B., Beal, K., Bragin, E., Brent, S., Chen, Y., Clapham, P., Clarke, L., Coates, G., Fairley, S., Fitzgerald, S., Fernandez-Banet, J., Gordon, L., Graf, S., Haider, S., Hammond, M., Holland, R., Howe, K., Jenkinson, A., Johnson, N., Kahari, A., Keefe, D., Keenan, S., Kinsella, R., Kokocinski, F., Kulesha, E., Lawson, D., Longden, I., Megy, K., Meidl, P., Overduin, B., Parker, A., Pritchard, B., Rios, D., Schuster, M., Slater, G., Smedley, D., Spooner, W., Spudich, G., Trevanion, S., Vilella, A., Vogel, J., White, S., Wilder, S., Zadissa, A., Birney, E., Cunningham, F., Curwen, V., Durbin, R., Fernandez-Suarez, X. M., Herrero, J., Kasprzyk, A., Proctor, G., Smith, J., Searle, S., and Flicek, P. (2009). Ensembl 2009. Nucleic Acids Research, 37(suppl 1):690697. Huber, W., Carey, V. J., Long, L., Falcon, S., and Gentleman, R. (2007). Graphs in molecular biology. BMC Bioinformatics, 8 Suppl 6:S8. Hucka, M., Finney, A., Bornstein, B. J., Keating, S. M., Shapiro, B. E., Matthews, J., Kovitz, B. L., Schilstra, M. J., Funahashi, A., Doyle, J. C., and Kitano, H. (2004). Evolving a lingua franca and associated software infrastructure for computational systems biology: the Systems Biology Markup Language (SBML) project. Systems Biology, 1(1):4153. Hunter, S., Apweiler, R., Attwood, T. K., Bairoch, A., Bateman, A., Binns, D., Bork, P., Das, U., Daugherty, L., Duquenne, L., Finn, R. D., Gough, J., Haft, D., Hulo, N., Kahn, D., Kelly, E., Laugraud, A., Letunic, I., Lonsdale, D., Lopez, R., Madera, M., Maslen, J., McAnulla, C., McDowall, J., Mistry, J., Mitchell, A., Mulder, N., Natale, D., Orengo, C., Quinn, A. F., Selengut, J. D., Sigrist, C. J. A., Thimma, M., Thomas, P. D., Valentin, F., Wilson, D., Wu, C. H., and Yeats, C. (2009). InterPro: the integrative protein signature database. Nucleic Acids Research, 37(suppl 1):D211215. Ideker, T., Galitski, T., and Hood, L. (2001). A new approach to decoding life: Systems Biology. Annual Review of Genomics and Human Genetics, 2(1):343372. Ihara, M., Yamamoto, H., and Kikuchi, A. (2005). SUMO-1 modication of PIASy, an E3 ligase, is necessary for PIASy-dependent activation of Tcf-4. Molecular and Cellular Biology, 25(9):35063518. Inza, I., Calvo, B., Arma nanzas, R., Bengoetxea, E., Larra naga, P., and Lozano, J. A. (2010). Machine learning: an indispensable tool in bioinformatics. Methods in Molecular Biology, 593:2548. Ito, T., Chiba, T., Ozawa, R., Yoshida, M., Hattori, M., and Sakaki, Y. (2001). A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proceedings of the National Academy of Sciences, 98(8):45694574.
236
BIBLIOGRAFIA
Ivanovska, A., Vens, C., Colbach, N., Debeljak, M., and Dzeroski, S. (2008). The feasibility of co-existence between conventional and genetically modied crops: Using machine learning to analyse the output of simulation models. Ecological Modelling, 215(1-3):262271. Jansen, R. and Gerstein, M. (2004). Analyzing protein function on a genomic scale: the importance of gold-standard positives and negatives for network prediction. Current Opinion in Microbiology, 7(5):535545. Jassal, B. (2011). Pathway annotation and analysis with Reactome: the solute carrier class of membrane transporters. Human Genomics, 5(4):310315. Jensen, L. J. (2002). Prediction of Protein Function from Sequence Derived Protein Features. PhD thesis, Technical University of Denmark, Lyngby, Denmark. Jensen, L. J. and Bateman, A. (2011). The rise and fall of supervised machine learning techniques. Bioinformatics, 27(24):33313332. Jensen, L. J., Gupta, R., Blom, N., Devos, D., Tamames, J., Kesmir, C., Nielsen, H., Staerfeldt, H. H., Rapacki, K., Workman, C., Andersen, C. A., Knudsen, S., Krogh, A., Valencia, A., and Brunak, S. (2002a). Prediction of human protein function from post-translational modications and localization features. Journal of Molecular Biology, 319(5):12571265. Jensen, L. J., Gupta, R., Blom, N., Devos, D., Tamames, J., Kesmir, C., Nielsen, H., Staerfeldt, H. H., Rapacki, K., Workman, C., Andersen, C. A., Knudsen, S., Krogh, A., Valencia, A., and Brunak, S. (2002b). Prediction of human protein function from post-translational modications and localization features. Journal of Molecular Biology, 319(5):12571265. Jensen, L. J., Gupta, R., Staerfeldt, H. H., and Brunak, S. (2003a). Prediction of human protein function according to Gene Ontology categories. Bioinformatics, 19(5):635642. Jensen, L. J., Kuhn, M., Stark, M., Chaffron, S., Creevey, C., Muller, J., Doerks, T., Julien, P., Roth, A., Simonovic, M., Bork, P., and von Mering, C. (2009). STRING 8a global view on proteins and their functional interactions in 630 organisms. Nucleic Acids Research, 37(suppl 1):D412416. Jensen, L. J., Ussery, D. W., and Brunak, S. (2003b). Functionality of system components: Conservation of protein function in protein feature space. Genome Research, 13(11):2444 2449. Jiang, J. J. and Conrath, D. W. (1997). Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference Research on Computational Linguistics. John, G. H. and Langley, P. (1995). Estimating Continuous Distributions in Bayesian Classiers. In Proceedings of the 11th Conference on Uncertainty in Articial Intelligence, pages 338345. Morgan Kaufmann. Juan, D., Pazos, F., and Valencia, A. (2008). High-condence prediction of global interactomes based on genome-wide coevolutionary networks. Proceedings of the National Academy of Sciences, 105(3):934939.
BIBLIOGRAFIA
237
Juncker, A., Jensen, L. J., Pierleoni, A., Bernsel, A., Tress, M., Bork, P., von Heijne, G., Valencia, A., Ouzounis, C., Casadio, R., and Brunak, S. (2009). Sequence-based feature prediction and annotation of proteins. Genome Biology, 10(2):206. Junker, B. H. and Schreiber, F. (2008). Analysis of Biological Networks. Wiley. Kaelbling, L. P., Littman, M. L., and Moore, A. P. (1996). Reinforcement learning: A survey. Journal of Articial Intelligence Research, 4:237285. Kanehisa, M. and Goto, S. (2000). KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1):2730. Kanehisa, M., Goto, S., Hattori, M., Aoki-Kinoshita, K. F., Itoh, M., Kawashima, S., Katayama, T., Araki, M., and Hirakawa, M. (2006). From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Research, 34(Database issue):3547. Karp, P. D., Paley, S., and Romero, P. (2002). The Pathway Tools software. Bioinformatics, 18(suppl 1):S225S232. Kell, D. B. and Oliver, S. G. (2004). Here is the evidence, now what is the hypothesis? the complementary roles of inductive and hypothesis-driven science in the post-genomic era. BioEssays, 26(1):99105. Kemper, B., Matsuzaki, T., Matsuoka, Y., Tsuruoka, Y., Kitano, H., Ananiadou, S., and Tsujii, J. (2010). PathText: a text mining integrator for biological pathway visualizations. Bioinformatics, 26(12):i374i381. Keogh, E. J. (1999). Learning augmented bayesian classiers: A comparison of distributionbased and classication-based approaches. In Proceedings of the 7th International Workshop on Articial Intelligence and Statistics, pages 225230. Kersting, K. and Dick, U. (2004). Balios - the engine for bayesian logic programs. In Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases, volume 3202 of Lecture Notes in Computer Science, pages 549 551. Kersting, K., Raedt, L. D., and Raiko, T. (2006). Logical Hidden Markov Models. Journal of Articial Intelligence Research, 25:425456. Keseler, I. M., Collado-Vides, J., Gama-Castro, S., Ingraham, J., Paley, S., Paulsen, I. T., Peralta-Gil, M., and Karp, P. D. (2005). EcoCyc: a comprehensive database resource for Escherichia coli. Nucleic Acids Research, 33(Database issue):3347. Kim, J. H., Park, S. M., Kang, M. R., Oh, S. Y., Lee, T. H., Muller, M. T., and Chung, I. K. (2005). Ubiquitin ligase MKRN1 modulates telomere length homeostasis through a proteolysis of hTERT. Genes & Development, 19(7):776781. Kim, N. W., Piatyszek, M. A., Prowse, K. R., Harley, C. B., West, M. D., Ho, P. L., Coviello, G. M., Wright, W. E., Weinrich, S. L., and Shay, J. W. (1994). Specic association of human telomerase activity with immortal cells and cancer. Science, 266(5193):20112015.
238
BIBLIOGRAFIA
King, R. D., Karwath, A., Clare, A., and Dehaspe, L. (2000a). Accurate prediction of protein functional class from sequence in the Mycobacterium tuberculosis and Escherichia coli genomes using data mining. Yeast, 1(4):283293. King, R. D., Karwath, A., Clare, A., and Dehaspe, L. (2001). The utility of different representations of protein sequence for predicting functional class. Bioinformatics, 17(5):445454. King, R. D., Karwath, A., Clare, A., and Dephaspe, L. (2000b). Genome scale prediction of protein functional class from sequence using data mining. In Proceedings of the 6th ACM SIG International conference on Knowledge Discovery and Data Mining, pages 384389. ACM. King, R. D., Rowland, J., Oliver, S. G., Young, M., Aubrey, W., Byrne, E., Liakata, M., Markham, M., Pir, P., Soldatova, L. N., Sparkes, A., Whelan, K. E., and Clare, A. (2009). The automation of science. Science, 324(5923):8589. King, R. D., Whelan, K. E., Jones, F. M., Reiser, P. G. K., Bryant, C. H., Muggleton, S. H., Kell, D. B., and Oliver, S. G. (2004a). Functional genomic hypothesis generation and experimentation by a robot scientist. Nature, 427(6971):247252. King, R. D., Wise, P. H., and Clare, A. (2004b). Conrmation of data mining based predictions of protein function. Bioinformatics, 20(7):11101118. Kitano, H. (2000). Perspectives on systems biology. New Generation Computing, 18(3):199 216. Kitano, H. (2001). Foundations of systems biology. MIT Press. Kitano, H. (2002). Systems biology: a brief overview. Science, 295(5560):16621664. Klingstrom, T. and Plewczynski, D. (2011). Protein-protein interaction and pathway databases, a graphical review. Briengs in Bioinformatics, 12(6):702713. Korcsmaros, T., Szalay, M., Rovo, P., Palotai, R., Fazekas, D., Lenti, K., Farkas, I., Csermely, P., and Vellai, T. (2011). Signalogs: Orthology-based identication of novel signaling pathway components in three metazoans. PLoS ONE, 6(5):e19240. Koza, J. (1992). Genetic Programming. MIT Press. Koza, J. (1994). Genetic Programming II. MIT Press. Krallinger, M., Leitner, F., and Valencia, A. (2010). Analysis of biological processes and diseases using text mining approaches. Methods in Molecular Biology, 593:341382. Kramer, S. (1996). Structural regression trees. In Proceedings of the 13th National Conference on Articial Intelligence, pages 812819. Kramer, S. and Pfahringer, B. (2005). Proceedings of the 15th International Conference on Inductive Logic Programming, ILP 2005, Bonn, Germany, August 10-13, volume 3625. Springer.
BIBLIOGRAFIA
239
Kramer, S., Pfahringer, B., and Helma, C. (1997). Stochastic propositionalization of nondeterminate background knowledge. In Proceedings of the 8th International Conference on Inductive Logic Programming, volume 1446 of Lecture Notes in Articial Intelligence, pages 8094. Springer. Landwehr, N., Kersting, K., and Raedt, L. D. (2005). nFOIL: Integrating Naive Bayes and FOIL. In Proceedings of the 20th National Conference on Articial Intelligence, pages 795 800. Lankester, E. R. (1870). On the use of the term homology in modern zoology, and the distinction between homogenetic and homoplastic agreements. Annuals Magazine of Natural History, 6:43. Larra naga, P., Calvo, B., Santana, R., Bielza, C., Galdiano, J., Inza, I., Lozano, J. A., Arma nanzas, R., Santaf e, G., P erez, A., and Robles, V. (2006). Machine learning in bioinformatics. Briengs in Bioinformatics, 7(1):86112. Lavrac, N., Dzeroski, S., and Grobelnik, M. (1991). Learning nonrecursive denitions of relations with LINUS. In Proceedings of the 5th European Working Session on Learning, volume 482 of Lecture Notes in Articial Intelligence, pages 265281. Springer. Lee, B., Shin, M., Oh, Y., Oh, H., and Ryu, K. (2009). Identication of protein functions using a machine-learning approach based on sequence-derived properties. Proteome Science, 7(1):27. Lee, D., Redfern, O., and Orengo, C. (2007). Predicting protein function from sequence and structure. Nature Reviews. Molecular Cell Biology, 8(12):9951005. Leon, E. A., Ezkurdia, I., Garc a-Jim enez, B., Valencia, A., and Juan, D. (2009). EcID. A database for the inference of functional interactions in E. coli. Nucleic Acids Research, 37(suppl 1):D629D635. Leskovec, J. (2008). Dynamics of large networks. PhD thesis, Machine Learning Department, Carnegie Mellon University. Li, N. (2008). Platelet-lymphocyte cross-talk. Journal of Leukocyte Biology, 83(5):10691078. Li, W. and Godzik, A. (2006). CD-HIT: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics, 22(13):16581659. Likic, V. A., McConville, M. J., Lithgow, T., and Bacic, A. (2010). Systems biology: The next frontier for bioinformatics. Advances in Bioinformatics, 2010:ID268925. Linghu, B., Snitkin, E., Hu, Z., Xia, Y., and DeLisi, C. (2009). Genome-wide prioritization of disease genes and identication of disease-disease associations from an integrated human functional linkage network. Genome Biology, 10(9):R91. Lloyd, J. W. (1987). Foundations of logic programming. Springer, New York, NY, USA. Lord, P. W., Stevens, R. D., Brass, A., and Goble, C. A. (2003). Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation. Bioinformatics, 19(10):12751283.
240
BIBLIOGRAFIA
Lu, L. J., Sboner, A., Huang, Y. J., Lu, H. X., Gianoulis, T. A., Yip, K. Y., Kim, P. M., Montelione, G. T., and Gerstein, M. B. (2007). Comparing classical pathways and modern networks: towards the development of an edge ontology. Trends in Biochemical Sciences, 32(7):320331. Lu, L. J., Xia, Y., Paccanaro, A., Yu, H., and Gerstein, M. (2005). Assessing the limits of genomic data integration for predicting protein networks. Genome Research, 15(7):945 953. Luciano, J. and Stevens, R. (2007). e-Science and biological pathway semantics. BMC Bioinformatics, 8:S3. Lund, O., Frimand, K., Gorodkin, J., Bohr, H., Bohr, J., Hansen, J., and Brunak, S. (1997). Protein distance constraints predicted by neural networks and probability density functions. Protein Engineering, 10(11):12411248. L opez-Bigas, N. and Ouzounis, C. A. (2004). Genome-wide identication of genes likely to be involved in human genetic disease. Nucleic Acids Research, 32(10):31083114. MacQueen, J. (1967). Some methods for classication and analysis of multivariate observations. In Proceedings of the 5th Berkeley Symposium on Symposium on Mathematical Statistics and Probability, pages 281297. University of California Press. Mahler, S., Robilliard, D., and Fonlupt, C. (2005). Tarpeian bloat control and generalization accuracy. In Proceedings of the 8th European Conference on Genetic Programming, pages 203214. Marc, V. (2005). Interactome modeling. FEBS Letters, 579(8):18341838. Marcotte, E. M., Pellegrini, M., Ng, H. L., Rice, D. W., Yeates, T. O., and Eisenberg, D. (1999). Detecting protein function and protein-protein interactions from genome sequences. Science, 285(5428):751753. Mardis, E. R. (2011). A decades perspective on DNA sequencing technology. Nature, 470(7333):198203. Markowetz, F. and Spang, R. (2007). Bioinformatics, 8 Suppl 6:S5. Inferring cellular networksa review. BMC
Mateos, A., Dopazo, J., Jansen, R., Tu, Y., Gerstein, M., and Stolovitzky, G. (2002). Systematic learning of gene functional classes from DNA array expression data by using multilayer perceptrons. Genome Research, 12(11):17031715. Mathe, C., Sagot, M.-F., Schiex, T., and Rouze, P. (2002). Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Research, 30(19):41034117. Matsuda, H. (1995). Construction of phylogenetic trees from amino acid sequences using a genetic algorithm. In Proceedings of the Genome Informatics Workshop, volume 6, pages 1928. Universal Academy Press. Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta, 405(2):442451.
BIBLIOGRAFIA
241
Matthews, L., Gopinath, G., Gillespie, M., Caudy, M., Croft, D., de Bono, B., Garapati, P., Hemish, J., Hermjakob, H., Jassal, B., Kanapin, A., Lewis, S., Mahajan, S., May, B., Schmidt, E., Vastrik, I., Wu, G., Birney, E., Stein, L., and DEustachio, P. (2009). Reactome knowledgebase of human biological pathways and processes. Nucleic Acids Research, 37(suppl 1):D619622. McShan, D. C., Rao, S., and Shah, I. (2003). PathMiner: predicting metabolic pathways by heuristic search. Bioinformatics, 19(13):16921698. Middendorf, M., Kundaje, A., Wiggins, C., Freund, Y., and Leslie, C. (2004). Predicting genetic regulatory response using classication. Bioinformatics, 20(suppl 1):i232i240. Mitchell, T. M. (1997). Machine Learning. McGraw Hill. Morett, E., Korbel, J., Rajan, E., SaabRincon, G., Olvera, L., Olvera, M., Schmidt, S., Snel, B., and Bork, P. (2003). Systematic discovery of analogous enzymes in thiamin biosynthesis. Nature Biotechnology, 21(7):790795. Muggleton, S. (1991). Inductive logic programming. New Generation Computing, 8(4):295 318. Muggleton, S. (1995). Inverse entailment and progol. New Generation Computing. Special issue on Inductive Logic Programming, 13(3-4):245286. Muggleton, S., Chen, J., Watanabe, H., Dunbar, S., Baxter, C., Currie, R., Salazar, J. D., Taubert, J., and Sternberg, M. (2010). Variation of background knowledge in an industrial application of ILP. In Proceedings of the 20th International Conference on Inductive Logic Programming,, volume 6489 of Lecture Notes in Articial Intelligence, pages 158170. Springer. Nagai, S., Davoodi, N., and Gasser, S. M. (2011). Nuclear organization in genome stability: SUMO connections. Cell Research, 21(3):474485. Nassif, H., Al-Ali, H., Khuri, S., Keirouz, W., and Page, D. (2009). An Inductive Logic Programming approach to model and classify hexose binding sites. In Proceedings of the 19th International Conference on Inductive Logic Programming, volume 5989 of Lecture Notes in Articial Intelligence, pages 149165. Newman, M. (2010). Networks: An Introduction. Oxford University Press. Noble, D. (2006). The music of life : biology beyond the genome. Oxford University Press. Novere, N. L., Hucka, M., Mi, H., Moodie, S., Schreiber, F., Sorokin, A., Demir, E., Wegner, K., Aladjem, M. I., Wimalaratne, S. M., Bergman, F. T., Gauges, R., Ghazal, P., Kawaji, H., Li, L., Matsuoka, Y., Villeger, A., Boyd, S. E., Calzone, L., Courtot, M., Dogrusoz, U., Freeman, T. C., Funahashi, A., Ghosh, S., Jouraku, A., Kim, S., Kolpakov, F., Luna, A., Sahle, S., Schmidt, E., Watterson, S., Wu, G., Goryanin, I., Kell, D. B., Sander, C., Sauro, H., Snoep, J. L., Kohn, K., and Kitano, H. (2009). The Systems Biology Graphical Notation. Nature Biotechnology, 27(8):735741. Ochoa, D. and Pazos, F. (2010). Studying the co-evolution of protein families with the Mirrortree web server. Bioinformatics, 26(10):13701371.
242
BIBLIOGRAFIA
Ooi, H. S., Schneider, G., Lim, T.-T., Chan, Y.-L., Eisenhaber, B., and Eisenhaber, F. (2010). Biomolecular Pathway Databases, volume 609 of Data Mining Techniques for the Life Sciences, pages 129144. Humana Press. Orchard, S., Salwinski, L., Kerrien, S., Montecchi-Palazzi, L., Oesterheld, M., Stumpen, V., Ceol, A., Chatr-aryamontri, A., Armstrong, J., Woollard, P., Salama, J. J., Moore, S., Wojcik, J., Bader, G. D., Vidal, M., Cusick, M. E., Gerstein, M., Gavin, A.-C., Superti-Furga, G., Greenblatt, J., Bader, J., Uetz, P., Tyers, M., Legrain, P., Fields, S., Mulder, N., Gilson, M., Niepmann, M., Burgoon, L., Rivas, J. D. L., Prieto, C., Perreau, V. M., Hogue, C., Mewes, H.-W., Apweiler, R., Xenarios, I., Eisenberg, D., Cesareni, G., and Hermjakob, H. (2007). The minimum information required for reporting a molecular interaction experiment (MIMIx). Nature Biotechnology, 25(8):894898. Ou, G. and Murphey, Y. L. (2007). Multi-class pattern classication using neural networks. Pattern Recognition, 40(1):418. Ouali, M. and King, R. D. (2000). Cascaded multiple classiers for secondary structure prediction. Protein Science, 9(6):11621176. Ouzounis, C. A., Coulson, R. M., Enright, A. J., Kunin, V., and Pereira-Leal, J. B. (2003). Classication schemes for protein structure and function. Nature Reviews. Genetics, 4(7):508519. Ouzounis, C. A. and Valencia, A. (2003). Early bioinformatics: the birth of a discipline - a personal view. Bioinformatics, 19(17):21762190. Page, D. and Craven, M. (2003). Biological applications of multi-relational data mining. SIGKDD Explorations, 5(1):6979. Pavlidis, P., Weston, J., Cai, J., and Noble, W. S. (2002). Learning gene functional classications from multiple data types. Journal of Computational Biology: a Journal of Computational Molecular Cell Biology, 9(2):401411. Pazos, F., Ranea, J. A. G., Juan, D., and Sternberg, M. J. E. (2005). Assessing protein coevolution in the context of the tree of life assists in the prediction of the interactome. Journal of Molecular Biology, 352(4):10021015. Pazos, F. and Valencia, A. (2001). Similarity of phylogenetic trees as indicator of proteinprotein interaction. Protein Engineering, 14(9):609614. Pazos, F. and Valencia, A. (2002). In silico two-hybrid system for the selection of physically interacting protein pairs. Proteins, 47(2):219227. Pazos, F. and Valencia, A. (2008). Protein co-evolution, co-adaptation and interactions. The EMBO Journal, 27(20):26482655. Pazos, F., Valencia, A., and Lorenzo, V. D. (2003). The organization of the microbial biodegradation network from a systems-biology perspective. EMBO Reports, 4(10):994 999. Pearson, W. R. and Lipman, D. J. (1988). Improved tools for biological sequence comparison. Proceedings of the National Academy of Sciences of the United States of America, 85(8):24442448.
BIBLIOGRAFIA
243
Pellegrini, M., Marcotte, E., Thompson, M., Eisenberg, D., and Yeates, T. (1999). Assigning protein functions by comparative genome analysis: protein phylogenetic proles. Proceedings of the National Academy of Sciences, 96(8):42854288. Peri, S., Navarro, J. D., Amanchy, R., Kristiansen, T. Z., Jonnalagadda, C. K., Surendranath, V., Niranjan, V., Muthusamy, B., Gandhi, T. K. B., Gronborg, M., Ibarrola, N., Deshpande, N., Shanker, K., Shivashankar, H. N., Rashmi, B. P., Ramya, M. A., Zhao, Z., Chandrika, K. N., Padma, N., Harsha, H. C., Yatish, A. J., Kavitha, M. P., Menezes, M., Choudhury, D. R., Suresh, S., Ghosh, N., Saravana, R., Chandran, S., Krishna, S., Joy, M., Anand, S. K., Madavan, V., Joseph, A., Wong, G. W., Schiemann, W. P., Constantinescu, S. N., Huang, L., Khosravi-Far, R., Steen, H., Tewari, M., Ghaffari, S., Blobe, G. C., Dang, C. V., Garcia, J. G. N., Pevsner, J., Jensen, O. N., Roepstorff, P., Deshpande, K. S., Chinnaiyan, A. M., Hamosh, A., Chakravarti, A., and Pandey, A. (2003). Development of human protein reference database as an initial platform for approaching systems biology in humans. Genome Research, 13(10):23632371. Pesquita, C., Faria, D., Falc ao, A. O., Lord, P., and Couto, F. M. (2009). Semantic similarity in biomedical ontologies. PLoS Computational Biology, 5(7):e1000443. Peters, J. M., Franke, W. W., and Kleinschmidt, J. A. (1994). Distinct 19 S and 20 S subcomplexes of the 26 S proteasome and their distribution in the nucleus and the cytoplasm. Journal of Biological Chemistry, 269(10):77097718. Pe na-Castillo, L., Tasan, M., Myers, C., Lee, H., Joshi, T., Zhang, C., Guan, Y., Leone, M., Pagnani, A., Kim, W., Krumpelman, C., Tian, W., Obozinski, G., Qi, Y., Mostafavi, S., Lin, G., Berriz, G., Gibbons, F., Lanckriet, G., Qiu, J., Grant, C., Barutcuoglu, Z., Hill, D., WardeFarley, D., Grouios, C., Ray, D., Blake, J., Deng, M., Jordan, M., Noble, W., Morris, Q., Klein-Seetharaman, J., Bar-Joseph, Z., Chen, T., Sun, F., Troyanskaya, O., Marcotte, E., Xu, D., Hughes, T., and Roth, F. (2008). A critical assessment of Mus musculus gene function prediction using integrated genomic evidence. Genome Biology, 9:S2. Philippi, C., Loretz, B., Schaefer, U. F., and Lehr, C. M. (2010). Telomerase as an emerging target to ght cancer - opportunities and challenges for nanomedicine. Journal of Controlled Release, 146(2):228240. Plotkin, G. (1970). A note on inductive generalization. Machine Intelligence, 5:153163. Poli, R. (2001). General schema theory for Genetic Programming with subtree-swapping crossover. In Proceedings of the 4th European Conference on Genetic Programming, pages 143159. Poli, R. (2003). A simple but theoretically-motivated method to control bloat in Genetic Programming. In Proceedings of the 6th European Conference on Genetic Programming, pages 4376. Poli, R., Langdon, W., and Dignum, S. (2007). On the limiting distribution of program sizes in tree-based Genetic Programming. In 10th European Conference on Genetic Programming, pages 193204. Prather, K. L. J. and Martin, C. H. (2008). De novo biosynthetic pathways: rational design of microbial chemical factories. Current Opinion in Biotechnology, 19(5):468474.
244
BIBLIOGRAFIA
Qi, Y., Bar-Joseph, Z., and F., J. J. K.-S. (2006). Evaluation of different biological data and computational classication methods for use in protein interaction prediction. Proteins: Structure, Function, and Bioinformatics, 63(3):490500. Quiles, M. C. (2005). Integration of biological data systems, infrastructures and programmable tools. PhD thesis, Universidad Aut onoma de Madrid. Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1):81106. Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA. Quinlan, J. R. and Mostow, J. (1990). Learning logical denitions from relations. Machine Learning, pages 239266. Raedt, L. D. (1997). Logical settings for concept-learning. Articial Intelligence, 95(1):187 201. Raedt, L. D. (2008). Logical and Relational Learning. Springer. Raedt, L. D. and Kersting, K. (2003). Probabilistic logic learning. SIGKDD Explorations, 5(1):3148. Raedt, L. D., Kimmig, A., and Toivonen, H. (2007). ProbLog: A Probabilistic Prolog and its application in link discovery. In Proceedings of the 20th International Joint Conference on Articial Intelligence, pages 24622467. Raedt, L. D. and Laer, W. V. (1995). Inductive constraint logic. In Proceedings of the 5th Workshop on Algorithmic Learning Theory, volume 997 of Lecture Notes in Computer Science, pages 8094. Raval, A., Ghahramani, Z., and Wild, D. L. (2002). A bayesian network model for protein fold and remote homologue recognition. Bioinformatics, 18(6):788801. Re, M. and Valentini, G. (2009). Prediction of gene function using ensembles of SVMs and heterogeneous data sources. In Applications of Supervised and Unsupervised Ensemble Methods, volume 245 of Studies in Computational Intelligence, pages 7991. Springer. Rodr guez, J. M., Maietta, P., Ezkurdia, I., L opez, G., Wesselink, J.-J., Pietrelli, A., Valencia, A., and Tress, M. (2012). APPRIS: A system for annotating alternative splice isoforms. In Proceedings of the 11th Spanish Symposium on Bioinformatics. Poster. Rojas, A., Juan, D., and Valencia, A. (2006). Molecular Interactions: Learning form Protein Complexes, volume 6 of In Silico Technologies in Drug Target Identication and Validation, chapter 8, pages 225244. Rost, B., Liu, J., Nair, R., Wrzeszczynski, K. O., and Ofran, Y. (2003). Automatic prediction of protein function. Cellular and Molecular Life Sciences, 60(12):26372650. Rost, B. and Sander, C. (1994). Combining evolutionary information and neural networks to predict protein secondary structure. Proteins: Structure, Function, and Genetics, 19(1):55 72.
BIBLIOGRAFIA
245
Ruepp, A., Zollner, A., Maier, D., Albermann, K., Hani, J., Mokrejs, M., Tetko, I., Guldener, U., Mannhaupt, G., Munsterkotter, M., and Mewes, H. W. (2004). The FunCat, a functional annotation scheme for systematic classication of proteins from whole genomes. Nucleic Acids Research, 32(18):55395545. Rumelhart, D. E. and McClelland, J. L. (1986). Parallel Distributed Processing, volume 1. MIT Press, Cambridge, MA. Sahami, M. (1996). Learning Limited Dependence Bayesian Classiers. In Proceedings of the 2nd International Conference on Knowledge Discovery in Databases and Data Mining, pages 335338. AAAI Press. Sakharkar, M. K., Sakharkar, K. R., and Pervaiz, S. (2007). Druggability of human disease genes. The International Journal of Biochemistry and Cell Biology, 39(6):11561164. Saladrigas, M. V. (2006). Vocabulario ingl es-espa nol de bioqu mica y biolog a molecular. Panace@, 7(24):265275. Salwinski, L., Miller, C. S., Smith, A. J., Pettit, F. K., Bowie, J. U., and Eisenberg, D. (2004). The Database of Interacting Proteins: 2004 update. Nucleic Acids Research, 32(Database issue):44951. Sander, C. and Schneider, R. (1991). Database of homology-derived protein structures and the structural meaning of sequence alignment. Proteins, 9(1):5668. Sato, T. and Kameya, Y. (2001). Parameter learning of logic programs for symbolic-statistical modeling. Journal of Articial Intelligence Research, 15:391454. Sato, T., Yamanishi, Y., Kanehisa, M., and Toh, H. (2005). The inference of protein-protein interactions by co-evolutionary analysis is improved by excluding the information about the phylogenetic relationships. Bioinformatics, 21(17):34823489. Schena, M., Shalon, D., Davis, R. W., and Brown, P. O. (1995). Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science, 270(5235):467470. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34(1):147. Sebban, M., Mokrousov, I., Rastogi, N., and Sola, C. (2002). A data-mining approach to spacer oligonucleotide typing of mycobacterium tuberculosis. Bioinformatics, 18(2):235243. Sharan, R., Ulitsky, I., and Shamir, R. (2007). Network-based prediction of protein function. Molecular Systems Biology, 3:88. Sheng, Q., Moreau, Y., Smet, F. D., Marchal, K., and Moor, B. D. (2005). Advances in Cluster Analysis of Microarray Data, chapter 10, pages 153173. Data Analysis and Visualization in Genomics and Proteomics. John Wiley & Sons, Ltd. Sigrist, C. J. A., Cerutti, L., de Castro, E., Langendijk-Genevaux, P. S., Bulliard, V., Bairoch, A., and Hulo, N. (2010). PROSITE, a protein domain database for functional characterization and annotation. Nucleic Acids Research, 38(suppl 1):D161D166.
246
BIBLIOGRAFIA
Smedley, D., Haider, S., Ballester, B., Holland, R., London, D., Thorisson, G., and Kasprzyk, A. (2009). BioMart - biological queries made easy. BMC Genomics, 10(1):22. Smith, T. F. and Waterman, M. S. (1981). Identication of common molecular subsequences. Journal of Molecular Biology, 147(1):195197. Smogorzewska, A. and de Lange, T. (2004). Regulation of telomerase by telomeric proteins. Annual Review of Biochemistry, 73(1):177208. Sol e, R. (2009). Redes complejas. Del genoma a Internet. Tusquets, Espa na. Sprinzak, E. and Margalit, H. (2001). Correlated sequence-signatures as markers of proteinprotein interaction. Journal of Molecular Biology, 311(4):681692. Srinivasan, A. (2007). Aleph: A Learning Engine for Proposing Hypotheses. The Aleph Manual. Technical report, Computing Laboratory, Oxford University. Srinivasan, A., King, R. D., and Bristol, D. W. (1999). An assessment of submissions made to the predictive toxicology evaluation challenge. In Proceedings of the 16th International Joint Conference on Articial Intelligence, pages 270275. Srinivasan, A., Muggleton, S. H., Sternberg, M. J. E., and King, R. D. (1996). Theories for mutagenicity: a study in rst-order and feature-based induction. Articial Intelligence, 85(12):277299. Stark, C., Breitkreutz, B.-J., Reguly, T., Boucher, L., Breitkreutz, A., and Tyers, M. (2006). BioGRID: a general repository for interaction datasets. Nucleic Acids Research, 34(suppl 1):D535539. Stein, L. (2001). Genome annotation: from sequence to biology. Nature Reviews. Genetics, 2(7):493503. Stormo, G. D., Schneider, T. D., Gold, L., and Ehrenfeucht, A. (1982). Use of the Perceptron algorithm to distinguish translational initiation sites in E. coli. Nucleic Acids Research, 10(9):29973011. Struyf, J., Dzeroski, S., Blockeel, H., and Clare, A. (2005). Hierarchical multi-classication with predictive clustering trees in functional genomics. In Proceedings of the 12th Portuguese conference on Progress in Articial Intelligence, pages 272283. Takeyama, K., Aguiar, R. C. T., Gu, L., He, C., Freeman, G. J., Kutok, J. L., Aster, J. C., and Shipp, M. A. (2003). The BAL-binding protein BBAP and related deltex family members exhibit ubiquitin-protein isopeptide ligase activity. Journal of Biological Chemistry, 278(24):2193021937. Tarca, A. L., Carey, V. J., wen Chen, X., Romero, R., and Draghici, S. (2007). Machine learning and its applications to biology. PLoS Computational Biology, 3(6):e116. Tetko, I. V., Rodchenkov, I. V., Walter, M. C., Rattei, T., and Mewes, H.-W. (2008). Beyond the best match: machine learning annotation of protein sequences by integration of different sources of information. Bioinformatics, 24(5):621628.
BIBLIOGRAFIA
247
Thomsen, R. (2007). Protein-Ligand Docking with Evolutionary Algorithms, pages 167195. Computational Intelligence in Bioinformatics. John Wiley & Sons, Inc. Todorovski, L., Blockeel, H., and Dzeroski, S. (2002). Ranking with predictive clustering trees. In M. Trajkovski, I., Zelezny, F., Lavrac, N., and Tolar, J. (2008). Learning relational descriptions of differentially expressed gene groups. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 38(1):1625. Tran, T., Satou, K., and Ho, T. (2005). Using Inductive Logic Programming for predicting protein-protein interactions from multiple genomic data. In Proceedings of the 9th European Conference on Principles and Practice of Knowledge Discovery in Databases, volume 3721 of Lecture Notes in Articial Intelligence, pages 321330. Springer. Tress, M. L., Wesselink, J.-J., Frankish, A., L opez, G., Goldman, N., L oytynoja, A., Massingham, T., Pardi, F., Whelan, S., Harrow, J., and Valencia, A. (2008). Determination and validation of principal gene products. Bioinformatics, 24(1):1117. Tsoumakas, G. and Katakis, I. (2007). Multi-label classication: An overview. International Journal of Data Warehousing and Mining, 3(3):113. Tweedie, S., Ashburner, M., Falls, K., Leyland, P., McQuilton, P., Marygold, S., Millburn, G., Osumi-Sutherland, D., Schroeder, A., Seal, R., Zhang, H., and Consortium, T. F. (2009). FlyBase: enhancing Drosophila Gene Ontology annotations. Nucleic Acids Research, 37(suppl 1):D555559. Valafar, F. (2002). Pattern recognition techniques in microarray data analysis: a survey. Annals of the New York Academy of Sciences, 980:4164. Valencia, A. and Pazos, F. (2002). Computational methods for the prediction of protein interactions. Current Opinion in Structural Biology, 12(3):368373. van Rijsbergen, C. J. (1979). Information Retrieval. Butterworth. Vapnik, V. (1998). Statistical Learning Theory. Wiley-Interscience, New York. Vens, C. (2007). Complex Aggregates in Relational Learning. PhD thesis, Department of Computer Science, K.U.Leuven, Leuven, Belgium. Vens, C., Struyf, J., Schietgat, L., Dzeroski, S., and Blockeel, H. (2008). Decision trees for hierarchical multi-label classication. Machine Learning, 73(2):185214. Vogelstein, B. and Kinzler, K. W. (2004). Cancer genes and the pathways they control. Nature Medicine, 10(8):789799. von Mering, C., Jensen, L. J., Snel, B., Hooper, S. D., Krupp, M., Foglierini, M., Jouffre, N., Huynen, M. A., and Bork, P. (2005). STRING: known and predicted protein-protein associations, integrated and transferred across organisms. Nucleic Acids Research, 33(suppl 1):D433D437. von Mering, C., Krause, R., Snel, B., Cornell, M., Oliver, S. G., Fields, S., and Bork, P. (2002). Comparative assessment of large-scale data sets of protein-protein interactions. Nature, 417(6887):399403.
248
BIBLIOGRAFIA
Wang, K., Ussery, D. W., and Brunak, S. (2009). Analysis and prediction of gene splice sites in four Aspergillus genomes. Fungal Genetics and Biology, 46(1, Supplement 1):S14S18. Webb, G. I., Boughton, J. R., and Wang, Z. (2005). Not So Naive Bayes: Aggregating OneDependence Estimators. Machine Learning, 58(1):524. Wilkinson, M. D. and Links, M. (2002). BioMOBY: An open source biological web services proposal. Briengs in Bioinformatics, 3(4):331341. Witten, I. H. and Frank, E. (2005). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, San Francisco, second edition. Woznica, A. (2006). Relational Weka. Technical report, University of Geneva. Wu, J., Kasif, S., and DeLisi, C. (2003). Identication of functional links between genes using phylogenetic proles. Bioinformatics, 19(12):15241530. Xu, R., Anagnostopoulos, G. C., and Wunsch, D. C. (2007a). Hybrid of Neural Classier and Swarm Intelligence in Multiclass Cancer Diagnosis with Gene Expression Signatures, pages 120. Computational Intelligence in Bioinformatics. John Wiley & Sons, Inc. Xu, R., Wunsch, D. C., and Frank, R. L. (2007b). Inference of genetic regulatory networks with recurrent neural network models using particle swarm optimization. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 4(4):681692. Xu, Y. (2011). Chemistry in human telomere biology: structure, function and targeting of telomere DNA/RNA. Chemical Society Reviews, 40(5):27192740. Yang, Y. (1999). An evaluation of statistical approaches to text categorization. Information Retrieval, 1(1):6990. Ye, J., McGinnis, S., and Madden, T. L. (2006). BLAST: improvements for better sequence analysis. Nucleic Acids Research, 34(suppl 2):W69. Yi, T.-M. and Lander, E. S. (1993). Protein secondary structure prediction using nearestneighbor methods. Journal of Molecular Biology, 232(4):11171129. Yoon, B. J. (2009). Hidden Markov Models and their applications in biological sequence analysis. Current Genomics, 10(6):402415. Yu, G., Li, F., Qin, Y., Bo, X., Wu, Y., and Wang, S. (2010). GOSemSim: an R package for measuring semantic similarity among GO terms and gene products. Bioinformatics, 26(7):976978. Yu, H., Braun, P., Yildirim, M. A., Lemmens, I., Venkatesan, K., Sahalie, J., HirozaneKishikawa, T., Gebreab, F., Li, N., Simonis, N., Hao, T., Rual, J.-F., Dricot, A., Vazquez, A., Murray, R. R., Simon, C., Tardivo, L., Tam, S., Svrzikapa, N., Fan, C., de Smet, A.-S., Motyl, A., Hudson, M. E., Park, J., Xin, X., Cusick, M. E., Moore, T., Boone, C., Snyder, M., Roth, F. P., Barabasi, A.-L., Tavernier, J., Hill, D. E., and Vidal, M. (2008). High-quality binary protein interaction map of the Yeast interactome network. Science, 322(5898):104 110.
BIBLIOGRAFIA
249
Yu, H., Luscombe, N. M., Lu, H. X., Zhu, X., Xia, Y., Han, J.-D. J., Bertin, N., Chung, S., Vidal, M., and Gerstein, M. (2004). Annotation transfer between genomes: Protein-protein interologs and protein-DNA regulogs. Genome Research, 14(6):11071118. Zheng, Z. and Webb, G. I. (2000). Lazy learning of bayesian rules. Machine Learning, 41(1):5384. Zongker, D. and Punch, B. (1998). lil-gp: Genetic Programming System. Technical report, Michigan State University.

Tesis Beatriz Garcia Jimenez 2012

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tesis Beatriz Garcia Jimenez 2012

Caricato da

Copyright:

Formati disponibili

UNIVERSIDAD CARLOS III DE MADRID

DEPARTAMENTO DE INFORMATICA Legan es, Junio 2012

FUNCIONAL DE PROTEINAS ANOTACION RELACIONAL BASADA EN REPRESENTACION DE SISTEMAS EN EL ENTORNO DE LA BIOLOGIA

AUTOR NEZ B EATRIZ G ARC I A J IM E

Firma ................................. ................................. ................................. ................................. .................................

Calicaci on: ..................................................................................

Legan es, ......... de .................................... de 2012

201 203 207 211 215 221 223 225

ordenadas por . . . . . . . . . ordenadas por . . . . . . . . .

AUPRC . . . . . . 204 AUPRC . . . . . . 205

Estado del Arte

Aprendizaje Autom atico Proposicional

2. Estado del Arte

Algoritmos Proposicionales de Clasicaci on y Regresi on

2.1. Aprendizaje Autom atico Proposicional

2. Estado del Arte

Algoritmos Proposicionales de Caracterizaci on

2.2. Aprendizaje Autom atico Relacional

Aprendizaje Autom atico Relacional

En este documento se utilizan indistintamente los t erminos relacionaly multi-relacional.

2. Estado del Arte

Ventajas frente a Aprendizaje Autom atico Proposicional

2.2. Aprendizaje Autom atico Relacional

2. Estado del Arte

Representaci on en L ogica de Predicados

2.2. Aprendizaje Autom atico Relacional

2. Estado del Arte

2.2. Aprendizaje Autom atico Relacional

Herramientas de Aprendizaje Autom atico Relacional

2. Estado del Arte

2.2. Aprendizaje Autom atico Relacional

2. Estado del Arte

2.2. Aprendizaje Autom atico Relacional

2. Estado del Arte

Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular

2.3. Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular

2. Estado del Arte

2.3. Aplicaci on del Aprendizaje Autom atico a Biolog a Molecular

Retos del AA en Bioinform atica

2. Estado del Arte

2.4. Anotaci on Funcional con Informaci on de Redes

Anotaci on Funcional con Informaci on de Redes

2. Estado del Arte

Biolog a Molecular, Redes y Biolog a de Sistemas

2.4. Anotaci on Funcional con Informaci on de Redes

Asociaciones Funcionales e Interacciones en Biolog a Molecular

28 Tipos de Asociaci on Funcional e Interacci on

2. Estado del Arte

2.4. Anotaci on Funcional con Informaci on de Redes

Redes en Sistemas Complejos y en Biolog a

2. Estado del Arte

Aproximaciones al Estudio de las Redes Biol ogicas

2.4. Anotaci on Funcional con Informaci on de Redes

2. Estado del Arte

Discusi on y Problemas Biol ogicos Afrontados

2.5. Discusi on y Problemas Biol ogicos Afrontados

2. Estado del Arte

Enfoque de Evaluaci on Experimental

38 modelos de clasicaci on.

4.2. Medidas de Evaluaci on

Evaluaci on del Rendimiento en la Clasicaci on

4.2. Medidas de Evaluaci on

Interpretaci on y An alisis de las Predicciones

4.2. Medidas de Evaluaci on