Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Septiembre 2018
Construcción y análisis de redes de co-expresión RNA-seq y
desarrollo de una interfaz interactiva.
1
Resumen
En este Trabajo de Fin de Máster presentamos una herramienta online para detectar módulos de
genes co-expresados basándonos en el análisis de una red ponderada de correlación entre pares
de variables.
Este análisis de redes de correlación ponderada es también conocido como análisis de redes de
co-expresión de genes ponderados (WGCNA, por sus siglas en inglés), un método especialmente
diseñado para el estudio de redes biológicas. Si bien puede aplicarse a la mayoría de los
conjuntos de datos de alta dimensión, ha sido el más utilizado en aplicaciones genómicas.
Permite definir módulos (agrupamientos), nodos intramodulares y nodos de red intermodulares,
estudiar las relaciones entre módulos de co-expresión y comparar la topología de red de
diferentes redes (análisis diferencial de red). El algoritmo WGCNA puede ser utilizado como una
técnica de reducción de datos (relacionada con el análisis de factores oblicuos), como un método
de agrupamiento (agrupamiento difuso), como un método de selección de características (por
ejemplo, como un método de selección de genes), como un marco para integrar datos
complementarios genómicos (basados en correlaciones ponderadas entre variables cuantitativas)
y como una técnica de exploración de datos [1]. Dado que WGCNA utiliza una metodología de
red y es muy adecuado para integrar conjuntos de datos genómicos complementarios, puede
interpretarse como un método de análisis de datos biológicos o biología de sistemas. Al
seleccionar nodos intramodulares en módulos de consenso, el WGCNA también da lugar a
técnicas de metaanálisis basadas en redes.
El objetivo principal de este Trabajo Fin de Máster es hacer disponible para la comunidad
científica una herramienta que democratice el algoritmo WGCNA. En la fecha de este trabajo, no
existe ninguna herramienta online sencilla para que los usuarios típicos (por ejemplo biólogos o
médicos) puedan explotar las capacidades de este tipo de análisis. Sin herramientas como la
desarrollada en este trabajo la potencia WGCNA quedaría solo al alcance de los investigadores
que disponen de conocimientos teóricos muy avanzados en bioinformática, lo cual no es
habitual. Sin embargo nuestra experiencia nos muestra que hoy en día la mayoría de los
investigadores sí disponen de los conocimientos funcionales en genómica que son suficientes
para utilizar aplicaciones web donde prime la experiencia de usuario y estén bien documentadas.
Nos hemos centrado en facilitar el análisis de red para obtener módulos de co-expresión y el
análisis de consenso entre dos redes génicas de co-expresión, con la idea de permitir al usuario
extraer información de los genes en cada módulo de red, los genes específicos de una red y los
genes de consenso entre ambas redes. Identificar estos genes analizando la topología de las redes
de co-expresión es clave para los investigadores en campos tan importantes como la oncología y
la genómica funcional.
Analizamos también los resultados para mostrar que la aplicación es capaz de construir redes de
co-expresión con un profundo sentido biológico, especialmente cuando se realiza una red de
consenso entre dos redes relacionadas, mostrando gran sensibilidad a la hora de detectar genes
localizados en rutas moleculares comunes, propias de la relación entre ambas redes.
Con nuestra herramienta, basada en las capacidades del algoritmo WGCNA, el usuario puede
analizar cómodamente las redes de co-expresión de su interés y confeccionar una lista de genes
candidatos objeto de investigación posterior y pormenorizada en el laboratorio.
2
Agradecimientos
A mi mujer e hijas.
Sin su apoyo este Trabajo Fin de Máster no habría sido posible.
3
ÍNDICE DE CONTENIDOS
Resumen 2
Introducción 7
Motivación 7
Objetivos 7
Metodología 8
Organización de la memoria 8
Breve introducción a la genómica. 9
Genómica: Tecnologías para el estudio del ADN. 10
Genes, ADN chatarra y epigenómica 11
Transcriptómica: Tecnologías para el estudio de la expresión génica. 12
Proteómica 13
Ensamblado del genoma 14
Aplicaciones en Biología y Medicina 15
Diseño y desarrollo 26
Capa de Extracción, Transformación y Carga de datos 27
Extracción 27
Transformación 27
Carga 29
Reducción de la dimensionalidad 29
Construcción del Modelo 29
Construcción de la Red de Co-expresión 29
Cálculo del umbral suave 30
Detección de módulos de co-expresión 31
Consenso entre dos redes de co-expresión 31
Interfaz de Usuario 32
4
Resultados 36
Similitudes entre ambos tumores 36
Genes específicos de BRCA 39
Lista de genes candidatos 40
Conclusiones 40
Trabajo futuro 42
Referencias 44
Apéndices 48
A - Análisis de consenso entre BRCA y PRAD 48
B - Lista de genes candidatos 51
Módulos de red de consenso 51
Módulos de co-expresión específicos de red de BRCA 54
C- Enriquecimiento funcional de módulos consenso seleccionados 55
D- Obtención de datos desde el portal de datos de TCGA 60
E- Código R 61
5
ÍNDICE DE FIGURAS
Figura 10. Detección de módulos y comparación entre método normal y por bloques. 31
Figura 11. Módulos y relaciones entre los módulos de los tumores BRCA y PRAD. 32
ÍNDICE DE TABLAS
6
1 Introducción
1.1 Motivación
Hemos decidido centrar el presente Trabajo de Fin de Máster fundamentalmente en la parte de
Data Science. El análisis de secuencias genómicas y las redes de expresión de genes constituyen
dos campos en los que para avanzar en el conocimiento necesariamente se depende de
supercomputadoras y del análisis de datos masivos. La genómica y las herramientas
bioinformáticas para su análisis constituyen un campo multidisciplinar apasionante, como
podremos ver a lo largo de este trabajo.
Sin embargo, los investigadores en biomedicina no suelen disponer del tiempo ni los recursos
suficientes para aplicar muchos de estos algoritmos avanzados. Un ejemplo evidente es el del
análisis de redes génicas de co-expresión, que no cuenta con herramientas que democraticen su
uso. Creemos que una aplicación web sencilla posibilitará la obtención de resultados interesantes
para estos investigadores, generando nuevas hipótesis y listas de genes candidatos que motiven
un futuro proyecto de investigación.
1.2 Objetivos
El objetivo general de este Trabajo de Fin de Máster es la generación y análisis de redes de
co-expresión génica y en particular nos centraremos en la identificación de genes
especialistas/generalistas, a partir de datos de Next Generation Sequencing (RNAseq). Desde el
punto de vista de su aplicación a la Medicina, nuestro objetivo es acercar a los científicos que
investigan el Cáncer el análisis matemático de las redes de correlación entre la expresión de los
genes para diferentes tumores.
La construcción de la red de co-expresión consiste en generar un grafo no dirigido y ponderado
que cuenta con un gran número de nodos (genes del organismo a estudiar) y en el que los enlaces
representan la correlación en la co-expresión de cada par de genes para diferentes situaciones o
factores experimentales (tejidos, fases del desarrollo, etc.) [2]. Para la construcción del grafo se
utilizarán datos originados por experimentos de Next Generation Sequencing presentes en el The
Cancer Genome Atlas (TCGA) [3-5].
El análisis de la red construida conlleva el uso de técnicas de análisis de grafos para imputar a
cada gen posibles funciones desconocidas (Guilt by Association, ontologías, etc), ocurrencia
durante procesos biológicos (agrupamiento, K-NN, etc) e importancia en la regulación génica
(topología de la red: hubs, etc) [2].
El trabajo se ha realizado principalmente en el lenguaje R debido a que es en este lenguaje en el
que se encuentra implementado el paquete Bioconductor [6], ampliamente utilizado en
bioinformática y para el análisis de datos RNA-seq. En R se ha realizado el análisis de expresión
génica, la construcción de las redes de co-expresión y el análisis de la red.
Puntualmente ha sido necesario recurrir a implementaciones en Python o Shell Script, para la
programación y ejecución de scripts y pipelines en la capa de obtención de datos desde sus
fuentes públicas externas y para la ejecución de aplicaciones en línea de comandos que no están
disponibles en R.
La interfaz interactiva para el análisis de los resultados se ha desarrollado en Shiny [3].
7
1.3 Metodología
La metodología utilizada durante el desarrollo ha sido una metodología Ágil, acordada entre el
tutor y el alumno, constituyendo un acercamiento mínimo a Scrum para dos personas, donde el
Product Owner ha sido el tutor, el desarrollador ha sido el Alumno y los Stakeholders la
dirección del Máster y el Tribunal. Los Sprints han sido de una semana, salvo en los casos en que
durante cada reunión de planificación de Sprint ha sido necesario planificar dos semanas. La
herramienta utilizada para la gestión del proyecto ha sido Trello.
8
1.5 Breve introducción a la genómica.
Las tecnologías de secuenciación de última generación (Next Generation Sequencing - NGS) han
abierto las puertas de la Biología a los científicos teóricos, permitiendo trabajar directamente
sobre estructuras de datos sobre las que se aplican potentes técnicas de computación. Los
avances en tecnología de secuenciación han sido tales que hoy en día resulta muy sencillo
obtener toda la información genética de un organismo y almacenarla en una computadora. Cada
día existen más y más datos genómicos, cuya generación crece a un ritmo exponencial y además
la mayoría de estos datos son públicos y de fácil acceso a través de Internet. Debido a todo ello,
los avances en Biología y en Medicina durante las últimas décadas han sido espectaculares [8].
La genómica utiliza estas nuevas tecnologías para estudiar, entre otros aspectos, cómo
interaccionan los genes de un organismo y cúal es su función, centrándose en los aspectos
dinámicos del funcionamiento celular. Estudia en definitiva los procesos que van desde el
almacenamiento de los genes en el ADN hasta el funcionamiento de la maquinaria celular [7,9].
Introducimos tres conceptos importantes: Genómica, Transcriptómica y Proteómica, que juntos
conforman el marco tecnológico de éste nuevo enfoque teórico y computacional en la Biología
[7-9]. Cuando expongamos estos conceptos, recurriremos en la medida de lo posible a un
lenguaje cercano e inspiracional, que resalte los paralelismos existentes entre los procesos
biológicos y cualquier procesamiento de la información. Por ejemplo, cabe destacar la similitud
entre el procesamiento de información llevado a cabo por la maquinaria celular a partir de las
instrucciones codificadas en la molécula de ADN, y el procesamiento de información que tiene
lugar en una computadora capaz de encontrar relaciones entre los datos experimentales y la
secuencia del ADN perteneciente a los organismos objeto de un estudio.
Dentro de la genómica podemos diferenciar la genómica funcional y la genómica estructural. Por
una parte, la genómica funcional, que es objeto del presente trabajo, se refiere al análisis de datos
de secuencias producidos por las tecnologías de secuenciación de última generación y su
asociación y correlación con datos experimentales, mediante modelos matemáticos y técnicas de
inferencia [7]. Sin embargo, la genómica funcional no es suficiente para entender el
funcionamiento de los seres vivos. La genómica estructural, que no es objeto del presente
trabajo, además de utilizar la información de la secuencia, necesita recurrir a la estructura
tridimensional del ADN y de las moléculas que interaccionan con él, como las proteínas. La
representación de estos datos es mucho más compleja y su tratamiento computacional más
pesado, ya que está basado en modelos químico-físicos [9].
Figura 1. El Dogma Central de la Biología
Molecular, postulado por Francis Crick [9]. En
líneas rojas, las transiciones de la información
caracter a caracter que son habituales: El ADN
puede replicarse y transcribirse a ARN. El
ARN se traduce a proteínas. En líneas grises
discontinuas, procesos poco habituales pero
muy importantes en Biología: El ARN puede
replicarse y puede transcribirse inversamente
(generando la correspondiente cadena de
ADN). El resto de transiciones de la
información no existen.
9
El presente trabajo fin de Máster transcurre dentro del campo de la genómica funcional. Sin
embargo, no queremos dejar de lado la importancia de comprender y tener como referencia la
genómica estructural.
También es importante conocer previamente el Dogma Central de la Biología Molecular,
enunciado por Francis Crick en 1958 [10] y que básicamente postula que existen tres
biopolímeros entre los que se propaga la información genética: el ADN, el ARN y las proteínas.
La información de las secuencias de caracteres se transfiere entre estos tres estados con
correspondencias carácter a carácter siendo imposible la transferencia de información de
secuencia de proteína a proteína o de proteína a ácido nucleico (ADN o ARN) estando
permitidas el resto.
A lo largo de la introducción presentaremos los flujos de la información de secuencia de ADN a
ARN y de ARN a proteína. No hablaremos de las replicaciones posibles (ADN y ARN) ni de la
transcripción inversa (generación de ADN a partir del ARN) que pueden encontrarse en la
literatura [7]. Estos flujos de información de la secuencia no son clave para la comprensión de
este trabajo fin de Máster. Pero aunque no sean conceptos necesarios para entender un estudio de
cuantificación y análisis de la expresión génica, es importante recalcar que son procesos claves
en Biología y fundamentales en la teoría moderna de la evolución. La comprensión profunda de
los mecanismos evolutivos es un prisma necesario sin el cual la Biología no puede entenderse
adecuadamente, es su principal elemento diferenciador como sistema capaz de procesar
información y muy probablemente también el secreto de su extraña perfección.
1.5.1 Genómica: Tecnologías para el estudio del ADN.
Las instrucciones genéticas usadas durante el desarrollo y funcionamiento de todos los
organismos vivos y algunos virus están codificadas químicamente en forma de ácido
desoxiribonucleico (ADN). El ADN es una macromolécula con forma de polímero no ramificado
(cadena lineal) compuesto por la repetición de unas moléculas llamadas nucleótidos. La
estructura de un nucleótido se compone de tres partes: un glúcido, una base nitrogenada y un
grupo fosfato. Entre un nucleótido y el siguiente se establece un enlace fosfodiéster
(glúcido,fosfato) y la base nitrogenada queda expuesta hacia fuera de la cadena principal. Lo
único que distingue a un nucleótido de otro es su base nitrogenada. En el ADN hay cuatro
posibles bases nitrogenadas: adenina A, timina T, guanina G y citosina C.
Las bases nitrogenadas en solución acuosa tienen propiedades químicas que les permiten
interaccionar unas con otras de forma muy concreta: A-T y G-C. Para cada molécula de ADN
existe químicamente otra cadena complementaria. En solución acuosa las bases nitrogenadas de
una cadena interaccionan así con las de su complementaria. Como la cadena de ADN estirada en
las tres dimensiones tiene una estructura helicoidal, junto a su complementaria, ambas generan
una doble hélice característica del ADN [11]. Debido a esto su estructura es muy estable [12]. El
estado habitual de la doble hélice no es estirada, si no comprimida y protegida en forma de
cromatina que a su vez se comprime y protege aún más formando un cromosoma. Su tamaño
puede ser enorme, por ejemplo el cromosoma humano más largo contiene 249 millones de bases
[13].
La información genética de un individuo suele estar almacenada en varios cromosomas. Los
cromosomas se forman por la interacción de muchas moléculas independientes (estructura
supramolecular). Las moléculas que forman el cromosoma son fundamentalmente ADN y
proteínas, pero también ARN. Estas moléculas tienen la capacidad de interaccionar con el medio
celular y exponer las regiones del ADN necesarias para dar una respuesta adecuada. El genoma
10
humano está compuesto por 46 cromosomas (22 pares y los dos cromosomas sexuales) que
contienen en total aproximadamente 3 billones de pares de bases [13].
La representación de toda la información genética de un organismo se denomina el genoma de de
dicho organismo. Para representar un genoma en forma de datos de la manera más sencilla
posible, cada cromosoma se presenta como una cadena de caracteres con repetición de entre
(A,C,G o T). Los genomas representados como cadenas de caracteres permiten el tratamiento
computacional de la información genética que almacenan, recurriendo únicamente a la teoría de
análisis de secuencias de caracteres. Esta información puede asociarse o relacionarse con otros
datos experimentales, como por ejemplo datos clínicos, para imputar mutaciones, regiones
completas del genoma o estructuras de topología compleja y más avanzadas como las redes de
expresión, las redes de interacción o la red de procesos metabólicos [14-17].
1.5.1.1 Genes, ADN chatarra y epigenómica
El modelo clásico de gen, en el que un gen se activa y produce una función ha quedado superado
tras los avances de la revolución genómica [8]. Es importante conocer la reinterpretación
genómica del gen y en que se basa la regulación génica, antes de recurrir a las redes de
correlación y analizar la multitud de datos experimentales que produce la genómica.
Se estima que cada gen interactúa con un promedio de cuatro a ocho genes [17] y que participa
en 10 funciones biológicas [18]. Por esta razón, para analizar la expresión génica cada vez se
recurre más al análisis de redes y grafos.
La unidad básica funcional compuesta por un segmento de ADN se denomina gen. Su estructura
es la de la secuencia contenida en un segmento concreto del ADN perteneciente a una de las dos
hebras o cadenas complementarias. De alguna manera, el gen sería la unidad básica de la
información. Clásicamente también, cada gen produce proteínas. Desde el punto de vista del
análisis de secuencias, cada gen se define por un patrón concreto de caracteres que incluye
fundamentalmente un comienzo, una serie de módulos (cada uno de ellos con su propio
comienzo y fin) y un final de secuencia. Estos módulos permiten que los genes sean polimórficos
y consecuentemente un gen pueda producir varias proteínas en función de cómo se edite su
secuencia y sus módulos.
Los genes se activan gracias a regiones en el genoma cercanas, que mediante pequeñas
secuencias de bases resultan capaces de unir proteínas promotoras. Por lo tanto la definición
clásica de gen puede ampliarse a la de la secuencia del gen más las secuencias cercanas a él que
lo activan.
Sin embargo, la mayor parte del ADN no codifica estos genes y por ello se consideraba que el
resto del ADN era chatarra, que o bien solo servía para contener los genes en las regiones
adecuadas, o bien simplemente eran secuencias residuales de la evolución que, por razones
diversas, aún no se habrían eliminado [19].
Previo a la revolución genómica se consideraba también que conociendo la secuencia de todos
los genes, se conocería el funcionamiento de toda la célula. Sin embargo, tras las secuenciación
del genoma humano [13] el número de estos genes demostró ser sorprendentemente inferior al
esperado. De los aproximadamente 300,000 genes esperados, en la secuencia del genoma
humano se encontraron tan solo unos 20,000 que cumplieran con la definición clásica de gen.
Aun teniendo en cuenta la capacidad de los genes de poder producir una o más proteínas, esta
cantidad de genes resultaba desconcertante: aún disponiendo de toda la secuencia del genoma,
existía un gap de complejidad entre la realidad observable (fenotipo) y la información genética
11
(genotipo). No se podía concebir la complejidad de la expresión génica recurriendo solamente al
modelo de la bolsa de genes.
Pronto a partir de la revolución genómica se comenzó a encontrar cada vez más regiones de
ADN que sin responder a la definición clásica de gen, estaban significativamente conservadas
entre diferentes organismos, mientras el resto de ADN intergénico no se conservaba en la misma
proporción, por lo que estas secuencias no podían ser simplemente ADN chatarra: debían
contener alguna función desconocida.
Por poner un solo ejemplo de sospechas al respecto, previas a la revolución genómica, los
biólogos que estudiaban el desarrollo diferencial de distintos organismos, recurriendo a técnicas
de ingeniería genética, ya intuían e incluso conocían la existencia de regiones del ADN a veces
muy lejanas al gen [20], que bien podrían estar relacionadas con las diferencias en la expresión:
existía correlación entre la presencia y el grado de conservación de la secuencia del ADN en
estas regiones del genoma de cada organismo y sus diferencias morfológicas [21].
Se conoce como epigenética todo aquello que influye durante la expresión de un gen a parte del
propio gen. El estudio de toda esa información extra, más allá de la secuencia del genoma, se
denomina epigenómica [22].
1.5.2 Transcriptómica: Tecnologías para el estudio de la expresión génica.
La transcriptómica se refiere al conjunto de técnicas instrumentales bioquímicas diseñadas para
obtener todo el ácido ribonucleico (ARN) presente en una muestra, representarlo en forma de
datos sencillos de manejar y las tecnologías utilizadas para analizarlo. El conjunto de los datos
resultado de obtener todo el ARN presente en una muestra se denomina el transcriptoma de dicha
muestra.
En nuestra opinión, deben considerarse también parte de la transcriptómica los algoritmos
computacionales y las teorías matemáticas que permiten analizar estos datos y que colaboran en
que cada día se descubran más hechos relevantes acerca de cómo funcionan los genes y los
genomas.
El ARN se produce mediante el proceso de la transcripción del ADN. La transcripción es un
proceso biológico durante el cual un segmento concreto del ADN, persistente en una de sus dos
cadenas, se copia para dar la sub-cadena de ARN correspondiente. Clásicamente, el ARN o ácido
ribonucleico era considerado un estado intermedio de la información, que desde el cromosoma es
trasladado hasta la maquinaria celular, donde es capaz de generar las proteínas. Actualmente, se
conoce que también se transcriben genes e incluso secuencias que no codifican proteínas,
existiendo muchos tipos de ARN funcionales además de aquellos que producen proteínas.
El ARN no es por lo tanto solo información transitoria, además tiene actividad funcional y en
determinados casos, es parte fundamental de la estructura y el funcionamiento celular. Un
ejemplo es el ribosoma, molécula fundamental en la generación de las proteínas.
El ARN es otro polímero lineal compuesto por un glúcido, una base nitrogenada y un grupo
fosfato. La diferencias entre el ADN (molde) y el ARN (copia) son dos: el glúcido y una de las
cuatro bases nitrogenadas. En el ADN el glúcido es una molécula de desoxirribosa y en el ARN
una molécula de ribosa. La base nitrogenada timina T presente en el ADN se corresponde con la
base nitrogenada uracilo U en el ARN. Estas diferencias en la estructura tienen como
consecuencia diferencias físicas y químicas: el ARN es más flexible, es menos estable y también
es más reactivo. Características todas ellas necesarias para su función [12].
12
El ARN que la célula ya no necesita se destruye de una manera controlada por la maquinaria
celular. Cuando un gen vuelve a resultar necesario, se transcribe de nuevo desde el ADN, en
función del estado celular del momento. Las razones por las que el gen se expresa pueden ser
iguales, similares o incluso distintas cada vez.
El resumen, el ADN es siempre igual en todas las células de un mismo organismo y contiene la
información genética, mientras que las moléculas de ARN presentes en la célula son regiones
transcritas del ADN distintas en cada célula y en cada momento. Las partes del ADN que se
copian a ARN y su cantidad así como las interacciones posibles dependen totalmente del estado
y la actividad química intracelular y constituyen un sistema dinámico. La transcripción es el
primer paso para la expresión de un gen. La expresión de un gen es una variable cuantitativa que
mide su número de copias en forma de ARN. Finalmente, el conjunto de los complejos procesos
biológicos que controlan la expresión de los genes se conoce con el nombre de regulación de la
expresión génica. Aunque no podamos profundizar en la naturaleza de estos procesos, entre otras
cosas por ser muchos de ellos aún desconocidos, las redes de co-expresión génicas en las que se
centra este Trabajo de Fin de Máster constituyen una herramienta muy útil para estudiar la
regulación génica.
El campo interdisciplinar que estudia el funcionamiento de la maquinaria celular desde este
prisma, se conoce como Biología de Sistemas. La Biología de Sistemas entiende estos procesos
como funciones de dinámicas de estado y los trata tanto matemática como computacionalmente,
generando modelos teóricos.
Podemos opinar sin temor a equivocarnos que hoy en día se conoce solo la punta del iceberg en
lo relativo a los mecanismos moleculares implicados en la regulación génica, que son los
responsables del funcionamiento de la célula. Aunque el funcionamiento de la célula no haya
podido explicarse mediante modelos sencillos similares a la bolsa de genes, la comunidad
científica se esfuerza día a día en cerrar cada vez más el gap entre la secuencia de la información
genética en los genomas y la complejidad de los organismos. Para ello se recurre frecuentemente
a las tecnologías transcriptómicas, capaces de medir los niveles de expresión de los genes y
buscar la integración de estas con el resto de tecnologías de última generación como la genómica
y proteómica, utilizando para ello modelos y datos experimentales procedentes de la Medicina y
de la Biología Molecular.
1.5.3 Proteómica
La proteómica no tiene un papel relevante en el presente trabajo, pero consideramos necesario
introducirla mínimamente por su importancia.
Como hemos visto antes muchas moléculas de ARN generan proteínas. Las proteínas también
son un polímero lineal, pero en vez de estar formadas por una cadena de nucleótidos están
formadas por una cadena de aminoácidos. El proceso de transición de la información caracter a
caracter desde ARN a proteínas se conoce como proceso de traducción (figura 1). Cada tres
nucleótidos estos se traducen por un aminoácido siguiendo un código redundante pero no
ambiguo, el código genético [23]. La proteómica también se refiere al conjunto de tecnologías
utilizadas para aislar y secuenciar las proteínas, representarlas y almacenarlas en forma de
cadenas de caracteres y todas las demás tecnologías necesarias para analizar su secuencia, su
estructura y sus interacciones. Sin embargo, por su importancia mayor, la proteómica necesita
recurrir fundamentalmente a los datos de la estructura tridimensional de las proteínas dado que la
secuencia por sí misma no contiene tanta información como la de los ácidos nucleícos y en este
caso es la estructura tridimensional de una proteína la que determina su función y sus
interacciones.
13
En el presente Trabajo Fin de Máster nos hemos centrado en las redes de co-expresión de genes
pero durante el análisis de los módulos de co-expresión de la red hemos utilizado bases de datos
de interacción entre proteínas (productos de los genes) para ayudarnos a evaluar su función.
La genómica, la transcriptómica y la proteómica juntas definen casi totalmente el elenco actual
de técnicas bioquímicas y tecnologías computacionales aplicadas al estudio de la Biología, desde
un enfoque holístico e informacional. También hemos presentado brevemente la epigenómica,
relevante aunque bastante menos desarrollada que las anteriores. La relevancia científica del
resto de -omics hoy por hoy es menor y tampoco son objeto del presente trabajo fin de Máster.
Por estas razones no hemos considerado necesario introducirlas.
1.5.4 Ensamblado del genoma
La secuenciación y el ensamblado de los genomas empezó como una técnica bioquímica
laboriosa, en la que cada grupo de investigación se encargaba de secuenciar una región del
genoma base a base, lentamente. Mientras que esto era factible para genomas sencillos, el
genoma humano representaba un desafío mayor. Para conseguirlo se desarrollaron nuevos y
mejores métodos de secuenciación, totalmente automatizados, basados en amplificar la cantidad
de moléculas de ADN mediante su replicación, utilizando la misma molécula que utiliza la célula
(ADN polimerasa). Ese ADN amplificado se fracciona en cadenas más sencillas mediante
diversas técnicas físicas y químicas. Esto conlleva perder el orden de la secuencia y aunque
parece contraintuitivo sin embargo es lo que permite secuenciar en paralelo todas estas cadenas
más cortas y más manejables. En general la probabilidad de cometer un error de un secuenciador
es mayor cuanto mayor es la longitud de la secuencia que lleva secuenciada. Hoy en día, las
tecnologías de última generación (Next Generation Sequencing) utilizan avances que aceleran
aún más el proceso, cometiendo menos errores de lectura y a precios cada vez menores.
Una vez secuenciados todos los fragmentos del ADN amplificado, estos se pueden ensamblar
para obtener la secuencia del genoma utilizando computadoras y algoritmos de identificación de
secuencias. Si se ha replicado suficientemente la muestra inicial de ADN, esto es, si tenemos un
número suficientemente alto de cadenas de ADN idénticas y dado que se ha fraccionado cada
molécula más o menos al azar, estadísticamente siempre habrá un modo de ensamblar la
secuencia completa de nuevo recurriendo a la identidad de secuencias en las regiones solapantes
entre fragmentos consecutivos pertenecientes a distintas moléculas de ADN (figura 2).
Aunque el problema así expuesto parece resuelto, lo cierto es que la cadena de ADN posee largas
secuencias de baja complejidad que producen muchas identidades de secuencia que nada tienen
que ver con un solapamiento real. También existen muchas duplicaciones segmentales (unas
detrás de otras) tanto de secuencias cortas como largas, repetidas muchas veces. Incluso
duplicaciones distales (lejos unas de otras). En definitiva, la secuencia del genoma no es fácil de
ensamblar, y los algoritmos computacionales que se encargan de resolver el ensamblado
encuentran muchos puntos muertos, bucles y artefactos. Es por ello que antes de disponer de la
primera versión de un genoma se disponga de largas regiones más o menos bien ensambladas,
cuya calidad puede medirse tanto experimental como estadísticamente, que se conocen con el
nombre de contigs y supercontigs. Por la misma razón la primera versión de la secuencia de un
genoma siempre es la de peor calidad. La calidad va aumentando en cada nueva versión al
eliminarse los errores tanto de secuenciación (que también los hay) como de ensamblado, gracias
a evidencias experimentales y a mejoras computacionales en los procesos de ensamblado. La
versión del genoma humano en el momento de la elaboración de esta memoria es la hg38
(release 2013).
14
Figura 2. Esquema del proceso de ensamblado del
genoma [24]. (a) Primero se amplifica la secuencia
del genoma, produciendo múltiples copias de la
molécula, (b) las distintas copias se fragmentan al
azar, (c) se seleccionan los fragmentos con tamaño
adecuado para el proceso de secuenciación,
eliminando los más cortos (difíciles de ensamblar)
y los más largos (difíciles de secuenciar), (d) se
secuencian los fragmentos, obteniendo como
resultado distintas lecturas de los mismos, (e) las
lecturas se ensamblan mediante algoritmos
computacionales, generando contigs y presentando
gaps, (f) los contigs se van relacionando con
nuevas lecturas posteriores capaces de
relacionarlos y ordenarlos, aunque siguen
existiendo cierto número de gaps.
Además de ser secuenciados y ensamblados, los genomas también son anotados profusamente
con la información de todos los genes que contienen, la estructura en módulos (o exones) de cada
gen, secuencias de unión de promotores, factores reguladores de la transcripción y todo un
elenco de análisis comparativos de secuencias funcionales, como aquellas comentadas
anteriormente, reguladoras de la expresión génica. Los genomas se anotan tanto por evidencias
conocidas experimentalmente como utilizando el resultado de algoritmos predictivos de todo
tipo.
1.5.5 Aplicaciones en Biología y Medicina
La revolución genómica no solo tiene una gran repercusión en el desarrollo de la Biología como
ciencia, de lo que ya hemos hablado durante la introducción. Además ha permitido que la
Medicina aproveche toda esta información gracias a importantes estudios de asociación entre la
información genómica y los datos de ensayos clínicos. Como consecuencia, hoy en día
conocemos mejor los mecanismos moleculares y las consecuencias de las patologías o
enfermedades. La interacción entre la genómica y la medicina también abre las puertas a la
medicina personalizada, que permitirá asignar a cada paciente el mejor tratamiento posible, dada
su información genética.
Un ejemplo de este tipo de abordajes innovadores es el de los análisis GWAS (en inglés,
Genome-wide association study) que por ejemplo para el caso de la diabetes tipo 2 ya ha
conseguido imputar cientos de regiones del genoma a mayores tasas de riesgo de padecer la
15
enfermedad, utilizando datos de decenas de miles de pacientes, donde se recogen datos clínicos y
también la secuencia de sus genomas [25,26].
Figura 3. [2] Diagrama de alto nivel presentando un típico estudio de asociación (Genome Wide Association Study)
para relacionar genes y enfermedades mediante datos genómicos y el análisis de redes de co-expresión. Primero se
identifican variantes genéticas con efecto en la expresión (cis- y trans-eQTLs) y se mapean sobre la red de
co-expresión. Se añaden nuevas capas de datos como pueden ser interacciones proteína-proteína (PPI), sitios de
unión de factores promotores de la transcripción (TF binding) o secuencias de unión de micro ARN (miRNA
binding) contrastadas experimentalmente o predichas in-silico. Se utiliza una red de co-expresión para identificar
módulos, genes centrales (HUBs) y para predecir la función de genes asociados a rasgos desconocidos. Los módulos
identificados pueden ser analizados mediante diversas técnicas y las hipótesis contrastadas contra otros datos de
soporte.
Otro caso de éxito de las tecnologías de última generación es el análisis de los datos de
secuenciación del contenido de ARN celular, lo que nos permite la cuantificación del nivel de
expresión de cada gen y la construcción de redes génicas de co-expresión, con el objetivo de
analizar las relaciones entre la co-expresión de los genes y los datos clínicos [2]. Este método de
análisis es el que seguimos en el presente trabajo fin de Máster.
16
ácido ribonucleico (ARN) presente en la muestra. En la práctica, en los estudios de genómica
funcional, hoy en día se recurre a la cuantificación del ARN, que normalmente se realiza
mediante el diseño de microarrays de ADN [27] y en los últimos tiempos, también se recurre
directamente a la secuenciación de todo el ARN presente en la muestra (RNAseq) [28]. A
continuación exponemos las diferencias, ventajas y desventajas de cada una de estas
técnicas[29].
Figura 4. Array de ADN. (1) Sobre una
placa se fijan distintas secuencias de ADN
que actuarán como sonda. (2) De la
muestra con ARN a estudiar se obtienen
secuencias de ADNc complementario,
marcadas con una molécula que sea capaz
de emitir fluorescencia. (3) Se presenta la
muestra y se deja que las moléculas
hibriden por su similitud de secuencia.
Posteriormente se lava el array de ADN
para eliminar posibles hibridaciones
inespecíficas. (4) Finalmente, se revela la
imagen del array de ADN gracias al
marcado y esta imagen se analiza
computacionalmente para detectar picos de
expresión.
Las secuencias de ADN de la muestra que sean idénticas o muy similares a las secuencias de
ADN de las sondas del microarray se unirán a ellas, por la misma razón que las cadenas
complementarias del ADN se unen para formar la doble hélice. En este caso, la unión no tiene
por que ser perfecta, basta con que ambas cadenas sean suficientemente similares en su
secuencia. Una vez se deja el tiempo pertinente para que las cadenas se unan específicamente, se
lava la muestra y se eliminan las secuencias que no se hayan unido con suficiente especificidad.
Una vez lavado, el microarray de ADN se revela mediante diversas técnicas que tienen que ver
con el marcado de las moléculas de la muestra y que permiten obtener una imagen con diferentes
intensidades. No todos los microarrays pueden inferir niveles de expresión. En algunos casos se
presentan dos muestras diferentes al mismo microarray, y se utiliza la capacidad de competir por
unirse de las moléculas marcadas de cada muestra para medir su expresión diferencial.
Valga indicar que los microarrays son muy dependientes de su diseño, tanto para el tratamiento
de los datos como para el objetivo del experimento. Además, los microarrays son una técnica que
se mueve casi totalmente dentro del plano de la metodología experimental, más que una técnica
de medida. Aunque el tratamiento posterior de los datos requiere de avanzados algoritmos y
modelos estadísticos, lo cierto es que esto también resulta por lo general poco ventajoso y se
17
debe más que a la elegancia de la técnica, a la necesidad de controlar multitud de problemas
experimentales asociados a su diseño.
Las ventajas de los microarrays de ADN son las siguientes [29]:
● Existen importantes estándares, métodos robustos y confiables y protocolos comparables,
que han sido probados durante décadas con éxito.
● Al ser bien conocidos el análisis de datos resulta también muy accesible.
● El almacenamiento de datos no es un problema (orden de MB).
● Su precio es por lo general muy inferior.
Las principales desventajas de los microarrays de ADN son las siguientes [29]:
● Las moléculas sonda deben diseñarse en base a secuencias conocidas previamente. El
microarray debe volver a realizarse cuando se dispone de nueva información de
secuencias.
● No permiten detectar nuevos genes o variaciones estructurales.
● Baja sensibilidad que no permite diferenciar secuencias similares o isoformas.
● Es una solución al problema basada en un experimento químico, no puramente digital.
● Solo pueden medir valores relativos de expresión, no valores absolutos.
Pese a todo, los microarrays de ADN son una técnica muy particular, muy personalizable y que
puede presentar ventajas en determinadas situaciones. El mejor ejemplo es su capacidad de
detectar interacciones entre ADN y proteínas [30,31].
2.2 RNA-seq
La secuenciación de todo el ARN presente en una muestra (esto es, como vimos, su
transcriptoma), incluso el transcriptoma al nivel de una única célula [32] también puede
obtenerse mediante tecnologías de Next Generation Sequencing. Esta técnica se conoce como
RNA Sequencing o RNA-seq.
Del mismo modo que para la secuenciación de genomas posteriormente a la secuenciación
resulta necesario ensamblar el genoma, en el caso de la secuenciación del transcriptoma también
resulta necesario ensamblar los fragmentos de ARN. En este caso sin embargo el resultado final
no son cadenas de millones de caracteres (el genoma) cada una de ellas representando un
cromosoma, sino que deben ensamblarse los miles de cadenas de ARN copiadas desde diversos
segmentos del genoma (esto es, los genes), que como vimos constituyen la información genética
que se está expresando en ese momento para esa muestra concreta (ver figura 5, mapeo de la
expresión de un gen sobre el genoma de referencia).
El proceso de ensamblado de las secuencias de ARN se puede obviar si disponemos del genoma
ensamblado como referencia, recurriendo a técnicas bioinformáticas basadas en la estadística y la
computación, alineando cada fragmento de ARN sobre las coordenadas del genoma basándose
en la identidad o la similitud entre secuencias. Para ello se ha de disponer del genoma
ensamblado y suficientemente anotado en el que al menos se encuentren las coordenadas de cada
gen (figura 5).
Si este es el caso, pueden disponerse sobre el genoma todos los fragmentos de ARN
pertenecientes a los transcritos que había presentes en la muestra, y cuantificar cuánto se está
expresando cada gen para todos los genes presentes en la muestra, midiendo la cantidad de
fragmentos que quedan dentro de las coordenadas de cada gen en el genoma. Para que esto sea
posible hay que amplificar suficientemente el ARN presente en la muestra, con objeto de cubrir
cada gen con suficientes fragmentos de ARN.
18
Figura 5. Proceso de alineamiento de fragmentos de RNA-seq sobre la secuencia anotada del genoma. Visión
simplificada de RNA-seq, pero que sirve para entender la base más importante. Los fragmentos de ARN presentes
en la muestra, se alinean por identidad de secuencia sobre la secuencia del genoma de referencia. Si los fragmentos
de ARN alineados caen dentro de un gen anotado en el genoma de referencia, se procede a su conteo. Conociendo la
distribución de fragmentos de ARN que entran dentro de las coordenadas de cada gen anotado, se puede calcular el
nivel de expresión de cada gen. Una de las ventajas más significativas de RNA-seq frente a los arrays de ADN es
que de este modo puede detectar no sólo la expresión del gen si no de cualquiera de sus isoformas (que exones hay
presentes), así como identificar formas no descritas.
Tabla 1. Matriz de conteo normalizada. Los genes se presentan en cada fila (20.531 genes) y las muestras en cada
columna (con el código de barras del paciente). Cada columna representa un experimento de conteo del número de
fragmentos de ARN alineados para cada gen del genoma.
19
De los fragmentos de las moléculas de ARN dispuestos sobre las coordenadas del genoma
(figura 5) se obtiene una matriz de conteos, donde encontraríamos números enteros que reflejan
el número de lecturas que han sido alineadas para cada gen en cada experimento. Esta matriz de
datos de conteo debe normalizarse, siendo este un campo actual de investigación [28]. Es
fundamental escalar los valores en función del número de lecturas totales para cada muestra
(suma de lecturas de cada columna). Por conveniencia se escala también al número de lecturas
por millón. Además también se deben escalar los datos de conteo en base a la longitud de cada
gen, ya que para los genes con una mayor longitud de secuencia se esperan más lecturas, aunque
se expresen en igual cantidad que otros de secuencia más corta. De este modo, una matriz de
conteo cruda (con valores enteros) se convierte en una matriz normalizada (ver tabla 1). Esta
normalización es la que utilizamos en el presente Trabajo Fin de Máster, se conoce como FPKM
(Fragments per Kilobase Million) es un estándar y es la forma en la que se normalizan los datos
de RNA-seq de TCGA.
Las ventajas de RNA-seq son [29]:
● Es independiente al conocimiento previo.
● Permite visualizar y analizar todo el transcriptoma.
● Mayor sensibilidad para genes con baja expresión.
● Se pueden detectar variaciones estructurales.
● Solución practicamente digital. Todas las partes de su diseño dependen de tecnologías de
medida, sin apoyarse en un experimento previo de interacción molecular en el
laboratorio, como es la hibridación de cadenas de ADN (microarrays).
● Capacidad de medir cantidades absolutas.
Las desventajas de RNA-seq son [29]:
● Tecnología menos conocida, por lo que no dispone de estándares tan potentes como los
microarrays, ni protocolos tan desarrollados. Distintos experimentos pueden ser
complejos de comparar.
● El análisis de datos puede ser un desafío por la cantidad de datos que genera y la falta de
décadas de casos de éxito en los que apoyarse.
● El almacenamiento de datos puede ser un problema (orden de GB y más).
● Precio elevado, aunque cada vez resulta más económico.
20
expresión [2]: los niveles de transcripción de dos genes co-expresados presentan una
dependencia lineal (directa o inversa) a través de las muestras.
Figura 6. Construcción de redes de co-expresión y detección de módulos [2]. Ejemplo de análisis de una red de
co-expresión. Primero, se determina la correlación por pares para cada posible par de genes en los datos de
expresión. Estas correlaciones por pares pueden ser representadas como una red. Los módulos dentro de estas redes
se definen mediante el análisis de agrupamiento. La red y los módulos pueden ser interrogados para identificar
reguladores, enriquecimiento funcional y genes centrales. El análisis de co-expresión diferencial puede utilizarse
para identificar módulos que se comportan de forma diferente en diferentes condiciones. Los genes de enfermedades
potenciales pueden ser identificados usando un enfoque de culpabilidad por asociación (GBA, por sus siglas en
inglés) que resalta los genes que están co-expresados con genes de enfermedades.
21
2.3.1.1 Construcción de la red de co-expresión
Una red de co-expresión de genes puede representarse matemáticamente por una matriz de
adyacencia N × N , donde cada elemento aij refleja la similitud de los patrones de expresión
entre un par de genes (nodo i , nodo j ). En nuestro caso, para cada tumor, tenemos una matriz
con los N genes seleccionados de entre todos los genes del genoma, o del genoma completo.
La fuerza de la conexión se define por la similitud de la co-expresión sij como el valor absoluto
del coeficiente de correlación entre los perfiles de expresión del nodo i y el nodo j a lo largo de
las distintas muestras o experimentos. Los perfiles de expresión de cada gen son por lo tanto las
distintas filas en la matriz de datos, y los distintos experimentos son cada columna (ejemplo de
matriz de datos en la tabla 1).
(
sij = ∣∣cor xi , xj ∣∣) (ecuación 1)
β se escoge de forma que la red satisfaga las condiciones de una red con topología libre de
escala. Los autores presentan una metodología que evalúa la topología libre de escalas de la red,
mediante el cálculo de un índice de ajuste. Para una explicación detallada, véase Zhang y
Horvath [34].
En definitiva, para encontrar el mejor valor de β, se analiza gráficamente cómo varía el índice de
ajuste libre de escala para varios valores de β (ver figura 9). Se considera una red libre de escala
partir de un valor del índice de R2 superior a 0.9 . Idealmente se acepta como mejor valor de β
aquel que primero satisface esto e idealmente que la curva se encuentra saturada o cercana a la
saturación (figura 9).
La idea de utilizar la aproximación a topología libre de escala es no depender de un umbral duro,
basado en un valor de corte para la correlación entre pares de genes, lo que resulta muy sensible
al ruido estocástico por lo que necesariamente ha de ser muy restrictivo, con la consecuente
pérdida de información. Este ruido se puede reducir elevando a una potencia. Para no perder
información, según los autores [34] se podría utilizar un valor de corte para la significancia
estadística de cada correlación, pero los p-valores son sensibles a la escala. Utilizando la
aproximación de los autores de WGCNA, se reduce el ruido estocástico (elevando a β) y además
podemos ajustar el valor de β a una red libre de escala, lo que evita los problemas asociados al
tamaño de los datos (algo muy importante en datos de arrays de ADN y de RNAseq).
22
De esta forma, la matriz de distancias, se puede calcular por ejemplo como la matriz de
diferencias:
w ij = 1 − aij (ecuación 3)
En el presente trabajo, utilizamos la distancia del método de TOM (Topological Overlap Matrix)
propuesto por Horvath y colaboradores [1,34] explicado brevemente en el siguiente apartado.
2.3.1.2 Identificación de los módulos
La metodología WGCNA utiliza un algoritmo de clustering jerárquico para identificar los
módulos. Para medir la distancia entre grupos, WGCNA utiliza una medida de superposición
topológica TOM que según los autores resulta en módulos biológicamente más significativos
[34].
La idea central de TOM es tener en cuenta la fortaleza de la conexión directa ( aij ) en la matriz
de similitud y además utilizar también los vecinos compartidos. Este tipo de abordaje hace que
las redes sean menos sensibles a las conexiones al azar o a la falta de conexiones debidas al ruido
aleatorio [35].
23
número de vecinos compartidos refuerza la relación entre dos nodos, habitual en las redes
biológicas. En otros casos puede ser mejor recurrir a la matriz de adyacencias o a otras
interpretaciones.
Para identificar los módulos de co-expresión, los genes se agrupan jerárquicamente en función de
su distancia TOM (ecuación 5). Los módulos de co-expresión génica se definen después
cortando ramas. Hemos empleado el método de poda dinámica desarrollado por Langfelder y sus
colegas [36] que permite mejores rendimientos en dendrogramas complicados.
DistT OM ij = 1 − T OM ij (ecuación 5)
Otra posibilidad es realizar la asociación entre el eigengen de cada módulo y cada rasgo
fenotípico de interés. Para evaluar la asociación de un módulo a un fenotipo también se puede
utilizar la significancia del módulo, que se define como la significancia media de los genes del
módulo. Esta metodología puede utilizarse para analizar cualquier rasgo para el que se disponga
de datos y los metadatos para enlazarlo a cada experimento (columna) de la matriz de expresión.
Los módulos significativamente asociados a rasgos pueden estar relacionados con el fenotipo y
son importantes candidatos para su análisis experimental.
En lugar de relacionar miles de genes con un rasgo, WGCNA se centra en la relación entre unos
pocos módulos (normalmente menos de 10) y el rasgo. Se calcula la correlación entre el rasgo de
la muestra y el eigengen de cada módulo, lo que alivia en gran medida el problema de las
pruebas múltiples inherente al análisis de datos de microarrays [38].
2.3.1.4 Detección de factores clave
Puede demostrarse que el eigengen de un módulo está altamente correlacionado con el gen que
posee la mayor conectividad intramodular [39]. Este gen sería un hub en la red. Los nodos que
24
tienen el mayor número de conexiones (genes hub) son los más importantes, porque el mal
funcionamiento de este gen afectaría a todos los genes conectados.
Para resolver la detección de módulos de co-expresión y relacionarlos, ha sido suficiente el
concepto de eigengen y la teoría básica de WGCNA. Analizar en detalle la red recurriendo a la
teoría de grafos, finalmente no ha sido un objetivo para este Trabajo Fin de Máster, aunque
consideramos que sería interesante y se plantea en el apartado 6 como trabajo futuro.
Figura 7. Hubs intra- en inter-moleculares [2]. Los
hubs intermodulares conectan módulos de red. La
línea roja indica un ejemplo de la ruta más corta a
través de la red entre un par de nodos. Los hubs
intramodulares (marcados con naranja) conectan
nodos del módulo (genes) y suelen tener una gran
relevancia biológica.
25
Figura 8. Casos posibles de co-expresión diferencial
[2]. Cambios en los patrones de co-expresión génica
que pueden ocurrir entre muestras. La co-expresión
diferencial puede ocurrir como la presencia de un
módulo sólo en uno de los grupos de muestra (A),
como diferencias en la estructura del módulo (B) o
como diferencias en la fuerza de correlación entre los
miembros de los módulos (C). Además, la
co-expresión diferencial puede detectarse si un
módulo interconectado más grande se divide en varios
más pequeños (D) o si un grupo de genes cambia sus
compañeros de correlación ['salto de genes' (E)].
Análogamente a como se detectan los módulos de una sola red (apartado 2.3.1.2), se utiliza la
matriz TOM de consenso para detectar los módulos conservados entre dos o más redes (ver
figura 13, análisis de consenso realizado utilizando nuestra aplicación web).
La estructura de los módulos de red de consenso y la lista de genes intervinientes se pueden
comparar con la de los módulos específicos de cada tumor, con la idea de analizar la
co-expresión diferencial (ver figura 8 y apartado 4 resultados).
En este Trabajo Fin de Máster, hemos seleccionado dos grupos de genes específicos del tumor A
1) los genes presentes en módulos de co-expresión de A que no forman parte del
correspondiente módulo de consenso (genes específicos de A para ese módulo) y 2) los genes de
los módulos de co-expresión del tumor A para los que no se encuentra un módulo de expresión
relacionado en la red de consenso (módulos específicos de la red de co-expresión de A ).
Para detectar los módulos de A que están relacionados con los módulos del consenso C
calculamos las superposiciones de los genes pertenecientes a cada par de módulos entre A y C
utilizando la prueba exacta de Fisher (también conocida como prueba hipergeométrica) [34].
Para visualizar esta información, mostramos la tabla de recuentos para cada intersección, con un
código de color que indica su significancia estadística (p-valor del test exacto de Fisher, ver
Figura 13, análisis de consenso realizado utilizando nuestra aplicación web).
3 Diseño y desarrollo
Hemos implementado una herramienta web para productivizar el algoritmo WGCNA de
Langfelder y Horvarth [33] y ponerlo a disposición de la comunidad científica (usuarios)
abstrayendo la complejidad de la genómica, la bioinformática y la teoría matemática para la
construcción y el análisis de redes de co-expresión, ya que entendemos que no todos los usuarios
26
potenciales dominan todos los ámbitos multidisciplinares necesarios para recurrir directamente al
código en R y explorarlo. El usuario puede seleccionar un tumor de entre los disponibles (ver
siguiente apartado), aplicar una serie de parámetros sencillos, y construir la red de co-expresión.
El usuario obtiene como primer resultado los módulos presentes en la red de co-expresión y su
relación en base se agrupamiento jerárquico basado en la correlación de sus eigengenes.
Adicionalmente puede realizar un análisis de consenso entre dos tumores para obtener también
los módulos de consenso, la relación entre estos, así como las listas de genes para cada módulo.
Estos genes se pueden consultar uno a uno mediante el hiperenlace a bases de datos
especializadas. Con los módulos de la red de co-expresión génica y sus correspondientes genes,
el usuario puede recurrir a multitud de herramientas bioinformáticas disponibles en Internet cuya
entrada de datos es una lista de genes y analizar cada módulo.
En este Trabajo Fin de Máster, utilizaremos una de estas herramientas externas para analizar un
caso de uso ilustrativo que iremos desarrollando a lo largo de esta sección (ver apartado 4
dedicado a resultados y los apéndices donde se recogen los datos del análisis).
27
estudios de asociación se pueden descargar también los datos clínicos y el conjunto de
metadatos.
Los ficheros descargados de TCGA utilizan identificadores internos para relacionarse y requieren
de un ensamblado y un preprocesamiento para obtener la matriz de conteos en el formato
adecuado. Además de un formato adecuado, resulta interesante utilizar el código de barras del
paciente o ensayo, los identificadores únicos de gen y los nombres comunes de los genes. Esto
nos permitirá integrar los resultados con cualquier otra herramienta externa así como mostrarlos
con nombres accesibles para el usuario.
Para construir las redes de co-expresión tan solo necesitamos la matriz de conteos de cada tumor
(ver apartado 2.2. de introducción a RNAseq y tabla 1). A esta matriz podemos llegar procesando
los ficheros descargables desde el portal de datos de TCGA (recomendamos utilizar RTCGA que
permite obtener los datos en una sola matriz con el código de barras de cada muestra),
recurriendo a los datos preprocesados en el algún trabajo previo (como citado en [42] lo que
resulta cómodo para una versión de desarrollo pero no permite un flujo ETL) o mediante la
integración con el paquete RTCGA y la API de TCGA[41].
En cualquiera de los casos hubo que implementar las siguientes transformaciones:
1. Concatenado de los datos para cada tumor a una matriz RNAseq con símbolos de genes
como fila y códigos de barras de pacientes TCGA como nombres de columnas (ver tabla
1).
2. Eliminación de los datos de control. Son necesarios si queremos realizar un análisis de
sobre-expresión o infra-expresión de genes respecto a un control, pero WGCNA no los
necesita para construir la red de co-expresión. Dos genes expresados en un tumor están
co-expresados si sus perfiles de expresión se correlacionan, independientemente de su
nivel de expresión respecto a un control. Los datos de control se conservan en un fichero
aparte, para permitir su comparación con los datos tumorales, si fuera pertinente.
3. Preprocesado y normalización de los datos. Es una etapa importante que puede mejorar la
sensibilidad [43]. Inicialmente consideramos normalizar los datos de RNAseq con la
metodología voom [44]. El método voom estima la media-varianza de los conteos y
genera un peso preciso para cada observación. De esta manera, se puede realizar un
análisis comparativo con todos los flujos de trabajo bioinformáticos desarrollados
originalmente para el análisis de microarrays. Sin embargo, la distribución de los conteos
proporcionada por los datos de RNASeq se ajusta mejor por una binominal negativa [45],
por lo tanto el uso de esta metodología de normalización no está suficientemente
justificado. Además, la conveniencia del uso de una técnica u otra para la normalización
de datos y el posterior análisis de redes de co-expresión es un campo de investigación aún
abierto [46]. Dado que el algoritmo WGCNA puede trabajar con los datos normalizados
por FPKM (WGCNA FAQ [47]), es suficientemente genérico, permite comparar entre
muestras y es uno de los que se suele utilizar en el análisis de datos de TCGA, siendo
además datos accesibles y preprocesados por TCGA, seleccionamos esta opción (FPKM
Fragments per Kilobase Million).
4. Transposición de la matriz de datos, ya que para los pasos anteriores (ver tabla 1)
disponer los genes por filas y los experimentos por columnas era adecuado, pero
WGCNA necesita la transpuesta. Realizar esto como parte del flujo ETL es beneficioso
pues de otro modo debería realizarlo la aplicación cada vez que accede a los datos.
28
3.1.3 Carga
Los datos así procesados se cargan en un almacén de datos para hacerlos disponibles a la
aplicación. Disponer de un flujo ETL permite actualizaciones rápidas y automatizadas de los
datos cada cierto tiempo o cada vez que se produce un nuevo release. También facilita la
incorporación de nuevos datos cuando se añaden nuevos estudios o nuevos tumores en TCGA.
Hemos seleccionado la tercera opción ya que es nuestra intención tratar conjuntos de datos
masivos (Big Data) y no deseamos complicar la selección de métodos y parámetros para mayor
comodidad del usuario. El método seleccionado es el método proporcionado por el paquete
WGCNA blockwiseModules.
29
Este método utiliza un clustering de dos niveles. Primero se agrupan genes en bloques de un
tamaño determinado por el usuario (hemos utilizado bloques de 5000 genes) recurriendo a un
método de agrupamiento barato computacionalmente (projective K-means [48]). Después se
analiza la red en cada bloque por separado. Los módulos cuyos eigengenes están altamente
correlacionados se fusionan en un solo módulo en base al parámetro mergeCutHeight, que es
el umbral de distancia entre módulos para poder fusionarlos (utilizamos su valor por defecto). La
ventaja del enfoque por bloques es el control en el uso de la memoria (mucho menor y problema
habitual con conjuntos de datos masivos) y menor complejidad computacional (lo que acelera el
proceso de detección). Por contra los módulos pueden no ser los óptimos, asignando algún gen
periférico a un módulo diferente al que se asignaría durante un análisis completo (figura 10).
Esto es algo que en cualquier caso también pasa al utilizar el método paso a paso al personalizar
cada paso.
Figura 9. Análisis de la topología de la red para varios umbrales suaves ( β ). El panel izquierdo muestra el índice de
ajuste libre de escala (eje y) en función de la potencia β (eje x). La línea base muestra el valor R2 0.9
correspondiente a una red libre de escala. El panel derecho muestra la conectividad media (grado, eje y) en función
de la potencia β (eje x).
La figura 9 constituye un caso ilustrativo de cómo deben seleccionarse los valores de β para
comparar redes. Seleccionamos el valor de 5 dado que es el menor valor de β una vez la curva de
ajuste se encuentra saturada, y es un valor cercano a la línea base recomendada como criterio de
red libre de escala, para ambos tumores.
30
Figura 10. Detección de módulos y comparación entre método normal y por bloques. La detección de módulos se
realiza mediante agrupamiento jerárquico y una poda dinámica. Los módulos se presentan abajo utilizando
diferentes colores (arriba utilizando el método de un solo bloque y debajo utilizando el método de bloques). El
método basado en bloques es significativamente más rápido y permite controlar el consumo de la memoria de la
computadora, ofreciendo escasas diferencias de rendimiento en la detección de módulos.
31
significativos, aplicamos el test exacto de Fisher, por lo que la salida es un p-valor para cada par
de módulos de BRCA y de CONS. Para visualizar esta información, representamos una tabla de
los recuentos para cada intersección. Se añade a la derecha un código de color que indica el
grado de significancia (ver Figura 13, tabla superior derecha).
Figura 11. Módulos y relaciones entre los diferentes módulos (correlación de los eigengenes de cada módulo) entre
los tumores BRCA (arriba) y PRAD (abajo). A la izquierda se muestra el árbol para los 5,000 genes más variables, a
la derecha el árbol para los 20,531 genes presentes en el genoma humano.
32
La ventaja principal de la herramienta web que hemos desarrollado es que en ella se encuentran
perfectamente ensambladas la multitud de piezas que permiten ir desde las fuentes de datos
públicas hasta la obtención de resultados aplicando el algoritmo WGCNA. Nuestra herramienta
facilita todas las piezas del puzzle de una manera además fácil de entender y manejar para el
usuario.
La motivación para desarrollar esta herramienta de uso muy sencillo desde el punto de vista de
su aplicación a la biología y la medicina es permitir a los usuarios realizar un análisis sin
embargo avanzado, donde no solo se obtienen los módulos de co-expresión para un tumor, si no
que también se puede realizar un análisis comparativo entre dos tumores para encontrar los
módulos de consenso y a partir de ellos obtener listas de genes generalistas que se co-expresan
en ambos tumores y genes específicos de cada tumor, que pueden estar relacionados tanto con
sus diferencias a nivel patológico (cómo se originan y evolucionan) como a nivel farmacológico
(si los tratamientos pueden ser similares o han de ser diferentes).
La lista de genes generalistas aparece bajo el título de “módulo de consenso” y el color del
módulo. Los genes del del tumor aparecen bajo el título del módulo y nombre del tumor, y los
genes específicos del tumor son el resultado de eliminar los genes consenso de la lista de genes
del tumor.
El diseño de la interfaz se ha realizado con la idea de simplificar al máximo la aplicación del
algoritmo y la necesidad de interacción con el usuario a la hora de seleccionar parámetros (ver
Figuras 11 y 12) pero sin renunciar a la potencia del algoritmo.
Para comprobar que la herramienta es aplicable a casos reales de investigación en Biología y
Medicina hemos realizado pruebas y análisis de los resultados del ejemplo mostrado durante la
construcción de las redes de co-expresión para cáncer invasivo de mama (BRCA) y el
adenocarcinoma de próstata (PRAD) y su análisis de consenso. Los resultados se exponen en el
apartado 4 y los apéndices.
El usuario puede analizar las redes WGCNA y los módulos de co-expresión, para cualquier
tumor presente en TCGA (The Cancer Genome Atlas) gracias a la capa ETL desarrollada para
aprovisionar los datos necesarios desde el portal de datos de TCGA. El usuario también puede
reducir la dimensionalidad aplicando una selección de genes en base a su mayor variabilidad
(median absolute deviation, MAD), filtrar genes que presenten insuficientes datos de conteo (ver
tabla 1 de conteo), y representar la curva de ajuste a red libre de escala, para seleccionar un
umbral suave β a su criterio. Con esto, se calcula la red WGCNA y se detectan los módulos
co-expresados en base a la distancia TOM, vista en el apartado 2.3.1.2 y ecuaciones 4 y 5 (ver
también Figura 11).
Seleccionando dos redes de las construidas previamente, se puede realizar un análisis de
consenso y mostrar la tabla de los módulos relacionados entre dos tumores. Se pueden también
obtener las listas de genes presentes en cada módulo. Hemos añadido un hiperenlace a la web del
NCBI (National Center for Biotechnology Information, U.S. National Library of Medicine) para
que el usuario pueda consultar la información de cada gen (ver Figura 12).
Las listas de genes se pueden cortar y pegar en herramientas externas cuya entrada es este tipo de
lista para realizar análisis posteriores. Durante los resultados mostraremos un ejemplo aplicando
una de estas herramientas para realizar un screening funcional de los módulos más significativos.
Los resultados de esta evaluación funcional están resumidos disponibles y detallados en el
apéndice C.
33
Figura 12. Interfaz de usuario 1/2. El
usuario puede seleccionar un tumor y
reducir la dimensionalidad en este caso de
20,531 genes del genoma se seleccionan
los 5,000 más variables (median absolute
deviation, MAD). También se filtran los
genes que presentan conteos en menos de
un porcentaje de muestras (por defecto se
usa un 80% recomendado [47]) y se
procede calculando el umbral suave, o si
este ya fuera conocido, calculando la red
WGCNA. Como resultado se presenta el
árbol de los módulos que se han
encontrado en la red.
34
Figura 13. Interfaz de usuario 2/2.
Para realizar el análisis de consenso se
deben haber calculado previamente
dos redes WGCNA. El menú
desplegable muestra todas las redes
WGCNA que se han creado
previamente y permite seleccionarlas.
El resultado del análisis de consenso
es una tabla que compara todos los
módulos del primer tumor
seleccionado con los del consenso,
añadiendo un código de color que
representan el p-valor del test de
Fisher para el número de genes
presentes en ambos grupos.
Cualquiera dos módulos de interés
pueden seleccionarse y se muestra la
lista de genes. Desde cada gen se
accede a la información de ese en la
web del NCBI (National Center for
Biotechnology Information, U.S.
National Library of Medicine).
35
4 Resultados
Comentamos a continuación los resultados más interesantes de la comparación entre el cáncer de
mama (BRCA) y el cáncer de próstata (PRAD) que hemos realizado como ejemplo en los
apartados anteriores. Estos resultados no pretenden ser más que una muestra de la capacidad de
la herramienta desarrollada, basada en WGCNA, para detectar redes de expresión relevantes
desde el punto de vista biológico. Pero también resultan observaciones interesantes y generan
nuevas hipótesis de cara a investigaciones futuras. Hemos elegido los cánceres de mama (BRCA)
y el de próstata (PRAD) debido a su incidencia, encontrándose entre los más comunes
diagnosticados [49] y su similitud [50]. Aunque estos cánceres surgen en distintos órganos,
ambos órganos son típicamente dependientes de hormonas y tienen similitudes biológicas muy
notables.
Por lo tanto, del análisis esperamos lo siguiente:
● A nivel global, encontrar similitudes notables entre ambas redes y módulos de
co-expresión.
● A nivel general, caracterizar los módulos de co-expresión comunes entre ambos tumores,
exclusivos para este tipo de carcinomas. Mediante el análisis comparativo de los datos de
expresión de dos tumores similares, esperamos que los módulos de co-expresión
consenso sean claros candidatos para entender la naturaleza de este tipo de carcinomas,
cuyo comportamiento es similar en ambos tejidos.
● A nivel particular, caracterizamos los genes específicos de BRCA. Estos genes nos
permitirán entender mejor las diferencia entre ambos tumores.
36
en la interfaz de programación de aplicaciones y la visualización de los resultados en forma de
clústeres. Los resultados de estos análisis se recogen en el Apéndice C.
Darkred 31 29 62 Sienna3
Tabla 2. Módulos seleccionados para el análisis de enriquecimiento funcional. A la izquierda se muestran los
módulos de la red de consenso entre el cáncer de mama (BRCA) y el cáncer de próstata (PRAD) en total 951 genes,
aproximadamente el 4,6% del genoma. A la derecha los módulos de cáncer de mama (BRCA) que pueden imputarse
como los más similares a los módulos consenso anteriores, en total 2163 genes, aproximadamente un 10,5% del
genoma. El módulo de consenso puede tener más genes ya que por simplicidad hemos seleccionado el módulo de
BRCA que comparte más genes con el consenso, pudiendo existir varios módulos de BRCA relacionados con el
mismo módulo de consenso. Los genes específicos de BRCA para cada módulo de BRCA seleccionado son aquellos
resultantes de eliminar los genes que aparecen en el módulo de consenso correspondiente. Las listas de genes para
cada módulo se encuentran en el Apéndice B.
A continuación comentamos los resultados del análisis de enriquecimiento funcional para cada
módulo de consenso:
Módulo Green
Encontramos un enriquecimiento significativo de genes relacionados con “Carcinoma” en la base
de datos Jensen Diseases [53] una base de datos que utiliza algoritmos de análisis de texto para
asociar genes a enfermedades. Del análisis de la base de datos de ontologías génicas GO [54]
encontramos un enriquecimiento en genes localizados en la matriz extracelular. Recurriendo a la
base de datos ARCHS4 Tissues [55] que relaciona genes con las muestras de los análisis de
RNAseq en los que aparecen expresados, encontramos que los genes del módulo green están
relacionados con el tipo celular “Fibroblasto”. Además, encontramos evidencias de que los
tejidos donde estos genes presentan expresión son de próstata adulta, en primer lugar.
Con estos datos en mente, recurrimos a la literatura para ver si existe alguna evidencia
experimental de carcinomas donde el tipo celular fibroblasto sea relevante. Encontramos una
publicación relevante en la que se caracteriza el mecanismo molecular de cómo los carcinomas,
sin capacidad invasiva, pueden secuestrar células de fibroblasto para aprovechar la movilidad de
estas células y expandirse a otros tejidos [56].
37
El módulo green sugiere la hipótesis de que los genes co-expresados en este módulo y la red
WGCNA correspondiente, podrían constituir genes e interacciones útiles para diseñar fármacos
capaces de impedir que los carcinomas de tipo BRCA y PRAD invadan tejidos cercanos.
Módulo Magenta
Encontramos genes relacionados con la angiogénesis (base de datos Panther [57]). La
angiogénesis es un fenómeno normal durante el desarrollo embrionario, el crecimiento del
organismo y en la cicatrización de las heridas. Sin embargo también es un proceso fundamental
en la transformación maligna del crecimiento tumoral [58]. De bases de datos que contienen
interacciones proteína-proteína (PPI Hub Proteins [59]) encontramos enriquecimiento de genes
que interaccionan con ITGB1, también conocido como el gen C29, una integrina que se ha
postulado que tiene que ver con la difusión metastásica de células tumorales [60]. Finalmente, de
la base de datos de modificaciones de histonas de ENCODE [61] encontramos muchos genes
relacionados con la modificación de la histona H3K27 y la correspondiente bibliografía de la
importancia de esto en cáncer de mama [62-66].
El módulo magenta nos indica que los genes co-expresados en este módulo y las interacciones en
la red WGCNA podrían ayudar a entender cómo se modifica la histona H3K27, qué genes
intervienen en el proceso y las posibles relaciones entre ellos e ITGB1, así como si este proceso
regula la angiogénesis en tejido tumoral. De confirmarse la importancia de estos genes, podría
abrirse la posibilidad de diseñar una terapia específica que impida a estos carcinomas
desencadenar la angiogénesis.
Módulo Lightyellow
Para este módulo no encontramos enriquecimientos funcionales demasiado llamativos, pero
puede imputarse su importancia en el cáncer al encontrar al menos dos rutas bioquímicas
relacionadas con el cáncer, RECK y MAPK [66,67] como muestra la comparación con datos de
la base de datos Biocarta [68]. Los genes del módulo lightyellow podrían estar relacionados con
las fases iniciales de malignización de una célula.
Módulo Grey60
La base de datos de interacciones proteína-proteína PIP Hub Proteins [59] nos indica que a este
módulo se le pueden imputar interacciones con los genes SINA3 y MCM2, ambos relacionados
con la metástasis y la inestabilidad genómica en el cáncer de mama [69,70].
Módulo Tan
También recurriendo al enriquecimiento en interacciones proteína-proteína [59] podemos
imputar la importancia de este módulo en la regulación de las proteínas EIF2C1 y EIF2C2,
pertenecientes a la familia de proteínas Argonautas, importantes en la regulación génica
mediante el silenciamiento del ARN y relacionadas con tejidos tumorales [71] en cáncer de
colon. El módulo tan invita a pensar que podría ser útil comprobar experimentalmente si estas
proteínas juegan también un papel importante en el desarrollo del cáncer de mama y el cáncer de
próstata. El cáncer de colon es también un carcinoma.
Módulo Darkred
El atlas de genes humanos [72] nos muestra que el módulo darkred presenta genes del tipo
celular CD34 positivo, células madres de cáncer hematopoyético, para las que encontramos
evidencia científica de su importancia como células madre progenitoras del cáncer, con
importantes aplicaciones como tipo celular para ser utilizado en modelos in-vitro en estudios de
diversos tipos de cáncer [73]. Además de esta relación, analizando la literatura encontramos
38
varias correspondencias interesantes como la importancia de estos genes en la reparación del
ADN, desórdenes genéticos, el factor de necrosis tumoral TNF alpha, la regulación de la mitosis
(división celular) y la rutas de señalización mTOR y MAPK/ERK, todos procesos biológicos
relacionados con la aparición y el progreso del cáncer [67,74-76]. Además, la base de datos de
interacciones proteína proteína PIP Hub Proteins [59] indica una posible interacción con
BRCA1, el oncogen más conocido de los cánceres de mama y ovario [77], que recientemente
también se ha mostrado importante en cáncer de próstata [50].
Módulo Cyan
El módulo cyan presenta interacciones con la proteína IKBKE de la base de datos PIP Hub
Proteins [59] y genes relacionados con carcinomas en la base de datos Jensen Diseases [53]. La
proteína IKBKE ha sido identificada como un importante oncogen para el cáncer de mama [78].
La presencia de esta interacción en el módulo cyan de la red de co-expresión consenso con
PRAD le imputa como un candidato a oncogen también durante el desarrollo del cáncer de
próstata.
Módulo Brown
Muestra expresión dirigida por estrógenos y testosterona, una de las similitudes principales entre
los carcinomas de mama y próstata [50], imputación soportada por el análisis de Enrichr para la
bases de datos de ligandos perturbadores de la expresión de GEO [80]. Recurriendo a PIP Hub
Proteíns [59] se observa un enriquecimiento en genes con posibles interacciones con el oncogen
BRCA1 [77], que también aparece como posible partner de los genes presentes en el módulo de
co-expresión darkred). El módulo brown también es imputable a carcinomas en Jensen Diseases
[53], esperado dado los conjuntos de datos utilizados, e importancia durante el proceso de la
apoptosis (muerte celular programada) basado en los datos de KEGG [81]. La apoptosis es un
proceso de muerte celular programada que todos los tumores anulan para poder desarrollarse
libremente [82].
39
Atendiendo a la figura 8, encontramos casos de co-expresión diferencial tipo B (diferencias en la
estructura del módulo) y E (cambio en los compañeros de correlación). Para determinar si
además existe co-expresión diferencial de tipo C (diferencias en la fuerza de la correlación)
habría que analizar cada matriz TOM y para los casos de co-expresión diferencial del tipo D
(división del módulo en módulos más pequeños) se pueden observar en los resultados (ver
apéndice A) como módulos del tumor A que se corresponden con el mismo módulo consenso (C)
al que solo le corresponde un módulo del tumor B, es decir A(n):C(1):B(1) y otras
combinaciones N:N:N más complejas.
Genes de módulos específicos de BRCA
Los módulos de co-expresión de BRCA (etiquetados con los colores lightgreen, lightcyan,
orange, darkred, midnightblue y salmon, ver comparación a genoma completo en el apéndice A)
no presentan contrapartida en la red de consenso; casi todos los genes de estos módulos de
BRCA están presentes en el módulo grey de la red de consenso. Esto quiere decir que
mayoritariamente no están asignados a ningún módulo de co-expresión en esta red. Esto indica
que se trata de subredes de co-expresión específicas de BRCA cuya huella desaparece al calcular
la matriz de consenso entre ambos tumores.
El análisis de estos módulos de co-expresión y sus genes pueden ayudar a comprender mejor las
diferencias funcionales de alto nivel entre ambos carcinomas, como por ejemplo sería la
existencia de redes de regulación y/o de co-expresión propias del cáncer de mama.
Sin embargo, salvo para el módulo salmon (ARCHS4 mostrando relaciones con los genes
NEK10, NEK11 y MAPK15)[55,67,83], no encontramos resultados significativos evidentes que
apunten a una relación directa con actividad tumoral.
Atendiendo a la figura 8, este tipo de co-expresión diferencial sería la de tipo A (módulos
presentes solamente en un tumor).
5 Conclusiones
Hemos desarrollado una herramienta web que permite a cualquier usuario obtener resultados
interesantes desde el punto de vista biológico y que se puede aplicar en biomedicina para
caracterizar las redes de co-expresión de diferentes tumores y las relaciones entre ellas. El
usuario no necesita dominar un campo tan multidisciplinar como la Biología de Sistemas para
obtener resultados. Por lo tanto, democratizamos el método WGCNA y lo ponemos a disposición
de toda la comunidad científica y otros usuarios potencialmente interesados.
Los datos genómicos son hoy en día un terreno fértil para el Big Data, produciendo importantes
avances científicos y secuenciando cada vez más cantidad de datos que se depositan en
40
repositorios tanto públicos como controlados por importantes leyes de protección de la identidad
y privacidad. Será interesante ver como también el campo de la ciberseguridad, cada día más en
auge, cobrará una importancia mayor también en la genómica. Aunque el presente Trabajo Fin
de Máster se haya centrado en Data Science, los ficheros producidos por la tecnología de
secuenciación previos a la creación de las matrices de conteo son enormes (del orden de GB a
TB) necesitando por lo tanto repositorios Big Data y procesamiento analítico avanzado, al que
cada día se recurre más para para disponer del control del proceso de análisis y la consecuente
mejora de los resultados finales.
Desde el punto de vista de la aplicación de un método de analítica avanzada de datos a un
dominio concreto, donde la experiencia en el dominio es crucial, hemos mostrado a lo largo del
presente Trabajo Fin de Máster como WGCNA facilita a los analistas expertos en el dominio,
pero no tanto en la teoría matemática, la aplicación efectiva de técnicas avanzadas como la
reducción de datos, agrupamiento difuso, selección de características, estudios de asociación y
técnicas de exploración de datos.
WGCNA es también un ejemplo de método integrador en un dominio donde se dan perfiles muy
diversos de científicos de datos, desde aquellos dedicados a la cuantificación de datos de
expresión y la construcción de redes de correlación hasta su aplicación en redes biológicas
mediante estudios de caracterización y de asociación.
Matrices de superposición topológica
En nuestra opinión, es fundamental el análisis que realiza WGCNA basado en las características
topológicas de la red, como son los vecinos compartidos, y su elección de un umbral suave
basado en la adecuación a una red libre de escala, para evitar el ruido estocástico y la
dependencia del tamaño de los datos. Recurrir únicamente a la matriz de similitud entre pares
implica recurrir a un umbral duro de corte, normalmente muy restrictivo para evitar relaciones
aleatorias. Este enfoque tiende a generar un mayor número de módulos de menor tamaño. A la
vista de los resultados, el enfoque de WGCNA agrupa genes co-expresados en módulos para los
que encontramos evidencia de estar relacionados biológicamente recurriendo a las bases de datos
de información genética. Puede considerarse el análisis de los resultados de la red de
co-expresión del consenso entre BRCA y PRAD como una buena demostración indirecta de su
aplicabilidad a la biomedicina. El desarrollo matemático de WGCNA y la adecuación de las
matrices de superposición topológica puede consultarse en la obra de referencia del autor de
WGCNA [1] pero es sobre todo la sensibilidad demostrada lo que refuerza la adecuación del
modelo al campo de estudio seleccionado.
Sensibilidad del análisis de consenso
El análisis de consenso produce un dramático aumento de la sensibilidad a la hora de identificar
módulos de co-expresión relacionados con las características comunes de ambos datos. Hemos
analizado dos tumores que se consideran similares, para los que disponíamos de evidencia
científica. Todos los módulos de consenso analizados han demostrado estar formados por genes
implicados en cáncer directamente (genes para los que existen publicaciones relacionándolos con
estos tumores) o indirectamente (genes que presentan interacciones con genes implicados en el
desarrollo de estos tumores).
Las matrices de superposición topológica, que durante la construcción y el análisis de una única
red pueden no detectar específicamente genes implicados en el desarrollo de la enfermedad,
presentan en la red de consenso un aumento de la sensibilidad a la hora de detectar genes
tumorales, ya que al construir una red de consenso reducimos la construcción de la red a las
relaciones comunes en ambas redes.
41
Aplicabilidad de los resultados en biomedicina
La aplicación de los resultados del análisis con WGCNA en biomedicina es enorme. Dada la
sensibilidad mostrada durante análisis comparativos, permite caracterizar genes generalistas y
específicos, tanto a nivel intermodular como a nivel de módulos completos entre ambas redes.
Esta caracterización es fundamental para comprender las similitudes y las diferencias entre
distintos tumores.
Los estudios comparativos son fundamentales en biología, ya que tanto los organismos como las
enfermedades que estos padecen evolucionan y tienen generalmente origen y/o contexto común.
Las relaciones entre las redes de co-expresión de genes pueden ayudarnos a conocer cómo surgió
cada red de co-expresión y cómo evolucionan. WGCNA puede utilizarse para realizar este tipo
de estudios evolutivos, ya que es capaz de selectivamente reducir las relaciones entre los nodos
de dos redes a aquellos comunes en ambas redes y detectar así la similitud entre ambas.
Los estudios evolutivos basados en la homología de secuencias (similitud debida a la evolución
desde un ancestro común) han mostrado aplicaciones en biología previamente inimaginables. La
comparación de redes de co-expresión mediante su estudio filogenético (la agrupación jerárquica
por homología) sería de gran ayuda a la hora de estudiar y analizar las redes de co-expresión. Su
aplicabilidad en la biomedicina resultará clave para comprender la aparición de enfermedades
complejas como el cáncer y su desarrollo a través de diferentes estadíos, donde es fundamental
poder caracterizar una gran cantidad de genes, relacionarlos en redes génicas de co-expresión y
asociar estas medidas a la evidencia experimental existente para obtener nuevos modelos de
regulación génica que puedan contrastarse en el laboratorio.
6 Trabajo futuro
Este Trabajo de Fin de Máster representa una primera aproximación al análisis de redes de
co-expresión génica, pero existen aún diversos análisis y funcionalidades que enriquecerían el
potencial de la herramienta desarrollada y entre los que cabe destacar los siguientes:
● Productivización en Cloud mediante contenedores Docker.
● Partir de un aprovisionamiento de datos crudos de secuenciación (formato FASTQ) desde
la API del portal de datos de TCGA y obtener la matriz de conteo cruda bajo nuestro
propio criterio investigador. Esto mejoraría tanto nuestra capacidad de aportar valor en
este punto como mejoras en la sensibilidad del algoritmo WGCNA.
● Realizar toda la capa ETL en Python, actualmente en R y Python, explotando los
servicios web de la API de integración de TCGA.
● Agregar el análisis de asociación utilizando los metadatos clínicos con rasgos como la
edad, etnia, peso, hábitos y otros. No estaba planeado pero resultó ser una capacidad de
WGCNA que nos parece muy interesante y que está incluída entre las capacidades
actuales de WGCNA y para lo que existen datos adecuados en TCGA.
● Utilizar alguna herramienta de gestión de flujos de trabajo, como Knime o similar.
● Permitir seleccionar distintas matrices de distancia, al menos la matriz de diferencias por
otras tanto más sencillas, solo adyacencia, como mediante funciones personalizables para
el cálculo de la distancia que extiendan el método TOM (único actualmente).
● Desarrollo de una metodología para el agrupamiento jerárquico de redes y módulos de
co-expresión, que permitan extender las capacidad del método en estudios comparativos.
42
● Posibilitar análisis de consenso para cualquier número de tumores, actualmente solo 2. Es
un cambio menor, que no es necesario para correlacionar redes de co-expresión en
estudios comparativos (bastaría con todas las correlaciones entre pares), pero consensuar
3 o más redes puede tener utilidad en algunos casos como en la reducción de datos y la
selección de variables, fundamentalmente para detectar patrones relevantes de red y
aplicarlos en la construcción de modelos de regulación génica.
Figura 14. Asociaciones de los módulos con datos clínicos. Cada fila corresponde un módulo (su eigengen) y cada
columna a un rasgo. Cada celda contiene la correlación mostrando el valor p correspondiente. La tabla está
codificada por colores en función de la correlación. Los datos corresponden a un estudio de asociación de datos
clínicos sobre diabetes y modelos en ratones [33]
43
7 Referencias
[1] Horvath, S. Weighted Network Analysis: Application in Genomics and Systems Biology. Springer, (2011).
[2] van Dam, Sipko, et al. Gene co-expression analysis for functional classification and gene–disease predictions.
Briefings in bioinformatics (2017): bbw139.
[3] Shiny de R Studio: https://shiny.rstudio.com/
[4] Proost, Sebastian, Agnieszka Krawczyk, and Marek Mutwil. "LSTrAP: efficiently combining RNA sequencing
data into co-expression networks." BMC bioinformatics 18.1 (2017): 444.
[5] Ballouz, Sara, Wim Verleyen, and Jesse Gillis. Guidance for RNA-seq coexpression network construction and
analysis: safety in numbers. Bioinformatics 31.13, (2015): 2123-2130.
[6] Gentleman, Robert C., et al. "Bioconductor: open software development for computational biology and
bioinformatics." Genome biology 5.10 (2004): R80.
[7] Pevsner, J. Bioinformatics and Functional Genomics. Wiley Blackwell, 3rd edition. (2015).
[8] Scudellari, Megan. Omics-Data Deluge-Large-scale data collection and analysis have fundamentally altered the
process and mind-set of biological research. Scientist 25.10 (2011): 44.
[9] Chandonia, J. M., & Brenner, S. E. The impact of structural genomics: expectations and outcomes. Science,
311(5759), (2006): 347-351.
[10] Crick, F. Central dogma of molecular biology. Nature, 227(5258), (1970): 561.
[11] Pray, Leslie. Discovery of DNA structure and function: Watson and Crick. Nature Education 1.1 (2008): 100.
[12] Khandelwal, Garima, et al. A statistical thermodynamic model for investigating the stability of DNA sequences
from oligonucleotides to genomes. Biophysical journal 106.11 (2014): 2465-2473.
[13] Venter, J. Craig, et al. The sequence of the human genome. Science 291.5507 (2001): 1304-1351.
[14] Manolio, T. A. Genomewide association studies and assessment of the risk of disease. New England Journal of
Medicine, 363(2), (2010): 166-176.
[15] Weighted gene co-expression network analysis with TCGA RNAseq:
https://www.bioconductor.org/packages/devel/bioc/vignettes/CVE/inst/doc/WGCNA_from_TCGA_RNAseq.htm
l
[16] Li, S., Park, Y., Duraisingham, S., Strobel, F. H., Khan, N., Soltow, Q. A., ... & Pulendran, B. Predicting network
activity from high throughput metabolomics. PLoS computational biology, 9(7), (2013): e1003123.
[17] Arnone, M. I. & Davidson, E. H. The hardwiring of development: organization and function of genomic
regulatory systems. Development 124, (1997): 1851–1864 .
[18] Miklos, G. L. & Rubin, G. M. The Role of the Genome Project in Determining Gene Function: Insights from
Model Organisms. Cell 86, (1996): 521–529.
[19] Ohno, S. So much junk DNA in our genome. In Evolution of Genetic Systems, Brookhaven Symp. Biol.
(1972):366-370.
[20] Wittkopp, P. J., & Kalay, G. Cis-regulatory elements: molecular mechanisms and evolutionary processes
underlying divergence. Nature Reviews Genetics, 13(1), (2012): 59.
[21] Carroll, S. B., Grenier, J. K., & Weatherbee, S. D. From DNA to diversity: molecular genetics and the evolution
of animal design. John Wiley & Sons. (2013).
[22] Kundaje, A., Meuleman, W., Ernst, J., Bilenky, M., Yen, A., Heravi-Moussavi, A., ... & Amin, V. Integrative
analysis of 111 reference human epigenomes. Nature, 518(7539), (2015): 317.
[23] Freeland, S. J., & Hurst, L. D. The genetic code is one in a million. Journal of molecular evolution, 47(3),
(1998): 238-248.
[24] Masahiro Kasahara and Shinichi Morishita. Large-scale genome sequence processing. Imperial College Press,
(2006).
44
[25] Bonàs-Guarch, S., Guindo-Martínez, M., Miguel-Escalada, I., Grarup, N., Sebastian, D., Rodriguez-Fos, E., ... &
Timshel, P. Re-analysis of public genetic data reveals a rare X-chromosomal variant associated with type 2
diabetes. Nature communications, 9(1), (2018): 321.
[26] Galván-Femenía, I., Guindo, M., Duran, X., Calabuig-Fariñas, S., Mercader, J. M., Ramirez, J. L., ... &
Jantus-Lewintre, E. Genomic profiling in advanced stage non-small-cell lung cancer patients with
platinum-based chemotherapy identifies germline variants with prognostic value in SMYD2. Cancer Treatment
and Research Communications, 15, (2018): 21-31.
[27] Bumgarner, R. Overview of DNA microarrays: types, applications, and their future. Current protocols in
molecular biology, 101(1), (2013): 22-1.
[28] Li, P., Piao, Y., Shon, H. S., & Ryu, K. H. Comparing the normalization methods for the differential analysis of
Illumina high-throughput RNA-Seq data. BMC bioinformatics, 16(1), (2015): 347.
[29] Zhao S, Fung-Leung W-P, Bittner A, Ngo K, Liu X. Comparison of RNA-Seq and Microarray in Transcriptome
Profiling of Activated T Cells. PLoS ONE 9.1, (2014): e78644
[30] Aparicio, O., Geisberg, J. V., Sekinger, E., Yang, A., Moqtaderi, Z., & Struhl, K. Chromatin immunoprecipitation
for determining the association of proteins with specific genomic sequences in vivo. Current protocols in
molecular biology, 69(1), (2005): 21-3.
[31] Melton, L. Protein arrays: proteomics in multiplex. Nature, 429(6987), (2004): 101.
[32] Picelli S. Single-cell RNA-sequencing: The future of genome biology is now. RNA Biol. 14(5), (2017): 637-650.
[33] Langfelder, P. and Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC
Bioinformatics 9 (2008),: 559–559.
[34] Zhang, B. and Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical
applications in genetics and molecular biology 4 (2005):Article 17.
[35] Li, A., & Horvath, S. Network neighborhood analysis with the multi-node topological overlap measure.
Bioinformatics, 23(2), (2006): 222-231.
[36] Langfelder, P. Zhang, B. Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut
package for R. Bioinformatics 24 (2008):719-720.
[37] Langfelder, P. & Horvath, S. Eigengene networks for studying the relationships between co-expression modules.
BMC Systems Biology, 1. (2007):54
[38] Fuller, T. F. et al. Weighted gene coexpression network analysis strategies applied to mouse weight. Mammalian
Genome 18, (2007): 463–472.
[39] Horvath, S. and Dong. J. Geometric Interpretation of Gene Coexpression Network Analysis. PLoS
Computational Biology (2008):1000117.
[40] TCGA Research Network: http://cancergenome.nih.gov
[41] Kosinski, M. Biecek, P. RTCGA: The Cancer Genome Atlas Data Integration. R package version 1.10.0,
https://rtcga.github.io/RTCGA. (2016).
[42] Gimenez-Llorente, D. Análisis de expresión diferencial para datos de Next Generation Sequencing (NGS) con
múltiples condiciones experimentales. Universidad Autónoma de Madrid. (2017).
[43] Rahman, M., Jackson, L. K., Johnson, W. E., Li, D. Y., Bild, A. H., & Piccolo, S. R. Alternative preprocessing of
RNA-Sequencing data in The Cancer Genome Atlas leads to improved analysis results. Bioinformatics, 31
(2015): 3666–3672.
[44] Law CW, Chen Y, Shi W, Smyth GK. voom: Precision weights unlock linear model analysis tools for RNA-seq
read counts. Genome biology 15.2 (2014): R29.
[45] Anders, S., & Huber, W. Differential expression analysis for sequence count data. Genome biology, 11(10),
(2010): R106.
[46] Proost, S., Krawczyk, A., & Mutwil, M. LSTrAP: efficiently combining RNA sequencing data into co-expression
networks. BMC bioinformatics, 18(1), (2017): 444.
[47] WGCNA FAQ: https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html
[48] WGCNA Documentation: https://www.rdocumentation.org/packages/WGCNA/versions/1.63
45
[49] López-Abente, G., Mispireta, S., & Pollán, M. Breast and prostate cancer: an analysis of common
epidemiological features in mortality trends in Spain. BMC cancer, 14(1), (2014): 874.
[50] Risbridger, G. P., Davis, I. D., Birrell, S. N., & Tilley, W. D. Breast and prostate cancer: more similar than
different. Nature Reviews Cancer, 10(3), (2010): nrc2795.
[51] Chen, EY. Tan, CM. Kou, Y. Duan, Q. Wang, Z. Meirelles, GV. Clark, NR. Ma'ayan, A. Enrichr: interactive and
collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. (2013):128.
[52] Kuleshov, MV. Jones, MR. Rouillard, AD. Fernandez, NF. Duan, Q. Wang, Z. Koplev, S. Jenkins, SL. Jagodnik,
KM. Lachmann, A. McDermott, MG. Monteiro, CD. Gundersen, GW. Ma'ayan, A. Enrichr: a comprehensive
gene set enrichment analysis web server 2016 update. Nucleic Acids Research. (2016): gkw377.
[53] Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., & Jensen, L. J. DISEASES: Text mining and data
integration of disease–gene associations. Methods, 74,(2015): 83-89.
[54] Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., ... & Harris, M. A. Gene
Ontology: tool for the unification of biology. Nature genetics, 25(1), (2000): 25.
[55] Lachmann, A., Torre, D., Keenan, A. B., Jagodnik, K. M., Lee, H. J., Wang, L., ... & Ma’ayan, A. Massive
mining of publicly available RNA-seq data from human and mouse. Nature communications, 9(1), (2018): 1366.
[56] Labernadie, A., Kato, T., Brugués, A., Serra-Picamal, X., Derzsi, S., Arwert, E., ... & Alcaraz, J. A mechanically
active heterotypic E-cadherin/N-cadherin adhesion enables fibroblasts to drive cancer cell invasion. Nature cell
biology, 19(3), (2017): 224.
[57] Thomas, P. D., Campbell, M. J., Kejariwal, A., Mi, H., Karlak, B., Daverman, R., ... & Narechania, A.
PANTHER: a library of protein families and subfamilies indexed by function. Genome research, 13(9), (2003):
2129-2141.
[58] Martínez-Ezquerro, J. D., & Herrera, L. A. Angiogénesis: VEGF/VEGFRs como blancos terapéuticos en el
tratamiento contra el cáncer. Cancerología, 1(1), (2006): 83-96.
[59] He, M., Wang, Y., & Li, W. PPI finder: a mining tool for human protein-protein interactions. PloS one, 4(2),
(2009): e4554.
[60] He, B., Xiao, Y. F., Tang, B., Wu, Y. Y., Hu, C. J., Xie, R., ... & Li, J. L. hTERT mediates gastric cancer
metastasis partially through the indirect targeting of ITGB1 by microRNA-29a. Scientific reports, 6, (2016):
21955.
[61] Zhang, Y., Lv, J., Liu, H., Zhu, J., Su, J., Wu, Q., ... & Li, X. HHMD: the human histone modification database.
Nucleic acids research, 38(suppl_1), (2009): D149-D154.
[62] Holm, K., Grabau, D., Lövgren, K., Aradottir, S., Gruvberger-Saal, S., Howlin, J., ... & Malmström, P. (2012).
Global H3K27 trimethylation and EZH2 abundance in breast tumor subtypes. Molecular oncology, 6(5),
494-506.
[63] Healey, M. A., Hu, R., Beck, A. H., Collins, L. C., Schnitt, S. J., Tamimi, R. M., & Hazra, A. (2014). Association
of H3K9me3 and H3K27me3 repressive histone marks with breast cancer subtypes in the Nurses’ Health Study.
Breast cancer research and treatment, 147(3), 639-651.
[64] Ngollo, M., Lebert, A., Dagdemir, A., Judes, G., Karsli-Ceppioglu, S., Daures, M., ... & Guy, L. (2014). The
association between histone 3 lysine 27 trimethylation (H3K27me3) and prostate cancer: relationship with
clinicopathological parameters. BMC cancer, 14(1), 994.
[65] Chinaranagari, S., Sharma, P., & Chaudhary, J. (2014). EZH2 dependent H3K27me3 is involved in epigenetic
silencing of ID4 in prostate cancer. Oncotarget, 5(16), 7172.
[66] Hsu MC, Chang HC, Hung WC. HER-2/neu represses the metastasis suppressor RECK via ERK and Sp
transcription factors to promote cell invasion. J. Biol. Chem. 281 (8). (2006): 4718–25.
[67] Wikipedia entry for MAPK/ERK Pathway: https://en.wikipedia.org/wiki/MAPK/ERK_pathway
[68] Nishimura, D. BioCarta. Biotech Software & Internet Report: The Computer Software Journal for Scient, 2(3),
(2001): 117-120.
[69] Lewis, M. J., Liu, J., Libby, E. F., Lee, M., Crawford, N. P., & Hurst, D. R. SIN3A and SIN3B differentially
regulate breast cancer metastasis. Oncotarget, 7(48), (2016): 78713.
46
[70] Shima, N., Alcaraz, A., Liachko, I., Buske, T. R., Andrews, C. A., Munroe, R. J., ... & Schimenti, J. C. A viable
allele of Mcm4 causes chromosome instability and mammary adenocarcinomas in mice. Nature genetics, 39(1),
(2007): 93.
[71] Li, L., Yu, C., Gao, H., & Li, Y. Argonaute proteins: potential biomarkers for human colon cancer. BMC cancer,
10(1), (2010): 38.
[72] Su, A. I., Wiltshire, T., Batalov, S., Lapp, H., Ching, K. A., Block, D., ... & Cooke, M. P. A gene atlas of the
mouse and human protein-encoding transcriptomes. Proceedings of the National Academy of Sciences, 101(16),
(2004): 6062-6067.
[73] Kuranda, K., Berthon, C., Leprêtre, F., Polakowska, R., Jouy, N., & Quesnel, B. Expression of CD34 in
hematopoietic cancer cell lines reflects tightly regulated stem/progenitor‐like state. Journal of cellular
biochemistry, 112(5), (2011): 1277-1285.
[74] Laplante, M., & Sabatini, D. M. mTOR signaling at a glance. Journal of cell science, 122(20), (2009):
3589-3594.
[75] Beg, A. A., & Baltimore, D. An essential role for NF-κB in preventing TNF-α-induced cell death. Science,
274(5288), (1996): 782-784.
[76] Balkwill, F. TNF-α in promotion and progression of cancer. Cancer and Metastasis Reviews, 25(3), (2006).: 409.
[77] Miki, Y., Swensen, J., Shattuck-Eidens, D., Futreal, P. A., Harshman, K., Tavtigian, S., ... & Ding, W. A strong
candidate for the breast and ovarian cancer susceptibility gene BRCA1. Science, 266(5182), (1994): 66-71.
[78] Boehm, J. S., Zhao, J. J., Yao, J., Kim, S. Y., Firestein, R., Dunn, I. F., ... & Greulich, H. Integrative genomic
approaches identify IKBKE as a breast cancer oncogene. Cell, 129(6), (2007): 1065-1079.
[79] Igea, A., & Nebreda, A. R. The stress kinase p38α as a target for cancer therapy. Cancer research. (2015).
[80] Barrett, T., Troup, D. B., Wilhite, S. E., Ledoux, P., Rudnev, D., Evangelista, C., ... & Edgar, R. NCBI GEO:
mining tens of millions of expression profiles—database and tools update. Nucleic acids research, 35(suppl_1),
(2006): D760-D765.
[81] Kanehisa, M., & Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 28(1),
(2000): 27-30.
[82] Wikipedia entry for Apoptosis: https://en.wikipedia.org/wiki/Apoptosis
[83] Moniz, L., Dutt, P., Haider, N., & Stambolic, V. Nek family of kinases in cell cycle, checkpoint control and
cancer. Cell division, 6(1), (2011): 18.
47
Apéndices
48
49
50
B - Lista de genes candidatos
Módulos de red de consenso
Presentamos 12 módulos de BRCA para los que existen correspondencias muy significativas. No
consideramos los módulos con gran cantidad de genes que además presentan múltiples
correspondencias con varios módulos del consenso. Estos módulos podrían haberse agrupado
para una correspondencia 1:1 pero tendríamos módulos con muchos genes difíciles de tratar.
Genes específicos de BRCA en los módulos de consenso
Además, reducirnos a módulos para los que podemos entender que hay una correspondencia
directa nos permite seleccionar los genes específicos de BRCA eliminando de la lista de genes
del módulo de BRCA los que aparecen en la lista de genes del módulo de consenso.
COL1A1 COL1A2 COL6A3 AEBP1 LUM FLNA DCN SFRP2 COL5A2 THBS1 MMP2 MMP11 MXRA5 MMP14 THBS2 TIMP2 LRP1 FSTL1 ITGB1 CTGF ACTA2
SULF1 HTRA1 SULF2 TPM1 SERPINH1 PALLD PXDN LRRC15 CILP ANXA5 LAMB1 DPYSL3 ITGAV EMP1 COMP CDH11 ADAM12 ASPN HTRA3 MYLK PRRX1
EHD2 MYO1B PICALM ARHGAP1 GALNT1 CRISPLD2 LAMA4 NRP1 CRTAP NNMT ITGA11 MYO1D ANKH FRMD6 CERCAM ANGPTL2 H6PD UNC5B RIN2 ARRDC3
DAB2 LOXL2 FAP PHLDB1 ENC1 TMEM2 SEPT8 WLS DKK3 SH3GLB1 GREM1 MFAP4 CFH TMEM43 LOX MAP1B SFRS9 ITGBL1 RAI14 COL5A3 AXL GAS7
NID2 HMCN1 KANK2 SLC6A6 UACA OSMR PODXL2 WWC3 LMCD1 SH3D19 SEC23A MSRB3 GPR124 C1QTNF6 F2RL2 FERMT2 COL8A1 LAMA2 ZBED1 DCHS1
TRAM2 FILIP1L PPIC VAMP3 DPT AKAP12 GLIS2 CDH5 LRRC8A OLFML2A ITGA1 PDLIM3 EDNRA FLJ10357 KCTD10 GOLIM4 PRICKLE1 SSC5D SNED1
SSPN RGS16 PTPRG ZNF469 MATN3 NUAK1 TGFB1I1 PDGFRL MAP4K5 SPRY4 JAM3 C1QTNF3 ROR2 PCDH7 HEPH ITSN1 KRTCAP3 ADAMTS12 C20orf103
SNX29 SOCS5 SGMS2 KIF26B RUNX2 FAM101B RUSC2 GRAMD3 KIAA1199 DACT1 PTPN21 LATS2 WISP1 FEZ2 LPAR1 MRVI1 CILP2 TSPAN18 CXorf36
CLIP3 CLIP2 SRPX RAB23 CPZ ODZ4 BNC2 SCARF2 ST6GAL2 NTM ZBTB47 ADAMTS5 MN1 TSHZ3 MITF SORCS2 RGS4 DNM1 CDH13 DPP4 TNFAIP6
PODNL1 ACVR2A TNN LOC399959 NRN1 PCDH17 NR2F1 ZNF423 EGFLAM SLC35B4 PPAPDC1A GXYLT2 SLC38A5 AGPAT4 HIC1 IL1RAP SPIRE2 ARHGAP28
IFFO1 B3GALTL GULP1 FAM26E HRH1 RASGRF2 MMP16 ADAMTS14 CNTNAP1 SH3RF3 GRP LAYN FNDC4 DACT3 PRKD1 PRKG1 SGIP1 TSPAN11 HSD17B6
TLL1 CCDC46 FAM176A GPR176 GLI2 SEMA3D KLK4 C12orf73 EVC2 CMTM1 CACNA2D1 HOXC8 HAS2 NAP1L3 MS4A2 KCNMB4 FLJ42709 SOBP ITGA8
C1QTNF7 PRDM5 DEPDC7 TCEAL7 GABRB2 SLC6A1 NTNG2 EBF2 TMEM169 TLL2 IL17D FGF18 LRFN5 BTBD19 KLHL4 RGS17 KCTD16 KCNS2 CCKAR
51
ABCB5 PTPN5 CMA1 C15orf51 CC2D2B IGFN1 SLCO1C1 KCNS2 SLC5A4 WNT9B GDF3 FAM180B GPR20 HCG22 ANGPT4 CASP12 VIP LOC90586 KLHL33
CCL16 CRHR2 LCN6 GPR142 APOL5 LOC148145 MAS1L MRGPRX2 OTC TCF23
TXNIP HSPG2 EGR1 CYR61 DUSP1 EPAS1 JUNB ZFP36 COL15A1 F2R CAV1 SYNPO MYH11 ARID5B CD36 NEDD9 SORBS1 SYNPO2 CD34 ADAMTS1 ETS2
PDK4 KLF9 LTBP4 EFNB2 LIFR EHD4 PPP1R12B APLNR FOSB SPRY1 FABP4 SNRK GEM LPL APOLD1 ACACB CSRNP1 KLF2 PER1 EGR3 ADH1B ELTD1
FOXO1 TNXB IGF1 PALMD PDGFD PCDH18 MEF2C S1PR1 DARC ARHGAP23 SHANK3 GPAM EGR2 ACVRL1 CLEC14A GYG2 CHRDL1 CCDC3 LIPE SLIT2
CACHD1 ARL15 MOCS1 ERG ANK2 TEK HSPB6 PLK3 ITGA7 ARHGEF15 BCL6B FLT4 LDB2 DLL4 EBF1 PLXNA4 CLDN5 AFAP1L1 EEPD1 G0S2 CLDN11
PELI2 HBEGF JAM2 RHOJ PGM5 PDE2A DLL1 LHX6 MMRN1 THSD1 RBP4 NR4A3 FAM13C CDH6 GPIHBP1 PDE7B IL6 EFHA2 TMEM88 C21orf34
NIPSNAP3B LEP CBLN4 C10orf128 ANKRD53 AQPEP
COL6A2 COL6A1 BGN TIMP1 GRN MRC2 CNN2 FKBP10 ZYX CD99 CHPF MMP9 PCOLCE TGFB1 RARRES2 P4HA2 PLEKHO1 BMP1 CPXM1 CKB RHOG
SLC39A13 MMP13 PLXDC1 PTP4A3 OAF HEYL PTGDS CYGB COPZ2 SOD3 RAB3IL1 FAM109A RASIP1 FAM20A MAPK11 FOLR2 MSC LAMC3 C17orf60
VENTX RUFY4
BAT1 OGT RGL2 EFCAB4A MXD4 PCGF3 CC2D1A LRCH4 TLE2 LUC7L REEP3 TUBGCP6 GABBR1 BRF1 BZRAP1 CXXC1 TRIM41 FAM193B CROCC LOC150776
ARVCF AHSA2 ANKZF1 DFNB31 ENGASE FAM156A NEURL4 RGL3 AKAP8 PRPF40B TMEM80 ING5 WASH3P APBB3 RABL2A VAMP1 SLC25A42 ZDHHC1
CCDC78 ZNF193 C19orf44 AGAP6 IFI27L1 SDHAP3 MST1 MST1P2 YJEFN3 TMEM86B LOC729991 CROCCL2 DKFZP686I15217 PIGL NCRNA00105 TSSK6
SLC25A34 LEAP2
ACTB RPS4X FTH1 RPS6 RPS18 GNAS TMSB10 RPL13 KRT7 RPL28 RPL41 RPL7A RPS14 MYL6 RPL31 RPL12 UBB RPS15A RPS5 RPL29 RPL10A APOE
PPIB RPL34 UBA52 RPL22 RPL38 HNRNPC CRIP2 RPS3A ATP5G2 RPL23A EIF3D MT2A TALDO1 PSMD4 QARS CREBBP RPL18A NDUFS5 GTF3A TRMT112
PSMA4 SARS DUS1L ABHD14B ATPIF1 C12orf51 PSENEN COX7A2L POLR1D FKBP2 SF3B14 KIAA0114 TOMM22 WDR13 TMEM85 POLR2H MRPL18
SLC25A11 SNRPF GTF3C4 RPL39 CWC15 CCDC57 INO80 PDCL3 LPAR2 C1orf31 TRIAP1 METTL1 TRMU C4orf52 RNMTL1 TNFSF12 POP5 LRRC23
ZC3HC1 LOC100129550 HHLA3 LDLRAD2 THG1L N6AMT2 ZMYND17 MGC16275
52
BRCA siena3 / CONS darkred
CLTC DDX5 PRKAR1A CYB561 CCDC47 MED13 SMARCD2 DCAF7 BPTF TANC2 TMEM49 PSMC5 GNA13 TEX2 AKAP1 DDX42 DHX40 TOM1L1 DYNLL2 USP32
AMZ2 HELZ LOC651250 APPBP2 MTMR4 SUPT4H1 PSMD12 FTSJ3 NOL11 RNF43 YPEL2 TRIM37 MRPS23 SKA2 RPS6KB1 C17orf58 COG1 MAP3K3 COX11
C17orf80 TLK2 C17orf71 HEATR6 BCAS3 SMURF2 PTRH2 COIL CCDC45 INTS2 STRADA TACO1 METTL2A RAD51C MKS1 RNFT1 PPM1D STXBP4 AMZ2P1
TUBD1 GDPD1 POLG2 USP6
PTK2B SP140L LILRB2 HCST FGD2 PRF1 PIK3CG P2RX7 CXCR3 SIGLEC8 CD8B STAMBPL1 CCRL2 KLRB1 CD38 PLA2G2D FCN1 CD1C FCGR1C SAMD3
CD300C CASS4 FCRL3 GP1BA CR2 GPR82 HTRA4 LOC100188949 CCDC141 LOC257358 HEMGN
LASS2 NUCKS1 COPA TPM3 EPRS ADIPOR1 NCSTN WDR26 TMCO1 POGZ SMG7 DCAF6 INTS3 FAM20B ACBD3 DCAF8 POGK YY1AP1 ATF6 ADSS GBA FH
PPP1R15B HEATR1 GOLPH3L PIP5K1A RAB3GAP2 SNX27 NEK7 STX6 ZNF687 PRUNE CDC73 TROVE2 TARBP1 KIFAP3 DARS2 VPS45 SRGAP2 C1orf107
RAB7L1 DSTYK CNST C1orf58 RBBP5 PIGC PIGM RC3H1 RPS6KC1 C1orf25 RIT1 TDRKH ARV1 SCYL3 ABCB10 C1orf96 EXOC8 TFB2M RABIF ZNF496
TADA1 FLVCR1 GORAB TATDN3 DNAH14
CANX RPS19 LOC647979 AP2B1 PBX1 RRBP1 KIAA0100 KTN1 PRKAR1A SEMA3C GOLGB1 AFF3 LRBA MED13L ARF3 CPNE3 SEL1L NBR1 SNRPB APBB2
AKAP9 ARPC1B SMARCC1 GALNT10 LRRFIP1 MGEA5 RAB5B MKL2 PCYOX1 SETD7 ARHGAP32 CASC4 NPEPPS MLL3 MED13 DCAF10 CDC42BPB PDS5A
INADL NF1 BPTF SERINC3 IRAK1 PLEKHF2 KIAA1244 SFRS2IP HTT KIAA0196 MYST4 AFF1 ARL8B UBE3A KIF3B VEZF1 RAB18 ZNF587 PRRC1 ELF1
BRWD1 EDEM1 RAD50 FYCO1 REPS2 LARS TMEM106B SCAMP1 KIAA0430 UBFD1 SIN3A SETD2 PDPK1 PIK3C2A DIP2B GNG5 UBE2K SAPS3 CGGBP1
GIGYF2 TMEM167A SMAD5 ZMYND8 UQCRH POR SCOC RNF103 WAPAL LANCL1 RNF141 THUMPD1 AR IBTK DENND4C KIF13A POFUT1 ARHGEF1 RTF1
TMEM33 ANKRD52 IQSEC1 FAM102B TP53BP1 C12orf23 CLINT1 RRN3 MED15 EEF2K UTP14C BCOR XIAP PPP6C TBC1D5 ZFYVE16 EIF5AL1 HDGFRP2
RRM2B CNOT6 VPS39 KIAA1737 DDX46 RELA SMARCB1 ARID2 RFC1 DMXL1 CLDN12 FNIP1 AP3B1 ZNF91 MAPK9 IMPACT DHX29 C14orf167 PAN3
SEC24A KIAA2013 CNNM4 B4GALT2 TNRC6A STK40 PCF11 GPATCH8 MECP2 GOSR1 APPL2 EBNA1BP2 SNX2 COL4A3BP LIMD1 DHX8 SSBP1 QRICH1
DPY19L4 FBXW11 PPIP5K2 FEM1C ZNF281 GAB1 TMTC3 FAM13B KIAA0564 YTHDC2 SALL2 SNX13 STAM2 IDH3G TMEM135 YIPF5 RBM27 UBN2 AGGF1
GGNBP2 GPR98 AP1AR ATAD1 ITPA NUDT12 MAP9 SLU7 OCLN EXD2 ZFC3H1 MPHOSPH8 BLOC1S1 MYEF2 TMEM209 PPIP5K1 NECAP1 RABL3 RNF2 NFYC
ATP7A NUDT5 FBXO38 RCBTB1 ATAD3A TXNDC16 TSC1 SHB FXC1 RFX7 GLCCI1 ZNF621 GLRX3 MID2 ATXN2 NBEA FAM199X DPY19L3 KIAA1143 RGMB
TMEM192 GFM2 WDR19 WDR36 PPP4R2 MARVELD2 PEX1 TRUB1 LOC144438 FAM127C PDE12 KIF3A ZXDB DUSP22 SLC10A3 ZDHHC8 PCLO FHL3 PSMG1
ZDHHC17 CEP120 ZNF680 CC2D1B CRBN ZNF721 C14orf129 APAF1 ACVR2B KIFC3 C11orf46 ABT1 RNASEL RSBN1L ZNF197 LRRC37B2 ZNF844 ZBTB6
TRIM23 USP30 SEPSECS POC1B ICAM2 RBM43 WDR55 KIAA0586 ACTR8 ZNF236 GNPDA2 C14orf101 LPCAT4 RIC8B ZNF791 METT5D1 PDCL TTC30B
DTWD2 RAB33B PEX12 SCRN3 RPP14 C12orf29 KIAA1704 PURA KIAA1530 TMEM161B ZKSCAN5 TMEM170B FAM175A RELT C5 DNAJC24 MBLAC2 ZNF347
ANKS1B LOC653501 ZNF836 CPEB3 ANKRD32 FMN1 CCDC111 ZNF71 RTN4R KIF27 HELQ KIAA1328 ZNF619 TEX9 SLC35E4 KRBA2 LCORL ZXDA
C20orf94 ZNF625 ZNF483 BTBD8
53
Módulos de co-expresión específicos de red de BRCA
Módulo lightgreen
KRT15 EVPL CEBPA GLTP KRT10 IL1RN WNT4 ID1 HOPX LTB4R KLC3 PLCH2 PLA2G4F EPHB6 MMP28 CST6 TCN1
ANKRD35 SILV LTB4R2 ASPRV1 D4S234E S1PR5 PHYHIP LY6G6C IL22RA1 DUOXA1 GSDMA NKPD1 CDHR1 FLG
CYP4F12 FOXN1 NIPAL4 POU3F1 TP53AIP1 SLC46A2 ART5 KY LGALS7 NPW DSC1 SPINK5 LY6D CYP3A5 KRT1
SERPINA12 KCNK7 PLA2G4D SBSN ZCCHC12 ELMOD1 LASS3 LGALS7B DPP6 GJB4 MLANA SMAD5OS KRT31 PRSS3
RDH12 WFIKKN2 DUOXA2 LGI3 TSKS CLCA4 GAPDHS IVL ALOX12B FAM182A PNPLA1 HS3ST6 CAPNS2 ACER1
SLURP1 SOX21 KRT2 DCT FAM83C ADH4 ARG1 BEST2 CCL27 CHP2 CYP2W1 FGF22 FLG2 IL1F7 KRT78 KRTDAP
LCE1C LOR LRIT2 PADI6 PLA2G2F PSAPL1 SDR9C7 SLC34A1 TRPM1 TYR WFDC12 WFDC5
Módulo lightcyan
MB PEG3 FLNC ALPK3 TTN RYR1 STAC3 SPTB ENO3 VSIG10L DDIT4L MYOM1 TNNI1 PCDH20 ANKRD23 CASQ2
CHRNA1 MUSTN1 KBTBD10 XIRP1 CA3 LDB3 DES ACTA1 HRC MYH3 MYOM3 UCP3 MYOZ1 NEB CASQ1 SYPL2 SRL
LRRC2 MYO18B PYGM TNNI2 CAMK2A MURC ATP2A1 KLHL30 DUSP27 TNNC1 LRRC39 TNNT3 TCAP ACTN2 FITM1
AMPD1 SMTNL1 MYLK2 SGCA TNNC2 DUSP26 ACTC1 LMOD3 ACOXL ADARB2 MYADML2 SLN MYL3 TRIM63 ANKRD2
MYBPH CKM MYBPC2 MYOT C6orf142 UNC45B MYOZ2 MYLPF APOBEC2 TMOD4 TRDN MYH13 ACTN3 MYH1 TRIM54
DYSFIP1 NRAP MYH8 MYH4 MYPN KCNA7 MYH2 LMOD2 ABRA A2BP1 ASB15 ASB5 CACNA1S CAV3 CHRNG COX6A2
ENAM FBXO40 HFE2 HHATL LOC729467 MYF6 MYH6 MYH7 MYL2 MYOG NT5C1A SMPX VGLL2 XIRP2 YIPF7
Módulo orange
APOD ACSL3 ACSL1 FKBP5 SCP2 GUSB NAMPT WLS OLFML3 PXMP4 IDI1 SC5DL AACS MPV17L SRD5A1 GRAMD2
ELOVL7 TRIM68 CLDN8 GSTT2 LDHD HPGD BRI3BP ABHD6 AADAT GSTM5 ATP13A4 ACSM3 ACSM1 KLHL31 MYOM2
ADH1C EMILIN3 SLC25A18 B3GAT1 EYS NCRNA00160 LOC255167 C6orf223 AKR1B15 C5orf27 KPNA7 ACSBG1
FCN2 TMPRSS9 FTCD CHRNB4 PGC SLC6A3 GSTM2P1 PLD5 NANOG CTNNA2 SULT1B1 AKR1D1 HSD3B2 DDC PADI4
CYP17A1 UGT2B28 WDR64 DPCR1 CLEC4C VSX2 CHRNA2 CFHR5 HIST3H3 HSD3B1 ISX LOC91948 LST PNLIPRP3
SLC17A3 TGM7
Módulo darkred
BCAT1 CCDC3 INPP5B PARP11 PTBP2 CDKAL1 POU2F3 GATS LMO3 LRMP TP73 X ZDHHC15 NCAM1 SV2B ISLR2
DLG2 CXorf57 FAM124A PPM1E RELN FAM66C KCNA6 PRDM16 FAM182B C11orf93 KCNQ3 TMEM35 FOXP2 SPSB4
SCN3A HAP1 C12orf53 GRM8 KCNA1 NTF3 FMN2 PSD2 PCDHGC4 GLT1D1 LOC283731 CABP7 SH3GL2 IGFBPL1
CACNA1B TERT C5orf58 IL1RAPL2 CCDC62 ST18 INA KCNH4 MEGF11 RD3 CPLX3 GBX2 GFI1B LOC148824
NEUROG2 COL19A1 DPYSL5 SH3GL3 SH2D7 POU4F1 SLC7A14 ELAVL3 GNAT1 OTP SLC35F4 ATCAY C12orf77
CDKL4 CLC FGF8 GABRA4 GCM2 HMX3 HORMAD2 LHFPL3 LOC283761 PIRT POU3F3 RTP1 SIX6 SLC17A8 SOHLH1
SPIC
Módulo midnightblue
SEZ6L2 SYT7 TMEM181 ENO2 STMN3 DCLK1 OLFM1 CACNA2D2 MANEAL ASTN2 NFASC SCAMP5 CKMT1A SLCO3A1
SARM1 MAPK8IP1 CELSR3 MAPRE3 C12orf34 ABCC8 PTPRN2 SMPD3 NAPB APLP1 DNAJC6 CRMP1 MPP3 LOC283174
STX1A TMEM198 FAM155B AP3B2 GOLGA7B SPTBN4 GNAO1 GRM4 ASPHD1 RELL2 DISP2 BSN DPYSL4 SYP PSD
GNG4 KCNH2 NMNAT2 IGSF9B TMEM145 CNR1 KCNK3 ATP1A3 FNDC5 CAMK2N2 LRRC24 CECR6 FAM57B MGAT5B
SYN1 CHRNB2 SCN3B FBLL1 LRRC16B PTCHD2 UNC13A MAST1 RFPL1S IQSEC3 HCN2 PCSK1 SNAP25 PTPRN
OTUD7A BRSK2 DLEC1 VGF DLGAP3 RUNDC3A RAB39 SLC8A2 DRD2 KIF5A RIMS2 MARCH4 LRTM2 KCNC1 CHRNA3
PHF21B HMP19 ADRA1D KIAA1409 RTBDN OGDHL RAB3C SYT5 TMEM151A P2RX6 C1orf111 SCG3 UNC80 SCRT1
GDAP1L1 LHFPL4 DDX25 PRMT8 NTS SEZ6 LOC283856 KCNH6 HRH3 CPLX2 FAM123C GABRG2 SVOP SYT4 XKR7
Módulo salmon
IFT172 C1orf88 CCNO RSPH1 HES6 C2orf77 LRRC23 RFX2 LRRC46 CCDC146 CCDC19 HYDIN DYX1C1 C10orf79
PPIL6 C5orf49 TSGA10 FAM154B FHAD1 C6orf165 ARMC3 C1orf192 FOXJ1 CCDC114 C11orf70 TTC25 RRAD
DNAH6 AK7 CCDC39 DNAH10 LRRIQ1 CCDC65 TEKT2 DNAI1 C11orf66 SPAG8 DYDC2 TMEM232 LOC100188947
RSPH4A UCKL1AS IQUB ROPN1L LRRC43 C4orf47 C10orf95 CAPSL EFCAB1 EFHB FAM183A PCDP1 DNAH9
FAM166B ARMC4 CCDC17 KCNRG WDR63 ZNF474 PACRG FAM81B TEKT4 ENKUR RSPH9 GAS2L2 SNTN FAM179A
DNAH12 CCDC42B C12orf63 DNAH3 CNGA4 VWA3B VWA3A CDC20B TTLL10 C2orf62 ALS2CR12 FAM92B C1orf194
CXorf22 C21orf128 LDLRAD1 C11orf16 C11orf88 CXorf30 TCTE1 C2orf39 WDR16 C15orf26 RTDR1 CCDC135
LRRC67 MEIG1 IL5RA YSK4 FOXN4 C22orf15 MORN5 LRRC18 TMEM190 GRIN3B C7orf57 WDR49 C9orf171 WDR38
ZBBX ZACN ITIH1 CXorf59 CDHR4 DYDC1 TUBA4B ADH6 TTC29 C1orf92 DCDC2B C6orf103 OSTBETA AKAP14
APOBEC4 BTG4 C1orf129 C1orf158 C1orf189 C20orf85 C4orf22 C6orf118 CXorf41 DNAI2 IFLTD1 KNCN
LOC400891 SERPINI2 SLC32A1 SPATS1 TEKT1 TMEM146 TMEM212
54
C - Enriquecimiento funcional de módulos consenso
seleccionados
Se ha realizado recurriendo a la herramienta Enrichr [51,52] para los módulos consenso
presentados en el Apéndice B. Se utiliza en cada caso la lista de genes del módulo consenso
BRCA / PRAD.
55
BRCA black / CONS magenta
56
BRCA pink / CONS grey60
57
BRCA siena3 / CONS darkred
58
BRCA green / CONS brown
59
D - Obtención de datos desde el portal de datos de TCGA
El portal de datos del Atlas del genoma del cáncer (TCGA) se encuentra en constante evolución.
El manual de usuario se encuentra en la siguiente URL:
https://docs.gdc.cancer.gov/Data_Portal/PDF/Data_Portal_UG.pdf
Para descargar datos de RNAseq de un tumor hay que navegar por el menú izquierdo,
seleccionar el tumor sobre el que filtrar los datos y el tipo de datos, en este caso RNAseq. Se
puede seleccionar formato TVS o JSON. Añadiremos estos ficheros al carrito (uno por muestra)
y desde el carrito podremos bajarlos.
El tipo de datos debe ser RNAseq2 level3, que significa que obtendremos ficheros de RNAseq
con valores de expresión normalizados mediante FPKM (Fragments per Kilobase Million).
También puede utilizarse un filtro de búsqueda avanzado (capítulo 8 del manual). El manual
explica también cómo obtener otros tipos de datos, metadatos y datos clínicos para estudios de
asociación.
Finalmente, para elaboración de procesos ETL automatizados es preferible recurrir a la API:
https://api.gdc.cancer.gov/
Puede encontrarse un ejemplo de uso de la API mediante la librería RTCGA de R, que simplifica
mucho su uso, en el repositorio GitHub de este Trabajo fin de Máster (apéndice E) o utilizarse
mediante llamadas a los diferentes servicios web desde otro lenguaje de programación.
60
E - Código R
https://github.com/qcsm/tfm
61