Sei sulla pagina 1di 62

UNIVERSIDAD AUTÓNOMA DE MADRID

ESCUELA POLITÉCNICA SUPERIOR

Máster en Big Data y Data Science: ciencia e ingeniería de datos

TRABAJO FIN DE MÁSTER

Construcción y análisis de redes de co-expresión RNA-seq y


desarrollo de una interfaz interactiva.

Carlos Quijano San Martín


Tutor: Irene Rodríguez Luján

Septiembre 2018
Construcción y análisis de redes de co-expresión RNA-seq y
desarrollo de una interfaz interactiva.

AUTOR: Carlos Quijano San Martín


TUTOR: Irene Rodríguez Luján

Escuela Politécnica Superior


Universidad Autónoma de Madrid
Septiembre de 2018

1
Resumen
En este Trabajo de Fin de Máster presentamos una herramienta online para detectar módulos de
genes co-expresados basándonos en el análisis de una red ponderada de correlación entre pares
de variables.
Este análisis de redes de correlación ponderada es también conocido como análisis de redes de
co-expresión de genes ponderados (WGCNA, por sus siglas en inglés), un método especialmente
diseñado para el estudio de redes biológicas. Si bien puede aplicarse a la mayoría de los
conjuntos de datos de alta dimensión, ha sido el más utilizado en aplicaciones genómicas.
Permite definir módulos (agrupamientos), nodos intramodulares y nodos de red intermodulares,
estudiar las relaciones entre módulos de co-expresión y comparar la topología de red de
diferentes redes (análisis diferencial de red). El algoritmo WGCNA puede ser utilizado como una
técnica de reducción de datos (relacionada con el análisis de factores oblicuos), como un método
de agrupamiento (agrupamiento difuso), como un método de selección de características (por
ejemplo, como un método de selección de genes), como un marco para integrar datos
complementarios genómicos (basados en correlaciones ponderadas entre variables cuantitativas)
y como una técnica de exploración de datos [1]. Dado que WGCNA utiliza una metodología de
red y es muy adecuado para integrar conjuntos de datos genómicos complementarios, puede
interpretarse como un método de análisis de datos biológicos o biología de sistemas. Al
seleccionar nodos intramodulares en módulos de consenso, el WGCNA también da lugar a
técnicas de metaanálisis basadas en redes.
El objetivo principal de este Trabajo Fin de Máster es hacer disponible para la comunidad
científica una herramienta que democratice el algoritmo WGCNA. En la fecha de este trabajo, no
existe ninguna herramienta online sencilla para que los usuarios típicos (por ejemplo biólogos o
médicos) puedan explotar las capacidades de este tipo de análisis. Sin herramientas como la
desarrollada en este trabajo la potencia WGCNA quedaría solo al alcance de los investigadores
que disponen de conocimientos teóricos muy avanzados en bioinformática, lo cual no es
habitual. Sin embargo nuestra experiencia nos muestra que hoy en día la mayoría de los
investigadores sí disponen de los conocimientos funcionales en genómica que son suficientes
para utilizar aplicaciones web donde prime la experiencia de usuario y estén bien documentadas.
Nos hemos centrado en facilitar el análisis de red para obtener módulos de co-expresión y el
análisis de consenso entre dos redes génicas de co-expresión, con la idea de permitir al usuario
extraer información de los genes en cada módulo de red, los genes específicos de una red y los
genes de consenso entre ambas redes. Identificar estos genes analizando la topología de las redes
de co-expresión es clave para los investigadores en campos tan importantes como la oncología y
la genómica funcional.
Analizamos también los resultados para mostrar que la aplicación es capaz de construir redes de
co-expresión con un profundo sentido biológico, especialmente cuando se realiza una red de
consenso entre dos redes relacionadas, mostrando gran sensibilidad a la hora de detectar genes
localizados en rutas moleculares comunes, propias de la relación entre ambas redes.
Con nuestra herramienta, basada en las capacidades del algoritmo WGCNA, el usuario puede
analizar cómodamente las redes de co-expresión de su interés y confeccionar una lista de genes
candidatos objeto de investigación posterior y pormenorizada en el laboratorio.

2
Agradecimientos

A mi mujer e hijas.
Sin su apoyo este Trabajo Fin de Máster no habría sido posible.

A Irene, por llevarme de vuelta a la genómica.


A Estrella y resto de docentes de la UAM, por la ciencia aprendida.
A Jenaro y el equipo de IBM, por su visión tecnológica y de Negocio.

3
 

ÍNDICE DE CONTENIDOS
Resumen 2

Introducción 7
Motivación 7
Objetivos 7
Metodología 8
Organización de la memoria 8
Breve introducción a la genómica. 9
Genómica: Tecnologías para el estudio del ADN. 10
Genes, ADN chatarra y epigenómica 11
Transcriptómica: Tecnologías para el estudio de la expresión génica. 12
Proteómica 13
Ensamblado del genoma 14
Aplicaciones en Biología y Medicina 15

Estado del arte 16


Microarrays de ADN 17
RNA-seq 18
Redes génicas de co-expresión 20
Algoritmo WGCNA 21
Construcción de la red de co-expresión 22
Identificación de los módulos 23
Relación de los módulos con fenotipos 24
Detección de factores clave 24
Estudio de relaciones intermodulares y análisis de consenso 25

Diseño y desarrollo 26
Capa de Extracción, Transformación y Carga de datos 27
Extracción 27
Transformación 27
Carga 29
Reducción de la dimensionalidad 29
Construcción del Modelo 29
Construcción de la Red de Co-expresión 29
Cálculo del umbral suave 30
Detección de módulos de co-expresión 31
Consenso entre dos redes de co-expresión 31
Interfaz de Usuario 32

4
Resultados 36
Similitudes entre ambos tumores 36
Genes específicos de BRCA 39
Lista de genes candidatos 40

Conclusiones 40

Trabajo futuro 42

Referencias 44

Apéndices 48
A - Análisis de consenso entre BRCA y PRAD 48
B - Lista de genes candidatos 51
Módulos de red de consenso 51
Módulos de co-expresión específicos de red de BRCA 54
C- Enriquecimiento funcional de módulos consenso seleccionados 55
D- Obtención de datos desde el portal de datos de TCGA 60
E- Código R 61

5
ÍNDICE DE FIGURAS

Figura 1. El Dogma Central de la Biología Molecular. 9

Figura 2. Esquema del proceso de ensamblado del genoma. 15

Figura 3. Estudio de asociación Genome Wide Association Study 16

Figura 4. Array de ADN. 17

Figura 5. Proceso de alineamiento de fragmentos de RNA-seq. 19

Figura 6. Construcción de redes de co-expresión y detección de módulos. 21

Figura 7. Hubs intra- en inter-moleculares. 25

Figura 8. Casos posibles de co-expresión diferencial. 26

Figura 9. Análisis de la topología de la red para varios umbrales suaves. 30

Figura 10. Detección de módulos y comparación entre método normal y por bloques. 31

Figura 11. Módulos y relaciones entre los módulos de los tumores BRCA y PRAD. 32

Figura 12. Interfaz de usuario 1/2. 34

Figura 13. Interfaz de usuario 2/2. 35

Figura 14. Asociaciones de los módulos con datos clínicos. 43

ÍNDICE DE TABLAS

Tabla 1. Matriz de conteo normalizada. 19

Tabla 2. Módulos seleccionados para el análisis de enriquecimiento funcional. 37

6
1 Introducción
1.1 Motivación
Hemos decidido centrar el presente Trabajo de Fin de Máster fundamentalmente en la parte de
Data Science. El análisis de secuencias genómicas y las redes de expresión de genes constituyen
dos campos en los que para avanzar en el conocimiento necesariamente se depende de
supercomputadoras y del análisis de datos masivos. La genómica y las herramientas
bioinformáticas para su análisis constituyen un campo multidisciplinar apasionante, como
podremos ver a lo largo de este trabajo.
Sin embargo, los investigadores en biomedicina no suelen disponer del tiempo ni los recursos
suficientes para aplicar muchos de estos algoritmos avanzados. Un ejemplo evidente es el del
análisis de redes génicas de co-expresión, que no cuenta con herramientas que democraticen su
uso. Creemos que una aplicación web sencilla posibilitará la obtención de resultados interesantes
para estos investigadores, generando nuevas hipótesis y listas de genes candidatos que motiven
un futuro proyecto de investigación.

1.2 Objetivos
El objetivo general de este Trabajo de Fin de Máster es la generación y análisis de redes de
co-expresión génica y en particular nos centraremos en la identificación de genes
especialistas/generalistas, a partir de datos de Next Generation Sequencing (RNAseq). Desde el
punto de vista de su aplicación a la Medicina, nuestro objetivo es acercar a los científicos que
investigan el Cáncer el análisis matemático de las redes de correlación entre la expresión de los
genes para diferentes tumores.
La construcción de la red de co-expresión consiste en generar un grafo no dirigido y ponderado
que cuenta con un gran número de nodos (genes del organismo a estudiar) y en el que los enlaces
representan la correlación en la co-expresión de cada par de genes para diferentes situaciones o
factores experimentales (tejidos, fases del desarrollo, etc.) [2]. Para la construcción del grafo se
utilizarán datos originados por experimentos de Next Generation Sequencing presentes en el The
Cancer Genome Atlas (TCGA) [3-5].
El análisis de la red construida conlleva el uso de técnicas de análisis de grafos para imputar a
cada gen posibles funciones desconocidas (Guilt by Association, ontologías, etc), ocurrencia
durante procesos biológicos (agrupamiento, K-NN, etc) e importancia en la regulación génica
(topología de la red: hubs, etc) [2].
El trabajo se ha realizado principalmente en el lenguaje R debido a que es en este lenguaje en el
que se encuentra implementado el paquete Bioconductor [6], ampliamente utilizado en
bioinformática y para el análisis de datos RNA-seq. En R se ha realizado el análisis de expresión
génica, la construcción de las redes de co-expresión y el análisis de la red.
Puntualmente ha sido necesario recurrir a implementaciones en Python o Shell Script, para la
programación y ejecución de scripts y pipelines en la capa de obtención de datos desde sus
fuentes públicas externas y para la ejecución de aplicaciones en línea de comandos que no están
disponibles en R.
La interfaz interactiva para el análisis de los resultados se ha desarrollado en Shiny [3].

7
1.3 Metodología
La metodología utilizada durante el desarrollo ha sido una metodología Ágil, acordada entre el
tutor y el alumno, constituyendo un acercamiento mínimo a Scrum para dos personas, donde el
Product Owner ha sido el tutor, el desarrollador ha sido el Alumno y los Stakeholders la
dirección del Máster y el Tribunal. Los Sprints han sido de una semana, salvo en los casos en que
durante cada reunión de planificación de Sprint ha sido necesario planificar dos semanas. La
herramienta utilizada para la gestión del proyecto ha sido Trello.

1.4 Organización de la memoria


Desde el punto de vista curricular, que consideramos el más idóneo para constituir el hilo
conductor del presente trabajo, el principal objetivo ha sido aplicar el mayor número de ítems del
temario del Máster en Big Data y Data Science: Ciencia e Ingeniería de Datos, en un trabajo
original.
El Máster en Big Data y Data Science: Ciencia e Ingeniería de Datos nos brindaba la posibilidad
de enfocar nuestro trabajo hacia el Big Data o hacia Data Science. Sin renunciar al Big Data
hemos centrado nuestro trabajo en la parte más específica de Data Science.
Durante la presente memoria, viajaremos a través de cada etapa del ciclo de vida de una
aplicación de Ciencia de Datos, desde la prospección de los datos públicos disponibles, pasando
por la limpieza y el análisis de estos datos, hasta la productivización de los resultados del análisis
mediante el desarrollo de una aplicación o servicio.
Por lo tanto la organización general de esta memoria consta de las siguientes partes
diferenciadas:
1. Introducción.
Además de presentar el trabajo, introduciremos brevemente la genómica, en especial los
conceptos necesarios de genómica funcional [7].
2. Estado del Arte.
Donde se describirán las peculiaridades teóricas y experimentales de la construcción y el
análisis de redes de co-expresión génica mediante WGCNA [1-5].
3. Diseño y desarrollo.
En este tema exponemos tanto la aplicación que hemos hecho de la teoría como el uso del
paquete R WGCNA y que hay detrás de cada elemento del diseño. Veremos en detalle en
qué consiste la capa de ETL (Extracción, Transformación y Carga de datos), el modelo
analítico subyacente para analizarlos y la aplicación de usuario con la que
productivizamos el modelo.
4. Resultados.
Dada la naturaleza analítica de la solución, consideramos necesario un apartado de
resultados en el cual se muestre la coherencia y la validez de los resultados y su
aplicabilidad a la Medicina.
5. Trabajo futuro.
La solución que presentamos en el presente Trabajo Fin de Máster constituye el Producto
Mínimo Viable acordado entre el tutor y el alumno. En este punto re-priorizamos muchas
mejoras y discutimos nuevas necesidades que nos hemos encontrado durante el
desarrollo.

8
1.5 Breve introducción a la genómica.
Las tecnologías de secuenciación de última generación (Next Generation Sequencing - NGS) han
abierto las puertas de la Biología a los científicos teóricos, permitiendo trabajar directamente
sobre estructuras de datos sobre las que se aplican potentes técnicas de computación. Los
avances en tecnología de secuenciación han sido tales que hoy en día resulta muy sencillo
obtener toda la información genética de un organismo y almacenarla en una computadora. Cada
día existen más y más datos genómicos, cuya generación crece a un ritmo exponencial y además
la mayoría de estos datos son públicos y de fácil acceso a través de Internet. Debido a todo ello,
los avances en Biología y en Medicina durante las últimas décadas han sido espectaculares [8].
La genómica utiliza estas nuevas tecnologías para estudiar, entre otros aspectos, cómo
interaccionan los genes de un organismo y cúal es su función, centrándose en los aspectos
dinámicos del funcionamiento celular. Estudia en definitiva los procesos que van desde el
almacenamiento de los genes en el ADN hasta el funcionamiento de la maquinaria celular [7,9].
Introducimos tres conceptos importantes: Genómica, Transcriptómica y Proteómica, que juntos
conforman el marco tecnológico de éste nuevo enfoque teórico y computacional en la Biología
[7-9]. Cuando expongamos estos conceptos, recurriremos en la medida de lo posible a un
lenguaje cercano e inspiracional, que resalte los paralelismos existentes entre los procesos
biológicos y cualquier procesamiento de la información. Por ejemplo, cabe destacar la similitud
entre el procesamiento de información llevado a cabo por la maquinaria celular a partir de las
instrucciones codificadas en la molécula de ADN, y el procesamiento de información que tiene
lugar en una computadora capaz de encontrar relaciones entre los datos experimentales y la
secuencia del ADN perteneciente a los organismos objeto de un estudio.
Dentro de la genómica podemos diferenciar la genómica funcional y la genómica estructural. Por
una parte, la genómica funcional, que es objeto del presente trabajo, se refiere al análisis de datos
de secuencias producidos por las tecnologías de secuenciación de última generación y su
asociación y correlación con datos experimentales, mediante modelos matemáticos y técnicas de
inferencia [7]. Sin embargo, la genómica funcional no es suficiente para entender el
funcionamiento de los seres vivos. La genómica estructural, que no es objeto del presente
trabajo, además de utilizar la información de la secuencia, necesita recurrir a la estructura
tridimensional del ADN y de las moléculas que interaccionan con él, como las proteínas. La
representación de estos datos es mucho más compleja y su tratamiento computacional más
pesado, ya que está basado en modelos químico-físicos [9].

 
Figura 1. El Dogma Central de la Biología
Molecular, postulado por Francis Crick [9]. En
líneas rojas, las transiciones de la información
caracter a caracter que son habituales: El ADN
puede replicarse y transcribirse a ARN. El
ARN se traduce a proteínas. En líneas grises
discontinuas, procesos poco habituales pero
muy importantes en Biología: El ARN puede
replicarse y puede transcribirse inversamente
(generando la correspondiente cadena de
ADN). El resto de transiciones de la
información no existen.

9
El presente trabajo fin de Máster transcurre dentro del campo de la genómica funcional. Sin
embargo, no queremos dejar de lado la importancia de comprender y tener como referencia la
genómica estructural.
También es importante conocer previamente el Dogma Central de la Biología Molecular,
enunciado por Francis Crick en 1958 [10] y que básicamente postula que existen tres
biopolímeros entre los que se propaga la información genética: el ADN, el ARN y las proteínas.
La información de las secuencias de caracteres se transfiere entre estos tres estados con
correspondencias carácter a carácter siendo imposible la transferencia de información de
secuencia de proteína a proteína o de proteína a ácido nucleico (ADN o ARN) estando
permitidas el resto.
A lo largo de la introducción presentaremos los flujos de la información de secuencia de ADN a
ARN y de ARN a proteína. No hablaremos de las replicaciones posibles (ADN y ARN) ni de la
transcripción inversa (generación de ADN a partir del ARN) que pueden encontrarse en la
literatura [7]. Estos flujos de información de la secuencia no son clave para la comprensión de
este trabajo fin de Máster. Pero aunque no sean conceptos necesarios para entender un estudio de
cuantificación y análisis de la expresión génica, es importante recalcar que son procesos claves
en Biología y fundamentales en la teoría moderna de la evolución. La comprensión profunda de
los mecanismos evolutivos es un prisma necesario sin el cual la Biología no puede entenderse
adecuadamente, es su principal elemento diferenciador como sistema capaz de procesar
información y muy probablemente también el secreto de su extraña perfección.
1.5.1 Genómica: Tecnologías para el estudio del ADN.
Las instrucciones genéticas usadas durante el desarrollo y funcionamiento de todos los
organismos vivos y algunos virus están codificadas químicamente en forma de ácido
desoxiribonucleico (ADN). El ADN es una macromolécula con forma de polímero no ramificado
(cadena lineal) compuesto por la repetición de unas moléculas llamadas nucleótidos. La
estructura de un nucleótido se compone de tres partes: un glúcido, una base nitrogenada y un
grupo fosfato. Entre un nucleótido y el siguiente se establece un enlace fosfodiéster
(glúcido,fosfato) y la base nitrogenada queda expuesta hacia fuera de la cadena principal. Lo
único que distingue a un nucleótido de otro es su base nitrogenada. En el ADN hay cuatro
posibles bases nitrogenadas: adenina A, timina T, guanina G y citosina C.
Las bases nitrogenadas en solución acuosa tienen propiedades químicas que les permiten
interaccionar unas con otras de forma muy concreta: A-T y G-C. Para cada molécula de ADN
existe químicamente otra cadena complementaria. En solución acuosa las bases nitrogenadas de
una cadena interaccionan así con las de su complementaria. Como la cadena de ADN estirada en
las tres dimensiones tiene una estructura helicoidal, junto a su complementaria, ambas generan
una doble hélice característica del ADN [11]. Debido a esto su estructura es muy estable [12]. El
estado habitual de la doble hélice no es estirada, si no comprimida y protegida en forma de
cromatina que a su vez se comprime y protege aún más formando un cromosoma. Su tamaño
puede ser enorme, por ejemplo el cromosoma humano más largo contiene 249 millones de bases
[13].
La información genética de un individuo suele estar almacenada en varios cromosomas. Los
cromosomas se forman por la interacción de muchas moléculas independientes (estructura
supramolecular). Las moléculas que forman el cromosoma son fundamentalmente ADN y
proteínas, pero también ARN. Estas moléculas tienen la capacidad de interaccionar con el medio
celular y exponer las regiones del ADN necesarias para dar una respuesta adecuada. El genoma

10
humano está compuesto por 46 cromosomas (22 pares y los dos cromosomas sexuales) que
contienen en total aproximadamente 3 billones de pares de bases [13].
La representación de toda la información genética de un organismo se denomina el genoma de de
dicho organismo. Para representar un genoma en forma de datos de la manera más sencilla
posible, cada cromosoma se presenta como una cadena de caracteres con repetición de entre
(A,C,G o T). Los genomas representados como cadenas de caracteres permiten el tratamiento
computacional de la información genética que almacenan, recurriendo únicamente a la teoría de
análisis de secuencias de caracteres. Esta información puede asociarse o relacionarse con otros
datos experimentales, como por ejemplo datos clínicos, para imputar mutaciones, regiones
completas del genoma o estructuras de topología compleja y más avanzadas como las redes de
expresión, las redes de interacción o la red de procesos metabólicos [14-17].
1.5.1.1 Genes, ADN chatarra y epigenómica
El modelo clásico de gen, en el que un gen se activa y produce una función ha quedado superado
tras los avances de la revolución genómica [8]. Es importante conocer la reinterpretación
genómica del gen y en que se basa la regulación génica, antes de recurrir a las redes de
correlación y analizar la multitud de datos experimentales que produce la genómica.
Se estima que cada gen interactúa con un promedio de cuatro a ocho genes [17] y que participa
en 10 funciones biológicas [18]. Por esta razón, para analizar la expresión génica cada vez se
recurre más al análisis de redes y grafos.
La unidad básica funcional compuesta por un segmento de ADN se denomina gen. Su estructura
es la de la secuencia contenida en un segmento concreto del ADN perteneciente a una de las dos
hebras o cadenas complementarias. De alguna manera, el gen sería la unidad básica de la
información. Clásicamente también, cada gen produce proteínas. Desde el punto de vista del
análisis de secuencias, cada gen se define por un patrón concreto de caracteres que incluye
fundamentalmente un comienzo, una serie de módulos (cada uno de ellos con su propio
comienzo y fin) y un final de secuencia. Estos módulos permiten que los genes sean polimórficos
y consecuentemente un gen pueda producir varias proteínas en función de cómo se edite su
secuencia y sus módulos.
Los genes se activan gracias a regiones en el genoma cercanas, que mediante pequeñas
secuencias de bases resultan capaces de unir proteínas promotoras. Por lo tanto la definición
clásica de gen puede ampliarse a la de la secuencia del gen más las secuencias cercanas a él que
lo activan.
Sin embargo, la mayor parte del ADN no codifica estos genes y por ello se consideraba que el
resto del ADN era chatarra, que o bien solo servía para contener los genes en las regiones
adecuadas, o bien simplemente eran secuencias residuales de la evolución que, por razones
diversas, aún no se habrían eliminado [19].
Previo a la revolución genómica se consideraba también que conociendo la secuencia de todos
los genes, se conocería el funcionamiento de toda la célula. Sin embargo, tras las secuenciación
del genoma humano [13] el número de estos genes demostró ser sorprendentemente inferior al
esperado. De los aproximadamente 300,000 genes esperados, en la secuencia del genoma
humano se encontraron tan solo unos 20,000 que cumplieran con la definición clásica de gen.
Aun teniendo en cuenta la capacidad de los genes de poder producir una o más proteínas, esta
cantidad de genes resultaba desconcertante: aún disponiendo de toda la secuencia del genoma,
existía un gap de complejidad entre la realidad observable (fenotipo) y la información genética

11
(genotipo). No se podía concebir la complejidad de la expresión génica recurriendo solamente al
modelo de la bolsa de genes.
Pronto a partir de la revolución genómica se comenzó a encontrar cada vez más regiones de
ADN que sin responder a la definición clásica de gen, estaban significativamente conservadas
entre diferentes organismos, mientras el resto de ADN intergénico no se conservaba en la misma
proporción, por lo que estas secuencias no podían ser simplemente ADN chatarra: debían
contener alguna función desconocida.
Por poner un solo ejemplo de sospechas al respecto, previas a la revolución genómica, los
biólogos que estudiaban el desarrollo diferencial de distintos organismos, recurriendo a técnicas
de ingeniería genética, ya intuían e incluso conocían la existencia de regiones del ADN a veces
muy lejanas al gen [20], que bien podrían estar relacionadas con las diferencias en la expresión:
existía correlación entre la presencia y el grado de conservación de la secuencia del ADN en
estas regiones del genoma de cada organismo y sus diferencias morfológicas [21].
Se conoce como epigenética todo aquello que influye durante la expresión de un gen a parte del
propio gen. El estudio de toda esa información extra, más allá de la secuencia del genoma, se
denomina epigenómica [22].
1.5.2 Transcriptómica: Tecnologías para el estudio de la expresión génica.
La transcriptómica se refiere al conjunto de técnicas instrumentales bioquímicas diseñadas para
obtener todo el ácido ribonucleico (ARN) presente en una muestra, representarlo en forma de
datos sencillos de manejar y las tecnologías utilizadas para analizarlo. El conjunto de los datos
resultado de obtener todo el ARN presente en una muestra se denomina el transcriptoma de dicha
muestra.
En nuestra opinión, deben considerarse también parte de la transcriptómica los algoritmos
computacionales y las teorías matemáticas que permiten analizar estos datos y que colaboran en
que cada día se descubran más hechos relevantes acerca de cómo funcionan los genes y los
genomas.
El ARN se produce mediante el proceso de la transcripción del ADN. La transcripción es un
proceso biológico durante el cual un segmento concreto del ADN, persistente en una de sus dos
cadenas, se copia para dar la sub-cadena de ARN correspondiente. Clásicamente, el ARN o ácido
ribonucleico era considerado un estado intermedio de la información, que desde el cromosoma es
trasladado hasta la maquinaria celular, donde es capaz de generar las proteínas. Actualmente, se
conoce que también se transcriben genes e incluso secuencias que no codifican proteínas,
existiendo muchos tipos de ARN funcionales además de aquellos que producen proteínas.
El ARN no es por lo tanto solo información transitoria, además tiene actividad funcional y en
determinados casos, es parte fundamental de la estructura y el funcionamiento celular. Un
ejemplo es el ribosoma, molécula fundamental en la generación de las proteínas.
El ARN es otro polímero lineal compuesto por un glúcido, una base nitrogenada y un grupo
fosfato. La diferencias entre el ADN (molde) y el ARN (copia) son dos: el glúcido y una de las
cuatro bases nitrogenadas. En el ADN el glúcido es una molécula de desoxirribosa y en el ARN
una molécula de ribosa. La base nitrogenada timina T presente en el ADN se corresponde con la
base nitrogenada uracilo U en el ARN. Estas diferencias en la estructura tienen como
consecuencia diferencias físicas y químicas: el ARN es más flexible, es menos estable y también
es más reactivo. Características todas ellas necesarias para su función [12].

12
El ARN que la célula ya no necesita se destruye de una manera controlada por la maquinaria
celular. Cuando un gen vuelve a resultar necesario, se transcribe de nuevo desde el ADN, en
función del estado celular del momento. Las razones por las que el gen se expresa pueden ser
iguales, similares o incluso distintas cada vez.
El resumen, el ADN es siempre igual en todas las células de un mismo organismo y contiene la
información genética, mientras que las moléculas de ARN presentes en la célula son regiones
transcritas del ADN distintas en cada célula y en cada momento. Las partes del ADN que se
copian a ARN y su cantidad así como las interacciones posibles dependen totalmente del estado
y la actividad química intracelular y constituyen un sistema dinámico. La transcripción es el
primer paso para la expresión de un gen. La expresión de un gen es una variable cuantitativa que
mide su número de copias en forma de ARN. Finalmente, el conjunto de los complejos procesos
biológicos que controlan la expresión de los genes se conoce con el nombre de regulación de la
expresión génica. Aunque no podamos profundizar en la naturaleza de estos procesos, entre otras
cosas por ser muchos de ellos aún desconocidos, las redes de co-expresión génicas en las que se
centra este Trabajo de Fin de Máster constituyen una herramienta muy útil para estudiar la
regulación génica.
El campo interdisciplinar que estudia el funcionamiento de la maquinaria celular desde este
prisma, se conoce como Biología de Sistemas. La Biología de Sistemas entiende estos procesos
como funciones de dinámicas de estado y los trata tanto matemática como computacionalmente,
generando modelos teóricos.
Podemos opinar sin temor a equivocarnos que hoy en día se conoce solo la punta del iceberg en
lo relativo a los mecanismos moleculares implicados en la regulación génica, que son los
responsables del funcionamiento de la célula. Aunque el funcionamiento de la célula no haya
podido explicarse mediante modelos sencillos similares a la bolsa de genes, la comunidad
científica se esfuerza día a día en cerrar cada vez más el gap entre la secuencia de la información
genética en los genomas y la complejidad de los organismos. Para ello se recurre frecuentemente
a las tecnologías transcriptómicas, capaces de medir los niveles de expresión de los genes y
buscar la integración de estas con el resto de tecnologías de última generación como la genómica
y proteómica, utilizando para ello modelos y datos experimentales procedentes de la Medicina y
de la Biología Molecular.
1.5.3 Proteómica
La proteómica no tiene un papel relevante en el presente trabajo, pero consideramos necesario
introducirla mínimamente por su importancia.
Como hemos visto antes muchas moléculas de ARN generan proteínas. Las proteínas también
son un polímero lineal, pero en vez de estar formadas por una cadena de nucleótidos están
formadas por una cadena de aminoácidos. El proceso de transición de la información caracter a
caracter desde ARN a proteínas se conoce como proceso de traducción (figura 1). Cada tres
nucleótidos estos se traducen por un aminoácido siguiendo un código redundante pero no
ambiguo, el código genético [23]. La proteómica también se refiere al conjunto de tecnologías
utilizadas para aislar y secuenciar las proteínas, representarlas y almacenarlas en forma de
cadenas de caracteres y todas las demás tecnologías necesarias para analizar su secuencia, su
estructura y sus interacciones. Sin embargo, por su importancia mayor, la proteómica necesita
recurrir fundamentalmente a los datos de la estructura tridimensional de las proteínas dado que la
secuencia por sí misma no contiene tanta información como la de los ácidos nucleícos y en este
caso es la estructura tridimensional de una proteína la que determina su función y sus
interacciones.

13
En el presente Trabajo Fin de Máster nos hemos centrado en las redes de co-expresión de genes
pero durante el análisis de los módulos de co-expresión de la red hemos utilizado bases de datos
de interacción entre proteínas (productos de los genes) para ayudarnos a evaluar su función.
La genómica, la transcriptómica y la proteómica juntas definen casi totalmente el elenco actual
de técnicas bioquímicas y tecnologías computacionales aplicadas al estudio de la Biología, desde
un enfoque holístico e informacional. También hemos presentado brevemente la epigenómica,
relevante aunque bastante menos desarrollada que las anteriores. La relevancia científica del
resto de -omics hoy por hoy es menor y tampoco son objeto del presente trabajo fin de Máster.
Por estas razones no hemos considerado necesario introducirlas.
1.5.4 Ensamblado del genoma
La secuenciación y el ensamblado de los genomas empezó como una técnica bioquímica
laboriosa, en la que cada grupo de investigación se encargaba de secuenciar una región del
genoma base a base, lentamente. Mientras que esto era factible para genomas sencillos, el
genoma humano representaba un desafío mayor. Para conseguirlo se desarrollaron nuevos y
mejores métodos de secuenciación, totalmente automatizados, basados en amplificar la cantidad
de moléculas de ADN mediante su replicación, utilizando la misma molécula que utiliza la célula
(ADN polimerasa). Ese ADN amplificado se fracciona en cadenas más sencillas mediante
diversas técnicas físicas y químicas. Esto conlleva perder el orden de la secuencia y aunque
parece contraintuitivo sin embargo es lo que permite secuenciar en paralelo todas estas cadenas
más cortas y más manejables. En general la probabilidad de cometer un error de un secuenciador
es mayor cuanto mayor es la longitud de la secuencia que lleva secuenciada. Hoy en día, las
tecnologías de última generación (Next Generation Sequencing) utilizan avances que aceleran
aún más el proceso, cometiendo menos errores de lectura y a precios cada vez menores.
Una vez secuenciados todos los fragmentos del ADN amplificado, estos se pueden ensamblar
para obtener la secuencia del genoma utilizando computadoras y algoritmos de identificación de
secuencias. Si se ha replicado suficientemente la muestra inicial de ADN, esto es, si tenemos un
número suficientemente alto de cadenas de ADN idénticas y dado que se ha fraccionado cada
molécula más o menos al azar, estadísticamente siempre habrá un modo de ensamblar la
secuencia completa de nuevo recurriendo a la identidad de secuencias en las regiones solapantes
entre fragmentos consecutivos pertenecientes a distintas moléculas de ADN (figura 2).
Aunque el problema así expuesto parece resuelto, lo cierto es que la cadena de ADN posee largas
secuencias de baja complejidad que producen muchas identidades de secuencia que nada tienen
que ver con un solapamiento real. También existen muchas duplicaciones segmentales (unas
detrás de otras) tanto de secuencias cortas como largas, repetidas muchas veces. Incluso
duplicaciones distales (lejos unas de otras). En definitiva, la secuencia del genoma no es fácil de
ensamblar, y los algoritmos computacionales que se encargan de resolver el ensamblado
encuentran muchos puntos muertos, bucles y artefactos. Es por ello que antes de disponer de la
primera versión de un genoma se disponga de largas regiones más o menos bien ensambladas,
cuya calidad puede medirse tanto experimental como estadísticamente, que se conocen con el
nombre de contigs y supercontigs. Por la misma razón la primera versión de la secuencia de un
genoma siempre es la de peor calidad. La calidad va aumentando en cada nueva versión al
eliminarse los errores tanto de secuenciación (que también los hay) como de ensamblado, gracias
a evidencias experimentales y a mejoras computacionales en los procesos de ensamblado. La
versión del genoma humano en el momento de la elaboración de esta memoria es la hg38
(release 2013).

14
 
Figura 2. Esquema del proceso de ensamblado del
genoma [24]. (a) Primero se amplifica la secuencia
del genoma, produciendo múltiples copias de la
molécula, (b) las distintas copias se fragmentan al
azar, (c) se seleccionan los fragmentos con tamaño
adecuado para el proceso de secuenciación,
eliminando los más cortos (difíciles de ensamblar)
y los más largos (difíciles de secuenciar), (d) se
secuencian los fragmentos, obteniendo como
resultado distintas lecturas de los mismos, (e) las
lecturas se ensamblan mediante algoritmos
computacionales, generando contigs y presentando
gaps, (f) los contigs se van relacionando con
nuevas lecturas posteriores capaces de
relacionarlos y ordenarlos, aunque siguen
existiendo cierto número de gaps.

Además de ser secuenciados y ensamblados, los genomas también son anotados profusamente
con la información de todos los genes que contienen, la estructura en módulos (o exones) de cada
gen, secuencias de unión de promotores, factores reguladores de la transcripción y todo un
elenco de análisis comparativos de secuencias funcionales, como aquellas comentadas
anteriormente, reguladoras de la expresión génica. Los genomas se anotan tanto por evidencias
conocidas experimentalmente como utilizando el resultado de algoritmos predictivos de todo
tipo.
1.5.5 Aplicaciones en Biología y Medicina
La revolución genómica no solo tiene una gran repercusión en el desarrollo de la Biología como
ciencia, de lo que ya hemos hablado durante la introducción. Además ha permitido que la
Medicina aproveche toda esta información gracias a importantes estudios de asociación entre la
información genómica y los datos de ensayos clínicos. Como consecuencia, hoy en día
conocemos mejor los mecanismos moleculares y las consecuencias de las patologías o
enfermedades. La interacción entre la genómica y la medicina también abre las puertas a la
medicina personalizada, que permitirá asignar a cada paciente el mejor tratamiento posible, dada
su información genética.
Un ejemplo de este tipo de abordajes innovadores es el de los análisis GWAS (en inglés,
Genome-wide association study) que por ejemplo para el caso de la diabetes tipo 2 ya ha
conseguido imputar cientos de regiones del genoma a mayores tasas de riesgo de padecer la

15
enfermedad, utilizando datos de decenas de miles de pacientes, donde se recogen datos clínicos y
también la secuencia de sus genomas [25,26].

 
Figura 3. [2] Diagrama de alto nivel presentando un típico estudio de asociación (Genome Wide Association Study)
para relacionar genes y enfermedades mediante datos genómicos y el análisis de redes de co-expresión. Primero se
identifican variantes genéticas con efecto en la expresión (cis- y trans-eQTLs) y se mapean sobre la red de
co-expresión. Se añaden nuevas capas de datos como pueden ser interacciones proteína-proteína (PPI), sitios de
unión de factores promotores de la transcripción (TF binding) o secuencias de unión de micro ARN (miRNA
binding) contrastadas experimentalmente o predichas in-silico. Se utiliza una red de co-expresión para identificar
módulos, genes centrales (HUBs) y para predecir la función de genes asociados a rasgos desconocidos. Los módulos
identificados pueden ser analizados mediante diversas técnicas y las hipótesis contrastadas contra otros datos de
soporte.

Otro caso de éxito de las tecnologías de última generación es el análisis de los datos de
secuenciación del contenido de ARN celular, lo que nos permite la cuantificación del nivel de
expresión de cada gen y la construcción de redes génicas de co-expresión, con el objetivo de
analizar las relaciones entre la co-expresión de los genes y los datos clínicos [2]. Este método de
análisis es el que seguimos en el presente trabajo fin de Máster.

2 Estado del arte


El análisis de la expresión génica y su asociación a datos clínicos o experimentales ha producido
importantes avances en Biología desde que aparecieron técnicas instrumentales bioquímicas de
extracción y caracterización de ácidos nucleicos y proteínas. Los avances en la Biología
Molecular fueron aún mayores una vez se pudo secuenciar la información de estas moléculas y
hoy en día el conocimiento científico acerca de la expresión y la regulación de los genes se ha
redefinido notablemente debido a la Genómica [13].
Como vimos durante la introducción, los genes individuales no funcionan solos. Interactúan
entre sí para realizar funciones mucho más complejas de lo que se pensaba y por lo tanto afectan
conjuntamente a la salud humana [17-23].
Para construir una red de co-expresión génica es necesario que primero se cuantifique el nivel de
expresión de cada gen en la muestra. Para ello se puede recurrir a la cantidad de proteínas o de

16
ácido ribonucleico (ARN) presente en la muestra. En la práctica, en los estudios de genómica
funcional, hoy en día se recurre a la cuantificación del ARN, que normalmente se realiza
mediante el diseño de microarrays de ADN [27] y en los últimos tiempos, también se recurre
directamente a la secuenciación de todo el ARN presente en la muestra (RNAseq) [28]. A
continuación exponemos las diferencias, ventajas y desventajas de cada una de estas
técnicas[29].

2.1 Microarrays de ADN


Aparecieron primero al no ser viable en ese momento secuenciar un transcriptoma al completo,
pero también para responder a otras necesidades, como son la detección de moléculas de ARN en
una muestra (perfilado de datos de expresión), estudios comparativos del ADN (grado de
variación de dos regiones genómicas muy relacionadas por ejemplo tumoral y sana) o la unión de
ADN y ARN a proteínas (estudios epigenéticos y de regulación génica).

 
Figura 4. Array de ADN. (1) Sobre una
placa se fijan distintas secuencias de ADN
que actuarán como sonda. (2) De la
muestra con ARN a estudiar se obtienen
secuencias de ADNc complementario,
marcadas con una molécula que sea capaz
de emitir fluorescencia. (3) Se presenta la
muestra y se deja que las moléculas
hibriden por su similitud de secuencia.
Posteriormente se lava el array de ADN
para eliminar posibles hibridaciones
inespecíficas. (4) Finalmente, se revela la
imagen del array de ADN gracias al
marcado y esta imagen se analiza
computacionalmente para detectar picos de
expresión.

Las secuencias de ADN de la muestra que sean idénticas o muy similares a las secuencias de
ADN de las sondas del microarray se unirán a ellas, por la misma razón que las cadenas
complementarias del ADN se unen para formar la doble hélice. En este caso, la unión no tiene
por que ser perfecta, basta con que ambas cadenas sean suficientemente similares en su
secuencia. Una vez se deja el tiempo pertinente para que las cadenas se unan específicamente, se
lava la muestra y se eliminan las secuencias que no se hayan unido con suficiente especificidad.
Una vez lavado, el microarray de ADN se revela mediante diversas técnicas que tienen que ver
con el marcado de las moléculas de la muestra y que permiten obtener una imagen con diferentes
intensidades. No todos los microarrays pueden inferir niveles de expresión. En algunos casos se
presentan dos muestras diferentes al mismo microarray, y se utiliza la capacidad de competir por
unirse de las moléculas marcadas de cada muestra para medir su expresión diferencial.
Valga indicar que los microarrays son muy dependientes de su diseño, tanto para el tratamiento
de los datos como para el objetivo del experimento. Además, los microarrays son una técnica que
se mueve casi totalmente dentro del plano de la metodología experimental, más que una técnica
de medida. Aunque el tratamiento posterior de los datos requiere de avanzados algoritmos y
modelos estadísticos, lo cierto es que esto también resulta por lo general poco ventajoso y se

17
debe más que a la elegancia de la técnica, a la necesidad de controlar multitud de problemas
experimentales asociados a su diseño.
Las ventajas de los microarrays de ADN son las siguientes [29]:
● Existen importantes estándares, métodos robustos y confiables y protocolos comparables,
que han sido probados durante décadas con éxito.
● Al ser bien conocidos el análisis de datos resulta también muy accesible.
● El almacenamiento de datos no es un problema (orden de MB).
● Su precio es por lo general muy inferior.
Las principales desventajas de los microarrays de ADN son las siguientes [29]:
● Las moléculas sonda deben diseñarse en base a secuencias conocidas previamente. El
microarray debe volver a realizarse cuando se dispone de nueva información de
secuencias.
● No permiten detectar nuevos genes o variaciones estructurales.
● Baja sensibilidad que no permite diferenciar secuencias similares o isoformas.
● Es una solución al problema basada en un experimento químico, no puramente digital.
● Solo pueden medir valores relativos de expresión, no valores absolutos.
Pese a todo, los microarrays de ADN son una técnica muy particular, muy personalizable y que
puede presentar ventajas en determinadas situaciones. El mejor ejemplo es su capacidad de
detectar interacciones entre ADN y proteínas [30,31].

2.2 RNA-seq
La secuenciación de todo el ARN presente en una muestra (esto es, como vimos, su
transcriptoma), incluso el transcriptoma al nivel de una única célula [32] también puede
obtenerse mediante tecnologías de Next Generation Sequencing. Esta técnica se conoce como
RNA Sequencing o RNA-seq.
Del mismo modo que para la secuenciación de genomas posteriormente a la secuenciación
resulta necesario ensamblar el genoma, en el caso de la secuenciación del transcriptoma también
resulta necesario ensamblar los fragmentos de ARN. En este caso sin embargo el resultado final
no son cadenas de millones de caracteres (el genoma) cada una de ellas representando un
cromosoma, sino que deben ensamblarse los miles de cadenas de ARN copiadas desde diversos
segmentos del genoma (esto es, los genes), que como vimos constituyen la información genética
que se está expresando en ese momento para esa muestra concreta (ver figura 5, mapeo de la
expresión de un gen sobre el genoma de referencia).
El proceso de ensamblado de las secuencias de ARN se puede obviar si disponemos del genoma
ensamblado como referencia, recurriendo a técnicas bioinformáticas basadas en la estadística y la
computación, alineando cada fragmento de ARN sobre las coordenadas del genoma basándose
en la identidad o la similitud entre secuencias. Para ello se ha de disponer del genoma
ensamblado y suficientemente anotado en el que al menos se encuentren las coordenadas de cada
gen (figura 5).
Si este es el caso, pueden disponerse sobre el genoma todos los fragmentos de ARN
pertenecientes a los transcritos que había presentes en la muestra, y cuantificar cuánto se está
expresando cada gen para todos los genes presentes en la muestra, midiendo la cantidad de
fragmentos que quedan dentro de las coordenadas de cada gen en el genoma. Para que esto sea
posible hay que amplificar suficientemente el ARN presente en la muestra, con objeto de cubrir
cada gen con suficientes fragmentos de ARN.

18
 Figura 5. Proceso de alineamiento de fragmentos de RNA-seq sobre la secuencia anotada del genoma. Visión
simplificada de RNA-seq, pero que sirve para entender la base más importante. Los fragmentos de ARN presentes
en la muestra, se alinean por identidad de secuencia sobre la secuencia del genoma de referencia. Si los fragmentos
de ARN alineados caen dentro de un gen anotado en el genoma de referencia, se procede a su conteo. Conociendo la
distribución de fragmentos de ARN que entran dentro de las coordenadas de cada gen anotado, se puede calcular el
nivel de expresión de cada gen. Una de las ventajas más significativas de RNA-seq frente a los arrays de ADN es
que de este modo puede detectar no sólo la expresión del gen si no de cualquiera de sus isoformas (que exones hay
presentes), así como identificar formas no descritas.

 
Tabla 1. Matriz de conteo normalizada. Los genes se presentan en cada fila (20.531 genes) y las muestras en cada
columna (con el código de barras del paciente). Cada columna representa un experimento de conteo del número de
fragmentos de ARN alineados para cada gen del genoma.

19
De los fragmentos de las moléculas de ARN dispuestos sobre las coordenadas del genoma
(figura 5) se obtiene una matriz de conteos, donde encontraríamos números enteros que reflejan
el número de lecturas que han sido alineadas para cada gen en cada experimento. Esta matriz de
datos de conteo debe normalizarse, siendo este un campo actual de investigación [28]. Es
fundamental escalar los valores en función del número de lecturas totales para cada muestra
(suma de lecturas de cada columna). Por conveniencia se escala también al número de lecturas
por millón. Además también se deben escalar los datos de conteo en base a la longitud de cada
gen, ya que para los genes con una mayor longitud de secuencia se esperan más lecturas, aunque
se expresen en igual cantidad que otros de secuencia más corta. De este modo, una matriz de
conteo cruda (con valores enteros) se convierte en una matriz normalizada (ver tabla 1). Esta
normalización es la que utilizamos en el presente Trabajo Fin de Máster, se conoce como FPKM
(Fragments per Kilobase Million) es un estándar y es la forma en la que se normalizan los datos
de RNA-seq de TCGA.
Las ventajas de RNA-seq son [29]:
● Es independiente al conocimiento previo.
● Permite visualizar y analizar todo el transcriptoma.
● Mayor sensibilidad para genes con baja expresión.
● Se pueden detectar variaciones estructurales.
● Solución practicamente digital. Todas las partes de su diseño dependen de tecnologías de
medida, sin apoyarse en un experimento previo de interacción molecular en el
laboratorio, como es la hibridación de cadenas de ADN (microarrays).
● Capacidad de medir cantidades absolutas.
Las desventajas de RNA-seq son [29]:
● Tecnología menos conocida, por lo que no dispone de estándares tan potentes como los
microarrays, ni protocolos tan desarrollados. Distintos experimentos pueden ser
complejos de comparar.
● El análisis de datos puede ser un desafío por la cantidad de datos que genera y la falta de
décadas de casos de éxito en los que apoyarse.
● El almacenamiento de datos puede ser un problema (orden de GB y más).
● Precio elevado, aunque cada vez resulta más económico.

2.3 Redes génicas de co-expresión


Las redes de genes ofrecen la posibilidad de identificar cientos de genes que están asociados con
enfermedades humanas complejas y que podrían servir como puntos de intervención terapéutica
[25,26]. Con toda esta información es posible predecir las funciones de nuevos genes y encontrar
genes que juegan un papel clave en enfermedades humanas complejas.
La construcción de una red de co-expresión de genes (Gene Coexpression Network GCN) es una
manera efectiva de caracterizar los patrones de correlación entre genes presentes en una matriz
de datos de expresión, como las resultantes de un análisis de microarrays de ADN o de la
secuenciación y cuantificación del ARN de una muestra, vistos más arriba (para un ejemplo, ver
tabla 1).
Las subredes densamente conectadas forman módulos (o clusters) de genes, que normalmente
están relacionados con funciones biológicas. Como se puede ver resumido en la figura 6, una red
de co-expresión de genes es un grafo no dirigido, donde cada nodo corresponde a un gen, y cada
arista conecta un par de genes que están significativamente correlacionados en su patrón de

20
expresión [2]: los niveles de transcripción de dos genes co-expresados presentan una
dependencia lineal (directa o inversa) a través de las muestras.

 
Figura 6. Construcción de redes de co-expresión y detección de módulos [2]. Ejemplo de análisis de una red de
co-expresión. Primero, se determina la correlación por pares para cada posible par de genes en los datos de
expresión. Estas correlaciones por pares pueden ser representadas como una red. Los módulos dentro de estas redes
se definen mediante el análisis de agrupamiento. La red y los módulos pueden ser interrogados para identificar
reguladores, enriquecimiento funcional y genes centrales. El análisis de co-expresión diferencial puede utilizarse
para identificar módulos que se comportan de forma diferente en diferentes condiciones. Los genes de enfermedades
potenciales pueden ser identificados usando un enfoque de culpabilidad por asociación (GBA, por sus siglas en
inglés) que resalta los genes que están co-expresados con genes de enfermedades.

2.3.1 Algoritmo WGCNA


El análisis ponderado de redes de co-expresión de genes (Weighted Gene Coexpression Network
Analysis, WGCNA) [1] es un método popular de biología de sistemas que se utiliza no sólo para
construir redes de genes, sino también para detectar módulos de genes e identificar a los actores
centrales dentro de los módulos, esto es, los genes con más conexiones dentro del módulo.
Analizando dicha red, pueden imputarse genes desconocidos al desarrollo de distintos tumores
ya que interaccionan con otros genes bien conocidos, todos ellos muy importantes en el
desarrollo de la enfermedad [15].
El método WGCNA construye una red ponderada lo que tiene la ventaja de que todas las aristas
posibles aparecen en la red y estas tienen un peso que muestra lo significativa que es la
correlación entre la expresión de ambos genes.
Los diferentes pasos que configuran el algoritmo WGCNA se describen en las secciones 2.3.1.1 -
2.3.1.5

21
2.3.1.1 Construcción de la red de co-expresión
Una red de co-expresión de genes puede representarse matemáticamente por una matriz de
adyacencia N × N , donde cada elemento aij refleja la similitud de los patrones de expresión
entre un par de genes (nodo i , nodo j ). En nuestro caso, para cada tumor, tenemos una matriz
con los N genes seleccionados de entre todos los genes del genoma, o del genoma completo.
La fuerza de la conexión se define por la similitud de la co-expresión sij como el valor absoluto
del coeficiente de correlación entre los perfiles de expresión del nodo i y el nodo j a lo largo de
las distintas muestras o experimentos. Los perfiles de expresión de cada gen son por lo tanto las
distintas filas en la matriz de datos, y los distintos experimentos son cada columna (ejemplo de
matriz de datos en la tabla 1).

(
sij = ∣∣cor xi , xj ∣∣) (ecuación 1)

En las redes de co-expresión no ponderada, se identifican dos genes adyacentes ( aij = 1 ), si la


correlación absoluta entre sus perfiles de expresión es superior a un umbral "duro" τ . Sin
embargo, este umbral duro no refleja la medida de co-expresión real, que es continua, y por
consiguiente conduce a una pérdida significativa de información. Por esta razón, Horvath y sus
colegas introdujeron un nuevo marco para el análisis de co-expresión de genes ponderados donde
se utiliza un umbral suave, basado en el mejor ajuste a una red libre de escala [33,34].
Según los autores, la adyacencia ponderada se define elevando la similitud de la co-expresión a
una potencia β (umbral "suave"):

aij = sβij β≥1 (ecuación 2) 

β se escoge de forma que la red satisfaga las condiciones de una red con topología libre de
escala. Los autores presentan una metodología que evalúa la topología libre de escalas de la red,
mediante el cálculo de un índice de ajuste. Para una explicación detallada, véase Zhang y
Horvath [34].
En definitiva, para encontrar el mejor valor de β, se analiza gráficamente cómo varía el índice de
ajuste libre de escala para varios valores de β (ver figura 9). Se considera una red libre de escala
partir de un valor del índice de R2 superior a 0.9 . Idealmente se acepta como mejor valor de β
aquel que primero satisface esto e idealmente que la curva se encuentra saturada o cercana a la
saturación (figura 9).
La idea de utilizar la aproximación a topología libre de escala es no depender de un umbral duro,
basado en un valor de corte para la correlación entre pares de genes, lo que resulta muy sensible
al ruido estocástico por lo que necesariamente ha de ser muy restrictivo, con la consecuente
pérdida de información. Este ruido se puede reducir elevando a una potencia. Para no perder
información, según los autores [34] se podría utilizar un valor de corte para la significancia
estadística de cada correlación, pero los p-valores son sensibles a la escala. Utilizando la
aproximación de los autores de WGCNA, se reduce el ruido estocástico (elevando a β) y además
podemos ajustar el valor de β a una red libre de escala, lo que evita los problemas asociados al
tamaño de los datos (algo muy importante en datos de arrays de ADN y de RNAseq).

22
De esta forma, la matriz de distancias, se puede calcular por ejemplo como la matriz de
diferencias:
w ij = 1 − aij (ecuación 3)

En el presente trabajo, utilizamos la distancia del método de TOM (Topological Overlap Matrix)
propuesto por Horvath y colaboradores [1,34] explicado brevemente en el siguiente apartado.
2.3.1.2 Identificación de los módulos
La metodología WGCNA utiliza un algoritmo de clustering jerárquico para identificar los
módulos. Para medir la distancia entre grupos, WGCNA utiliza una medida de superposición
topológica TOM que según los autores resulta en módulos biológicamente más significativos
[34].
La idea central de TOM es tener en cuenta la fortaleza de la conexión directa ( aij ) en la matriz
de similitud y además utilizar también los vecinos compartidos. Este tipo de abordaje hace que
las redes sean menos sensibles a las conexiones al azar o a la falta de conexiones debidas al ruido
aleatorio [35].

∑ aiu auj +aij


u
T OM ij = (ecuación 4)
(
min ∑ aiu ,∑ aju
u u
) + 1 − aij

En redes no ponderadas, el numerador es igual al número de vecinos conectados más 1 si


aij = 1 , y la matriz de superposición topológica es la normalización de este numerador [1]. Se
utilizó de esta forma por primera vez en las redes de interacción proteína-proteína. Horvath y sus
colaboradores generalizaron la ecuación 4 para redes ponderadas y un número m de vecinos o
saltos entre dos nodos, demostrando que para m = 1 se obtiene la ecuación 4 de nuevo [1].
La ecuación 4 define la transformación necesaria para llegar a una interpretación topológica
desde la matriz de adyacencias original, como en nuestro caso va a ser la matriz normalizada de
conteos de RNA-seq (tabla 1). Esta nueva matriz es menos propensa al ruido estocástico y
asociaciones ficticias que pudieran deberse a las técnicas de obtención y manipulación de los
datos, así como a posibles pérdidas de información inherentes a una matriz en la que solo se tiene
en cuenta la asociación directa.
En el ejemplo de una red social, dos individuos tienen una superposición topológica alta si les
gusta y les disgusta la misma gente. Si dos personas comparten los mismos amigos, pueden
formar parte de un clique, analogía de lo que los autores definen como un módulo [1].
Los usos de este análisis de vecinos compartidos son dos, 1) definición de módulos mediante
técnicas de agrupamiento y 2) facilita una estrategia de evaluación de imputación por asociación
para encontrar nodos que interactúan con un determinado conjunto de nodos iniciales, lo que
representa una funcionalidad muy útil en el perfilado funcional de redes génicas de co-expresión.
La transformación de la matriz de adyacencias original en una matriz de superposición
topológica ofrece todo su potencial en redes que cumplen con la premisa de que un mayor

23
número de vecinos compartidos refuerza la relación entre dos nodos, habitual en las redes
biológicas. En otros casos puede ser mejor recurrir a la matriz de adyacencias o a otras
interpretaciones.
Para identificar los módulos de co-expresión, los genes se agrupan jerárquicamente en función de
su distancia TOM (ecuación 5). Los módulos de co-expresión génica se definen después
cortando ramas. Hemos empleado el método de poda dinámica desarrollado por Langfelder y sus
colegas [36] que permite mejores rendimientos en dendrogramas complicados.

DistT OM ij = 1 − T OM ij (ecuación 5)

Los genes que no están significativamente co-expresados en ningún módulo se asignan al


módulo 0 (color gris). Se puede interpretar que la expresión de estos genes es singular y por ello
es importante generar este módulo de cara a análisis posteriores.
Para caracterizar un módulo se recurre al primer componente principal que explica la variación
de los perfiles de expresión de cada gen en el módulo. Este vector unidimensional que sumariza
la expresión de los genes que componen un módulo se denomina eigengen.

2.3.1.3 Relación de los módulos con fenotipos


Una de las mayores ventajas de las redes génicas de co-expresión es la posibilidad de integrar
información externa, como pueden ser otras fuentes de datos o datos clínicos. Por ejemplo, se
pueden utilizar varios métodos para medir la asociación de un módulo con un rasgo fenotípico
[38].
Se define la significancia de un gen para un rasgo como la significancia estadística (p-valor, pi )
del perfil de expresión ( xi ) del nodo i -ésimo con la ocurrencia del rasgo de la muestra.

GS i = − log (pi ) (ecuación 6)

Otra posibilidad es realizar la asociación entre el eigengen de cada módulo y cada rasgo
fenotípico de interés. Para evaluar la asociación de un módulo a un fenotipo también se puede
utilizar la significancia del módulo, que se define como la significancia media de los genes del
módulo. Esta metodología puede utilizarse para analizar cualquier rasgo para el que se disponga
de datos y los metadatos para enlazarlo a cada experimento (columna) de la matriz de expresión.
Los módulos significativamente asociados a rasgos pueden estar relacionados con el fenotipo y
son importantes candidatos para su análisis experimental.
En lugar de relacionar miles de genes con un rasgo, WGCNA se centra en la relación entre unos
pocos módulos (normalmente menos de 10) y el rasgo. Se calcula la correlación entre el rasgo de
la muestra y el eigengen de cada módulo, lo que alivia en gran medida el problema de las
pruebas múltiples inherente al análisis de datos de microarrays [38].
2.3.1.4 Detección de factores clave
Puede demostrarse que el eigengen de un módulo está altamente correlacionado con el gen que
posee la mayor conectividad intramodular [39]. Este gen sería un hub en la red. Los nodos que

24
tienen el mayor número de conexiones (genes hub) son los más importantes, porque el mal
funcionamiento de este gen afectaría a todos los genes conectados.
Para resolver la detección de módulos de co-expresión y relacionarlos, ha sido suficiente el
concepto de eigengen y la teoría básica de WGCNA. Analizar en detalle la red recurriendo a la
teoría de grafos, finalmente no ha sido un objetivo para este Trabajo Fin de Máster, aunque
consideramos que sería interesante y se plantea en el apartado 6 como trabajo futuro.

 
Figura 7. Hubs intra- en inter-moleculares [2]. Los
hubs intermodulares conectan módulos de red. La
línea roja indica un ejemplo de la ruta más corta a
través de la red entre un par de nodos. Los hubs
intramodulares (marcados con naranja) conectan
nodos del módulo (genes) y suelen tener una gran
relevancia biológica.

2.3.1.5 Estudio de relaciones intermodulares y análisis de consenso


El algoritmo WGCNA utiliza el eigengen de cada módulo como perfil representativo de ese
módulo y cuantifica la similitud de los módulos correlacionando sus eigengenes. La relación
entre los módulos de co-expresión identificados puede visualizarse mediante el dendrograma de
sus eigengenes [37] (para un ejemplo de relación entre módulos de la red ver figura 11).
Para encontrar los módulos consenso entre dos o más redes de co-expresión se recurre a las
matrices de superposición topológica TOM (ecuación 5) de dos o más redes y éstas se combinan.
La matriz TOM de consenso se calcula tomando el mínimo paralelo de las dos matrices elemento
a elemento. Por lo tanto, la superposición topológica consensuada de dos genes sólo es grande si
lo es en todas y cada una de las matrices TOM.
Si la superposición topológica entre dos genes (i, j ) en el conjunto de datos A , tiene un valor
mucho mayor que la superposición topológica de estos mismos genes en otro conjunto de datos
B , esto es si T OM ijA ≫ T OM Bij se entiende que los genes (i, j ) tienen más vecinos de red
compartidos en A que en B y solo se tiene en cuenta B para calcular la matriz TOM de
consenso. De esta forma se eliminan las relaciones entre genes que son específicas de A .
Para que las matrices TOM obtenidas de diferentes conjuntos de datos (dos o más tumores) sean
comparables, hay que mitigar el efecto de las diferentes propiedades estadísticas de cada
conjunto de datos. WGCNA escala las matrices TOM que se van a comparar de manera que el 95
percentil de todas sea el mismo. De no hacerse puede resultar en un sesgo. El desarrollo
matemático de las matrices TOM y del análisis de consenso se puede encontrar en el libro del
autor de WGCNA dedicado a la construcción y análisis de redes ponderadas [1].

25
 
Figura 8. Casos posibles de co-expresión diferencial
[2]. Cambios en los patrones de co-expresión génica
que pueden ocurrir entre muestras. La co-expresión
diferencial puede ocurrir como la presencia de un
módulo sólo en uno de los grupos de muestra (A),
como diferencias en la estructura del módulo (B) o
como diferencias en la fuerza de correlación entre los
miembros de los módulos (C). Además, la
co-expresión diferencial puede detectarse si un
módulo interconectado más grande se divide en varios
más pequeños (D) o si un grupo de genes cambia sus
compañeros de correlación ['salto de genes' (E)].

Análogamente a como se detectan los módulos de una sola red (apartado 2.3.1.2), se utiliza la
matriz TOM de consenso para detectar los módulos conservados entre dos o más redes (ver
figura 13, análisis de consenso realizado utilizando nuestra aplicación web).
La estructura de los módulos de red de consenso y la lista de genes intervinientes se pueden
comparar con la de los módulos específicos de cada tumor, con la idea de analizar la
co-expresión diferencial (ver figura 8 y apartado 4 resultados).
En este Trabajo Fin de Máster, hemos seleccionado dos grupos de genes específicos del tumor A
1) los genes presentes en módulos de co-expresión de A que no forman parte del
correspondiente módulo de consenso (genes específicos de A para ese módulo) y 2) los genes de
los módulos de co-expresión del tumor A para los que no se encuentra un módulo de expresión
relacionado en la red de consenso (módulos específicos de la red de co-expresión de A ).
Para detectar los módulos de A que están relacionados con los módulos del consenso C
calculamos las superposiciones de los genes pertenecientes a cada par de módulos entre A y C
utilizando la prueba exacta de Fisher (también conocida como prueba hipergeométrica) [34].
Para visualizar esta información, mostramos la tabla de recuentos para cada intersección, con un
código de color que indica su significancia estadística (p-valor del test exacto de Fisher, ver
Figura 13, análisis de consenso realizado utilizando nuestra aplicación web).

3 Diseño y desarrollo
Hemos implementado una herramienta web para productivizar el algoritmo WGCNA de
Langfelder y Horvarth [33] y ponerlo a disposición de la comunidad científica (usuarios)
abstrayendo la complejidad de la genómica, la bioinformática y la teoría matemática para la
construcción y el análisis de redes de co-expresión, ya que entendemos que no todos los usuarios

26
potenciales dominan todos los ámbitos multidisciplinares necesarios para recurrir directamente al
código en R y explorarlo. El usuario puede seleccionar un tumor de entre los disponibles (ver
siguiente apartado), aplicar una serie de parámetros sencillos, y construir la red de co-expresión.
El usuario obtiene como primer resultado los módulos presentes en la red de co-expresión y su
relación en base se agrupamiento jerárquico basado en la correlación de sus eigengenes.
Adicionalmente puede realizar un análisis de consenso entre dos tumores para obtener también
los módulos de consenso, la relación entre estos, así como las listas de genes para cada módulo.
Estos genes se pueden consultar uno a uno mediante el hiperenlace a bases de datos
especializadas. Con los módulos de la red de co-expresión génica y sus correspondientes genes,
el usuario puede recurrir a multitud de herramientas bioinformáticas disponibles en Internet cuya
entrada de datos es una lista de genes y analizar cada módulo.
En este Trabajo Fin de Máster, utilizaremos una de estas herramientas externas para analizar un
caso de uso ilustrativo que iremos desarrollando a lo largo de esta sección (ver apartado 4
dedicado a resultados y los apéndices donde se recogen los datos del análisis).

3.1 Capa de Extracción, Transformación y Carga de datos


Los datos utilizados en este trabajo están basados total o parcialmente en datos generados por la
Red de Investigación del Atlas del Genoma del Cáncer (The Cancer Genome Atlas, TCGA) [40].
El Portal de Datos de TCGA (https://portal.gdc.cancer.gov/) proporciona una plataforma para
que los investigadores busquen, descarguen y analicen los conjuntos de datos generados por la
Red de Investigación del TCGA. El portal contiene entre otros, datos de información clínica,
datos de caracterización genómica, datos de expresión y análisis de secuencia de alto nivel de los
genomas tumorales.
3.1.1 Extracción
El lenguaje seleccionado para desarrollar los procesos de esta capa es R, debido a la existencia
de librerías al efecto capaces de aprovisionar datos desde la API de integración de datos del
portal de datos de TCGA. Se ha seleccionado el paquete RTCGA [41] para la capa de extracción
de datos desde la fuente de datos (TCGA) y su posterior análisis con WGCNA.
El paquete RTCGA permite la descarga e integración de los datos de TCGA utilizando el código
de barras del paciente, lo que facilita la posesión de los datos. Además, el paquete RTCGA
transforma los datos TCGA a un formato ordenado y cómodo de usar, siendo directamente el
formato esperado por otros paquetes de R, como es el caso de WGCNA, lo que simplifica la
integración.
3.1.2 Transformación
El lenguaje seleccionado para desarrollar los procesos de soporte en el servidor es Python,
debido a su sencillez para el desarrollo de scripts que interaccionen con el sistema operativo.
Previo a integrar RTCGA en la solución, recurrimos al set de datos del trabajo fin de Máster
“Análisis de expresión diferencial para datos de Next Generation Sequencing (NGS) con
múltiples condiciones experimentales” [42]. Para integrar este set de datos fue necesario
transformarlo adecuadamente, recurriendo también a scripts que fueron realizados en Python.
Los ficheros de expresión CSV o JSON necesarios para construir las redes de co-expresión se
encuentran accesibles desde el portal de datos de TCGA. Es necesario descargar los datos de
expresión de RNAseq (RNAseq2 level 3, ver filtro en el apéndice D). Además para realizar

27
estudios de asociación se pueden descargar también los datos clínicos y el conjunto de
metadatos.
Los ficheros descargados de TCGA utilizan identificadores internos para relacionarse y requieren
de un ensamblado y un preprocesamiento para obtener la matriz de conteos en el formato
adecuado. Además de un formato adecuado, resulta interesante utilizar el código de barras del
paciente o ensayo, los identificadores únicos de gen y los nombres comunes de los genes. Esto
nos permitirá integrar los resultados con cualquier otra herramienta externa así como mostrarlos
con nombres accesibles para el usuario.
Para construir las redes de co-expresión tan solo necesitamos la matriz de conteos de cada tumor
(ver apartado 2.2. de introducción a RNAseq y tabla 1). A esta matriz podemos llegar procesando
los ficheros descargables desde el portal de datos de TCGA (recomendamos utilizar RTCGA que
permite obtener los datos en una sola matriz con el código de barras de cada muestra),
recurriendo a los datos preprocesados en el algún trabajo previo (como citado en [42] lo que
resulta cómodo para una versión de desarrollo pero no permite un flujo ETL) o mediante la
integración con el paquete RTCGA y la API de TCGA[41].
En cualquiera de los casos hubo que implementar las siguientes transformaciones:
1. Concatenado de los datos para cada tumor a una matriz RNAseq con símbolos de genes
como fila y códigos de barras de pacientes TCGA como nombres de columnas (ver tabla
1).
2. Eliminación de los datos de control. Son necesarios si queremos realizar un análisis de
sobre-expresión o infra-expresión de genes respecto a un control, pero WGCNA no los
necesita para construir la red de co-expresión. Dos genes expresados en un tumor están
co-expresados si sus perfiles de expresión se correlacionan, independientemente de su
nivel de expresión respecto a un control. Los datos de control se conservan en un fichero
aparte, para permitir su comparación con los datos tumorales, si fuera pertinente.
3. Preprocesado y normalización de los datos. Es una etapa importante que puede mejorar la
sensibilidad [43]. Inicialmente consideramos normalizar los datos de RNAseq con la
metodología voom [44]. El método voom estima la media-varianza de los conteos y
genera un peso preciso para cada observación. De esta manera, se puede realizar un
análisis comparativo con todos los flujos de trabajo bioinformáticos desarrollados
originalmente para el análisis de microarrays. Sin embargo, la distribución de los conteos
proporcionada por los datos de RNASeq se ajusta mejor por una binominal negativa [45],
por lo tanto el uso de esta metodología de normalización no está suficientemente
justificado. Además, la conveniencia del uso de una técnica u otra para la normalización
de datos y el posterior análisis de redes de co-expresión es un campo de investigación aún
abierto [46]. Dado que el algoritmo WGCNA puede trabajar con los datos normalizados
por FPKM (WGCNA FAQ [47]), es suficientemente genérico, permite comparar entre
muestras y es uno de los que se suele utilizar en el análisis de datos de TCGA, siendo
además datos accesibles y preprocesados por TCGA, seleccionamos esta opción (FPKM
Fragments per Kilobase Million).
4. Transposición de la matriz de datos, ya que para los pasos anteriores (ver tabla 1)
disponer los genes por filas y los experimentos por columnas era adecuado, pero
WGCNA necesita la transpuesta. Realizar esto como parte del flujo ETL es beneficioso
pues de otro modo debería realizarlo la aplicación cada vez que accede a los datos.

28
3.1.3 Carga
Los datos así procesados se cargan en un almacén de datos para hacerlos disponibles a la
aplicación. Disponer de un flujo ETL permite actualizaciones rápidas y automatizadas de los
datos cada cierto tiempo o cada vez que se produce un nuevo release. También facilita la
incorporación de nuevos datos cuando se añaden nuevos estudios o nuevos tumores en TCGA.

3.2 Reducción de la dimensionalidad


El análisis mediante WGCNA de transcriptomas completos puede resultar muy pesado incluso
para clústeres con gran número de nodos, entre otras razones porque el algoritmo no se encuentra
totalmente paralelizado. Tras pensar en varias posibles técnicas de reducción de la
dimensionalidad y descartar utilizar la expresión diferencial de los genes por su propensión a
introducir bias, nos decantamos por el filtrado de los genes en base a su variabilidad.
Seleccionar los genes más variables es un método sencillo de entender y cómodo para el usuario.
Una gran fracción de los genes no se expresa de manera diferencial entre las muestras. Resulta
muy recomendable eliminar estos genes previo al análisis con WGCNA, ya que dos genes sin
variaciones notables en su perfil de expresión estarían altamente correlacionados. Valga indicar
que la mayoría de los estudios realizados con WGCNA recurren a los ~5000 genes más
variables. Como medida más robusta de la variabilidad utilizamos la mediana de la desviación
absoluta (DMA).
Hemos decidido incluir este filtrado de genes como una de las pocas opciones dejadas a criterio
del usuario, ya que consideramos que tanto un filtrado muy fuerte como ningún filtrado debe ser
algo que el usuario pueda controlar, dadas las importantes implicaciones que esto tiene a la hora
de detectar genes (genes del interés del usuario podrían ser filtrados).

3.3 Construcción del Modelo


El método de construcción de la red a partir de los datos es el Análisis Ponderado de Redes de
Co-expresión Génica (Weighted Gene Coexpression Network Analysis, WGCNA)[1] explicado
brevemente en el apartado 2.3.2 del estado del arte en esta memoria.
En los siguientes puntos comentaremos el abordaje particular que hemos adoptado para el
desarrollo de la aplicación. Durante su explicación realizaremos además un análisis comparativo
de las redes génicas de co-expresión del cáncer invasivo de mama (BRCA) y el adenocarcinoma
de próstata (PRAD). Discutiremos los resultados en el apartado 4 de la memoria.
3.3.1 Construcción de la Red de Co-expresión
Este paso es la base de todos los análisis de redes que utilizan la metodología WGCNA. Existen
tres formas de construir una red:
a. Construcción paso a paso de manera que se puedan personalizar o utilizar métodos
alternativos en cada paso, a criterio del investigador.
b. Construcción en un solo paso, con parámetros por defecto y métodos recomendados por
WGCNA.
c. Construcción de una sola pasada en bloques y con utilización de métodos heurísticos que
permiten tratar conjuntos masivos de datos en un menor tiempo.

Hemos seleccionado la tercera opción ya que es nuestra intención tratar conjuntos de datos
masivos (Big Data) y no deseamos complicar la selección de métodos y parámetros para mayor
comodidad del usuario. El método seleccionado es el método proporcionado por el paquete
WGCNA blockwiseModules.

29
Este método utiliza un clustering de dos niveles. Primero se agrupan genes en bloques de un
tamaño determinado por el usuario (hemos utilizado bloques de 5000 genes) recurriendo a un
método de agrupamiento barato computacionalmente (projective K-means [48]). Después se
analiza la red en cada bloque por separado. Los módulos cuyos eigengenes están altamente
correlacionados se fusionan en un solo módulo en base al parámetro mergeCutHeight, que es
el umbral de distancia entre módulos para poder fusionarlos (utilizamos su valor por defecto). La
ventaja del enfoque por bloques es el control en el uso de la memoria (mucho menor y problema
habitual con conjuntos de datos masivos) y menor complejidad computacional (lo que acelera el
proceso de detección). Por contra los módulos pueden no ser los óptimos, asignando algún gen
periférico a un módulo diferente al que se asignaría durante un análisis completo (figura 10).
Esto es algo que en cualquier caso también pasa al utilizar el método paso a paso al personalizar
cada paso.

3.3.1.1 Cálculo del umbral suave


Como se explica en el apartado 2.3.2.1 calcularemos los índices de ajuste para redes libres de
escala para diversos valores de β y representamos su curva de ajuste (ver figura 9).
Los autores de WGCNA [1,34] han propuesto elegir un umbral suave basado en el criterio de
intentar aproximarse o conseguir una topología libre de escala (ver apartado 2.3.1.1 construcción
de la red).
En la figura 9 ilustramos el uso de la función pickSoftThreshold que realiza el análisis de
la topología de la red y ayuda en la selección del umbral suave ( β ) para el conjunto de valores
de β por defecto. La función devuelve un conjunto de índices que se pueden analizar
gráficamente:

 Figura 9. Análisis de la topología de la red para varios umbrales suaves ( β ). El panel izquierdo muestra el índice de
ajuste libre de escala (eje y) en función de la potencia β (eje x). La línea base muestra el valor R2 0.9
correspondiente a una red libre de escala. El panel derecho muestra la conectividad media (grado, eje y) en función
de la potencia β (eje x).

La figura 9 constituye un caso ilustrativo de cómo deben seleccionarse los valores de β para
comparar redes. Seleccionamos el valor de 5 dado que es el menor valor de β una vez la curva de
ajuste se encuentra saturada, y es un valor cercano a la línea base recomendada como criterio de
red libre de escala, para ambos tumores.

30
 
Figura 10. Detección de módulos y comparación entre método normal y por bloques. La detección de módulos se
realiza mediante agrupamiento jerárquico y una poda dinámica. Los módulos se presentan abajo utilizando
diferentes colores (arriba utilizando el método de un solo bloque y debajo utilizando el método de bloques). El
método basado en bloques es significativamente más rápido y permite controlar el consumo de la memoria de la
computadora, ofreciendo escasas diferencias de rendimiento en la detección de módulos.

3.3.2 Detección de módulos de co-expresión


Utilizamos el método TOM (Topological Overlap Matrix) para lo que transformamos la matriz
de adyacencias en una matriz de similitud TOM siguiendo el método comentado en el apartado
2.3.2.1.
Con la matriz de diferencias TOM se realiza un agrupamiento jerárquico (figura 10). Hemos
utilizado la media y el método cutreeDynamic  de WGCNA para generar los módulos
mediante una poda de ramas adaptativa [14] aplicando los parámetros por defecto. El resultado
se muestra en la figura 11.
3.3.3 Consenso entre dos redes de co-expresión
En este punto disponemos de las matrices de superposición topológica TOM de los dos tumores,
podemos utilizar el método blockwiseConsensusModules de WGCNA para obtener la
matriz TOM de consenso. Es un método similar al comentado en el apartado anterior: Construye
la red y detecta los módulos en este caso para dos o más matrices, calculando la matriz TOM de
consenso (ver apartado 2.3.2.4).
Con la red de consenso BRCA-PRAD y la red del tumor BRCA podemos calcular la relación de
los módulos de BRCA con los módulos de consenso (CONS) entre BRCA y PRAD. Recorremos
todos los módulos de BRCA y de CONS, tomados de dos en dos, y buscamos los genes presentes
en ambos módulos. Para conocer si el número de genes compartidos entre los dos módulos son

31
significativos, aplicamos el test exacto de Fisher, por lo que la salida es un p-valor para cada par
de módulos de BRCA y de CONS. Para visualizar esta información, representamos una tabla de
los recuentos para cada intersección. Se añade a la derecha un código de color que indica el
grado de significancia (ver Figura 13, tabla superior derecha).

 
Figura 11. Módulos y relaciones entre los diferentes módulos (correlación de los eigengenes de cada módulo) entre
los tumores BRCA (arriba) y PRAD (abajo). A la izquierda se muestra el árbol para los 5,000 genes más variables, a
la derecha el árbol para los 20,531 genes presentes en el genoma humano.

Los resultados de una comparación a genoma completo de BRCA y PRAD se encuentran en el


Apéndice A.

3.4 Interfaz de Usuario


Desarrollar una aplicación web que permita detectar los módulos de co-expresión génica
presentes en un tumor y compararlos con otro constituye el objetivo principal de este Trabajo Fin
de Máster.

32
La ventaja principal de la herramienta web que hemos desarrollado es que en ella se encuentran
perfectamente ensambladas la multitud de piezas que permiten ir desde las fuentes de datos
públicas hasta la obtención de resultados aplicando el algoritmo WGCNA. Nuestra herramienta
facilita todas las piezas del puzzle de una manera además fácil de entender y manejar para el
usuario.
La motivación para desarrollar esta herramienta de uso muy sencillo desde el punto de vista de
su aplicación a la biología y la medicina es permitir a los usuarios realizar un análisis sin
embargo avanzado, donde no solo se obtienen los módulos de co-expresión para un tumor, si no
que también se puede realizar un análisis comparativo entre dos tumores para encontrar los
módulos de consenso y a partir de ellos obtener listas de genes generalistas que se co-expresan
en ambos tumores y genes específicos de cada tumor, que pueden estar relacionados tanto con
sus diferencias a nivel patológico (cómo se originan y evolucionan) como a nivel farmacológico
(si los tratamientos pueden ser similares o han de ser diferentes).
La lista de genes generalistas aparece bajo el título de “módulo de consenso” y el color del
módulo. Los genes del del tumor aparecen bajo el título del módulo y nombre del tumor, y los
genes específicos del tumor son el resultado de eliminar los genes consenso de la lista de genes
del tumor.
El diseño de la interfaz se ha realizado con la idea de simplificar al máximo la aplicación del
algoritmo y la necesidad de interacción con el usuario a la hora de seleccionar parámetros (ver
Figuras 11 y 12) pero sin renunciar a la potencia del algoritmo.
Para comprobar que la herramienta es aplicable a casos reales de investigación en Biología y
Medicina hemos realizado pruebas y análisis de los resultados del ejemplo mostrado durante la
construcción de las redes de co-expresión para cáncer invasivo de mama (BRCA) y el
adenocarcinoma de próstata (PRAD) y su análisis de consenso. Los resultados se exponen en el
apartado 4 y los apéndices.
El usuario puede analizar las redes WGCNA y los módulos de co-expresión, para cualquier
tumor presente en TCGA (The Cancer Genome Atlas) gracias a la capa ETL desarrollada para
aprovisionar los datos necesarios desde el portal de datos de TCGA. El usuario también puede
reducir la dimensionalidad aplicando una selección de genes en base a su mayor variabilidad
(median absolute deviation, MAD), filtrar genes que presenten insuficientes datos de conteo (ver
tabla 1 de conteo), y representar la curva de ajuste a red libre de escala, para seleccionar un
umbral suave β a su criterio. Con esto, se calcula la red WGCNA y se detectan los módulos
co-expresados en base a la distancia TOM, vista en el apartado 2.3.1.2 y ecuaciones 4 y 5 (ver
también Figura 11).
Seleccionando dos redes de las construidas previamente, se puede realizar un análisis de
consenso y mostrar la tabla de los módulos relacionados entre dos tumores. Se pueden también
obtener las listas de genes presentes en cada módulo. Hemos añadido un hiperenlace a la web del
NCBI (National Center for Biotechnology Information, U.S. National Library of Medicine) para
que el usuario pueda consultar la información de cada gen (ver Figura 12).
Las listas de genes se pueden cortar y pegar en herramientas externas cuya entrada es este tipo de
lista para realizar análisis posteriores. Durante los resultados mostraremos un ejemplo aplicando
una de estas herramientas para realizar un screening funcional de los módulos más significativos.
Los resultados de esta evaluación funcional están resumidos disponibles y detallados en el
apéndice C.

33
 
Figura 12. Interfaz de usuario 1/2. El
usuario puede seleccionar un tumor y
reducir la dimensionalidad en este caso de
20,531 genes del genoma se seleccionan
los 5,000 más variables (median absolute
deviation, MAD). También se filtran los
genes que presentan conteos en menos de
un porcentaje de muestras (por defecto se
usa un 80% recomendado [47]) y se
procede calculando el umbral suave, o si
este ya fuera conocido, calculando la red
WGCNA. Como resultado se presenta el
árbol de los módulos que se han
encontrado en la red.

34
 
Figura 13. Interfaz de usuario 2/2.
Para realizar el análisis de consenso se
deben haber calculado previamente
dos redes WGCNA. El menú
desplegable muestra todas las redes
WGCNA que se han creado
previamente y permite seleccionarlas.
El resultado del análisis de consenso
es una tabla que compara todos los
módulos del primer tumor
seleccionado con los del consenso,
añadiendo un código de color que
representan el p-valor del test de
Fisher para el número de genes
presentes en ambos grupos.
Cualquiera dos módulos de interés
pueden seleccionarse y se muestra la
lista de genes. Desde cada gen se
accede a la información de ese en la
web del NCBI (National Center for
Biotechnology Information, U.S.
National Library of Medicine).

35
4 Resultados
Comentamos a continuación los resultados más interesantes de la comparación entre el cáncer de
mama (BRCA) y el cáncer de próstata (PRAD) que hemos realizado como ejemplo en los
apartados anteriores. Estos resultados no pretenden ser más que una muestra de la capacidad de
la herramienta desarrollada, basada en WGCNA, para detectar redes de expresión relevantes
desde el punto de vista biológico. Pero también resultan observaciones interesantes y generan
nuevas hipótesis de cara a investigaciones futuras. Hemos elegido los cánceres de mama (BRCA)
y el de próstata (PRAD) debido a su incidencia, encontrándose entre los más comunes
diagnosticados [49] y su similitud [50]. Aunque estos cánceres surgen en distintos órganos,
ambos órganos son típicamente dependientes de hormonas y tienen similitudes biológicas muy
notables.
Por lo tanto, del análisis esperamos lo siguiente:
● A nivel global, encontrar similitudes notables entre ambas redes y módulos de
co-expresión.
● A nivel general, caracterizar los módulos de co-expresión comunes entre ambos tumores,
exclusivos para este tipo de carcinomas. Mediante el análisis comparativo de los datos de
expresión de dos tumores similares, esperamos que los módulos de co-expresión
consenso sean claros candidatos para entender la naturaleza de este tipo de carcinomas,
cuyo comportamiento es similar en ambos tejidos.
● A nivel particular, caracterizamos los genes específicos de BRCA. Estos genes nos
permitirán entender mejor las diferencia entre ambos tumores.

4.1 Similitudes entre ambos tumores


En el apéndice A mostramos los resultados de nuestra aplicación web cuando se realiza una
comparación de genoma completo entre BRCA y PRAD para obtener los módulos consenso
entre ambas redes de co-expresión génica. Los resultados muestran los módulos de BRCA
respecto a la red de consenso. Puede procederse análogamente con PRAD.
Tras un análisis muy sencillo de realizar con nuestra aplicación, es fácil encontrar al menos 12
módulos de BRCA (de 75 módulos totales, un 16%) que tienen una contraparte en la red de
consenso (test exacto de Fisher, p − v alor ≪ 1e−10 , ver código de color en la barra lateral,
apéndice A). Descartamos de estos resultados aquellas correspondencias entre módulos que no
sean sencillas de resolver (cuando varios módulos de BRCA se pueden relacionar con varios
módulos del consenso) o cuando el módulo de co-expresión en BRCA contiene un gran número
de genes. Seguramente se trata de resultados interesantes, pero requerirían de un análisis más
elaborado y aquí buscamos ajustarnos a un nivel de caracterización lo más general posible.
Para comprender a nivel funcional a que podría deberse la similitud entre ambos tumores,
analizamos los módulos consenso seleccionados (ver tabla 2, izquierda) recurriendo a la
herramienta online Enrichr [51,52]. Se trata de un motor de búsqueda de enriquecimiento
funcional, que acumula un ingente conocimiento biológico y muy sencillo de usar, con el que los
investigadores pueden generar hipótesis para futuros proyectos de investigación en Biología.
Enrichr es un recurso muy completo para analizar conjuntos de genes obtenidos mediante
experimentos genómicos in-silico. En total, Enrichr contiene actualmente 180.184 conjuntos de
genes anotados de 102 bibliotecas de conjuntos de genes. En su última versión [52] se han
añadido nuevas características a Enrichr, incluyendo conjuntos difusos, archivos BED, mejoras

36
en la interfaz de programación de aplicaciones y la visualización de los resultados en forma de
clústeres. Los resultados de estos análisis se recogen en el Apéndice C.

Módulo consenso Número de genes compartidos Número de genes Módulo BRCA

Green 257 166 417 Red

Magenta 110 68 324 Black

Lightyellow 42 35 272 Magenta

Grey60 56 30 312 Pink

Tan 85 26 117 Cyan

Darkred 31 29 62 Sienna3

Cyan 65 60 240 Greenyellow

Brown 305 93 419 Green

Total 951 507 2163 Total

 Tabla 2. Módulos seleccionados para el análisis de enriquecimiento funcional. A la izquierda se muestran los
módulos de la red de consenso entre el cáncer de mama (BRCA) y el cáncer de próstata (PRAD) en total 951 genes,
aproximadamente el 4,6% del genoma. A la derecha los módulos de cáncer de mama (BRCA) que pueden imputarse
como los más similares a los módulos consenso anteriores, en total 2163 genes, aproximadamente un 10,5% del
genoma. El módulo de consenso puede tener más genes ya que por simplicidad hemos seleccionado el módulo de
BRCA que comparte más genes con el consenso, pudiendo existir varios módulos de BRCA relacionados con el
mismo módulo de consenso. Los genes específicos de BRCA para cada módulo de BRCA seleccionado son aquellos
resultantes de eliminar los genes que aparecen en el módulo de consenso correspondiente. Las listas de genes para
cada módulo se encuentran en el Apéndice B.

A continuación comentamos los resultados del análisis de enriquecimiento funcional para cada
módulo de consenso:

Módulo Green
Encontramos un enriquecimiento significativo de genes relacionados con “Carcinoma” en la base
de datos Jensen Diseases [53] una base de datos que utiliza algoritmos de análisis de texto para
asociar genes a enfermedades. Del análisis de la base de datos de ontologías génicas GO [54]
encontramos un enriquecimiento en genes localizados en la matriz extracelular. Recurriendo a la
base de datos ARCHS4 Tissues [55] que relaciona genes con las muestras de los análisis de
RNAseq en los que aparecen expresados, encontramos que los genes del módulo green están
relacionados con el tipo celular “Fibroblasto”. Además, encontramos evidencias de que los
tejidos donde estos genes presentan expresión son de próstata adulta, en primer lugar.
Con estos datos en mente, recurrimos a la literatura para ver si existe alguna evidencia
experimental de carcinomas donde el tipo celular fibroblasto sea relevante. Encontramos una
publicación relevante en la que se caracteriza el mecanismo molecular de cómo los carcinomas,
sin capacidad invasiva, pueden secuestrar células de fibroblasto para aprovechar la movilidad de
estas células y expandirse a otros tejidos [56].

37
El módulo green sugiere la hipótesis de que los genes co-expresados en este módulo y la red
WGCNA correspondiente, podrían constituir genes e interacciones útiles para diseñar fármacos
capaces de impedir que los carcinomas de tipo BRCA y PRAD invadan tejidos cercanos.
Módulo Magenta
Encontramos genes relacionados con la angiogénesis (base de datos Panther [57]). La
angiogénesis es un fenómeno normal durante el desarrollo embrionario, el crecimiento del
organismo y en la cicatrización de las heridas. Sin embargo también es un proceso fundamental
en la transformación maligna del crecimiento tumoral [58]. De bases de datos que contienen
interacciones proteína-proteína (PPI Hub Proteins [59]) encontramos enriquecimiento de genes
que interaccionan con ITGB1, también conocido como el gen C29, una integrina que se ha
postulado que tiene que ver con la difusión metastásica de células tumorales [60]. Finalmente, de
la base de datos de modificaciones de histonas de ENCODE [61] encontramos muchos genes
relacionados con la modificación de la histona H3K27 y la correspondiente bibliografía de la
importancia de esto en cáncer de mama [62-66].
El módulo magenta nos indica que los genes co-expresados en este módulo y las interacciones en
la red WGCNA podrían ayudar a entender cómo se modifica la histona H3K27, qué genes
intervienen en el proceso y las posibles relaciones entre ellos e ITGB1, así como si este proceso
regula la angiogénesis en tejido tumoral. De confirmarse la importancia de estos genes, podría
abrirse la posibilidad de diseñar una terapia específica que impida a estos carcinomas
desencadenar la angiogénesis.
Módulo Lightyellow
Para este módulo no encontramos enriquecimientos funcionales demasiado llamativos, pero
puede imputarse su importancia en el cáncer al encontrar al menos dos rutas bioquímicas
relacionadas con el cáncer, RECK y MAPK [66,67] como muestra la comparación con datos de
la base de datos Biocarta [68]. Los genes del módulo lightyellow podrían estar relacionados con
las fases iniciales de malignización de una célula.
Módulo Grey60
La base de datos de interacciones proteína-proteína PIP Hub Proteins [59] nos indica que a este
módulo se le pueden imputar interacciones con los genes SINA3 y MCM2, ambos relacionados
con la metástasis y la inestabilidad genómica en el cáncer de mama [69,70].
Módulo Tan
También recurriendo al enriquecimiento en interacciones proteína-proteína [59] podemos
imputar la importancia de este módulo en la regulación de las proteínas EIF2C1 y EIF2C2,
pertenecientes a la familia de proteínas Argonautas, importantes en la regulación génica
mediante el silenciamiento del ARN y relacionadas con tejidos tumorales [71] en cáncer de
colon. El módulo tan invita a pensar que podría ser útil comprobar experimentalmente si estas
proteínas juegan también un papel importante en el desarrollo del cáncer de mama y el cáncer de
próstata. El cáncer de colon es también un carcinoma.
Módulo Darkred
El atlas de genes humanos [72] nos muestra que el módulo darkred presenta genes del tipo
celular CD34 positivo, células madres de cáncer hematopoyético, para las que encontramos
evidencia científica de su importancia como células madre progenitoras del cáncer, con
importantes aplicaciones como tipo celular para ser utilizado en modelos in-vitro en estudios de
diversos tipos de cáncer [73]. Además de esta relación, analizando la literatura encontramos

38
varias correspondencias interesantes como la importancia de estos genes en la reparación del
ADN, desórdenes genéticos, el factor de necrosis tumoral TNF alpha, la regulación de la mitosis
(división celular) y la rutas de señalización mTOR y MAPK/ERK, todos procesos biológicos
relacionados con la aparición y el progreso del cáncer [67,74-76]. Además, la base de datos de
interacciones proteína proteína PIP Hub Proteins [59] indica una posible interacción con
BRCA1, el oncogen más conocido de los cánceres de mama y ovario [77], que recientemente
también se ha mostrado importante en cáncer de próstata [50].
Módulo Cyan
El módulo cyan presenta interacciones con la proteína IKBKE de la base de datos PIP Hub
Proteins [59] y genes relacionados con carcinomas en la base de datos Jensen Diseases [53]. La
proteína IKBKE ha sido identificada como un importante oncogen para el cáncer de mama [78].
La presencia de esta interacción en el módulo cyan de la red de co-expresión consenso con
PRAD le imputa como un candidato a oncogen también durante el desarrollo del cáncer de
próstata.
Módulo Brown
Muestra expresión dirigida por estrógenos y testosterona, una de las similitudes principales entre
los carcinomas de mama y próstata [50], imputación soportada por el análisis de Enrichr para la
bases de datos de ligandos perturbadores de la expresión de GEO [80]. Recurriendo a PIP Hub
Proteíns [59] se observa un enriquecimiento en genes con posibles interacciones con el oncogen
BRCA1 [77], que también aparece como posible partner de los genes presentes en el módulo de
co-expresión darkred). El módulo brown también es imputable a carcinomas en Jensen Diseases
[53], esperado dado los conjuntos de datos utilizados, e importancia durante el proceso de la
apoptosis (muerte celular programada) basado en los datos de KEGG [81]. La apoptosis es un
proceso de muerte celular programada que todos los tumores anulan para poder desarrollarse
libremente [82].

4.2 Genes específicos de BRCA


Apreciamos dos tipos de genes específicos para el cancer de mama: 1) Los que se encuentran
agrupados en un módulo para el que existe consenso, pero no aparecen en el módulo consenso, y
2) los genes que se encuentran agrupados en módulos específicos de BRCA y que no pueden
relacionarse ningún módulo de la red de consenso.
Genes presentes en módulos de BRCA no presentes en el módulo consenso correspondiente
Cada módulo de co-expresión detectado por WGCNA puede relacionarse con importantes
sub-redes de regulación biológicas, más aún cuando se trata de un módulo de consenso entre dos
tumores, como hemos intentado demostrar a nivel muy general mediante el análisis de
enriquecimiento en el apartado anterior.
Los genes presentes en los módulos de la red de co-expresión de BRCA no siempre aparecen
también reflejados en los módulos de co-expresión de la red de consenso, dado que para ello
deben mostrar también co-expresión en PRAD. Esto quiere decir que no existe una correlación
comparable en PRAD y por tanto serían genes que influyen sólo en la red de co-expresión de
BRCA.
Estos genes se pueden obtener eliminando del módulo de co-expresión de BRCA los genes
presentes en el módulo de consenso correspondiente, y pueden analizarse también con
herramientas como Enrichr. El análisis de estos genes puede ser de ayuda para comprender mejor
la co-expresión diferencial del cáncer de mama durante procesos comunes a ambos tumores.

39
Atendiendo a la figura 8, encontramos casos de co-expresión diferencial tipo B (diferencias en la
estructura del módulo) y E (cambio en los compañeros de correlación). Para determinar si
además existe co-expresión diferencial de tipo C (diferencias en la fuerza de la correlación)
habría que analizar cada matriz TOM y para los casos de co-expresión diferencial del tipo D
(división del módulo en módulos más pequeños) se pueden observar en los resultados (ver
apéndice A) como módulos del tumor A que se corresponden con el mismo módulo consenso (C)
al que solo le corresponde un módulo del tumor B, es decir A(n):C(1):B(1) y otras
combinaciones N:N:N más complejas.
Genes de módulos específicos de BRCA
Los módulos de co-expresión de BRCA (etiquetados con los colores lightgreen, lightcyan,
orange, darkred, midnightblue y salmon, ver comparación a genoma completo en el apéndice A)
no presentan contrapartida en la red de consenso; casi todos los genes de estos módulos de
BRCA están presentes en el módulo grey de la red de consenso. Esto quiere decir que
mayoritariamente no están asignados a ningún módulo de co-expresión en esta red. Esto indica
que se trata de subredes de co-expresión específicas de BRCA cuya huella desaparece al calcular
la matriz de consenso entre ambos tumores.
El análisis de estos módulos de co-expresión y sus genes pueden ayudar a comprender mejor las
diferencias funcionales de alto nivel entre ambos carcinomas, como por ejemplo sería la
existencia de redes de regulación y/o de co-expresión propias del cáncer de mama.
Sin embargo, salvo para el módulo salmon (ARCHS4 mostrando relaciones con los genes
NEK10, NEK11 y MAPK15)[55,67,83], no encontramos resultados significativos evidentes que
apunten a una relación directa con actividad tumoral.
Atendiendo a la figura 8, este tipo de co-expresión diferencial sería la de tipo A (módulos
presentes solamente en un tumor).

4.3 Lista de genes candidatos


La caracterización de genes candidatos para su análisis experimental es en sí un resultado
importante del análisis. Por ello se recogen en el apéndice B.
Estas listas de genes pueden utilizarse también en herramientas externas que permiten diversos
análisis de asociación o de caracterización, análogamente a como hemos mostrado durante esta
sección de resultados utilizando Enrichr para analizar el enriquecimiento funcional en los
módulos de consenso seleccionados.

5 Conclusiones
Hemos desarrollado una herramienta web que permite a cualquier usuario obtener resultados
interesantes desde el punto de vista biológico y que se puede aplicar en biomedicina para
caracterizar las redes de co-expresión de diferentes tumores y las relaciones entre ellas. El
usuario no necesita dominar un campo tan multidisciplinar como la Biología de Sistemas para
obtener resultados. Por lo tanto, democratizamos el método WGCNA y lo ponemos a disposición
de toda la comunidad científica y otros usuarios potencialmente interesados.
Los datos genómicos son hoy en día un terreno fértil para el Big Data, produciendo importantes
avances científicos y secuenciando cada vez más cantidad de datos que se depositan en

40
repositorios tanto públicos como controlados por importantes leyes de protección de la identidad
y privacidad. Será interesante ver como también el campo de la ciberseguridad, cada día más en
auge, cobrará una importancia mayor también en la genómica. Aunque el presente Trabajo Fin
de Máster se haya centrado en Data Science, los ficheros producidos por la tecnología de
secuenciación previos a la creación de las matrices de conteo son enormes (del orden de GB a
TB) necesitando por lo tanto repositorios Big Data y procesamiento analítico avanzado, al que
cada día se recurre más para para disponer del control del proceso de análisis y la consecuente
mejora de los resultados finales.
Desde el punto de vista de la aplicación de un método de analítica avanzada de datos a un
dominio concreto, donde la experiencia en el dominio es crucial, hemos mostrado a lo largo del
presente Trabajo Fin de Máster como WGCNA facilita a los analistas expertos en el dominio,
pero no tanto en la teoría matemática, la aplicación efectiva de técnicas avanzadas como la
reducción de datos, agrupamiento difuso, selección de características, estudios de asociación y
técnicas de exploración de datos.
WGCNA es también un ejemplo de método integrador en un dominio donde se dan perfiles muy
diversos de científicos de datos, desde aquellos dedicados a la cuantificación de datos de
expresión y la construcción de redes de correlación hasta su aplicación en redes biológicas
mediante estudios de caracterización y de asociación.
Matrices de superposición topológica
En nuestra opinión, es fundamental el análisis que realiza WGCNA basado en las características
topológicas de la red, como son los vecinos compartidos, y su elección de un umbral suave
basado en la adecuación a una red libre de escala, para evitar el ruido estocástico y la
dependencia del tamaño de los datos. Recurrir únicamente a la matriz de similitud entre pares
implica recurrir a un umbral duro de corte, normalmente muy restrictivo para evitar relaciones
aleatorias. Este enfoque tiende a generar un mayor número de módulos de menor tamaño. A la
vista de los resultados, el enfoque de WGCNA agrupa genes co-expresados en módulos para los
que encontramos evidencia de estar relacionados biológicamente recurriendo a las bases de datos
de información genética. Puede considerarse el análisis de los resultados de la red de
co-expresión del consenso entre BRCA y PRAD como una buena demostración indirecta de su
aplicabilidad a la biomedicina. El desarrollo matemático de WGCNA y la adecuación de las
matrices de superposición topológica puede consultarse en la obra de referencia del autor de
WGCNA [1] pero es sobre todo la sensibilidad demostrada lo que refuerza la adecuación del
modelo al campo de estudio seleccionado.
Sensibilidad del análisis de consenso
El análisis de consenso produce un dramático aumento de la sensibilidad a la hora de identificar
módulos de co-expresión relacionados con las características comunes de ambos datos. Hemos
analizado dos tumores que se consideran similares, para los que disponíamos de evidencia
científica. Todos los módulos de consenso analizados han demostrado estar formados por genes
implicados en cáncer directamente (genes para los que existen publicaciones relacionándolos con
estos tumores) o indirectamente (genes que presentan interacciones con genes implicados en el
desarrollo de estos tumores).
Las matrices de superposición topológica, que durante la construcción y el análisis de una única
red pueden no detectar específicamente genes implicados en el desarrollo de la enfermedad,
presentan en la red de consenso un aumento de la sensibilidad a la hora de detectar genes
tumorales, ya que al construir una red de consenso reducimos la construcción de la red a las
relaciones comunes en ambas redes.

41
Aplicabilidad de los resultados en biomedicina
La aplicación de los resultados del análisis con WGCNA en biomedicina es enorme. Dada la
sensibilidad mostrada durante análisis comparativos, permite caracterizar genes generalistas y
específicos, tanto a nivel intermodular como a nivel de módulos completos entre ambas redes.
Esta caracterización es fundamental para comprender las similitudes y las diferencias entre
distintos tumores.
Los estudios comparativos son fundamentales en biología, ya que tanto los organismos como las
enfermedades que estos padecen evolucionan y tienen generalmente origen y/o contexto común.
Las relaciones entre las redes de co-expresión de genes pueden ayudarnos a conocer cómo surgió
cada red de co-expresión y cómo evolucionan. WGCNA puede utilizarse para realizar este tipo
de estudios evolutivos, ya que es capaz de selectivamente reducir las relaciones entre los nodos
de dos redes a aquellos comunes en ambas redes y detectar así la similitud entre ambas.
Los estudios evolutivos basados en la homología de secuencias (similitud debida a la evolución
desde un ancestro común) han mostrado aplicaciones en biología previamente inimaginables. La
comparación de redes de co-expresión mediante su estudio filogenético (la agrupación jerárquica
por homología) sería de gran ayuda a la hora de estudiar y analizar las redes de co-expresión. Su
aplicabilidad en la biomedicina resultará clave para comprender la aparición de enfermedades
complejas como el cáncer y su desarrollo a través de diferentes estadíos, donde es fundamental
poder caracterizar una gran cantidad de genes, relacionarlos en redes génicas de co-expresión y
asociar estas medidas a la evidencia experimental existente para obtener nuevos modelos de
regulación génica que puedan contrastarse en el laboratorio.

6 Trabajo futuro
Este Trabajo de Fin de Máster representa una primera aproximación al análisis de redes de
co-expresión génica, pero existen aún diversos análisis y funcionalidades que enriquecerían el
potencial de la herramienta desarrollada y entre los que cabe destacar los siguientes:
● Productivización en Cloud mediante contenedores Docker.
● Partir de un aprovisionamiento de datos crudos de secuenciación (formato FASTQ) desde
la API del portal de datos de TCGA y obtener la matriz de conteo cruda bajo nuestro
propio criterio investigador. Esto mejoraría tanto nuestra capacidad de aportar valor en
este punto como mejoras en la sensibilidad del algoritmo WGCNA.
● Realizar toda la capa ETL en Python, actualmente en R y Python, explotando los
servicios web de la API de integración de TCGA.
● Agregar el análisis de asociación utilizando los metadatos clínicos con rasgos como la
edad, etnia, peso, hábitos y otros. No estaba planeado pero resultó ser una capacidad de
WGCNA que nos parece muy interesante y que está incluída entre las capacidades
actuales de WGCNA y para lo que existen datos adecuados en TCGA.
● Utilizar alguna herramienta de gestión de flujos de trabajo, como Knime o similar.
● Permitir seleccionar distintas matrices de distancia, al menos la matriz de diferencias por
otras tanto más sencillas, solo adyacencia, como mediante funciones personalizables para
el cálculo de la distancia que extiendan el método TOM (único actualmente).
● Desarrollo de una metodología para el agrupamiento jerárquico de redes y módulos de
co-expresión, que permitan extender las capacidad del método en estudios comparativos.

42
● Posibilitar análisis de consenso para cualquier número de tumores, actualmente solo 2. Es
un cambio menor, que no es necesario para correlacionar redes de co-expresión en
estudios comparativos (bastaría con todas las correlaciones entre pares), pero consensuar
3 o más redes puede tener utilidad en algunos casos como en la reducción de datos y la
selección de variables, fundamentalmente para detectar patrones relevantes de red y
aplicarlos en la construcción de modelos de regulación génica.

 
Figura 14. Asociaciones de los módulos con datos clínicos. Cada fila corresponde un módulo (su eigengen) y cada
columna a un rasgo. Cada celda contiene la correlación mostrando el valor p correspondiente. La tabla está
codificada por colores en función de la correlación. Los datos corresponden a un estudio de asociación de datos
clínicos sobre diabetes y modelos en ratones [33]

● Incorporar análisis avanzados de grafos, visualización de grafos, etc. Estaba planeado


pero quedó fuera del alcance inicial ya que preferimos solucionar correctamente la
integración de WGCNA (una herramienta compleja de utilizar y no muy documentada) y
la aplicación web en Shiny, así como investigar los resultados. En cualquier caso, se
puede utilizar la red de co-expresión que hemos generado sin ningún problema desde R
recurriendo a la multitud de paquetes de análisis de grafos existentes en R.
● Despliegue en La Nube.
● Mejoras en la interfaz: Como por ejemplo añadir barras de progreso para los análisis
pesados (genoma completo) y el uso de sesión multiusuario que además permita
desconectarse y dejar los análisis en funcionamiento.

43
7 Referencias
[1] Horvath, S. Weighted Network Analysis: Application in Genomics and Systems Biology. Springer, (2011).
[2] van Dam, Sipko, et al. Gene co-expression analysis for functional classification and gene–disease predictions.
Briefings in bioinformatics (2017): bbw139.
[3] Shiny de R Studio: https://shiny.rstudio.com/
[4] Proost, Sebastian, Agnieszka Krawczyk, and Marek Mutwil. "LSTrAP: efficiently combining RNA sequencing
data into co-expression networks." BMC bioinformatics 18.1 (2017): 444.
[5] Ballouz, Sara, Wim Verleyen, and Jesse Gillis. Guidance for RNA-seq coexpression network construction and
analysis: safety in numbers. Bioinformatics 31.13, (2015): 2123-2130.
[6] Gentleman, Robert C., et al. "Bioconductor: open software development for computational biology and
bioinformatics." Genome biology 5.10 (2004): R80.
[7] Pevsner, J. Bioinformatics and Functional Genomics. Wiley Blackwell, 3rd edition. (2015).
[8] Scudellari, Megan. Omics-Data Deluge-Large-scale data collection and analysis have fundamentally altered the
process and mind-set of biological research. Scientist 25.10 (2011): 44.
[9] Chandonia, J. M., & Brenner, S. E. The impact of structural genomics: expectations and outcomes. Science,
311(5759), (2006): 347-351.
[10] Crick, F. Central dogma of molecular biology. Nature, 227(5258), (1970): 561.
[11] Pray, Leslie. Discovery of DNA structure and function: Watson and Crick. Nature Education 1.1 (2008): 100.
[12] Khandelwal, Garima, et al. A statistical thermodynamic model for investigating the stability of DNA sequences
from oligonucleotides to genomes. Biophysical journal 106.11 (2014): 2465-2473.
[13] Venter, J. Craig, et al. The sequence of the human genome. Science 291.5507 (2001): 1304-1351.
[14] Manolio, T. A. Genomewide association studies and assessment of the risk of disease. New England Journal of
Medicine, 363(2), (2010): 166-176.
[15] Weighted gene co-expression network analysis with TCGA RNAseq:
https://www.bioconductor.org/packages/devel/bioc/vignettes/CVE/inst/doc/WGCNA_from_TCGA_RNAseq.htm
l
[16] Li, S., Park, Y., Duraisingham, S., Strobel, F. H., Khan, N., Soltow, Q. A., ... & Pulendran, B. Predicting network
activity from high throughput metabolomics. PLoS computational biology, 9(7), (2013): e1003123.
[17] Arnone, M. I. & Davidson, E. H. The hardwiring of development: organization and function of genomic
regulatory systems. Development 124, (1997): 1851–1864 .
[18] Miklos, G. L. & Rubin, G. M. The Role of the Genome Project in Determining Gene Function: Insights from
Model Organisms. Cell 86, (1996): 521–529.
[19] Ohno, S. So much junk DNA in our genome. In Evolution of Genetic Systems, Brookhaven Symp. Biol.
(1972):366-370.
[20] Wittkopp, P. J., & Kalay, G. Cis-regulatory elements: molecular mechanisms and evolutionary processes
underlying divergence. Nature Reviews Genetics, 13(1), (2012): 59.
[21] Carroll, S. B., Grenier, J. K., & Weatherbee, S. D. From DNA to diversity: molecular genetics and the evolution
of animal design. John Wiley & Sons. (2013).
[22] Kundaje, A., Meuleman, W., Ernst, J., Bilenky, M., Yen, A., Heravi-Moussavi, A., ... & Amin, V. Integrative
analysis of 111 reference human epigenomes. Nature, 518(7539), (2015): 317.
[23] Freeland, S. J., & Hurst, L. D. The genetic code is one in a million. Journal of molecular evolution, 47(3),
(1998): 238-248.
[24] Masahiro Kasahara and Shinichi Morishita. Large-scale genome sequence processing. Imperial College Press,
(2006).

44
[25] Bonàs-Guarch, S., Guindo-Martínez, M., Miguel-Escalada, I., Grarup, N., Sebastian, D., Rodriguez-Fos, E., ... &
Timshel, P. Re-analysis of public genetic data reveals a rare X-chromosomal variant associated with type 2
diabetes. Nature communications, 9(1), (2018): 321.
[26] Galván-Femenía, I., Guindo, M., Duran, X., Calabuig-Fariñas, S., Mercader, J. M., Ramirez, J. L., ... &
Jantus-Lewintre, E. Genomic profiling in advanced stage non-small-cell lung cancer patients with
platinum-based chemotherapy identifies germline variants with prognostic value in SMYD2. Cancer Treatment
and Research Communications, 15, (2018): 21-31.
[27] Bumgarner, R. Overview of DNA microarrays: types, applications, and their future. Current protocols in
molecular biology, 101(1), (2013): 22-1.
[28] Li, P., Piao, Y., Shon, H. S., & Ryu, K. H. Comparing the normalization methods for the differential analysis of
Illumina high-throughput RNA-Seq data. BMC bioinformatics, 16(1), (2015): 347.
[29] Zhao S, Fung-Leung W-P, Bittner A, Ngo K, Liu X. Comparison of RNA-Seq and Microarray in Transcriptome
Profiling of Activated T Cells. PLoS ONE 9.1, (2014): e78644
[30] Aparicio, O., Geisberg, J. V., Sekinger, E., Yang, A., Moqtaderi, Z., & Struhl, K. Chromatin immunoprecipitation
for determining the association of proteins with specific genomic sequences in vivo. Current protocols in
molecular biology, 69(1), (2005): 21-3.
[31] Melton, L. Protein arrays: proteomics in multiplex. Nature, 429(6987), (2004): 101.
[32] Picelli S. Single-cell RNA-sequencing: The future of genome biology is now. RNA Biol. 14(5), (2017): 637-650.
[33] Langfelder, P. and Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC
Bioinformatics 9 (2008),: 559–559.
[34] Zhang, B. and Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical
applications in genetics and molecular biology 4 (2005):Article 17.
[35] Li, A., & Horvath, S. Network neighborhood analysis with the multi-node topological overlap measure.
Bioinformatics, 23(2), (2006): 222-231.
[36] Langfelder, P. Zhang, B. Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut
package for R. Bioinformatics 24 (2008):719-720.
[37] Langfelder, P. & Horvath, S. Eigengene networks for studying the relationships between co-expression modules.
BMC Systems Biology, 1. (2007):54
[38] Fuller, T. F. et al. Weighted gene coexpression network analysis strategies applied to mouse weight. Mammalian
Genome 18, (2007): 463–472.
[39] Horvath, S. and Dong. J. Geometric Interpretation of Gene Coexpression Network Analysis. PLoS
Computational Biology (2008):1000117.
[40] TCGA Research Network: http://cancergenome.nih.gov
[41] Kosinski, M. Biecek, P. RTCGA: The Cancer Genome Atlas Data Integration. R package version 1.10.0,
https://rtcga.github.io/RTCGA. (2016).
[42] Gimenez-Llorente, D. Análisis de expresión diferencial para datos de Next Generation Sequencing (NGS) con
múltiples condiciones experimentales. Universidad Autónoma de Madrid. (2017).
[43] Rahman, M., Jackson, L. K., Johnson, W. E., Li, D. Y., Bild, A. H., & Piccolo, S. R. Alternative preprocessing of
RNA-Sequencing data in The Cancer Genome Atlas leads to improved analysis results. Bioinformatics, 31
(2015): 3666–3672.
[44] Law CW, Chen Y, Shi W, Smyth GK. voom: Precision weights unlock linear model analysis tools for RNA-seq
read counts. Genome biology 15.2 (2014): R29.
[45] Anders, S., & Huber, W. Differential expression analysis for sequence count data. Genome biology, 11(10),
(2010): R106.
[46] Proost, S., Krawczyk, A., & Mutwil, M. LSTrAP: efficiently combining RNA sequencing data into co-expression
networks. BMC bioinformatics, 18(1), (2017): 444.
[47] WGCNA FAQ: https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html
[48] WGCNA Documentation: https://www.rdocumentation.org/packages/WGCNA/versions/1.63

45
[49] López-Abente, G., Mispireta, S., & Pollán, M. Breast and prostate cancer: an analysis of common
epidemiological features in mortality trends in Spain. BMC cancer, 14(1), (2014): 874.
[50] Risbridger, G. P., Davis, I. D., Birrell, S. N., & Tilley, W. D. Breast and prostate cancer: more similar than
different. Nature Reviews Cancer, 10(3), (2010): nrc2795.
[51] Chen, EY. Tan, CM. Kou, Y. Duan, Q. Wang, Z. Meirelles, GV. Clark, NR. Ma'ayan, A. Enrichr: interactive and
collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. (2013):128.
[52] Kuleshov, MV. Jones, MR. Rouillard, AD. Fernandez, NF. Duan, Q. Wang, Z. Koplev, S. Jenkins, SL. Jagodnik,
KM. Lachmann, A. McDermott, MG. Monteiro, CD. Gundersen, GW. Ma'ayan, A. Enrichr: a comprehensive
gene set enrichment analysis web server 2016 update. Nucleic Acids Research. (2016): gkw377.
[53] Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., & Jensen, L. J. DISEASES: Text mining and data
integration of disease–gene associations. Methods, 74,(2015): 83-89.
[54] Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., ... & Harris, M. A. Gene
Ontology: tool for the unification of biology. Nature genetics, 25(1), (2000): 25.
[55] Lachmann, A., Torre, D., Keenan, A. B., Jagodnik, K. M., Lee, H. J., Wang, L., ... & Ma’ayan, A. Massive
mining of publicly available RNA-seq data from human and mouse. Nature communications, 9(1), (2018): 1366.
[56] Labernadie, A., Kato, T., Brugués, A., Serra-Picamal, X., Derzsi, S., Arwert, E., ... & Alcaraz, J. A mechanically
active heterotypic E-cadherin/N-cadherin adhesion enables fibroblasts to drive cancer cell invasion. Nature cell
biology, 19(3), (2017): 224.
[57] Thomas, P. D., Campbell, M. J., Kejariwal, A., Mi, H., Karlak, B., Daverman, R., ... & Narechania, A.
PANTHER: a library of protein families and subfamilies indexed by function. Genome research, 13(9), (2003):
2129-2141.
[58] Martínez-Ezquerro, J. D., & Herrera, L. A. Angiogénesis: VEGF/VEGFRs como blancos terapéuticos en el
tratamiento contra el cáncer. Cancerología, 1(1), (2006): 83-96.
[59] He, M., Wang, Y., & Li, W. PPI finder: a mining tool for human protein-protein interactions. PloS one, 4(2),
(2009): e4554.
[60] He, B., Xiao, Y. F., Tang, B., Wu, Y. Y., Hu, C. J., Xie, R., ... & Li, J. L. hTERT mediates gastric cancer
metastasis partially through the indirect targeting of ITGB1 by microRNA-29a. Scientific reports, 6, (2016):
21955.
[61] Zhang, Y., Lv, J., Liu, H., Zhu, J., Su, J., Wu, Q., ... & Li, X. HHMD: the human histone modification database.
Nucleic acids research, 38(suppl_1), (2009): D149-D154.
[62] Holm, K., Grabau, D., Lövgren, K., Aradottir, S., Gruvberger-Saal, S., Howlin, J., ... & Malmström, P. (2012).
Global H3K27 trimethylation and EZH2 abundance in breast tumor subtypes. Molecular oncology, 6(5),
494-506.
[63] Healey, M. A., Hu, R., Beck, A. H., Collins, L. C., Schnitt, S. J., Tamimi, R. M., & Hazra, A. (2014). Association
of H3K9me3 and H3K27me3 repressive histone marks with breast cancer subtypes in the Nurses’ Health Study.
Breast cancer research and treatment, 147(3), 639-651.
[64] Ngollo, M., Lebert, A., Dagdemir, A., Judes, G., Karsli-Ceppioglu, S., Daures, M., ... & Guy, L. (2014). The
association between histone 3 lysine 27 trimethylation (H3K27me3) and prostate cancer: relationship with
clinicopathological parameters. BMC cancer, 14(1), 994.
[65] Chinaranagari, S., Sharma, P., & Chaudhary, J. (2014). EZH2 dependent H3K27me3 is involved in epigenetic
silencing of ID4 in prostate cancer. Oncotarget, 5(16), 7172.
[66] Hsu MC, Chang HC, Hung WC. HER-2/neu represses the metastasis suppressor RECK via ERK and Sp
transcription factors to promote cell invasion. J. Biol. Chem. 281 (8). (2006): 4718–25.
[67] Wikipedia entry for MAPK/ERK Pathway: https://en.wikipedia.org/wiki/MAPK/ERK_pathway
[68] Nishimura, D. BioCarta. Biotech Software & Internet Report: The Computer Software Journal for Scient, 2(3),
(2001): 117-120.
[69] Lewis, M. J., Liu, J., Libby, E. F., Lee, M., Crawford, N. P., & Hurst, D. R. SIN3A and SIN3B differentially
regulate breast cancer metastasis. Oncotarget, 7(48), (2016): 78713.

46
[70] Shima, N., Alcaraz, A., Liachko, I., Buske, T. R., Andrews, C. A., Munroe, R. J., ... & Schimenti, J. C. A viable
allele of Mcm4 causes chromosome instability and mammary adenocarcinomas in mice. Nature genetics, 39(1),
(2007): 93.
[71] Li, L., Yu, C., Gao, H., & Li, Y. Argonaute proteins: potential biomarkers for human colon cancer. BMC cancer,
10(1), (2010): 38.
[72] Su, A. I., Wiltshire, T., Batalov, S., Lapp, H., Ching, K. A., Block, D., ... & Cooke, M. P. A gene atlas of the
mouse and human protein-encoding transcriptomes. Proceedings of the National Academy of Sciences, 101(16),
(2004): 6062-6067.
[73] Kuranda, K., Berthon, C., Leprêtre, F., Polakowska, R., Jouy, N., & Quesnel, B. Expression of CD34 in
hematopoietic cancer cell lines reflects tightly regulated stem/progenitor‐like state. Journal of cellular
biochemistry, 112(5), (2011): 1277-1285.
[74] Laplante, M., & Sabatini, D. M. mTOR signaling at a glance. Journal of cell science, 122(20), (2009):
3589-3594.
[75] Beg, A. A., & Baltimore, D. An essential role for NF-κB in preventing TNF-α-induced cell death. Science,
274(5288), (1996): 782-784.
[76] Balkwill, F. TNF-α in promotion and progression of cancer. Cancer and Metastasis Reviews, 25(3), (2006).: 409.
[77] Miki, Y., Swensen, J., Shattuck-Eidens, D., Futreal, P. A., Harshman, K., Tavtigian, S., ... & Ding, W. A strong
candidate for the breast and ovarian cancer susceptibility gene BRCA1. Science, 266(5182), (1994): 66-71.
[78] Boehm, J. S., Zhao, J. J., Yao, J., Kim, S. Y., Firestein, R., Dunn, I. F., ... & Greulich, H. Integrative genomic
approaches identify IKBKE as a breast cancer oncogene. Cell, 129(6), (2007): 1065-1079.
[79] Igea, A., & Nebreda, A. R. The stress kinase p38α as a target for cancer therapy. Cancer research. (2015).
[80] Barrett, T., Troup, D. B., Wilhite, S. E., Ledoux, P., Rudnev, D., Evangelista, C., ... & Edgar, R. NCBI GEO:
mining tens of millions of expression profiles—database and tools update. Nucleic acids research, 35(suppl_1),
(2006): D760-D765.
[81] Kanehisa, M., & Goto, S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 28(1),
(2000): 27-30.
[82] Wikipedia entry for Apoptosis: https://en.wikipedia.org/wiki/Apoptosis
[83] Moniz, L., Dutt, P., Haider, N., & Stambolic, V. Nek family of kinases in cell cycle, checkpoint control and
cancer. Cell division, 6(1), (2011): 18.

47
Apéndices

A - Análisis de consenso entre BRCA y PRAD

48
49
50
B - Lista de genes candidatos
Módulos de red de consenso
Presentamos 12 módulos de BRCA para los que existen correspondencias muy significativas. No
consideramos los módulos con gran cantidad de genes que además presentan múltiples
correspondencias con varios módulos del consenso. Estos módulos podrían haberse agrupado
para una correspondencia 1:1 pero tendríamos módulos con muchos genes difíciles de tratar.
Genes específicos de BRCA en los módulos de consenso
Además, reducirnos a módulos para los que podemos entender que hay una correspondencia
directa nos permite seleccionar los genes específicos de BRCA eliminando de la lista de genes
del módulo de BRCA los que aparecen en la lista de genes del módulo de consenso.

BRCA red / CONS green


COL1A1 FN1 COL1A2 COL3A1 SPARC COL6A3 POSTN AEBP1 LUM TIMP3 DCN SFRP2 COL12A1 COL5A2 THBS1 COL5A1 MMP2 MMP11 VCAN MXRA5 THBS2 
TIMP2 LRP1 FSTL1 ITGB1 FBN1 COL4A1 COL4A2 SULF1 ZFP36L1 HTRA1 SULF2 CALD1 PTRF ANTXR1 FBLN1 PALLD ITGB5 COL11A1 LAMC1 PDGFRB 
SERPINF1 PXDN TLN1 LTBP2 LRRC15 LAMB1 DPYSL3 COL10A1 FBLN2 RUNX1 ITGAV COMP PMP22 CDH11 PMEPA1 CXCL12 NID1 ADAM12 SFRP4 ASPN 
HTRA3 MAP4 VCL MICAL2 CTHRC1 KIAA1217 PRRX1 SEPT11 PLAU PTGFRN EHD2 MYO1B SH3PXD2A ARHGAP1 GAS6 FKBP9 GALNT1 CRISPLD2 LAMA4 
CRTAP HEG1 FNDC1 ITGA11 MYO1D TGFB3 SH3PXD2B MCAM COL8A2 FRMD6 IL1R1 ANGPTL2 UNC5B RIN2 TCF4 CD55 MXRA7 C5orf13 PDGFRA DAB2 
LOXL2 FOSL2 FAP PHLDB1 TMEM2 SPON1 DKK3 F13A1 GREM1 PARVA LOX LOXL1 AMOTL2 MAFB SPOCK1 KLF10 ABL1 ITGBL1 MFAP5 CMTM3 AXL NID2 
HMCN1 SLC6A6 UACA PPFIBP1 LMCD1 TMEM119 ST5 GPX8 SEC23A KIAA1462 MARVELD1 MSRB3 ATXN1 C1QTNF6 FERMT2 AFAP1 COL8A1 SLIT3 ZBED1 
SEMA5A DCHS1 PLXDC2 SGK269 TRAM2 FILIP1L PPIC SPRED1 CTSO DPT ZEB1 GLIS2 ATP8B2 OLFML2A ITGA1 CYTH3 ADAMTS2 KDELC2 EDNRA 
FLJ10357 KCTD10 MEGF6 ANTXR2 GAS1 GOLIM4 SPSB1 SSC5D SNED1 TLN2 BACE1 EVC SSPN RGS16 PTPRG ZNF469 MATN3 DSE NUAK1 CDK14 
RNF144A ACVR1 PDGFC PDGFRL SLC12A4 SPRY4 FIBIN JAM3 MAF BDH1 PLXNC1 MAP1A C1QTNF3 PDPN ROR2 PCDH7 ECM2 PLXDC1 TNFRSF19 ITSN1 
PLBD2 RBMS2 PKD2 PCDH18 INHBA GLT8D2 SGCD SRPX2 CALHM2 ADAMTS12 C20orf103 SGMS2 KIF26B C10orf72 RUNX2 GPC6 FAM101B RUSC2 
KIAA1199 GJA5 LRRC17 GFPT2 DACT1 PTPN21 LATS2 C5orf62 WISP1 HEYL LPAR1 MRVI1 CILP2 TSPAN18 ATP10A SRPX CPZ ODZ4 BNC2 KIRREL 
ZFHX4 RECK MMP19 EML1 FLRT2 SLC36A1 ARSB ST6GAL2 NTM FGF1 OMD NDN ZBTB47 ADAMTS5 MN1 TSHZ3 MITF BMP8A SORCS2 LZTS1 DDR2 PLA2R1 
ASAM B3GNT9 RGS4 OLFML1 ETV1 CDH13 WNT2 GPR68 NEXN ISM1 ANGPT2 P4HA3 TNFAIP6 ACVR2A TNN LOC399959 ADAMTS16 GALNTL2 FKBP7 NOX4 
TMEM200A PCDH17 FKBP14 FGF7 IKBIP GLIS3 PTPRD BICC1 EGFLAM ADAMTSL2 PPAPDC1A C1orf210 GXYLT2 SLC38A5 TMEM90B ARHGAP24 CYP2U1 
PRR5L TNFSF4 ARHGAP28 NPR2 FAM26E HRH1 PCDHGB7 LCA5 RASGRF2 CNTNAP1 CYS1 CNTN1 STX2 ZFPM2 SH3RF3 CORIN DNAJB5 KDELC1 GRP LAYN 
TBX15 ADAMTSL1 NINJ2 DACT3 MRGPRF ZMAT3 PRKD1 C14orf37 PRKG1 CHSY3 EIF5A2 SGIP1 PAPPA HSD17B6 TLL1 TBX18 CNIH3 C17orf91 GPR176 
XG EVC2 TRPC1 CMTM1 HOXC8 ADAM33 PCDHGA12 C7orf10 PRND NAP1L3 SHOX2 DNAJC18 FLJ42709 TBX5 ADAMTS6 CCRL1 RFTN2 ALPK2 ARSE CSDC2 
TMEM130 CCDC102B GRID1 ITGA8 EPYC SALL1 C1QTNF7 EMX2OS SALL4 GPR1 LRCH2 NAALADL1 BEAN LOH3CR2A PRDM5 TCEAL7 TWIST2 GABRB2 
SLC6A1 MAGEL2 SLC24A2 ZC3H12B NTNG2 LOC134466 PRKG2 FAM189A1 TLL2 LOC283867 IL17D FGF18 BTBD19 YPEL4 KLHL4 TM6SF2 CCIN CCDC36 
SHISA6 C21orf82 NETO1 KLKP1 C4orf49 PURG LPPR5 CDK15 FAM7A3 C6orf186 ZCCHC5 KCTD16 GPR21 ZFP92 DIRC1 SPIN2A RCVRN FAM7A2 STON1 
METTL11B CYP26C1 RXFP3 FGF16 CCKAR FAM48B1

COL1A1 COL1A2 COL6A3 AEBP1 LUM FLNA DCN SFRP2 COL5A2 THBS1 MMP2 MMP11 MXRA5 MMP14 THBS2 TIMP2 LRP1 FSTL1 ITGB1 CTGF ACTA2 
SULF1 HTRA1 SULF2 TPM1 SERPINH1 PALLD PXDN LRRC15 CILP ANXA5 LAMB1 DPYSL3 ITGAV EMP1 COMP CDH11 ADAM12 ASPN HTRA3 MYLK PRRX1 
EHD2 MYO1B PICALM ARHGAP1 GALNT1 CRISPLD2 LAMA4 NRP1 CRTAP NNMT ITGA11 MYO1D ANKH FRMD6 CERCAM ANGPTL2 H6PD UNC5B RIN2 ARRDC3 
DAB2 LOXL2 FAP PHLDB1 ENC1 TMEM2 SEPT8 WLS DKK3 SH3GLB1 GREM1 MFAP4 CFH TMEM43 LOX MAP1B SFRS9 ITGBL1 RAI14 COL5A3 AXL GAS7 
NID2 HMCN1 KANK2 SLC6A6 UACA OSMR PODXL2 WWC3 LMCD1 SH3D19 SEC23A MSRB3 GPR124 C1QTNF6 F2RL2 FERMT2 COL8A1 LAMA2 ZBED1 DCHS1 
TRAM2 FILIP1L PPIC VAMP3 DPT AKAP12 GLIS2 CDH5 LRRC8A OLFML2A ITGA1 PDLIM3 EDNRA FLJ10357 KCTD10 GOLIM4 PRICKLE1 SSC5D SNED1 
SSPN RGS16 PTPRG ZNF469 MATN3 NUAK1 TGFB1I1 PDGFRL MAP4K5 SPRY4 JAM3 C1QTNF3 ROR2 PCDH7 HEPH ITSN1 KRTCAP3 ADAMTS12 C20orf103 
SNX29 SOCS5 SGMS2 KIF26B RUNX2 FAM101B RUSC2 GRAMD3 KIAA1199 DACT1 PTPN21 LATS2 WISP1 FEZ2 LPAR1 MRVI1 CILP2 TSPAN18 CXorf36 
CLIP3 CLIP2 SRPX RAB23 CPZ ODZ4 BNC2 SCARF2 ST6GAL2 NTM ZBTB47 ADAMTS5 MN1 TSHZ3 MITF SORCS2 RGS4 DNM1 CDH13 DPP4 TNFAIP6 
PODNL1 ACVR2A TNN LOC399959 NRN1 PCDH17 NR2F1 ZNF423 EGFLAM SLC35B4 PPAPDC1A GXYLT2 SLC38A5 AGPAT4 HIC1 IL1RAP SPIRE2 ARHGAP28 
IFFO1 B3GALTL GULP1 FAM26E HRH1 RASGRF2 MMP16 ADAMTS14 CNTNAP1 SH3RF3 GRP LAYN FNDC4 DACT3 PRKD1 PRKG1 SGIP1 TSPAN11 HSD17B6 
TLL1 CCDC46 FAM176A GPR176 GLI2 SEMA3D KLK4 C12orf73 EVC2 CMTM1 CACNA2D1 HOXC8 HAS2 NAP1L3 MS4A2 KCNMB4 FLJ42709 SOBP ITGA8 
C1QTNF7 PRDM5 DEPDC7 TCEAL7 GABRB2 SLC6A1 NTNG2 EBF2 TMEM169 TLL2 IL17D FGF18 LRFN5 BTBD19 KLHL4 RGS17 KCTD16 KCNS2 CCKAR

BRCA black / CONS magenta


TXNIP GSN HSPG2 SPARCL1 IGFBP7 ZFP36L2 CCDC80 CILP VWF AQP1 EPAS1 TNS1 COL15A1 COL14A1 ENG UTRN NRP1 KCTD12 F2R PLVAP CD93 
H6PD PODN ARRDC3 CAV1 SYNPO TENC1 MYH11 ARID5B MFAP4 NEDD9 SWAP70 LRRC32 GAS7 NR3C1 KANK2 CD34 ADAMTS1 PPAP2B FZD4 SH3D19 
FOXN3 GPR124 F2RL2 PECAM1 LAMA2 TBC1D2B KLF9 ZCCHC24 FLT1 LTBP4 PALM2 DLC1 EFNB2 AKAP12 ENTPD1 FMNL3 CDH5 KDR LRRC8A PTPRM 
EHD4 PPP1R12B APLNR RPS6KA2 CD302 CPXM2 SPRY1 PPAP2A GPR116 MMRN2 LHFP PTPRB SNRK GEM CALCRL THBD SLCO2A1 PTGIS LMOD1 APOLD1 
SVEP1 PER1 PDZD2 SEMA3G ELTD1 FOXO1 TNXB IGF1 PALMD PDGFD LPAR6 ESAM MEF2C KIAA0355 TIE1 PROS1 S1PR1 DARC CPA3 GNG11 ARHGAP23 
TTC28 DOCK6 ELK3 PLSCR4 SH3BGRL2 FRMD4B SHANK3 LRCH1 HSD17B11 NOTCH4 ACVRL1 CLEC14A CXorf36 C7 ROBO4 C20orf194 EMCN C13orf15 
SLIT2 TMEM204 CACHD1 ARL15 CACNA1C MOCS1 ERG RORA PCDH12 ANK2 TSPAN7 TEK FAT4 ARAP3 EHD3 IL33 CCL14 SHROOM4 ABCC9 ARHGEF15 
BCL6B CDC14B FLT4 MECOM LDB2 CD200 RASIP1 GJA4 EDNRB RNF125 AASS RCAN2 LMO2 DLL4 LEPR ZNF423 NOS3 RCBTB2 HSPA12B CLEC3B EBF1 
SELP CLDN5 AFAP1L1 SCN4B INPP1 MYCT1 CLDN11 ADCY4 SHE PELI2 JAM2 STARD8 RHOJ CNRIP1 PGM5 FAM43A PDE2A MCTP1 POU6F1 PEAR1 GPR4 
SCARF1 ABCA6 DLL1 SOX7 ABCA8 GPRASP1 LHX6 RNF180 MMRN1 PCSK5 TSHZ2 MEOX1 CCDC46 THSD1 GLI2 DCUN1D3 ABCB1 INMT GRASP GIPC3 
ABCA9 DKK2 PI16 IGDCC4 KANK3 MS4A2 F2RL3 CORO2B FAM13C EBF3 ECSCR NRIP2 NR5A2 C20orf160 CDH6 PDE1A C21orf7 PREX2 ARHGAP6 
EXOC3L2 THSD7A HPGDS FREM1 ANGPTL1 GNAL FCER1A ARHGAP20 ADRB2 FAM82A1 LGI4 LRRN4CL C14orf149 TAL1 HTR2B RUNX1T1 RBMS3 TMEM22 
SNCA LYVE1 CLEC1A C14orf49 WSCD1 AVPR1A COL6A6 FAM124B USHBP1 ST6GALNAC3 ZNF366 LRRC70 RUNDC3B KL SCARA5 EFHA2 GRRP1 F10 PTCH2 
FHL5 CTSG RASGRP4 GLI1 C9orf125 NOVA2 FXYD1 TMEM88 C21orf34 THSD7B GIPC2 MAB21L1 SCN7A WHAMML2 KIF17 SMAD9 CBLN4 DMGDH ABCA10 
BMX C10orf128 FIGNL2 SLC1A7 AVPR2 SIGLECP3 FAM162B SIGLEC6 TDRD10 TPO ITIH3 DHH C18orf34 C3orf36 NKAPL C1QTNF9 MAP1LC3C DBX2 

51
ABCB5 PTPN5 CMA1 C15orf51 CC2D2B IGFN1 SLCO1C1 KCNS2 SLC5A4 WNT9B GDF3 FAM180B GPR20 HCG22 ANGPT4 CASP12 VIP LOC90586 KLHL33 
CCL16 CRHR2 LCN6 GPR142 APOL5 LOC148145 MAS1L MRGPRX2 OTC TCF23

TXNIP HSPG2 EGR1 CYR61 DUSP1 EPAS1 JUNB ZFP36 COL15A1 F2R CAV1 SYNPO MYH11 ARID5B CD36 NEDD9 SORBS1 SYNPO2 CD34 ADAMTS1 ETS2 
PDK4 KLF9 LTBP4 EFNB2 LIFR EHD4 PPP1R12B APLNR FOSB SPRY1 FABP4 SNRK GEM LPL APOLD1 ACACB CSRNP1 KLF2 PER1 EGR3 ADH1B ELTD1 
FOXO1 TNXB IGF1 PALMD PDGFD PCDH18 MEF2C S1PR1 DARC ARHGAP23 SHANK3 GPAM EGR2 ACVRL1 CLEC14A GYG2 CHRDL1 CCDC3 LIPE SLIT2 
CACHD1 ARL15 MOCS1 ERG ANK2 TEK HSPB6 PLK3 ITGA7 ARHGEF15 BCL6B FLT4 LDB2 DLL4 EBF1 PLXNA4 CLDN5 AFAP1L1 EEPD1 G0S2 CLDN11 
PELI2 HBEGF JAM2 RHOJ PGM5 PDE2A DLL1 LHX6 MMRN1 THSD1 RBP4 NR4A3 FAM13C CDH6 GPIHBP1 PDE7B IL6 EFHA2 TMEM88 C21orf34 
NIPSNAP3B LEP CBLN4 C10orf128 ANKRD53 AQPEP

BRCA magenta / CONS lightyellow


VIM COL6A2 COL6A1 BGN MMP14 APOE CD81 TIMP1 LGALS1 CST3 SERPINH1 GRN MYL9 COL18A1 NBL1 THY1 GNAI2 ISLR CNN2 FKBP10 MXRA8 ZYX 
CD99 PLXND1 PLD3 ARPC1B CHPF TPM2 GPX1 MMP9 CYB5R3 PCOLCE COL16A1 RNASE1 EMILIN1 ITGA5 CD276 NNMT MGAT1 CERCAM TAX1BP3 ACP5 
OLFML2B GPC1 FBLIM1 MFAP2 CYBA TNFRSF1A PHC2 PLTP TUBB6 ILK SPON2 DBNL COL5A3 TCIRG1 VKORC1 EFEMP2 PDLIM7 TGFB1 RCN3 EFHD2 
RARRES2 PHLDA3 SNX17 CD248 STAB1 CHPF2 LEPREL2 GGT5 SLC16A3 FAM20C PLEKHO1 PSMB10 BMP1 CEBPD CCAR1 CPXM1 CKB PLEKHA4 HYAL2 
LEPRE1 SMTN FAM65A PLEKHM2 ST6GALNAC6 NXN TWF2 TSPAN4 RHOG MFRP ID3 SLC39A13 RGS3 TGFB1I1 TSPAN17 CCM2 C6orf145 WISP2 MKL1 
EMP3 EML3 PTP4A3 PPM1F NLGN2 PLSCR3 SPHK1 OAF FXYD6 SNAI2 PDLIM2 HDAC3 JDP2 EFNB1 TNFSF12 RASSF1 PDLIM4 FHL3 NCKAP5L CLEC11A 
CLIP2 PTGDS CHST14 SCARF2 B4GALT7 KIFC3 CYGB ST3GAL2 VAMP5 ATG7 GPR153 ABCD4 COPZ2 SNX21 FAM109B SOD3 PRKCDBP RAB3IL1 SH2D3C 
BRE GEFT UBTD1 LOC100270710 SH3TC1 PODNL1 FES FAM109A CHST12 CNPY4 TBKBP1 FTHL3 MAPK11 LOC654342 IFI27L2 FOLR2 HABP4 PROCR 
WTIP IGFBP6 MSC TBX2 EEPD1 FMO1 C21orf56 HIC1 PGF SOX18 IFFO1 NKD2 RASL12 PRRX2 CAMK1 KCTD17 RENBP STOML1 TMEM44 ADAMTS14 FZD2 
PRR24 IL11RA RIN1 UPP1 FNDC4 ARSI LDLRAD2 HLX MON1A C1orf54 CDH23 LYSMD4 FAM176A HHIPL1 HOXD9 PLAC9 SHF RILP MEG3 TMEM91 MATK 
TDO2 DENND2A SMAD6 LOC645166 LOC728392 RPLP0P2 FOXS1 LAMC3 MSX1 FAM167B ROBO3 NRGN TNFRSF6B EXOC3L GLYCTK PTGIR CACNA2D4 
POPDC2 TBXA2R CHST7 PPAPDC3 ELFN1 FAM70B WDR86 C1orf133 C3orf54 LTC4S C16orf86 GJC2 COX4I2 ZNF575 BATF3 C17orf60 LOC650368 
HIGD1B GLIS1 VENTX NEURL2 XPNPEP2 RUFY4 CRYGS S100A3 RFX8 CCR10 GGN CHST13 CRYBB1 C22orf26 C1orf70 CDX1 C1QTNF4 CATSPER1 CRYGN 
LOC91450 FLJ42875 C13orf16 CEBPE TRPC2 DKFZp566F0947 NCRNA00162 CLEC4G PITX3 OPN4 ASIP OXT NKX2 DAZL CLEC4GP1 HMHB1 LCNL1 PF4 
SPRR2F UTF1

COL6A2 COL6A1 BGN TIMP1 GRN MRC2 CNN2 FKBP10 ZYX CD99 CHPF MMP9 PCOLCE TGFB1 RARRES2 P4HA2 PLEKHO1 BMP1 CPXM1 CKB RHOG 
SLC39A13 MMP13 PLXDC1 PTP4A3 OAF HEYL PTGDS CYGB COPZ2 SOD3 RAB3IL1 FAM109A RASIP1 FAM20A MAPK11 FOLR2 MSC LAMC3 C17orf60 
VENTX RUFY4 

BRCA brown 703 genes / CONS pink varios modulos : NO LO CONSIDERAMOS

BRCA pink / CONS grey60


HSPA8 NEAT1 CIRBP ACADVL BAT1 SFRS5 PNPLA2 PLXNB1 LENG8 RGL2 CDK5RAP3 PABPN1 EFCAB4A ACIN1 CCNL2 NISCH RBM5 PSMD1 ARGLU1 SGSM2 
TNK2 ANKRD10 CLK1 PILRB ARHGEF1 NBEAL2 HDAC7 GIGYF1 MBD6 KAT2A SLC25A29 NXF1 MAPK8IP3 KIAA0913 WASH7P LOC339047 SH2B1 TNFRSF14 
PLEKHH3 GOLGA8A PHF1 NPIPL3 RBM6 CAMTA2 AKAP8L PLEKHG3 HERC2P2 TLE2 NPIP ECHDC2 FLJ45340 LUC7L HOOK2 TUBGCP6 DTX3 OBSCN MYO15B 
CSAD MAN2C1 ULK3 GABBR1 SFRS17A RGS12 BZRAP1 ZNF692 ZNF862 TTLL3 SHC2 CUL9 CDK10 TRIM41 TAF1C FAM193B CNTROB SFRS8 CNKSR1 
UBXN11 FAM113A URGCP ZNF76 LOC150776 CLK3 FAM160A2 C1orf63 DPH1 AHSA2 ABTB1 ABCA7 GOLGA8B SFRS16 LOC100288778 RAPGEF3 DFNB31 
ENGASE KIAA0495 D2HGDH ATG16L2 PABPC1L FAM156A NEURL4 LPIN3 RGL3 JMJD7 CPT1B PRPF40B MZF1 ZNF276 NSUN5P2 POLM PNPLA7 ZNF335 
GOLGA2B CHKB C1orf113 FCHSD1 CCDC130 C6orf70 LOC338799 CROCCL1 AGXT2L2 ZNF513 PASK DCUN1D2 ARHGAP33 C17orf56 PLA2G6 ELMOD3 ME3 
IDUA WASH3P DOM3Z WASH2P APBB3 RABL2A CRIPAK FAM118A PLIN5 GTF2IRD2P1 LOC100132287 ZBTB48 RGS11 LMBR1L ACAD11 PPT2 LOC91316 
OSBPL7 X PDXDC2 VAMP1 ZNF577 NOXA1 ADC ZNF767 ACCS SEMA6C MSH5 SEC16B VILL TRPV1 SCAND2 ZFYVE28 AGAP4 SPTBN5 SETD4 C17orf65 
EXD3 NCRNA00174 RNF207 PI4KAP1 POLR2J4 WASH5P NEIL1 PLEKHM1P LOC349114 NRF1 STAG3L3 DNAH1 DNHD1 MSTO2P FLJ45445 SDHAP2 SDHAP1 
L3MBTL SEPT7P2 SEC31B PCSK4 PAQR6 C11orf61 NSUN5P1 WDR27 HSF4 MTMR9L CLDN15 ADHFE1 AGAP6 ADAMTS13 LOC100133331 CES8 CDK3 EGFL8 
EPOR SDHAP3 MST1 PRICKLE4 LOC115110 FRS3 LRP5L TMEM143 AMT CCDC84 DOC2A TNFRSF25 SCNN1D ZNF789 FLJ43663 MST1P2 C11orf35 
C1orf104 PRRT1 MAMDC4 PPIEL SSPO LOC400931 LCAT COLQ CROCCL2 STX1B LOC100133161 NCRNA00105 C3orf47 FLJ45244 CELF6 LOC100131434 
PIP5KL1 AGER PGAM4 LOC100128288 PMS2L3 C14orf181 LY6G5B NFKBID AGAP8 LOC100272228 CYP2E1 LOC100271722 C6orf26 CG030 ACCN3 
FAM13AOS DCST2 FLJ10661 CATSPER2 GOLGA6L5 ZGLP1 TSSK3 WFIKKN1 PRDXDD1P LOC100270804 CACNA1F MST1P9 DFNB59 STRC GIPR LOC149134 
LOC100130015 LOC619207 AMH C1orf228 NCRNA00115 HCG27 NCRNA00107 C9orf163 TAS2R20 ACRC SLC25A34 TUBB8 C7orf53 C9orf96 CYP2D7P1 
CLCNKA C6orf164 PRSS50 LOC648740 SPDYA NTN5 C19orf71 CCDC154 LOC390595 C6orf163 SLC7A9 LEAP2 FAM186A LOC100129726 KRTAP5 
C20orf165 LOC100128675 NCRNA00204B CALML6 C4orf44 LOC389791 CCDC116 C9orf173 LOC256880 PRSS45 TRIM74 C22orf43 NPPA RHOXF1 
NRADDP SLC39A5 FAM166A PDZD3 

BAT1 OGT RGL2 EFCAB4A MXD4 PCGF3 CC2D1A LRCH4 TLE2 LUC7L REEP3 TUBGCP6 GABBR1 BRF1 BZRAP1 CXXC1 TRIM41 FAM193B CROCC LOC150776 
ARVCF AHSA2 ANKZF1 DFNB31 ENGASE FAM156A NEURL4 RGL3 AKAP8 PRPF40B TMEM80 ING5 WASH3P APBB3 RABL2A VAMP1 SLC25A42 ZDHHC1 
CCDC78 ZNF193 C19orf44 AGAP6 IFI27L1 SDHAP3 MST1 MST1P2 YJEFN3 TMEM86B LOC729991 CROCCL2 DKFZP686I15217 PIGL NCRNA00105 TSSK6 
SLC25A34 LEAP2 

BRCA cyan / CONS tan


EEF1A1 TPT1 EEF2 RPL3 RPS4X RPS6 RPS18 RPLP1 RPS3 RPLP0 RPL4 RPS11 GNB2L1 RPS8 RPS24 RPL13A RPL13 EEF1G RPS2 RPS20 RPS19 RPL5 
RPL28 RPL32 RPL41 RPS12 RPL18 RPL7A RPL15 RPL11 RPL10 RPL37A RPS9 RPS14 RPL31 RPL37 RPS17 RPLP2 RPL12 RPS23 RPL27A RPL26 
RPS15A NACA RPS5 RPL29 SLC25A6 RPL10A RPL35A RPL36 RPL27 RPS25 RPL24 NPM1 RPL14 RPS27A RPL35 RPL34 UBA52 RPL6 NCRNA00188 RPS21 
RPSAP58 RPS13 RPS10 RPL22 RPL17 FAU GLTSCR2 EIF3L EEF1A1P9 RPL38 NAP1L1 RPS7 RPSA RPS29 RPS3A HNRNPA1 IMPDH2 PFDN5 EIF3D 
EEF1B2 RPL9 QARS GAS5 RPL18A SNRPD2 SNHG5 RPS27 EIF3F C20orf199 UBXN1 C6orf48 HNRNPA1L2 RPS28 COMMD6 KIAA0114 RPS26 SYF2 RPL39 
TAF1D THYN1 CCNB1IP1 C11orf1 NCRNA00219 DPH5 C2orf79 LYRM4 ALKBH2 THG1L NACAP1 ZMYND17 METTL12 RPL13AP20 RPL13AP3 RPL13AP6 
RPL21 

ACTB RPS4X FTH1 RPS6 RPS18 GNAS TMSB10 RPL13 KRT7 RPL28 RPL41 RPL7A RPS14 MYL6 RPL31 RPL12 UBB RPS15A RPS5 RPL29 RPL10A APOE 
PPIB RPL34 UBA52 RPL22 RPL38 HNRNPC CRIP2 RPS3A ATP5G2 RPL23A EIF3D MT2A TALDO1 PSMD4 QARS CREBBP RPL18A NDUFS5 GTF3A TRMT112 
PSMA4 SARS DUS1L ABHD14B ATPIF1 C12orf51 PSENEN COX7A2L POLR1D FKBP2 SF3B14 KIAA0114 TOMM22 WDR13 TMEM85 POLR2H MRPL18 
SLC25A11 SNRPF GTF3C4 RPL39 CWC15 CCDC57 INO80 PDCL3 LPAR2 C1orf31 TRIAP1 METTL1 TRMU C4orf52 RNMTL1 TNFSF12 POP5 LRRC23 
ZC3HC1 LOC100129550 HHLA3 LDLRAD2 THG1L N6AMT2 ZMYND17 MGC16275 
 

BRCA turqouise 1989 genes / CONS varios modulos : NO LO CONSIDERAMOS

52
BRCA siena3 / CONS darkred
CLTC DDX5 PRKAR1A CYB561 CCDC47 MED13 SMARCD2 DCAF7 BPTF TANC2 TMEM49 PSMC5 GNA13 TEX2 AKAP1 DDX42 DHX40 TOM1L1 DYNLL2 USP32 
AMZ2 HELZ LOC651250 APPBP2 MTMR4 SUPT4H1 PSMD12 FTSJ3 NOL11 RNF43 YPEL2 TRIM37 MRPS23 SKA2 RPS6KB1 C17orf58 COG1 MAP3K3 COX11 
C17orf80 TLK2 C17orf71 HEATR6 BCAS3 SMURF2 PTRH2 COIL CCDC45 INTS2 STRADA TACO1 METTL2A RAD51C MKS1 RNFT1 PPM1D STXBP4 AMZ2P1 
TUBD1 GDPD1 POLG2 USP6 

PTK2B SP140L LILRB2 HCST FGD2 PRF1 PIK3CG P2RX7 CXCR3 SIGLEC8 CD8B STAMBPL1 CCRL2 KLRB1 CD38 PLA2G2D FCN1 CD1C FCGR1C SAMD3 
CD300C CASS4 FCRL3 GP1BA CR2 GPR82 HTRA4 LOC100188949 CCDC141 LOC257358 HEMGN 
 

BRCA greenyellow / CONS cyan


TAGLN2 ARF1 LASS2 PBX1 NUCKS1 COPA TPM3 CCT3 CD46 HNRNPU SSR2 ENAH H3F3A TOMM20 BAT2L2 F11R SRP9 PARP1 C1orf43 EPRS ENSA APH1A 
IRF2BP2 PSMB4 PRDX6 KDM5B IARS2 TPR UBAP2L ZC3H11A ADIPOR1 NCSTN EFNA1 PSMD4 SLC39A1 WDR26 MIA3 TMCO1 ALDH9A1 UFC1 CDC42SE1 
C1orf9 DAP3 RAB25 C1orf198 NDUFS2 POGZ EDEM3 SMG7 PVRL4 PPP2R5A UAP1 SDHC CDC42BPA SF3B4 INTS3 RAG1AP1 FAM20B IPO9 UBQLN4 
PEX19 ACBD3 LGALS8 DCAF8 POGK YY1AP1 MGST3 ATF6 ADSS SCAMP3 CACYBP RPRD2 AHCTF1 GBA FH RBM8A PI4KB PPP1R15B ZBTB41 IRF6 
TOR1AIP1 HAX1 PRCC HEATR1 B4GALT3 GOLPH3L PYGO2 OTUD7B ARID4B CAMSAP1L1 UBE2Q1 PPPDE1 BCL9 PIP5K1A C1orf77 FBXO28 NUP133 RUSC1 
RAB3GAP2 TIMM17A ARHGEF11 SNX27 XPR1 GGPS1 ARL8A NEK7 STX6 MTR GON4L ZNF687 GNPAT PINK1 FAM36A TOR3A TSNAX COG2 SNRPE FLAD1 
KLHL12 TMEM183A ARNT C1orf85 PRUNE CABC1 GATAD2B CDC73 TROVE2 EGLN1 TARBP1 LGTN MRPL9 PRPF3 C1orf27 CHML KIFAP3 METTL13 ABL2 
VPS72 FAM189B GPR89A TIPRL AIDA SETDB1 DARS2 RFWD2 CRTC2 VPS45 ZNF281 SH3BP5L PEX11B C1orf107 INTS7 ISG20L2 SLC25A44 BPNT1 
DSTYK GPATCH4 SMYD2 TARS2 CNST RAB4A B3GALNT2 ZNF672 RBM34 C1orf58 CLK2 RBBP5 JMJD4 SNAP47 PIGC TSEN15 MSTO1 PIGM ANGEL2 
C1orf55 RNF2 DEDD EFNA4 BLZF1 TAF5L RPS6KC1 C1orf25 RIT1 USP21 TDRKH ARV1 RRP15 PRKAB2 UCHL5 SNAPIN SCYL3 NIT1 SCNM1 URB2 NSL1 
ABCB10 POLR3C C1orf96 TBCE RNF115 EXOC8 YOD1 TFB2M ACBD6 TOMM40L RABIF LYPLAL1 DDX59 C1orf31 TTC13 THEM4 VAMP4 SDCCAG8 TLR5 
MRPS14 KLHL20 TADA1 LYSMD1 FLVCR1 GORAB C1orf131 NME7 LIN9 TATDN3 C1orf156 DUSP12 C1orf124 DNAH14 PGBD2 GABPB2 GLRX2 C1orf26 
PIPSL SPHAR ZNF669 ZNF670 ZNF124 TAF1A TMEM81 FAM71D 

LASS2 NUCKS1 COPA TPM3 EPRS ADIPOR1 NCSTN WDR26 TMCO1 POGZ SMG7 DCAF6 INTS3 FAM20B ACBD3 DCAF8 POGK YY1AP1 ATF6 ADSS GBA FH 
PPP1R15B HEATR1 GOLPH3L PIP5K1A RAB3GAP2 SNX27 NEK7 STX6 ZNF687 PRUNE CDC73 TROVE2 TARBP1 KIFAP3 DARS2 VPS45 SRGAP2 C1orf107 
RAB7L1 DSTYK CNST C1orf58 RBBP5 PIGC PIGM RC3H1 RPS6KC1 C1orf25 RIT1 TDRKH ARV1 SCYL3 ABCB10 C1orf96 EXOC8 TFB2M RABIF ZNF496 
TADA1 FLVCR1 GORAB TATDN3 DNAH14 
 

BRCA blue 802 genes / CONS greenyellow varios modulos : NO LO CONSIDERAMOS

BRCA yellow 520 genes / CONS greenyellow varios modulos : NO LO CONSIDERAMOS

BRCA green / CONS brown


SLC39A6 ESR1 CA12 TMBIM6 GATA3 TBC1D9 BHLHE40 SLC38A1 BTF3 ERBB3 CELSR1 PRLR ERGIC1 FOXA1 CTNNA1 MCCC2 THSD4 REEP5 PTPLAD1 
HSPA9 MYO6 SEMA3C SKP1 CSNK1A1 AFF3 MED13L ARF3 MATR3 AFF4 DAZAP2 SEL1L ACADSB GLUD1 UGDH BCL2 CCNG2 LARP1 APBB2 PJA2 COPB1 
RBM47 PRDX3 RAB5B MKL2 KIAA0319L LSR TP53INP1 ELP2 ATP8B1 MAP3K1 ARHGAP32 ABCD3 NDFIP1 CASC4 TLE3 TMED7 HSPA4 TSPYL1 HSD17B4 
FBXL5 SFRS2IP TNPO1 PPP2CA SP1 C18orf1 ARL1 C4orf34 ERBB2IP ANKHD1 MYST4 CCPG1 OCIAD1 RAB14 SPG11 AFF1 NEDD4L SPOPL ERBB4 
RALGPS2 TWF1 KDM3B DCTN4 CHST15 VEZF1 KIAA1598 KIAA0232 PRRC1 SMARCC2 TTC37 RAD50 FYCO1 LARS PGRMC2 TMEM106B C9orf5 SCAMP1 
CCNG1 UBE2K PREPL CGGBP1 TMEM167A SMAD5 KIAA1191 TMEM87B GPR160 GPBP1 SCOC RNF103 PPM1A USP47 AFTPH FAM134B RNF141 FAR1 LARP4 
CTR9 IBTK LONRF2 CREBL2 GLCE C5orf15 CPEB4 RTF1 TMEM33 PAIP2 NSA2 SLC30A9 C12orf23 FAF2 GMFB RBM12 CPEB2 RNF130 DACH1 CUL3 
SHOC2 ANKHD1 SIDT1 CHD1 C14orf43 C5orf30 PPP6C HMGCR PLA2G12A KIAA1310 ZFYVE16 BDP1 CDS1 IK C5orf24 ZMAT2 SFRS12 CNOT6 VPS39 
DDX46 CRNKL1 RNF14 ARID2 UGCG SYNJ2BP ACVR1B DMXL1 SLC30A5 FNIP1 BMPR1B AP3B1 MAPK9 MFAP3 BBS1 MRPS27 SNAP23 C6orf97 RASA1 
SEC24A SYTL4 C5orf43 UBR1 MON2 EPM2AIP1 CNOT8 TMEM57 SNX2 APC R3HDM2 COL4A3BP RARS MAT2B DCP2 ATG2B DCAF16 FBXW11 TAPT1 
PPIP5K2 FEM1C BRD8 TMTC3 FAM13B DNAJC14 YTHDC2 SAP30L ARFIP1 UBTD2 CCDC125 TAF9 CDK17 STAM2 TAF9B GALC GPR81 FCHO2 YIPF5 RBM27 
PER2 EPB41L5 UBE2B THRB PAPD4 JKAMP CSNK1G3 ATG9A CNNM3 AGGF1 C6orf120 AP1AR NUDT12 SUOX SLU7 OCLN SLC22A5 ZNF107 DNAJC16 POLI 
APH1B MAPKSP1 KIAA1279 RBM18 RALGAPA1 PPIP5K1 C14orf135 ARSG GUF1 RABL3 FAM179B FBXO38 CAMLG SAR1B MIER3 ZNF84 MFAP1 FBXL17 
MTX3 MTMR10 ZFP62 MOCS2 WDR35 RAPGEF6 ATXN2 KIAA1324L ZNF516 ALDH6A1 RGMB TMEM192 JMY ZNF280D GFM2 WDR19 WDR36 CBR4 IPO11 
MARVELD2 ARHGAP27 LYSMD3 TBCK RBM22 LOC144438 SSBP2 GOLGA1 CCDC52 SLC16A6 FKTN C5orf41 CEP290 KIF3A ZXDB CDC23 GEMIN5 HARS2 
GSTCD NAPG SLC25A46 TTC30A GALNT4 ARID4A PAFAH2 ASB8 C9orf64 ZDHHC17 POLK GLUD2 PDIK1L CEP120 ZNF680 FAM172A RAD17 FAM174A 
KIAA0831 DZIP3 MTMR15 ZNF721 UEVLD KBTBD4 RPAP3 MSH3 PGGT1B KLHL28 AKAP10 SLC24A1 RALGPS1 FAM114A2 COMMD10 PHAX SFRS12IP1 CCNH 
ZC3H6 TMEM128 CDK7 PCBD2 LMLN C5orf44 RIOK2 TRIM23 USP30 SEPSECS IFT81 RBM43 TBC1D12 ZNF236 GNPDA2 ALG10B C11orf75 HAUS3 
ANKRA2 RIC8B ZNF138 PCYOX1L TTC30B GRPEL2 HCFC2 S1PR2 C5orf53 DTWD2 MRPS36 ZCCHC10 FBXO8 LYRM7 CHIC1 RUFY2 SMOX SNX24 ZFP14 
ETAA1 CETN3 C16orf52 PURA PWWP2A UTP15 ZSWIM5 THAP6 TMEM161B KIAA1712 SRFBP1 FAM175A MBLAC2 TIGD6 CXorf23 POC5 ANKS1B CPEB3 
ANKRD32 CGRRF1 ADAL TRAM1L1 ALS2CR8 CCDC111 SLC38A9 RG9MTD2 LOC100170939 C5orf54 MED7 PACRGL GBGT1 C2orf15 ZCCHC4 EFCAB7 ARSK 
PTCD2 ARHGAP22 GIN1 MICALCL CIB2 ZNF396 ZNF718 C5orf36 TBC1D19 ZNF484 ERCC8 IQCH ZNF141 LOC100132707 FLJ44606 KLHDC1 ZNF782 
ATP6AP1L FAM151B CDKL3 ZNF483 ZCWPW2 TIGD4 ANKRD31 

CANX RPS19 LOC647979 AP2B1 PBX1 RRBP1 KIAA0100 KTN1 PRKAR1A SEMA3C GOLGB1 AFF3 LRBA MED13L ARF3 CPNE3 SEL1L NBR1 SNRPB APBB2 
AKAP9 ARPC1B SMARCC1 GALNT10 LRRFIP1 MGEA5 RAB5B MKL2 PCYOX1 SETD7 ARHGAP32 CASC4 NPEPPS MLL3 MED13 DCAF10 CDC42BPB PDS5A 
INADL NF1 BPTF SERINC3 IRAK1 PLEKHF2 KIAA1244 SFRS2IP HTT KIAA0196 MYST4 AFF1 ARL8B UBE3A KIF3B VEZF1 RAB18 ZNF587 PRRC1 ELF1 
BRWD1 EDEM1 RAD50 FYCO1 REPS2 LARS TMEM106B SCAMP1 KIAA0430 UBFD1 SIN3A SETD2 PDPK1 PIK3C2A DIP2B GNG5 UBE2K SAPS3 CGGBP1 
GIGYF2 TMEM167A SMAD5 ZMYND8 UQCRH POR SCOC RNF103 WAPAL LANCL1 RNF141 THUMPD1 AR IBTK DENND4C KIF13A POFUT1 ARHGEF1 RTF1 
TMEM33 ANKRD52 IQSEC1 FAM102B TP53BP1 C12orf23 CLINT1 RRN3 MED15 EEF2K UTP14C BCOR XIAP PPP6C TBC1D5 ZFYVE16 EIF5AL1 HDGFRP2 
RRM2B CNOT6 VPS39 KIAA1737 DDX46 RELA SMARCB1 ARID2 RFC1 DMXL1 CLDN12 FNIP1 AP3B1 ZNF91 MAPK9 IMPACT DHX29 C14orf167 PAN3 
SEC24A KIAA2013 CNNM4 B4GALT2 TNRC6A STK40 PCF11 GPATCH8 MECP2 GOSR1 APPL2 EBNA1BP2 SNX2 COL4A3BP LIMD1 DHX8 SSBP1 QRICH1 
DPY19L4 FBXW11 PPIP5K2 FEM1C ZNF281 GAB1 TMTC3 FAM13B KIAA0564 YTHDC2 SALL2 SNX13 STAM2 IDH3G TMEM135 YIPF5 RBM27 UBN2 AGGF1 
GGNBP2 GPR98 AP1AR ATAD1 ITPA NUDT12 MAP9 SLU7 OCLN EXD2 ZFC3H1 MPHOSPH8 BLOC1S1 MYEF2 TMEM209 PPIP5K1 NECAP1 RABL3 RNF2 NFYC 
ATP7A NUDT5 FBXO38 RCBTB1 ATAD3A TXNDC16 TSC1 SHB FXC1 RFX7 GLCCI1 ZNF621 GLRX3 MID2 ATXN2 NBEA FAM199X DPY19L3 KIAA1143 RGMB 
TMEM192 GFM2 WDR19 WDR36 PPP4R2 MARVELD2 PEX1 TRUB1 LOC144438 FAM127C PDE12 KIF3A ZXDB DUSP22 SLC10A3 ZDHHC8 PCLO FHL3 PSMG1 
ZDHHC17 CEP120 ZNF680 CC2D1B CRBN ZNF721 C14orf129 APAF1 ACVR2B KIFC3 C11orf46 ABT1 RNASEL RSBN1L ZNF197 LRRC37B2 ZNF844 ZBTB6 
TRIM23 USP30 SEPSECS POC1B ICAM2 RBM43 WDR55 KIAA0586 ACTR8 ZNF236 GNPDA2 C14orf101 LPCAT4 RIC8B ZNF791 METT5D1 PDCL TTC30B 
DTWD2 RAB33B PEX12 SCRN3 RPP14 C12orf29 KIAA1704 PURA KIAA1530 TMEM161B ZKSCAN5 TMEM170B FAM175A RELT C5 DNAJC24 MBLAC2 ZNF347 
ANKS1B LOC653501 ZNF836 CPEB3 ANKRD32 FMN1 CCDC111 ZNF71 RTN4R KIF27 HELQ KIAA1328 ZNF619 TEX9 SLC35E4 KRBA2 LCORL ZXDA 
C20orf94 ZNF625 ZNF483 BTBD8 

53
Módulos de co-expresión específicos de red de BRCA

Módulo lightgreen
KRT15 EVPL CEBPA GLTP KRT10 IL1RN WNT4 ID1 HOPX LTB4R KLC3 PLCH2 PLA2G4F EPHB6 MMP28 CST6 TCN1 
ANKRD35 SILV LTB4R2 ASPRV1 D4S234E S1PR5 PHYHIP LY6G6C IL22RA1 DUOXA1 GSDMA NKPD1 CDHR1 FLG 
CYP4F12 FOXN1 NIPAL4 POU3F1 TP53AIP1 SLC46A2 ART5 KY LGALS7 NPW DSC1 SPINK5 LY6D CYP3A5 KRT1 
SERPINA12 KCNK7 PLA2G4D SBSN ZCCHC12 ELMOD1 LASS3 LGALS7B DPP6 GJB4 MLANA SMAD5OS KRT31 PRSS3 
RDH12 WFIKKN2 DUOXA2 LGI3 TSKS CLCA4 GAPDHS IVL ALOX12B FAM182A PNPLA1 HS3ST6 CAPNS2 ACER1 
SLURP1 SOX21 KRT2 DCT FAM83C ADH4 ARG1 BEST2 CCL27 CHP2 CYP2W1 FGF22 FLG2 IL1F7 KRT78 KRTDAP 
LCE1C LOR LRIT2 PADI6 PLA2G2F PSAPL1 SDR9C7 SLC34A1 TRPM1 TYR WFDC12 WFDC5 

Módulo lightcyan
MB PEG3 FLNC ALPK3 TTN RYR1 STAC3 SPTB ENO3 VSIG10L DDIT4L MYOM1 TNNI1 PCDH20 ANKRD23 CASQ2 
CHRNA1 MUSTN1 KBTBD10 XIRP1 CA3 LDB3 DES ACTA1 HRC MYH3 MYOM3 UCP3 MYOZ1 NEB CASQ1 SYPL2 SRL 
LRRC2 MYO18B PYGM TNNI2 CAMK2A MURC ATP2A1 KLHL30 DUSP27 TNNC1 LRRC39 TNNT3 TCAP ACTN2 FITM1 
AMPD1 SMTNL1 MYLK2 SGCA TNNC2 DUSP26 ACTC1 LMOD3 ACOXL ADARB2 MYADML2 SLN MYL3 TRIM63 ANKRD2 
MYBPH CKM MYBPC2 MYOT C6orf142 UNC45B MYOZ2 MYLPF APOBEC2 TMOD4 TRDN MYH13 ACTN3 MYH1 TRIM54 
DYSFIP1 NRAP MYH8 MYH4 MYPN KCNA7 MYH2 LMOD2 ABRA A2BP1 ASB15 ASB5 CACNA1S CAV3 CHRNG COX6A2 
ENAM FBXO40 HFE2 HHATL LOC729467 MYF6 MYH6 MYH7 MYL2 MYOG NT5C1A SMPX VGLL2 XIRP2 YIPF7 

Módulo orange
APOD ACSL3 ACSL1 FKBP5 SCP2 GUSB NAMPT WLS OLFML3 PXMP4 IDI1 SC5DL AACS MPV17L SRD5A1 GRAMD2 
ELOVL7 TRIM68 CLDN8 GSTT2 LDHD HPGD BRI3BP ABHD6 AADAT GSTM5 ATP13A4 ACSM3 ACSM1 KLHL31 MYOM2 
ADH1C EMILIN3 SLC25A18 B3GAT1 EYS NCRNA00160 LOC255167 C6orf223 AKR1B15 C5orf27 KPNA7 ACSBG1 
FCN2 TMPRSS9 FTCD CHRNB4 PGC SLC6A3 GSTM2P1 PLD5 NANOG CTNNA2 SULT1B1 AKR1D1 HSD3B2 DDC PADI4 
CYP17A1 UGT2B28 WDR64 DPCR1 CLEC4C VSX2 CHRNA2 CFHR5 HIST3H3 HSD3B1 ISX LOC91948 LST PNLIPRP3 
SLC17A3 TGM7

Módulo darkred
BCAT1 CCDC3 INPP5B PARP11 PTBP2 CDKAL1 POU2F3 GATS LMO3 LRMP TP73 X ZDHHC15 NCAM1 SV2B ISLR2 
DLG2 CXorf57 FAM124A PPM1E RELN FAM66C KCNA6 PRDM16 FAM182B C11orf93 KCNQ3 TMEM35 FOXP2 SPSB4 
SCN3A HAP1 C12orf53 GRM8 KCNA1 NTF3 FMN2 PSD2 PCDHGC4 GLT1D1 LOC283731 CABP7 SH3GL2 IGFBPL1 
CACNA1B TERT C5orf58 IL1RAPL2 CCDC62 ST18 INA KCNH4 MEGF11 RD3 CPLX3 GBX2 GFI1B LOC148824 
NEUROG2 COL19A1 DPYSL5 SH3GL3 SH2D7 POU4F1 SLC7A14 ELAVL3 GNAT1 OTP SLC35F4 ATCAY C12orf77 
CDKL4 CLC FGF8 GABRA4 GCM2 HMX3 HORMAD2 LHFPL3 LOC283761 PIRT POU3F3 RTP1 SIX6 SLC17A8 SOHLH1 
SPIC

Módulo midnightblue
SEZ6L2 SYT7 TMEM181 ENO2 STMN3 DCLK1 OLFM1 CACNA2D2 MANEAL ASTN2 NFASC SCAMP5 CKMT1A SLCO3A1 
SARM1 MAPK8IP1 CELSR3 MAPRE3 C12orf34 ABCC8 PTPRN2 SMPD3 NAPB APLP1 DNAJC6 CRMP1 MPP3 LOC283174 
STX1A TMEM198 FAM155B AP3B2 GOLGA7B SPTBN4 GNAO1 GRM4 ASPHD1 RELL2 DISP2 BSN DPYSL4 SYP PSD 
GNG4 KCNH2 NMNAT2 IGSF9B TMEM145 CNR1 KCNK3 ATP1A3 FNDC5 CAMK2N2 LRRC24 CECR6 FAM57B MGAT5B 
SYN1 CHRNB2 SCN3B FBLL1 LRRC16B PTCHD2 UNC13A MAST1 RFPL1S IQSEC3 HCN2 PCSK1 SNAP25 PTPRN 
OTUD7A BRSK2 DLEC1 VGF DLGAP3 RUNDC3A RAB39 SLC8A2 DRD2 KIF5A RIMS2 MARCH4 LRTM2 KCNC1 CHRNA3 
PHF21B HMP19 ADRA1D KIAA1409 RTBDN OGDHL RAB3C SYT5 TMEM151A P2RX6 C1orf111 SCG3 UNC80 SCRT1 
GDAP1L1 LHFPL4 DDX25 PRMT8 NTS SEZ6 LOC283856 KCNH6 HRH3 CPLX2 FAM123C GABRG2 SVOP SYT4 XKR7

Módulo salmon
IFT172 C1orf88 CCNO RSPH1 HES6 C2orf77 LRRC23 RFX2 LRRC46 CCDC146 CCDC19 HYDIN DYX1C1 C10orf79 
PPIL6 C5orf49 TSGA10 FAM154B FHAD1 C6orf165 ARMC3 C1orf192 FOXJ1 CCDC114 C11orf70 TTC25 RRAD 
DNAH6 AK7 CCDC39 DNAH10 LRRIQ1 CCDC65 TEKT2 DNAI1 C11orf66 SPAG8 DYDC2 TMEM232 LOC100188947 
RSPH4A UCKL1AS IQUB ROPN1L LRRC43 C4orf47 C10orf95 CAPSL EFCAB1 EFHB FAM183A PCDP1 DNAH9 
FAM166B ARMC4 CCDC17 KCNRG WDR63 ZNF474 PACRG FAM81B TEKT4 ENKUR RSPH9 GAS2L2 SNTN FAM179A 
DNAH12 CCDC42B C12orf63 DNAH3 CNGA4 VWA3B VWA3A CDC20B TTLL10 C2orf62 ALS2CR12 FAM92B C1orf194 
CXorf22 C21orf128 LDLRAD1 C11orf16 C11orf88 CXorf30 TCTE1 C2orf39 WDR16 C15orf26 RTDR1 CCDC135 
LRRC67 MEIG1 IL5RA YSK4 FOXN4 C22orf15 MORN5 LRRC18 TMEM190 GRIN3B C7orf57 WDR49 C9orf171 WDR38 
ZBBX ZACN ITIH1 CXorf59 CDHR4 DYDC1 TUBA4B ADH6 TTC29 C1orf92 DCDC2B C6orf103 OSTBETA AKAP14 
APOBEC4 BTG4 C1orf129 C1orf158 C1orf189 C20orf85 C4orf22 C6orf118 CXorf41 DNAI2 IFLTD1 KNCN 
LOC400891 SERPINI2 SLC32A1 SPATS1 TEKT1 TMEM146 TMEM212

54
C - Enriquecimiento funcional de módulos consenso
seleccionados
Se ha realizado recurriendo a la herramienta Enrichr [51,52] para los módulos consenso
presentados en el Apéndice B. Se utiliza en cada caso la lista de genes del módulo consenso
BRCA / PRAD.

BRCA red / CONS green

55
BRCA black / CONS magenta

BRCA magenta / CONS lightyellow

56
BRCA pink / CONS grey60

BRCA cyan / CONS tan

57
BRCA siena3 / CONS darkred

BRCA greenyellow / CONS cyan

58
BRCA green / CONS brown

59
D - Obtención de datos desde el portal de datos de TCGA

El portal de datos del Atlas del genoma del cáncer (TCGA) se encuentra en constante evolución.
El manual de usuario se encuentra en la siguiente URL:
https://docs.gdc.cancer.gov/Data_Portal/PDF/Data_Portal_UG.pdf

Para descargar datos de RNAseq de un tumor hay que navegar por el menú izquierdo,
seleccionar el tumor sobre el que filtrar los datos y el tipo de datos, en este caso RNAseq. Se
puede seleccionar formato TVS o JSON. Añadiremos estos ficheros al carrito (uno por muestra)
y desde el carrito podremos bajarlos.
El tipo de datos debe ser RNAseq2 level3, que significa que obtendremos ficheros de RNAseq
con valores de expresión normalizados mediante FPKM (Fragments per Kilobase Million).
También puede utilizarse un filtro de búsqueda avanzado (capítulo 8 del manual). El manual
explica también cómo obtener otros tipos de datos, metadatos y datos clínicos para estudios de
asociación.
Finalmente, para elaboración de procesos ETL automatizados es preferible recurrir a la API:
https://api.gdc.cancer.gov/

Puede encontrarse un ejemplo de uso de la API mediante la librería RTCGA de R, que simplifica
mucho su uso, en el repositorio GitHub de este Trabajo fin de Máster (apéndice E) o utilizarse
mediante llamadas a los diferentes servicios web desde otro lenguaje de programación.

60
E - Código R

https://github.com/qcsm/tfm

En constante evolución aplicando las tareas expuestas en el apartado 6 - Trabajo Futuro.

En el momento de la elaboración del presente Trabajo fin de Máster se encuentra próxima la


liberación del código necesario para el despliegue de un contenedor Docker autónomo que pueda
desplegarse y productivizarse en cualquier Cloud (usuarios, seguridad, multitenancy) así como el
código para mantener los datos sincronizados contra la API del portal de datos de TCGA.
En el repositorio actual de GitHub existe un ejemplo del código ETL utilizando el paquete
RTCGA de R para su ejecución manual.

61

Potrebbero piacerti anche