Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Universidad de Guadalajara
Centro Universitario de Ciencias Exactas e Ingenieras
Anlisis simultneo del metaboloma y reactoma de
Saccharomyces Cerevisiae a travs de redes complejas
dirigidas.
Tesis
Que pasa obtener el ttulo de Licenciado en Fsica
Presenta
Roberto Mota Navarro
Director: Dr. Jos Alejandro Morales Valencia
Guadalajara, Mxico.
2
Agradezco a
A mi madre y hermanos que me han apoyado en todo fuera y dentro del mbito
acadmico.
A mi asesor por su disposicin de guiarme durante el desarrollo de mi tesis y por
brindarme su amistad.
A mis maestros por todas las enseanzas que me dieron a lo largo de la carrera.
A mis amigos.
3
NDICE
1. MARCO TERICO 4
1.1. TEORA DE REDES 5
1.2. METABOLISMO 16
2. METODOLOGA 21
2.1. DESCARGA Y TRATAMIENTO DE LOS DATOS 21
2.2. CONSTRUCCIN DE LOS GRAFOS 21
2.3. CLCULO DE PARMETROS TOPOLGICOS 23
2.4. COMPARACIN DE LAS REDES ORIGINALES CON REDES SINTTICAS 24
2.5. PRUEBAS DE ROBUSTEZ 24
3. RESULTADOS 29
3.1. PARMETROS TOPOLGICOS 29
3.1.1. MEDIDAS ESTNDAR 29
3.1.2. COMPARACIN DE REDES ORIGINALES CON VERSIONES SINTTICAS 31
3.1.3. DISTRIBUCIONES DE GRADO 32
3.2. ESTRUCTURA GLOBAL 36
3.3. PRUEBAS DE ROBUSTEZ 40
3.3.1. INTERCONECTIVIDAD 41
3.3.2. INTEGRIDAD ESTRUCTURAL 43
3.4. DAO EN CASCADA 49
4. DISCUSIN 51
4.1. DISTRIBUCIONES DE GRADO 51
4.2. ESTRUCTURA GLOBAL 51
4.2.1. CAMINOS 51
4.2.2. HOMOFILIA 52
4.2.3. ROBUSTEZ 53
4.2.4. DAO EN CASCADA 55
5. CONCLUSIONES 57
6. BIBLIOGRAFA 58
4
Planteamiento
Los modelos de redes aplicadas al metabolismo han sido abordados en mltiples
ocasiones, tanto comparando diferentes organismos y por ende, diferentes
metabolismos como en distintas aproximaciones al modelado de las redes
metablicas. Sin embargo son muy pocos los estudios que se desvan de la trayectoria
clsica: Construccin de un grafo simple no direccionado, medicin, filtrado y ajuste
topolgico probabilstico bsico, y comparaciones simples en cuanto a vrtices y
conexiones. La razn de esto es obvia, cuantos ms elementos distintos se consideren
en la construccin del grafo, geomtricamente ms complicada ser la semntica de
anlisis y por ende, ms difcil su exploracin. En el presente trabajo, se aborda un
organismo muy conocido en el modelado de redes: Saccharomyces cerevisiae
(comnmente conocido como levadura), para construir dos grafos direccionados
simultneos del metaboloma y el reactoma. Tales caractersticas nos permitirn una
mejor aproximacin topolgica; y bajo la premisa de la interconexin que existe
gracias a que proceden del mismo set de datos, ser tambin posible analizar la
afectacin de una red sobre la otra, lo que se traduce biolgicamente en el estatus del
medio versus la capacidad intrnseca metablica del organismo.
Objetivos:
General
Construir grafos direccionados del metaboloma y reactoma de S. cerevisiae, para
realizar anlisis topolgico simultneo.
Particulares
- Construir los grafos del metaboloma y reactoma de manera automatizada a partir de
un set de datos correspondientes a las reacciones bioqumicas de la levadura.
- Ajustar y filtrar ambas redes de los nodos ms densamente conectados.
- Analizar y comparar la topologa de ambas redes.
- Observar el dao en cascada de una red sobre la otra.
- Comparar las propiedades topolgicas de las redes con modelos aleatorios para
determinar que tan plausible es su estructura actual como resultado del azar puro.
5
1. MARCO TERICO
1.1. Teora de redes
Una red en su forma ms simple es un conjunto de objetos que tienen conexiones
entre s. En el mundo abundan sistemas que toman la forma de redes, por ejemplo
Internet, World Wide Web, redes sociales, redes neurales, redes metablicas y muchas
otras. Hasta hace poco tiempo, el enfoque tpico en el estudio de redes era la
centralidad y conectividad de los nodos con el propsito de detectar los ms
importantes dentro de la red y como stos se comunican entre s.
Recientemente, se ha observado un movimiento substancial en el estudio de la redes
con el objetivo principal de alejarse del anlisis de redes pequeas y las propiedades
individuales de sus constituyentes para acercarse a la consideracin de propiedades
estadsticas a gran escala de las redes en su totalidad. Este nuevo enfoque ha sido
impulsado en buena parte por la disponibilidad de poder de cmputo y comunicacin
que permiten obtener y analizar datos en una escala mucho mayor que la previamente
posible. As como antes los estudios se realizaban sobre redes de decenas o en casos
extremos centenas de vrtices, hoy no es raro ver redes de millones o incluso billones
de elementos. Este cambio de escala obliga a un cambio correspondiente en el enfoque
de anlisis. Muchas de las preguntas que pudieran ser formuladas en los estudios de
redes pequeas son sencillamente intiles en redes mucho ms largas. Preguntas
como: qu vrtice en una red dada resulta tener el mayor impacto a la conectividad
cuando es removido? tienen poco significado en la mayora de las redes que tienen un
milln de elementos, pues ningn elemento aislado afectara visiblemente al ser
removido. Por otro lado, resulta razonable cuestionarse qu porcentaje de elementos
deben ser removidos para afectar substancialmente la conectividad de la red de
alguna forma dada y este tipo de interrogantes estadsticas son las que tienen
verdadero significado en una red gigante.
6
La teora de grafos resulta el marco natural para el tratamiento matemtico exacto de
las redes.
Definiciones de grafos
Grafo no dirigido
Un grafo no dirigido
( ) , G N L = consiste de dos conjuntos N y L , tal que N = Cy L
es un conjunto de pares no ordenados de elementos de N . Los elementos de
{ }
1 2
, ,...,
N
N n n n se denominan nodos o vrtices del grafo y los elementos de
{ }
1 2
, ,...,
k
L l l l son sus conexiones o arcos.
Grafo dirigido
Un grafo dirigido
( ) , D V A =
consiste de vos conjuntos V y A tal que V = C y Aes
un conjunto de pares ordenados de V . Los elementos de { }
1 2
, ,...,
n
V v v v se
denominan nodos o vrtices del grafo y los elementos de { }
1 2
, ,...,
k
A a a a son sus
arcos dirigidos.
La manera usual de visualizar un grafo es dibujando un punto o crculo por cada nodo
y uniendo dos puntos por una lnea si los dos nodos correspondientes estn
conectados por un arco. Ejemplos de un grafo no dirigido y uno dirigido se muestran
en la Figura 1.
Figura 1. Representacin visual de un grafo
Matriz de incidencia
Existen diferentes maneras de representar matemticamente a un grafo, una de las
mejores maneras por la simplicidad con que permite efectuar clculos sobre la red es
utilizando matrices. Considrese una red dirigida con n vrtices y etiquetemos los
7
vrtices con nmeros enteros 1,..., n , se puede representar convenientemente a esta
red por medio de una matriz a la que se denomina matriz de adyacencia. La matriz de
incidencia de un grafo dirigido est formada con los elementos
1
( ) 1 si existe el arco ,
0 de otra manera
ij
i j
A
Caminos
Un camino en una red es cualquier secuencia de vrtices tal que cada par consecutivo
de vrtices de la secuencia est conectado por un arco
2
. En trminos coloquiales, un
camino es una ruta a travs de la red que corre de vrtice en vrtice a lo largo de los
arcos de la red. En una red dirigida, cada arco debe ser recorrido en la direccin
correcta, mientras que los arcos de las redes no dirigidas se pueden recorrer en
cualquier direccin. Al camino ms corto que existe entre dos nodos determinados se
le denomina camino geodsico.
Figura 2. Un camino de longitud tres en una red direccionada
Grado
El grado de un vrtice en un grafo es el nmero de arcos conectados a l. Para un grafo
no dirigido de n vrtices el grado puede ser escrito en trminos de la matriz de
incidencia como
1
.
n
i ij
j
k A
=
=
8
En una red dirigida, sin embargo cada vrtice tiene dos grados. El grado de entrada es
el nmero de arcos que llegan a un vrtice y el grado de salida el nmero de arcos que
salen del mismo. Tomando en cuenta que la matriz de incidencia de una red
direccionada tiene el elemento 1
ij
A = si existe un arco que va de i haca j , los grados
de salida y entrada pueden ser escritos como
1
,
n
in
j ij
i
k A
=
=
1
.
n
out
i ij
j
k A
=
=
Componentes
Es posible que no exista camino alguno entre dos nodos dados dentro de una red. La
red que se muestra en la Figura 3, por ejemplo, est dividida en dos subgrupos de
vrtices sin conexiones entre s, de manera que no existe camino del vrtice A al
vrtice B.
Los subgrupos de una red como la de la Figura 3 son llamados componentes.
Tcnicamente un componente es un subconjunto de vrtices de una red en el que
existe al menos un camino entre cada par de miembros de ese subconjunto de manera
que no puede ser agregado otro vrtice preservando esta propiedad.
Figura 3. Una red con dos componentes
Cuando se trata de redes direccionadas la definicin de componente se vuelve un poco
ms complicada. Considrese la red dirigida de la Figura 4, si se ignora la naturaleza
dirigida de los arcos, considerndolos como no dirigidos, entonces la red tiene dos
componentes de cuatro vrtices cada uno. A estos dos componentes se les suele llamar
componentes dbilmente conectados. Dos vrtices estn en el mismo componente
dbilmente conectado si uno o ms caminos los unen a travs de la red, sin tomar en
cuenta la direccin de stos.
9
Figura 4. Componentes en una red dirigida
En muchas situaciones prcticas sin embargo, esto no es de importancia. Por ejemplo,
los arcos de la World Wide Web son hipervnculos dirigidos que permiten a los
usuarios navegar de una pgina a otra, pero slo en una direccin. Esto significa que
es posible alcanzar una pgina web desde otra solamente si existe un camino dirigido
entre ellas, es decir, un camino que sigue arcos slo en direccin de avance. Entonces
es posible que exista un camino dirigido del vrtice A al vrtice B pero no un camino
de regreso desde B hacia A. Surge entonces la pregunta de si se debe considerar a A
y B conectados y si pertenecen al mismo componente. Se pueden dar varias
respuestas a estas dos interrogantes, la ms utilizada en la comunidad cientfica es
definir a A y B como conectados si y slo si existen caminos dirigidos en ambos
sentidos entre ellos. Usando esta definicin de conexin se puede definir componentes
para una red dirigida a los que se llama componentes fuertemente conectados. Los
componentes fuertemente conectados de la Figura 4 se muestran encerrados en las
regiones azules.
Coeficiente de clustering
En redes no dirigidas, el coeficiente de clustering
n
C de un nodo se define como:
( )
2
,
1
n
n
n n
e
C
k k
=
donde
n
k es el nmero de vecinos de n y
n
e es el nmero de pares de nodos
conectados entre todos los vecinos de n 3. En redes dirigidas la definicin es
ligeramente diferente:
10
( )
.
1
n
n
n n
e
C
k k
=
En ambos casos, el coeficiente de clustering es la razn / N M , donde N es el nmero
de arcos entre los vecinos de n y M es el nmero mximo de arcos que pueden existir
entre los vecinos de n . El coeficiente de clustering de un nodo siempre obedece
| | 0,1
n
C e .
El coeficiente de clustering de un nodo se puede ver tambin como el nmero de
tringulos que pasan por ese nodo, relativo al nmero mximo de 3-ciclos que podran
pasar por ese nodo.
Por ejemplo en la Figura 5 solamente un tringulo pasa a travs del nodo b
(el
tringulo bcd ). El nmero mximo de tringulos que podran pasar por b es tres (en
este caso los pares
( ) , a c y
( ) , a d estaran conectados tambin). Esto arroja un
coeficiente de 1/ 3
b
C = .
Figura 5 Ejemplo de coeficiente de clustering para una red de 4 nodos
Estructura a gran escala de las redes
Distribuciones de grado
Una de las propiedades ms fundamentales de una red es la distribucin de
frecuencias de los grados de sus vrtices. Se define
k
p como la fraccin de vrtices en
una red que tienen grado k . Por ejemplo considrese la red de la Figura 6
11
Figura 6
sta tiene 10 n = vrtices, de los cuales 1 tiene grado 0, 2 tienen grado 1, 4 tienen
grado 2, 2 tienen grado 3, y 1 tiene grado 4. Entonces los valores de
k
p para 0,..., 4 k =
son
0 1 2 3 4
1 2 4 2 1
, , , , .
10 10 10 10 10
p p p p p = = = = =
Y 0
k
p = para todo 4 k > . Las cantidades
k
p representan la distribucin de grado de la
red.
El valor
k
p tambin puede ser pensado como una probabilidad: es la probabilidad de
que un vrtice seleccionado al azar posea grado k .
Resulta muy til graficar la distribucin de grados de una red grande como funcin de
k para apreciar tendencias. La mayora de las redes que modelan sistemas reales
tienen distribuciones de grado con una cola pesada de nodos altamente conectados a
los que se llama hubs y esto se puede observar fcilmente en una grfica.
Se pueden calcular las distribuciones de grado para redes dirigidas tambin. Como se
dijo antes, stas redes tienen dos grados diferentes para cada nodo, el grado de
entrada y de salida. Entonces hay dos diferentes distribuciones de grado
correspondientes en una red dirigida, las distribuciones de entrada y de salida. Se
puede definir aparte a
jk
p como la fraccin de vrtices que poseen simultneamente
un grado de entrada j y de salida k . Esta distribucin conjunta permite observar
correlaciones entre los grados de los vrtices.
12
Redes libres de escala
Existe un tipo de redes cuyos hubs tienen un nmero enorme de conexiones en
comparacin con el resto de los nodos. En estas redes, las distribuciones de
conexiones siguen una ley de potencias de forma que la mayora de los nodos tienen
pocas conexiones y unos cuantos poseen un nmero enorme de stas. En este sentido,
los sistemas caracterizados por estas redes no poseen escala pues no se puede
caracterizar adecuadamente el nmero de arcos esperado en un vrtice seleccionado
al azar. La caracterstica definitoria de estas redes es que si se grafica su distribucin
de grado en una escala doble logartmica, los resultados siguen una lnea recta.
Deteccin y visualizacin de leyes de potencias
Detectar y medir una ley de potencias es algo complicado. Aunque en teora uno slo
tiene que construir un histograma de los grados, en la prctica es raro tener
suficientes mediciones como para obtener buenas estadsticas en la cola de la
distribucin, y los histogramas directos resultan entonces muy ruidosos. Existen dos
maneras aceptadas de afrontar este problema. Una es construir un histograma en el
que los tamaos de las categoras crezcan exponencialmente con el grado. ste
mtodo de construir un histograma es a menudo utilizado cuando el histograma es
graficado en escala logartimica, de manera que los anchos de las categoras aparecen
uniformes. Como las categoras son de mayor longitud conforme se avanza en la cola,
los problemas de ruido estadstico son reducidos aunque siguen presentes siempre
que
k
p disminuya ms rpido que
1
k
.
k k
k k
P p
=
=
Que es la probabilidad de que el grado de un nodo sea mayor o igual a k . Cuando se
construye un histograma convencional, las diferencias entre categoras se pierden.
Una distribucin acumulada no sufre de este problema y adems reduce el ruido de la
cola. Entre las desventajas de este tipo de esta grfica est el que no ofrece una
13
visualizacin directa de la distribucin de grado y que los puntos adyacentes en la
grfica no son estadsticamente independientes.
Supngase que la distribucin de grado de una red obedece a una ley de potencias.
Para ser precisos, supngase
k
p Ck
o
= para
min
k k > dada una
min
k . Entonces para
min
k k > se tiene que
( 1)
.
1
k
k
k k
P C k C k dk
C
k
o o
o
o
=
=
=
}
En donde se ha aproximado la suma por una integral, lo cual es razonable pues una ley
de potencias vara lentamente para k grande. Entonces se ve que si la distribucin
k
p
sigue una ley de potencias, tambin lo hace la funcin de distribucin acumulada
k
P
pero con un exponente 1 o , 1 menos que el de el exponente original.
Esto da otra forma de visualizar comportamiento libre de escala: se grafica la
distribucin acumulada en escala doble logartmica, como se hace con un histograma
normal, y de nuevo se busca comportamiento lineal.
Homofilia en grafos no dirigidos
La homofilia es la tendencia observada en redes donde los nodos se conectan
mayoritariamente con nodos similares a ellos. Supngase por ejemplo que se tiene
una red en la que los vrtices estn clasificados de acuerdo a alguna caracterstica
determinada por un escalar que puede asumir un nmero finito de valores (por
ejemplo edades de personas o salarios en una red social). Dichas caractersticas tienen
un orden particular, de manera que no slo es posible decir cuando dos vrtices son
iguales segn esa caracterstica sino tambin cundo estos son aproximadamente
iguales.
Si los vrtices de una red con valores similares de una caracterstica escalar tienden a
estar conectados ms frecuentemente entre s que con los que poseen diferentes
valores, entonces la red se considera homoflica con respecto a esa caracterstica.
Una manera de medir esta propiedad es utilizando una covarianza de la siguiente
manera. Sea
i
x el valor para el vrtice i de la caracterstica escalar en la que estamos
14
interesados. Considrese el par de valores
( )
,
i j
x x para los vrtices en los extremos
de un arco
( ) , i j en la red, para calcular su covariancia sobre todos los arcos se hace lo
siguiente: definimos la media del valor de
i
x al final de un arco como
1
.
2
ij i
i i ij
i
i i
i
ij i
ij i
A x
k x
k x
A k m
= = =
(1.1)
Ntese que esta no es simplemente la media del valor
i
x promediada sobre todos los
vrtices. Es un promedio sobre los arcos, y como un vrtice con grado
i
k yace en los
extremos de
i
k arcos, aparece
i
k veces en el promedio (por eso el factor
i
k en la
suma). Entonces la covarianza de
i
x y
j
x sobre los arcos es
( )
( )( )
( )
( )
2
2
2
cov ,
1
2
1
2
1 1
2
2
ij i j
ij
i j
ij
ij
ij i j i j
ij
ij i j
ij
ij i j i j i j
ij ij
A x x
x x
A
A x x x x
m
A x x
m
A x x k k x x
m
m
=
= +
=
=
1
.
2 2
i j
ij i j
ij
k k
A x x
m m
| |
=
|
\ .
(1.2)
La covariancia ser positiva si, en balance, los valores ,
i j
x x en ambos extremos de un
arco tienden a ser ambos grandes o pequeos y negativa si tienden a variar en
direcciones opuestas. En otras palabras la covariancia ser positiva cuando hay
homofilia y negativa cuando no hay.
A veces es conveniente normalizar esta covariancia para que tome el valor de 1 en una
red perfectamente mezclada, en la que todos los arcos conectan vrtices con
exactamente el mismo valor de
i
x . Haciendo
j i
x x = en el primer trmino de la suma
en la ecuacin 1.2 se obtiene un valor de mezcla perfecta de
15
2
1 1
.
2 2 2 2
i j i j
ij i i j i ij i j
ij ij
k k k k
A x x x k x x
m m m m
o
| | | |
=
| |
\ . \ .
(1.3)
Y la medida normalizada, llamada coeficiente de homofilia, es la razn de las dos:
( )
( )
/ 2
.
/ 2
ij i j i j
ij
i ij i j i j
ij
A k k m x x
r
k k k m x x o
(1.4)
Un caso de homofilia por cantidades escalares de particular inters es la homofilia por
grado. En una red que muestra homofilia por grado los vrtices con alto grado estarn
preferencialmente conectados a otros vrtices con alto grado, y los de bajo con otros
de bajo. La homofilia por grado puede ser medida en la forma que se mide con
respecto a cualquier cantidad escalar, se define la covariancia como en la ecuacin 1.2,
pero con
i
x igual al grado
i
k :
( )
1
cov , .
2 2
i j
i j ij i j
k k
k k A k k
m m
| |
=
|
\ .
(1.5)
O si se desea normalizar el valor mximo para obtener el coeficiente de homofilia:
( )
( )
/ 2
.
/ 2
ij i j i j
ij
i ij i j i j
ij
A k k m k k
r
k k k m k k o
(1.6)
Al calcular el valor de este coeficiente, sin embargo, no es conveniente utilizar la
frmula 1.6, porque la doble suma sobre los ndices i y j tiene demasiados trminos
en ella (
2
n trminos) y es muy lento evaluar esta expresin en una computadora. En
lugar de eso escribimos
2
1 2
2
1 3 2
.
e
S S S
r
S S S
(1.7)
con
cos( , )
2 .
e ij i j i j
ij ar i j
S A k k k k = =
(1.8)
16
Donde la segunda suma corre sobre todos los pares de vrtices distintos ( ) , i j
conectados por un arco, y
2 3
1 2 3
, , .
i i i
i i i
S k S k S k = = =
(1.9)
La suma en 1.8 tiene m trminos, donde m es el nmero de arcos en la red y las
sumas en 1.9 tienen n trminos cada una
1.2. Metabolismo
El metabolismo es un conjunto de reacciones qumicas que ocurren en los organismos
vivos para sostener la vida. Estos procesos permiten a los organismos crecer,
reproducirse, mantener sus estructuras, y responder a los cambios en sus entornos.
Reduccionistamente se suele dividir la actividad metablica en dos categoras. El
catabolismo, en donde se transforman sustratos orgnicos para proveer de energa o
generar intermediarios metablicos utilizados en subsecuentes reacciones, en ste se
transforman molculas grandes como polisacridos, lpidos, cidos nucleicos y
protenas en unidades ms pequeas como monosacridos, cidos grasos, nucletidos
y aminocidos, respectivamente. Y el anabolismo, en donde se utiliza energa para
construir componentes de la clula como protenas y cidos nucleicos. Tambin, las
reacciones qumicas del metabolismo suelen ser organizadas en rutas metablicas, en
las que una substancia qumica es transformada en otra a travs de una secuencia de
reacciones qumicas mediadas por enzimas. Las enzimas son protenas que catalizan
reacciones qumicas y resultan cruciales para el metabolismo porque permiten al
organismo llevar a cabo reacciones que no ocurriran espontneamente en las
condiciones fsicas y qumicas del interior de la clula. Una enzima hace que una
reaccin que es energticamente posible, pero que transcurre a muy baja velocidad,
sea cinticamente favorable (Figura 7), es decir, transcurra a mayor velocidad que sin
la presencia de la enzima.
17
Figura 7 Reduccin de la energa de activacin causada por la accin de una enzima
Adems, las enzimas pueden acoplar dos o ms reacciones, por lo que una reaccin
termodinmicamente favorable puede ser utilizada para favorecer otra reaccin
termodinmicamente desfavorable. Por ejemplo la hidrlisis del ATP suele ser
utilizada para favorecer otras reacciones qumicas. Las enzimas tambin permiten la
regulacin de las rutas metablicas en respuesta a los cambios en el medio ambiente
de la clula o seales recibidas de otras clulas.
Modelado del metabolismo por medio de redes
Una red metablica es el conjunto de procesos qumicos y especies moleculares que
tienen lugar en el metabolismo junto con las interacciones entre ellos.
La reconstruccin de las redes metablicas a partir de datos sobre el genoma es la
base para analizar la topologa y la funcionalidad, todas las reacciones enzimticas en
un organismo se pueden obtener de esta forma.
Una vez que se determinan las reacciones de un organismo, la red metablica puede
ser representada con diferentes modelos de grafo de acuerdo a la demanda del
problema individual. Dependiendo del significado del significado que se decida dar a
los nodos del grafo, una red metablica puede ser representada de 4 formas distintas
de la siguiente manera:
18
1. Grafo simple de sustratos: Los nodos se definen como compuestos qumicos. Si
un compuesto puede producir a otro a travs de una reaccin qumica, los
nodos correspondientes se conectan
4
.
2. Grafo simple de reacciones: Los nodos corresponden a reacciones qumicas.
Existe un arco entre dos reacciones si un compuesto qumico es producto de
una reaccin y reactante de la otra
5
.
3. Grafo simple centrado en las enzimas: Los nodos se definen como enzimas. Dos
enzimas se conectan si un compuesto es producto de una reaccin catalizada
por una enzima y reactante de una reaccin catalizada por la otra enzima
6
.
4. Grafo bipartita metabolito-reaccin: Un grafo bipartito tiene dos conjuntos
diferentes de nodos y solo los nodos pertenecientes a distinto conjunto pueden
estar conectados. Uno conjunto de nodos corresponde a los metabolitos y el
otro a reacciones. Una reaccin es conectada con sus reactantes y productos
7
.
Por otro lado, la red puede ser definida con un grafo dirigido o no dirigido. Como las
reacciones bioqumicas tienen direcciones bien definidas, una red metablica por lo
general es representada como un grafo dirigido en la mayora de las ocasiones. Por
motivos de simplicidad y para realizar un anlisis ms directo, las redes metablicas
se representan usando grafos simples. Esta simplificacin es til para los anlisis
estructurales porque muchos de los algoritmos existentes no consideran diferentes
tipos de vrtices como en el caso de redes bipartita, esto presenta la desventaja de que
si no son removidos los metabolitos divisa, se introducen atajos sin sentido biolgico.
Metabolitos divisa
Los metabolitos divisa son metabolitos que se usan principalmente como
transportadores de electrones y de ciertos grupos funcionales.
8
Por ejemplo, en la
reaccin Glucosa ATP Glucosa 6-F + ADP + el ADP y ATP son metabolitos divisa
que se utilizan para transferir fosfato a la molcula de glucosa.
Cuando se consideran las conexiones a travs de metabolitos divisa, el anlisis
estructural produce resultados sin relevancia biolgica a menudo. Por ejemplo, en la
19
ruta de la gliclisis, que se muestra en la Figura 8, la longitud de camino desde la
glucosa al piruvato debera ser de nueve en con respecto a la bioqumica de esa
cadena de transformaciones. Sin embargo, si el ATP y el ADP son considerados como
vrtices en la red habran solamente dos pasos de la glucosa al piruvato (la primera
reaccin produce glucosa y ADP, mientras que la ltima reaccin consume ADP y
produce piruvato). Esto obviamente no tiene relevancia para la interpretacin de una
ruta metablica.
Se han propuesto diferentes maneras de solucionar este problema. Una solucin
simple es excluir a los metabolitos con mayor nmero de conexiones. El problema con
esto es que algunos metabolitos primarios como el piruvato tambin tienen una gran
cantidad de conexiones. Ms an, los metabolitos divisa no pueden ser definidos per
se por medio de compuestos nicamente, la categorizacin se debera realizar de
acuerdo a la reaccin en que participan y cmo participan en ella. Por ejemplo,
glutamato (GLU) y 2-oxoglutarato (AKG) son metabolitos divisa utilizados para
transportar grupos amino en muchas reacciones, pero son metabolitos primarios en la
siguiente reaccin:
3 2
AKG + NH + NADPH GLU + NADP + H O
+
Por lo que las conexiones entre ellos para esta reaccin deberan ser consideradas. La
remocin de conexiones a travs de metabolitos divisa es entonces un procedimiento
esencial para obtener conclusiones biolgicamente significativas del anlisis de los
grafos que representan a una red metablica.
20
Figura 8 Ruta de gliclisis (los arcos sin flecha representan reacciones reversibles)
21
2. METODOLOGA
2.1. Descarga y tratamiento de los
datos
Para construir los grafos que representan las interacciones entre metabolitos y
reacciones se utilizaron los datos de la red metablica reconstruida que est
disponible en el portal del proyecto YeastNet
9
. Esta reconstruccin se provee en la
forma de un archivo SBML v. 2.4 en el que se incluyen 2342 reacciones y 2657
especies qumicas (1496 metabolitos y 1163 protenas) con informacin de los
compartimentos celulares a los que pertenecen.
La elaboracin de los grafos se realiza transformando los datos en formato SBML a
XGMML que contiene toda la informacin referente a los nodos y conexiones que
componen un grafo, utilizando de la plataforma XML.NET.
2.2. Construccin de los grafos
Las reglas que se utilizaron en la construccin del grafo correspondiente a las
interacciones entre metabolitos fueron aadir un nodo a la red por cada especie
qumica que participa en una reaccin y un arco dirigido entre dos nodos a y b si
existe una reaccin en la que a sea reactante y b producto. En el grafo de reacciones
las reglas fueron aadir un nodo por cada reaccin qumica y un arco dirigido entre
dos reacciones A y B si la reaccin A produce un metabolito que participa como
reactante de la reaccin B.
Para poner un ejemplo de esto en la Figura 9 se muestran los grafos que modelan el
sistema formado por el sistema de la Reaccin 1
22
5 1 2 3 4
S + S S + S + S
5 4 6
S + S S
7 4 6 8
S + S S + S
Reaccin 1
Figura 9 Representacin en grafo del sistema formado por la Reaccin 1
Se puede ver (Figura 9 A) que al definir las reglas de construccin de esta manera,
pueden aparecer conexiones multiplicadas sobre un mismo par de nodos: en la red del
metaboloma dos arcos van de la substancia S4 a S6 y en el reactoma sucede lo mismo
entre la Reaccin 1 y Reaccin 2. En la red del metaboloma esta multiplicacin surge
cuando un metabolito A participa como reactante en ms de una reaccin que
produzca al metabolito B crendose un arco por cada reaccin que transforme A en B.
De la misma manera se producen mltiples conexiones entre la reaccin R1 y la
23
reaccin R2 cuando R1 produce ms de un metabolito que sea utilizado como reactante
por R2.
Para eliminar las conexiones copiadas se utiliza la plataforma software de
bionformtica para el anlisis de redes biolgicas Cytoscape, en esta se pueden excluir
directamente por medio del plugin de modificacin de grafos que viene incluido, el
resultado de dicha eliminacin en la red de la Reaccin 1 se muestra en la Figura 9 B.
Metabolitos divisa
El problema de las conexiones a travs de metabolitos divisa se enfrent de manera
distinta en las dos redes.
En el metaboloma se eliminaron los nodos correspondientes a estos metabolitos
despus de haber sido creado el grafo. En el reactoma, la correccin se hizo al
momento de construir el grafo: solamente se generaron arcos que unen reacciones a
travs de metabolitos no divisa. Se eligi como metabolitos divisa a los reportados en
el estudio de Holmes et al.
10
2.3. Clculo de parmetros topolgicos
El clculo de los parmetros que describen la topologa de la red se realiz utilizando
Cytoscape. Una vez que los archivos XGMML fueron construidos, stos se importan en
Cytoscape y utilizando el plugin de anlisis se calcularon las distribuciones de grado,
coeficientes de clustering, conectividad de los vecinos y distribucin de longitudes de
caminos.
Para detectar si las distribuciones de grado de las redes siguen una ley de potencias,
se construy la funcin de distribucin acumulada
Estos parmetros describen la estructura a gran escala de las redes y estn
ntimamente relacionados con la robustez estructural que presentan.
24
2.4. Comparacin de las redes
originales con redes sintticas
Para identificar caractersticas organizacionales que puedan existir en la red del
metaboloma y reactoma se compararon ambos grafos con versiones de ellos
reconectados de manera aleatoria pero cuidando que se preservara la distribucin de
grado. Este proceso se realizo por medio de un plugin para generacin de redes
aleatorias de Cytoscape. El algoritmo de reconexin que implementa este plugin
preserva el grado de cada nodo y reconecta los arcos de una red de la siguiente
manera:
1. Se selecciona al azar un arco ( ) , u v de la red.
2. Un segundo arco ( ) , s t es seleccionado al azar siguiendo las siguientes
restricciones:
- u v s t = = =
- ( ) ( ) , , , u t s t A e donde A es el conjunto de arcos
3. Los arcos ( ) , u v y ( ) , s t son removidos y los arcos ( ) , u t y ( ) , s v son insertados
en la red
4. Se repiten los pasos 1 a 4 t veces.
De la misma forma la comparacin de la redes biolgicas con redes sintticas
generadas siguiendo el modelo Erds-Rnyi fue realizada con el plugin de generacin
de redes aleatorias.
2.5. Pruebas de robustez
Interconectividad
Para entender cmo se ve afectada la interconectividad de las redes, se estudiaron los
cambios en la longitud promedio de camino cuando una fraccin f de nodos era
25
removida. El malfuncionamiento de cualquier nodo que se representa como la
ausencia de ste, incrementa en general la distancia entre los nodos restantes, y puede
eliminar algunos caminos que contribuyen a la interconectividad del sistema.
La remocin de nodos se realiz de dos formas distintas simulando errores (fallas
aleatorias) y ataques dirigidos, en los que se elimina solamente a los nodos ms
conectados. Estas simulaciones de malfuncionamiento de nodos se implementaron en
Mathematica v8.0
11
, por lo que fue necesario transformar los grafos de formato
XGMML a GRAPHML, el formato de lectura y escritura de grafos soportado por
Mathematica. La transformacin de formato se efecta de manera directa con el
paquete de herramientas para anlisis de redes Network WorkBench
12
.
Para estudiar el dao a la interconectividad cuando se presentan fallas aleatorias el
archivo GRAPHML correspondiente a la red que se vaya a analizar se importa en
Mathematica, despus se elimina del grafo un nodo seleccionado aleatoriamente y se
mide la distancia promedio resultante
1
d , en seguida se remueve el nodo eliminado
anteriormente ms otro seleccionado de nuevo al azar para medir la distancia
promedio
2
d
y se siguen removiendo nodos de esta forma hasta eliminar una
porcin
max
f de los nodos. El proceso se ilustra en la Figura 10, se comienza por
remover un nodo seleccionado aleatoriamente y medir la distancia promedio
resultante
1
d (Figura 8 A), en seguida se remueve el nodo removido en el paso
anterior en conjunto con un nuevo nodo seleccionado al azar y se mide la nueva
distancia promedio
2
d (Figura 8 B). Este proceso se repite hasta remover una
fraccin
max
f de la totalidad de nodos en la red.
26
Figura 10 Proceso de eliminacin de nodos
El procedimiento para simular ataques es idntico al de fallos pero en esta modalidad
se remueven los nodos de manera alternada segn su conectividad de salida o
entrada: se comienza por remover el nodo con el mayor grado de salida seguido del
nodo con el mayor grado de entrada y se contina seleccionando y removiendo nodos
en funcin de su orden decreciente de conectividad
salida
k y
entrada
k alternadamente.
Finalmente para caso en el que se simulan ataques en orden aleatorio tambin se
remueve la fraccin
max
f de los nodos ms conectados pero haciendo la seleccin de
cada nodo de forma aleatoria.
Integridad estructural
Cuando se remueven nodos de una red se pueden formar clsteres cuyas conexiones
al clster principal desaparecen, disminuyendo la capacidad de comunicacin entre
los vrtices. Para entender el impacto de fallas y ataques en la estructura de la red se
estudi este proceso de fragmentacin midiendo el tamao del clster dbilmente
conectado mayor y de los clsteres aislados en ambas redes cuando se remueve una
fraccin de nodos en las modalidades de fallo y ataque.
En la Figura 11 se da un ejemplo de la desintegracin que ocurre en una red y las
mediciones que se realizan para monitorearla, N representa el tamao total de la red,
S el tamao del componente dbilmente conectado mayor (CDCM) y
c
S el tamao
promedio de los clsteres aislados.
27
Figura 11 Fragmentacin de la red
Fallo en cascada
Para investigar la robustez de las redes con respecto a los fallos en cascada, se emple
un algoritmo iterativo en el que la remocin de un nodo puede producir sucesivas
remociones de nodos (cascada) en gran escala. Las cascadas resultantes se
caracterizan por el nmero de nodos removidos y slo los metabolitos que son
nicamente producidos (UP) son objetivo de las remociones.
El algoritmo es el siguiente:
1. Eliminar de la red de metabolitos un nodo
c
m seleccionado al azar
2. Eliminar en la red del reactoma el conjunto de nodos
c
R que corresponde a las
reacciones que utilizan a
c
m como reactante.
3. Eliminar del metaboloma el conjunto de metabolitos
c
M de metabolitos
producidos por las reacciones de
c
R .
4. Eliminar del reactoma al nuevo conjunto de reacciones
c
R que utilicen los
metabolitos de
c
M como reactantes.
Los pasos 3 y 4 se repiten hasta que no quedan metabolitos UP afectados por la
cascada. En la Figura 12 se presenta un ejemplo de simulacin de dao en cascada
para el sistema de reacciones de la Reaccin 2.
28
1
1 2 4
2
5 2 3 4
3
7 4 6
4
5 7 8
E
E
E
E
s s s
s s s s
s s s
s s s
+
+ +
+
+
Reaccin 2
Figura 12 Algoritmo de fallo en cascada
29
3. RESULTADOS
3.1. Parmetros topolgicos
3.1.1. Medidas estndar
En la Figura 13 se muestra el grafo que representa al metaboloma, la red del reactoma
se presenta en la Figura 14. Las medidas tpicas de ambas se presentan en la Tabla 1.
Figura 13 Red direccionada del metaboloma
30
Figura 14 Red direccionada de reacciones
Metaboloma Reactoma
Nmero de nodos 1,366 1,547
Nmero de arcos 2,621 6,420
Coeficiente de clustering 0.031 0.023
Dimetro de la red 35 34
Nmero de geodsicas 709,765 (38%) 12,225,835 (51%)
Longitud de camino promedio 8.4 7.8
Nmero promedio de vecinos 3.7 7.7
Coeficiente de homofilia -0.04 0.05
Tabla 1 Comparacin de las medidas tpicas
31
3.1.2. Comparacin de redes originales con
versiones sintticas
En la Tabla 2 y Tabla 3 se presentan las mtricas de las redes consideradas como no
dirigidas comparadas redes aleatorias generadas segn el modelo de ErdsRnyi. Se
puede observar que
original sinttico
C C y
original sinttico
L L en el reactoma y metaboloma.
En la Tabla 4 y Tabla 5 se comparan la mtricas de las redes dirigidas originales
comparadas con versiones reconectadas al azar que preservan el grado de cada nodo,
se aprecia que el metaboloma original tiene bastante ms estructura de comunidad
que las versiones reconectadas al azar con
original sinttico
/ 5.04 C C = . En el reactoma la
diferencia es ms bien pequea con
original sinttico
/ 1.35 C C = .
Metaboloma no dirigido vs Red aleatoria
Red Existente Promedio de redes aleatorias C
original
/C
sintetico
L
original
/L
sinttico
Coeficiente clustering 0.0571841 0.0022824
25.05 1.068401692 Grado promedio 3.6603221 3.8374817
Longitud camino promedio 5.8312219 5.4578928
Tabla 2
Reactoma no dirigido vs Red aleatoria
Red Existente Promedio de redes aleatorias C
original
/C
sintetico
L
original
/L
sinttico
Coeficiente clustering 0.0449042 0.0053944
8.32 1.58 Grado promedio 7.7220427 8.2999354
Longitud camino promedio 5.8369903 3.7057049
Tabla 3
32
Metaboloma vs Metaboloma reconectado aleatoriamente
Red Existente Promedio redes reconectadas C
original
/C
sintetico
Coeficiente clustering 0.0308706 0.0061276
5.04 Grado promedio 3.8374817 3.8374817
Longitud camino promedio 8.4007312 7.2619758
Tabla 4
Reactoma vs Reactoma reconectado aleatoriamente
Red Existente Promedio redes reconectadas C
original
/C
sintetico
Coeficiente clustering 0.0233529 0.0172572
1.35 Grado promedio 8.2999354 8.2999354
Longitud de camino promedio 7.7967426 5.1129067
Tabla 5
3.1.3. Distribuciones de grado
Las distribuciones de grado de salida y entrada de la red de metabolitos, se muestra
en la Figura 15 y Figura 16 respectivamente.
Figura 15 Distribucin de grado de salida para la red de metabolitos
33
Figura 16 Distribucin de grado de entrada para la red de metabolitos
Las dos distribuciones parecen obedecer a una ley de potencias de la forma
( ) P k Ck
o
=
.
Las funciones de distribucin de salida y entrada acumuladas y sus ajustes lineales se
muestran en la Figura 17 y Figura 18 respectivamente, los ejes estn en escala
logartmica. De los ajustes lineales se obtiene que la distribucin de grado salida
obedece a la ley de potencias
0.786 2.861
( ) P k e k
= y la de entrada a
1.524 3.462
( ) P k e k
= . El
valor del coeficiente de determinacin
2
R para la distribucin de salida es de
2
0.97 R = y para el de entrada
2
0.95 R = .
34
Figura 17 Distribucin de grado de salida acumulada
Figura 18 Distribucin de grado de entrada acumulada
Para la red de reacciones las distribuciones de salida y entrada se muestran en la
Figura 19 y Figura 20. A primera vista el comportamiento de estas tambin parece
compatible con una ley de potencias de forma ( ) P k Ck
o
=
.
35
Figura 19 Distribucin de grado de entrada para la red de reacciones
Figura 20 Distribucin de grado de salida para la red de reacciones
En la Figura 21 y Figura 22 se grafican las distribuciones acumuladas con sus ajustes
lineales de los cuales se obtiene que la distribucin de salida sigue la forma
1.524 3.462
( ) P k e k
= y la de entrada
2.018 2.90
( ) P k e k