Bioinf Interattomica

INTERATTOMICA.
L’interattoma di un organismo è tutto l’insieme di interazioni che avviene in quell’organismo.

L’interattomica è lo studio delle interazioni che avvengono in un organismo.
È importante scoprire la struttura delle reti PPI perché se la rete di un individuo si discosta da un modello,
allora è possibile che abbia una qualche condizione patologica.
Le interazioni più studiate sono quelle che riguardano le proteine (PPI) e, da un punto di vista informatico,
possiamo rappresentare l’interazione tra due proteine come una coppia di nodi collegati da un arco
all’interno di un grafo, che prende il nome di “rete di interazione proteica”. Quindi, le reti PPI sono
solitamente modellate come grafi non orientati e dall’analisi di questi è possibile estrarre proprietà
sull’organismo.
Una prima attività è quella di identificare le interazioni all’interno di un organismo, anche attraverso varie
tecniche di laboratorio come la spettrometria di massa, e poi racchiudere tali dati in un grafo all’interno di
un database (in cui ogni nodo rappresenta una proteina e l’arco che le collega invece rappresenta
l’interazione). Il grafo così ottenuto viene chiamato “grafo di interazione”.
In particolare, sono stati proposti tre tipologie di grafi: struttura a libera scala, grafici random e grafo
geometrico casuale.
Un’altra cosa che si può fare su queste reti è scoprire se ci sono dei sottoinsiemi di nodi fortemente
connessi (cioè un grafo che presenta molti archi). Questa tipologia di struttura dati, da un punto di vista
biologico, rappresenta un complesso proteico.
Quindi, uno studio che posso eseguire attraverso le reti PPI è la scoperta di complessi proteici.
Esistono ovviamente metodi sperimentali, ma sono costosi. Invece, in una rete PPI, l’algoritmo di
estrazione dei complessi proteici trova i complessi dovunque si trovino all’interno della rete.
➢ Algoritmi di predizione dei complessi.
Predire un complesso proteico vuol dire trovare un gruppo di 2 o più proteine associate che interagiscono
tra di loro e condividono lo stesso obiettivo biologico. Da un punto di vista informatico, vuol dire trovare
una sottorete di nodi densamente connessi all’interno del grafo.
Gli algoritmi più importanti sono:
- MCL: trova un cluster di nodi in un grafo e ne analizza la sua distribuzione;
- MCODE: cerca di trovare dei cluster all’interno del sottografo;
- RNSC: dopo un cluster di tipo casuale, usa una ricerca basata su costi utilizzando una specifica euristica.
Questi algoritmi ricevono in input una rete PPI e producono in output un set di un insieme di cluster, dove
ogni cluster è un insieme di proteine. L’obiettivo quindi è quello di trovare questi sottografi.
➢ IMPRECO.
(im preco) È uno strumento che esegue più predittori contemporaneamente con lo scopo di migliorare la
predizione dei complessi proteici.
Data in input una rete PPI, l’algoritmo lancia tanti predittori e, sfruttando informazioni sulle strutture e
funzioni delle proteine, predice tutti i possibili complessi proteici all’interno del database.
L’idea è quella di combinare differenti predittori ed integrare i risultati cercando di ottenere il meglio da
ognuno. Per fare questo, posso ricorrere a tre approcci:
- Equality: gli stessi cluster sono ritornati da tutti i predittori;
- Contenimento: si identifica una relazione di contenimento tra i cluster ritornati da tutti o da un certo
numero di predittori;
- Overlap: si identifica una sovrapposizione tra i cluster.
Trovati questi complessi, devo valutarne la bontà.
Quindi, per valutare se l’algoritmo funziona o meno, verifico se i complessi predetti hanno un buon livello
di sovrapposizione con i complessi presenti nel database di riferimento.
➢ CytoMCL.
È un plugin di Cytoscape e serve a trovare i cluster dei nodi in un grafo usando l’algoritmo MCL.
Combina MCL, un algoritmo capace di scoprire i complessi proteici, ma privo di interfaccia grafica, con
Cytoscape, un tool capace di visualizzare le reti.
➢ Gene Ontology.
Si possono anche trovare gli archi, che collegano proteine, non soltanto utilizzando le attività topologiche,
ma anche servendosi delle informazioni funzionali. Per poter fare questo, devo riuscire a definire quanto
due proteine sono simili a livello funzionale e questa informazione la estraggo dall’ontologia.
Quindi, ad ogni proteina, a cui inizialmente è associato solo il nome, vengono associate una serie di
informazioni funzionali che estraggo da una ontologia.
La più importante è GENE ONTOLOGY.
GO è formato da tre sotto-ontologie: funzione molecolare, processi biologici e componente cellulare. Esse
rappresentano in quale funzione molecolare è coinvolto un prodotto genico, qual è il processo biologico
che esegue ed in quale compartimento cellulare questa proteina si trova.
I termini ontologici sono quindi stringhe, abbreviazioni che rappresentano determinate relazioni (is a, part
of, regolazione).
Queste annotazioni le estraggo da un database chiamato GOA (Gene Ontology Annotation).
All’interno di GOA ogni proteina ha il proprio ID (che estraggo da Uniprot), che è la sola informazione da
inserire per avere tutte le sue annotazioni (l’annotazione è formata da un identificativo e da una stringa
che descrive la proteina).
➢ Annotazioni e Misure di similarità semantica.
Possiamo quindi associare questi termini alle proteine e questo processo prende il nome di “processo di
annotazione”.
Il processo di annotazione di un gene o di una proteina consiste nell’estrarre da GOA tutti i termini
ontologici associati ad esso/a. Quindi, la posso considerare come un’operazione di associazione.
Come posso usare le annotazioni?
Le posso utilizzare nella tecnica di analisi di “arricchimento funzionale”, basata su due attività: annotare le
proteine di mio interesse con i termini ontologici estratti da GOA e poi misurare la similarità dei due
termini ontologici attraverso un valore numerico.
La similarità tra i termini ontologici la misuro attraverso funzioni matematiche chiamate MISURE DI
SIMILARITÀ SEMANTICA.
Quindi, le annotazioni ci permettono di usare nuove metodologie di analisi definite per le ontologie che
prendono il nome di “misure di similarità semantica”, che uso per verificare se due proteine sono simili dal
punto di vista funzionale.
Le misure di similarità semantica ricevono in input due termini ontologici e producono in output una
misura di similarità che varia tra zero (nessuna similarità) ed uno (massima similarità). Esse consentono di
effettuare l’analisi sui dati, arricchiti funzionalmente con l’aggiunta di annotazioni.
È possibile categorizzare le misure di similarità semantica sulla base di:
- contenuto informativo di ogni termine;
- profondità di ogni termine (un termine molto profondo nel grafo è un termine molto specifico);
- riferimento antenati comuni;
- rappresentazione vettoriale dei termini ontologici.
Inoltre, posso misurare la similarità fra due termini oppure gruppi di termini.
Alcuni strumenti: GOvis, csbl.go.
➢ Problematiche di visualizzazione tra reti.

Le reti PPI possono essere usate per trovare dei complessi proteici oppure per confrontare le reti di diversi
organismi. Ovviamente, uno dei problemi principali della visualizzazione di queste reti è che spesso hanno
grosse dimensioni, pertanto devo trovare uno strumento in grado di garantire una visualizzazione efficace.
I principali strumenti per visualizzare reti sono Cytoscape e Navigator. Tali strumenti sono caratterizzati da
un insieme di algoritmi di layout, il cui obiettivo è quello di disporre sullo schermo i nodi e gli archi della
rete in una forma leggibile (ad esempio, circolare oppure con uno schema ad albero).
CytoSeVis.
È un plugin di Cytoscape e consente di visualizzare le reti PPI sulla base della topologia (disposizione dei
nodi all’interno del grafo) e sulla base della similarità semantica delle proteine dei nodi.
L’idea è di mettere vicine le proteine che sono funzionalmente simili, quindi con una elevata similarità
semantica. È fondamentale caricare i file di cytoscape e le matrici di similarità semantica in maniera
distinta e poi questa similarità verrà introdotta con colori diversi.
Il punto di riferimento sarà espresso dal nodo bianco e la similarità degli altri nodi sarà calcolata in base ad
esso.
Riassumendo:
- MCL analizza la struttura a grafo;
- Cytoscape rappresenta la struttura a grafo;
- Cytosevis riesce a rappresentare le similarità semantiche.
Ontopin.
Il problema dei database PPI è che hanno di solito una interfaccia di interrogazione molto povera. L’idea
quindi è quella di associare ad ogni proteina il suo ID, ma anche le informazioni molecolari e funzionale che
ricavo dai termini ontologici, così da poter fare analisi semantica su di essi.
Quindi passo da un database non annotato ad uno annotato, in cui dovrò tener conto di diversi parametri
quali: ID proteina ed annotazione su compartimento cellulare, processo cellulare e funzione molecolare.
Il sistema poi andrà ad estrarre solo le interazioni che soddisfano questi parametri.
In conclusione, ONTOPIN è un nuovo sistema in cui si passa da un database PPI tradizionale ad un database
PPI annotato ed utilizza la conoscenza estratta da GO per supportare i query di tipo semantico.

Bioinf Interattomica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Bioinf Interattomica

Caricato da

Copyright:

Formati disponibili

INTERATTOMICA.

L’interattoma di un organismo è tutto l’insieme di interazioni che avviene in quell’organismo.

➢ Problematiche di visualizzazione tra reti.

Potrebbero piacerti anche