Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
➢ Gene Ontology.
Si possono anche trovare gli archi, che collegano proteine, non soltanto utilizzando le attività topologiche,
ma anche servendosi delle informazioni funzionali. Per poter fare questo, devo riuscire a definire quanto
due proteine sono simili a livello funzionale e questa informazione la estraggo dall’ontologia.
Quindi, ad ogni proteina, a cui inizialmente è associato solo il nome, vengono associate una serie di
informazioni funzionali che estraggo da una ontologia.
La più importante è GENE ONTOLOGY.
GO è formato da tre sotto-ontologie: funzione molecolare, processi biologici e componente cellulare. Esse
rappresentano in quale funzione molecolare è coinvolto un prodotto genico, qual è il processo biologico
che esegue ed in quale compartimento cellulare questa proteina si trova.
I termini ontologici sono quindi stringhe, abbreviazioni che rappresentano determinate relazioni (is a, part
of, regolazione).
Queste annotazioni le estraggo da un database chiamato GOA (Gene Ontology Annotation).
All’interno di GOA ogni proteina ha il proprio ID (che estraggo da Uniprot), che è la sola informazione da
inserire per avere tutte le sue annotazioni (l’annotazione è formata da un identificativo e da una stringa
che descrive la proteina).
➢ Annotazioni e Misure di similarità semantica.
Possiamo quindi associare questi termini alle proteine e questo processo prende il nome di “processo di
annotazione”.
Il processo di annotazione di un gene o di una proteina consiste nell’estrarre da GOA tutti i termini
ontologici associati ad esso/a. Quindi, la posso considerare come un’operazione di associazione.
Come posso usare le annotazioni?
Le posso utilizzare nella tecnica di analisi di “arricchimento funzionale”, basata su due attività: annotare le
proteine di mio interesse con i termini ontologici estratti da GOA e poi misurare la similarità dei due
termini ontologici attraverso un valore numerico.
La similarità tra i termini ontologici la misuro attraverso funzioni matematiche chiamate MISURE DI
SIMILARITÀ SEMANTICA.
Quindi, le annotazioni ci permettono di usare nuove metodologie di analisi definite per le ontologie che
prendono il nome di “misure di similarità semantica”, che uso per verificare se due proteine sono simili dal
punto di vista funzionale.
Le misure di similarità semantica ricevono in input due termini ontologici e producono in output una
misura di similarità che varia tra zero (nessuna similarità) ed uno (massima similarità). Esse consentono di
effettuare l’analisi sui dati, arricchiti funzionalmente con l’aggiunta di annotazioni.
È possibile categorizzare le misure di similarità semantica sulla base di:
- contenuto informativo di ogni termine;
- profondità di ogni termine (un termine molto profondo nel grafo è un termine molto specifico);
- riferimento antenati comuni;
- rappresentazione vettoriale dei termini ontologici.
Inoltre, posso misurare la similarità fra due termini oppure gruppi di termini.
Alcuni strumenti: GOvis, csbl.go.