Sei sulla pagina 1di 9

Ortologhi e paraloghi Similarità e distanza

Sequenza originaria AGHSVLIWETS

Eventi di sostituzione:
Gene A Gene A Duplicazione Avvenuti = 12
Osservabili = 3
Speciazione Duplicazione Singola A->T A
G G
Gene A1 Coincidenti H ->A H ->E
S S
Gene A Gene B Parallele V ->I V ->I
L L
Gene A2 Multiple I->A->L I
Geni Paraloghi W W
Geni Ortologhi Retro-Sostituzione E ->A->E E
T T
Convergenti S ->I->T S ->T

Ortologhi e paraloghi Identità tra due sequenze e distanza evolutiva

Proteine o geni omologhi possono appartenere stessa specie o a specie diverse e possono avere Uno dei modi per valutare la distanza evolutiva fra due sequenze è quello di misurare la loro Identità
origine in seguito ad eventi di Speciazione o di Duplicazione. Quando nasce una nuova specie lo allineandole. Si può infatti suppporre che il numero di sostituzioni che osserviamo sono un indice del
stesso gene si troverà in due copie diverse nelle due specie diverse e ognuna delle due copie avrà tempo trascorso dalla loro separazione. Ma le sostituzioni aminoacidiche che si possono osservare tra
la sua storia evolutiva ma continuerà nei due diversi organismi a svolgere la stessa funzione. Geni due sequenze sono solo una parte delle sostituzioni che sono in realtà avvenute. Infatti tutti gli eventi
omologhi che hanno questa origine sono definiti Ortologhi. di sostituzione che ripristinano l'identità di due aminoacidi in una posizione delle sequenze impediscono
L'altro modo attraverso cui possono nascere geni omologhi è attraverso eventi di duplicazione. In di contare tutti gli altri eventi avvenuti in precedenza nella stessa posizione. Gli eventi di sostituzione
questo caso le due copie del gene si trovano nello stesso organismo e spesso una delle due assume hanno nomi diversi a seconda se coinvolgano la stessa posizione in una sola o in enrtambe le sequenze,
una funzione diversa dalla prima. Geni omologhi che si sono originati attraverso eventi di se avvengono in posizioni nuove o che già avevano subito una sostituzione o se ripristinano l'identità in
duplicazione perndono il nome di Paraloghi. una posizione.
Nella figura sono rappresentate due sequenze separatesi in seguito ad un evento di duplicazione e che
accumulano una serie di sostituzioni (frecce gialle). Le posizioni che in seguito all'evento di
sostituzione risultano diverse sono le uniche sostituzioni osservabili (in rosso). In totale, nell'esempio,
di 12 sostituzioni avvenute fra le due sequenze, quelle osservabili (allineando le due sequenze finali)
sono solamente 3.
Distanza Genetica Distanza Jukes & Cantor
d(nucleotidi) = - 0.75 * ln( 1 - 0.75*ND )
d=
% Identità d(aminoacidi) = - 0.95 * ln( 1 - 0.95*ND )
Distanza
0% Genetica

25%

50%

75% Tempo

100% Assunzioni del modello:


Tempo -Stessa probabilità delle sostituzioni
- Stessa probabilità dei siti
Meglio usare sequenze nucleotidiche:
- Indipendenza dei siti
- regioni non codificanti
- OROLOGIO MOLECOLARE - Velocità di sostituzione costante
- mutazioni nucleotidiche possono non essere aminoacidiche
- STAZIONARIETA’ - Composizione nucleotidica costante
- modello più facile

Distanza Genetica Distanza Jukes & Cantor

La distanza genetica è una stima della misura del tempo trascorso dalla separazione di due Una misura di distanza corretta fra due sequenze dovrebbe crescere linearmente con il passare del
sequenze. tempo. Il più semplice dei modelli probabilistici che possono essere usati per ottenre una misura della
Per misurare la distanza fra due geni è meglio usare la sequenza nucleotidica piuttosto che quella distanza genetica fra due sequenze nucleotidiche a partire dalla misura della loro similarità è quello di
aminoacidica per tre diversi motivi. Primo perchè possiamo così anche analizzare le regioni non Jukes e Cantor. Secondo questo modello la distanza tra due sequenze è pari a -3/4 * ln(1-3D/4) dove
codificanti del gene, secondo perchè mutazioni a livello di nucleotidi possono non trasformarsi in D è la frazione di nucleotidi non identici che rimangono fra le due sequenze. Lo stesso modello può
mutazioni a livello di aminoacidi e terzo perchè trattandosi solamente di 4 basi, qualunque modello essere applicato alle proteine sostituendo entrambi i valori costanti di 3/4 con 19/20.
si voglia utilizzare sarà più facile. Perchè la distanza genetica fra due sequenze misurata in questo modo sia però valida devono essere
A causa di eventi di sostituzione che possono avvenire ma non sono più contabili, se analizziamo due anche valide una serie di assunzioni: ogni sito deve avere la stessa probabilità di mutare, la probabilità
sequenze nucleotidiche (DNA o RNA) a tempi diversi dal loro momento di separazione il numero di di una sostituzione deve essere uguale per ogni nucleotide, la probabilità di mutazione in un sito deve
nucleotidi identici che contengono non diminuisce linearmente, ma ad un certo punto rallenta fino a essere indipendente da mutazioni in altri siti, la probabilità di mutazioni in una sequenza deve rimanere
tendere al 25%. Questo perchè una volta che fra due sequenze nucleotidiche rimane solo il 25 per invariata col passare del tempo (ipotesi dell'orologio molecolare) e la composizione nucleotidica delle
cento di identità, ogni nuovo evento di sostituzione ha la stessa probabilità di aumentare la loro sequenze deve rimanere costante col passare del tempo (ipotesi della stazionarietà).
identità, quanto di diminuirla. Se si vuole supporre per le sequenze un comportamento diverso da questi specificati bisogna far uso di
L'identità di due sequenze non è quindi una buona misura della loro distanza perchè, superata una modelli più complessi che misurano la distanza molecolare in altri modi.
certa soglia a tempi molto lunghi corrisponderebbe una diminuzione del valore molto basso. Ad esempio un modello più complesso potrebbe permettere di considerare probabilità diverse per le
sostituzioni fra purine e pirimidine.
Matrici di distanze Alberi Filogenetici
Nodi interni
Radice Unità tassonomiche sconosciute Tempo

Rami

ψη globine
A

Scimpanzè Uomo Gorilla Orango Macaco Scim.Ragno C Distanza F-H


Scimpanzè -
E
Uomo 0.014 - D
G
Gorilla 0.02 0.015 - F
B
H
Orango 0.04 0.03 0.04 -
Macaco 0.08 0.07 0.08 0.08 - Nodi esterni - Foglie
Scim. Ragno 0.11 0.10 0.10 0.11 0.12 - Unità tassonomiche operative

Matrici di distanze Alberi filogenetici

Per analizzare le relazioni evolutive fra una serie di geni bisogna inanzitutto calcolare la distanza Conoscendo la matrice di distanze fra una serie di sequenze omologhe il modo migliore per
evolutiva esistente fra ogni singola coppia di sequenze. Per fare questo le sequenze vanno allineate rappresentare le relazioni evolutive ipotetiche esistenti fra di loro e quello di usare un albero
a coppie fra di loro in tutte le possibili combinazioni. Per ogni allineamento viene quindi calcolata la filogenetico.
distanza genetica con uno qualunque dei metodi a disposizione. Una volta calcolate le distanza Un albero filogenetico è un grafo costituito da una serie di nodi collegati fra di loro da rami. Ogni nodo
queste possono essere rappresentate in una matrice delle distanze. è collegato solamente ad altri 3, un nodo genitore e due nodi figli. I nodi esterni dell'albero si
Una matrice delle distanze è simile ad una matrice di sostituzione fra aminoacidi, ma anzichè chiamano foglie e non hanno nodi figli. Le foglie rappresentano le sequenze di cui sono note le sequenze
contenere valori di similarità fra aminoacidi contiene distanze fra sequenze. La matrice ha tante e sono chiamate Unità tassonomiche operative. I nodi interni (Unità tassonomiche sconosciute),
righe e tante colonne quante sono le sequenze di prese in considerazione, e all'interno di ogni cella rappresentano le proteine/geni ancestrali, di cui non è nota la sequenza, progenitrici delle sequenze
della matrice è rappresentata la distanza misurata fra le due sequenze. La diagonale della matrice rappresentate dai nodi figli. Il nodo senza sequenza genitore è detto radice dell'albero. La lunghezza
contiene le distanze fra ogni sequenza con se stessa ed ha quindi valori tutti a 0. dei rami rappresenta il tempo trascorso tra una sequenza e l'altra, con i nodi posti più in alto che si
La metà della matrice contiene valori identici all'altra metà, dal momento che la distanza fra una sono originati prima. la distanza fra due sequenze qualsiasi è quindi rappresentata dalla somma dei
sequenza A ed una B è uguale alla distanza fra B ed A, e può quindi essere lasciata vuota. rami che le collegano. La distanza fra le sequenze F ed H è pari alla somma della lunghezza dei rami
Nella figura è rapresentata la matrice di distanze di una serie di geni ortologhi di globine rappresentati in rosso in figura.
appartenenti a diverse specie di primati.
Filogenesi molecolare Distanze su un piano
Filogenesi di geni ortologhi Filogenesi di geni paraloghi
- 4 6 6 1 9
- 5 5 3 7
4
Mioglobina - 2 5 5
Uomo
- 5 4
Hb Zeta - 8
Hb Alpha
Anatra
Uomo
- 6 5
Hb Alpha Hb Alpha
Hb Theta Hb Beta
Gorilla Ratto Hb Alpha Hb Delta
Uomo
Uomo Uomo Uomo
Hb Alpha Hb Alpha Hb Gamma
Uomo Topo Uomo
Hb Epsilon
Uomo

Emoglobina alfa Diverse catene di emoglobina


in specie diverse nell’ uomo

Filogenesi di geni ortologhi e paraloghi Rappresentazione delle distanze usando spazi a più dimensioni

Gli alberi filogenetici sono utilizati per descrivere le relazioni evolutive fra famiglie di geni. E' Costruire un albero filogenetico, consiste nell'analizzare la matrice delle distanze di una famiglia di
possiblie studiale la filogenesi di geni ortologhi o di geni paraloghi. Nelle analisi di geni ortologhi sequenze per trovare quali delle sequenze sono meno distanti fra di loro e debbano quindi trovarsi
viene scelto lo stesso gene in diversi organismi. L'albero che ne deriva sarà quindi simile all'albero vicine in un albero e quali sono invece più distanti.
che rappresenta i rapporti evolutivi fra le specie prese in considerazione. Ad esempio in figura è I metodi che servono a suddividere le sequenze in gruppi di sequenze vicine si chiamano algoritmi di
rappresentato l'albero filogenetico del gene dell'emoglobina Alfa, in diverse specie di vertebrati. clustering (raggruppamento). Per comprendere a che serve un algoritmo di clustering possiamo
Nelle analisi filogenetiche di geni paraloghi vengono invece scelti geni omologhi apparteneti al immaginare una matrice di distanze rappresentata in modo diverso ovvero usando uno spazio
medesimo organismo (quindi geni paraloghi). Ad esempio nella figura è rappresentato l'albero multidimensionale (nella figura schematizzato dalle due dimensioni di un piano) dove la distanza
filogenetico delle emoglobine dell' uomo. In questo tipo di alberi vengono quindi rappresentati i esistente fra ogni coppia nella matrice corrisponde a una distanza nello spazio.
rapporti evolutivi fra diversi geni appartenenti ad un unica specie. Ad esempio la distanza fra le sequenze viola e quella azzurra è 4 nella matrice delle distanze e deve
Ora che abbiamo visto cos'e' un albero filogenetico vedremo quali metodi si usano per costruirlo. essere quindi anche 4 sul piano.
Clustering Clustering gerarchico

2 Clusters 3 Clusters 4 Clusters

+ + + +
+ +

Clustering Clustering gerarchico

Raggruppare delle sequenze vuol dire associarle insieme in gruppi in modo tale che la somma fra le Per costruire un albero non è però sufficiente dividere le sequenze in gruppi separati, ma a loro volta i
distanze di tutte le sequenze presenti nello stesso gruppo sia minima. In pratica unire in gruppi le gruppi devono essere raggruppati fra di loro a formare entità più grandi e così via, sino a quando non
sequenze che sono fra loro più vicine. esista un unico gruppo che comprende tutte le sequenze (la radice dell'albero). Per fare questo tipo di
Il più semplice degli algoritmi di clustering è quello in cui va deciso a priori il numero di gruppi che raggruppamento bisogna usare algoritmi di clustering detto gerarchico.
vogliamo avere. Ad esempio partendo dalle distanze rappresentate in figura per sei sequenze se Nel clustering gerarchico un singolo oggetto non appartiene ad un solo gruppo ma a più gruppi a loro
dobbiamo scegliere due clusters il modo migliore sarà di raggruppare la sequenze gialla, arancione volta contenuti l'uno dentro l'altro. Nell'esempio in figura la forchetta ed il coltello appartengono al
e rossa in un primo gruppo e quelle rosa, viola e azzurra. Se volessimo fare invece tre gruppi gruppo delle posate, mentre il tegame e lo scolapasta appartengono al gruppo degli oggetti per
sarebbe meglio mettere la sequenza azzurra ( quella più lontana da tutte) da sola e fare altri due cucinare. Il bicchiere appartiene insieme al gruppo delle posate all'unico gruppo degli oggetti da tavola.
gruppi per le altre. A loro volta gli oggetti da tavola appartengono insieme agli oggetti per cucinare all'unico gruppo degli
strumenti da cucina. E per finire questi insieme al martello appartengono al gruppo degli oggetti di
casa.
Allo stesso modo in un albero filogenetico le sequenze sono raggruppate a gruppi di due in modo
gerarchico.
Gerarchico addittivo Distanza fra clusters
C
A B C D
2 A - 4 13 7 D 6
B - 8 3
5
C - 6
3
4
D -
7 5
1
(7+5)/2=6
5 B
4 -Single linkge
3 Distanza minima = 5
2 A
1 -Complete linkage
Distanza massima = 7

-Group Average
Distanza media = 6

Clustering gerarchico addittivo Distanza fra clusters e sequenze

Nell'ambito degli algoritmi di clustering gerarchico possiamo distinguere due tuipi fondamentali Nel clustering gerarchico di tipo addittivo ci si trova a dover valutare la distanza fra una sequenza ed
quelli di tipo addittivo e quelli di tipo sottrattivo. Nel clustering gerarchico addittivo si cominciano un cluster già formato (o anche la distanza fra due cluster diversi).
a raggrupparre oggetti (sequenze singole o cluster già formati) a coppie partendo dagli oggetti più La distanza fra due sequenze la possiamo trovare nella matrice di distanze, ma che vuol dire misurare
vicini, sino a quando non esiste un unico gruppo all'interno del quale ci siano tutte le sequenze. la distanza fra una sequenza ed un insieme di sequenze già raggruppate in un unico cluster?
Nella figura le due sequenze più vicine sono la gialla e l'arancione e si iniziano quindi a raggruppare E' possibile definire tre modi diversi per misurare la distanza fra due cluster, o fra un cluster ed una
quelle formando il cluster (gruppo) numero 1. Adesso le due sequenze più vicine sono la rosa e la sequenza.
viola che veno raggruppate di nuovo insieme formando il gruppo 2. Per formare il prossimo gruppo Un criterio è quello di scegliere come distanza fra due clusters la distanza minima possibile, ovvero
si vede che i due oggetti più vicini sono la sequenza rossa ed il gruppo numero 1 (sequenza gialla e quella che esiste fra le due sequenze più vicine fra di loro all'interno dei due clusters. Ad esempio
arancione insieme), che vengono quindi raggruppati insieme a formare il gruppo 3. La distanza nella figura la distanza minima fra la sequenza D ed il cluster AB è pari a 5 ovvero la distanza fra D e
minore è poi quella fra il gruppo 3 ed il gruppo 2 che vengono uniti a formare il gruppo 4. Ed infine B ( la sequenza più vicina a D all'interno del cluster).
vengono uniti il gruppo 4 e la sequenza azzurra a formare un ultimo gruppo. Un altro modo (altrettanto sensato) è quello di considerare invece per buona la distanza massima.
In un albero filogenetico le sequenze sono raggruppate a gruppi di due in modo gerarchico. Ovvero la distanza esistente fra gli elementi dei due cluster più lontani. Nella figura quindi la distanza
fra la sequenza D ed il cluster AB sarebbe la distanza fra D e A (la sequenza più lontana da D
all'interno del cluster) ovvero 7.
L'ultimo criterio (ed anche quello che useremo noi) è quello di decidere che la distanza fra due
clusters è data dalla distanza media fra tutti gli elementi che contengono. Nella figura quindi la
distanza tre D e AB è pari alla media fra la distanza DB (5) e la distanza DA(7) quindi 6 ((5+7)/2).
UPGMA Unweighted Pair Group Method using Averages UPGMA Unweighted Pair Group Method using Averages

A B C D
AB C D
A - 5 11 14
AB - 10 12
B - 9 10 2.5
C - 7 3.5
C - 7 2.5
A B D -
D -
C D A B
AB C D
AB - (AC+BC)/2= (AD+BD)/2= AB CD
(11+9)/2 (14+10)/2 AB - (AB,C+AB,D)/2=
C - 7 (10+12)/2=11
D - CD -

Unweighted pair group Method using averages UPGMA 2

Il più semplice dei metodi usati per costruire un albero filogenetico di sequenze a partire da una Adesso nella matrice delle distanze i due oggetti più vicini sono diventati la sequenza C e quella D
matrice di distanze è quello chiamato UPGMA (Unweighted pair group Method using averages). (distanza 7). I due oggetti vengono quindi raggruppato in un unico cluster e viene creato un nuovo nodo
Questo metodo altro non è che un algoritmo di clustering addittivo che usa per calcolare la dell'albero. Le sequenze C e D formano ora un unico gruppo sulla matrice delle distanze e le nuove
distanza fra una sequenza ed un cluster la distanza media fra la sequenza e tutte le sequenze del distanze vengono ricalcolate. La distanza fra AB e CD sarà quindi la media fra la distanza AB e C e fra
cluster. quella tra AB e D (ovvero 10 + 12 diviso 2).
Il metodo inizia scegliendo all'interno della matrice delle distnze la coppia di sequenze con la
distanza minima fra di loro (AB nella figura).
Le due sequenze formano quindi un primo cluster (cluster AB) e sono assegnate come figli ad un
primo nodo dell'albero (che rappresenta il cluster, o sequenza progenitrice).
Per calcolare la lunghezza dei rami si usa una distanza pari alla metà della distanza fra le due
sequenze (ovvero 2.5). In questo modo il percorso sull'albero per andare da una sequenza all'altra
è esattamente pari alla distanza fra le due sequenze (2.5 in salita da A al nodo AB + 2.5 in discesa
dal nodo AB alla sequenza B).
Una volta formato un primo cluster, questo prenderà il posto delle sequenze (Ae B) nella matrice.
A questo punto è necessario ricalcolare le distanze fra il nuovo cluster e tutte le altre sequenze.
Queste distanze usando il metodo il criterio della media, sarà pari alla media delle distanze della
sequenza con ognuna delle due sequenze che formano il cluster.
Nell'esempio quindi la distanza fra la sequenza C ed il cluster AB sarà pari alla media delle
distanze fra AC ed AB nella vecchia matrice (overo 11+9 diviso 2). Allo stesso modo può essere
calcolata la distanza fra la sequenza D ed il nuovo cluster.
Il metodo prosegue poi come prima considerando il cluster AB come un unica sequenza.
UPGMA Unweighted Pair Group Method using Averages Orologio molecolare
AB CD
AB - 11
CD - B

C A D B C

A D UPGMA assunzione
Ipotesi orologio molecolare valida
5.5
Ipotesi orologio molecolare
- Stessa distanza da radice
3.5 non valida
2.5

C D A B

UPGMA 3 Ipotesi orologio molecolare

Nell'ultimo pasaggio esistono solo più due oggetti da raggruppare che sono i cluster AB e CD. I due L'ipotesi dell'orologio molecolare afferma che la distanza fra due qualsiasi sequenze aumenta sempre
cluster sono uniti da un nuovo nodo sull'albero. in modo costante col passare del tempo. Questo significa che date una serie di sequenze che derivano
da un unica sequenza la distanza fra ognuna di loro e la sequenza progenitrice deve sempre essere
uguale.
Il metodo UPGMA genera degli alberi in cui tutte le foglie hanno la stessa distanza dalla radice e
quindi in cui tutte le sequenze che si considerano avranno rappresentate sull'albero una distanza
uguale (totale della lunghezza dei rami) dalla sequenza progenitrice (la radice).
Questo significa che se vogliamo costruire un albero filogenetico per una serie di sequenze all'interno
delle quali l'ipotesi dell'orologio molecolare non è valida (ad esempio esiste una sequenza che evolve più
lentamente delle altre per ragioni biologiche) non è possibile usare il metodo UPGMA altrimenti
otterremmo un risultato inesatto.
Quando si usano sequenze le cui distanze non concordano con l'ipotesi dell'orologio molecolare bisogna
usare un altro tipo di metodo di clustering.
Un albero costruito corretamente per questo tipo di sequenze apparire come l'albero in figura a, in cui
la distanza fra le sequenze e la radice sono differenti.
Distanze ultrametriche
A B C D A B C D
A - 4 8 8 A - 5 11 14
B - 8 8 B - 9 10
C - 6 C - 7
D - D -
Matrice con distanze Matrice con Distanze
ULTRAMETRICHE NON ULTRAMETRICHE

Date 3 sequenze e le loro 3 distanze

E’ sempre vero che D1<=(D2=D3)

Es: AB<=(AC=BC) 4<=(8=8)

Distanze ultrametriche

E' possibile verificare a priori data una matrice di distanze se è valida l'ipotesi dell'orologio
molecolare , e quindi se è corretto usare il metodo UPGMA per la costruzione dell'albero.
Il modo per farlo è quello di vedere se le distanze contenute nella matrice ultrametriche.
Una serie di distanze è detta ultrametrica se prese tre sequenze a caso e trovate sulla matrice le
loro distanze è sempre vero che delle tre distanze due sono uguali fra di loro e
contemporaneamente sono entrambe maggiori o uguali alla terza distanza.
Ad esempio se scegliamo nella matrice di figura a le sequenze A, B, e C e vero che la distanza tra A
e C e quella tra B e C sono uguali (entrambe 8) e sono maggiori della distanza fra A e B (4). E la
stessa cosa è vera qualunque insieme di tre sequenze si scelga.
Nella matrice di figura B invece le distanze non sono ultramertiche. Perchè scelte tre sequenze
qualunque si può verificare che la regola non è rispettata.
Es Prendendo AB, AC e AC non è mai vero che D1<=(D2=D3)