Sei sulla pagina 1di 9

Similitudine molecolare e ricerca di similitudine

La ricerca di sottostrutture implica la formulazione di un preciso


interrogativo (query) che viene poi usato per identificare delle
molecole all'interno di un database.
La ricerca per similitudine offre un approccio complementare, nel
quale linterrogativo in genere una intera molecola.
Si confronta la molecola-interrogativo con tutte le molecole del
database e si calcola un coefficiente di similitudine.
Le molecole che hanno un punteggio maggiore (basato sul coefficiente
di similitudine) sono i risultati della ricerca.
In uno scenario tipico la molecola-interrogativo una molecola che
possiede una attivit e l'obiettivo quello di trovare molecole che
potrebbero mostrare la stessa attivit.
Abbiamo quindi bisogno di trovare dei metodi per decidere come
calcolare una misura quantitativa della similarit fra due molecole.
Posto che "la similarit nell'occhio di chi guarda", la
somiglianza pu essere misurata tramite:
- classi di equivalenza: tutte le molecole che sono identiche ad un
certo livello di descrizione (per es. formula molecolare, grafo
senza distinzione di nodi e tipi di legame, numero di ring systems,
impronta digitale) sono considerate equivalenti.

esempio di 2 molecole diverse che, se si ignorano le etichette di


nodi ed archi, hanno lo stesso grafo
- misure di coefficienti di similarit numerici e misure di distanza
(che in un certo senso l'opposto della similarit).
Molti coefficienti di somiglianza sono definiti nell'intervallo da 0
a 1, con 1 che indica la massima similarit, anche se ci non
significa necessariamente che le molecole siano identiche.
La somiglianza spesso considerata come complementare alla
distanza, in modo tale che, se il coefficiente di similitudine S
definito fra 0 e 1, la sua sottrazione da 1 fornisce la 'distanza'
tra due molecole (D=1-S).
Vediamo come, avendo a disposizione delle sequenze di bit che
descrivono le molecole, possibile calcolare dei del coefficienti
di somiglianza (S) e delle distanze (D).
Assimo Maris - Chemioinformatica 2011/12

Consideriamo 2 stringhe A e B che corrispondono a due diverse


strutture:
stringa A 0 0 0 1 0 1 0 0 0 1 0 1 0 1 0 0 0 1 0 1 0 1 0 0 1 1 1 1 0 1 0 0
stringa B 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 1 0 0 0 0 1 1 1 0 0 0 0 0
definiamo:
- a il numero di bit 1 nella
stringa di bit A

- b il numero di bit 1 nella


stringa di bit B

- c=f11 il numero di bit 1


sia nella stringa A che nella
stringa B

- d=f00 il numero di bit 0


sia nella stringa A che nella
stringa B

- f10 il numero di bit 1 nella stringa di bit A, ma non nella


stringa B
- f01 il numero di bit 1 nella stringa di bit B, ma non nella
stringa A
- n la lunghezza delle stringhe di bit
struttura A
struttura B
f11

00010100010101000101010011110100
00000000100101001001000011100000
6
x x
x
xxx
c

Assimo Maris - Chemioinformatica 2011/12

A B
2

f00
f01
f10
f10+f11
f01+f11
f01+f10+f11

17xxx x xx x x xx x x xx
x xxd
2
x
x
7
x x
x
x
x
x x
13
x x
x x x
x x x xxxx x abits on in A
8
x x x x x
xxx
bbits on in B
15
x x xx x x xx x x xxxx x
A B
lunghezza
f00+f01+f10+f11 32xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxn
stringa
Introduciamo nelle tabelle che seguono alcune possibili definizioni
del coefficiente di somiglianza (S) e delle distanza (D):
Coefficienti di somiglianza:
Dice
Tanimoto
Czekanowski
Jaccard
Srenson
Hodgkin
A B
A B
c
S
abc
S

f 11
f11 f10 f 01

6
0.4
15

Cosine
Carbo
Ochiai

A B
A B
c
S
ab
2

S 2

f11
f f
f11 01 10
2

12
0.57
21

A B
A B
c

f 11 f 01 f11 f 10
S

ab

f 11

Simple Matching
Euclide

6
0.59
104

cd
n

f 11 f 00
f11 f 00 f 10 f 01
S

23
0.72
32

Distanze:
Soergel

Euclide
D

A B A B
A B
a b 2c
D
abc
f10 f 01
D
f11 f10 f 01

a b 2c

D a b 2c

f 10 f 01

D f10 f 01

27

A B A B

Dnorm

9 3

f 10 f 01
f11 f10 f 01 f 00

9
0.6
15

D 27 9

D A B A B

Dnorm

f10 f 01
f11 f10 f 01 f 00

Dnorm 1 S Simple _ Match

D 1 S Tanimoto

Hamming
Manhattan
City block

Dnorm

9
0.53
32

Dnorm

9
0.28
32

Il coefficiente di similitudine pi utilizzato per i dati molecolari


binari (come le chiavi strutturali o le impronte digitali) il
coefficiente Tanimoto: si divide il numero di bit "accesi" in
entrambe le molecole per il numero di bit accesi.
Assimo Maris - Chemioinformatica 2011/12

La distanza di Soergel pari al complemento a 1 del coefficiente


Tanimoto, mentre la distanza di Hamming pari al complemento a 1
del coefficiente normalizzato di Simple Match.
Osserviamo che mentre la distanza di Soergel ignora i bit 0 che sono
nulli in entrambe le molecole, le distanze di Euclide e di Hamming
considerano una comune assenza di caratteristiche come un indicatore
di similitudine. Purtroppo non esiste una definizione di distanza (o
coefficiente di similitudine) migliore delle altre in senso
assoluto.
Sono pi simili un cammello, un pesce e una formica perch senza
ali...

...o un pipistrello, una cicogna e una libellula perch hanno le


ali?

Queste molecole sono simili in quanto prive di eteroatomi?

Ma possiamo interpretare il significato delle formule proposte per


il calcolo della distanza considerando alcuni esempi geometrici.
Calcolaiamo la distanza fra i punti collegati dal cammino rosso
utilizzando le formule definite in precedenza:
Soergel
Euclide
Hamming
Manhattan
Assimo Maris - Chemioinformatica 2011/12

City block
D

f10 f 01
f11 f10 f 01

f 10 f 01

f 10 f 01
f11 f10 f 01 f 00

Dnorm

D 11

11
1
0 11

Dnorm

11
1
0 11 0

D 1 2

1 2
1
0 1 2

Dnorm
D

0 1
1

1 0 1 2
1
S Tanimoto
2

1 2
1
0 1 2 0
0 1

Dnorm

1 1

1
3

2
0.67
3
1

0.71
2

S Dice
S cosine

D f10 f 01

Dnorm

f10 f 01
f11 f10 f 01 f 00

D 11 2

Dnorm

11
1
0 11 0

D 1 2 3

Dnorm

1 2
1
0 1 2 0

D 0 1 1

Dnorm

1
3

S simple match

2
3

E' importante notare che le differenze nel modo in cui questi


parametri quantificano la somiglianza in una serie di composti
possono essere particolarmente marcate per le molecole semplici che
non contengono molte funzionalit.
Si considerino per esempio la cloro-promazina e la metossipromazina, due fenol-tiazine neurolettiche che differiscono solo per
la sostituzione di un gruppo metossile con un atomo di cloro.

Assimo Maris - Chemioinformatica 2011/12

La distanza
utilizzando
distanza di
Tanimoto)

di Hamming tra queste due molecole, calcolata


le impronte digitali hashed della Daylight 61 e la
Soergel (pari al complemento a 1 del coefficiente
0,28.

Le distanze di Hamming e di Soergel tra due molecole pi piccole che


si differenziano nello stesso modo (cloruro di metile e dimetiltioetere) sono rispettivamente 16 e 0,80.

Dunque la distanza di Hamming suggerisce che le due molecole pi


piccole si somiglino pi delle due molecole grandi, mentre la
distanza di Soergel suggerisce il contrario. Questa differenza di
risultati dovuta a pi ragioni:
- il denominatore della distanza di Soergel ha l'effetto di
normalizzare i risultati rispetto alla taglia della molecola.
- il numero di bit in comune fra molecole piccole in genere
piccolo e ci tende a produrre valori del coefficiente di Tanimoto
inerentemente piccoli.
- la distanza di Soergel ignora i bit 0 che sono nulli in entrambe
le molecole, mentre distanza di Hamming considera una comune assenza
di caratteristiche come un indicatore di similitudine.
Ovviamente non dobbiamo aspettarci risultati sempre allaltezza
delle aspettative, dato che il metodo ha i suoi limiti. Pu accadere
che molecole che il metodo giudica simili, non lo siano
effettivamente da un punto di vista biologico, come nellesempio che
viene riportato nella figura che segue.

Assimo Maris - Chemioinformatica 2011/12

Con IC50 si indica la concentrazione inibente ovvero la


concentrazione di un inibitore enzimatico (farmaco, tossina o
veleno, ecc.) necessaria per inibire il 50% del bersaglio in esame
Coefficienti di similarit asimmetrici
Usualmente pensiamo che se A simile a B, allora B simile ad A.
Alcuni coefficienti sono stati definiti in modo che ci non sia
vero, ovvero: S(A,B) S(B,A)
Per esempio il coefficiente di Tversky:

f11
f11 f10 f 01

dove e sono parametri definiti dall'utente


Osserviamo che:
- se ==1 la formula d il coefficiente di Tanimoto S

- se ==1/2 la formula d il coefficiente di Dice

f11
f11 f10 f 01

f11
f f
f11 10 01
2

- se il coefficiente asimmetrico, in particolare se =1 e =0


f11
allora S
indica la frazione di A che A ha in comune con B:
f11 f10
Assimo Maris - Chemioinformatica 2011/12

f 11
1 indica che A una sottostruttura di B (a livello di
f 11 f10
impronte digitali),

-- S

-- S

f11
1 indica che A quasi una sottostruttura di B
f11 f10

E' dunque possibile effettuare la ricerca di sottostruttura con un


metodo basato sulla somiglianza delle impronte digitali piuttosto
sua ricerca di sottografo. Si tratta di un metodo pi veloce, ma il
numero di frammenti in comune sar minore.
Regola del 5 di Lipinski
Nel 1997 Christopher Lipinski formul la cosiddetta Regola del 5 che
afferma che un potenziale farmaco somministrabile per via orale deve
soddisfare i seguenti requisiti:
1) le molecole non devono avere una massa molecolare maggiore di 500
dalton (PM < 500). Infatti se le molecole fossero troppo voluminose
e pesanti sarebbero difficilmente assimilabili ed incontrerebbero
troppa difficolt nel processo di diffusione;
2) non ci devono essere pi di 5 donatori di ponti idrogeno: troppi
ponti idrogeno rendono la molecola eccessivamente polare,
impedendone la diffusione nelle parti lipofile;
3) non ci devono essere pi di 10 accettori di ponti idrogeno (di
solito atomi di ossigeno, azoto);
4) la molecola deve avere un log P (il logaritmo del coefficiente di
ripartizione) che deve essere minore di 5 (log P < 5).

Assimo Maris - Chemioinformatica 2011/12

La regola, che permette di ridurre il campo di indagine diminuendo


drasticamente il numero di molecole nelle quali ricercare un
potenziale farmaco stata dedotta empiricamente analizzando
l'immensa mole di informazioni accumulatasi dopo decenni di ricerca
in campo farmacologico, e affronta il problema della cinetica
farmacologica semplificandola drasticamente e riducendola a soli due
concetti: assorbimento (una molecola sar meglio assorbita se di
piccole dimensioni) e permeazione (una molecola attraverser meglio
le membrane se non sar troppo idrofila).
Attenzione: trattandosi di una regola empirica estrapolata
applicabile solo per farmaci somministrabili per via orale e con una
validit statistica del 90%!
Successivamente sono stati messi a punto anche altri parametri, come
ad esempio:
log P = -0.4/+5.6
Rifrattivit molare = 40-130
Peso molecolare = 160-500 amu
Numero di atomi = 20-70
Area della superficie polare 140
Quello che interessante che tali propriet sono calcolabili
dalle rappresentazioni molecolari e non necessariamente dalle
molecole vere!

Assimo Maris - Chemioinformatica 2011/12