Sei sulla pagina 1di 255

L

Biomolecole

Rodomontano

1
Sommario

1 Glucidi .................................................................................................................................... 3
1.1 Monosaccaridi ................................................................................................................. 3
1.2 Glicosidi ......................................................................................................................... 12
1.3 Disaccaridi ..................................................................................................................... 14
1.4 Derivati dei monosaccaridi ............................................................................................. 16
1.4.1 Zuccheri acidi......................................................................................................... 16
1.4.2 Zuccheri alcolici ..................................................................................................... 18
1.4.3 Amminozuccheri .................................................................................................... 18
1.4.4 Esteri degli zuccheri ............................................................................................... 18
1.4.5 Derivati complessi dei monosaccaridi .................................................................... 20
1.5 Polisaccaridi .................................................................................................................. 21
2 Lipidi .................................................................................................................................... 27
2.1 Acidi Grassi ................................................................................................................... 27
2.1.1 Acidi grassi essenziali ............................................................................................ 28
2.2 Lipidi semplici ................................................................................................................ 33
2.2.1 Trigliceridi .............................................................................................................. 33
2.2.2 Ceridi ..................................................................................................................... 35
2.2.3 Steridi .................................................................................................................... 36
2.2.4 Ceramdi (Sfingolipidi) ............................................................................................ 39
2.3 Lipidi composti............................................................................................................... 40
2.3.1 Glicerofosfatidi ....................................................................................................... 40
2.3.2 Sfingofosfatidi ........................................................................................................ 44
2.3.3 Gliceroglicolipidi ..................................................................................................... 45
2.3.4 Sfingoglicolipidi ...................................................................................................... 46
3 Protidi................................................................................................................................... 49
3.1 Struttura primaria ........................................................................................................... 60
3.2 Struttura secondaria ...................................................................................................... 60
3.2.1 Le proteine filamentose o fibrose ........................................................................... 82
3.2.2 Rappresentazione delle strutture secondarie ......................................................... 84
3.2.3 Assegnazione delle strutture secondarie................................................................ 87
3.2.4 Strutture supersecondarie: motivi, fold e domini ..................................................... 97
3.2.5 Motivi ..................................................................................................................... 98
3.2.6 Domini (Fold) ....................................................................................................... 103
3.2.7 Dominio vs Fold ................................................................................................... 152
3.3 Struttura terziaria: le proteine globulari ........................................................................ 159
3.4 Struttura quaternaria .................................................................................................... 163
3.5 Il folding ....................................................................................................................... 164
3.5.1 Il problema del folding ed il paradosso di Levinthal .............................................. 169
3.5.2 Problema del folding: la cinetica .......................................................................... 170
3.5.3 Modelli di folding .................................................................................................. 180
3.5.4 Problema del folding: la termodinamica ............................................................... 181
3.5.5 Problema del folding: la predizione della struttura nativa ..................................... 216
3.5.6 Disordini di folding ............................................................................................... 242
4 Acidi nucleici: DNA ed RNA ............................................................................................. 243
4.1 I nucleotidi e le basi azotate ........................................................................................ 243
4.2 La struttura secondaria del DNA: la doppia elica ......................................................... 245
4.3 Funzioni biologiche del DNA ........................................................................................ 245
4.4 La struttura secondaria dellRNA ................................................................................. 248
4.5 Funzioni biologiche dellRNA ....................................................................................... 248
4.6 Derivati dei nucleotidi: ATP e NAD .............................................................................. 254

2
1 Glucidi

In natura i glucidi (o carboidrati o zuccheri) si trovano come zuccheri semplici o


monosaccaridi e zuccheri composti da 2 o pi monosaccaridi. In quest'ultimo caso si parla
rispettivamente di disaccaridi e polisaccaridi.
I glucidi sono costituiti solo da tre elementi chimici: Carbonio, Idrogeno e Ossigeno.

1.1 Monosaccaridi
I monosaccaridi sono formati da catene di atomi di carbonio, costituite da un minimo di 3 ad
un massimo di 7 atomi. In relazione al numero di atomi della loro catena carboniosa si
classificano in triosi, tetrosi, pentosi, esosi ed eptosi.

I monosaccaridi pi diffusi in natura sono quelli con sei (esosi) e con cinque (pentosi) atomi
di carbonio. I pentosi e gli esosi si chiudono in genere ad anello.

I monosaccaridi sono caratterizzati dalla presenza di due gruppi funzionali: l'ossidrile ed il


carbonile.

Un monosaccaride presenta il primo o il secondo atomo di carbonio della catena unito ad un


atomo di ossigeno con un doppio legame covalente (gruppo funzionale carbonilico), mentre
tutti gli altri atomi di carbonio sono uniti con un gruppo ossidrilico. Tutti i rimanenti legami del
carbonio vengono saturati dall'idrogeno. I monosaccaridi con il carbonile in C 1 sono
chimicamente delle aldeidi e dunque sono detti aldosi, mentre i monosaccaridi con il cabonile
in C2 sono chimicamente dei chetoni e dunque sono detti chetosi.
Lulteriore presenza di numerosi gruppi ossidrili lungo la catena carboniosa permette di
classificarli chimicamente come poliidrossiladeidi e poliidrossichetoni.

La desinenza -osio caratterizza i nomi dei monosaccaridi (glucosio, fruttosio etc).

Costruiamo un esoso generico con il carbonile in C1 (aldoesoso) ed in C2 (chetoesoso)

H 1 O H
C CHO 1
2 H C OH CH2OH
H C OH H OH
3
2 C O O
H C OH H OH 3
4
H C OH H OH
H C OH H OH 4
5
H C OH H OH
H C OH H OH 5
6
H C OH H OH
H C OH 6
CH2OH H C OH CH2OH
H H
Aldoesoso Chetoesoso

Queste sono le formula di struttura di un esoso generico. Esistono infatti diversi esosi con la
stessa formula bruta C6H12O6, che differiscono tra loro per la posizione dei 5 gruppi ossidrili ( a
destra o a sinistra della catena carboniosa). L'esoso di gran lunga pi diffuso in natura il
glucosio che, nella proiezione di Fisher, presenta l'ossidrile in C3 a sinistra.

Tutti i monosaccaridi sono caratterizzati dalla formula bruta generica C nH2nOn. In altre parole
C, H ed O sono sempre presenti nel rapporto di 1:2:1. Per ogni atomo di carbonio ve ne sono 2

3
di idrogeno ed 1 di ossigeno. Poich l'idrogeno e l'ossigeno sono presenti nelle stesse
proporzioni in cui si trovano nella molecola d'acqua (2:1), i glucidi vengono anche detti
carboidrati (idrati di carbonio). Ci non significa naturalmente che nella loro molecola esista
acqua in quanto tale.

La presenza di numerosi ossidrili, caratterizzati da una elevata polarit, rende i monosaccaridi


facilmente solubili in acqua

I monosaccaridi rappresentano il combustibile per eccellenza delle cellule. In particolare il


glucosio che pu essere velocemente trasportato e "bruciato" per fornire energia indispensabile
alla vita. L'energia si trova concentrata soprattutto nei legami C-H, pi energetici dei legami C-
O.
Molti monosaccaridi esplicano comunque anche altre funzioni biologiche, fungendo soprattutto
da mattoni chimici per la costruzione di molecole complesse.

I pi semplici monosaccaridi sono i triosi.

L'aldeide glicerica o gliceraldeide, il pi semplice tra gli zuccheri naturali, un aldotrioso che
rappresenta un importante intermedio nel metabolismo degli zuccheri. (ciclo di Calvin)

La gliceraldeide ha un centro stereogenico in C2 e quindi presenta due enantiomeri

Per gli zuccheri a catena aperta si utilizzano le proiezioni di Fisher. nelle quali la molecola va
disegnata con la catena carboniosa disposta verticalmente, orientata con il carbonio pi
ossidato (C1 o C2) verso lalto. I legami su ogni carbonio vengono rappresentati a croce. Per
convenzione, i legami verticali sono diretti sotto il piano del foglio e quelli orizzontali sono
rivolti sopra il piano del foglio, verso chi guarda.

Ad esempio, i due enantiomeri della gliceraldeide, rappresentati qui sopra con le proiezioni di
Fischer, equivalgono alle seguenti rappresentazioni a cunei.

4
Per ottenere una proiezione di Fisher necessario effettuare opportune rotazioni intorno ai
legami C-C in modo che la catena carboniosa si disponga in modo curvilineo ed i suoi legami
si orientino verso la parte concava della curva.

A questo punto necessario proiettare la catena su di un piano, immaginando di osservarla


dalla parte concava.

Per i monosaccaridi sono ancora molto usati i descrittori di configurazione relativa


(stereodescrittori) D/L. Essi vengono attribuiti in relazione alla configurazione del centro
stereogenico della gliceraldeide (carbonio C2).
stato infatti convenuto di assegnare configurazione D (dexter) allenatiomero della
gliceraldeide che porta lossidrile a destra nella proiezione di Fisher e configurazione L
(laevus) allenantiomero che presenta lossidrile a sinistra).

5
Tutti gli altri monosaccaridi possono essre classificati in relazione alla configurazione del loro
ultimo stereocentro (il penultimo atomo di carbonio), detto, per questo motivo, centro
stereogenico principale.

Appartengono alla serie D i monosaccaridi che presentano lossidrile principale (-OH legato
al penultimo atomo di carbonio in basso nelle proiezioni di Fisher) a destra.
Appartengono alla serie L i monosaccaridi che presentano lossidrile principale a sinistra

In realt non tutti i monosaccaridi si presentano a catena aperta. Gli esosi ed i pentosi in
soluzione acquosa tendono infatti a chiudersi ad anello poich il gruppo carbonilico reagisce
con un ossidrile della medesima molecola formando un composto eterociclico (con l'ossigeno
che fa da ponte tra gli atomi di carbonio coinvolti nella reazione di ciclizzazione).

I monosaccaridi chiusi ad anello possono essere chimicamente definiti emiacetali ciclici (se si
formano da un aldoso) o emichetali ciclici (se si formano da un chetoso).
Un emiacetale si forma infatti dalla reazione tra un aldeide ed un alcol,

mentre dalla reazione di un chetone con un alcol si forma un emichetale

Lulteriore reazione di condensazione di un emiacetale (o di un emichetale) con un alcol porta


alla sostituzione dellossidrile con un gruppo OR con formazione di un acetale (o di un
chetale).

6
Poich in un monosaccaride la funzione alcolica (-OH) che reagisce con il carbonio carbonilico
(>C=O) si trova sulla medesima catena carboniosa, la reazione emiacetalica (o emichetalica)
porta alla formazione di un ciclo

In linea di principio tale reazione potrebbe avvenire con un qualunque ossidrile della catena
carboniosa, tuttavia le reazioni di gran lunga favorite sono quelle che conducono alla
formazione di cicli esagonali e pentagonali detti rispettivamente piranosi e furanosi (dal
nome degli eteri ciclici pirano e furano).

Le forme piranosiche e furanosiche risultano pi stabili, rispetto ad altre forme cicliche, in


quanto gli angoli interni non si discostano troppo dallangolo naturale del carbonio tetraedrico.

Ad esempio, nel glucosio lossidrile in C5 reagisce con il gruppo aldeidico in C1 per dare un
anello emiacetalico piranosico

Il processo di ciclizzazione trasforma il carbonio carbonilico in un nuovo stereocentro (carbonio


asimmetrico con 4 sostituenti diversi), consentendo lesistenza di due stereoisomeri, detti
anomeri. Il nuovo atomo di carbonio asimmetrico detto carbonio anomerico. I due
anomeri sono detti e .

Lanomero presenta, nelle proiezioni di Fisher, lossidrile anomerico dallo stesso lato
dellossidrile principale (il penultimo ossidrile in basso)

Lanomero presenta, nelle proiezioni di Fisher, lossidrile anomerico dal lato opposto
dellossidrile principale (il penultimo ossidrile in basso)

7
Per le strutture cicliche dei monosaccaridi si usano spesso le proiezioni di Haworth, in cui
lanello viene rappresentato in prospettiva, come se attraversasse il foglio, con lossigeno
eterociclico posto in alto ed il carbonio anomerico (C1 o C2) a destra.
La parte dellanello pi vicina al lettore (al di sopra del piano del foglio) viene tracciata con
segni grafici pi spessi e la parte pi lontana con segni pi sottili.

I vari sostituenti come H, OH, CH2OH, ecc sono sistemati parallelamente al piano del foglio e
vengono rappresentati in modo da evidenziare la loro posizione, sopra o sotto il piano
dellanello.

I sostituenti che nella proiezione di Fisher si trovano a sinistra della catena carboniosa vanno
disegnati sopra il piano dellanello, quelli che si trovano a destra vanno rappresentati sotto il
piano

Il glucosio che, come abbiamo detto si chiude ad esagono in tale forma detto
glucopiranosio

Nelle proiezioni di Haworth del glucosio, lanomero (36%) porta lossidrile anomerico sotto il
piano molecolare, mentre lanomero (64%) porta lossidrile anomerico sopra il piano
molecolare

8
Le proiezioni di Haworth possono essere utilizzate anche per rappresentare un anomero
generico. In questo caso lossidrile anomerico viene disegnato sul piano della molecola.

Le proiezioni di Haworth possono essere modificate in modo da rappresentare le conformazioni


molecolari dei monosaccaridi (proiezioni conformazionali), con gli atomi ed i legami in una
posizione pi naturale e rispettosa della forma effettiva della molecola. Per le forme
piranosiche (esagonali), ad esempio, la conformazione pi stabile quella a sedia.

Le proiezioni conformazionali ci permettono di comprendere il motivo per cui lanomero del


glucosio sia leggermente pi stabile dellanomero e quindi anche la ragione per cui, in
soluzione acquosa, sia presente in proporzione maggiore allequilibrio. Si noti infatti come
lossidrile anomerico occupi una posizione equatoriale (minor ingombro).

Il fruttosio (chetoesoso) in soluzione acquosa a 25C presente per meno dell1% a catena
aperta, per circa il 27% in forma di fruttofuranosio

9
e per il restante 73% in forma di fruttopiranosio.

Il fruttosio solido cristallino costituito da -fruttopiranosio, che costituisce lunica forma


dolce del fruttosio. Tuttavia, non appena posto in soluzione si converte in tutte e quattro le sue
possibili forme molecolari in reciproco equilibrio.

Il fruttosio ha un potere dolcificante superiore a quello di qualsiasi altro zucchero e quindi, per
ottenere la stessa sensazione di dolcezza possibile usarne meno. Tuttavia allaumentare della
temperatura lequilibrio tra le sue forme cicliche si sposta verso le forme furanosiche (non
dolci). Questo significa che a 40 C fruttosio e saccarosio hanno pi o meno la stessa
dolcezza, mentre a 60 C il fruttosio, per molte persone, risulta circa il 20 per cento meno

10
dolce del saccarosio. Un elemento da tener presente quando si deve scegliere il tipo di
zucchero per dolcificare una bevanda bollente .
Tra gli aldoesosi pi diffusi ricordiamo il galattosio (ossidrili C3 e C4 a sinistra nella proiezione
di Fisher) che si trova abbondante nel latte. Esiste sia nella forma aperta, che nelle forme
cicliche piranosiche (lossigeno fa da ponte tra C1 e C5) e furanosiche (lossigeno fa da ponte
tra C1 e C4). Le forme furanosiche si trovano in batteri, funghi e protozoi.

Tra i pentosi ricordiamo il ribosio, un aldopentoso fondamentale per la costruzione di molte


sostanze organiche complesse, tra cui gli acidi nucleici (DNA ed RNA). In soluzione acquosa la
catena aperta ciclizza quasi completamente. A 40C meno dell1% del ribosio rimane in forma
aperta, il 76% presente in forma piranosica, mentre il rimanente 24% presente in forma
furanosica. In entrambe le forme cicliche gli anomeri beta sono presenti allequilibrio in
maggior concentrazione.

La forma che entra nella costruzione dellRNA il ribofuranosio

Ricordiamo anche il 2-desossiribosio che costituisce uno dei mattonii fondamentali per la
sintesi del DNA. Rispetto al ribosio presenta lossidrile in C2 sostituito con un atomo di
idrogeno.

11
1.2 Glicosidi
La reazione di condensazione tra un alcol e lossidrile anomerico di un monosaccaride ciclico
porta alla sostituzione di questultimo con il gruppo alcossido OR dellalcol e formazione di un
glicoside.
Poich, come abbiamo visto, un monosaccaride ciclico pu essere considerato un emiacetale
(o un emichetale, a seconda che derivi da un aldoso o da un chetoso), un glicoside pu essere
chimicamente classificato come un acetale (o un chetale) >C(OR)2

Il legame che tiene unita la parte zuccherina (detta glicone) alla parte non zuccherina (detta
aglicone o genina) tramite un atomo di ossigeno detto legame glicosidico. Quando il
glicone il glucosio il glicoside viene detto glucoside.

I glicosidi sono diffusi nel mondo vegetale, dove rappresentano fonti di immagazzinamento
degli zuccheri. L'uomo si serve di tali composti utilizzandoli principalmente in campo
farmacologico o come additivi alimentari (conservanti e aromatizzanti), sfruttando la loro
capacit di rendere solubili e quindi facilmente trasportabili molecole apolari sotto forma di
frazione agliconica, le quali poi, allinterno dellorganismo, vengono rese facilmente
biodisponibili tramite idrolisi del legame glicosidico.

Il glicoside prende il nome dal monosaccaride da cui deriva, preceduto dal nome del residuo
alchilico cui legato, sostituendo la desinenza osio con la desinenza oside
(alchilglicoside).

12
Nella reazione di sintesi viene rispettata la configurazione dellanomero.
Se lossidrile anomerico appartiene ad un anomero il legame si definisce glicosidico
Se lossidrile anomerico appartiene ad un anomero il legame si definisce glicosidico

Il legame glicosidico che si ottiene per reazione di uno zucchero con un alcol detto O-
glicosidico. Sono infatti possibili anche legami S-glicosidici ed N-glicosidici, che si
generano quando lossidrile anomerico reagisce con un gruppo solfidrilico SH o un gruppo
amminico NH2.

Importanti N-glicosidi sono i nucleosidi, che si formano dalla reazione di condensazione tra il
-ribofuranosio e la basi azotate (adenina, uracile, citosina e guanina) e che entrano nella
formazione degli acidi nucleici.

I glicosidi che si formano dalla reazione di condensazione tra lossidrile anomerico di un


monosaccaride e lossidrile alcolico di una molecola non zuccherina sono detti eteroglicosidi.

I glicosidi che si formano dalla reazione di condensazione tra lossidrile anomerico di un


monosaccaride e lossidrile alcolico di un altro monosaccaride sono detti omoglicosidi o
disaccaridi.

13
1.3 Disaccaridi
Lossidrile anomerico di un monosaccaride pu formare un legame glicosidico con lossidrile di
un secondo monosaccaride con perdita di una molecola dacqua, tramite una reazione detta di
condensazione. I due monosaccaridi si uniscono a formare un disaccaride.
Poich nella reazione sono coinvolti un ossidrile emiacetalico (anomerico) ed un ossidrile
alcolico, la formazione di un disaccaride equivale alla sintesi di un acetale.

La reazione opposta prende il nome di idrolisi.

Se lossidrile anomerico appartiene ad un anomero il legame si definisce glicosidico


Se lossidrile anomerico appartiene ad un anomero il legame si definisce glicosidico

I due anomeri del glucosio, ad esempio. possono formare i seguenti due dimeri:
Il maltosio, un disaccaride che si genera dallidrolisi dellamido dei semi durante la loro
germinazione, in cui il legame che tiene unite le due molecole di glucosio detto 1-4
glicosidico o (14) glicosidico (1-4 poich interessa gli atomi di carbonio C1 (anomerico) e
C4).

Il cellobiosio, un disaccaride che si genera dalla digestione enzimatica della cellulosa, in cui il
legame che tiene unite le due molecole di glucosio detto 1-4 glicosidico o (14)
glicosidico.

14
il saccarosio (il comune zucchero da cucina) si forma dalla condensazione di una molecola di
glucosio (-glucopiranosio) con una di fruttosio (-fruttofuranosio) Il legame glicosidico
interessa gli atomi di carbonio anomerici di entrambi i monosaccaridi e, per questo motivo, il
legame detto (12) glicosidico (vengono indicate entrambe le configurazioni). Il fatto
che siano coinvolti nel legame entrambi gli ossidrili anomerici fa del saccarosio un disaccaride
particolarmente energetico. La sua idrolisi libera quasi il doppio dellenergia liberata dagli altri
disaccaridi.

il lattosio si forma dalla condensazione di una molecola di -galattosio con una di -glucosio
con legame (14) glicosidico.

15
1.4 Derivati dei monosaccaridi

1.4.1 Zuccheri acidi


Gli acidi uronici (o alduronici) sono acidi monocarbossilici derivati dall'ossidazione a gruppo
carbossilico del gruppo alcolico primario (gruppo -CH2OH terminale) degli aldosi.

l'acido glucuronico, derivante dall'ossidazione in C6 del D-glucosio, consente il trasporto


ematico di sostanze insolubili.

Gli ormoni steroidei, ad esempio (che sono insolubili in acqua) si trovano nel sangue e nelle
urine prevalentemente come glucuronidi (glucosidi dell'acido glucuronico).
Anche il fenolo, tossico per l'uomo, viene eliminato come glucuronide con formazione di un
legame glicosidico che produce una molecola idrosolubile.

Inoltre l'anione dell'acido glucuronico, lo ione glucuronato, in grado di legarsi a farmaci,


tossine e agenti cancerogeni producendo derivati pi solubili in acqua che possono essere
rimossi pi facilmente dal sangue mediante filtrazione glomerulare (urina)

Gli acidi aldonici sono acidi monocarbossilici derivati dall'ossidazione a gruppo carbossilico del
gruppo aldeidico degli aldosi.

l'acido gluconico, derivante dall'ossidazione in C1 D-glucosio, presente naturalmente nella


frutta, miele e vino.

Gli acidi aldarici sono acidi bicarbossilici derivati da un aldoso per ossidazione di entrambi gli
atomi di carbonio terminali a gruppi carbossilici.
L'acido glucarico il prodotto finale del metabolismo dell'acido glucuronico. Un suo aumento
nelle urine pu essere considerato un indice di una esposizione a sostanze tossiche.

16
17
1.4.2 Zuccheri alcolici
Dalla blanda riduzione del carbonile di un monosaccaride si ottengono degli alcoli poliossidrilici
detti alditoli (o polioli o polialcoli). Il loro nome si ottiene da quello del monosaccaride da
cui derivano sostituendo la desinenza osio con itolo.

Gli alditoli sono molecole lineari che non possono ciclicizzare alla maniera degli aldosi.
presentano tuttavia anch'essi un caratteristico sapore dolce. Il sorbitolo (o glucitolo), il
mannitolo e lo xilitolo, ad esempio, derivati rispettivamente dal glucosio, dal mannosio e
dallo xilosio, sono ampiamente usati per dolcificare gomme e caramelle senza zucchero.
Il glicerolo entra nella sintesi dei lipidi (trigliceridi)

1.4.3 Amminozuccheri
Gli amminozuccheri sono costituiti da monosaccaridi in cui un ossidrile (solitamente in C2)
sostituito da un gruppo amminico. Gli amminozuccheri pi comuni sono la glucosammina
(derivata dal glucosio), la galattosammina (dal galattosio).

1.4.4 Esteri degli zuccheri


Gli ossidrili alcolici degli zuccheri possono essere esterificati sia dagli acidi inorganici che dagli
acidi organici (in particolare dagli acidi grassi = acidi monocarbossilici a lunga catena
carboniosa).

Gli esteri degli acidi grassi sono largamente usati nellindustria cosmetica ed alimentare per le
loro propriet tensioattive ed emulsionanti.

Il laurato di saccarosio, ad esempio, un estere zuccherino dellacido laurico, viene usato come
emulsionante nei saponi, creme, shampoo essendo in grado di miscelare liquidi che
normalmente non si mescolano come l'olio e l'acqua.
Inoltre, avendo dimostrato propriet fungicide e di inibizione della crescita delle spore di
Clostridium, viene aggiunto come conservante negli alimenti.

18
Particolare importanza rivestono gli esteri dei monosaccaridi con lacido fosforico, essendo
presenti in tutte le cellule come intermedi del metabolismo dei carboidrati
Di norma lacido fosforico esterifica gli ossidrili alcolici primari dei monosaccaridi. Per
fosforilazione del glucosio e del ribosio si formano, ad esempio il glucosio-6-fosfato (G6P),
ed il ribosio-5-fosfato (R5P), importanti intermedi del metabolismo ossidativi.

Il ribosio-5-fosfato formando un legame N-glicosidico con ladenina forma ladenosina


monofosfato (AMP), precursore dellATP

19
Il fruttosio avendo due gruppi alcolici primari (in C1 e C6) pu dare sia il F1P che il F6P come il
fruttosio-1,6-difosfato

1.4.5 Derivati complessi dei monosaccaridi


Un monosaccaride pu subire pi di una delle modificazione finora viste e legarsi anche con
altre molecole formando in questo modo derivati complessi dei monosaccaridi.
Ad esempio, il gruppo amminico della glucosammina viene facilmente acetilato, per
trasformarsi in acetilglucosammina, un derivato dei monosaccaridi che forma importanti
polimeri di interesse biologico (ad esempio lacido ialuronico, un componente fondamentale
del tessuto connettivo o la chitina, che costituisce lesoscheletro di crostacei ed insetti).

Il gruppo acetile CH3CO- il gruppo acilico che idealmente si forma quando eliminiamo
lossidrile dellacido acetico CH3COOH.

Lossidrile in C3 della glucosammina pu formare un legame etereo con lossidrile in C2


dellacido lattico (acido 2-idrossipropanoico) per formare lacido acetilmurammico (o
acetilmuramico), molecola che entra nella formazione della mureina o peptidoglicano , un
polisaccaride unito ad amminoacidi che forma e d rigidit alla capsula batterica.

20
1.5 Polisaccaridi
Naturalmente la condensazione pu avvenire tra molte molecole di monosaccaride formando
lunghe catene polimeriche, variamente ramificate. In questo modo gli esseri viventi
sintetizzano i polisaccaridi (o glicani).

Se un polisaccaride costituito da un solo tipo di molecola viene detto omopolisaccaride (o


omoglicano), in caso contrario viene definito eteropolisaccaride.

Il costituente di gran lunga pi comune dei polisaccaridi il D-glucosio.


Gli omopolisaccaridi formati da glucosio si definiscono glucani (o glucosani), quelli formati da
galattosio si dicono galattani (o galattosani), quelli composti da fruttosio si dicono fruttani
(o fruttosani) etc

Gli omopolisaccaridi che presentano un unico tipo di legame glicosidico possono riportare nel
loro nome il tipo di collegamento. Ad esempio la cellulosa, costituita solo da monomeri di D-
glucosio legati con legami o (14) glicosidici pu essere definita (14)-D-glucano

I polisaccaridi differiscono, non solo per il tipo dei monosaccaridi che li compongono e dei
legami glicosidici che li legano, ma anche per la lunghezza delle loro catene ed il tipo e la
quantit delle eventuali ramificazioni.

Certi polisaccaridi vengono sintetizzati per immagazzinare riserve di zuccheri, altri hanno
invece funzioni strutturali (servono alla cellula come materiale da costruzione).

L'amido il pi diffuso polisaccaride di riserva vegetale. Si trova abbondante nei semi e nei
tuberi delle piante. composto da due polimeri: l'amilosio (che ne costituisce circa il 20%) e
l'amilopectina (circa l'80%). In entrambi i casi si tratta di polimeri del glucosio, che si
differenziano l'uno dall'altro per la struttura.

L'amilosio un polimero lineare che tende ad avvolgersi ad elica, in cui le unit di glucosio
sono legate tra loro con legami (14) glicosidici

21
L'elica costituita da 6 molecole di glucopiranosio (glucosio) per spira, stabilizzate da legami a
idrogeno come nel DNA.

L'amilopectina invece un polimero ramificato che presenta catene di base di struttura simile
all'amilosio sulle quali, in media ogni 25 unit di glucosio, si innestano catene laterali
attraverso legami (16).

22
Negli animali la funzione di polisaccaride di riserva svolta dal glicogeno, un polimero del
glucosio altamente ramificato con legami 1-4 e 1-6 glicosidici, che si concentra soprattutto
nei muscoli e nel fegato. La struttura del glicogeno dunque analoga a quella
dellamilopectina, tuttavia nel glicogeno presente una maggior frazione di legami (16)
glicosidici e di conseguenza un maggior numero di ramificazioni.

I punti di ramificazione nel glicogeno si presentano in media ogni 10 residui circa, mentre
nell'amilopectina si verificano ogni 25 residui circa . L'elevato grado di ramificazione nel
glicogeno ha importanti effetti fisiologici. Quando il corpo ha bisogno di energia, molte
molecole di glucosio possono infatti essere contemporaneamente rimosse dalle estremit di
ciascuna delle diverse ramificazioni.

Nelle piante alcuni polisaccaridi presentano importanti funzioni strutturali. Il pi importante tra
essi certamente la cellulosa (con legami 1-4 glicosidici), un polimero del glucosio utilizzato
dalle cellule vegetali per formare la parete cellulare, un rivestimento protettivo esterno alla
membrana cellulare.

La maggior parte degli animali non possiede l'enzima necessario per idrolizzare il legame 1-4
glicosidico (beta-glucosidasi) che tiene unite le molecole di glucosio nella cellulosa. I
mammiferi erbivori sono in grado di utilizzare in parte il glucosio della cellulosa grazie alla
presenza nel loro apparato digerente di batteri simbionti capaci di idrolizzarla.

Negli esseri viventi animali pi raro trovare polisaccaridi con funzioni strutturali. Possiamo
ricordare comunque la chitina, un polisaccaride costituito da un derivato acetilato della
glucosammina (un amminozucchero), lacetilglucosammina con legami 1-4 glicosidici. La
chitina ha una struttura analoga alla cellulosa con un gruppo amminico acetilato al posto
dellossidrile in C2 di ciascun residuo. utilizzata dai crostacei e dagli insetti per costruire i
loro esoscheletri.

23
Un interessante esempio di fruttano (polimero del fruttosio) rappresentato dai frutto-
oligosaccaridi (FOS), formati da catene di unit di -fruttofuranosio legate con legami
(21) glicosidici e terminanti con una unit di -glucosio. Il glucosio si lega al fruttosio con
un legame (12) glicosidico, lo stesso che tiene unite le due molecole nel saccarosio.
La formula generale GFn. Quando n supera le 10 unit il fruttano viene considerato un
polisaccaride e prende il nome di inulina.

FOS e inulina sono presenti nei tessuti di molti vegetali, soprattutto cicoria, carciofo, cipolla,
aglio, topinambur. Costituiscono delle fibre vegetali solubil con funzione prebiotica.
I prebiotici sono sostanze che attraversano l'intestino tenue senza essere degradate ed
arrivano dunque intatte al crasso, dove favoriscono la crescita dei batteri simbionti. Non a
caso molti prodotti a base di fermenti lattici contengono anche inulina.

24
Possiamo infine ricordare i glicosamminoglugani (GAG), una importante famiglia di
eteropolisaccaridi strutturali extracellulari, costituiti dalla successione lineare (non ramificata)
di dimeri, in cui una delle due unit costituita da un amminozucchero e laltra (o entrambe)
presenta un gruppo negativo (tipicamente solfato o carbossilato).

Il condroitin solfato, ad esempio, un componente essenziale del tessuto connettivo (dove va


a formare con la componente proteica i proteoglicani) formato da una molecola di acido
glucuronico legata con un collegamento (13) glicosidico ad una molecola di
galattosammina N-acetilata ed esterificata in C6 dallacido solforico. Il dimero si collega poi
al dimero successivo tramite un legame (14) glicosidico.

Un altro componente fondamentale del tessuto connettivo lacido ialuronico.


Le sue unit disaccaridiche sono formate da residui di acido glucuronico e N-
acetilglucosammina, legati tra di loro, alternativamente, da legami glicosidici (13) e
(14) e da legami ad idrogeno intramolecolari.

A pH fisiologico i gruppi carbossilici delle unit glucuroniche sono ionizzati, conferendo alla
molecola di ialuronato elevata polarit.
Grazie a questa sua propriet l'acido ialuronico, assorbendo notevoli quantit di acqua,
mantiene il grado di idratazione, turgidit, plasticit e viscosit della matrice extracellulare del
connettivo, contribuendo a creare un'impalcatura molecolare che mantiene la forma ed il tono
del tessuto Agisce inoltre come cementante, lubrificante e anti-urto.
Iniezioni di acido ialuronico sono utilizzate insieme al collagene i per eliminare rughe e
prevenire l'invecchiamento della pelle.

25
Ricordiamo infine il peptidoglicano o mureina, un polimero che costituisce uno degli strati
della capsula batterica e che il principale responsabile della rigidit della cellula procariote.
La mureina un polimero in cui si alternano molecole di acido acetilmuramico e di N-
acetilglucosammina, connesse tramite legami (14) glicosidici.
Il gruppo carbossilico dellacido acetilmurammico a sua volta unito con legame peptidico al
gruppo amminico di un amminoacido, che rappresenta lultimo termine di un tetrapeptide.

26
2 Lipidi

I lipidi sono una classe eterogenea di composti chimici aventi come caratteristica principale la
quasi totale insolubilit in acqua. Gran parte dei legami chimici presenti nelle molecole lipidiche
sono infatti legami C-H, i quali sono praticamente apolari e quindi idrofobici.
Un lipide immerso in ambiente acquoso forma una fase separata proprio in virt delle
interazioni idrofobiche.
Per queste loro caratteristiche i lipidi vengono utilizzati dagli esseri viventi come materiale
isolante ed impermeabilizzante.
Inoltre, poich i legami C-H sono particolarmente energetici, i lipidi costituiscono
generalmente un'ottima riserva di energia, facilmente accumulabile in depositi per la loro
insolubilit. A parit di peso un lipide in grado di fornire pi del doppio di energia rispetto ad
un carboidrato (circa 9 kcal/g contro le 3,75 kcal/g di un monosaccaride e le 4 kcal/g di un
polisaccaride1 o di una proteina).

Da un punto di vista chimico la gran parte dei lipidi (non tutti) formata dall'unione di un
acido carbossilico con un alcol ed quindi un estere.

Indichiamo un acido generico come R-COOH ed un alcool generico come R-OH. La lettera R
indica un radicale generico, un gruppo di atomi in catena carboniosa di cui, nel caso
particolare, non interessa la composizione.
L'acido e l'alcol si uniscono utilizzando i rispettivi gruppi funzionali, tramite una reazione di
condensazione detta esterificazione. Durante la reazione viene eliminata una molecola
d'acqua tra l'ossidrile del gruppo carbossilico e l'idrogeno del gruppo alcolico.

Anche i lipidi possono essere idrolizzati per ottenere gli acidi e gli alcoli di partenza.

I lipidi sono un sottoinsieme degli esteri, nel senso che gli esseri viventi utilizzano, per
sintetizzare i lipidi, solo alcuni tipi di alcoli e solo alcuni tipi di acidi organici, detti acidi grassi.

I lipidi si dividono in lipidi semplici (formati solo dall'unione di un alcol con un acido grasso) e
lipidi composti (formati anche da una terza sostanza chimica).

Una classificazione alternativa definisce semplici i lipidi che contegono solo atomi di Carbonio,
Idrogeno ed Ossigeno, composti gli altri.

2.1 Acidi Grassi


Gli acidi grassi sono acidi monocarbossilici a catena carboniosa non ramificata, costituita da
un numero di atomi di carbonio compreso tra 4 e 32.
La maggior parte degli acidi grassi presenta catene carboniosa tra 12 e 20 atomi di carbonio,
con una netta prevalenza delle catene con un numero pari di atomi di carbonio.

Alcuni acidi grassi contengono doppi legami tra atomi di carbonio lungo la catena. Ciascun
doppio legame dovuto alla mancanza di due atomi di idrogeno. Per questo motivo tali acidi
grassi sono detti insaturi e, se vi pi di un doppio legame, polinsaturi.
Gli acidi grassi che non presentano doppi legami sono invece definiti saturi.

Gli acidi grassi saturi entrano nella composizione dei grassi di origine animale e sono presenti
nel tuorlo dell'uovo, nel latte e nei suoi derivati. Sono solidi a temperatura ambiente

1 il processo di idrolisi libera energia

27
Gli acidi grassi insaturi entrano nella composizione degli olii di origine vegetale e normalmente
sono liquidi a temperatura ambiente.
Gli acidi grassi insaturi possono essere artificialmente idrogenati per ottenere dei surrogati dei
grassi animali (margarine). Nel processo di idrogenazione si rompe artificialmente un doppio
legame e si aggiunge idrogeno. In tal modo si innalza il punto di fusione e il grasso idrogenato
appare di maggiore consistenza e spalmabilit.

Gli acidi grassi insaturi e polinsaturi naturali presentano tipicamente il doppio legame in
configurazione cis, con i due atomi di idrogeno dalla medesima parte del doppio legame.

Come conseguenza di tale configurazione gli acidi grassi insaturi cis presentano una catena
curvilinea, mentre quelli trans hanno un andamento rettilineo

L'andamento rettilineo degli acidi trans, permette loro di assumere una struttura pi compatta
e densa (simile a quella degli acidi grassi saturi). Tendono perci ad avere punti di fusione pi
elevati (sono solidi a temperatura ambiente), rendendo meno fluide le membrane cellulari.
Recenti ricerche hanno rilevato numerose effetti negativi associati ad una dieta ricca di acidi
trans, tra i quali un significativo aumento del rischio di malattie cardiovascolari.

Gli acidi cis vengono convertiti nella forma trans per esposizione ad alte temperature, le quali
vengon facilmente raggiunte durante il processo di frittura degli alimenti
Gli acidi grassi trans si generano molto spesso anche durante il processo di idrogenazione dei
grassi per renderli saturi e quindi solidi (margarine).

2.1.1 Acidi grassi essenziali


Nelle cellule animali gli acidi grassi polinsaturi cis a lunga catena sono un componente
essenziale, sia per mantenere la corretta fluidit di membrana, sia come precursori di
importanti molecole che controllano lattivit metabolica. Tuttavia le cellule animali non hanno
la possibilit di introdurre doppi legami cis oltre il 9 atomo di carbonio della catena, Tali
molecole devono dunque necessariamente essere presenti negli alimenti e sono dette acidi
grassi essenziali (EFA, essential fatty acids o vitamina F).

Gli acidi grassi essenziali sono l'acido alfa linolenico (acido cis,cis,cis-9,12,15-
ottadecatrienoico) e l'acido linoleico (acido cis,cis-9,12-ottadecadienoico).

28
La nomenclatura degli acidi grassi presenta diverse convenzioni.
Ricordiamo innanzitutto che in un acido organico gli atomi di carbonio presentano una doppia
numerazione. La numerazione IUPAC numera infatti gli atomi di carbonio partendo dallatomo
di carbonio carbossilico al quale assegna il valore 1. Mentre la nomenclatura tradizionale usa le
lettere greche partendo dallatomo di carbonio adiacente al carbonio carbonilico al quale
assegna la lettera .
Lultimo atomo di carbonio della catena viene indicato come carbonio o come carbonio n.


C C- C- C- C- C- COOH
n 6 5 4 3 2 1

Gli acidi grassi utilizzano, oltre alla nomenclatura IUPAC, diverse convenzioni per designare la
lunghezza della catena carboniosa, il numero e la posizione degli eventuali doppi legami.

Il sistema pi semplice, ma insufficiente per la localizzazione dei doppi legami, quello che
utilizza i numeri lipidici (lipid numbers) nella forma C:D, dove

C = numero di atomi di carbonio


D = numero di doppi legami

Cos un acido grasso 4:0 (o C4:0) corrisponde allacido butanoico (butirrico) con una catena
carboniosa a 4 atomi e con 0 insaturazioni
CH3 CH2 CH2 COOH acido butirrico (butanoico)

Nome comune Nome IUPAC Formula C:D


Acido Butirrico Acido Butanoico CH3(CH2)2COOH 4:0
Acido Valerico Acido Pentanoico CH3(CH2)3COOH 5:0
Acido Caproico Acido esanoico CH3(CH2)4COOH 6:0
Acido Enantico Acido Eptanoico CH3(CH2)5COOH 7:0
Acido Caprilico Acido Ottanoico CH3(CH2)6COOH 8:0
Acido Pelargonico Acido Nonanoico CH3(CH2)7COOH 9:0
Acido Caprinico Acido Decanoico CH3(CH2)8COOH 10:0
Acido Laurico Acido Dodecanoico CH3(CH2)10COOH 12:0
Acido Miristico Acido Tetradecanoico CH3(CH2)12COOH 14:0
Acido Palmitico Acido Esadecanoico CH3(CH2)14COOH 16:0
Acido Margarico Acido Eptdecanoico CH3(CH2)15COOH 17:0
Acido Stearico Acido Ottadecanoico CH3(CH2)16COOH 18:0
Acido Arachico Acido Eicosanoico CH3(CH2)18COOH 20:0
Acido Beenico Acido Docosanoico CH3(CH2)20COOH 22:0
Acido Lignocerico Acido Tetracosanoico CH3(CH2)22COOH 24:0
Acido Cerotico Acido Esacosanoico CH3(CH2)24COOH 26:0
Acido Montanico Acido Ottacosanoico CH3(CH2)26COOH 28:0
Acido Melissico Acido Triacontanoico CH3(CH2)28COOH 30:0
Acido Laceroico Acido Dotriacontanoico CH3(CH2)30COOH 32:0

29
Per gli acidi grassi insaturi tuttavia necessario introdurre ulteriori convenzioni per definire la
posizione dei doppi legami.
x
Nella notazione (delta-x) ogni doppio legame viene indicato da una lettera delta seguita
dallindicatore di posizione del doppio legame rispetto al carbonio carbossilico (che prende il
numero 1) Ogni doppio legame preceduto da un prefisso cis- o trans- che indica la
configurazione della molecola intorno al doppio legame.

Per esempio, l'acido linoleico, uno dei due acidi grassi essenziale, con 18 atomi di carbonio e
due doppi legami, designato come
Acido linoleico C18:2 cis-9, cis-12
o
Acido linoleico C18:2 cis,cis-9,12

Unaltra convenzione molto utilizzata, soprattutto in scienza dellalimentazione, la notazione


-x, in cui x individua la posizione dellultimo doppio legame (quello pi distante dal gruppo
carbossilico) determinandone la distanza dallultimo atomo di carbonio della catena carboniosa
(carbonio metilico CH3 terminale o carbonio ). Tale notazione giustificata dal fatto che le
propriet fisiologiche degli acidi grassi insaturi dipendono in gran parte dalla posizione della
prima insaturazione rispetto al carbonio metilico terminale.
Tale notazione assume particolare importanza per denotare i due acidi grassi essenziali ed i
loro derivati

Lacido linoleico (LA), ad esempio, viene designato come


Acido linoleico C18:2 cis,cis -6
Tuttavia la IUPAC suggerisce di sostituire la notazione -x, con la notazione n-x (enne meno
ics). In questo caso lacido Linoleico viene designato come

Acido linoleico C18:2 cis,cis n-6

Mentre laltro acido grasso essenziale, Lacido alfa-linolenico (ALA), viene designato come
Acido -linolenico C18:3 cis,cis -3
o
Acido -linolenico C18:3 cis,cis n-3

30
Si noti come la notazione -x non definisca la posizione di tutti i doppi legami, ma solo
dellultimo. Se non viene infatti diversamente specificato, tutti gli altri doppi legami si
presentano tra loro separati da un gruppo metilenico CH2-.

Possiamo, ad esempio, scrivere le formule condensate dell'acido linoleico (LA) e dellacido -


linolenico (ALA) in modo da evidenziare la ripetizione dei doppi legami separati da un gruppo
metilenico
LA CH3(CH2)3 (CH2-CH=CH)2(CH2)7COOH

ALA CH3(CH2-CH=CH)3(CH2)7COOH

Nellorganismo i due acidi grassi essenziali vengono convertiti per via enzimatica in altri acidi
grassi polinsaturi.

- L'acido linoleico il capostipite degli acidi grassi della serie omega-6, tra i quali
riveste particolare importanza lacido arachidonico, (AA C20:4 6)

- Lacido alfa-linolenico il capostipite degli analoghi della serie omega-3, tra i quali
riveste particolare importanza lacido eicosapentaenoico (EPA C20:5 3),.

Queste vie metaboliche prevedono l'intervento di due complessi enzimatici, capaci di allungare
la catena carboniosa (elongasi) e di aumentare il numero di doppi legami (desaturasi).

I precursori competono per l'utilizzo degli enzimi coinvolti, in quanto comuni ad entrambe le
vie metaboliche. Di conseguenza, una eccessiva assunzione di omega-6 pu compromettere la
formazione degli omega-3 a partire dall'acido alfa-linolenico, e viceversa.

Acido arachidonico (AA) e acido eicosapentaenoico (EPA) sono entrambi acidi grassi a 20 atomi
di carbonio che il nostro organismo utilizza per sintetizzare gli eicosanoidi (eicos- o icos- il
prefisso che indica composti a 20 atomi di Carbonio)

Gli eicosanoidi (IUPAC suggerisce icosanoidi) sono molecole a 20 atomi di carbonio, che
manifestano unazione ormone-simile, agendo sui tessuti dai quali sono stati prodotti
(autacoidi = ormoni tissutali ad azione locale) con azione paracrina (= agiscono su cellule di
tipo diverso) ed autocrina (= agiscono su cellule dello stesso tipo).

Esercitano complesse azioni di controllo e regolazione, soprattutto sullattivit del sistema


immunitario e come messaggeri nel sistema nervoso centrale.

31
Vengono suddivisi in diverse famiglie (prostaglandine, trombossani, leucotrieni, prostacicline),
ciascuna delle quali presenta sia molecole della serie -3, che molecole della serie -6.

Le interazioni tra eicosanoidi omega-6 ed eicosanoidi omega-3 appaiono estremamente


complesse e non ancora completamente chiarite. Tuttavia, tra le due famiglie esiste una
relazione generale di antagonismo in cui gli eicosanoidi omega-6 tendono ad aumentare la
reazione infiammatoria (compresa quella allergica), mentre gli eicosanoidi omega-3 la
inibiscono.

I FANS (farmaci antinfiammatori non steroidei), ad esempio, come laspirina, inibiscono la


trasformazione dellacido arachidonico negli eicosanoidi della serie omega-6.

Formula
Nome comune x C:D nx
(nome convenzionale)
Acido Miristoleico CH3(CH2)3CH=CH(CH2)7COOH cis-9 14:1 n5
(cis-9-tetradecenoico C14:1 5)

Acido Palmitoleico CH3(CH2)5CH=CH(CH2)7COOH cis-9 16:1 n7


(cis-9-esadecenoico C16:1 7)

Acido Sapienico CH3(CH2)8CH=CH(CH2)4COOH cis-6 16:1 n10


(cis-6-esadecenoico C16:1 10)

Acido Oleico CH3(CH2)7CH=CH(CH2)7COOH cis-9 18:1 n9


(cis-9-ottadecenoico C18:1 9)

32
Formula
Nome comune x C:D nx
(nome convenzionale)
CH3(CH2)7CH=CH(CH2)7COOH
Acido Elaidinico trans-9 18:1 n9
(trans-9-ottadecenoico C18:1 9)

Acido Vaccenico CH3(CH2)5CH=CH(CH2)9COOH trans-11 18:1 n7


(trans-11-ottadecenoico C18:1 11)

Acido Linoleico CH3(CH2)3 (CH2CH=CH)2(CH2)7COOH cis,cis-9,12 18:2 n6


(LA) (cis,cis-9,12-ottadecadienoico C18:2 6)

Acido -Linolenico CH3(CH2CH=CH)3(CH2)7COOH cis,cis,cis-


18:3 n3
(ALA) (allcis-9,12,15-ottadecatrienoico C18:3 3) 9,12,15
Acido Arachidonico CH3(CH2)3(CH2CH=CH)4(CH2)3COOH cis,cis,cis,cis-
20:4 n6
(AA) (allcis-5,8,11,14-eicosatetraenoico C20:4 6) 58,11,14

Acido Timnodonico CH3(CH2CH=CH)5(CH2)3COOH cis,cis,cis,cis,cis-


20:5 n3
(EPA) (5,8,11,14,17-eicosapentaenoico C20:5 3) 5,8,11,14,17

Acido Erucico CH3(CH2)7CH=CH(CH2)11COOH cis-13 22:1 n9


(cis-13-docosenoico C22:1 9

Ac. Clupanodonico CH3(CH2CH=CH)5(CH2)5COOH cis,cis,cis,cis,cis-


22:5 n3
(DPA) (7,10,13,16,19-docosapentaenoico C22:5 3) 7,10,13,16,19
Acido Cervonico CH3(CH2CH=CH)6(CH2)2COOH cis,cis,cis,cis,cis,cis-
22:6 n3
(DHA) (4,7,10,13,16,19-docosaesaenoico C22:6 3) 4,7,10,13,16,19

2.2 Lipidi semplici


I lipidi semplici si dividono in trigliceridi, ceridi (o cere), steridi (o lipidi steroidei) e
ceramidi (o sfingolipidi). Ciascuna di queste quattro famiglie caratterizzata dalla presenza di
un particolare tipo o da una particolare famiglia di alcoli.

2.2.1 Trigliceridi
I trigliceridi (o triacilgliceroli) sono caratterizzati dalla presenza dell'alcol glicerolo (o
glicerina o propantriolo), un alcol triossidrilico (impiegato nella produzione di sciroppi, creme
per uso farmaceutico e cosmetico, nonch come additivo alimentare 8emulsionante e
dolcificante), Nel vino conferisce rotondit al sapore)

Glicerolo

Per inciso, se ossidiamo il glicerolo nel carbonio C1, otteniamo l'aldeide glicerica.
Facendo reagire i tre gruppi alcolici con tre acidi grassi (esterificazione), con perdita di tre
molecole d'acqua (condensazione) si ottiene un trigliceride

33
I 3 acidi grassi possono essere dello stesso tipo o o di tipo diverso.
I trigliceridi possono essere saturi o insaturi. Sono saturi quando gli acidi grassi costituenti
hanno tutti i legami saturati da atomi di idrogeno. Sono insaturi quando una o pi coppie di
atomi di carbonio adiacenti formano doppi legami a causa dell'assenza dell'idrogeno.

Ci che distingue i vari acidi grassi tra loro, oltre alla lunghezza della catena, il numero e la
posizione dei doppi legami.
I trigliceridi sono composti fondamentali nella dieta umana e si ritrovano come componenti
essenziali negli esseri viventi, dove costituiscono i principali lipidi di riserva e di deposito.
Quelli di derivazione vegetale sono in genere insaturi o polinsaturi. In queste condizioni essi
sono liquidi a temperatura ambiente e vengono definiti olii.
Quelli di derivazione animale (lardo, burro etc) sono saturi e per questo motivo sono solidi a
temperatura ambiente. Vengono definiti grassi.
Attraverso processi chimici possibile saturare i trigliceridi insaturi (idrogenazione) ottenendo
dei grassi vegetali spalmabili (margarina).

34
2.2.2 Ceridi
I ceridi, o semplicemente cere. sono caratterizzati dalla presenza di un alcool monoossidrilico
a lunga catena carboniosa esterificato da un acido grasso.

Le cere sono in genere utilizzate da piante ed animali per rendere impermeabili i loro
rivestimenti esterni (le penne degli uccelli, la superficie esterna di molte foglie e frutti), per
proteggere e mantenere morbidi e flessibili peli e cute.

Ad esempio uno dei componenti principali della cera d'api il palmitato di miricile, formato
dalla reazione dell'acido palmitico (acido esadecanoico) CH 3(CH2)14COOH con l'alcol miricilico
(triacontanolo) CH3(CH2)28CH2OH.

Uno dei componenti la cera carnauba, che si ricava dalle foglie di una palma sudamericana,
il cerotato di miricile, formato dalla reazione dellacido cerotico (acido esacosanoico)
CH3(CH2)24COOH con lalcol miricilico.

Lo spermaceti una cera particolarmente ricercata che si ricavava dalla testa del capodoglio.
Piacevole al tatto e all'odorato, fu un ingrediente molto usato in cosmetica. Il suo costituente
principale il palmitato di cetile, formato dalla reazione dellacido palmitico con lalcol cetilico
(esadecanolo CH3(CH2)14CH2OH).

35
2.2.3 Steridi
Gli steridi o lipidi steroidei utilizzano come alcol uno sterolo. Gli steroli sono alcoli che
derivano dallo sterolo

Gli steroli si suddividono in steroli di origine animale (zoosteroli), tra i quali il pi importante
il colesterolo, e steroli di origine vegetale (fitosteroli), tra i quali i pi diffusi sono il
sitosterolo (40%), il campesterolo (33%) e lo stigmasterolo (4%).

Gli steroli e gli steridi (steroli esterificati da acidi grassi) appartengono alla famiglia degli
steroidi. Gli steroidi sono composti aventi in comune la struttura policiclica dello sterano
(ciclopentanoperiidrofenantrene) e pur non essendo tutti chimicamente degli esteri (gli steroli
sono alcoli), sono considerati lipidi.

36
Sono, ad esempio, steroidi gli ormoni steroidei

Il colesterolo si trova nel nostro organismo sia libero (25 - 40 %) che esterificato da acidi
grassi a lunga catena. In forma esterificata uno dei costituenti principali degli steridi.

Il colesterolo una molecola indispensabile al nostro organismo essendo un componente della


membrana ed il precursore di importanti ormoni. Tuttavia si ritiene che un livello eccessivo di
colesterolo nel sangue (ipercolesterolemia) costituisca un pericolo per la salute, depositandosi
in placche (ateromi, atheros = pericoloso, athera = poltiglia?) sulle pareti dei vasi sanguigni,
diminuendone il lume e aumentando in tal modo il rischio di malattie cardiovascolari (infarti,
ictus).
Il colesterolo viene in parte introdotto nell'organismo attraverso la dieta ed in parte
sintetizzato dal fegato a partire dallacetilCoenzimaA. Il fegato anche l'organo che demolisce
il colesterolo in eccesso.

Visto che il colesterolo, come tutti i grassi, non solubile in acqua, per il trasporto ematico
deve essere "imballato" in lipoproteine costituite da:

- un involucro a singolo strato di fosfolipidi in cui sono incastonate proteine


(apolipoproteine) e molecole di colesterolo non esterificato
- un nucleo di acidi grassi, trigliceridi e colesterolo esterificato (steridi)

37
Nel sangue il colesterolo viene trasportato da due tipi di liproteine andando a formare i
complessi LDL (Low Density Lipoprotein = a basso peso molecolare) ed HDL (High Density
Lipoprotein = ad alto peso molecolare). Oltre che per il tipo di apolipoproteine, LDL e HDL si
differenziano per il diverso rapporto guscio/nucleo (maggiore nelle HDL) e per la funzione
biologica svolta nellorganismo

Le LDL trasportano il colesterolo alle cellule per il suo utilizzo. Le cellule presentano sulla loro
membrana esterna dei recettori in grado di riconoscere la frazione proteica delle LDL. Dopo
aver agganciato le LDL la membrana cellulare si introflette risucchiandole all'interno (endocitosi
mediata da recettori). Se i recettori cellulari per le LDL mancano (per un difetto genetico) o
sono alterati il colesterolo ematico destinato ad aumentare in modo pericoloso.

Le HDL trasportano il colesterolo in eccesso al fegato per essere demolito ed escreto


(attraverso la bile) fungendo cos da "spazzini". Sembra che un elevato rapporto HDL/LDL
diminuisca drasticamente il rischio di malattie cardiovascolari. Per questo motivo le HDL sono
comunemente note come "colesterolo buono" e le LDL come "colesterolo cattivo". Il rapporto
HDL/colesterolo totale. in un soggetto sano dovrebbe essere inferiore a 5 per i maschi e a 4,5
per le femmine.
L'attivit sportiva ed una dieta non troppo ricca di grassi saturi sembrano aumentare i livelli di
HDL, mentre fumo e alcool li diminuiscono.

38
2.2.4 Ceramdi (Sfingolipidi)
Le ceramidi (o sfingolipidi) sono caratterizzate dalla presenza della sfingosina, un
amminoalcol a lunga catena (18 atomi di Carbonio).

Al gruppo amminico della sfingosina legato, con legame ammidico, un acido grasso saturo,
quasi sempre composto da 22 atomi di carbonio.

Presentano una struttura molto simile ai fosfolipidi, con una testa polare e due code
idrofobiche apolari e, come i fosfolipidi, sono un componente fondamentale delle membrane
cellulari.
Per la presenza nella molecola di atomi di Azoto, i ceramidi vengono a volte classificati come
lipidi composti.

39
2.3 Lipidi composti
Sono formati da lipidi semplici in associazione con altre molecole non lipidiche. Secondo una
classificazione pi recente sono lipidi che non contegono solo atomi di Carbonio, Idrogeno ed
Ossigeno.

Le due principali classi di lipidi composti sono i fosfolipidi (lipide + acido fosforico) ed i
glicolipidi (lipide + glucide). Sono tutti costituenti fondamentali delle membrane cellulari,
svolgendo sia funzioni strutturali, garantendo lintegrit e la fluidit della membrana, sia
importanti funzioni di interazione ed integrazione con lambiente.

FOSFOLIPIDI
I fosfolipidi o fosfatidi sono lipidi semplici legati ad una molecola di acido fosforico
(H3PO4). A seconda che derivino dai trigliceridi o dagli sfingolipidi. si dividono in
glicerofosfatidi (o glicerofosfolipidi) e sfingofosfatidi (o sfingofosfolipidi).

2.3.1 Glicerofosfatidi
I glicerofosfatidi o glicerofosfolipidi hanno una struttura molecolare generale costituita da un
glicerolo esterificato nelle prime due funzioni alcoliche da acidi grassi (uno dei quali presenta in
genere una insaturazione cis con formazione di un ginocchio) e nella terza da una molecola di
acido fosforico (legame fosfoestereo). Tale struttura di base pu essere pensata come
derivante da un trigliceride (triacilglicerolo) per sostituzione di un acido grasso con un acido
fosforico, da cui il nome 1,2-diacilglicerolo-3-fosfato (o acido fosfatidico).
La struttura presenta una caratteristica distribuzione di polarit, con due code idrofobiche
apolari (i residui acilici degli acidi grassi) ed una testa idrofila polare (il glicerolo con lacido
fosforico).

40
Gli acidi fosfatidici sono i pi semplici glicerofosfatidi e sono presenti solo in piccole quantit
nelle membrane. I glicerofosfatidi pi comuni nelle membrane sono formati dall'unione
dellacido fosfatidico con unaltra molecola

Lacido fosfatidico infatti in grado di utilizzare il gruppo fosfato per legare (esterificare) altre
molecole polari che presentino delle funzioni alcoliche OH (molecole di testa = colina,
etanolammina, serina, inositolo), con formazione di legami fosfodiesterei (analoghi a quelli
che saldano i nucleotidi). Si formano in tal modo diverse sottofamiglie di glicerofosfatidi.
L'intera molecola viene solitamente rappresentata attraverso una "testa idrofila" e due "code
idrofobe" costituite dai residui degli acidi grassi apolari.

Il glicerofosfatide pi abbondante nelle membrane delle cellule eucarioti (in particolare sullo
strato esterno, non citosolico) la fosfatidilcolina (una lecitina), che presenta come
sostituente di testa lamminoalcol colina HOCH2CH2-N+(CH3)3. Le fosfatidilcoline sono anche
note come lecitine, molecole usate anche negli alimenti come emulsionanti naturali.

41
Il glicerofosfatide pi abbondante nelle membrane delle cellule procarioti la
fosfatidiletanolammina (una cefalina), che presenta come sostituente di testa lamminoalcol
etanolammina HO-CH2CH2-NH2

42
La fosfatidilenolammina un glicerofosfatide che si presenta in elevate concentrazioni anche
nelle membrane delle cellule del tessuto nervoso, soprattutto nel cervello e nel midollo spinale.
Per questo motivo definita cefalina.
Tra le cefaline cerebrali ricordiamo la fosfatidilserina, che presenta come gruppo di testa
lidrossiamminoacido serina. Molto apprezzata come integratore alimentare dai culturisti
perch alcuni studi sembrano dimostrare che, oltre a migliorare la memoria e le capacit di
attenzione e concentrazione, sia in grado di ridurre la sensazione di fatica, contribuisca a
mantenere alti i livelli di testosterone durante l'allenamento e riduca il livello di cortisolo nel
sangue, consentendo quindi una maggiore ipertrofia muscolare.

43
2.3.2 Sfingofosfatidi
Laltra famiglia di fosfolipidi costituita dagli sfingofosfatidi o sfingofosfolipidi.
Gli sfingofosfatidi hanno una struttura molecolare generale costituita da uno sfingolipide (=
ceramide = sfingosina esterificata da un acido grasso) in cui la funzione alcolica in C1 della
sfingosina viene esterificata dallacido fosforico (legame fosfoestereo), formando un
ceramide-1-fosfato o fosfoceramide.

In modo analogo a quanto avviene nei glicerofosfatidi, il fosfoceramide in grado di utilizzare


il gruppo fosfato per legare (esterificare) altre molecole polari che presentino delle funzioni
alcoliche OH con formazione di legami fosfodiesterei (analoghi a quelli che saldano i
nucleotidi). In relazione alla molecola che lega in testa si formano diverse sottofamiglie di
sfingofosfatidi. Anche in questo caso l'intera molecola viene rappresentata attraverso una
"testa idrofila" e due "code idrofobe" costituite dal residuo dellacido grasso e dalla catena
metilenica della sfingosina.

La sfingomielina (ceramide-1-fosforilcolina), che presenta come gruppo di testa


lamminoalcol colina, costituisce la maggior parte degli sfingofosfatidi che si trovano nelle
membrane delle cellule umane, Il nome dovuto al fatto che un componente fondamentale
della mielina, la sostanza che si trova nelle membrane delle cellule di Schwann che avvolgono
i filamenti assonici del tessuto nervoso

44
GLICOLIPIDI
In modo analogo a quanto abbiamo visto per i fosfolipidi, anche i glicolipidi si dividono, a
seconda che derivino dai trigliceridi o dagli sfingolipidi, in gliceroglicolipidi e
sfingoglicolipidi. Si legano con monosaccaridi (principalmente glucosio e galattosio) o con
oligosaccaridi. Assieme ai fosfolipidi sono costituenti essenziali delle membrane cellulari di cui
costituiscono soprattutto lo strato esterno (non citosolico). Nonostante siano presenti nelle
membrane solo in piccole quantit. sembrano essere coinvolti nei processi di riconoscimento
cellula-cellula e dunque svolgere un ruolo importante nei meccanismi di riconoscimento
immunitario dei tessuti.

2.3.3 Gliceroglicolipidi
I gliceroglicolipidi hanno una struttura molecolare costituita da un glicerolo esterificato nelle
prime due funzioni alcoliche da acidi grassi (diacilglicerolo), mentre lossidrile in C3 si lega
con legame beta-glicosidico ad un glucide, da cui il nome glicosil-diacilglicerolo con cui si
pu indicare un generico gliceroglicolipide

I glicolipidi pi diffusi in natura sono i glicerogalattolipidi (o galattosil-diacilgliceroli), in


cui il terzo ossidrile del glicerolo si lega con il galattosio. I glicerogalattolipidi ssono diffusi nelle
membrane delle cellule vegetali e sono uno dei componenti della mielina che riveste gli assoni
dei vertebrati.

45
2.3.4 Sfingoglicolipidi
Gli sfingoglicolipidi hanno una struttura molecolare costituita da uno sfingolipide (=
ceramide = sfingosina esterificata da un acido grasso) in cui la funzione alcolica in C1 della
sfingosina si lega con un legame beta-glicosidico con un glucide, formando un
glicosilceramide, nome con cui possono essere indicati gli sfingolipidi.
La pi importante e nota famiglia degli sfingolipidi quella dei cerebrosidi (diffusi nelle
membrane del tessuto nervoso), in cui la ceramide si lega al galattosio o al glucosio, andando
a formare rispettivamente i galattocerebrosidi (o galattosilceramidi) e i glucosilcerebrosidi
(o glucosilceramidi).

46
MEMBRANA CELLULARE
I fosfolipidi ed i glicolipidi possiedono particolari caratteristiche di polarit che ne fanno dei
costituenti fondamentali delle membrane cellulari. Essi sono infatti anfipatici (presentano una
porzione polare ed una apolare) e vengono solitamente rappresentati attraverso una "testa
idrofila" e due "code idrofobiche".

L'anfipaticit permette loro di organizzarsi spontaneamente in acqua, formando strutture


ordinate. Le teste tendono infatti a disporsi a contatto con l'acqua, mentre le code, respinte
dalle interazione idrofobiche, tendono a restare rivolte le une verso le altre. Si formano in tal
modo strutture bistratificate (bilayer) che vanno a costituire le membrane cellulari, con le
opposte superfici polari rivolte verso la componente acquosa del citoplasma (strato
citosolico) e la componente acquosa dellambiente (strato non citosolico).

Le reciproche interazioni attrattive (testa-testa e coda-coda) e repulsive (testa-coda)


garantiscono la stabilit e lintegrit del bilayer, permettendo solo movimenti orizzontali.
Qualsiasi movimento verticale (perpendicolare al piano del bilayer) tende infatti ad essere
neutralizzato da forze di richiamo.

La capacit dei lipidi di membrana (fosfolipidi e glicolipidi) di muoversi liberamente solo


allinterno del piano con velocit dellordine del micron al secondo, giustifica la denominazione
attribuita alla membrana di fluido bidimensionale

47
La lunghezza delle catene degli acidi grassi (12-20 atomi di C) e la presenza di doppi legami
influenza la fluidit e la permeabilit della membrana.

Code lunghe e rettilinee (senza insaturazioni) si impaccano con maggior efficienza e,


presentando una maggior superficie reciproca di attrazione, tendono a diminuire la fluidit
della membrana, con effetti potenzialmente negativi, che si avvertono allabbassarsi della
temperatura.
Catene di acidi grassi pi corte e/o presenza di doppi legami riducono la tendenza delle catene
idrocarburiche a fare legami tra di loro e la membrana resta fluida a temperature pi basse.

Nelle membrane delle cellule eucarioti animali la fluidit e la permeabilit della membrana
regolata dalla presenza di colesterolo. Il colesterolo si interpone tra i fosfolipidi orientando il
suo gruppo ossidrilico polare verso la testa dei lipidi di membrana, mentre la sua parte
policiclica si posiziona tra le code, separandole.

Il colesterolo rende il doppio strato meno deformabile diminuendone la permeabilit a piccole


molecole solubili e, regolandone la fluidit al variare della temperatura.
A t relativamente alta (37C) stabilizza le membrane riducendo il movimento dei lipidi di
membrana, mentre a t relativamente bassa impedisce il loro impaccamento stretto e la
possibile solidificazione delle membrane.

Lieviti e batteri, le cui membrane non presentano colesterolo, quando la temperatura scende,
aumentano la concentrazione nella membrana di acidi grassi insaturi e con catene pi corte.

48
3 Protidi

I protidi o proteine o polipeptidi sono le sostanze chimiche che svolgono i compiti pi svariati all'interno della cellula.
Possiamo comunque ricondurre le funzioni proteiche all'interno di due principali attivit:
a) Funzioni strutturali o plastiche
b) Funzioni di regolazione o controllo.
Vi una stretta correlazione fra forma e funzione delle proteine.

Le proteine con funzione plastica hanno una forma fibrosa. Sono costituite da catene polipeptidiche allungate,
disposte in fasci lungo uno stesso asse a costituire le fibre. Sono insolubili in acqua.
Le proteine con funzione di regolazione e controllo hanno invece una forma globulare. Le catene sono strettamente
avvolte in forma compatta, sferica o globulare, come un gomitolo. Sono solubili in acqua.

Esiste un numero enorme di proteine, una diversa dall'altra, sia all'interno di uno stesso organismo, sia tra organismi
di specie diverse, ma tutte sono ottenute attraverso la combinazione di 20 mattoni chimici: gli amminoacidi. Il fatto
che le proteine siano diverse e caratteristiche per ogni individuo e per ogni specie legato al fatto che esse vengono
sintetizzate a partire dalle informazioni genetiche contenute nel DNA

Oltre ai venti amminoacidi comuni a tutte le proteine di tutti gli esseri viventi, ve ne sono alcuni specifici di alcune
proteine (l'ossiprolina del collagene) e alcuni che svolgono da soli azioni fisiologiche particolari (ormone tiroxina).

I 20 amminoacidi comuni a tutti gli esseri viventi si legano a formare lunghe catene proteiche, ognuna costituita da
qualche centinaio di amminoacidi.

Il nostro organismo non in grado di sintetizzare 8 amminoacidi, per questo detti amminoacidi essenziali, che devono
essere pertanto introdotti con la dieta.
Tali amminoacidi sono particolarmente abbondanti nelle proteine di origine animale che, per questo motivo, sono
dette "nobili", rispetto a quelle di origine vegetale.
Tutti gli amminoacidi che costituiscono le proteine presentano la seguente struttura generale

Un carbonio centrale tetraedrico (detto carbonio alfa) al quale legato un gruppo amminico (-NH2) di natura basica,
un gruppo carbossilico (-COOH) di natura acida, un atomo di idrogeno ed un gruppo chimico (-R), detto residuo
amminoacidico o gruppo R, diverso da amminoacido ad amminoacido.

Come conseguenza della presenza di un centro stereogenico, costituito dal carbonio-alfa, un atomo di carbonio
tetraedrico tetrasostituito, tutti gli aminoacidi derivati da proteine, ad eccezione della glicina, sono chirali e quindi
otticamente attivi (cio ruotano il piano della luce polarizzata).

Tutti gli aminoacidi derivanti da proteine presentano una configurazione L, potendo essere ricondotti alla
configurazione della L-gliceraldeide (molecola di riferimento per assegnare gli stereodescrittori L e D). Per
convenzione (E Fischer) il gruppo pi ossidato (-COOH) si scrive in alto con i legami verticali che si allontanano
dallosservatore (legami tratteggiati) ed i legami orizzontali che si avvicinano allosservatore (legami pieni). In analogia
a quanto convenzionalmente definito da Fischer per la gliceraldeide, se il gruppo amminico si trova a sinistra
lamminoacido L, se si trova a destra lamminoacido D.

49
La configurazione degli L-aminoacidi pu tuttavia essere facilmente ricordata, utilizzando la regola CORN. Si dispone la
molecola in modo che latomo di idrogeno sia orientato verso losservatore, gli altri tre sostituenti formano, se letti in
senso orario, la parola CORN.

In soluzione acquosa i gruppi funzionali degli amminoacidi risultano ionizzati e la loro forma ionica dipende dal pH
della soluzione.

Il gruppo carbossilico in acqua presenta il tipico equilibrio di un acido debole


+
-COOH -COO + H

mentre il gruppo amminico si comporta come una base debole


+
-NH2 + H2O -NH3 + OH
+
A pH bassi leccesso di ioni H presenti nella soluzione tende a spostare il primo equilibrio verso sinistra (per il
principio di Le Chatelier un aumento nella concentrazione di un prodotto di reazione sposta lequilibrio verso i
- +
reagenti) ed il secondo verso destra (gli ioni OH reagiscono con gli ioni H per dare acqua e la loro diminuzione fa
spostare, sempre per il principio di Le Chatelier, lequilibrio verso i prodotti).
+
In queste condizioni lamminoacido si trova sotto forma di catione H3N-CHR-COOH e si comporta come un acido
+ +
debole con i due gruppi funzionali (COOH ed NH 3 ) in grado di cedere protoni (H ). Per ciascuno di essi possibile
definire e misurare una costante di dissociazione acida Ka ed il relativo pK

50
3 4
Le due costanti di dissociazione acida (Ka1 e Ka2) hanno valori sufficientemente diversi (Ka1/Ka2 >> 10 -10 ) da poter
trattare i due equilibri come separati ed applicare a ciascuno di essi lequazione di Henderson-Hasselbach, che ci
permette di calcolare il pK

+ -
Infatti, se HA un generico acido debole che dissocia HA H + A e che presenta costante di dissociazione

Ka
H A

HA
passando ai logaritmi otteniamo lequazione di Henderson-Hasselbach

pKa pH log
A

HA
-
la quale evidenzia che se [A ]=[HA] allora pKa = pH.

In altre parole, se aggiungiamo ad n equivalenti di un acido debole, n/2 equivalenti di una base forte, trasformiamo
met dellacido di partenza (HA) nella sua base coniugata (A-). In queste condizioni la soluzione contiene tanto acido
indissociato HA quanto anione A-, il loro rapporto vale 1, il logaritmo di 1 vale zero ed il pH della soluzione uguale al
pK.

Eseguendo allora una titolazione di una soluzione 1N di un amminoacido partendo da pH bassi si ottiene una
caratteristica curva di titolazione che presenta 3 punti di flesso, in corrispondenza dei quali si determinano 3
particolari valori del pH.

+
A pH bassi prevale, come abbiamo detto la forma cationica dellamminoacido H3N-CHR-COOH (che dora in poi
+
indicheremo per brevit con A). Sottoposto ad un campo elettrico lamminoacido migra verso il catodo.

51
1 punto di flesso - 1 punto di semiequivalenza pH = pK1.
+
Laggiunta di 0,5 equivalenti di una base forte trasforma 0,5 equivalenti dellacido debole H3N-CHR-COOH in 0,5
+ - + -
equivalenti della sua base coniugata H3N-CHR-COO (che dora in poi indicheremo per brevit con A ) Applicando
lequazione di Henderson Hasselbach si trova che, essendo *+A+=*+A-]
A
pK1 pH log pH
A
Misurando pertanto il pH della soluzione al 1 punto di semiequivalenza si ottiene direttamente il valore del pK1. Gli
amminoacidi presentano un valore medio di pK1 pari a 2.15 (1.7 - 2.6).
A pH < pk1 prevale la forma cationica dell'amminoacido.

2 punto di flesso - punto di equivalenza pH = pHeq pI.


+
Laggiunta di altri 0,5 equivalenti di una base forte (per un totale di 1 equivalente) trasforma tutto lacido debole H3N-
+ -
CHR-COOH nella sua base coniugata H3N-CHR-COO . Lo ione prevalente in soluzione presenta contemporaneamente
due cariche opposte (la sua carica netta nulla) e viene detto ione dipolare o ione ermafrodita o zwitterion. Pu
essere considerato una sorta di sale interno (carbossilato di ammonio) Il pH in corrispondenza di questo punto detto
pH di equivalenza pHeq e coincide, a meno di piccole approssimazioni, con il punto isoelettrico pI (pH in
+ -
corrispondenza del quale [ A]=[A + e quindi la carica netta dellaminoacido nulla. Posto in un campo elettrico
lamminoacido non migra). Verificheremo in seguito che pHeq pI = (pK1+ pK2)/2 .

3 punto di flesso - 2 punto di semiequivalenza pH = pK2.


Laggiunta di altri 0,5 equivalenti di una base forte (per un totale di 1.5 equivalenti) trasforma 0,5 equivalenti
+ - + - -
dellacido debole H3N-CHR-COO ( A ) in 0,5 equivalenti della sua base coniugata H2N-CHR-COO (che dora in poi
- + - -
indicheremo per brevit con A ). Applicando lequazione di Henderson Hasselbach si trova che, essendo ora * A ]=[A ]
A
pK2 pH log pH
A
Misurando pertanto il pH della soluzione al 2 punto di semiequivalenza si ottiene direttamente il valore del pK2. Gli
amminoacidi presentano un valore medio di pK2 pari a 9.75 (8.9 - 10.6).
- -
A pH > pK2 prevale la forma anionica dellamminoacido H2N-CHR-COO (A ). Sottoposto ad un campo elettrico
lamminoacido migra verso lanodo

Nel caso il gruppo R possieda un ulteriore gruppo ionizzabile acido o basico la curva di titolazione presenta un
ulteriore flesso che coincide con il 3 punto di semiequivalenza. Il pH misurato pari al pK R (KaR la costante di
dissociazione acida del gruppo R)

52
pKa1 pKa2 pKaR
Alanina 2.4 9.7
Argininea 2.2 9.0 12.5
Asparagina 2.0 8.8
Acido Aspartico 2.1 9.8 3.9
Cisteina 1.7 10.8 8.3
Acido Glutammico 2.2 9.7 4.3
Glutamina 2.2 9.1
Glicina 2.3 9.6
Istidina 1.8 9.2 6.0
Isoleucina 2.4 9.7
Leucina 2.4 9.6
Lisina 2.2 9.0 10.5
Metionina 2.3 9.2
Fenilalanina 1.8 9.1
Prolina 2.1 10.6
Serina 2.2 9.2 13.00
Treonina 2.6 10.4 13.00
Triptofano 2.4 9.4
Tirosina 2.2 9.1 10.1
Valina 2.3 9.6

Nell'immagine seguente le curve di titolazione dell'acido glutammico e della Lisina

Verifichiamo ora come il punto isoelettrico pI = (pK1+ pK2)/2 .


Si definisce punto isoelettrico il pH in corrispondenza del quale la concentrazione del catione e dellanione sono uguali
+ - + -
[ H3N-CHR-COOH] = [H2N-CHR-COO ]. Usando la simbologia precedentemente introdotta [ A]=[A ]. In queste condizioni
la carica netta dellamminoacido nulla e lamminoacido non migra se sottoposto ad un campo elettrico. Per calcolare
il pH al punto isoelettrico scriviamo i due equilibri di dissociazione acida a cui sottoposto lamminoacido e le relazioni
di equilibrio che definiscono le relative costanti di equilibrio

53
+ +
A A- + H+
+ +
H3N-CHR-COOH H3N-CHR-COO- + H+

Ka1
H A

+
A- A- + H+
+
H3N-CHR-COO- H2N-CHR-COO- + H+

Ka2
H A

Ora moltiplichiamo membro a membro le due relazioni di equilibrio

Ka1 Ka2
H A H A H A
2

A
A A

+ - + -
Ricordando ora che al punto isoelettrico [ A]=[A ] e quindi [ A]/[A ]=1, la relazione precedente diventa

Ka1 Ka2 H 2

Ka1 Ka2 H
passando infine ai logaritmi


pH log H logKa1 Ka2
1 2

pK1 pK 2
2
pI

Verifichiamo ora come il punto isoelettrico coincida con buona approssimazione con il punto di equivalenza pH eq pI
= (pK1+ pK2)/2 .

Al punto di equivalenza tutto lamminoacido ha reagito con un ugual numero di equivalenti di una base forte ed
+ - + -
stato completamente salificato trasformandosi in ione dipolare o zwitterione H3N-CHR-COO ( A ). Calcoliamo
dunque il pH di una soluzione di ione dipolare avente concentrazione C. Lo ione dipolare si pu comportare sia come
un acido debole che come una base debole (ha un comportamento anfotero).

Come acido debole d la seconda reazione di dissociazione dellacido biprotico


+ -
A A- + H+
+ - -
H3N-CHR-COO H2N-CHR-COO + H+

Ka2
H A

+ + + -
Ma lo ione dipolare anche la base coniugata dellacido debole H3N-CHR-COOH ( A e A sono una coppia acido/base-
coniugata di Brnsted Lowry) e come tale d una reazione di idrolisi basica la cui costante Kb = Kw/Ka1

+
A- + H2O A +
+ OH-
+
H3N-CHR-COO- + H2O +
H3N-CHR-COOH + OH-

Kb
A OH A OH H A H OH Kw

A
A H A H

ka
1

54
Per un calcolo approssimato prendiamo in considerazione il seguente equilibrio, in cui si assume che lequilibrio di
seconda dissociazione dellacido sia sincronizzato con lequilibrio di idrolisi

+
A- + +
A- A- + +
A
Cx Cx x x
+ - - + + -
In altre parole, per ogni ione H3N-CHR-COO che si dissocia in H2N-CHR-COO e H , un altro ione H3N-CHR-COO si
+ +
riassocia con uno ione H per dare H3N-CHR-COOH
Come si pu osservare, nellapprossimazione considerata si assume che allequilibrio sia
- +
[A ] = [ A]
- +
[H2N-CHR-COO ] = [ H3N-CHR-COOH]
+ - -
ora esplicitiamo la concentrazione dello zwitterione [ A ] dalla relazione di equilibrio della prima dissociazione acida

Ka1
H A

A Ka HA

A
1

e dalla relazione di equilibrio della seconda dissociazione acida


H A A H Ka A


Ka2
A
2
eguagliamo i due secondi membri
H A Ka A

Ka 2 H 1

+
ed esplicitiamo la concentrazione degli ioni H

H A ka ka

A 1 2

- +
ricordando infine che nella nostra approssimazione [A ] = [ A], otteniamo
H

ka1 ka2
e passando ai logaritmi


log H logka1 ka2
1 2

pK1 pK 2
2
pH eq
Si osserva pertanto che, a meno delle approssimazioni adottate, il pH di equivalenza coincide con il punto isoelettrico.
Il punto isoelettrico medio vale pI= (2,15 + 9,75)/2 6

Gli aminoacidi sono generalmente classificati a seconda della polarit delle loro catene laterali.
Infatti il ripiegamento della catena polipeptidica nella sua conformazione nativa dovuto principalmente alla
tendenza che hanno le catene laterali idrofobiche a sfuggire il contatto con il solvente e le catene laterali idrofiliche ad
essere esposte allacqua.
Gli amminoacidi si classificano quindi, in relazione al loro residuo amminoacidico, in polari, non polari ed
elettricamente carichi. Per convenzione, i nomi degli aminoacidi sono abbreviati con una sigla a tre lettere o una
lettera.

Gruppo R non polare Gruppo R polare Gruppo R elettricamente carico

Glicina Gly G Serina Ser S Lisina Lys K


Alanina Ala A Treonina Thr T Arginina Arg R
Valina Val V Asparagina Asn N Istidina His H
Leucina Leu L Glutammina Gln Q Acido Aspartico Asp D
Isoleucina Ile I Tirosina Tyr Y Acido Glutammico Glu E
Metionina Met M Cisteina Cys C
Prolina Pro P
Fenilalanina Phe F
Triptofano Trp W

55
I 20 amminoacidi non sono equidistribuiti (100%/20 = 5% ciascuno) nelle proteine. Alcuni di essi si trovano pi
frequentemente di altri nelle strutture proteiche. La tabella seguente riporta alcune analisi statistiche sulla
distribuzione di frequenza degli amminoacidi in proteine appartenenti a diversi database proteici. Si tenga presente
che nei grandi database molte proteine sono omologhe (con sequenze amminoacidiche che si ripetono uguali in
proteine diverse) e ci pu modificare in modo scorretto le frequenze amminoacidiche. Sono dunque preferibili i dati
provenienti da campioni pi ristretti di proteine scelte per la loro non ridondanza.

56
Frequenza %
Aminoacido Sigla
a b c d e f g media
Alanine Ala A 8,25 8,63 8,44 7,60 7,45 7,8 8,3 8,07
Arginine Arg R 5,53 5,42 4,72 5,23 5,16 5,1 5,7 5,27
Asparagine Asn N 5,45 5,32 5,98 4,36 4,57 4,3 4,4 4,91
Aspartic Acid Asp D 4,06 4,11 4,68 5,21 5,16 5,3 5,3 4,83
Cysteine Cys C 1,37 1,24 1,69 1,89 1,79 1,9 1,7 1,65
Glutamine Gln Q 3,93 3,97 3,70 4,17 4,07 4,3 4,0 4,02
Glutamic Acid Glu E 6,75 6,18 6,16 6,32 6,26 6,3 6,2 6,31
Glycine Gly G 7,07 7,08 7,95 7,18 7,05 7,2 7,2 7,25
Histidine His H 2,27 2,20 2,19 2,28 2,18 2,3 2,2 2,23
Isoleucine Ile I 5,96 6,00 5,49 5,29 5,46 5,3 5,2 5,53
Leucine Leu L 9,66 9,92 8,28 9,17 9,04 9,1 9,0 9,17
Lysine Lys K 5,84 5,29 5,80 5,81 5,76 5,9 5,7 5,73
Methionine Met M 2,42 2,47 2,18 2,29 2,78 2,2 2,4 2,39
Phenylalanine Phe F 3,86 4,03 4,03 3,97 3,87 3,9 3,9 3,94
Proline Pro P 4,70 4,67 4,61 5,20 5,06 5,2 5,1 4,93
Serine Ser S 6,56 6,65 6,08 7,15 7,35 6,8 6,9 6,78
Threonine Thr T 5,34 5,56 5,87 5,87 5,96 5,9 5,8 5,76
Tryptophan Trp W 1,08 1,30 1,47 1,31 1,29 1,4 1,3 1,31
Tyrosine Tyr Y 2,92 3,05 3,61 3,21 3,28 3,2 3,2 3,21
Valine Val V 6,87 6,77 6,94 6,49 6,45 6,6 6,6 6,67

a) frequenze calcolate sul database UniProtKB/Swiss-Prot (Feb 2012) contenente 539.165 proteine
b) frequenze calcolate sul database UniProtKB/TrEMBL (Feb 2012) contenente 29.769.971 proteine
c) frequenze calcolate su 971 proteine non omologhe (con un massimo del 40% di somiglianza) presenti nel database PDB40
d) frequenze calcolate su 25.814 proteine del database NBRF (National Biomedical Research Foundation - Grilaskov e Devereux
1991)
e) frequenze calcolate su 105.990 proteine del database non ridondante OWL - versione 26.0e (Trinquier e Sanejouand 1998
f) frequenze calcolate da un database di proteine non ridondanti contenente 300.688 residui compilato da R.F. Doolittle in
Predictions of Protein Structure and the Principles of Protein Conformation, Plenum Press (1989).
g) McCaldon e Argos - Proteins: Structure, Function and Genetics 4:99-122(1988).

Nota la massa e la frequenza con cui ciascun amminoacido compare nelle proteine possibile calcolare la massa
media di un amminoacido allinterno di una proteina. La massa media (ponderata con le frequenze con cui compaiono
gli amminoacidi nelle proteine) di un amminoacido calcolata nella tabella successiva.

a
Amminoacido Sigla Massa (Da) F% MxF
Alanine Ala (A) 71,0788 8,07 5,7361
Arginine Arg (R) 156,1876 5,27 8,2311
Aspartic Acid Asn (N) 114,1039 4,91 5,6025
Asparagine Asp (D) 115,0886 4,83 5,5588
Cysteine Cys (C) 103,1448 1,65 1,7019
Glutamic Acid Gln (Q) 128,1308 4,02 5,1509
Glutamine Glu (E) 129,1155 6,31 8,1472
Glycine Gly (G) 57,0520 7,25 4,1363
Histidine His (H) 137,1412 2,23 3,0582
Isoleucine Ile (I) 113,1595 5,53 6,2577

57
a
Amminoacido Sigla Massa (Da) F% MxF
Leucine Leu (L) 113,1595 9,17 10,3767
Lysine Lys (K) 128,1742 5,73 7,3444
Methionine Met (M) 131,1986 2,39 3,1356
Phenylalanine Phe (F) 147,1766 3,94 5,7988
Proline Pro (P) 97,1167 4,93 4,7879
Serine Ser (S) 87,0782 6,78 5,9039
Threonine Thr (T) 101,1051 5,76 5,8237
Tryptophan Trp (W) 186,2133 1,31 2,4394
Tyrosine Tyr (Y) 163,176 3,21 5,2379
Valine Val (V) 99,1326 6,67 6,6121
Massa media ponderata (somma colonna M x F) 111 Da
a) Masse molecolari relative in dalton (al netto di una molecola dacqua persa nel legame peptidico).

Gli amminoacidi si legano tra loro a formare le proteine tramite un legame di condensazione, facendo reagire il
gruppo amminico di un amminoacido con il gruppo carbossilico di un altro, con perdita di una molecola di acqua.

Il legame che si produce detto legame peptidico ed il gruppo chimico CONH detto gruppo peptidico.

In questo modo tutte le proteine si presentano costituite da un lungo filamento chimico comune, formato dalla
successione di gruppi CH e CONH, dal quale sporgono i residui amminoacidici (-R), la cui successione diversa da
proteina a proteina. Tale successione definisce la peculiare struttura primaria di una proteine.

Nelle due immagini che seguono osserviamo un tripeptide generico, con residui aminuacidici R1 R2 R3 ed un
tetrapeptide formato dagli aminoacidi Alanina (Ala), Tirosina (Tyr) Acido Aspartico (Asp) e Glicina (Gly)

tripeptide generico

58
tetrapeptide

Convenzionalmente la struttura primaria si rappresenta iniziando con il gruppo amminico e terminando con il gruppo
carbossilico. Il primo amminoacido della sequenza detto amminoacido N-terminale (enne-terminale o ammino-
terminale), l'ultimo amminoacido C-terminale (ci-terminale o carbossi-terminale).

Sequenze di pochi amminoacidi (50 - 100) sono dette peptidi. Oltre un certo limite (diverso da autore ad autore: PM
5.000 - 10.000 uma) si parla di polipeptidi.
Il numero enorme di proteine esistenti una conseguenza dell'elevatissimo numero di combinazioni diverse che
possibile formare con i 20 aminoacidi.
2
Se si considera un dipeptide, si avranno 20 = 400 possibili dipeptidi diversi.
3
Se si considera un tripeptide, si avranno 20 = 8000 possibili tripeptidi diversi.
100
Nel caso di una piccola proteina costituita da una singola catena polipeptidica di circa 100 residui si avranno 20
130
10 possibili catene polipeptidiche diverse!

I filamenti proteici non rimangono mai lineari. Rispondendo alle sollecitazioni prodotte dalle loro polarit interne si
ripiegano su se stessi formando strutture a diverso grado di complessit. Sono stati descritti per le proteine 4 livelli
strutturali principali.
La struttura primaria costituita dalla successione degli amminoacidi
La struttura secondaria definita dai tipi di avvolgimenti (stabilizzati da ponti idrogeno) che interessano tratti
del filamento proteico (Eliche, Foglietti e Curve)
La struttura terziaria definita dal modo in cui il filamento proteico si ripiega su se stesso in una
conformazione compatta di tipo globulare contenente le diverse strutture secondarie
La struttura quaternaria si genera quando diverse molecole proteiche in struttura terziaria globulare si
saldano tra loro, assemblandosi

59
3.1 Struttura primaria
Ogni proteina si differenzia dalle altre essenzialmente per la sua struttura primaria, cio per la particolare sequenza di
amminoacidi che la caratterizza.

3.2 Struttura secondaria


Non appena un filamento proteico viene sintetizzato esso passa subito in struttura secondaria. Tale struttura si
produce grazie alla possibilit di rotazione rispetto agli atomi di carbonio alfa che fungono da snodi.
La rotazione invece impedita lungo il legame peptidico C-N che presenta un parziale carattere (40%) di doppio
legame con una lunghezza di 1.32 , intermedia fra quella di un singolo legame C-N (1.49 ) e quella di un doppio
legame carbonio azoto (1.27 ).
Vi infatti risonanza tra il doppio legame C=O ed il legame singolo C-N. Gli elettroni sono delocalizzati sui tre atomi
O-C-N

Come conseguenza della risonanza, gli atomi del gruppo peptidico (CONH) giacciono dunque tutti su di un medesimo
piano (piano peptidico).

Inoltre, come conseguenza della rigidit del legame C-N, sono possibili due configurazioni del legame peptidico. Una in
cui i gli atomi di carbonio sono trans, l'altra in cui sono cis.
La forma trans energeticamente favorita. I gruppi peptidici, con poche eccezioni, presentano quindi una
conformazione TRANS, in cui due atomi successivi di carbonio-alfa sono ai lati opposti del gruppo peptidico che li
unisce.

60
La conformazione CIS, in cui gli atomi di carbonio-alfa successivi sono dallo stesso lato del legame peptidico, infatti
-1
circa 8 kJ mol meno stabile della conformazione TRANS a causa della interferenza sterica delle catene laterali.
Tuttavia, questa interferenza sterica ridotta nei legami peptidici in cui presente lamminoacido prolina, cos circa il
10% dei residui prolinici nelle proteine presentano un legame peptidico CIS.

L'angolo di rotazione intorno al legame peptidico detto (omega). Esso pu assumere solo due valori:
= 180 per la configurazione trans
= 0 per la configurazione cis
Il gruppo peptidico presenta un momento di dipolo, risultante dalla somma del momento di dipolo del legame N-H e
del legame C-O, pari a = 0.72 e = 3.46 D (ricordiamo che due cariche elementari di segno opposto, equivalenti a
quella di un elettrone (e), separate da 1 , presentano un momento dipolare di 1 e = 4,8 debye (D))

Si osservi come:
- il momento di dipolo del legame C=O pari a = Q x d = 0,42e x 1,24 = 0,52 e
- il momento di dipolo del legame N-H pari a = Q x d = 0,20e x 1,0 = 0,20 e
- poich i due momenti sono paralleli, la loro somma vettoriale sar pari alla somma dei moduli = 0,52 + 0,20 = 0,72 e

Lo scheletro o catena principale di una proteina individuato dagli atomi che partecipano ai legami peptidici,
ignorando le catene laterali dei residui amminoacidici. La scheletro pu essere disegnato come una successione di
gruppi peptidici planari e rigidi collegati tra loro dagli atomi di carbonio-alfa.

Questi piani possono ruotare rispetto al carbonio-alfa. In questo modo, ogni piano delle unit peptidiche
ha due rotazioni possibili: una intorno al legame tra il carbonio-alfa e latomo di azoto amminico del
gruppo peptidico C-N (angolo di rotazione , fi), laltra intorno al legame tra latomo di carbonio-alfa e
latomo di carbonio carbonilico del gruppo peptidico C-C' (angolo di rotazione , psi).

61
In alternativa, possiamo rappresentare gli angoli e mantenendo fisso un gruppo peptidico e ruotando i due atomi
di carbonio alfa legati alle sue estremit.

Tuttavia, pi correttamente, gli angoli e sono angoli diedri (angoli tra due semipiani).

Per assegnare langolo si traguarda il legame C-N (non importa da che verso) e si osserva la rotazione che deve
compiere il carbonile in primo piano per eclissare quello in secondo piano lungo langolo convesso (minore di 180).
Rotazioni orarie sono positive, antiorarie negative. Il valore assoluto massimo 180.

62
Per assegnare langolo si traguarda il legame C-C (non importa da che verso) e si osserva la rotazione che deve
compiere lazoto in primo piano per eclissare quello in secondo piano lungo langolo convesso (minore di 180).
Rotazioni orarie sono positive, antiorarie negative. Il valore assoluto massimo 180.

Gli angoli di rotazione e fra i gruppi peptidici descrivono la conformazione della cartena proteica. Sono entrambi
convenzionalmente fissati ad un valore di 180 quando la catena polipeptidica si trova nella sua forma completamente
distesa ed aumentano il loro valore quando ruotano in senso orario per un osservatore posto sul carbonio-alfa.

In una catena proteica completamente distesa la distanza tra atomi di carbonio-alfa successivi di 3,8

Angoli di rotazione e diversi da 180 permettono al filamento proteico di accorciarsi e di avvolgersi su se stesso
secondo schemi diversi, raggiungendo una struttura finale stabile e regolare.

La regolarit della conformazione risulta dai valori degli angoli diedri e di ciascun aminoacido, che si ripetono
quasi costantemente e con valori caratteristici allinterno di ogni elemento di struttura secondaria.
In definitiva, le strutture secondarie sono disposizioni regolari della catena polipeptidica principale, che vengono
classificate senza fare riferimento al tipo di aminoacidi, ma ai valori degli angoli e che le caratterizzano.

63
Vi sono diversi tipi di configurazioni secondarie, tutte rese stabili da ponti idrogeno che si instaurano tra i gruppi
peptidici che la torsione interna del filamento porta uno di fronte all'altro (l'idrogeno fa da ponte tra due elementi
molto elettronegativi: l'azoto e l'ossigeno).

Ma per motivi di reciproco ingombro sterico dei grossi gruppi laterali R e affinch sia ottimizzata la
stabilizzazione del filamento attraverso la formazione di legami Idrogeno intracatena, gli angoli e
possono assumere solo determinati valori e di conseguenza il filamento proteico assume solo certe
configurazioni secondarie. In altri termini, ogni struttura secondaria caratterizzata da particolari valori
degli angoli e .

In sintesi, sono dunque due i fattori che determinano la struttura secondaria di una proteina e che hanno
l'effetto di rendere minima l'energia potenziale della molecola:
minimizzazione dell'ingombro sterico fra i gruppi R
ottimizzazione della formazione di legami H intracatena

La libert conformazionale, e quindi gli angoli di torsione dello scheletro proteico, sono stericamente
condizionati.
Una rotazione intorno ai legami C-N e C-C che formi determinate combinazioni di valori per gli angoli
e pu causare la collisione tra l'idrogeno amminico, l'ossigeno carbonilico, o i residui adiacenti degli
atomi di Carbonio-alfa.

I valori stericamente permessi degli angoli e possono essere calcolati. Le conformazioni stericamente
proibite, come quella mostrata nella figura precedente, hanno un valore di e che porterebbe gli atomi
a distanze inferiori al loro raggio di van der Waals.

Tali informazioni sono riassunte nel diagramma di Ramachandran.

64
La maggior parte delle zone del diagramma di Ramachandran (la maggior parte delle combinazioni di e )
rappresentano conformazioni proibite per una catena polipeptidica. Solo tre piccole regioni del diagramma sono
fisicamente accessibili alla maggior parte dei residui.
I valori osservati di e , determinati in strutture accuratamente misurate, cadono all'interno di queste regioni
permesse del diagramma di Ramachandran. Ci sono, tuttavia, alcune notevoli eccezioni:

1. La catena laterale ciclica della Prolina limita la sua gamma di valori di intorno a 260. In questo modo non
sorprende il fatto che essa costituisca il residuo amminoacidico pi limitante dal punto di vista conformazionale.

2. La Glicina, l'unico residuo senza un atomo di Carbonio-beta, stericamente molto meno ingombrante rispetto agli
altri amminoacidi. Quindi, la relativa gamma ammissibile di e estesa su di una zona pi grande dello schema di
Ramachandran. In corrispondenza ai residui di Glicina le catene polipeptidiche assumono conformazioni spesso
proibite ad altri residui.
Il risultato di queste restrizioni fa s che gli elementi di struttura secondaria si possano ricondurre sostanzialmente a
tre sole diverse tipologie stabili: alfa-elica, foglietto-beta e ripiegamenti (loop o turn). Nelle rappresentazioni
proteiche schematiche questi tre elementi strutturali vengono visualizzati rispettivamente come spirali (o cilindri),
frecce e fili curvilinei

Le strutture secondarie ad alfa-elica e foglietto-beta vennero proposte per la prima volta nel 1951 da Linus Pauling e
Robert Corey del California Institute of Technology.

65
Circa il 70-80 % degli aminoacidi delle proteine globulari assume la conformazione regolare tipica di uno dei tre tipi di
struttura secondaria.
I tratti di catena proteica che non sono in -elica, foglietto- o turn, assumono la conformazione chiamata random
coil, struttura non ripetitiva irregolare, spesso priva di legami idrogeno tra gli aminoacidi che la compongono.

Anche le catene laterali degli amminoacidi nelle proteine possono assumere conformazioni diverse corrispondenti alla
rotazione dei singoli legami che connettono gli atomi delle catene. Gli angoli diedri che descrivono la rotazione di
questi legami sono detti (chi) e, a seconda che si riferiscano al primo legame (C-C), al secondo (C-C), etc.,
vengono associati a un pedice numerico, 1, 2, etc. Il numero di angoli definiti dipende ovviamente dal tipo e dalla
lunghezza della catena laterale.

Naturalmente per motivi di interferenza sterica, gli angoli non possono assumere tutti i possibili valori ma
preferiscono quelli in corrispondenza delle conformazioni sfalsate. Le possibili conformazioni delle catene laterali sono
dette rotameri. Non tutti i rotameri sono energeticamente favoriti.

a) Struttura secondaria ad elica (helix)


Nelle strutture secondarie elicoidali il filamento proteico si avvolge a formare una spirale (una specie di molla), resa
stabile dai ponti idrogeno che si formano tra spira e spira, in corrispondenza dei gruppi peptidici.

In generale unelica pu essere definita indicando i valori degli angoli diedri (, ), oppure i valori dei seguenti
parametri geometrici:
n, numero (non necessariamente intero) di aminoacidi (residui) per giro di elica
p (passo o pitch= altezza per giro), crescita dell'elica per giro misurata lungo il suo asse
d = p/n, (altezza per residuo o rise) crescita dell'elica per aminoacido (residuo) misurata lungo il suo asse.
r, raggio dell'elica

66
Unelica ha una sua chiralit. Pu essere destrorsa (n positivo) o sinistrorsa (n negativo).
E' destrorsa se, accompagnando con la mano destra la spirale, il pollice indica il verso in cui l'elica si
sviluppa in lunghezza. E' sinistrorsa se, accompagnando con la mano sinistra l'avvolgimento, il pollice
indica il verso in cui l'elica si sviluppa in lunghezza.

Nelle proteine possono esistere diverse conformazioni ad elica, ma tra queste la pi rappresentativa
certamente lalfa-elica (elica).

L'alfa-elica il risultato della conformazione secondaria pi stabile che una catena peptidica possa
assumere e rappresenta pertanto l'elemento di struttura secondaria pi comune nelle proteine. Circa il
97% delle eliche sono -eliche

Lalfa-elica caratterizzata da:


n = 3,6 residui per spira
p (passo) = 5,4
d = 5,4/3,6 = 1,5 (distanza tra un residuo e l'altro lungo l'asse)
r (raggio dell'elica) = 2,3 .

L'angolo di twist (angolo tra un residuo ed il successivo) di 360 / 3,6 = 100. In altre parole, in unalfa-elica ogni
aminoacido segue il precedente dopo una rotazione dellelica di 100. Langolo di twist correlato agli angoli diedri
e dalla seguente relazione.

67
Nell'immagine seguente osserviamo un'alfa-elica vista dall'alto, con gli aminoacidi che si succedono ogni 100 di
rotazione

L' alfa-elica presente nelle proteine quasi sempre


destrorsa.

Un-elica destrorsa caratterizzata da (,) = (-57.8, -


47.0). In realt si tratta di valori medi, poich in un'alfa-
elica gli angoli e possono assumere valori diversi, ma
la loro somma vale sempre -105 circa. Come
conseguenza di ci i valori di e delle alfa-eliche
tracciano sul diagramma di Ramachandran una retta di
pendenza -1 che parte da (-90, -15) e arriva a (-35, -
70).
Si tenga comunque presente che si tratta di valori teorici,
relativi ad un modello geometrico ideale. I valori medi
realmente osservati nelle proteine sono = -647 e =-
417

Esistono anche -eliche di


tipo sinistrorso (quadrante in alto a destra del diagramma di Ramachandran), molto rare
e limitate a pochi aminoacidi (3-5 aminoacidi). Esse sono caratterizzate da valori (,) =
(+57,8, +47,0) e da stessi valori per n e p, con n negativo.

Nelle proteine globulari si trovano alfa-eliche destrorse di varia lunghezza, da 4-5


aminoacidi fino a pi di 40 aminoacidi. La lunghezza media di circa 12 residui (18 ),
che corrisponde ad oltre tre spire.

In un'alfa-elica, i legami ad idrogeno dello scheletro sono organizzati in modo che il


gruppo carbonilico C=O dell'iesimo atomo C punti verso il gruppo amminico N-H del
mo
(i+4) atomo di Carbonio-alfa. Lalfa-elica presenta ponti idrogeno CO---HN di tipo (i
i+4). Ci produce un forte ponte ad idrogeno che presenta una lunghezza N---O quasi
ottimale di 2,8

I gruppi NH e CO che formano i gruppi peptidici sono paralleli alla direzione dell'asse dell'alfa-elica, per cui tutti i
legami idrogeno hanno la stessa direzione, parallela all'asse.

Tutti i gruppi NH e CO (ogni quarto aminoacido) sono legati da legami idrogeno, eccetto i primi 3 gruppi NH e gli ultimi
3 gruppi CO alle estremit dell'elica

Le catene laterali sono rivolte verso lesterno e verso lestremit N-terminale dellelica (struttura ad albero di
Natale) in posizione sfalsata una rispetto allaltra, minimizzando in tal modo le interferenze steriche reciproche e con
la catena polipeptidica principale.

68
Struttura ad "Albero di Natale" Catene laterali sfalsate
(vista dall'alto)

Il nucleo dell'elica strettamente impacchettato, cio i suoi atomi sono in contatto di van der Waals. In altre parole
gli atomi interni allalfa elica si trovano alla distanza corretta per ottimizzare le forze attrattive di van der Waals, tanto
che lalfa elica viene spesso rappresentata, oltre che come una spirale, anche come un cilindro pieno.

Come abbiamo visto, ad ogni gruppo peptidico associato un momento di dipolo di 3,46 debye (= 0.72 e). Nellalfa-
elica questi dipoli sono tutti allineati lungo lasse dellelica ed equiversi. I dipoli associati a ciascuna gruppo peptidico si
sommano e unalfa-elica costituita da n aminoacidi avr un momento di dipolo complessivo pari a = n 3.46 D = n x
0.72 e.

L'effetto complessivo di questa disposizione che un'alfa-elica possiede un momento dipolare netto derivante dalla
presenza di una parziale carica positiva all'estremit amminica e una parziale carica negativa all'estremit carbossilica.

69
Tale momento complessivo quindi equivalente a quello generato da due cariche di segno opposto Q poste alle due
estremit dell'alfa elica e separate da una distanza L = n x 1,5 (lunghezza dell'elica): = n x 1,5 x Q

Si avr pertanto
n x 1,5 x Q = n x 0.72 e

da cui
Q = 0.72 e / 1,5 = 0,48 e

Leffetto complessivo dunque un macrodipolo con parziale carica positiva e negativa rispettivamente alle estremit
N-terminali e C-terminali dellalfa-elica, pari al 48% della carica elementare

La presenza di tale distribuzione di carica pu attrarre alle due estremit di un'alfa-elica ligandi di carica opposta. In
particolare, allestremit N-terminale si trovano spesso gruppi fosfato.

Il gruppo fosfato viene ulteriormente stabilizzato da legami idrogeno che si possono formare con i tre gruppi NH liberi
dell'alfa elica.

Le estremit dell'alfa elica possono essere stabilizzate dal fenomeno del capping box, che si manifesta
prevalentemente allestremit N-terminale, dove i 3 gruppi NH liberi, che non formano legami idrogeno con gruppi
CO, possono formarli con le catene laterali di aminoacidi polari (Ser, Thr, Asp, Asn) che, in casi favorevoli, precedono
l'etremit dell'alfa elica.

Le alfa-eliche possono essere sia completamente esposte al solvente (se la maggior parte dei suoi residui sono polari o
carichi) che completamente sepolte nel cuore della proteina (se la maggior parte dei suoi residui sono apolari).

Molte alfa-eliche sono tuttavia anfipatiche, hanno cio un lato della superficie costituito prevalentemente da catene
laterali idrofobiche, l'altro da catene idrofiliche. In tal caso esse si trovano sulla parte esterna della proteina, con il lato
idrofilo che si affaccia sul solvente e laltro che si affaccia verso linterno idrofobico della proteina.

Lalfa-elica anche classificata come elica 3.613.

70
In questa classificazione, il primo numero indica il numero di aminocidi per giro dellelica, mentre il secondo numero a
pedice indica il numero di atomi che sono contenuti in un ciclo (loop) di un legame ad idrogeno.

Oltre allalfa-elica sono note altri tipi di eliche meno stabili: lelica 310 e lelica
Entrambe sono ai limiti della regione permessa per le strutture elicoidali destrorse nel diagramma di Ramachandran.

71
Lelica 310 avvolta in modo pi compatto dellalfa-elica e, a parit di aminoacidi, pi allungata. Circa il 3% delle
eliche sono eliche 310
Presenta:
n = 3 residui per spira
un passo p di 6
una distanza tra residui successivi d = 6/3 = 2 .
Il raggio dell'elica di 1,9 .
(,) = (-49, -26) con valori variabili la cui somma pari -75
ponti ad idrogeno CO---HN tra il residuo i ed i+3 (i i+3).
10 atomi in un ciclo tra i due atomi coinvolti in un legame idrogeno.
un angolo di twist di 360/3 = 120

La minor stabilit delle eliche 310 dovuta al fatto che:


- gli atomi della catena principale sono troppo strettamente impaccati, portando ad interazioni di van der Waal
repulsive;
- i legami idrogeno non sono lineari;
- i dipoli delle unit peptidiche non sono allineati e deviano di circa 30 rispetto allasse dellelica;
- Esssendo l'angolo di twist pari a 120 gli atomi di carbonio-alfa si allineano e cos le catene laterali ad esse collegate.
La posizione eclissata, e non sfalsate come nellalfa-elica, delle catene laterali porta ad interferenze steriche

Lelica ( o 4.416) avvolta in modo pi lasco rispetto allalfa-elica e, a parit di aminoacidi, pi accorciata. E' una
struttura elicoidale estremamente rara
Presenta:
n = 4,4 residui per spira
un passo p di 5
una distanza tra residui successivi d = 5/4,4 = 1,1 .
Il raggio dell'elica di 2,8 .
(,) = (-57, -70) con valori variabili la cui somma pari a circa -127
ponti ad idrogeno CO---HN tra il residuo i ed i+5 (i i+5).
16 atomi in un ciclo tra i due atomi coinvolti in un legame idrogeno.
un angolo di twist di 360/4,4 = 82

La minor stabilit delle eliche dovuta al fatto che


- gli atomi della catena principale lungo lasse dellelica sono lontani e non sono in contatto di van der Waals. Lelica
si pu schematizzare come un cilindro cavo. Tuttavia la cavit in corrispondenza dellasse dellelica non tale da
consentire lentrata di molecole dacqua che potrebbero stabilizzare lelica.
- Inoltre lelica richiede che langolo che il carbonio alfa forma con i due gruppi peptidici con cui legato (N-C-C')
sia maggiore (114.9) rispetto allangolo standard del carbonio tetraedrico (109.5)
- Le catene laterali non sono ben sfalsate come nell'alfa-elica, anche se non sono eclissate come nell'elica 310.

N.B. Parecchi autori descrivono lelica come elica 4.116 attribuendole 4.1 residui per spira. In effetti usando la
relazione che correla langolo di twist alla semisomma degli angoli diedri e

E sostituendo in essa il valore (+) = -127 si ottiene un angolo di rotazione 87 che porterebbe i residui per giro
dell'elica a 360/87 4,1

Nell'immagine successiva osserviamo la medesima successione di 13 aminoacidi organizzata secondo le tre strutture
elicoidali appena descritte.

72
Nellimmagine che segue sono schematizzati i legami idrogeno che stabilizzano le strutture secondarie elicoidali. La
numerazione permette di individuare il numero di atomi compresi tra lOssigeno carbonilico e lIdrogeno amminico di
ciascun legame idrogeno CO---HN. Il legame idrogeno (i+2) tipico di un -turn (vedi oltre). Una successione di pi
-turn viene indicata come 27 ribbon.

73
Eliche di poliprolina
I vincoli imposti dalla sua catena laterale ciclica impediscono alla Prolina di entrare a far parte di strutture
secondarie e . Tuttavia pu formare due strutture a singola elica che sono uniche nel panorama delle strutture
secondarie dei polipeptidi poich non contengono legami idrogeno.
La poliprolina I (PPI) un'elica destrogira con n = 3,3 residui per spira ed un avanzamento (rise) di 1.7 per
residuo. caratterizzata da angoli diedri (,) = (-75, 160). Tutti i legami peptidici sono in conformazione cis, cosa
abbastanza rara.
Finora non sono state individuate eliche PPI nelle proteine naturali, ma la poli-L-prolina sintetica in solventi apolari
(alcoli con lunga catena di carbonio) tende ad adottare questa conformazione.

La poliprolina II (PPII) ha invece unimportanza biologica rilevante. PPII un'elica levogira avente tutti i legami
peptidici in conformazione trans.
Presenta n = -3 residui per spira ed un avanzamento (rise) di 3.12 per residuo che, in paragone con il valore di 1.5
tipico dell'-elica, mostra lelevato grado di estensione di questa elica. caratterizzata da angoli diedri (,) = (-75,
150) e un angolo di twist tra un residuo ed il successivo di 120 che porta tutte le catene laterali in una
conformazione eclissata..
La lunghezza delle eliche PPII mediamente inferiore (4-8 residui) rispetto allalfa-elica o ad un filamento-beta (vedi
oltre), probabilmente per la mancanza dell'effetto stabilizzante di legami idrogeno intramolecolari. Per lo stesso
motivo le eliche PPII sono pi flessibili delle alfa-eliche. Essendo una struttura molto estesa, la catena principale della
PPII pi accessibile e maggiormente esposta al solvente, rispetto ad altre strutture secondarie (a parte i filamenti-
beta). Ovviamente la Prolina l'amminoacido preferito nelle eliche PPII, ma qualsiasi amminoacido pu essere trovato
in un'elica PPII e sono state trovate eliche PPII prive di prolina. Oltre alla prolina, il pi delle volte nelle eliche PPII si
trovano Gln, Ser, Arg e Ala.
La PPII svolge un ruolo importante nelle proteine della famiglia del collagene di cui parleremo in seguito.
Nellimmagine che segue unelica PPII formata da 10 residui (la traccia rossa congiunge gli atomi di carbonio-alfa)

b) Struttura secondaria a foglietto beta (-sheet)


L'esistenza della struttura secondaria nota come foglietto beta o foglio pieghettato (pleated sheet)
venne proposta da Pauling e Corey nel 1951.
L'unit di base di un foglietto- il filamento- (-strand), un filamento proteico, costituito tipicamente
da 5 a 10 aminoacidi, che presenta un andamento a zig-zag I gruppi peptidici formano le pagine del
foglio pieghettato, mentre gli atomi di carbonio tetraedrico (C) formano le pieghe con i residui
amminoacidici che si presentano alternati sempre in corrispondenza della parte concava della piega.

74
Il filamento-beta viene spesso schematicamente rappresentato come una freccia che punta verso l'estremit
carbossiterminale.

Il filamento , pur essendo una catena polipeptidica quasi completamente estesa, pu essere considerato un tipo
particolare di elica, con n = 2 residui per giro, un passo massimo di 6,8 ed una distanza tra residui successivi lungo
l'asse d = 6,8/2 = 3,4

Il filamento non tuttavia mai completamente esteso. Non raggiunge cio mai la sua massima lunghezza (passo = 2
x 3,8 = 7,6 ), cosa che accadrebbe se gli angoli e fossero rispettivamente -180 e 180 (angolo in alto a sinistra
del diagramma Di Ramachandran). Gli angoli preferiti dal punto di vista energetico sono (, ) = (135, 135)

Un singolo filamento non stabile, non potendo produrre legami idrogeno tra i gruppi peptidici che si succedono al
suo interno. I filamenti esistono e si stabilizzano solo all'interno dei foglietti .

Un foglietto costituito da 2 a 15 filamenti (mediamente 6) affiancati lateralmente e legati da ponti ad idrogeno


tra gruppi peptidici appartenenti a filamenti adiacenti.

75
Poich i dipoli associati alle unit peptidiche costituenti un filamento si annullano, i foglietti beta, a differenza delle
eliche, presentano un momento di dipolo complessivo nullo.

Nei foglietti , i filamenti possono essere orientati reciprocamente in senso antiparallelo o parallelo. In quest'ultimo
caso, i foglietti sono meno stabili e si incontrano pertanto pi raramente nella struttura delle proteine.

L'orientamento indicato dalle frecce quello convenzionale, ovvero nella direzione NH2 COOH

Foglietto antiparallelo

La "geometria" dei legami a idrogeno diversa a seconda che questi uniscano filamenti con orientamento
antiparallelo o parallelo. Nel primo caso sono perpendicolari all'asse dei filamenti (e risultano quindi ottimali per
direzionalit) e pi corti, nel secondo caso sono obliqui.

76
Foglietto parallelo

Nei foglietti antiparalleli ogni residuo di un foglietto forma due legami idrogeno con un residuo di un altro foglietto. I
legami idrogeno si presentano in coppie poco spaziate alternate a coppie pi spaziate.

Foglietto antiparallelo
ogni residuo di un filamento si lega con un residuo dell'altro

Nei foglietti paralleli ogni residuo di un foglietto forma due legami idrogeno con due residui di un altro foglietto. I
legami idrogeno si presentano tutti alla medesima distanza l'uno dall'altro.

Foglietto parallelo
ogni residuo di un filamento si lega con due residui dell'altro

I foglietti paralleli presentano tipicamente angoli (, ) = (119, 113) ed un distanza tra residui di 3,2 . I foglietti
antiparalleli presentano angoli (, ) = (139, 135) ed un distanza tra residui di 3,4 .

77
I filamenti si possono anche combinare a formare un foglietto misto, con alcune coppie di filamenti antiparalleli ed
altre paralleli.
Nell'immagine seguente una proteina G (Protein Data Bank 1PGB) con un foglietto beta misto formato da due coppie
di filamenti esterne antiparalleli e da una coppia centrale di filamenti paralleli (sullo sfondo un'alfa elica)

Normalmente i foglietti non sono planari, ma tendono ad assumere nell'insieme una forma incurvata e lievemente
"avvitata", con una torsione (twist) destrorsa fino a 30.

Torsione destrorsa di due


filamenti in un foglietto beta

Talvolta i foglietti presentano delle irregolarit, dette -bulge (rigonfiamenti-beta).

78
Un -bulge la zona compresa fra due legami idrogeno consecutivi fra due filamenti e comprende due aminoacidi
appartenenti ad un filamento , opposti ad un solo aminoacido appartenente al filamento adiacente.

Beta bulge

La presenza del -bulge pi frequente nei foglietti antiparalleli ed accentua a livello locale la torsione del foglietto
che, in corrispondenza del bulge, pu presentare angoli e pi vicini a quelli di un'elica che a quelli di un foglietto

c) Strutture secondarie: Curve (reverse turns)


Oltre ai due elementi regolari di struttura secondaria appena descritti, nelle proteine sono presenti tratti di catena
coinvolti in curve "a gomito" che invertono la direzione della catena polipeptidica permettendole di avvolgersi nella
struttura terziaria, per questo detti anche reverse turns.

Ci non deve sorprendere, in quanto il diametro di un dominio medio di una proteina globulare di circa 25 ed un
filamento proteico in conformazione estesa richiederebbe circa 7 residui per attraversarlo prima di dover cambiare
direzione.
I turns si trovano principalmente sulla superficie della proteina e di conseguenza contengono residui polari e/o
elettricamente carichi.

Questi tratti curvilinei, definiti turn (ripiegamenti) e loop (anse), fanno da collegamento fra alfa-eliche o filamenti ed
hanno un ruolo assai importante nella organizzazione 3D della catena peptidica (struttura terziaria). Nelle proteine in
struttura terziaria queste configurazioni curvilinee arrivano a rappresentare circa un terzo delle strutture secondarie
presenti.

In queste strutture secondarie curvilinee quasi costante la presenza degli amminoacidi glicina e/o prolina.

La glicina, presentando un Idrogeno come gruppo R e quindi un limitato ingombro sterico, pu assumere angoli e
non consentiti ad altri amminoacidi. La glicina pu cos avere un ruolo importante nella struttura proteica, potendo far
assumere alla catena angolazioni "insolite".

La prolina in realt un imminoacido poich al posto del gruppo amminico -NH2, presenta il gruppo imminico -NH-.
Quando la prolina entra a far parte di una proteina il gruppo imminico perde il suo unico idrogeno nella formazione
del legame peptidico. In questo modo non si forma un gruppo peptidico CONH, ma un gruppo CON. In tali condizioni

79
non pu dunque formarsi il legame idrogeno e le strutture secondarie regolari (eliche e foglietti) risultano instabili in
corrispondenza dei punti in cui si trova la prolina.

Una curva una struttura secondaria in cui gli atomi di Carbonio di due residui separati da pochi legami peptidici
(generalmente da 1 a 5) si trovano a distanza ravvicinata (< 7 ). I due residui che si trovano vicini alle estremit della
curva possono o meno formare uno o pi legami idrogeno. La presenza di legami idrogeno non tuttavia
indispensabile per definire il tipo di curva, che viene invece classificato in relazione al numero di residui compresi tra
le due estremit della curva.

I pi frequenti sono i -turns (tradotti in italiano come curve-, ripiegamenti-, etc.), che traggono il loro nome dal
fatto che, nella maggior parte dei casi, collegano due filamenti consecutivi, orientati in modo antiparallelo.
I -turns sono costituiti da 4 residui che occupano le posizioni designate da i a i+3 e, nella maggior parte dei casi, sono
stabilizzati da un legame idrogeno tra il carbonile CO del residuo i ed il gruppo NH del residuo i+3 (i i+3)

Esistono diversi tipi di -turns, ma i pi frequenti sono quelli cosiddetti di Tipo I e di Tipo II, anche se il Tipo I 2-3
volte pi frequente del Tipo II.

I -turn di tipo II differiscono da quelli di tipo I per un flip di 180 del gruppo peptidico che collega gli amminoacidi in
posizione 2 (i+1) e 3 (i+2)

80
Lamminoacido in posizione 2 spesso Pro, mentre nei -turn di tipo II lamminoacido in posizione 3 spesso una Gly,
per evitare che latomo di carbonio della catena laterale sia troppo vicino allatomo di ossigeno dellamminoacido in
posizione 2 (vedi freccia verde nell'immagine che segue)

Oltre ai -turns sono noti altri tipi di turns, meno frequenti, e costituiti da un diverso numero di residui.
-turn formati da 5 residui (i i+4)
-turn formati da 3 residui (i i+2)
-turn formati da 2 residui (i i+1)
-turn formati da 6 residui (i i+5)

Quasi tutte le proteine globulari con un numero di amminoacidi superiore a 60 contengono una o pi curve costituite
da 6 a 16 residui, le cui estremit distano meno di 10 , noti come -loop o ansa- (dalla forma della lettera greca
omega)

-loop

81
Sono strutture globulari compatte perch le loro catene laterali tendono a riempire la parte interna del cappio. Come i
turns, conengono in genere residui e quindi sono posizionati quasi invariabilmente sulla superficie della proteina,
potendo avere ruoli importanti nei processi biologici di riconoscimento.

d) Strutture secondarie: Avvolgimento casuale (Random coil)


Un segmento proteico che non presenta una delle tre strutture secondarie precedenti (eliche, foglietti e curve) si
definisce random coil. Tali sequenze vengono spesso impropriamente definite disordinate. Esse rappresentano parti
flessibili del filamento proteico che svolgono un ruolo importante nel ripiegamento tridimensionale (folding) della
proteina.

3.2.1 Le proteine filamentose o fibrose


Le proteine sono state classificate storicamente in fibrose (o filamentose) e globulari, in relazione alla loro morfologia
generale. Questa suddivisione legata ai vecchi metodi utilizzati per la determinazione della struttura della proteina
su scala atomica e non fa giustizia delle proteine che contengono sia regioni estese e filamentose che regioni pi
compatte, altamente ripiegate e globulari. Tuttavia tale classificazione permette di sottolineare le propriet delle
proteine fibrose, insolubili, che hanno spesso un ruolo protettivo, connettivo o plastico negli organismi viventi. Le
proteine fibrose meglio caratterizzate, la cheratina, la miosina, la fibroina ed il collagene, sono molecole allungate la
cui conformazione dominata da un singolo tipo di struttura secondaria. Sono quindi esempi utili di questi elementi
strutturali.

Le cheratine sono il componente fondamentale degli annessi cutanei degli animali (capelli, peli, unghie, corna strati
superficiali della pelle, piume, etc.)
L'unit della cheratina costituita da una coppia di alfa-eliche destrorse strettamente superavvolte (coiled-coil) in
senso sinistrorso e rinforzate da numerosi ponti disolfuro intercatena.

A loro volta queste unit si avvolgono fra loro a formare strutture di ordine superiore ( protofilamenti, protofibrille e
filamenti).
Uno schema tipico il "9 + 2", con due protofibrille centrali circondate in modo regolare da nove protofibrille a
formare un filamento. Un singolo capello formato da numerosi di questi filamenti.

Il collagene una proteina che per le sue eccezionali doti di resistenza alla trazione va a costituire gran parte del
tessuto connettivo (tendini, cartilagini, derma, etc). L'unit fondamentale del collagene, il tropocollagene, una
struttura elicoidale superavvolta (coiled-coil) con andamento destrorso, formata da tre catene polipeptidiche (tripla
elica), ciascuna delle quali ha una struttura secondaria ad elica sinistrorsa (elica del collagene), diversa dall'alfa-elica.

Ogni singola catena formata da circa 1000 amminoacidi ed pressoch completamente avvolta ad elica. In alcuni
tipi di collagene le tre catene sono identiche ed indicate come , in altri due catene sono identiche (1) mentre laltra
diversa (2), in altri ancora sono tutte e tre diverse (1 2 3). Ciascuna ha un peso molecolare di circa 95.000 Da.

La torsione opposta delle eliche (simile a


quella di una fune ritorta) conferisce al
collagene notevoli propriet di rigidit, un
elevato carico di rottura e la possibilit di
mantenere costante la sezione sotto
tensione.

82
La struttura tipica dell'elica del collagene dovuta alla particolare sequenza amminoacidica delle catene, che
costituita per oltre un terzo da glicina e per almeno un quinto da prolina e idrossiprolina.
Esistono diversi tipi di collagene, ma in tutti quanti si ritrova una ripetizione monotona di triplette con sequenza Gly-X-
Y, in cui X spesso Prolina e Y spesso Idrossiprolina.
Ogni "terzo" residuo della catena si trova quindi una glicina ed solo la sua presenza in questa posizione che rende
possibile il superavvolgimento estremamente compatto della tripla elica. Le tre catene sono avvolte in modo cos
stretto che solo la glicina, priva di catena laterale, in grado di adattarvisi. Tutti gli anelli della prolina puntano infatti
verso l'esterno della tripla elica, mentre le glicine puntano verso l'interno.

La presenza della glicina nel core del tropocollagene permette inoltre la formazione di legami idrogeno tra le diverse
catene. Le tre catene sono sfalsate di un residuo una rispetto allaltra in modo che la Glicina di una catena si trovi
accanto al residuo X della seconda catena ed al residuo Y della terza catena. Ci consente al gruppo N-H di ciascuna
Gly di formare un legame idrogeno con il carbonile C=O delladiacente residuo X.

L'alto contenuto in prolina restringe molto il numero di strutture accessibili ed in pratica condiziona la catena ad
assumere una conformazione analoga a quella dell'elica levogira della poliprolina II tanto che i termini elica tipo-
collagene (collagen-like) ed elica PPII sono spesso usati in modo equivalente.
Lelica del collagene tuttavia leggermente diversa rispetto a quella della Poliprolina II, presentando infatti una
distanza tra residui d = 2,86 (misurata lungo lasse principale della tripla elica) ed un numero di residui per giro pari
a n = -3.33 (10 residui ogni 3 giri), mentre la PPII presenta 3 residui per giro ed una distanza tra residui successivi d =
3,12 .
La presenza di 10 residui ogni 3 giri consente tuttavia alle tre eliche del collagene di avvitarsi attorno allasse maggiore
in senso destrorso, generando una struttura superavvolta o coiled coil (vedi oltre) particolarmente robusta.
Langolo di rotazione (twist) tra i residui di ciascuna elica infatti pari a 360 : (10/3) = 108 e dunque, dopo che i 3
residui di una tripletta Gly-X-Y si sono sistemati, la Gly della tripletta successiva ha subito una rotazione di 108 x 3 =
324 rispetto alla Gly della tripletta precedente. Invece di incolonnarsi le Glicine rimangono quindi separate di un
angolo pari a 360 - 324= 36 il quale genera il superavvolgimento destrogiro del tropocollagene.

83
Poich ogni tripletta Gly-X-Y ruotata di 36 rispetto alla tripletta precedente, devono succedersi 10 triplette per
completare una rotazione di 360 della superelica.
La tripla elica presenta dunque 10 unit Gly-X-Y per giro (30 residui per giro) ed un passo di 30 x 2,86 = 85.8 .

Il tropocollagene isolato una molecola di peso molecolare pari a 285.000 Da con una forma a bastoncino lunga 3000
, ma larga solo 15 .
Le unit del tropocollagene si organizzano in fibre, disponendosi in maniera sfalsata, parallelamente, lungo l'asse della
fibra. La fibra resa ancor pi resistente e rigida dalla formazione di legami crociati, di tipo covalente, che si
instaurano fra residui di lisina o di istidina delle unit e anche all'interno della stessa unit, tra le singole catene
polipeptidiche.
Il collagene cambia facilmente di forma se riscaldato, Diventa solubile e forma facilmente soluzioni colloidali
(collagene = che genera colla).

La fibroina la proteina della seta. A differenza di collagene e cheratina, la fibroina ha una struttura beta, organizzata
in estesi foglietti, pieghettati a ventaglio.
La fibroina ricchissima di alanina e glicina, che si alternano nella sequenza primaria.
Ci consente ai foglietti di disporsi in piani sovrapposti, ravvicinati e compatti, tenuti insieme da deboli interazioni
apolari fra i residui laterali di alanina e glicina. Questa particolare organizzazione rende la seta morbida e flessibile.

La miosina, una delle due proteine che costituiscono le fibre muscolari, ha una struttura mista: costituita da due
catene pesanti, che si organizzano in una lunga coda fibrosa (costituita da due alfa-eliche superavvolte) e in due teste
globulari, alla cui composizione concorrono anche quattro catene leggere.

3.2.2 Rappresentazione delle strutture secondarie


Le strutture secondarie vengono graficamente descritte tramite rappresentazioni schematiche con effetto
tridimensionale, spesso affiancate da diagrammi topologici bidimensionali che mettono maggiormente in evidenza la
connettivit tra eliche e filamenti-beta.

Nell'mmagine che segue osserviamo una rappresentazione schematica della Tioredossina (una proteina ubiquitaria
con funzioni di ossidoretuttasi) ed i relativi diagrammi topologici.
Nei diagrammi topologici il filamenti-beta e le eliche possono essere rappresentati rispettivamente tramite frecce e
rettangoli (vista laterale) o attraverso triangoli e cerchi (vista dall'alto).

84
Le rappresentazioni schematiche tridimensionali possono essere ottenute utilizzando software in grado di visualizzare
molecole. I dati relativi alla struttura tridimensionale di una proteina sono registrati in file di testo con estensione PDB
recuperabili e liberamente scaricabili presso il sito www.pdb.org (Protein Data Bank). Ogni proteina individuata
tramite una sigla alfanumerica di 4 caratteri. Ad esempio la Tioredossina presenta codice PDB 1ERT.

Tra i migliori programmi gratuiti per visualizzare e analizzare (ruotare, zoomare etc) molecole vi sono ArgusLab,
Accelrys ViewerLite, RasMol, DeepView (Swiss-PdbViewer), PyMol, Yasara, VMD, BALLView, Chimera, MolSoft ICM-
Browser, PMV (Python Molecular Viewer).
Di seguito sono raffigurate le immagine della Tioredossina generate con questi software.

85
Le strutture secondarie possono essere rappresentate anche attraverso diagrammi topologici che ne evidenziano le
connessioni reciproche
Per ottenere il diagramma topologico di una struttura proteica possibile utilizzare il servizio online di siti come
PDMSum (www.ebi.ac.uk/pdbsum) e Pro-Origami ( http://munk.csse.unimelb.edu.au/pro-origami/), di cui riportiamo
il risultato per la Tioredossina (PDB 1ERT)

PDBSum usa DSSP per assegnare la struttura secondaria, mentre Pro-Origami pu usare DSSP, STRIDE o utilizzare le
informazioni presenti nel file PDB.

86
3.2.3 Assegnazione delle strutture secondarie
In un file PDB sono contenute le tre coordinate spaziali (x, y, z) di tutti gli atomi che costituiscono la proteina,
determinate sperimentalmente tramite cristallografia a raggi X o tramite tecniche di risonanza magnetica nucleare
(NMR).
Spesso, ma non sempre, sono presenti anche informazioni su quali amminoacidi sono coinvolti nelle strutture
secondarie (Helix, Sheet, Turns). Tali informazioni venivano inizialmente inserite nel file PDB direttamente dai
cristallografi che avevano analizzato o risolto la struttura proteica e lassegnazione degli SSE (elementi di struttura
secondaria) avveniva ad occhio grazie allesperienza del cristallografo. Se si osserva infatti l'andamento della catena
proteica principale (backbone), ad esempio come una spezzata che congiunge gli atomi di carbonio alfa, spesso
possibile individuare ed assegnare visivamente le strutture secondarie in modo intuitivo.

Divenne tuttavia ben presto evidente che in questo modo lassegnazione delle strutture secondarie era un
procedimento soggettivo che non portava sempre a risultati univoci (cristallografi diversi possono non trovarsi
daccordo sullassegnazione).

Per evitare ambiguit nell'assegnazione delle strutture secondarie sono stati proposti diversi metodi oggettivi, basati
su algoritmi matematici che analizzano le coordinate del file PDB ed assegnano automaticamente le strutture
secondarie.
Purtroppo, anche in tal caso, metodi diversi possono portare a risultati diversi.

I primi algoritmi per lassegnazione automatica degli elementi di struttura secondaria cercavano di individuare i legami
Idrogeno. I pionieristici lavori di Pauling avevano infatti dimostrato che tutte le strutture secondarie erano stabilizzate
da legami idrogeno tra gruppi peptidici (C=O---H-N). Si trattava di fissare i criteri che dovevano essere soddisfatti per
lindividuazione dei legami idrogeno.

^
Nel 1984 Baker e Hubbard proposero un criterio puramente geometrico: langolo = OHN deve essere maggiore
di 120 e la distanza O--H deve essere minore di 2,5 (in alternativa la distanza ON deve essere minore di 3,5 ).

Sebbene si tratti di un criterio di attribuzione piuttosto grossolano stato utilizzato per molto tempo ed in parte
utilizzato ancor oggi.

Un altro modo per individuare i legami idrogeno calcolarne lenergia di legame. Nel 1983 Kabsch e Sander misero a
punto lalgoritmo DSSP (Define Secondary Structure of Protein), ancor oggi molto usato, il quale individua i legami
idrogeno stimandone lenergia di legame tramite una semplice approssimazione coulombiana.

La forza del legame idrogeno E viene stimata usando un approccio puramente elettrostatico a partire dalle distanze r
(espresse in ) tra gli atomi coinvolti ed attribuendo allossigeno carbonilico una parziale carica elettrica - pari a q1= -
0,42e ed allidrogeno ammidico una parziale carica elettrica + pari a q 2 = +0,20e.

{ }
( ) ( ) ( ) ( )

87
Distanze utilizzate per calcolare la forza del Legame Idrogeno

Un legame idrogeno viene assegnato quando la sua forza E inferiore a -0.5 kcal mol-1.
Nell'assegnare la struttura secondaria, DSSP definisce due conformazioni elementari, vale a dire, l'n-turn,
con n = 3, 4, 5 (T) e il beta-bridge o ponte-beta (B), a seconda delle posizioni dei due gruppi interagenti
C=O ed NH all'interno della sequenza. Le strutture secondarie vengono poi assegnate quando queste
conformazioni elementari si ripetono in successione secondo schemi (pattern) predefiniti.

Le eliche sono costituite da due o pi n-turn consecutivi.

Per n=4 il turn anche detto -turn ed il legame idrogeno avviene tra il carbonile CO del residuo i ed il
gruppo NH del residuo i+4 (i i+4). Due o pi 4-turn consecutivi formano unalfa-elica (H)

Per n=3 il turn anche detto -turn ed il legame idrogeno avviene tra il carbonile CO del residuo i ed il
gruppo NH del residuo i+3 (i i+3). Due o pi 3-turn consecutivi formano unelica 310 (G)

Per n=5 il turn anche detto -turn ed il legame idrogeno avviene tra il carbonile CO del residuo i ed il
gruppo NH del residuo i+5 (i i+5). Due o pi 5-turn consecutivi formano unelica (I)

Tratti continui e consecutivi di ponti-beta individuano i filamenti-beta o beta-sheet (E).

Regioni ad alta curvatura, dove langolo tra la congiungente i residui (i-2 i) e la congiungente i residui
(i i+2) minore di 70, sono indicate come bend (S)

A qualsiasi residuo che non rientra nella classificazione precedente non viene assegnata nessuna lettera e
viene classificato come irregolare o Loop. Alcuni software che utilizzano lalgoritmo DSSP per assegnare la
struttura secondaria sostituiscono gli spazi vuoti con la lettera L (Loop), altri con la lettera C (Coil), altri
ancora lasciano uno spazio vuoto o inseriscono una barretta -.

Lalgoritmo DSSP individua dunque le seguenti 8 strutture secondarie o stati.


H = residuo appartenente ad unalfa elica
B = residuo isolato (non contenuto in un filamento-beta), ma legato attraverso un beta-bridge
E = (extended strand) residuo appartenente ad un filamento-beta
G = (3-helix) residuo appartenente ad unelica 310
I = (5 helix) residuo appartenente ad unelica
T = residuo appartenente ad un turn stabilizzato da un legame idrogeno
S = residuo appartenente ad una regione ad alta curvatura (bend)
= nessuna delle precedenti

Tipicamente i risultati di DSSP vengono convertiti in 3 classi secondo il seguente schema:


[GHI] = H [EB] = E [TS ] = C

Lassegnazione delle alfa-eliche (H) e dei foglietti-beta (E) risulta tuttavia molto pi semplice e precisa
rispetto alle altre strutture secondarie. Per questo motivo recentemente si utilizza molto spesso il
seguente schema di conversione, che molti ritengono pi affidabile
[H] = H [E] = E [GIBTS ] = C

88
Un altro algoritmo molto utilizzato STRIDE (Structural identification - Frishman & Argos, 1995).
Rispetto a DSSP, STRIDE non assegna le regioni S (bend) ed utilizza una funzione modificata per il
calcolo dellenergia dei legami Idrogeno. Lenergia EHB di un legame idrogeno viene calcolata attraverso la
seguente relazione empirica

EHB = Er x Et x Ep

Er il fattore che tiene conto della distanza r tra N ed O e valuta anche eventuali effetti destabilizzanti sul legame
qualora i due atomi (entrambi parzialmente negativi) siano troppo vicini.

8 6
dove C = 3Em(rm) D = 4Em(rm)

con rm= 3.0 ed Em = 2.8 kcal/mol (rispettivamente distanza ed energia ottimale di un legame idrogeno)

Gli altri due fattori energetici dipendono dagli angoli mostrati nella figura precedente

dove

Oltre a valutare la forza dei legami idrogeno, STRIDE introduce anche criteri geometrici che valutano gli angoli e
formati dagli atomi di carbonio-alfa lungo la catena proteica. In altre parole un elemento di struttura secondaria viene
assegnato anche considerando quanto esso si avvicina alla regione del diagramma di Ramachandran che gli compete.
Lattribuzione della struttura secondaria deriva da una ponderazione delle informazioni relative alle energie dei legami
idrogeno e agli angoli torsionali. Ci implica che per STRIDE il risultato fornito dallo schema dei legami idrogeno pu
essere ignorato se gli angoli e risultano eccessivamente sfavorevoli ad una determinata struttura secondaria e
viceversa. Lobiettivo quello di effettuare unassegnazione di strutture secondarie il pi possibile aderente a quello
eseguito da un cristallografo esperto. Per questo motivo i parametri utilizzati da STRIDE sono stati statisticamente
calcolati utilizzando centinaia di assegnazioni effettuate da cristallografi.
In particolare STRIDE ottimizzato per soddisfare le assegnazioni visive fatte da cristallografi e sembra in grado di
correggere la tendenza di DSSP di assegnare strutture secondarie pi brevi rispetto a quanto farebbe un cristallografo
esperto, a causa delle distorsioni che tali strutture spesso presentano alle loro estremit.

89
I risultati ottenuti da DSSP e STRIDE sono comunque in genere molto simili. Entrambi i metodi sono
ancor oggi tra i pi usati nellassegnazione delle strutture secondarie, anche se hanno difficolt ad
individuare le eliche .

Nello schema seguente sono messi a confronto i risultati di DSSP e STRIDE per linibitore pancreatico
bovino della tripsina (BPTI), una piccola proteina formata da 58 residui.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA (codice FASTA)
--GGGGS-----SS---EEEEEEETTTTEEEEEEE-SSSSS-BSSHHHHHHHHS--- (DSSP)
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHHH-- (stride)

I risultati possono essere visualizzati anche tramite diagrammi che usano simboli grafici per rendere pi evidente la
struttura secondaria assegnata.
Per ottenere lassegnazione della struttura secondaria di una struttura proteica in forma grafica possibile utilizzare il
servizio online di siti ai quali sufficiente fornire il codice PDB della proteina da analizzare, come ad esempio Stride
Web interface (http://webclu.bio.wzw.tum.de/cgi-bin/stride/stridecgi.py).

Di seguito riportiamo i risultati ottenuti per linibitore pancreatico bovino della tripsina (codice PDB: 1BPI).

Il sito StrucTools (http://helixweb.nih.gov/structbio/basic.html) usa STRIDE

Il sito Polyview 2d (http://polyview.cchmc.org/) usa DSSP

Il sito PDBSum (www.ebi.ac.uk/pdbsum ) usa DSSP

90
Il sito PDB.ORG (http://www.pdb.org) permette di mettere a confronto in modo grafico i risultati di DSSP e STRIDE con
lassegnazione della struttura secondaria eventualmente fatta dallautore del file PDB

Anche la maggior parte dei programmi di visualizzazione molecolare usa DSSP o Stride per assegnare la struttura
secondaria. Yasara, Chimera e ICM-Lite usano DSSP.
Yasara bypassa le informazioni sulla struttura secondaria eventualmente presenti nel file PDB ed assegna
direttamente le strutture secondarie, visualizzando con colori diversi Eliche, Sheet e Turns.
Chimera e ICM-Lite leggono, se presenti nel PDB, le informazioni sulla struttura secondaria e le visualizzano (tranne i
turns), ma tuttavia possibile ricalcolare e riassegnare le strutture secondarie tramite DSSP. ICM-Lite anche in grado
di registrare le nuove informazioni quando salva il file PDB.

91
VMD, PyMOL, PMV (Python Molecular Viewer MGLTools) e AxiomMV usano Stride.

VMD bypassa le informazioni sulla struttura secondaria eventualmente presenti nel file PDB ed assegna direttamente
le strutture secondarie, visualizzando con colori diversi Eliche, Sheet e Turns.

PyMOL. PMV e AxiomMV leggono, se presenti nel PDB, le informazioni sulla struttura secondaria e le visualizzano.
Pymol permette di ricalcolare e riassegnare con Stride le strutture secondarie, mentre PMV e AxiomMV usano Stride
in automatico solo se non trovano nel file PDB le informazioni necessarie per rappresentare le strutture secondarie.

PMV anche in grado di registrare le nuove informazioni quando salva il file PDB.

DSSP e STRIDE sono i due algoritmi pi diffusi, tuttavia sono stati proposti numerosi altri criteri per lassegnazione
delle strutture secondarie.

Lalgoritmo DEFINE (Richards e Kundrot, 1988) assegna le strutture secondarie confrontando le coordinate degli atomi
di C con schemi ideali in cui ogni struttura secondaria viene rappresentata attraverso la successione delle distanze
lineari che separano i suoi atomi di C successivi.

92
DEFINE individua il residuo iniziale e finale di eliche, filamenti-beta, turns e omega-loop, confrontandoli con le
rispettive matrici di distanze. Lalgoritmo individua inizialmente una corrispondenza stretta tra il modello e la struttura
secondaria e, successivamente, allunga e/o unisce le strutture individuate, consentendo una moderata irregolarit e
curvatura. Rispetto a DSSP e STRIDE, DEFINE tende a sovra-assegnare le strutture secondarie, specialmente i filamenti-
beta. Inoltre DEFINE, non valutando la presenza di ponti-H, assegna anche filamenti-beta singoli, non legati ad altri
filamenti da legami idrogeno.
Di seguito sono riportati i risultati di DEFINE per linibitore pancreatico bovino della tripsina (codice PDB: 1BPI) messi a
confronto con quelli di DSSP, STRIDE e dellautore del file PDB.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA (codice FASTA)
-GGGGGG----------EEEEEEE----EEEEEEE--------B--HHHHHHHHHH-- (autore PDB)
--GGGGS-----SS---EEEEEEETTTTEEEEEEE-SSSSS-BSSHHHHHHHHS--- (DSSP)
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHHH-- (stride)
-HHHHHEEEE--EEEEEEEEEEETTT-EEEEEEEEE---TTTTEEEHHHHHHHHEEE- (DEFINE)

Nellimmagine seguente le informazioni dellautore sulle strutture secondarie contenute nel file 1BPI.pdb sono state
sostituite con le assegnazioni di DEFINE e di STRIDE. Il risultato visualizzato con BALLView, un software di
visualizzazione molecolare che utilizza le informazioni presenti nel file PDB per rappresentare le strutture secondarie.

Lalgoritmo P-SEA (Labesse et al., 1997) assegna le strutture secondarie usando solo criteri geometrici i
cui parametri (distanze ed angoli) sono calcolati a partire dalle coordinate degli atomi di C. P-SEA calcola
3 distanze tra atomi di C, ma, a differenza di DEFINE, considera anche due angoli. Considerati 5 atomi
C successivi (i-1, i, i+1, i+2, i+3) P-SEA determina
d2 = distanza C(i-1) C(i+1)
d3 = distanza C(i-1) C(i+2)
d4 = distanza C(i-1) C(i+3)
= angolo C(i-1) C(i) C(i+1)
= angolo diedro tra il piano C(i-1) C(i) C(i+1) ed il piano C(i) C(i+1) C(i+2)

93
I valori calcolati vengono confrontati con il seguente schema

Parametri Helix (H) Strand (E)


Angolo () 89 12 124 14
Angolo diedro () 50 20 -170 45

Distanza d2 () 5.5 0.5 6.7 0.6


Distanza d3 () 5.3 0.5 9.9 0.9
Distanza d4 () 6.4 0.6 12.4 1.1

Inizialmente vengono assegnate le eliche a qualsiasi tratto di cinque o pi residui i cui atomi C presentino
caratteristiche che soddisfino o i parametri di distanza o i parametri angolari. Gli Strand vengono poi assegnati in
modo analogo. Strand brevi, formati da 3 residui, vengono accettati solo se sono inclusi in un foglietto (Sheet). Test
comparativi evidenziano come P-SEA tenda ad assegnare meno eliche e pi strand rispetto a STRIDE e DSSP.

Di seguito sono riportati i risultati di P-SEA per linibitore pancreatico bovino della tripsina (codice PDB: 1BPI) messi a
confronto con quelli di DSSP, STRIDE e dellautore del file PDB.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA (codice FASTA)
-GGGGGG----------EEEEEEE----EEEEEEE--------B--HHHHHHHHHH-- (autore PDB)
--GGGGS-----SS---EEEEEEETTTTEEEEEEE-SSSSS-BSSHHHHHHHHS--- (DSSP)
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHHH-- (stride)
-----------------EEEEEE-----EEEEEEE------------HHHHHHH---- (P-SEA)

Nellimmagine seguente le informazioni dellautore sulle strutture secondarie contenute nel file 1BPI.pdb sono state
sostituite con le assegnazioni di DEFINE e di STRIDE. Il risultato visualizzato con BALLView.

KAKSI (Martin et al., 2005) assegna le strutture secondarie utilizzando le distanze tra atomi di C e le
misure degli angoli diedri e (in finlandese KAKSI significa "due"). Lobiettivo principale dellalgoritmo
di analizzare le irregolarit presenti in eliche e sheet. Le estremit delle strutture secondarie, ad
esempio, presentano caratteristiche geometriche leggermente diverse e meno regolari della loro porzione
centrale e per questo motivo, secondo gli autori, sono spesso sotto-assegnate da altri algoritmi. Un altro

94
obiettivo di KAKSI di individuare piegature interne e distorsioni (kink) che potrebbero interrompere la
struttura secondaria spezzandola in due strutture pi brevi.

KAKSI cerca per prime le eliche utilizzando una finestra scorrevole di 6 residui, dal residuo (i) al residuo
(i+5), calcolando per essi 4 distanze
d2 = distanza C(i) C(i+2)
d3 = distanza C(i) C(i+3)
d4 = distanza C(i) C(i+4)
d5 = distanza C(i) C(i+5)

e, successivamente, una finesta scorrevole di 4 residui per gli angoli diedri e .

Distanze ed angoli vengono poi confrontati con la seguente griglia, in cui alcuni valori di distanza sono
differenziati nel caso i residui si trovino nella parte centrale (core) o alle estremit dellelica.

Parametri Helix Core Estremit

Distanza d2 () 5.49 0.39 5.54 0.49


Distanza d3 () 5.30 1.25 5.36 0.76
Distanza d4 () 6.33 1.39
Distanza d5 () 8.72 1.23

Angolo < 0
Angolo -90 < < 60

Le eliche vengono assegnate se soddisfano luno o laltro dei due due criteri (distanze o angoli diedri).
Una volta che i residui sono stati assegnati ad unelica non possono essere riassegnati ad un foglietto-
beta. Le eliche assegnate vengono poi analizzate alla ricerca di eventuali interrruzioni (kink)

Successivamente vengono assegnati i foglietti-beta. Poich KAKSI assegna solo filamenti-beta coinvolti in
-sheet per lindividuazione vengono usate due finestre scorrevoli di 3 residui ciascuna (dal residuo (i) al
residuo (i+2) e dal residuo (j) al residuo (j+2)). Per tali residui vengono calcolate 3 distanze e tutti gli
angoli diedri e .

D1 = distanza C(j+1) C(i+1)


D2 = distanza C(j+1) C(i+2)
D3 = distanza C(i) C(i+2)

Le distanze vengono poi confrontate con la seguente griglia, in cui alcuni valori di distanza sono
differenziati nel caso i residui si trovino nella parte centrale (core) o alle estremit del filamento-beta e a
seconda che il foglietto sia parallelo o antiparallelo.

Parametri Sheet Foglietto parallelo Foglietto antiparallelo


Core Estremit Core Estremit
Distanza D1 () 4.84 0.62 4.83 0.75 4.88 1.11 4.77 1.08
Distanza D2 () 6.07 0.90 6.00 1.21
Distanza D3 () 6.70 0.83 6.70 0.83

Gli angoli diedri vengono valutati con un sitema di punteggio a seconda che ricadano pi o meno vicini
alla loro zona di competenza nel diagramma di Ramachandran. A differenza delle alfa-eliche, i foglietti

95
beta vengono assegnati solo se soddisfano contemporaneamente entrambi i criteri (distanze o angoli
diedri).

Di seguito sono riportati i risultati di KASKI per linibitore pancreatico bovino della tripsina (codice PDB:
1BPI) messi a confronto con quelli di DSSP, STRIDE e dellautore del file PDB.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA (codice FASTA)
-GGGGGG----------EEEEEEE----EEEEEEE--------B--HHHHHHHHHH-- (autore PDB)
--GGGGS-----SS---EEEEEEETTTTEEEEEEE-SSSSS-BSSHHHHHHHHS--- (DSSP)
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHHH-- (stride)
-HHHHHH---------EEEEEEEE----EEEEEEEE-------EEE-HHHHHHHHH-- (KAKSI)

Nellimmagine seguente le informazioni dellautore sulle strutture secondarie contenute nel file 1BPI.pdb sono state
sostituite con le assegnazioni di DEFINE e di STRIDE. Il risultato visualizzato con BALLView.

PROSS (Srinivasan e Rose, 1999) uno dei pochissimi algoritmi che assegna le strutture secondarie
utilizzando solo i valori degli angoli diedri e . Ed inoltre uno dei pochi che, oltre ad assegnare -
eliche (H), -strand (E) e -turn (T), assegna anche lelica di poliprolina-II (P). PROSS suddivide il
diagramma di Ramachandran in una griglia di caselle a ciascuna delle quali assegna un codice. In questo
modo a ciascuna coppia di valori e di un residuo attribuito un codice. Ad esempio, ad un residuo
con = -64 and = -43 verr assegnata il codice 'Ee'.

96
La proteina viene trasformata in una successione di codici e le strutture secondarie sono poi assegnate utilizzando una
serie di criteri che valutano la successione. Ad esempio, unalfa elica viene assegnata se 5 o pi residui contigui
presentano codici De, Df, Ed, Ee, Ef, Fe, mentre un filamento beta viene assegnato se 3 o pi residui contigui
presentano codici Bj, Bk, Bl, Cj, Ck, Cl, Dj, Dk, Dl.
Di seguito sono riportati i risultati di PROSS per linibitore pancreatico bovino della tripsina (codice PDB: 1BPI) messi a
confronto con quelli di DSSP, STRIDE e dellautore del file PDB.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA (codice FASTA)
-GGGGGG----------EEEEEEE----EEEEEEE--------B--HHHHHHHHHH-- (autore PDB)
--GGGGS-----SS---EEEEEEETTTTEEEEEEE-SSSSS-BSSHHHHHHHHS--- (DSSP)
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHHH-- (stride)
--TTTTPPP----P-PEEEEEEEETTT-EEEEEEE----PP------HHHHHHH---- (PROSS)

Il sito 2Struct (http://2struc.cryst.bbk.ac.uk/twostruc) permette di confrontare i risultati di diversi metodi di


assegnazione semplicemente immettendo il codice PDB della proteina. Di seguito riportiamo il risultato per linibitore
pancreatico bovino della tripsina (codice PDB: 1BPI)

3.2.4 Strutture supersecondarie: motivi, fold e domini


Praticamente in tutte le proteine di cui sia nota la struttura tridimensionale, gli elementi fondamentali di
struttura secondaria (eliche, foglietti e curve) si trovano combinati in strutture supersecondarie detti
motivi, che ricorrono e si riconoscono in proteine diverse. In relazione al tipo di strutture secondarie in
essi presenti, i motivi possono essere classificati in
- motivi
- motivi
- motivi /

I motivi si possono combinare in strutture supersecondarie pi complesse dette fold. Il termine fold fu
introdotto nel 1973 da Rossman per definire una struttura supersecondaria individuata in proteine che
legano nucleotidi (Rossman fold), ma non fu mai realmente definito. Spesso il termine viene usato come
sinonimo di dominio.
Molti autori preferiscono tuttavia tenere distinti i due termini, assegnando al termine fold un significato
prevalentemente strutturale ed al termine dominio un significato prevalentemente funzionale.

97
3.2.5 Motivi
motivi
I motivi sono costituiti da alfa-eliche collegate da curve (turn). Il motivo che ricorre pi
frequentemente nelle proteine costituito da due alfa-eliche collegate attraverso una curva ed noto
come elica-curva-elica (helix-turn-helix o HTH) o -turn- o -loop-.

Ovviamente, maggiore la lunghezza della curva, pi elevato sar il numero di conformazioni possibili. La
conformazione pi semplice la forcina alfa alfa (alpha-alpha-hairpin), in cui due alfa eliche sono collegate da una
curva (alpha-hairpin) formata da due residui orientatati perpendicolarmente agli assi delle due eliche. Il secondo
residuo della curva sempre Glicina.

Le due eliche sono disposte in modo antiparallelo. La struttura viene stabilizzata attraverso interazioni tra catene
laterali idrofobiche. Pertanto gli amminoacidi idrofobici devono essere opportunamente posizionati nella sequenza
aminoacidica (uno per ciascun giro dell'elica) per generare un core idrofobico. Le due alfa-eliche sono ulteriormente
stabilizzate dai due momenti di dipolo di ciascuna elica, orientati in senso opposto.
Quando invece la curva pi estesa e collega due alfa eliche disposte tra loro in modo approssimativamente
perpendicolare la conformazione detta angolo-alfa-alfa (alpha-alpha-corner).

Il motivo elica-curva-elica (helix-turn-helix) spesso associato ad una particolare funzione biologica. Un notevole
esempio si ha con una classe di enzimi regolatori dell'espressione genica (fattori di trascrizione), che utilizzano tale
motivo per riconoscere ed agganciare tratti specifici del DNA (DNA binding proteins).
Tale funzione fu osservata per la prima volta nel repressore lambda, una proteina costituita da due subunit identiche
(omodimero), ciascuna di 66 aminoacidi.

98
Ciascuna subunit possiede un motivo helix-turn-helix con il quale aggancia il DNA del fago lambda in due posizioni
simmetriche e palindrome. Un'elica riconosce le basi azotate (elica R) a livello di un solco maggiore (major groove) del
DNA, mentre l'altra interagisce con i gruppi fosfato.
Il fago lambda un batteriofago temperato, un virus che infetta i batteri in grado di alternare un ciclo litico (in cui si
replica e distrugge il batterio) ad un ciclo lisogeno (in cui rimane latente). Finch il repressore lambda rimane
agganciato al DNA del fago, quest'ultimo rimane latente.
Anche la regione di loop che collega le due alfa-eliche pu avere funzioni importanti. Per esempio, nella
parvalbumina, una proteina muscolare, presente un motivo helix-turn-helix che appare tre volte nella sua struttura.

Due di questi motivi, in configurazione angolo-alfa-alfa, sono coinvolti in un legame di coordinazione dello ione calcio.
La parvalbumina sembra importante per il rilassamento muscolare successivo alla contrazione, assorbendo il calcio
libero nella cellula. Il motivo viene chiamato EF hand.

Le lettere E ed F si riferiscono al nome assegnato alle due alfa-eliche nella parvalbumina. Le due eliche si comportano
2+
come l'indice ed il pollice di una mano, aprendosi e chiudendosi per rilasciare o legare il Ca presente a livello del loop
(incavo tra le due dita). Il loop costituito da 12 residui in grado di legare con coordinazione ottaedrica lo ione calcio.

99
Il motivo EF Hand largamente diffuso ed utilizzato da molte altre proteine in grado di legare il Calcio
(calcium-binding proteins - CBP ), come calmodulina, troponina C e le catene leggere della miosina.

motivi
I motivi sono costituiti da filamenti beta (-strand) collegati da curve (turn).

Il motivo che ricorre pi frequentemente nelle proteine, sia come motivo isolato che come costituente di
strutture pi complesse, la forcina (-hairpin) costituito da due filamenti beta antiparalleli collegati
attraverso una curva di 2-5 residui.

A differenza della forcina , la forcina non associata a nessuna funzione particolare.

La forcina alla base di motivi pi complessi come il meandro , la chiave greca ed il Jelly roll.
Il meandro o motivo testa-coda (up and down motif) costituito da un foglietto-beta antiparallelo
formato da 4 o pi filamenti. Pu essere visto come una successione di pi forcine .

La chiave greca (greek key motif) costituita da un foglietto-beta antiparallelo formato da 4 filamenti,
con i filamenti 1 e 2 centrali ed i filamenti 3 e 4 laterali

100
Chiave greca
(Greek key)

Il motivo Jelly Roll formato da 8 filamenti-beta antiparalleli che si avvolgono a spirale in una struttura che ricorda il
dolce omonimo. Pu essere pensato come una successione di due motivi a chiave greca.

101
motivi /
I motivi / sono costituiti da filamenti beta (-strand) ed alfa-eliche (-helix) collegati da curve (turn).
Il motivo / che ricorre pi frequentemente nelle proteine costituito da due foglietti beta paralleli
collegati da un'alfa elica attraverso una connessione incrociata (crossover connection). Il motivo noto
come --.

L elica si impacca con i 2 filamenti , riparando dal solvente gli aminoacidi idrofobici dei filamenti .

Una interessante variante il motivo -- che ritroviamo nelle dita di zinco (zinc finger).
Analogamente al motivo elica-curva-elica (helix-turn-helix), le dita di zinco sono caratteristiche di enzimi
regolatori dell'espressione genica (fattori di trascrizione), che utilizzano tale motivo per riconoscere ed
agganciare tratti specifici del DNA (DNA binding proteins).

E' costituito da un corto foglietto beta antiparallelo (formato da due filamenti a forcina-beta) legato ad
un'alfa elica. Due residui di cisteina appartenenti al foglietto e due di istidina appartenenti all'alfa elica
formano un legame di coordinazione tetraedrica con uno ione Zn 2+ costringendo la struttura a ripiegarsi
in una forma allungata (a dito).

L'alfa elica in grado di posizionarsi all'interno del solco maggiore del DNA, riconoscendo e legandosi ad una specifica
sequenza di nucleotidi. A seconda degli amminoacidi di cui composta l'alfa-elica potr riconoscere e legare in
maniera specifica tratti diversi di DNA.
Nell'immagine che segue possiamo osservare la schematizzazione del dito (A): il motivo prende nome dal cappio di
amminoacidi che sporge dal sito di legame dello ione zinco, descritto come dito Cys2/Hys2 (dal residuo in posizione 6
al residuo 19)

102
Un singolo dito di zinco non si pu legare con forza e pu riconoscere solo 2 o 3 paia di basi. Quando per pi dita
sono concatenate, queste si possono legare pi fortemente e sono in grado di leggere sequenze di DNA pi estese.

Questo approccio modulare cos efficiente che gli scienziati stanno provando a costruire dita di zinco artificiali con
diverse specificit.

3.2.6 Domini (Fold)

Come abbiamo gi detto, i motivi si possono combinare in strutture supersecondarie pi complesse dette fold.
Tuttavia il termine viene spesso usato come sinonimo di dominio, anche se sarebbe preferibile tenere distinti i due
termini, assegnando al termine fold un significato prevalentemente strutturale ed al termine dominio un
significato prevalentemente funzionale.
In generale, poich la maggior parte dei domini formata da un unico fold, cio da una particolare combinazione di
motivi, nella trattazione che segue il termine dominio e fold verranno usati in modo indifferente.

Le catene proteiche che contengono pi di 200 residui amminoacidici si piegano solitamente in due o pi agglomerati
globulari noti come domini, che danno a queste proteine un aspetto bi- o multilobato.

103
I domini sono in genere formati dallaggregazione di diverse strutture secondarie ed hanno spesso una funzione
specifica come il riconoscimento sterico di una piccola molecola.
Un dominio pu essere considerato come una struttura supersecondaria formata dalla combinazione di pi motivi. In
modo analogo ai motivi, anche i domini si possono classificare in relazione al tipo di strutture secondarie che li
compongono in
Domini Domini Domini /
Eliche superavvolte (coiled- Barile beta (-barrel) Barile / o barile TIM (/ barrel)
coil) Sandwich beta Ferro di cavallo / (/
Fascio 4 (4 bundle) Prisma beta (-prism) horseshoe)
Ripiegamento globinico -propeller o superbarrel Sandwich alfa-beta (/ sandwich
(globin fold) (Turbina beta) o / open sheet)
Elica-beta o Solenoide- Roll alfa-beta
beta (-helix) Prisma / (/ prism)
/ Box

Domini : eliche superavvolte (coiled-coil)


Le eliche superavvolte sono fasci di alfa-eliche riuniti in strutture superelicoidali. Generalmente esse sono
costituite da due, tre o quattro eliche disposte in senso parallelo o antiparallelo. Tuttavia sono state
osservate anche strutture con cinque o pi eliche. Normalmente ogni elica costituisce una proteina a s e
le supereliche sono dunque oligomeri (soprattutto dimeri e trimeri) formati da subunit elicoidali uguali
(omo-oligomeri) o diverse (etero-oligomeri). Tuttavia possibile osservare supereliche formate da
segmenti elicoidali di una medesima proteina che, in questo caso, presentano quasi sempre andamento
antiparallelo.
Le eliche superavvolte sono la base, come abbiamo visto, di alcune proteine fibrose, quali l-cheratina e
la miosina, e di proteine che legano il DNA (DNA binding proteins) con funzioni di regolazione
dell'espressione genica (Leucine-zipper).
Nella maggior parte dei casi il dominio coiled-coil formato da due alfa-eliche destrorse superavvolte in
maniera sinistrorsa.

104
Le alfa-eliche che formano una superelica hanno la particolarit di essere costituite da ripetizioni di 7 aminoacidi
(eptade), che vengono indicati con le lettere dalla a alla g, dove
- gli aminoacidi a e d sono apolari (A)
- gli aminoacidi b, c ed f sono polari (P) o carichi
- gli aminoacidi e e g sono carichi (C)

a (A) b(P) c(P) d(A) e(C) f(P) g(C)

In questo modo gli aminoacidi apolari a e d vengono a trovarsi quasi di fronte ai rispettivi aminoacidi a e d sull'altra
elica ogni due giri d'elica (un giro d'elica 3,6 aa), andando a costituire il core idrofobico della superelica coiled-coil,
mentre gli aminoacidi carichi e e g vengono a trovarsi lateralmente al core idrofobico ed esercitano attrazioni di tipo
ionico (ponti salini).

In realt, poich l'alfa-elica presenta 3,6 aminoacidi per giro (e quindi 7,2 aminoacidi ogni due giri) gli aminoacidi
apolari a e d non si trovano allineati parallelamente all'asse dell'elica, ma si dispongono su di una linea leggermente
inclinata (18) rispetto all'asse dell'elica.

Se dunque due alfa-eliche si unissero mantenendo un andamento rettilineo, i residui apolari subirebbero una costante
deviazione gli uni rispetto agli altri. Dando invece alle due alfa-eliche destrorse una leggera torsione sinistrorsa (18), i
residui apolari si mantengono allineati e paralleli all'asse del superavvolgimento. In questo modo il numero di residui
per giro scende da 3,6 a 3,5 (rispetto all'asse della superelica) e ci permette ad essi di ripetersi esattamente ogni due
giri (heptad repeat).

105
In questo modo le due eliche si avvitano una intorno all'altra mantenendosi sempre in contatto con la loro superficie
idrofobica (residui a e d).

Le due alfa-eliche, inoltre, non si adagiano semplicemente in corrispondenza del loro lato idrofobico, ma si
"incastrano" compenetrandosi attraverso un processo detto di impaccamento (packing).

Per le eliche superavvolte tipiche delle proteine fibrose si accetta il modello di impaccamento knobs-into-holes
(protuberanze nelle cavit; nodi nei fori) proposto da Crick (1952) il quale prevede che un residuo apolare (a o d) che
sporge da una elica (knob) si incastri nella cavit (hole) che si forma sull'elica opposta tra i 4 residui i, i+3, i+4 ed i+7.

106
Per due eliche parallele:

il residuo a di un'elica si incastra tra i residui


(d-1) (g-1) a d
i i+3 i+4 i+7
il residuo d di un'elica si incastra tra i residui
a d e (a+1)
i i+3 i+4 i+7

Nell'immagine successiva si osserva come la seconda elica, dopo esser stata inclinata di 18 si sovrappone alla prima in
modo da inserire i suoi residui nelle cavit (in rosso e in verde) della prima.

Per due eliche antiparallele:


il residuo a di un'elica si incastra tra i residui
a d e (a+1)
i i+3 i+4 i+7
il residuo d di un'elica si incastra tra i residui
(d-1) (g-1) a d
i i+3 i+4 i+7

107
Un particolare dominio coiled-coil detto cerniera di Leucina (Leucine-zipper), in cui l'aminoacido d una leucina. Le
proteine che contengono il motivo a cerniera di leucina si legano al DNA sotto forma di dimeri (DNA binding proteins).

Le 2 -eliche superavvolte formano una struttura a Y, il cui fusto costituito dalla cerniera (regione carbossi-terminale
di dimerizzazione) e le 2 regioni simmetricamente biforcate ammino-terminali formano i bracci che legano il DNA
penetrando in due solchi maggiori adiacenti, separati da circa mezzo giro della doppia elica del DNA.

I tratti di -elica che entrano in contatto con il DNA comprendono residui basici che interagiscono con i fosfati dello
scheletro del DNA e altri residui che interagiscono con specifiche basi nel solco maggiore..

Domini : fascio 4 (4 helical bundle o alpha up-down bundle)


Il fascio 4 , detto anche fascio alfa up and down, costituito da 4 -eliche disposte in modo tale che
i loro assi siano reciprocamente quasi paralleli. L'orientazione delle eliche per lo pi antiparallela.
Limpaccamento antiparallelo delle -eliche conferisce loro maggiore stabilit in quanto i macrodipoli
associati a ciascuna -elica si annullano a vicenda.

108
subunit Ferritina (PDB: 1FHA)

Nella maggior parte dei casi, le 4 alfa-eliche adiacenti sono antiparallele e nel fascio formano 4 coppie di cui 3
antiparallele ed 1 parallela.

Citocromo b562 (PDB: 1QPU)

Le 4 eliche possono tuttavia assumere anche arrangiamenti topologici diversi, come nel caso dell'ormone
umano della crescita (HGH), in cui il fascio 4 formato da 2 coppie di eliche parallele che sono disposte
in modo antiparallelo.

Human Growth Hormone (PDB: 1RW5)

109
Analoga struttura presenta la citochina umana interleuchina-4.

Interleuchina-4 (PDB: 1RCB)

Un caso particolare si ha con Rop (Repressor Of Primer), una piccola proteina omodimerica regolatrice
dell'espressione genica (RNA binding protein) in Escherichia coli. In questo caso il fascio ottenuto dall assemblaggio
di 2 coppie di alfa-eliche appartenenti a catene polipetidche distinte ed uguali (omodimero). Ciascuna coppia di eliche
forma una struttura a forcina-alfa-alfa superavvolta (helix-turn-helix).

Rop

Nel fascio 4 alfa le catene laterali idrofobiche degli aminoacidi di ciascuna elica sono orientate verso
linterno del fascio, mentre le catene laterali idrofiliche sono rivolte verso lesterno.

Sezione di un fascio 4
(in rosso i residui idrofobici)

Le catene laterali idrofobiche rivolte verso linterno sono cos strettamente impaccate che non c spazio per molecole
dacqua. Il modello di impaccamento accettato per un Helical bundle noto come ridges-into-grooves (Chothia,
1977).

110
Secondo il modello ridges-into-grooves (creste nei solchi), che descrive l'impaccamento delle alfa
eliche nelle proteine globulari, la superficie di un -elica pu essere pensata come quella di una vite,
costituita da una successione di solchi e creste. Quando due alfa-eliche si appaiano, le creste dell'una si
inseriscono nei solchi dell'altra e viceversa.

Il modello prevede che le catene laterali dell'alfa-elica possano disegnare due tipi di creste, una in cui i
residui si allineano con periodicit (i+4) e l'altra in cui i residui si allineano con periodicit (i+3).

I residui sfalsati di 4 (ad esempio 4,8,12) sono allineati su rette che formano un angolo di 25 con lasse
dell elica, mentre i residui sfalsati di 3 (ad esempio 12,15,18) formano un angolo di -45 con l'asse
dell'elica.

Le interazioni pi favorevoli tra eliche si avranno quando le creste di unelica si inseriscono nei
solchi dell altra.

Per combinare le creste con periodicit (i+4) di un alfa-elica con le creste con periodicit (i+3) di una
seconda alfa-elica necessario ruotare quest'ultima di 180 (le creste passano da -45 a +45) e, dopo
averla sovrapposta alla prima, inclinarla di -20 in modo che l'inclinazione delle sue creste passi da +45
a +25 ( 45-20=25, la medesima inclinazione delle creste a periodicit i+4).

L'inclinazione di 20 tra gli assi delle alfa-eliche caratteristica dei fasci 4 e viene appunto descritta
come incastro tra creste (i+4) e creste (i+3)

111
Per combinare le creste con periodicit (i+4) di un alfa-elica con le creste con periodicit (i+4) di una seconda alfa-elica
necessario ruotare quest'ultima di 180 (le creste passano da +25 a -25) e, dopo averla sovrapposta alla prima,
inclinarla di +50 in modo che l'inclinazione delle sue creste passi da -25 a 25 ( -25+50=25, la medesima
inclinazione delle creste a periodicit i+4).

L'inclinazione di 50 tra gli assi delle alfa-eliche caratteristica del dominio a ripiegamento
globinico di cui parleremo fra poco e viene appunto descritta come incastro tra creste (i+4) e creste
(i+4).

Il fascio di 4 eliche si ritrova in domini alfa pi complessi come il barile alfa/alfa, il ferro di cavallo
alfa ed il solenoide alfa.

Nel barile alfa-alfa (alpha alpha barrel) e nel ferro di cavallo alfa (alpha horseshoe) il fascio 4 alfa
costituito da 4 eliche antiparallele che si dispongono formando 2 coppie di eliche parallele e due coppie di
eliche antiparallele.
I fasci si concatenano formando uno doppio strato di eliche. Le eliche di ciascun strato sono tra loro
parallele, mentre le eliche di ogni strato risultano antiparallele con quelle dell'altro strato.
Il doppio strato di eliche si curva in modo da chiudersi ad anello nel barile alfa-alfa, mentre nel ferro di
cavallo alfa la struttura circolare rimane aperta.

Nel barile alfa-alfa lo strato interno costituito di 6 eliche tra loro parallele, circondato da uno strato di
altre 6 eliche tra loro parallele, ma antiparallele rispetto alle eliche interne.
In genere il sito attivo situato nello spazio interno del barile.

112
Nell'immagine che segue una vista dall'alto della Endoglucanasi (o cellulasi), un enzima, prodotto principalmente da
funghi, batteri e protozoi, che idrolizza i legami glicosidici della cellulosa.

Endoglucanasi (PDB: 1CEM)

Nel ferro di cavallo alfa il doppio strato di eliche si curva, ma non si chiude, e pu essere molto pi esteso rispetto al
barile alfa-alfa.
Nell'immagine seguente osserviamo la catena A dell'Anchirina, una proteina eterotrimerica che nei globuli rossi
ancora le proteine citoscheletriche (actina e spettrina) a proteine integrali della membrana (canali anionici)

Nel solenoide alfa una successione di alfa-eliche si avvolge a formare un avvolgimento superelicoidale.Tale struttura
stata osservato per la prima volta nella Peridinin-clorofilla-proteina (PCP Peridinin-Chlorophyll Protein), una proteina
omotrimerica solubile che interviene nel processo fotosintetico di molti dinoflagellati.

113
Ciascuno dei tre monomeri costituito da due domini. Ogni dominio formato da un nastro di 4 coppie di eliche
antiparallele che si avvolge con un andamento a jellyroll attorno ad una cavit tubulare idrofoba. La cavit coordina
otto molecole di carotenoidi (peridinina) e due di clorofilla.

Alcuni autori definiscono "solenoide alfa" anche una struttura superelicoidale in cui una successione di alfa-eliche
antiparallele si avvolge a spirale.

114
Si tratta di un'architettura che compare in molti importanti processi che coinvolgono interazioni proteina-proteina,
come proteasomi, nucleoporine, processi di traffico vescicolare (coatomeri e fattori di tethering) e processi di
indirizzamento proteico (targeting proteico).

Il proteasoma (o proteosoma) un complesso proteico che ha il compito di degradare polipeptidi all'interno della
cellula. A differenza del lisosoma, il proteasoma non fornito di una membrana. Il proteasoma 26S un complesso
stabile formato da una subunit 20S con attivit proteolitica ed una subunit 19S con funzione regolatoria.
Nell'immagine seguente osserviamo due visualizzazioni (a cilindri pieni e a eliche) della catena P del proteasoma del
lievito Saccharomyces cerevisiae (PDB: 4B4T/P), nota come subunit RPN5.

subunit proteasomica RPN5


(PDB: 4B4T/P)

115
Le nucleoporine (Nup) sono una famiglia di proteine che costituiscono il complesso del poro nucleare, una struttura
che rende possibile il passaggio selettivo di RNA e proteine, controllando il traffico di molecole tra nucleo e
citoplasma. Il complesso del poro nucleare (NPC - Nuclear Pore complex) una struttura di grandi dimensioni con una
massa molecolare stimata di circa 120 milioni di dalton (circa 30 volte la dimensione di un ribosoma) ed un diametro
esterno di circa 125 nm. E' formato da una trentina di nucleoporine, ognuna in pi copie, per un totale di circa 500
molecole Circa la met delle nucleoporine presenta una struttura ad alfa solenoide o a beta propeller (vedi pi
avanti). In alcuni casi le due strutture sono presenti nella medesima nucleoporina come due diversi domini, come ad
esempio in Nup133. L'altra met delle nucleoporine presenta una caratteristica struttura disordinata, priva di
strutture secondarie. Tali molecole sono dette nucleoporine FG per la presenza nella loro sequenza amminoacidica di
numerose ripetizioni Fenilalanina-Glicina. Tali ripetizioni vengono riconosciute dalle carioferine che si legano al poro
per mediare il trasporto delle molecole cargo attraverso di esso.

Il complesso del poro possiede una simmetria radiale ottamerica organizzata intorno ad un canale centrale che la via
attraverso la quale RNA e proteine devono attraversare linvolucro nucleare.

La struttura ottamerica formata da otto raggi o spicchi (spokes). Ogni spicchio formato da due colonne di proteine
che si collegano lateralmente a formare 4 anelli concentrici che costituiscono l'impalcatura (scaffold) del poro

I due anelli pi esterni, esposti uno verso il citoplasma (anello citoplasmatico) ed uno verso l'interno del nucleo
(anello carioplasmatico), sono saldati ai due anelli centrali da uno strato anulare interno di proteine dette proteine
linker. La struttura si lega infine alla membrana nucleare attraverso un ultimo anello proteico (anello
transmembranico) che sporge all'interno del lume della doppia membrana nucleare. Il canale centrale, responsabile
del trasporto delle molecole costituito da una nuvola di nucleoproteine FG che si ritiene possa adattarsi alle
dimensioni della molecola-cargo, variando il diametro del canale da ~20 a ~40 nm.

116
Dall'anello citoplasmatico sporgono 8 filamenti proteici, mentre dall'anello carioplasmatico sporge una struttura a
canestro.

Come abbiamo gi detto, circa la met delle nucleoporine presenta una struttura ad alfa solenoide o a beta propeller.
In alcuni casi le due strutture sono presenti nella medesima nucleoporina come due diversi domini, come ad esempio
in Nup133, una componente degli anelli interni.

Nup358, la nucleoproteina che forma i filamenti citoplasmatici del complesso del poro nucleare, nota anche come
RAN binding protein 2 (RANBP2), poich in grado di legare la RAN-GTPasi (una proteina che, tra le molte funzioni,
controlla il traffico molecolare attraverso il poro nucleare). RANBP2 costituita da un mosaico di domini, ciascuno in
grado di legarsi con proteine specifiche (RAN-GTPasi, importina beta, esportina-1 etc).

Il dominio N-terminale di RANBP2 costituito da un breve alfa-solenoide formato da tre ripetizioni TPR che sembrano
coinvolte nel legame con Particelle Ribonucleoproteiche messaggere (mRNP - messenger RiboNucleoprotein Particle),
strutture in cui l'RNA messaggero viene complessato da proteine RBP (RNA-binding proteins).
La ripetizione tetratricopeptide (TPR), osservata per la prima volta nella Proteina Fosfatasi 5 (PP5 - Protein
Phosphatase 5), formata da una sequenza di 34 amminoacidi organizzati in una coppia di alfa eliche che si ripetono
da 3 a 16 volte con un caratteristico andamento ad alfa-solenoide. La struttura superelicoidale delle proteine TPR
costituisce l'impalcatura che supporta diversi processi di interazione proteina-proteina.

117
Il coatomero un complesso proteico che riveste (coat) le vescicole che trasportano materiale attraverso il sistema
delle endomembrane (Reticolo e Golgi). Sono noti tre tipi di coatomeri:
- COP-I (Coat Proteins I) che eseguono il trasporto dal Golgi verso il Reticolo
- COP-II (Coat Proteins II) che eseguono il trasporto dal Reticolo verso il Golgi
- Clatrina che accompagna le vescicole di endocitosi dalla membrana plasmatica verso il Golgi ed i lisosomi

COP-II un eterotetramero costituito da due subunit centrali (sec31) avvolte a solenoide alfa e due subunit
terminali (sec13) avvolte a beta-propeller (vedi pi avanti: domini beta).

La clatrina un omotrimero che forma una struttura a triscele (antico simbolo a 3 gambe). Ciascuna gamba formata
da una catena proteica pesante ed una leggera. I trisceli interagiscono tra loro per formare una gabbia proteica ad
icosaedro che avvolge le vescicole di endocitosi. Ciascuna catena pesante forma la struttura della gamba che si innesta
al centro del triscele con la sua estremit C-terminale.
La catena pesante viene suddivisa in 6 regioni
A partire dal centro del triscele:
- regione di trimerizzazione
- gamba prossimale
- ginocchio (knee)
- gamba distale
- caviglia (ankle)
- regione terminale
La regione terminale presenta un dominio a beta-propeller (vedi pi avanti i domini beta), mentre la gamba
costituito da una successione di alfa eliche superavvolte (alfa solenoide).

118
I fattori di tethering vescicolare sono molecole coinvolte nei processi di attracco (tethering) delle vescicole che
precedono il processo di ancoraggio (docking) e la loro fusione con la membrana bersaglio. Il fattore p115, coinvolto
nei processi di transcitosi di vescicole dal Reticolo al Golgi, presenta un dominio N-terminale costituito da un solenoide
alfa con una struttura particolare, caratterizzata da una successione di 14 ripetizioni Armadillo (Armadillo repeat o
ARM repeat).
La ripetizione Armadillo prende il suo nome dal gene Armadillo individuato per la prima volta in Drosophila
melanogaster, dove regola la segmentazione dell'addome durante lo sviluppo embrionale. Le proteine Armadillo sono
strutture altamente conservate che svolgono importanti funzioni negli eucarioti, come la beta-catenina
(mantenimento delle giunzioni ancoranti come subunit della caderina, trasduzione dei segnali nei processi di
proliferazione, differenziamento cellulare e apoptosi) e la alfa-importina (indirizzamento proteico verso i pori
nucleari).
Una ripetizione Armadillo costituita da circa 42 amminoacidi che si organizzano in tre alfa eliche consecutive,
indicate come H1, H2 ed H3, disposte a formare i tre lati di un triangolo. La successione delle ripetizioni genera un
avvolgimento superelicoidale destrorso, in cui il solco interno (groove) va tipicamente a formare il sito di legame.

Nell'immagine seguente osserviamo la struttura superelicoidale del dominio N-terminale del fattore p115.

119
Il fattore di tethering p115 una golgina. Le golgine sono una famiglia di proteine coiled-coil associate al Golgi
necessarie per i processi di attracco (tethering) delle vescicole alle membrane del Golgi e come supporto strutturale
per le sue cisterne.

La golgina p115 un omodimero stabile formato da una testa globulare N terminale (GHR Globular Head Region), da
una lunga regione centrale coiled-coil (CC) e da una regone C-terminale acida.
La testa globulare costituita dalle regioni ad alfa-solenoide dei due monomeri che si abbracciano incastrando i loro
solchi interni.
La golgina p115 viene legata alla membrana della vescicola in modo GTP dipendente da una Rab1 GTPasi ed utilizza
l'estremit C-terminale per effettuare il tethering alla membrana della cisterna cis del Golgi agganciando l'estremit
positivia del complesso GRASP65/GM130.

120
Il successivo processo di docking (ancoraggio) mediato dalle proteine v-SNARE (sulla vescicola) e t-SNARE (sulla
membrana target del Golgi).

Le proteine SNARE (da SNAP (Soluble NSF Attachment Protein) REceptor) si intrecciano a formare un fascio di 4 eliche
che prelude al successivo processo di fusione.

L'indirizzamento proteico (o targeting proteico) il meccanismo mediante il quale la cellula trasporta le proteine
sintetizzate dai ribosomi citosolici verso le loro destinazioni. Questo processo di consegna effettuato sulla base di
informazioni contenute nella stessa proteina, sotto forma di brevi sequenze amminoacidiche, dette sequenze segnale,
che consentiranno alla proteina di posizionarsi correttamente all'interno della cellula.

L'indirizzamento delle proteine pu avvenire attraverso due modalit:


Indirizzamento co-traduzionale in cui la proteina viene traslocata assieme al ribosoma, mentre la sintesi
(traduzione) ancora in corso. Tipicamente queste proteine vengono inviate al Reticolo endoplasmatico

121
Indirizzamento post-traduzionale in cui la proteina viene traslocata al completamento della sintesi dopo
esser stata rilasciata nel citosl dai ribosomi liberi. Tipicamente queste proteine vengono indirizzate a
mitocondri, cloroplasti, perossisomi e nucleo.

La traslocazione co-traduzionale delle proteine verso le membrane del Reticolo richiede che il ribosoma in fase di
traduzione sia indirizzato verso la membrana da una particella di riconoscimento del segnale (SRP).
La SRP una ribonucleoproteina citosolica, altamente conservata che riconosce e indirizza proteine specifiche verso
il reticolo endoplasmatico negli eucarioti e verso la membrana plasmatica nei procarioti.
La SRP riconosce e si lega ad una sequenza segnale localizzata nella regione aminoterminale della catena polipeptidica
nascente. Tale sequenza, costituita da circa 20 amminoacidi idrofobici, viene poi tagliata dalla catena polipeptidica
una volta che la proteina arrivata a destinazione nel RE
Il legame tra SRP e Sequenza segnale causa il blocco momentaneo della sintesi e l'aggancio con il recettore-SRP
presente sulla membrana.
SRP viene rilasciata ed il ribosoma, ripresa la sintesi, prende contatto con un canale proteico (complesso SEC o
Traslocone) adiacente al recettore SRP. Il traslocone (il pi noto il traslocone SEC61), riconosciuta la sequenza
segnale della proteina nascente, ne permette la penetrazione nel Reticolo.

Le proteine di membrana ancorate per la coda (Tail-anchored membrane proteins - TAMPs) costituiscono una
importante famiglia di proteine di membrana che non sono in grado di seguire la via co-traduzionale guidata da SRP e
di utilizzare il traslocone SEC.

Le TAMPs sono prive della sequenza-segnale N-terminale e sono caratterizzate da una singola
alfa elica carbossiterminale (coda = tail) che le ancora alla membrana. Tra di esse si trovano proteine che svolgono
importanti funzioni come i fattori di apoptosi, le proteine che controllano i processi di fusione di membrane (SNAREs)
nei processi di eso-endocitosi (vesicle trafficking - traffico vescicolare) e le proteine che presiedono ai processi di
traslocazione di proteine attraverso le membrane (trasloconi SEC).

L'indirizzamento e l'inserimento post-traduzionale delle TAMPs nella membrana del Reticolo endoplasmatico
richiedono l'intervento di un complesso proteico noto come GET (GET = Guided-Entry of Tail-anchored proteins oppure
Golgi ER Trafficking complex).
Nell'immagine che segue si osserva il dominio a solenoide alfa di GET4, uno dei componenti proteici che interviene
nelle prime fasi dell'indirizzamento delle TAMPs.

122
Le carioferine sono un gruppo di proteine coinvolte nell'indirizzamento ed il trasporto di proteine tra il citoplasma ed
il nucleo di una cellula eucariotica attraverso il poro nucleare. Si suddividono in importine ed esportine a seconda del
verso di trasporto. Le importine trasportano molecole dal citoplasma al nucleo legandosi ad una sequenza di
riconoscimento specifica, nota come Segnale di Localizzazione Nucleare NLS (nuclear localization signal).

Molte di queste sequenze, come quella dell'antigene T, sono brevi successioni di amminoacidi basici (Lisina e
Arginina). In molti casi, tuttavia la sequenza non continua, ma risulta interrotta dalla presenza di alcuni amminoacidi
che non fanno parte del segnale (NLS bipartito). Per esempio la sequenza NLS della nucleoplasmina (una proteina
coinvolta nel processo di assemblaggio della cromatina) formata da due parti separate da 10 amminoacidi che
possono liberamente essere sostituiti senza interferire con il processo di riconoscimento.

Le importine si suddividono in importine ed importine .


Le importine possono legarsi alla proteina da trasportare (cargo) o formare un eterodimero con le importine .
Come parte di un eterodimero l'importina-beta si lega ai filamenti citoplasmatici del poro nucleare, mentre l'importina
alfa riconosce ed aggancia la sequenza NLS. Il trasporto attraverso il poro richiede energia che viene fornita
dall'idrolisi di GTP da parte di una proteina Ran.

123
L'importina presenta 10 ripetizioni ARM avvolte ad alfa-solenoide, con l'ansa interna alla superelica che funge da
sito di legame per la sequenza NLS. L'importina alfa presenta inoltre un dominio N-terminale, detto IBB (Importin
Beta Binding), che utilizza per legarsi all'importina beta.

L'importina presenta anch'essa una struttura ad alfa solenoide costituita da 19 ripetizioni HEAT. La ripetizione HEAT
trae il suo nome dalle quattro proteine in cui stata inizialmente studiata: la proteina Huntingtin, Il fattore di
elongazione 3 (EF3), la subunit A della proteina fosfatasi 2 (PP2A o PR65A) e la chinasi del lievito (TOR1).
Ciascuna ripetizione HEAT costituita da due alfa eliche antiparallele, indicate come A e B, che si succedono in un
avvolgimento a solenoide in modo che ciascuna elica A e B di una ripetizione risulti parallela alla sua omologa della
ripetizione successiva.

124
In questo modo si forma un doppio strato di doppie eliche, con le eliche A che formano lo strato esterno e le eliche B
lo strato interno.

Nell'immagine seguente rappresentata l'importina beta legata al dominio IBB dell'importina alfa racchiusa nel cuore
del solenoide

Domini : ripiegamento globinico (globin fold o orthogonal bundle)


Il fold globinico o fascio ortogonale (orthogonal bundle) una delle pi importanti e diffuse strutture
alfa. Si ritiene si sia evoluta da un antenato molecolare comune ed presente nelle proteine di quasi
tutte le specie con funzioni non necessariamente identiche. Si trova ad esempio nelle emoglobine e nelle
mioglobine degli animali con funzione di trasporto dell'ossigeno e nelle ficocianine delle alghe azzurre
(cianobatteri) con funzioni fotosintetiche
Il globin fold costituito da 8 -eliche, indicate con le lettere A-H, collegate da loop piuttosto corti, in
modo da disporsi a formare la tasca idrofobica del sito attivo, che in mioglobina e emoglobina, ospita il
gruppo eme (legato all'elica F in corrispondenza dell'Istidina prossimale, l'ottavo residuo o Istidina F8)
La lunghezza delle eliche varia considerevolmente: da 7 aminoacidi per lelica C a 28 aminoacidi per
lelica H.
Le eliche sono disposte in direzioni diverse, in modo tale che eliche adiacenti in sequenza non lo sono
nella struttura, con leccezione delle eliche G e H.
Le eliche si impaccano secondo il modello ridges-into-grooves con angoli tra gli assi delle eliche di 50.

125
Mioglobina (PDB: 1MBA)

Nonostante il fold globinico si sia altamente conservato durante l'evoluzione, le sequenze aminoacidiche conservate
sono inferiori al 16% a testimonianza che per la sua funzione pi importante la struttura che la sequenza
aminoacidica.

Domini : Barile-beta (-Barrel)


Un barile beta costituito da uno o pi foglietti-beta ripiegati a formare le pareti di una struttura
tubulare, in cui spesso il primo filamento beta si lega all'ultimo. Nella maggior parte dei casi i filamenti
sono antiparalleli e leggermente inclinati rispetto all'asse del barile

Le strutture a Barile vanno comunemente a costituire proteine di trasporto transmembraniche (Porine) e


proteine che legano molecole idrofobiche nel centro del barile.

In molti casi, i filamenti presentano amminoacidi polari e idrofobi disposti in modo alternato, in modo che
i residui idrofobici siano orientati verso l'interno del barile per formare un core idrofobico ed i residui
polari siano orientati verso l'esterno sulla superficie esposta al solvente. Tuttavia le Porine ed altre
proteine transmembraniche che presentano barili beta invertono questa disposizione, orientando i residui
idrofobici verso il bilayer fosfolipidico che costituisce la membrana e rivolgendo i residui idrofili verso
l'interno dei pori.

Nella maggior parte dei casi i domini a barile-beta utilizzano per formare le loro pareti i motivi a
meandro-beta, a chiave greca e a jelly-roll.

126
I barili a meandro-beta (o barili testa-coda o up-and-down-barrel) presentano la struttura pi semplice, formata da
filamenti beta antiparalleli in successione. I filamenti beta che risultano adiacenti nella successione aminoacidica, lo
sono anche nella struttura a barile.

Diagramma topologico e Rappresentazione schematica

Tipicamente i barili a meandro-beta sono formati da 8 filamenti antiparalleli, come accade nelle
lipocaline, proteine secrete nell'ambiente extracellulare che hanno la capacit di legare e trasportare piccole
molecole idrofobiche nella cavit apolare del barile. Un esempio la proteina che lega il retinolo (Retinol Binding
Protein RBP)

Retinol Binding Protein


(PDB: 1RBP)

Anche le porine, proteine di trasporto transmembraniche, con cavit idrofile per il trasporto di molecole
polari, presentano pareti con pi di 8 filamenti (tipicamente 14-16-18) antiparalleli a meandro .
Nell'immagine successiva la porina OmpF (Outer membrane protein F), una proteina canale situata
nella membrana esterna di Escherichia coli, formata da un mendro-beta a 16 filamenti antiparalleli.
Controlla il trasporto passivo tramite diffusione in modo non-specifico di una vasta serie di molecole
polari (acqua, ioni, glucosio ed altri nutrienti e sostanze di rifiuto).

porina OmpF
(PDB: 2OMF)

127
Il barile-beta a chiave greca costituito tipicamente da due motivi a chiave greca (8 filamenti) saldati da un loop tra
l'ultimo filamento della prima chiave (il 4) ed il primo della seconda (il 5). Nell'immagine che segue osserviamo il
diagramma topologico e la rappresentazione schematica.

Un esempio sono le gamma cristalline, proteine che determinano il potere di trasparenza e rifrazione del cristallino
nei mammiferi, costituite da due barili-beta a chiave greca uniti da un loop.

gamma cristallina

Nel barile-beta a jelly-roll un nastro costituito da 4 coppie consecutive di filamenti beta antiparalleli, saldate
all'estremit da un loop, si avvolge parallelamente all'asse maggiore del barile secondo un motivo jelly-roll, in modo
tale che le due coppie estreme (la prima (1-8) e la quarta (4-5)) e le due centrali (la seconda (2-7) e la terza (3-6)) si
trovino ai lati opposti del barile.

128
Il barile-beta a jelly-roll un dominio piuttosto diffuso nelle proteine dei virus influenzali (Rhinovirus).

Esistono infine barili-beta che possono presentare pi di un motivo-beta, come la chimotripsina, un'enzima digestivo
pancreatico che digerisce le proteine (proteasi) e che presenta un dominio a barile-beta costituito da un motivo a
chiave-greca (filamenti 1-4), collegato ad un forcina-beta (filamenti 5-6).

Possono essere considerate varianti del barile beta il -trefoil, il -clam e il -roll.

Il dominio -trefoil (trifoglio beta) formato da 12 filamenti beta organizzati in 6 forcine beta antiparallele.
3 forcine formano le pareti del barile che risulta pertanto costituito da 6 filamenti beta antiparalleli, mentre le altre 3
forcine si dispongono su di un piano a formare i lati di un triangolo che chiude come un coperchio (cap) una delle due
estremit del barile.

La successione dei 12 filamenti beta pu essere suddivisa in 3 gruppi sequenziali di 4 filamenti ciascuno. All'interno di
ciascun gruppo si presenta una successione caratteristica beta-beta-beta-loop-beta con un lungo loop che lega il terzo
filamento beta al quarto. Se si rappresenta l'andamento di tale struttura su di un piano risulta evidente la struttura a
trifoglio generata dai 3 loop.

Sono proprio questi loop, che si estendono esternamente alla struttura, che costituiscono i siti di legame di questo
dominio. Le proteine a trifoglio beta legano una grande variet di molecole, comprese altre proteine, DNA, membrane
e carboidrati.
Nell'immagine seguente osserviamo l'interleuchina-1 beta, una citochina coinvolta nei processi infiammatori.
costituita da 153 amminoacidi (circa 50 per lobo). Nell'immagine a sinistra il barile colorato in rosso, mentre il
coperchio colorato in giallo. Nell'immagine di destra i tre diversi colori sono stati assegnati ai 3 lobi del trifoglio. Ogni
lobo, formato da 4 filamenti, presenta la forcina beta centrale sul coperchio ed i due filamenti esterni sul barile.

129
Il dominio -clam (conchiglia beta) in pratica costituito da un barile beta che non si chiude completamente, con il
foglietto beta che si dispone pertanto a formare il guscio di una conchiglia.

La batterioclorofilla A-proteina coinvolta nel sistema di trasferimento di energia dei batteri fotosintetici. La
batterioclorofilla A agisce come un'antenna chimica in grado di assorbire la luce e trasferirla al centro di reazione del
fotosistema batterico, mentre la proteina forma un omotrimero, ciascuna subunit del quale ospita 7 molecole di
batterioclorofilla A. Nellimmagine seguente visualizzato un monomero della batterioclorofilla A-proteina.

In Escherichia coli le lipoproteine vengono ancorate alla superficie periplasmatica della membrana interna ed esterna
in relazione al segnale di smistamento (sorting signal) che presentano. I fattori di localizzazione delle lipoproteine (Lol
- Lipoproteine localization factors), molecole altamente conservate nei batteri Gram-negativi, si occupano dei
processi di smistamento e targeting verso le membrane bersaglio. LolA funge da chaperone molecolare periplasmatico
e consegna la lipoproteina al recettore LolB situato sulla membrane interna, che si occupa dell'inserzione della
lipoproteina nella membrana. LolA e LolB presentano entrambe una struttura molecolare a beta-clam, con una ampia
cavit idrofobica che ospita le lipoproteine.

130
Alcuni autori classificano come -clam anche i domini a barile-beta in cui due filamenti beta adiacenti non riescono a
formare ponti ad idrogeno, creando una fessura sulle pareti del barile. In tal modo il barile, pur mantenendo la sua
configurazione, non si chiude.
Un esempio tipico di questa struttura sono le proteine che legano gli acidi grassi FABP (fatty acid binding proteins) e
le proteine che legano i lipidi LBP (lipids binding Proteins) le quali utilizzano la loro cavit interna idrofobica per legare
il substrato.
Sono costituite da un foglietto beta a 10 filamenti con un caratteristico motivo a forcina Helix-Turn-Helix che si
dispone a formare un coperchio ad una delle due estremit del barile.
Nellimmagine che segue rappresentata una FABP intestinale di ratto vista dal lato del barile in cui presente la
fessura (i ponti idrogeno sono tratteggiati in giallo).

FABP di ratto (PDB: 1IFB)

Anche il dominio -roll (rotolo beta) pu essere considerato come un barile beta che non si chiude completamente.
tipicamente formato da un foglietto beta antiparallelo a 5 o 6 filamenti, con i filamenti 2, 3 e 4 che formano un lato
della struttura ed i filamenti residui che si dispongono perpendicolarmente ad esso. In alcuni casi il lungo loop che lega
il filamento 1 al filamento 2 presenta strutture secondarie (foglietto beta a 2 filamenti o alfa eliche) che formano un
coperchio ad una delle due estremit del barile.

Un esempio tipico di questa struttura si ha nel dominio SH3 (SRC Homology 3), una breve sequenza di 60 amminoacidi
altamente conservata che riconosce sequenze ricche di prolina e si trova in proteine che interagiscono con altre
proteine, mediano processi di assemblaggio proteico e di trasduzione dei segnali.

La proteina GRB2 (Growth factor receptor-bound protein 2), costituita da 3 domini SH (di cui due
domini SH3 ed un dominio SH2), una proteina adattatrice coinvolta nei processi di trasduzione del
segnale finalizzati alla crescita, differenziazione e sopravvivenza della cellula.

La via metabolica alla quale partecipa GRB2 inizia con l'attivazione dei recettori tirosin-chinasici (RTK)
posti sulla membrana plasmatica. I recettori attivati si legano al dominio SH2 della proteina adattatrice

131
Grb2, mentre i due domini SH3 si legano alla proteina SOS (Son of Sevenless) attivandola. SOS quindi
in grado di legarsi a Ras sostituendo il GDP con il GTP, portando in tal modo Ras nel suo stato attivato.
Ras una famiglia di proteine appartenente alle piccole GTPasi (small GTPase). Ras l'abbreviazione di
Rat Sarcoma (sarcoma del ratto). Poich lattivazione di Ras porta alla promozione di fenomeni di
proliferazione cellulare, le mutazioni nei geni Ras possono quindi portare alla produzione di proteine Ras
permanentemente attive, anche in assenza di segnali in ingresso, con conseguente insorgenza di tumori.

Dominio SH3 C-terminale di RGB2 (PDB: 1IO6)

Nello schema successivo evidenziato il modo in cui il filamento proteico si arrotola (roll) in modo da disporre i due
foglietti perpendicolarmente luno allaltro.

Nellimmagine seguente rappresentato il dominio SH3 della Spettrina, una proteina citoscheletrica, osservato dal
lato aperto del barile (senza i ponti ad idrogeno)

Dominio SH3 della Spettrina (PDB: 1SHG)

132
Domini : Sandwich-beta (-sandwich)
Un sandwich beta essenzialmente una barile-beta "schiacciato" costituito da due foglietti beta
sovrapposti e strettamente impaccati (come un sandwich). I filamenti estremi di un foglio non formano
legami idrogeno con i filamenti estremi dell'altro foglio, non permettendo in tal modo alla struttura di
chiudersi a barile.
La concanavalina A, ad esempio, una proteina in grado di legare carboidrati estratta dai baccelli della
fava comune (Canavalia ensiformis), costituita da un unico grande dominio a sandwich-beta che forma
una struttura quaternaria omopentamerica

Concanavalina A
(PDB: 3CNA)

Le fibronectine sono glicoproteine multidominio presenti in forma solubile nel plasma ed in forma insolubile nel
tessuto connettivo.
Presentano una struttura modulare con copie multiple di 3 regioni ripetute (tipo I, II e III), che si legano ad una variet
di sostanze come eparina, collagene, DNA, actina e fibrina. La grande variet di queste sostanze suggerisce che le
fibronectine siano coinvolte in una serie di importanti funzioni come la guarigione delle ferite, l'adesione cellulare, la
coagulazione del sangue, la differenziazione e la migrazione cellulare, la manutenzione del citoscheletro cellulare.
Il dominio di tipo III (a sandwich-beta) della Fibronectina (FnIII) una struttura che si altamente conservata durante
l'evoluzione ed quindi largamente diffusa nelle proteine animali. Nella maggior parte dei casi tale dominio funge da
recettore superficiale delle cellule per le citochine.

Fibronectina - dominio di tipo III


(PDB: 2GEE)

Domini : Prisma-beta (-prism)


Un prisma-beta tipicamente formato da 3 foglietti beta che vanno a costituire i tre lati di un prisma a
base triangolare. Sono possibili due conformazioni a seconda che i filamenti beta siano paralleli allasse
del prisma (prisma-beta allineato) o siano ad esso perpendicolari (prisma-beta ortogonale).

133
Il dominio a prisma-beta caratteristico di molte lectine, proteine in grado di riconoscere e legare
specifici carboidrati. Nellimmagine seguente rappresentata una delle due subunit della lectina della
banana, un omodimero formato da due domini a prisma-beta allineato (aligned -prism), in grado di
legare il mannosio.

Lectina della Banana


(PDB: 3MIU)

La neoculina, una proteina estratta dal frutto di Curculigo latifolia, un eterodimero dal sapore dolce
che possiede la peculiare propriet di convertire il sapore acido del cibo in sensazioni dolci. La subunit A
delleterodimero presenta una struttura prisma-beta ortogonale (orthogonal -prism)

Subunit A della Neoculina


(PDB: 2D04-A)

134
Domini : -propeller o super-barrel (Turbina-beta o propulsore-beta o superbarile)
Un beta-propeller un dominio caratterizzato da 4-8 (tipicamente 6 o 7) foglietti-beta. Ciascun foglietto
si dispone attorno ad un asse centrale a formare le pale di una turbina. Ogni foglietto ha tipicamente
quattro filamenti- antiparalleli in configurazione a meandro-beta (up-and-down) con il primo filamento
rivolto verso il centro del propeller. Il piano di ogni foglietto (pala) presenta una torsione tale che il primo
filamento risulta quasi perpendicolare al quarto. Il sito attivo del dominio si trova spesso nella fenditura
formata al centro dell'elica dai loop che collegano le pale. Secondo il modello proposto da Murzin il beta-
propeller a sette pale sarebbe il pi favorito in termini geometrici.

Un notevole esempio di -propeller si ha con le proteine contenenti ripetizioni WD40 (WD40


repeats), una vasta famiglia proteica presente in tutti gli eucarioti, responsabile di numerose funzioni
cellulari (processamento di RNA, regolazione trascrizionale, controllo del ciclo cellulare, apoptosi etc).
WD40 un motivo proteico a mendro-beta composto da 40 amminoacidi che spesso termina con un
dipeptide Triptofano-Acido aspartico (W-D). Nelle proteine con ripetizioni WD40 il motivo si ripete 7 volte
andando a formare le pale di un propeller (dominio WD40). Nell'immagine successiva rappresentato
uno dei due domini WD40 a 7 pale del corepressore trascrizionale umano Groucho, il quale promuove
la deacetilazione degli istoni e la compattazione della cromatina. I foglietti-beta sono colorati dal blu
(estremit N-terminale) al rosso (estermit C-terminale)

(PDB: 1GXR)

Un altro esempio di -propeller si ha con le proteine Kelch.


Kelch un motivo proteico a mendro-beta composto da 50 amminoacidi, che prende il nome dalla
Drosophila mutante in cui stato per la prima volta individuato. Il motivo si ripete (Kelch repeat),
andando a formare le pale di un propeller (tipicamente a 6 pale), che costituisce un dominio Kelch.
Le proteine Kelch costituiscono una vasta famiglia responsabile di numerose funzioni cellulari.

135
Le neuraminidasi, ad esempio, sono enzimi in grado di idrolizzare i legami glicosidici degli acidi
neuraminici. Le neuraminidasi sono una grande famiglia, che si trova in una vasta gamma di organismi.
La pi conosciuta la neuraminidasi virale, un bersaglio di farmaci per la prevenzione dell'influenza.

La neuraminidasi virale catalizza infatti l'idrolisi dei residui terminali di acido sialico (per questo nota anche come
sialidasi) dai virioni di nuova formazione e dai recettori della cellula ospite, facilitando il rilascio dei nuovi virioni da
parte delle cellule infette e la loro diffusione attraverso le vie respiratorie. Alcune varianti della neuraminidasi
influenzale conferiscono maggiore virulenza al virus rispetto ad altre.

E' una proteina tetramerica. Ciascun monomero costituito da un beta-propeller Kelch a 6 pale (6 ripetizioni Kelch).
Ciascuna pala formata da un motivo a beta-mendro a 4 filamenti (motivo Kelch). Nell'immagine succesiva
rappresentanto un monomero (dominio Kelch)

Neuraminidasi

La subunit beta della Trasducina mostra un altro esempio di beta-propeller a 7 pale. La trasducina una proteina G
eterotrimerica espressa nella retina dei vertebrati che controlla la trasduzione del segnale luminoso. Le Proteine G,
note anche come Proteine che legano il guanin nucleotide (Guanine nucleotide-binding proteins) sono una famiglia di
proteine coinvolte nella trasmissione di segnali chimici provenienti dall'esterno verso l'interno della cella. Le Proteine
G funzionano come interruttori molecolari e trasduttori di segnale. La loro attivit regolata da fattori che controllano
la loro capacit di legare il guanosin trifosfato (GTP) e di idrolizzarlo a guanosin difosfato (GDP). Quando si legano al
GTP, sono "attive", quando si legano al GDP, sono 'disattive'. Si dividono in Proteine G monomeriche ed
eterotrimeriche (catene , e ).

Subunit beta della Trasducina


(PDB: 1GOT)

136
Un ultimo esempio di beta-propeller a 4 pale il dominio emopexina-like (Hemopexin-like domain) che si trova
ricorrente nelle matricine (matrixins) o MMP (Matrix Metallo Proteinase).
Le MMP sono endopeptidasi (enzimi che idrolizzamo i legami peptidici all'interno della sequenza aminoacidica)
metallodipendenti, coinvolte nella regolazione del turnover delle macromolecole che compongono la matrice
extracellulare.
Nell'immagine che segue rappresentato il dominio emopexina-like carbossiterminale della gelatinasi umana MMP-2,
2+
(al centro del beta-propeller a 4 pale un atomo di Ca )

(PDB: 1RTG)

Domini : beta-Elica (-helix) o Solenoide


La -elica fu osservata per la prima volta nel 1993 nella struttura dellenzima batterico pectato-liasi. E'
formata da una successione di filamenti-beta collegati da regioni di loop che si avvolgono a spirale.

Si possono in tal modo generare due tipi di beta-eliche, aventi 2 o 3 foglietti per spira (2-solenoide e 3-
solenoide).

Entrambe queste strutture possono essere considerate delle "deviazioni" dal modello teorico ed ideale di
-elica proposto nel 2002 da Perutz che prevede un unico filamento-beta che si avvolge a spirale con un
diametro di 32 e 20 residui per spira.

Le catene laterali sporgono per met esternamente e per met internamente alla spirale, lasciando un lume residuo
interno di circa 12 .

Il modello noto anche come "water-filled nanotube" (nanotubo pieno d'acqua), poich le notevoli dimensioni del
lume interno permettono alle molecole d'acqua di penetrarvi liberamente.

137
La elica a 2 foglietti (2-solenoide) la forma di elica pi semplice. Ciascun giro di elica comprende 2 filamenti e
2 regioni di loop. In questo modo si formano due foglietti beta disposti uno di fronte all'altro con un core idrofobico in
mezzo.

elica a 2 foglietti

La elica a 2 foglietti caratteristica delle proteasi (o proteinasi o peptidasi) alcaline extracellulari batteriche. In
2+
questa famiglia di proteine i loop tra i filamenti sono stabilizzati da ioni Ca , che si legano all'aminoacido Asp.
Ciascuna spira costituita da 18 aminoacidi, 3 in ciascun filamento e 6 in ciascun loop. Questa unit base
caratterizzata dalla sequenza consenso:
(Gly-Gly-X-Gly-X-Asp-X-U-X)

dove
X = qualsiasi aminoacido
U = aminoacido idrofobico, spesso Leu

138
Una sequenza consenso (consensus sequence) una sequenza di nucleotidi o di aminoacidi che viene riconosciuta ed
"ha un senso" per un certo processo. Ad esempio il sito di restrizione per una endonucleasi o le sequenze dei geni
promotori riconosciute dai fattori di trascrizione. Si tratta in genere di sequenze "conservate" che si ritrovano, con
poche differenze e con la medesima funzione, in geni o proteine diverse.

Nelle immagini seguenti le proteasi alcaline del batterio Serratia marcescens e Pseudomonas aeruginosa.
Appartengono entrambe alla famiglia delle metalloendoproteasi zinco-dipendenti (in giallo gli ioni calcio nei loop
della beta-elica ed in viola l'atomo di Zinco)

proteasi alcalina (Serratia marcescens)


(PDB: 1SMP chain A)

proteasi alcalina (Pseudomonas aeruginosa)


(PDB: 1KAP)

La elica a 3 foglietti (3-solenoide) comprende 3 filamenti (da 3-5 residui ciascuno) e 3 regioni di loop per ogni
giro dell'elica. In questo modo si formano tre foglietti beta che formano i lati di un prisma. La sezione della elica non
tuttavia triangolare, a causa della disposizione dei foglietti .

139
Infatti due dei foglietti sono posizionati uno di fronte allaltro, come nella elica a 2 foglietti , mentre il terzo
foglietto (in verde nello schema) quasi perpendicolare agli altri 2.

Il loop (a) pi corto e quasi sempre formato solo da 2 aminoacidi, generando un angolo di circa 120 fra i 2
filamenti che unisce. I loop (b) e (c) sono pi lunghi e variano in dimensione.

I loop lunghi sporgono dai foglietti e probabilmente formano il sito attivo sulla superficie esterna della proteina.

A differenza della elica a 2 foglietti, la elica a 3 foglietti non presenta sequenze ripetute (nessuna sequenza
consenso)

Il numero di giri di elica nelle eliche a 3 foglietti maggiore di quello trovato nelle eliche a 2 foglietti .

Ad esempio, la pectato liasi, un enzima implicato nella scissione dei pectati (sali della pectina di cui ricca la parete
cellulare delle piante) consiste di 7 giri di elica (d = 4.86 ), ha una lunghezza di 34 ed un diametro di 17-27 .

Pectato liasi (PDB: 1AIR)

La pectato liasi presenta una beta-elica destrogira, mentre nell'enzima UDP N-Acetilglucosammina aciltrasferasi
stata osservata un'elica levogira.

140
UDP N-Acetilglucosammina aciltrasferasi (PDB: 1LXA)
(Escherichia coli)

Domini /
I domini / sono fra le piu frequenti e diffuse strutture proteiche.
Sono generalmente costituiti da motivi -- (crossover connection) collegati tra loro in modo che i
filamenti si trovino ad essere paralleli formando un foglietto esteso.

I motivi -- si possono collegare in 2 diversi modi:

A) le alfa eliche si trovano tutte sul medesimo lato del piano del foglietto-beta, come avviene nel
dominio a barile / e nel dominio a ferro di cavallo. I filamenti- si dispongono nella medesima
successione (1-2-3-4..) in cui si trovano all'interno della catena proteica. Tali strutture sono note anche
come / single wound (la numerazione dei foglietti cresce in un'unico verso)

B) le alfa eliche si trovano sui lati opposti del piano del foglietto-beta, come avviene nei domini a
sandwich / o foglietti alfa-beta aperti. I filamenti- si dispongono in successione ..(n+2)-(n+1)-1-
2..n. Tali strutture sono note anche come / doubly wound (la numerazione dei foglietti cresce da una
posizione centrale verso le due estremit in due versi opposti). In questo modo i due filamenti centrali
presentano loop che divergono verso l'esterno formando una fessura in corrispondenza del bordo C-
terminale del foglietto.

Nell'immagine successiva le due modalit sono esemplificate utilizzando un foglietto a 4 filamenti

141
Domini /: Barile alfa-beta o barile TIM (/ barrel)
Il barile /, uno delle strutture supersecondarie pi diffuse e meglio conservate dal punto di vista
evolutivo, tipicamente costituito da 8 filamenti paralleli, posizionati in modo tale che l'ultimo filamento
beta sia adiacente e connesso al primo con legami idrogeno (esistono tuttavia anche / barrel costituiti
da 10 filamenti paralleli).

Le 8 alfa eliche che collegano coppie di filamenti adiacenti, generando motivi --, si posizionano esternamente ed
usano impaccano le loro catene laterali idrofobiche per impaccarsi con le catene laterali idrofobiche esterne dei
filamenti .

Il barile / chiamato anche TIM barrel dalla struttura dellenzima Triosofosfato IsoMerasi, dove fu osservato per la
prima volta. La triosofosfato isomerasi un enzima, coinvolto nel processo di glicolisi, formato da due subunit
identiche (omodimero).

142
Nonostante nelle rappresentazioni schematiche la parte interna del barile possa apparire vuota essa occupata dalle
catene laterali idrofobiche dei filamenti che sono rivolte verso linterno del barile a formare un core idrofobico
strettamente impaccato.

Il core idrofobico formato da 3 strati di catene laterali, dove ogni strato contiene 4 catene laterali provenienti dai
residui presenti in filamenti beta alternati.

Il barile / un dominio tipico di molti enzimi coinvolti in isomerizzazione di piccole molecole di zucchero,
trasferimento di gruppi fosfato, degradazione di zuccheri polimerici

In tutti gli / barrel il sito attivo si trova nella stessa posizione, in una tasca costituita dagli 8 loop che connettono
lestremit C-terminale dei filamenti con lestremit N-terminale delle eliche. Gli aminoacidi che partecipano al
legame del substrato e alla catalisi appartengono a queste regioni di loop.

143
Domini /: Struttura a ferro di cavallo (/ horseshoe)
I filamenti formano un foglietto-beta parallelo che si inarca a ferro di cavallo, con le eliche sul lato
esterno e il foglietto che forma la parte interna, esposta al solvente.

Il dominio stato per la pima volta individuato nell'enzima inibitore della ribonucleasi, che presenta
un foglietto con 17 filamenti-beta paralleli sul lato convesso e 16 alfa-eliche sul lato concavo. Si tratta
tuttavia di una struttura molto ben conservata dal punto di vista evolutivo che si ritrova in proteine virali,
batteriche ed eucariotiche e sembra rappresentare una piattaforma strutturale per la formazione di
interazioni proteina-proteina. I processi biologici in cui i motivi a ferro di cavallo rivestono un ruolo
significativo comprendono trasduzione del segnale, adesione cellulare, ricombinazione, trascrizione,
slicing, apoptosi e risposta immunitaria.

Inibitore della Ribonucleasi


(PDB: 2BNH)

Il dominio a ferro di cavallo noto anche come dominio a ripetizioni ricche di leucina (dominio LRR - Leucine Rich
Repeats). Nella sua struttura infatti contenuto un motivo / noto come ripetizione ricca di leucina (LRR motif) che
si ripete pi volte nel dominio a ferro di cavallo.

Un motivo LRR formato da un foglietto-beta unito ad un'alfa-elica da una curva (strand-turn-helix o beta-loop-alfa)
in una struttura a forcina, in modo che le catene laterali idrofile siano rivolte verso l'esterno (a contatto con il
solvente), mentre la regione compresa tra l'elica ed il foglietto formi un core idrofobico strettamente impaccato
tramite residui di Leucina.

Il motivo LRR tipicamente composto da 24 residui, tuttavia la sua lunghezza pu andare da 20 a 30 aminoacidi
all'interno dei quali si ritrovano sequenze consenso altamente conservate. In genere le sequenze si ripetono in
tandem.
Ad esempio, nell'inibitore della ribonucleasi dei mammiferi sono state trovate due sequenze definite di tipo-A e di
tipo-B che si alternano. Un motivo LRR di tipo-A, seguito da un motivo LRR di tipo-B, a sua volta seguito da uno di tipo-

144
A e cos via, generando 7 ripetizioni in tandem. All'estremit N-terminale la successione aminoacidica inizia con un
motivo LRR di tipo-B non ripetuto, mentre all'estremit C terminale la sequenza aminoacidica termina con un motivo
LRR di tipo-A non ripetuto, seguito da un filamento-beta singolo di tipo-B, per un totale di 16 alfa-eliche e 17 filamenti-
beta.

Nell'immagine successiva riportata la sequenza aminoacidica dell'inibitore della ribonucleasi umana, in cui si
mostrano le 7 ripetizioni in tandem dei motivi LRR di tipo A e di tipo B e le relative sequenze consenso, dove
L = Leu, Val o Ile
N = Asn, Thr, Ser o Cys
x = aminoacido qualsiasi
a = aminoacido apolare

Ogni motivo presenta una regione altamente conservata che corrisponde ad una successione di 11 aminoacidi (dal 2 al
12 compreso), che formano il foglietto-beta e parte del loop

Per il motivo LRR di tipo A: LXXLXLXXCXL


Per il motivo LRR di tipo B: LXELXLXXNXL

Gli aminoacidi in posizione 2,5,7,12,17,20,24 sono spesso Leucine (o aminoacidi idrofobici come Val o Ile), che
consentono la formazione del core idrofobico e la stabilizzazione del motivo beta-loop-alfa (LRR). La posizione 10
occupata da Cys nel tipo-A e da Asn nel tipo-B.

Domini /: sandwich alfa-beta (/ n-layer sandwich o / open twisted sheet)


Il dominio a sandwich alfa-beta, o foglietto alfa-beta aperto, presenta numerose varianti rispetto alla
struttura inizialmente descritta, costituita da un foglietto-beta parallelo (o misto) con alfa-eliche su
entrambi i lati, impaccate sulle superfici idrofobiche del foglietto. Il numero di filamenti-beta varia tra 4 e
10.

Possiamo immaginare il dominio composto di due pagine. La prima pagina formata da n filamenti
(1,2...n) e presenta le alfa eliche da un lato del foglietto. La seconda pagina, che inizia con il filamento

145
(n+1) legato da un lungo loop al filamento n, si posiziona rovesciata, (ruotata di 180) davanti alla
prima pagina, in modo che il filamento (n+1) sia adiacente al filamento 1 e che le sue alfa-eliche si
trovino dal lato opposto rispetto a quelle della prima pagina.
Le due pagine sono a contatto con i loro filamenti iniziali (1 ed n+1) e al centro, proprio come in un libro,
si forma una piega (fessura) in corrispondenza del margine carbossilico del foglietto-, formata dai loop
che divaricano. In genere tale fessura ospita il sito attivo.

Nell'immagine che segue sono riportati due esempi schematici di foglietti / aperti:
A) foglietto a 4 filamenti con successione 4-3-1-2
B) foglietto a 5 filamenti con successione 5-4-1-2-3

La struttura fu individuata per la prima volta da Rossmann confrontando la Flavodossina con la


Lattato deidrogenasi.

La Flavodossina un enzima batterico che trasferisce elettroni (ossidoreduttasi) utilizzando il coenzima


FMN (Flavin mononucleotide). E' costituita da un foglietto-beta parallelo a 5 filamenti formato da una
"pagina" a 2 filamenti (1-2) ed un'elica (motivo --) e da una "pagina" a 3 filamenti (3-4-5) e 2
eliche che costituiscono il motivo ---- o Rossmann fold.

146
Il Rossmann fold caratterizzato dalla presenza della sequenza consenso GXGXXG che si trova sul loop tra il primo
foglietto-beta e l'alfa elica successiva. La sequenza utilizzata per riconoscere e legare un mononucleotide (ad
esempio il coenzima FMN). Per questa ragione il Rossmann fold anche noto come Mononucleotide binding fold.

La lattato deidrogenasi (LDH) un'ossidoreduttasi presente in una grande variet di organismi, in grado
di interconvertire il piruvato in lattato utilizzando il coenzima NAD. La Lattato deidrogenasi presenta un
dominio a foglietto / aperto formato da due motivi ----.
La presenza di due Rossmann fold permette a questo enzima di legare dinucleotidi (NAD, FAD,
NADP). Un'estremit del dinucleotide si lega al sito tra 1 e 1, l'altra estremit del dinucleotide si lega al
sito tra 4 e 4

Il dominio formata da due Rossmann fold noto come dinucleotide binding domain.
Molti autori definiscono Rossmann fold la struttura formata da 2 motivi ----.
Il Rossmann fold una struttura molto ben conservata che si trova in molte ossidoreduttasi che legano
FAD, NAD e NADP.

Tuttavia il dominio a foglietto / aperto non presenta sempre necessariamente questo motivo e non
sempre associato alla funzione di ossidoriduzione. Si veda ad esempio l'enzima glicolitico Esochinasi che
lega una molecola di ATP sulla fessura presente sul bordo carbossilico tra il filamento 1 ed il filamento 4
ed in grado di fosforilare il glucosio.
E' formato da una "pagina" costituita da un foglietto-beta antiparallelo a 3 filamenti (1,2,3), la cui
estremit 1 si collega con un loop alla "pagina rovesciata" costituita da un motivo --.

147
Un dominio analogo si trova nella Ribonucleasi (RNasi), un enzima presente in tutti gli organismi, in grado di
idrolizzare l'RNA. Qui un foglietto foglietto-beta antiparallelo a 3 filamenti (A,B,C) si collega con un loop alla "pagina
rovesciata" costituita da un foglietto-beta parallelo a due filamenti (D,E) uniti da una connessione incrociata formata
dalla successione di 3 eliche.

Alcuni autori definiscono + (e non /) le strutture che, come l'Esochinasi e la RNasi, presentano alfa-
eliche e filamenti-beta non tutti organizzati in motivi --.

Pi in generale questi domini, che presentano foglietti beta alternati a "strati" di alfa-eliche, vengono oggi
indicati come domini a sandwich / ad n-strati (/ n-layer sandwich), dove n indica il numero di
strati.

Il dominio classico della lattato-deidrogenasi un sandwich / a 3-strati ()


I sandwich a 3 strati sono per lo pi , ma esistono esempi di sandwich e

148
I sandwich a 4 strati sono per lo pi . Nell'immagine che segue una Desossiribonucleasi (DNasi)
con un sandwich / a 4-strati ()

Domini /: Roll alfa-beta (/ roll)


Il dominio / roll costituito da un foglietto beta che si avvolge a guscio intorno ad unalfa-elica. Un
tipico esempio di questa struttura fornito dallUbiquitina, una piccola proteina regolatoria (76
amminoacidi), altamente conservata ed ubiquitaria negli eucarioti, che si lega alle proteine da degradare
(ubiquitazione). Le proteine "marcate" dall'ubiquitina vengono successivamente riconosciute ed eliminate
dai complessi proteasomici. Il dominio alfa-beta roll dell'ubiquitina viene spesso indicato come dominio
UB-roll.

Ubiquitina (PDB: 1UBQ)

149
Una variante di questa struttura lalfa-beta Super Roll, in cui il foglietto beta si avvita in una struttura superelicoidale
intorno allalfa-elica che funge da asse centrale.
La proteina BPI (Bactericidal/permeability-increasing protein) un componente del nostro sistema immunitario
innato. Agisce come un antibiotico naturale in grado di legarsi ai lipopolisaccaridi prodotti dai batteri Gram-negativi,
segnalando la loro presenza al sistema immunitario ed attivandolo.
La proteina BPI presenta due domini ad alfa-beta Super Roll. Nellimmagine successiva rappresentato il dominio A.

Proteina BPI (PDB: 1EWF-A)

Il dominio OB fold (o OB Roll) viene descritto come un tipo particolare di dominio alfa-beta roll (alcuni autori lo
classificano tuttavia come un dominio beta-barrel). stato osservato e descritto per la prima volta in quattro differenti
proteine che legano oligonucleotidi o oligosaccaridi (da cui il nome OB fold = Oligonucleotides/Oligosaccharides
Binding fold): la nucleasi stafilococcica, il dominio che lega l'anticodone dell'aspartato-tRNA sintetasi del lievito, le
subunit B dell'enterotossina termolabile e della verotossina-1 di E.coli.

costituito da un foglietto beta a 5 filamenti antiparalleli che formano un barile beta chiuso o parzialmente aperto
(analogo al dominio beta-roll, con il quale presenta notevoli somiglianze). Un'alfa elica collega inoltre il filamento 3 al
filamento 4 tramite un lungo loop che forma un coperchio su una delle due aperture del barile. Il filamento 1
interagisce con entrambi i lati del barile legando sia la forcina 1-2 che la forcina 4-5. Il sito di legame costituito dal
loop tra il filamento 4 ed il filamento 5 e dalla superficie esterna del filamento 3.

Aspartil-tRNA Sintetasi
(dominio N-terminale - PDB: 1B8A)

150
La verotossina, una tossina prodotta da alcuni ceppi di E.coli, formata da una subunit A e da 5 subunit B che si
uniscono a formare un omopentamero. nota anche come tossina shiga-like per la sua somiglianza con la tossina
Shiga prodotta dal batterio Shigella dysenteriae.
La tossina agisce sul rivestimento interno (endotelio) dei piccoli vasi sanguigni. Le subunit B della tossina,
caratterizzate da un dominio OB fold, si legano ad un componente oligosaccaridico della membrana cellulare
dell'endotelio endotelio vascolare, promuovendo il suo assorbimento nella cellula. All'interno della cellula la subunit
A interagisce con l'RNA ribosomiale, inattivando i ribosomi. La conseguente paralisi della sintesi proteica uccide la
cellula, portando ad una lesione dei vasi e conseguente emorragia. I vasi maggiormente colpiti sono quelli che irrorano
il tratto digestivo, i reni ed i polmoni.

Verotossina (PDB: 2XSC)

Domini /: Prisma alfa-beta (/ Prism)


Il dominio / Prism costituito da 3 foglietti beta che vanno a costituire i tre lati di un prisma a base
triangolare con i filamenti beta allineati con lasse del prisma. Il prisma racchiude un fascio di alfa-eliche
parallele.
Lenzima EPSP Sintetasi (5-enolpiruvilshikimat-3-fosfato sintetasi) interviene nella biosintesi degli
amminoacidi aromatici e si trova nei plastidi o nei cloroplasti dei vegetali. Essendo un enzima essenziale
per la sopravvivenza della pianta rappresenta il target d'elezione di molti diserbanti ed erbicidi. L'enzima
formato da due domini a prisma alfa-beta saldati inun unico monomero.
Nellimmagine seguente, i tre foglietti che formano i lati di uno dei due domini sono stati colorati con
colori diversi (rosso, giallo e verde).

EPSP Sintetasi (PDB: 1G6S)

151
Domini /: Scatola alfa-beta (/ Box)
Il dominio / Box costituito da 3 foglietti beta antiparalleli che vanno a costituire i tre lati di una sorta
di culla che ospita le alfa-eliche.
L'antigene di proliferazione nucleare PCNA (Proliferating Cell Nuclear Antigen) una proteina
omotrimerica in grado di prendere contatto con il DNA e di promuovere l'azione della DNA-polimerasi-,
la quale coinvolta nella sintesi di filamenti di DNA danneggiati e rimossi durante la riparazione del DNA.
Le tre subunit del trimero si assemblano intorno al DNA da riparare formando una sorta di anello
scorrevole. Ciascuna subunit presenta un dominio ad alfa-beta box che prende contatto con il DNA
attraverso le alfa-eliche. Nellimmagine seguente osserviamo a sinistra il trimero (con le tre subunit in
rosso, verde e blu) e a destra una delle subunit (con i tre foglietti beta in rosso verde e giallo)

PCNA (PDB: 1PLQ)

3.2.7 Dominio vs Fold


Finora abbiamo descritto domini costituiti da un unico fold. Tuttavia non infrequente trovare domini costituiti da
pi fold ed possibile trovare un fold composto da pi domini.

Rispetto al fold, il dominio infatti una subunit supersecondaria di tipo funzionale, una parte di una
proteina altamente conservata in termini di sequenza, struttura e funzione, in grado di esistere
indipendentemente dal resto della catena proteica. Molte proteine sono composte da pi domini, altre da
un unico dominio. Un medesimo dominio pu apparire in proteine differenti. Levoluzione molecolare
utilizza i domini come elementi di costruzione, ricombinandoli in modi differenti per creare proteine con
funzioni diverse. I domini vengono considerati le unit di base attraverso le quali avviene levoluzione
delle molecole proteiche.

La genesi delle proteine multidominio pu essere infatti adeguatamente compresa solo in una prospettiva
evolutiva. I singoli domini sono probabilmente esistiti in origine come proteine singole. Grazie a eventi di
riassortimento casuale del DNA si sarebbero creati dei geni codificanti proteine formate da molteplici
domini. Proteine generate in tal modo, e casualmente dotate di una funzione vantaggiosa, avrebbero
avuto successo evolutivo trasmettendosi cos alla progenie. Ci spiegherebbe perch un determinato
dominio si possa trovare in proteine differenti. La struttura a dominio delle proteine osservabile in tutto
il mondo biologico, quindi in archibatteri, eubatteri ed eucarioti. Circa l80% delle proteine dei metazoi e
circa due terzi delle proteine degli organismi unicellulari presenta tale organizzazione strutturale. Tuttavia
i dati strutturali oggi disponibili indicano che tale struttura modulare pi diffusa negli eucarioti che non
nei procarioti. Esistono in particolare funzioni che nei procarioti sono sostenute da catene polipeptidiche
indipendenti, mentre negli eucarioti sono a carico di ununica catena polipeptidica contenente pi domini.
La storia evolutiva che ha portato alla formazione di una proteina composta di pi domini trova riscontro
anche nellorganizzazione del genoma eucariotico, dove accade di osservare, almeno in certi casi, che un
singolo dominio sia codificato da un esone e che quindi tratti che codificano per domini adiacenti siano
intervallati da introni. In breve, la corrispondenza di un dominio ad un determinato esone essa stessa
rappresentativa dellautonomia evolutiva dei domini, in quanto essi si presentano come entit distinte
anche a livello dellorganizzazione genica. Questo concetto stato formalizzato con la teoria dellexon
shuffling (rimescolamento degli esoni) proposta nel 1977 da Walter Gilbert, secondo la quale esoni dello
stesso o di diversi geni codificano ciascuno un dominio e occasionalmente possono essere rimescolati,

152
producendo cos una variet di diverse proteine. Al momento del ripiegamento proteico (folding) ciascun
dominio si ripiega come una entit autonoma rispetto alla restante parte della proteina, almeno fino agli
ultimi stadi del processo. Solo negli ultimi stadi ciascun dominio interagisce con quelli adiacenti cos da
assumere un orientamento reciproco che consenta la funzione complessiva della proteina.

Cerchiamo allora di comprendere meglio la differenza tra i due termini con un paio di esempi di domini particolarmente diffusi
nelle proteine: il dominio PH ed il dominio SH2.

Il dominio PH (Pleckstrin homology domain) costituito da circa 120 amminoacidi e si ritrova in un vasto insieme di
proteine coinvolte nello scambio di segnali all'interno della cellula o come costituenti del citoscheletro. E' in grado di
legare i fosfolipidi delle membrane a proteine come la proteina G e la Protein Chinasi C (PKC).
Attraverso queste interazioni il dominio PH gioca un ruolo importante nei processi di indirizzamento delle proteine
verso il corretto compartimento membranoso e nei processi di abilitazione delle proteine all'interazione con gli altri
componenti delle vie di trasduzione dei segnali.
Il dominio PH presenta un fold ad alfa/beta roll costituito da un beta roll a 7 filamenti antiparalleli (un barile beta che
non si chiude) che termina con un'alfa elica anfipatica carbossiterminale, disposta come coperchio (fold analogo all'OB
roll, che presenta tuttavia 5 filamenti beta). Il beta roll costituito da 2 foglietti beta disposti perpendicolarmente. Il
primo, formato da 4 filamenti, si lega al secondo, formato da 3 filamenti, attraverso un loop (in giallo nell'immagine
seguente) che, impedendo la formazione di ponti idrogeno, non permette al roll di chiudersi in un barile.

Vediamo come il dominio PH compaia nelle tre proteine GRK2, Dinamina e proteina 4.1.

La GRK2 appartiene alla famiglia delle GRK (G-protein Coupled Receptor Kinasi) comprendente sette serina/treonina
chinasi che fosforilano e regolano i recettori accoppiati a proteine G (GPCR: G-protein coupled receptor). I recettori
accoppiati a proteine G (GPCR) costituiscono una grande famiglia di proteine transmembrana in grado di legarsi a
molecole esterne alla cellula e di attivare di conseguenza vie metaboliche interne, agendo da trasduttori di segnale
tramite lattivazione di proteine G allinterno della cellula. I GPCR sono noti anche come recettori a serpentina o
recettori 7TM (seven-transmembrane receptors) poich sono formati da 7 alfa eliche che attraversano
alternativamente la membrana, con lestremit N-terminale extracellulare e quella C-terminale intracellulare.
Le proteine GRK modulano lattivit dei recettori GPCR. La fosforilazione di specifici residui aminoacidici in serina o
treonina mediata dalle GRK a livello dei loop intracellulari e della coda carbossiterminale del recettore ne aumenta
infatti laffinit di legame con arrestine citosoliche, inibendolo (downregulation).

153
La GRK2 una chinasi del recettore adrenergico (-AR) ed per questo nota anche come ARK1 (1 Adrenergic
Receptor Kinase). Il recettore adrenergico un recettore GPCR che interagisce con l'adrenalina ed altre
catecolamine.
La protein chinasi C (PKC), una volta attivata, stimola la fosforilazione e la conseguente attivazione della GRK2
(upregulation). La fosforilazione del dominio intracellulare dei recettori adrenergici ad opera di GRK2 porta al loro
spegnimento, fenomeno noto come desensibilizzazione. Diversi studi hanno dimostrato che i livelli e lattivit di GRK2
aumentano in diverse patologie cardiovascolari come lo scompenso cardiaco, lischemia miocardica, lipertensione
arteriosa, lipertrofia ventricolare sinistra, causando la riduzione del segnale adrenergico.

La GRK2 presenta 3 domini.


Un dominio N-teminale RH (RGS Homology domain), un dominio di omologia con RGS, il regolatore di segnalazione
della proteina G (Regulator of G-protein Signalling) che modula la trasduzione del segnale delle GPCR, legandosi alla
subunit G dissociata della proteina G. Il dominio RH presenta un fold a solenoide alfa.
Un dominio centrale catalitico formato da un fold a sandwich alfa/beta (in rosso) e da un fold a fascio alfa (in verde).
Si noti come il dominio sia formato da due fold.

154
Un dominio PH (pleckstrin homology) attraverso il quale la GRK2 si lega a molecole che ne regolano lattivit, come la
protein Chinasi C (PKC) o la subunit G della proteina G, dissociatasi dalla subunit G in seguito a stimolazione dei
recettori GPCR.

La Dinamina una GTPasi coinvolta nei processi di endocitosi nelle cellule eucarioti. In particolare associata alla
formazione ed al distacco di nuove vescicole dalla membrana di un compartimento cellulare ed ai successivi processi
di indirizzo e fusione della vescicola con la membrana di un altro compartimento. Interviene inoltre in molti altri
processi cellulari come la divisione di organuli e la citocinesi. Non appena la vescicola comincia a formarsi, la dinamina
forma una spirale costituita da pi monomeri intorno al collo della vescicola. Attraveso l'idrolisi di GTP il collo viene
allungato e strozzato fino a quando la vescicola non si separa.
La subunit monomerica della Dinamina-1 (PDB: 3ZVR) presenta una struttura estesa con un dominio N-terminale
catalitico con funzione GTPasica che forma una "testa" strutturata in un fold a sandwich alfa/beta a 3 strati (alfa-
beta-alfa). Alla testa GTPasica e collegata una lunga coda costituita da un fold a fascio d'alfa eliche suddiviso in due
domini: GED (GTPase effector domain) e Dominio mediano (Middle Domain) coinvolti nei processi di dimerizzazione e
oligomerizzazione e per questo denominati domini di assemblaggio (Assembly Domains). Si noti come in questo caso
un fold sia suddiviso in due domini con funzioni diverse.
Alla coda collegato in modo flessibile il dominio PH.

155
La Proteina 4.1 (o proteina banda 4.1) una proteina associata al citoscheletro. Negli eritrociti umani gioca un ruolo
essenziale nel regolare le propriet fisiche di stabilit meccanica e deformabilit della membrana, stabilizzando le
interazioni tra Actina e Spettrina.
Presenta 3 domini. Un dominio C-terminale CTD (C-Terminal Domain), un dominio centrale SADB (spectrin-actin
binding domain) che lega Actina e Spectrina ed un dominio N-terminale FERM. Ci occuperemo di quest'ultimo in
quanto presenta al suo interno un dominio PH.
Si tratta dunque di un esempio di una struttura che normalmente si presenta come dominio autonomo (dominio PH) ,
ma che in questo caso si trova a far parte di un dominio pi esteso e dunque, pi correttamente andrebbe descritto
semplicemente come fold.

Il dominio FERM stato individuato in molte proteine associate al citoscheletro che, tipicamente, permettono a
quest'ultimo di interagire con la membrana cellulare. Il nome FERM deriva da 4 di queste proteine (F per "four" =
"quattro" dalla proteina 4.1, E per Ezrina, R per Radixina, M per Moesina)
L'Ezrina, chiamata anche citovillina o villina 2, una proteina codificata negli esseri umani dal gene EZR ed un
substrato per la protein-tirosin chinasi presente a livello dei microvilli. La Radixina una proteina codificata negli
esseri umani dal gene RDX. La moesina (dall'acronimo in lingua inglese Membrane-Organizing Extension Spike protein)
una proteina codificata negli esseri umani dal gene MSN. Tutte e tre fungono da intermedio tra la membrana
plasmatica e l'actina.
Il dominio FERM in grado di aderire alla superficie della membrana cellulare legandosi ai domini citosolici delle
proteine integrali di membrana. Il dominio FERM (PDB: 3QIJ) ha una caratteristica struttura a trifoglio con tre lobi.

156
Il lobo N-terminale (N-lobe) presenta un fold a UB-Roll, il lobo centrale presenta un fold a fascio 4 alfa ( lobe), il lobo
C-terminale (C-lobe) presenta un fold analogo al dominio PH (PH-like domain).

Il dominio SH2 (Src Homology 2) un dominio di circa 100 residui che si trova in molte proteine coinvolte nello
scambio di segnali intracellulari, permettendo ad esse di riconoscere ed ancorarsi ai residui fosfotirosinici (Tirosina
fosforilata o p-Tyr o pY) di altre proteine. SH2 formato da un unico fold costituito da un foglietto beta-antiparallelo
sulle cui facce opposte sono posizionate due alfa-eliche (sandwich / a 3-strati ). Il dominio stato individuato
per la prima volta in proteine Src (si pronuncia sarc, da sarcoma) espresse da oncogeni (geni tumorali).

Vediamo come il dominio SH2 compaia nella proteina Tirosin Chinasi Src e nella proteina GRB2.

La Tirosin Chinasi Src una proteina di segnalazione specializzata in messaggi che controllano la crescita delle cellule
appartenente alla famiglia delle nRTK (non-receptor tyrosine kinases), cio Tirosin chinasi citosoliche, non ancorate
alla membrana con funzioni di recettori. La proteina Src si trova infatti allinterno della cellula, dove partecipa alla
trasmissione dei segnali provenienti da vari recettori proteici di membrana, diretti verso le proteine che accendono i
motori della sintesi proteica e della crescita cellulare.
Una chinasi un enzima appartenente alla famiglia delle fosfotransferasi in grado di trasferire gruppi fosfato da
molecole donatrici ad alta energia (come l'ATP) a specifici substrati, attraverso un processo definito fosforilazione.

157
La Tirosin Chinasi Src trasmette i suoi messaggi aggiungendo gruppi fosfato a specifici residui di tirosina nelle catene di
proteine che controllano la struttura cellulare, le comunicazioni della cellula, e la crescita cellulare. Quando queste
proteine vengono fosforilate risultano attivate e sono pronte per svolgere i loro compiti particolari.
Nella tirosin chinasi src stato inoltre osservato per la prima volta un meccanismo di inibizione da fosforilazione:
quando src fosforilata su una specifica tirosina (Tyr-527) si ripiega su s stessa, nascondendo cos il suo sito catalitico
(la conformazione detta off). Alcune forme tumorali sono associabili alla presenza di mutazioni a carico della
proteina Src che risulta permanentemente attiva (sempre in conformazione on).

La Src Tirosin Chinasi presenta tre domini: due domini di interazione (SH2 ed SH3) con i quali riconosce ed aggancia il
substrato ed un dominio catalitico (chinasi).
Il dominio SH3 costituito da un fold a beta-roll, mentre il dominio catalitico (chinasi) formato da un fold a
sandwich / a 2-strati e da un fold a fascio 4 alfa (ancora un esempio di dominio formato da due fold).

La proteina GRB2 (Growth factor receptor-bound protein 2) una proteina adattatrice coinvolta nei processi di
trasduzione del segnale finalizzati alla crescita, differenziazione e sopravvivenza della cellula. E costituita da 3 domini
di cui due SH3 ed un dominio SH2.

158
3.3 Struttura terziaria: le proteine globulari
La maggior parte delle proteine, dopo aver raggiunto la struttura secondaria, subisce un
ulteriore processo di torsione. Avvolgendosi su se stesse, tali proteine formano una specie di
matassa globulare, caratteristica della struttura terziaria. detta struttura nativa. Per la loro
configurazione compatta le proteine in struttura terziaria vengono dette proteine globulari.

Il processo di ripiegamento (folding) reso possibile dalla presenza lungo il filamento stesso
di tratti in cui sono assenti le strutture secondarie (random coil).

Le articolazioni che in tal modo si formano (ripiegamenti ed anse) consentono a tratti


diversi del filamento secondario di avvicinarsi reciprocamente interagendo attraverso i residui
amminoacidici. Le interazioni idrofile ed idrofobiche tra i residui, e tra questi e l'acqua in cui le
proteine normalmente si trovano, costringono il filamento proteico a contorcersi. La proteina si
aggroviglia fino a raggiungere una forma a globulo, in cui i residui amminoacidici polari si
trovano alla superficie (a contatto con l'acqua), mentre i residui amminoacidici apolari si
introflettono all'interno del globulo. Tale disposizione, diminuendo il rapporto superficie/volume
e concentrando i gruppi polari sulla superficie esterna, rende in genere solubile la proteina.

La struttura globulare viene poi stabilizzata da legami interni alla molecola. Tra questi tipi di
interazioni, le pi frequenti sono interazioni non covalenti:
L'effetto idrofobico, che induce le sostanze non polari a minimizzare i loro contatti con
lacqua, la causa principale del folding e della stabilit della struttura nativa della
proteina.
Legami ionici (o ponti salini) tra residui amminoacidici carichi positivamente (lisina,
istidina, arginina) e residui carichi negativamente (ac. aspartico, ac. glutammico). Circa
il 75% dei residui elettricamente carichi nelle proteine sono coinvolti in coppie ioniche e
sono localizzati prevalentemente sulla superficie della proteina
Legami idrogeno
Forze di van der Waals

La struttura terziaria pu essere stabilizzata anche da legami covalenti come i ponti disolfuro
(-S-S-) che si formano tra due gruppi solfidrilici -SH (il gruppo solfidrile presente solo
nell'amminoacido cisteina).

159
In tal modo una proteina globulare risulta particolarmente irregolare, presentando una
superficie ricca di incavi, anfrattuosit e sporgenze. Ogni proteina globulare presenta delle
irregolarit caratteristiche (sito attivo o sito di riconoscimento) che utilizza in modo
peculiare per riconoscere una specifica sostanza chimica (substrato) ed effettuare su di essa
azioni biologiche specifiche. Il riconoscimento altamente selettivo ed avviene secondo un
modello chiave-serratura.

E' per questo motivo che ogni cambiamento di struttura e quindi di forma pu sconvolgere
completamente la funzionalit proteica. Ad esempio le variazioni di pH, modificando la
distribuzione di polarit nei residui amminoacidici, possono influenzare drasticamente il modo
in cui una proteina si ripiega su se stessa, modificandone la struttura.
Per le loro caratteristiche di solubilit e per l'azione di riconoscimento altamente specifica, le
proteine globulari svolgono negli organismi importantissime funzioni di regolazione, di controllo
e di trasporto. Vediamone alcuni esempi.

1) Gli anticorpi, prodotti da particolari globuli bianchi (linfociti), sono in grado di riconoscere
ed agganciare sostanze estranee e potenzialmente pericolose (antigeni), consentendo
all'organismo di eliminarle.

2) Gli enzimi sono dei catalizzatori biologici, molecole in grado di riconoscere, agganciare e
modificare chimicamente una sostanza chimica (reagenti), aumentando la velocit con cui la
reazione avviene.
Come tutti i catalizzatori anche gli enzimi non si consumano durante la reazione, ma si
ritrovano inalterati al termine di ciascun ciclo di catalisi. E' per questo motivo che essi risultano
efficaci anche in piccolissime concentrazioni.
Ogni enzima riconosce in modo specifico il suo substrato ed esiste quindi un enzima specifico
per ogni reazione che deve avvenire in una cellula.
Senza gli enzimi la maggior parte delle reazioni all'interno delle cellule sarebbe talmente lenta
da non essere compatibile con la sopravvivenza dell'organismo.
Attraverso gli enzimi inoltre, la cellula controlla in un dato momento quali reazioni devono
essere eseguite e quali no. In tal modo gli enzimi funzionano come veri e propri interruttori
biologici: quando l'enzima presente la reazione avviene, quando l'enzima eliminato la
reazione rallenta al punto da produrre effetti trascurabili.

160
In genere gli enzimi catalizzano le reazioni legandosi temporaneamente con altre molecole
dette coenzimi o cofattori. Molto spesso i coenzimi non sono molecole proteiche. La parte
non proteica di una proteina composta detta gruppo prostetico. Molti coenzimi derivano
chimicamente dalle vitamine, molecole indispensabili al nostro metabolismo che dobbiamo
giornalmente introdurre in piccole dosi tramite lalimentazione.
Mentre gli enzimi riconoscono la sostanza da catalizzare (specificit di substrato), il coenzima
effettua su di essa la modificazione chimica (specificit di azione). Uno stesso coenzima pu
legarsi ad enzimi diversi, conservando la sua specificit di azione ed effettuando cos la stessa
reazione su substrati diversi. Gli enzimi hanno desinenza asi.

Famiglia Reazione catalizzata


Ossidoreduttasi Ossidoriduzioni
Transferasi Trasferimento gruppi chimici
Idrolasi Idrolisi
Liasi Addizione a doppio legame
Isomerasi Conversione tra isomeri
Ligasi Formazione legami con consumo ATP

Catalisi
Durante una reazione, sia esoergonica che endoergonica, i
reagenti si trasformano nei prodotti di reazione attraverso
uno stadio intermedio (stato di transizione), altamente
instabile, che possiede unenergia superiore sia dei
reagenti che dei prodotti di reazione. La differenza di
energia tra lo stato di transizione ed i reagenti detta
energia di attivazione. Maggiore lenergia di
attivazione, pi lenta la reazione. I catalizzatori (e quindi
anche gli enzimi) hanno la propriet di abbassare lenergia
di attivazione di una reazione e quindi di renderla pi
veloce.

3) Gli ormoni sono molecole secrete nel sangue dalle nostre ghiandole endocrine (le ghiandole
esocrine secernono fuori dal sangue). Esistono ormoni proteici ed ormoni steroidei (derivati dal
colesterolo). Gli ormoni hanno il compito di regolare svariate funzioni di cellule, tessuti ed
organi, inibendole o stimolandole. Ogni ormone deve essere in grado di riconoscere
specificatamente il tipo di cellule sulle quali agire (cellule bersaglio). Per questo motivo le
cellule presentano sulla loro membrana esterna particolari molecole di riconoscimento
(recettori di membrana) che rappresentano il substrato al quale si lega il sito attivo
dellormone.

4) Le proteine di trasporto (carriers) sono in grado di agganciare e trasportare specifiche


sostanze chimiche. Alcune di queste proteine sono disciolte nel sangue e trasportano sostanze
per via ematica. Altre sono immerse nella membrana cellulare (proteine transmembraniche o
integrali) e permettono alla cellula di scambiare sostanze con lambiente esterno. Queste
ultime si dividono in pompe e canali. Le pompe consumano energia per effettuare il trasporto
(trasporto attivo), mentre i canali sono in grado di trasportare sostanze attraverso la
membrana senza consumare energia (trasporto passivo).
La Mioglobina un esempio classico di proteina globulare di trasporto. Svolge la propria
funzione nel muscolo, dove costituisce una riserva di ossigeno, prontamente disponibile per le
fibre muscolari. E un esempio di proteina coniugata che, a differenza delle proteine semplici,
contiene un gruppo prostetico di natura non proteica: il gruppo ferro-eme, deputato al
legame dell'O2.
La mioglobina una proteina relativamente piccola, costituita da 153 amminoacidi. Quasi
l'80% della catena polipeptidica ha una struttura ad -elica.
Nella conformazione 3D sono riconoscibili otto distinte strutture ad -elica (A, B, C, D, E, F, G,
H, in direzione N C), ripiegate in modo apparentemente irregolare, ma caratteristico e tale
da creare una tasca idrofobica che accoglie il gruppo prostetico ferro-eme.

161
probabile che l'idrofobicit della tasca che ospita il gruppo eme sia di estrema importanza per
il mantenimento dello stato ridotto dello ione Fe2+ e quindi della funzionalit della proteina. Lo
ione Fe3+ infatti incapace di legare l'ossigeno ed stato osservato che il Fe 2+-eme libero in
soluzione ha una spiccata tendenza ad ossidarsi spontaneamente a Fe 3+.

Il gruppo eme un complesso coordinato, formato da una porfirina sostituita (protoporfirina


IX) e lo ione Fe2+.
La porfirina presenta una struttura planare costituita da quattro anelli di pirrolo (un eterociclo
pentatomico contenente un atomo di azoto), uniti da ponti metinici (-CH-).
Lo ione Fe2+ si trova al centro della struttura, legato con quattro dei suoi sei legami di
coordinazione ai quattro atomi di azoto del tetrapirrolo.
Legandosi con un altro legame di coordinazione ad un residuo di istidina (detta F8, perch
nell'ottava posizione dell'elica F), il Fe ncora saldamente alla proteina l'intero gruppo eme.
Il sesto legame di coordinazione del Fe quello che lega la molecola di O 2. Al legame
dell'ossigeno contribuisce anche una istidina (E7), mediante un ponte Idrogeno.
Oltre che nella mioglobina, l'eme presente nellemoglobina e nei citocromi (proteine che
trasportano elettroni nella catena respiratoria), nella clorofilla e nella vitamina B12. In queste
due ultime molecole il Fe tuttavia sostituito rispettivamente da Mg e Co.

Il gruppo eme

5) I marcatori ed i recettori sono particolari proteine di membrana, che permettono alla


cellula di scambiare segnali chimici con lambiente esterno. I recettori sono in grado di ricevere
informazioni agganciandosi con molecole esterne come gli ormoni o i neurotrasmettitori secreti
dalle cellule nervose (neuroni). I marcatori sono molecole che le cellule espongono come
segnali chimici per altre cellule. Ne sono un tipico esempio i marcatori che le cellule del nostro
organismo espongono per farsi riconoscere e non farsi attaccare dalle cellule del nostro
sistema immunitario.

162
3.4 Struttura quaternaria
Per buona parte delle proteine, la struttura terziaria rappresenta l'ultimo livello di
organizzazione strutturale. il caso delle proteine cosiddette monomeriche, costituite cio da
un'unica unit funzionale, biologicamente attiva.
Molte altre proteine (ad esempio, un gran numero di enzimi), nella loro forma attiva sono
invece costituite dall'associazione di due o pi unit di struttura terziaria (dette monomeri o
subunit), uguali (proteine omo-oligomeriche) o diverse (proteine etero-oligomeriche).
Si parla in tal caso di struttura quaternaria, per riferirsi all'organizzazione multimerica della
proteina.
Nella struttura quaternaria, le subunit sono tenute insieme da interazioni generalmente non
covalenti, spesso di natura idrofobica.
Raramente, pi catene peptidiche sono unite da legami covalenti, come accade ad esempio
nelle immunoglobuline (una classe di anticorpi), in cui le catene leggere e pesanti sono tenute
insieme da ponti disolfuro.
Altrettanto insolito il coinvolgimento diretto di legami a ponte di idrogeno nell'associazione di
pi subunit. Nella struttura quaternaria infatti, le subunit tendono ad affiancarsi in modo da
contrapporre l'una all'altra le loro porzioni idrofobiche, rivolgendo verso l'esterno le regioni
polari, idrofile.

L' emoglobina un esempio classico di una proteina in struttura quaternaria. La proteina un


tetramero costituito dall'associazione di due catene (141 amminoacidi) e due catene
(146 amminoacidi), ciascuna delle quali lega un gruppo eme. Il gruppo eme contiene un
atomo di ferro in grado di legarsi debolmente ed in modo reversibile con lossigeno (O 2).
Lemoglobina una proteina di trasporto in grado di trasferire i gas respiratori dai polmoni ai
tessuti e viceversa.

emoglobina

Le subunit sono tenute insieme da numerose interazioni idrofobiche e da diversi legami a


idrogeno che rendono la struttura quaternaria assai stabile.
Contenendo quattro gruppi eme, l'emoglobina pu legare fina a 4 molecole di O2.

Esistono anche proteine in struttura quaternaria in cui le subunit si aggregano a formare,


come le perle di una collana, strutture filamentose che svolgono in genere funzioni strutturali.
Ne sono tipici esempi lactina e la tubulina.
L'actina costituita da numerosi monomeri globulari (G-actina), associati a formare una
coppia di lunghi filamenti, avvolti a spirale fra loro (F-actina).

Nel sarcomero, l'unit contrattile delle fibre muscolari, diverse molecole di miosina si
associano in fasci, con le teste sfalsate, a costituire i cosiddetti filamenti spessi; mentre le
molecole di actina, associate con altre due proteine (tropomiosina e troponina) formano i
filamenti sottili.

163
Lo scorrimento reciproco dei filamenti di actina e di miosina producono laccorciamento del sarcomero e la
conseguente contrazione muscolare

La tubulina una proteina costituita da un eterodimero formato da una subunit ed una


subunit . Lunit dimerica polimerizza a spirale formando dei microtubuli. Ciascun
microtubulo risulta formato da 13 protofilamenti paralleli in cui le subunit alfa e beta si
alternano. La cellula in grado di montare e smontare i microtubuli molto rapidamente,
aggiungendo o togliendo le unit dimeriche. I microtubuli vengono utilizzati dalla cellula per
scopi diversi (ciglia, flagelli, fuso mitotico, citoscheletro).

3.5 Il folding
La comprensione dei meccanismi utilizzati dalle proteine per raggiungere la struttura tridimensionale che le
rende in grado di svolgere correttamente le loro funzioni biologiche rappresenta uno degli obiettivi
principali della proteomica (la scienza che studia struttura e funzioni del corredo proteico degli organismi).

Gli studi iniziali sul folding proteico erano basati sui risultati ottenuti da esperimenti di denaturazione
(unfolding) e rinaturazione (refolding) delle proteine. Variando la temperatura o il pH della soluzione in cui
la proteina immersa o aggiungendo sostanze particolari, dette appunto "denaturanti", la struttura nativa
(N) pu essere facilmente distrutta. A causa del processo di denaturazione la catena polipeptidica assume
una conformazione non nativa, disordinata, detta random coil o unfolded (U) e manifesta una
conseguente perdita di attivit biologica.

La maggior parte delle proteine pu essere denaturata mediante calore, il quale colpisce le interazioni
deboli, principalmente i ponti idrogeno. Se la temperatura viene aumentata lentamente, la conformazione
di una proteina generalmente rimane intatta fino una perdita improvvisa di struttura (e funzione) che
avviene in corrispondenza di un ristretto intervallo di temperatura.

164
La repentinit del cambiamento suggerisce che la denaturazione sia un processo cooperativo: la perdita
della struttura in una parte della proteina destabilizza altre parti. Per cooperativit si intende il fenomeno
per il quale le varie interazioni intramolecolari stabilizzanti la forma nativa si rafforzano a vicenda, cos che
lenergia complessiva che stabilizza la molecola maggiore della semplice somma algebrica delle energie
delle singole interazioni. Intuitivamente si pu comprendere questo fenomeno se si pensa che i vari gruppi
coinvolti in tali interazioni (come ad esempio legami idrogeno, forze di van der Waals etc.) contribuiscono
reciprocamente ad orientarsi in modo tale da massimizzare la forza delle singole interazioni. La
conseguenza di una tale situazione che lindebolimento di una o poche interazioni porta ad un sostanziale
indebolimento di tutte le altre, cos che la molecola proteica collassa dalla forma nativa a quella denaturata
in modo pressoch simultaneo in ogni sua parte.

Mentre una proteina in struttura nativa generalmente solubile ed in grado di cristallizzare, una proteina
che subisce denaturazione termica insolubile e manifesta fenomeni di gelificazione o di flocculazione. Un
gel non un solido cristallino, ma composto da una rete tridimensionale di molecole al cui interno
intrappolata molta acqua. Nel caso della gelificazione delle proteine, ci accade perch le singole molecole
proteiche, che allo stato nativo sono globulari ed idrosolubili, come conseguenza della denaturazione
diventano filamentose, esponendo in tal modo il loro interno apolare. Sotto la spinta delleffetto
idrofobico, la proteina tende comunque a minimizzare la superficie esposta al solvente acquoso e le
molecole denaturate entrano in contatto luna con laltra a livello delle superfici idrofobiche esposte, in
modo da rendere queste ultime inaccessibili al solvente. Si genera cos unampia rete tridimensionale
composta da molecole proteiche denaturate e quindi con conformazione estesa, filamentosa, entro le cui
maglie viene intrappolata lacqua. In altri casi laggregazione prodotta dalla denaturazione termica non d
origine a un gel, ma si manifesta con la flocculazione delle proteine in soluzione. Anche in questo caso le
molecole proteiche denaturano e diventano insolubili a causa dellesposizione del loro interno idrofobico.
La tendenza a minimizzare la superficie idrofobica esposta si traduce nella loro aggregazione, rilevabile
visivamente per il fatto che la soluzione, limpida a temperatura ambiente, con il riscaldamento si intorbida
progressivamente. Si formano infatti masse macroscopiche di proteina insolubile che, contrariamente al
caso della gelificazione, si depositano lentamente sul fondo del recipiente. Gelificazione e flocculazione
prodotti dal riscaldamento di soluzioni proteiche sono dunque manifestazioni diverse dello stesso
fenomeno, cio della perdita di solubilit della proteina.

165
Le proteine possono essere denaturate non solo dal calore ma anche da valori estremi di pH e dallazione di
agenti chimici come detergenti (Sodio laurilsolfato - SLS), solventi organici (etanolo, acetone) ed agenti
caotropici come soluti organici (urea, cloruro di guanidinio) e Sali (perclorato di Litio, cloruro di Magnesio).
Ciascuno di questi agenti denaturanti rappresenta una trattamento relativamente delicato, nel senso che
non spezza i legami covalenti della catena polipeptidica.

Valori estremi di pH alterano la carica netta della proteina. A seconda del pH i residui amminoacidici
assumono carica positiva o negativa. In tali condizioni la proteina rimane solubile, ma a causa della
repulsione elettrostatica prodotta dalla carica uguale presente sulla catena proteica, questultima rimane in
uno stato esteso (unfolded).

I detergenti ed i solventi organici hanno un effetto analogo, in quanto aumentano la solubilit in acqua
dellinterno apolare delle proteine, impedendone il corretto avvolgimento. In queste condizioni la proteina
rimane solubile, ma passa ad una struttura estesa (unfolded).

Gli agenti caotropici producono sulle proteine un effetto denaturante complesso, diminuendo le interazioni
idrofobiche interne e riducendo contemporaneamente il numero di cluster di acqua che le circondano.
I termini caotropico (portatore di disordine, caos) e cosmotropico (portatore di ordine) vennero
inizialmente utilizzati per indicare qualsiasi sostanza in grado rispettivamente di destabilizzare e stabilizzare
proteine e membrane cellulari. Attualmente si accetta un significato pi ristretto legato alla capacit di una
sostanza di interferire con i ponti idrogeno dellacqua, causando variazioni nel grado di ordine delle sue
strutture. Una spiegazione completa ed esauriente delleffetto caotropico/cosmotropico non stata ancora
formulata. La spiegazione pi semplice e comunemente accettata si basa sullesistenza di fenomeni di
competizione per linterazione con lacqua. Un agente caotropico aumenta il disordine dell'acqua perch
"compete" per formare legami con le altre molecole d'acqua, facendo cos diminuire il numero di molecole
dacqua disponibili per interagire con la proteina. La minor interazione proteina/acqua attenua anche
leffetto idrofobico. E' come se i residui amminoacidici idrofobici della proteina non avessero pi la
necessit di "fuggire" dall'acqua ed i domini idrofobi della proteina risultano stranamente pi solubili in
acqua di quanto non lo fossero prima dell'aggiunta del catropo.
La denaturazione ottenuta mediante agenti caotropici porta quasi a uno stato di random coil. Al contrario,
se la denaturazione ottenuta in condizioni estreme di pH o di temperatura possibile osservare la
presenza di strutture di interazione localizzate. I diversi metodi di denaturazione non generano dunque il
medesimo risultato sulla struttura proteica, la quale, tuttavia, non deve trovarsi necessariamente in una
conformazione completamente disordinata (unfolded) per manifestare una completa perdita di attivit
biologica.

Il fatto che per mantenere una proteina in uno stato completamente denaturato siano necessari
trattamenti fisici o chimici che non possono certamente chiamarsi fisiologici, fa supporre che le proteine,
sintetizzate come polipeptidi lineari sui ribosomi, in vivo comincino il folding durante la loro stessa sintesi.
Tuttavia evidenze sperimentali suggeriscono che le proteine destinate a essere veicolate in particolari
compartimenti cellulari, quali i cloroplasti, i mitocondri e il reticolo endoplasmatico, passino attraverso le
membrane intracellulari in una conformazione estesa, anche quando il trasporto avviene in modo
postraduzionale. Si ritiene che a mantenere le proteine neosintetizzate in tale stato di conformazione lassa,
necessario per la loro veicolazione verso i vari organelli cellulari, siano gli chaperoni molecolari.

166
Gi nel decennio compreso tra il 1925 ed il 1935 i pionieristici lavori di Anson e Mirsky dimostrarono come
il folding dellemoglobina e di altre piccole proteine (sieroalbumina, ovalbumina, tripsina) fosse reversibile.
Lemoglobina denaturata riacquistava infatti in vitro, una volta rimossi gli agenti denaturanti, la sua
struttura nativa e la sua attivit biologica. Tali risultati suggerivano che il folding proteico fosse un processo
spontaneo in cui lo stato nativo risultava termodinamicamente favorito e che la funzione biologica della
proteina dipendesse esclusivamente dalla sua struttura nativa. Nel 1931 il biologo cinese Hsien Wu fu il
primo a formulare esplicitamente tale ipotesi, proponendo che la denaturazione delle proteine fosse il
risultato di un cambiamento puramente conformazionale e non fosse quindi causato da una qualche
alterazione chimica della struttura proteica. Il lavoro di Wu non ebbe alcuna diffusione in Occidente, dove
tale ipotesi venne ufficialmente formulata solo nel 1936 da Linus Pauling e Alfred Mirsky.

Nel 1940 Max Perutz pubblic un famoso articolo dal titolo Unboiling an egg (letteralmente far ritornare
crudo un uovo cotto) in cui dimostra che lalbume (una soluzione di ovalbumina pura), flocculato a seguito
di riscaldamento, pu essere riportato allo stato nativo se viene solubilizzato con piccole aggiunte di acidi e
poi riportato lentamente a pH neutro mediante aggiunte di alcali. A pH molto acidi (o molto basici) le
proteine aumentano di molto la loro carica netta e sono quindi generalmente molto solubili. Se in
precedenza erano state denaturate dal calore sono pertanto in grado di ritornare in soluzione. Tuttavia in
queste condizioni le molecole non possono presentare una conformazione nativa, sempre a causa
delleffetto repulsivo e continuano cos ad essere molecole denaturate. Ora, se dopo laggiunta di acido
veniva rapidamente aggiunta della base in quantit idonea a riportare il pH alla neutralit, la proteina
precipitava di nuovo. Se invece il ritorno alla neutralit mediante aggiunta di alcali veniva realizzato in
tempi lunghi, la proteina restava in soluzione e recuperava tutte le caratteristiche della forma nativa. La
rinaturazione dellovalbumina avviene efficacemente solo se le condizioni di pH neutro vengono ristabilite
lentamente, dando cos il tempo alla proteina di riavvolgersi. La rinaturazione in vitro, ovverosia la
riacquisizione della struttura nativa, un processo che richiede dunque tempo.

In definitiva, tutti i dati sui processi di rinaturazione di proteine denaturate indicavano che linformazione
necessaria e sufficiente perch la proteina assuma la sua struttura nativa (codice di folding), fosse tutta
contenuta nella sua struttura primaria. Alcuni biologi continuavano tuttavia a manifestare prudenza
nellaccettazione dellipotesi che la struttura nativa dipendesse esclusivamente dalla struttura primaria
della proteina. Spesso le condizioni sperimentali dei processi di rinaturazione in vivo non consentivano
infatti di escludere categoricamente la presenza in soluzione di altri fattori in grado di guidare il processo di
rinaturazione.

La sperimentazione che dimostr in modo conclusivo che la struttura tridimensionale di una proteina
dettata dalla sua struttura primaria, fu sviluppata tra il 1956 ed il 1957 dal biochimico americano Christian
Anfinsen, al quale venne assegnato nel 1972 il Nobel per la Chimica. Egli condusse esperimenti
esclusivamente in vitro, utilizzando una proteina altamente purificata, la ribonucleasi A (RNasi A) ottenuta
dal pancreas bovino. Data la fonte biologica, la RNasi A bovina, un enzima digestivo che catalizza lidrolisi
dellRNA, era ottenibile in grandi quantit allo stato puro. Si tratta di una proteina relativamente piccola,
composta di 124 residui amminoacidici, con una massa molecolare di circa 13 kDa, la cui struttura terziaria
stabilizzata da 4 ponti disolfuro che si formano tra 8 residui cisteinici.

Anfinsen tratt la RNasi A con urea e 2-mercaptoetanolo (HS-CH2-CH2-OH), rispettivamente un agente


denaturante e un agente riducente, ottenendo una completa denaturazione ed una conseguente perdita di

167
attivit catalitica. Lurea elimina infatti tutte le interazioni idrofobiche, mentre il 2-mercaptoetanolo rompe
i ponti disolfuro (-S-S-) riducendoli a 2 gruppi solfidrilici (-SH HS-).
Allontanando l'urea per dialisi e riossidando i gruppi solfidrilici la ribonucleasi A riacquistava
spontaneamente la sua struttura nativa e, di conseguenza, il suo potere catalitico. Se il processo avviene
velocemente si ha un piccolo recupero di proteina attiva, invece agendo lentamente si ha un recupero
prossimo al 100% dopo 7-8 ore.

Anfinsen scopr inoltre che riossidando la proteina denaturata in presenza di urea, la RNasi-A recuperava
solo l1% della sua attivit catalitica. Ci poteva attribuirsi al fatto che in condizioni denaturanti, gli 8 residui
cisteinici potevano formare ponti disolfuro solo in modo casuale. Vi sono 105 (7x5x3x1) modi differenti in
cui gli 8 residui cisteinici si possono combinare e dunque solo 1 su 105 (~ 1%) sar corretto e produrr una
proteina attiva.

Tuttavia il recupero di funzione catalitica non era mai completo, a dimostrazione del fatto che il processo di
refolding era soggetto a qualche errore in vitro e, probabilmente, anche in vivo. Ci port alla scoperta
dellenzima Proteina Disolfuro Isomerasi (PDI), che catalizza la reazione di riduzione (e quindi di rottura) dei
ponti disolfuro errati, permettendo alla proteina intrappolata in una conformazione errata di riaprirsi e di
riprovare il folding.
PDI un enzima ubiquitario, come ci si attende dal ruolo fondamentale che svolge nei processi di folding
proteico.

168
Il sito attivo di PDI presenta un ponte disolfuro (in giallo nellimmagine). Lenzima catalizza una reazione di
ossidoriduzione con uno scambio di ponti disolfuro. Quando il ponte disolfuro errato della proteina mal
ripiegata (misfolded) viene ridotto a due gruppi tiolici -SH (e aperto), PDI si ossida e chiude il suo ponte
disolfuro (il nome corretto di PDI infatti Tiolo-Disolfuro ossidoreduttasi). Lenzima in grado di
riconoscere ponti disolfuro errati poich questi tendono ad essere esposti sulla superficie della proteina,
mentre i ponti disolfuro corretti sono solitamente sepolti nel nucleo idrofobico della proteina.

Lesperimento di Anfinsen fu ritenuto conclusivo ed i suoi risultati portarono alla formulazione del
cosiddetto dogma di Anfinsen, noto anche come ipotesi termodinamica di Anfinsen, in cui si postula che,
almeno per le piccole proteine globulari, la struttura nativa sia determinata solamente dalla sequenza di
amminoacidi che costituiscono la proteina. Ci equivale a dire che, nelle condizioni ambientali
(temperatura, concentrazione e composizione del solvente, ecc.) alle quali avviene il ripiegamento proteico,
la struttura nativa corrisponde a un unico minimo di energia libera, stabile e cineticamente accessibile.

3.5.1 Il problema del folding ed il paradosso di Levinthal


Come abbiamo visto, tutti gli esperimenti di rinaturazione proteica effettuati in vitro, richiedono che il
refolding avvenga lentamente. Questo dato suggerirebbe che la proteina debba cercare la conformazione
corretta tra un numero molto elevato di conformazioni non native e questo richieda tempi relativamente
lunghi.
Lipotesi che la proteina debba esplorare tutte le sue possibili conformazioni prima di giungere a quella
corretta tuttavia inaccettabile, come dimostra il paradosso di Levinthal (1968).
Levinthal calcol infatti che se una proteina dovesse testare tutte le sue conformazioni impiegherebbe per
il folding un tempo superiore allet delluniverso.
Consideriamo ad esempio una piccola proteina formata da 100 legami peptidici (101 amminoacidi). La
conformazione finale dipender dai valori che assumono gli angoli di rotazione e di ciascun gruppo
peptidico rispetto ai due atomi di carbonio-alfa adiacenti. La proteina dovr quindi definire per tali angoli
200 valori (100 angoli di rotazione e 100 angoli di rotazione ). Anche se limitiamo a 3 i valori che ciascun
angolo pu assumere (in effetti, come abbiamo visto, la maggior parte delle combinazioni di e
rappresentate nel diagramma di Ramachandran rappresentano conformazioni proibite per una catena
polipeptidica e solo tre piccole regioni del diagramma, eliche foglietti e turn, sono fisicamente accessibili
alla maggior parte dei residui), il numero di possibili combinazioni di angoli e (e quindi il numero di
conformazioni da testare) risulta essere 3200 = 2,6561095.

169
Poich il tempo minimo per il passaggio da una conformazione allaltra quello di un evento vibrazionale,
ovvero 10-13 secondi, la proteina pu esplorare al massimo 1013 conformazioni al secondo (1 conformazione
ogni 10-13 s) ed impiegher pertanto 2,6561095x 10-13= 2,6561082 s 1075 anni per completare il folding!

dunque evidente che una proteina deve avere modi pi efficienti e rapidi per raggiungere la sua
conformazione nativa, addirittura pi rapidi di quelli che manifesta in vitro. In vivo infatti, allinterno delle
cellule, una proteina si ripiega in tempi dellordine dei microsecondi (10-6 s)

A partire dagli anni 80 del XX secolo stata dimostrata lesistenza in tutti gli organismi e in tutte le cellule
di un repertorio di fattori proteici che promuovono il ripiegamento delle proteine.
Tuttavia tali fattori proteici, detti chaperoni molecolari, non istruiscono le proteine in merito a quale
debba essere la loro conformazione nativa, ma semplicemente prevengono laggregazione delle molecole
unfolded e/o ne accelerano il processo di ripiegamento, anche in assenza di fenomeni di aggregazione.

In conclusione, oggi unanimemente accettata lidea che il processo di folding dipenda solo dalla struttura
primaria della proteina e che le leggi della fisica determinino completamente come una catena lineare di
amminoacidi si ripieghi in una struttura tridimensionale complessa dotata di propriet biochimiche utili.
Nella pratica, tuttavia, predire la struttura nativa partendo dalla sequenza degli amminoacidi un problema
ancora in gran parte irrisolto.
Il problema del folding proteico (folding problem) ancor oggi lontano dallaver trovato una soluzione
soddisfacente, tanto che nel 2005 la rivista Science lo ha annoverato tra i 125 pi grandi problemi irrisolti
in campo scientifico.
Il problema del folding e le difficolt ad esso connesse si riflettono in battute divertenti da parte degli
addetti ai lavori.

Problem for us, not for proteins. They just fold... (Ken A. Dill) (Le proteine non hanno un problema di
ripiegamentoil problema ce lhanno i ricercatori).

Chiunque abbia faticato per ripiegare una carta stradale dovrebbe portare particolare rispetto alle
proteine, le quali si ripiegano da sole ed in pratica si mettono anche nel cassetto - (Brian Hayes, da un
articolo su American Scientist, 1998)

In definitiva il problema del folding proteico si articola nei seguenti tre punti:
1) Il problema cinetico, relativo al modo in cui la struttura nativa viene raggiunta cos rapidamente
(paradosso di Levinthal)
2) Il problema termodinamico, relativo al modo in cui la struttura nativa si genera come conseguenza
delle forze interatomiche che agiscono tra gli amminoacidi delle sequenza proteica
3) Il problema computazionale relativo alla possibilit di decifrare il codice di folding e di conseguenza
prevedere la struttura nativa partendo solo dalla sequenza amminoacidica.

3.5.2 Problema del folding: la cinetica


Lo stesso Levinthal, dopo aver dimostrato come esistano troppe possibili conformazioni per le proteine
affinch esse possano trovare quella corretta attraverso una ricerca casuale (un po come trovare un ago
(struttura nativa) in un pagliaio (spazio conformazionale)), giunse alla conclusione che le proteine siano
costrette a seguire specifici percorsi di folding (folding pathway) e che il folding sia un processo sotto
controllo cinetico.

170
Una reazione si dice sotto controllo termodinamico quando il risultato finale dipende solo dalla maggior
stabilit del prodotto, mentre si dice sotto controllo cinetico quando il risultato finale dipende dalla
maggior velocit con cui il prodotto si forma e dunque dalla facilit con cui si superano gli ostacoli (stato di
transizione) lungo il percorso. Per risolvere il suo "paradosso" Levinthal ha dunque avanzato lipotesi che
una proteina non debba esplorare tutte le configurazioni, ma solo quelle allinterno di un percorso
specifico, un cammino obbligatorio che le permette di convergere rapidamente verso lo stato nativo.
La proposta di Levinthal inaugur una stagione di studi di cinetica del folding alla ricerca di intermedi
parzialmente strutturati che confermassero il modello del percorso di folding (pathway).

La speranza era che, se si fossero potuti individuare degli stati intermedi lungo il percorso di folding, si
sarebbe potuto comprendere il modo in cui la natura setaccia cos rapidamente il pagliaio conformazionale
per trovare lago (struttura nativa).

Le prime sperimentazioni in tal senso vennero eseguite nel 1971 e subito si present un altro problema
sulla natura degli intermedi, i quali potevano trovarsi lungo il percorso di folding (on-pathway; Tsong et al)
ed essere quindi intermedi produttivi oppure potevano trovarsi fuori dal percorso di folding (off-pathway;
Ikai e Tanford) ed essere quindi intermedi improduttivi, una sorta di vicolo cieco, inutile per la
comprensione del codice di folding.

Gli esperimenti analizzavano landamento nel tempo di propriet ottiche collegate a propriet strutturali
della proteina, a seguito di un repentino cambiamento nelle condizioni sperimentali tale da indurre
processi di folding o unfolding, ottenuti perturbando con agenti denaturanti chimici o fisici (temperatura)
lequilibrio fra lo stato nativo e quello denaturato.

Il processo di folding/unfolding segue una cinetica di primo ordine essendo la sua velocit proporzionale
alla concentrazione della proteina e dunque, tipicamente, il ritmo di trasformazione descritto da una
legge di decadimento esponenziale (analoga a quella che descrive i decadimenti radioattivi.

dove Nt la frazione di proteina nativa al tempo t


No la frazione di proteina nativa iniziale
la costante cinetica, spesso sostituita da 1/, con = costante di tempo (o tempo di folding)

Se i dati sperimentali vengono interpolati da una legge di decadimento a singolo esponente allora il
processo viene descritto attraverso un modello a due stati, senza intermedi: stato denaturato o unfolded
(U) e stato nativo (N)
UN

Di fronte a cinetiche di folding multiesponenziali si ricorre a modelli via via pi complessi che prendono in
considerazione lesistenza di intermedi stabili. Ad esempio con una cinetica descrivibile con un
decadimento a doppio esponenziale del tipo

si ipotizza lesistenza di un processo a tre stati con un intermedio (I) oltre allo stato nativo (N) e a quello
denaturato (U).
U I N (intermedio on-pathway)
I U N (intermedio off-pathway)

171
Allinizio degli anni 80 si evidenzi che gli intermedi on-pathway, mostravano una struttura secondaria in
grado di formare un nucleo piuttosto compatto, ma pi espanso della proteina nativa a causa dellassenza
di specifiche interazioni terziarie. Sulla base di queste osservazioni, Ohgushi & Wada (1983) e Dolgikh et al.
(1983) proposero che simili intermedi potessero appartenere ad uno stato fisico comune delle proteine
globulari, per il quale venne scelto il nome di molten globule (letteralmente: globulo fuso).

Si ritiene che il molten globule (MG) possieda le seguenti caratteristiche:


- un contenuto di struttura secondaria uguale o di poco inferiore a quello della forma nativa, ma con
una struttura terziaria dinamica ancora in via di formazione
- una conformazione globulare pi espansa e meno rigida della forma nativa, con una maggiore
mobilit delle catene laterali, il cui comportamento dinamico ricorda quello di un fluido (da cui il
nome globulo fuso).
- residui idrofobici per lo pi posizionati allinterno della molecola, ma ancora parzialmente privi di
tutte le interazioni previste nella forma nativa. Come conseguenza il globulo fuso tende ad
aggregare a causa del fatto che dei tratti idrofobici sono ancora esposti o accessibili al solvente
- transizione UMG rapida e non cooperativa; transizione MGN lenta e cooperativa (Creighton,
1984) .

Lesistenza di un tale intermedio nel processo di ripiegamento viene giustificata in base al fatto che la
formazione delle strutture secondarie avviene su una scala di tempo molto minore rispetto a quella della
formazione della struttura terziaria. Le strutture secondarie si formano infatti a seguito di interazioni a
breve raggio, mentre la struttura terziaria prevede linstaurarsi di interazioni a lungo raggio, che implicano
un numero enorme di diverse interazioni possibili, una sola delle quali quella corretta, cio prevista nella
forma nativa. Il globulo fuso pu essere quindi visto come un intermedio nel quale le strutture secondarie
sono gi formate completamente o quasi, mentre la struttura terziaria in via di formazione.

Il termine molten globule utilizzato anche per indicare stati parzialmente denaturati che si osservano
sottoponendo le proteine a condizioni blande di denaturazione.

Gli studi di cinetica del folding hanno inoltre cercato di evidenziare eventuali correlazioni fra le
caratteristiche di legame di una proteina e la sua velocit di folding, nel tentativo di identificare un
parametro che permettesse in qualche modo di predire luna in base alle altre. cos emersa una forte
correlazione fra la distanza media fra residui interagenti nello stato nativo e la velocit di folding (Plaxco et
al., 1998). Questo tipo di parametro, puramente empirico, pu essere facilmente calcolato per ogni

172
proteina in base alla sua struttura, ed stato definito ordine di contatto (contact order). La sua espressione
la seguente:

dove N il numero totale dei contatti nella proteina, Si,j il numero di residui che separano i due residui
interagenti i e j, ed L la lunghezza della proteina in residui.
Lordine di contatto dunque la distanza media in sequenza tra tutte le coppie di residui in contatto
normalizzata alla lunghezza totale della sequenza. La misura normalizzata (divisa per la lunghezza L della
proteina) poich la lunghezza della proteina influenza la velocit di folding.

In una proteina in cui il valore di contact order basso, i residui interagiscono mediamente con altri che si
trovano vicini nella sequenza. Viceversa, un valore alto di contact order indica che nella proteina ci sono un
numero cospicuo di interazioni a lungo raggio, ovvero che molti dei residui interagiscono con altri che si
trovano lontani nella sequenza. Quando si incontrano punti vicini sulla catena, essi generalmente formano
strutture elicoidali. Quando si uniscono punti distanti, formano filamenti beta che interagiscono tra loro e
formano fogli. L'ordine di contatto misura quanti dei collegamenti sono locali e quanti sono distanti.
I contatti residuo-residuo simili a quelli presenti nella struttura ripiegata finale vengono detti contatti
nativi. Studi sperimentali hanno dimostrato che tali contatti si stabiliscono pi facilmente e velocemente
quando i residui coinvolti sono vicini nella catena polipeptidica. E dunque, proteine con una grossa frazione
di contatti tra residui vicini in sequenza (basso ordine di contatto) si ripiegano pi rapidamente che
proteine con molti contatti non-locali ( alto ordine di contatto).
emersa una correlazione statisticamente significativa tra la costante cinetica di folding k ed il contact
order: allaumentare delluno diminuisce laltra. Questa evidenza indica che la topologia dello stato nativo
un fattore determinante per la velocit di formazione di una proteina.
Il sito http://depts.washington.edu/bakerpg/contact_order/ permette di calcolare il contact order di una
proteina semplicemente inserendo il suo codice PDB e propone la seguente relazione tra il logaritmo
naturale della costante cinetica di folding k e lordine di contatto (espresso in percentuale)

ln(k) = 16,1 -0,71 (%CO)

I valori di CO cadono tipicamente nellintervallo 5% - 25%. Ad esempio, una proteina come il Citocromo
B562 (PDB: 1QPU), che presenta solo alfa-eliche, ha un ordine di contatto del 7,2%, mentre una proteina
come la lectina della banana (PDB: 3MIU), che presenta solo foglietti beta, ha un ordine di contatto del
17,9%.

173
Dal pathway al funnel
Gli studi di cinetica sono poi giunti ad una nuova visione del protein folding in cui il concetto di percorso
di folding, costituito da eventi sequenziali, stato sostituito da un modello ad eventi paralleli rappresentato
da un diagramma energetico soprannominato folding funnel (imbuto di folding), uno specifico
adattamento della teoria dellEnergy Landscape (paesaggio energetico).

Un paesaggio energetico una mappatura di tutti i valori di energia libera di ciascuna possibile
conformazione molecolare in funzione dei suoi gradi di libert, ad esempio, per una proteina, in funzione
dei valori che possono assumere i suoi angoli diedri e .
Lasse verticale rappresenta lenergia libera della molecola (ad esempio, per una proteina, la somma di
legami idrogeno, coppie ioniche, interazioni idrofobiche ed energie di solvatazione), mentre gli assi laterali
rappresentano coordinate conformazionali necessarie per specificare ogni singola conformazione. Lelevato
numero di gradi di libert conformazionali della catena proteica produrrebbe dei grafici multidimensionali.
Per questo motivo vengono rappresentate solo due coordinate conformazionali orizzontali, in modo da
generare delle superfici che, nel caso del folding proteico, assumono una forma ad imbuto (funnel), con la
struttura nativa che si trova in fondo allimbuto.

La rappresentazione tridimensionale perci una semplice riduzione ad una dimensione ancora graficabile
del complesso e multidimensionale panorama energetico (energy landscape) che realmente accessibile
alla proteina. La forma ad imbuto descrive la progressiva riduzione dello spazio conformazionale
accessibile, a partire dai molti gradi di libert disponibili per le catene denaturate (elevata entropia), fino ad
arrivare alla proteina nello stato nativo che caratterizzata, almeno in prima approssimazione da un unico
sottostato conformazionale.

174
Dal punto di vista della meccanica statistica, lo stato denaturato di una proteina non un singolo punto nel
panorama energetico, ma una superficie, virtualmente infinita costituita da tutti i punti eccetto lo stato
nativo.
In questo tipo di rappresentazione, il panorama energetico non altro che lenergia libera di ogni
conformazione in funzione dei gradi di libert, ed ogni conformazione rappresentata da un punto su
questa superficie energetica multidimensionale, sulla quale conformazioni geometricamente simili si
trovano una vicina allaltra. Appena in condizioni di ripiegarsi, la proteina tende a cambiare
conformazione in modo da diminuire la propria energia, ma anche costantemente spinta da moti
browniani ad esplorare altre conformazioni in tutte le altre dimensioni dellimbuto, finch tutte le
conformazioni trovano la strada per la stessa unica struttura nativa, corrispondente al minimo di energia.

Il processo di folding proteico pu essere paragonato ad una palla che rotola su questa superficie di
energia. All'avvio del folding, la proteina tende a cambiare la sua conformazione in modo da diminuire la
sua energia, ma anche costantemente sottoposta a moti dovuti allagitazione termica (moti browniani). In
questa metafora ogni molecola proteica corrisponde ad una palla che rotola sulla superficie del panorama
energetico seguendo una particolare traiettoria, attraverso colline e valli, mentre viene deviata in modo
casuale dalle forze browniane.

I rilievi corrispondono a conformazioni ad alto contenuto energetico (ad esempio gruppi polari sepolti nel
core proteico o conformazioni con angoli diedri sfavorevoli), mentre gli avvallamenti rappresentano
conformazioni pi stabili.

Il paradosso di Levinthal, secondo il quale esistono troppe conformazioni affinch una proteina possa
trovare quella corretta attraverso una semplice ricerca casuale, pu essere graficamente rappresentato
utilizzando la teoria dellenergy landscape, attraverso un modello ad imbuto noto come campo da golf di
Levinthal (Levinthal golf course Landscape).

175
Quando una palla rotola casualmente su di una superficie completamente piatta, senza alcuna pendenza,
ovvio che impiegher molto tempo prima di trovare il buco in cui cadere.

Anche la soluzione di Levinthal al suo paradosso, secondo cui il folding avverrebbe attraverso un percorso
specifico (folding pathway) che condurrebbe rapidamente la proteina verso la sua forma nativa, pu essere
rappresentata utilizzando la teoria dellenergy landscape, attraverso un modello ad imbuto (Pathway
Landscape).

Secondo Levinthal la proteina inizia il suo percorso di folding da una particolare conformazione denaturata
A ed arriva allo stato nativo N, come lacqua che scende lungo una grondaia. Questo processo ovviamente
pi diretto e rapido di una ricerca casuale. Un percorso di folding significa che esiste una sequenza ben
definita di eventi che si succedono. La grondaia rappresenta una particolare serie di variazioni di angoli
diedri che la proteina deve necessariamente percorrere nel suo cammino verso lo stato nativo.

Nella sua rappresentazione pi semplice, ovvero quello di una reazione a due stati, in cui non si misura
laccumulo di alcuno intermedio, il modello del folding funnel viene rappresentato come un imbuto dalle
pareti lisce.

176
In questo modello lo stato denaturato di una proteina non un singolo punto A sul paesaggio, una singola
conformazione, ma tutti i punti eccetto N. Ogni molecola proteica raggiunge il medesimo stato nativo
attraverso un percorso diverso (eventi paralleli). I polipeptidi cadono lungo le pareti dell'imbuto non
appena i contatti tra i residui selezionano le vie alternative di ripiegamento.

Poich l'area laterale di un paesaggio energetico ad imbuto ad una determinata profondit rappresenta il
numero di conformazioni che possiedono una data energia libera, l'idea dellimbuto mostra semplicemente
come, mentre una catena in via di ripiegamento progredisce verso livelli inferiori di energia libera -
aumentando la compattezza, lo sviluppo del core idrofobico, la formazione di legami idrogeno intracatena,
la formazione di ponti salini, e cos via le opzioni conformazionali della catena diventano sempre pi
ridotte, arrivando alla fine allunico stato conformazionale permesso, quello nativo.

In altri termini, la forma ad imbuto descrive la progressiva riduzione dello spazio conformazionale
accessibile, a partire dai molti gradi di libert disponibili per le catene denaturate, fino ad arrivare alla
proteina nello stato nativo che caratterizzata, in prima approssimazione, da un unico sottostato
conformazionale. Ogni passaggio del folding riduce lo spazio conformazionale accessibile al successivo, in
modo che il processo sia accompagnato da una diminuzione nel numero di conformazioni che devono via
via essere esplorate dalla proteina.
Una proteina non visita quindi tutte le possibili conformazioni prima di raggiungere quella nativa. Essa
piuttosto si ripiega in modo che ogni passo limiti le possibilit di ripiegamento dei passi successivi. Il
modello ad imbuto supera il paradosso di Levinthal, in quanto, pur ammettendo un gran numero di diversi
cammini, alcuni dei quali possono dare origine ad intermedi inizialmente improduttivi, non consente un
campionamento completamente casuale ma spinge il sistema verso il suo minimo di energia favorendo
alcuni riarrangiamenti che portano verso lo stato nativo e rendendo estremamente improbabili i percorsi
che risalgono limbuto energetico.

Prendendo in considerazione la possibilit di formazione di intermedi, di trappole cinetiche e la presenza di


barriere energetiche con minimi locali (minimi relativi), il panorama diviene pi vario e corrugato, come
illustrato nellimmagine successiva.

177
Quando il paesaggio energetico si fa pi corrugato necessario porre attenzione al significato che
assumono alcuni parametri della cinetica classica, come ad esempio lo stato di transizione. In cinetica
classica lo stato di transizione rappresenta una configurazione molecolare ad elevata energia che si trova
sul picco pi elevato del suo percorso (pathway) reattivo e che condiziona la velocit della reazione.
Utilizzando questo punto di vista, potremmo immaginare che lo stato di transizione di una proteina nel
processo di folding sia rappresentato da una qualche conformazione particolarmente instabile che deve
essere superata per poi raggiungere la conformazione nativa. Tuttavia il modello ad imbuto, sostituisce il
singolo percorso di folding, con molteplici percorsi paralleli. In questa prospettiva un collo di bottiglia
cinetico non deve necessariamente corrispondere ad una particolare conformazione ad elevata energia
(anche se questa possibilit non viene preclusa). Lo stato di transizione associato non tanto ad una
particolare conformazione, quanto a particolari condizioni di velocit di folding.
Se la pioggia scorre gi da una montagna attraverso ununica gola, il collo di bottiglia pu essere un
particolare ostacolo lungo la gola. Ma se la pioggia scende gi lungo lintera superficie della montagna
potrebbe non esserci un singolo e specifico impedimento al suo fluire e la portata complessiva pu essere
la somma di molti processi pi piccoli.
Anche i termini fuori percorso (off-pathway) e sul percorso (on-pathway) possono in alcuni casi
perdere di significato se applicati al modello a funnel. La -lattoglobulina, ad esempio, la principale proteina
del siero di latte bovino ed ovino, costituita da 162 residui organizzati in un barile-beta formato da 9
filamenti beta, durante il processo di folding produce un intermedio costituito essenzialmente da alfa
eliche. I contatti residuo-residuo simili a quelli presenti nella struttura ripiegata finale vengono detti
contatti nativi. Nel modello classico in cui le proteine sono costrette a seguire specifici percorsi di folding
(folding pathway) si assume generalmente che gli intermedi presentino un contenuto di elementi
secondari minore della forma nativa, ma dello stesso tipo (contatti nativi). In caso contrario (contatti non
nativi) vengono considerati fuori percorso. Il folding della beta-lattoglobulina dimostra invece come
lintermedio possa avere un contenuto in strutture secondarie non necessariamente simile a quello della
forma nativa e rappresentare comunque una tappa nel percorso di folding.

Infine, la definizione di una precisa cinetica di folding pu non essere sempre compatibile con il modello a
funnel in cui possono essere presenti cinetiche diverse per i diversi percorsi paralleli di folding. Lesempio
pi eclatante si ha con il lisozima dellalbume di pollo il cui folding stato studiato da Chris Dobson e coll.
(1995). Il lisozima una proteina globulare formata da 129 residui organizzati in due domini. Un dominio
alfa formato da 4 alfa-eliche (A B C D) e da unelica 310. Un dominio beta costituito da un foglietto-beta
antiparallelo a 3 filamenti e da una breve elica 310. La struttura terziaria stabilizzata da 4 ponti disolfuro.
Nellimmagine seguente il dominio alfa e beta sono rispettivamente rappresentati in rosso e viola.

178
Durante il folding le molecole di lisozima si suddividono in due sottopopolazioni. Circa il 25-30% delle
molecole (sottopopolazione A) si ripiegano velocemente acquisendo la struttura nativa attraverso una
cinetica a due stati, mentre il rimanente 70-75% (sottopopolazione B) cade rapidamente in una trappola
cinetica, un minimo locale di energia caratterizzato da un intermedio in cui si forma solo il dominio alfa. La
successiva formazione del dominio beta rappresenta lo stadio cineticamente limitante, che rende pi lento
il raggiungimento della struttura nativa attraverso una cinetica a tre stati.

Il diagramma a funnel per le due sottopopolazioni di molecole (A e B) riportato nellimmagine successiva.

179
3.5.3 Modelli di folding

Parallelamente agli studi sulla cinetica del folding vennero elaborati diversi modelli che si proponevano di
descrivere la sequenza di eventi coinvolti nel ripiegamento proteico.

Nucleation/growth (nucleazione crescita)


Il modello nucleation/growth (Wetlaufer, 1973) ipotizza che lo stadio cineticamente limitante del folding sia
un evento di nucleazione in cui si formano piccole unit strutturali (nuclei) dallinterazione di residui
adiacenti in sequenza. Successivamente i nuclei si propagano ed accrescono rapidamente (growth)
completando il processo di folding.

Framework
Secondo il modello Framework (Ptitsyn and Rashin, 1975; Kim and Baldwin 1982, 1990) il folding segue la
gerarchia delle strutture proteiche, iniziando con la rapida formazione delle strutture secondarie nelle
diverse regioni della catena. Successivamente la loro lenta coalescenza rappresenta lo stadio cineticamente
limitante e porta alla formazione dei fold ed infine della struttura nativa. Linsieme delle strutture
secondarie rappresenta dunque una sorta di impalcatura (framework) necessaria per la formazione delle
strutture supersecondarie e terziaria.

Collasso Idrofobico
Il modello del collasso idrofobico (hydrophobic collapse model - Rackovsky e Scheraga, 1977; Dill, 1985,
1990) ipotizza che levento iniziale del folding sia un uniforme collasso del filamento proteico causato
dalleffetto idrofobico, dovuto essenzialmente alla tendenza dei gruppi amminoacidici non-polari a venir
esclusi dal contatto con lacqua ed ad essere seppelliti allinterno del filamento in ripiegamento, mentre
molecole dacqua vengono espulse dal core della proteina. Gli elementi di struttura secondaria si formano
successivamente al collasso.

Diffusion/collision/adhesion
Secondo il modello diffusion/collision/adhesion (Karplus e Weaver, 1976, 1994) le prime strutture a
formarsi durante il folding sarebbero dei microdomini fluttuanti costituiti da porzioni di strutture
secondarie o da aggregati di residui idrofobici. Tali microdomini, muovendosi in continuazione (diffusione)
e scontrandosi (collisione), andrebbero incontro a fenomeni di coalescenza (adesione) con formazione di
unit strutturate pi estese. Si ipotizza che lo stadio cineticamente limitante sia il processo di diffusione.

Nucleation/condensation
Si tratta di uno dei modelli pi recenti e tra i pi accreditati (Fersht 1995, 1997, 1999; Itzhaki et al. 1995;
Nlting et al. 1995, 1997; Shakhnovich et al. 1996; Kiefhaber et al. 1997; Nlting 1998, 1999) che tenta di
unificare le caratteristiche dei due principali modelli di folding: framework e collasso idrofobico. In questo
modello la formazione di elementi di struttura secondaria ed il collasso idrofobico avvengono
simultaneamente ed in modo sinergico (rinforzandosi reciprocamente). Il folding inizia con il collasso
idrofobico che porta alla formazione di uno o pi nuclei. Il nucleo contiene gi alcune interazioni secondarie
e terziarie. Il nucleo diventa via via pi stabile mentre si accresce grazie alla condensazione attorno ad esso
di ulteriori strutture. Il modello tenta cos di spiegare la grande efficienza e rapidit del processo di folding.
Se si considera ad esempio una proteina costituita da 100 residui, si pu ipotizzare che liniziale formazione
di un nucleo di folding coinvolga interazioni tra 10-20 residui. Ci porterebbe il numero dei contatti da

180
esplorare a 1010-1020 (e non i 10100 di un campionamento casuale completo). Tenendo inoltre conto che
durante il processo di nucleazione il campionamento non sar completamente casuale (a causa degli
impedimenti sterici che si generano durante il collasso), considerando che ogni interazione campionata
richiede circa 10-9 s, si ottengono tempi di folding abbastanza realistici.
Il modello risulta consistente con il modello a funnel che prevede che durante il folding il numero di
conformazioni da campionare diminuisca rapidamente.
Ad esempio, molto caratteristico che brevi tratti di sequenza si avvolgano generando -eliche o foglietti
antiparalleli. Questo processo detto nucleazione, e le regioni ripiegate che si vengono a formare sono
dette centri di nucleazione, perch attorno ad esse si organizza il ripiegamento dellintera molecola. La
forza traente di questi eventi iniziali la tendenza a generare legami idrogeno tra i gruppi C=O ed NH della
catena principale. Tuttavia anche la tendenza a segregare i residui idrofobici dal solvente gioca un ruolo al
riguardo. Un esempio la formazione di un fascio di due eliche. Normalmente le eliche isolate in soluzione
non sono molto stabili, ma due eliche possono interagire luna con laltra a livello di superfici idrofobiche
generando cos un intermedio stabile. Tale fase del ripiegamento guidata da interazioni a breve raggio
(short-range interactions). Questa fase del ripiegamento dunque governata da eventi relativamente
semplici rispetto a quelli che seguiranno, e ci spiega perch la sua scala dei tempi sia molto breve,
dellordine delle decine di microsecondi (1 ms = 10-6 secondi).
Dopo la formazione dei centri di nucleazione, linsieme della proteina inizia a ripiegarsi attorno ad essi e si
forma cos la struttura terziaria. La formazione dei centri di nucleazione semplifica enormemente il
problema del protein folding, nel senso che riduce il numero delle conformazioni possibili e consente il
completamento del processo in tempi relativamente brevi. anche evidente che questa seconda fase del
processo comporta linstaurarsi di interazioni a lungo raggio (long-range interactions), cio tra residui che
possono essere distanti o distantissimi sulla sequenza amminoacidica. Ci giustifica il fatto che la scala dei
tempi di questa fase del ripiegamento sia molto maggiore, dellordine di secondi o talvolta addirittura di
minuti. Si noti che le due fasi descritte del ripiegamento rispecchiano la stessa gerarchizzazione che esiste
nella struttura complessiva delle proteine: vale a dire, la fase iniziale di nucleazione genera strutture
secondarie, mentre la fase successiva genera la struttura terziaria.

Jigsaw (puzzle)
Molti autori ritengono tuttavia che non esista un unico meccanismo universale di folding e che i diversi
modelli non debbano necessariamente escludersi reciprocamente. Spesso infatti i risultati sperimentali di
proteine diverse sono consistenti con modelli diversi. La propensione di una proteina ad utilizzare un
meccanismo piuttosto che un altro pu dipendere da vari fattori. Il modello jigsaw (Harrison e Durbin,
1985) arriva ad ipotizzare che anche una medesima proteina possa utilizzare contemporaneamente modelli
di folding differenti. Ogni molecola proteica potrebbe dunque seguire un percorso diverso per raggiungere
la medesima struttura nativa, ipotesi che ovviamente consistente con il modello a funnel.

3.5.4 Problema del folding: la termodinamica


Sin dal lavoro degli anni `50 di Anfisen e collaboratori sulla ribonucleasi, sembrava di poter concludere che
la sequenza amminoacidica fosse completamente sufficiente a specificare la forma tridimensionale finale e
lattivit biologica di una proteina. Questo risultato, pi volte confermato, almeno per proteine globulari,
solubili e a un solo dominio, ha aperto la possibilit di derivare le forze responsabili del folding dai principi
fondamentali della fisica e della chimica.
Il folding pu essere infatti considerato in prima approssimazione alla stregua di una qualsiasi reazione
chimica e, come tale, potr essere sottoposto ad indagini sia cinetiche che termodinamiche. Come abbiamo

181
visto, lapproccio cinetico si prefigge di identificare gli intermedi che si vengono a formare nel passaggio
dalla forma nativa a quella denaturata, identificando quindi le vie percorse nella transizione da una forma
allaltra e tentando di elaborare modelli che diano ragione delle modalit del processo. Lapproccio cinetico
studia quindi i meccanismi di ripiegamento delle proteine.
La termodinamica ci dice invece il verso spontaneo di una trasformazione. Nel caso di trasformazioni
chimiche ci dice in pratica qual il valore della costante di equilibrio, pur non dando indicazioni circa la
velocit della trasformazione stessa. Nel caso delle proteine evidente che nelle condizioni fisiologiche
lequilibrio di regola spostato verso la forma nativa. Come vedremo, lapproccio termodinamico ci offre
anche indicazioni circa le forze responsabili del mantenimento della conformazione nativa, come ad
esempio la natura delle interazioni tra le catene laterali degli amminoacidi e delle interazioni tra catene
laterali e solvente.
Si noti quindi come cinetica e termodinamica forniscano informazioni differenti e complementari in merito
ai fattori che portano una proteina ad assumere il suo corretto ripiegamento.

Poich estremamente difficile studiare la termodinamica del folding proteico si preferisce studiare il
processo opposto, sottoponendo le proteine a condizioni denaturanti e studiandone il processo di
unfolding (denaturazione).

Nel caso pi semplice, il processo di denaturazione proteica pu essere considerato come un equilibrio
chimico tra due specie (processo a due stati), la forma nativa (N) e la forma denaturata (D)
ND
Per ottenere i tre parametri termodinamici fondamentali del processo (cio G, H e S) necessario
incubare la proteina in soluzione a diverse temperature per il tempo necessario al raggiungimento
dellequilibrio e determinare quindi la costante di equilibrio Keq a ciascuna temperatura.
Nellimmagine seguente sono mostrate le curve di denaturazione termica reversibile della Ribonucleasi A e
dellApomioglobina.

Il valore in ordinata indica la frazione di proteina denaturata fD, dalla quale si pu calcolare la frazione di
proteina in forma nativa fN = 1 fD. Per ogni punto della curva (e quindi per ogni temperatura) possibile
calcolare il valore della costante di equilibrio.

182
Il valore della costante di equilibrio legato al G della trasformazione dalla relazione

G = RT ln(Keq)

Come noto, la variazione di energia libera di Gibbs G pu essere scritta anche in termini di variazione di
entalpia (H) ed entropia (S) a temperatura costante T
G = H - T S
Si tenga presente che ad ogni temperatura il sistema allequilibrio. Laumento di temperatura non fa che
spostare lequilibrio verso la forma denaturata (cio incrementa la Keq). Si tratta di un modello semplice a
due stati, nativo N e denaturato D. Nel processo non esistono quindi forme intermedie tra quella nativa e
quella completamente denaturata. In altre parole non esistono forme in cui alcune porzioni della molecola
sono denaturate e altre non lo sono.
Tm detta temperatura di fusione (la lettera m sta per melting, che in inglese significa appunto fusione)
ed la temperatura in corrispondenza della quale il sistema presenta il 50% di molecole in struttura nativa
e 50% di molecole in stato denaturato. (e dunque Keq = 1 e G = 0).

La transizione della proteina dalla forma nativa a quella denaturata detta fusione in quanto il fenomeno
denota unanalogia molto stretta con la transizione di una sostanza dallo stato solido a quello liquido, cio
con la fusione vera e propria. Nella fusione di un solido deve prodursi la rottura di legami, anche se si tratta
di legami intermolecolari, mentre la fusione di una proteina comporta la rottura di legami intramolecolari.
Inoltre in entrambi i casi la sostanza incrementa sostanzialmente i suoi gradi di libert con la fusione.

La temperatura di fusione Tm ci permette di comprendere in modo semplice gli effetti di H e S sulla


stabilit della proteina. Infatti in corrispondenza di Tm la forma nativa e denaturata hanno la stessa
concentrazione, la costante di equilibrio Keq evidentemente uguale a 1 e G = 0. Di conseguenza
lequazione G = H - T S assume la forma seguente Tm S = H da cui

Tm dunque direttamente proporzionale al H e inversamente proporzionale al S. quindi evidente che


un alto valore di H comporter unalta Tm e stabilizzer la proteina, mentre al contrario un alto valore di
S comporter un basso valore di Tm e destabilizzer la proteina. In definitiva, il H si pu considerare in

183
prima approssimazione una misura delle forze intramolecolari che contribuiscono a mantenere la proteina
nella forma nativa ed ha quindi un ruolo stabilizzante, mentre il S d una misura dellincremento di
entropia conformazionale che consegue alla denaturazione ed quindi il principale fattore destabilizzante.

Come abbiamo detto, il modo pi semplice per calcolare i tre parametri termodinamici fondamentali (G,
H e S) del processo di denaturazione termica determinare i valori della costante di equilibrio K eq alle
diverse temperature T.
Tenuto conto infatti che
G = - RT ln(Keq) G/RT = - ln(Keq) G = H - T S
si ottiene lequazione:

( )

H e S dipendono in realt anchesse dalla temperatura. Tuttavia, se si assume trascurabile la loro


dipendenza dalla temperatura nellintervallo considerato (pochi gradi intorno alla temperatura di fusione
TM), riportando in un grafico Rln(Keq) in funzione di 1/T si ottiene una retta con pendenza -HM ed
intercetta SM (grafico di vant Hoff). Quindi, ammettendo un comportamento ideale, possibile calcolare
con buona approssimazione i parametri termodinamici H e S (e di conseguenza anche G).
A titolo di esempio riportiamo i dati della denaturazione termica della Ribonucleasi T 1, una piccola proteina
globulare formata da 104 amminoacidi (da Measuring the Conformational Stability of a Protein, C. N. Pace,
B. A. Shirley and J. A. Thomson, from Protein Structure: A Practical Approach, edited by T. Creighton, Oxford
University Press, 1987)

fD
t (C) (cal/mol)
(fraz proteina denaturata)
45,4 0,197 0,245 890
46,3 0,277 0,383 610
47,2 0,371 0,589 337
48,1 0,472 0,894 72
49,0 0,575 1,353 -193
49,9 0,673 2,061 -464
50,8 0,757 3,123 -733
51,7 0,828 4,805 -1013

Nellimmagine che segue sono stati inseriti i dati in un foglio Excel. Nella seconda colonna sono state
calcolate le corrispondenti temperature assolute e nella terza il loro reciproco (1/T). Nella quinta colonna
stato calcolato il prodotto tra R = 1,987 ed logaritmo naturale delle costanti di equilibrio. Sono stati infine
usati i dati della colonna C e della colonna E per eseguire una regressione lineare (funzione REGR.LIN) e
calcolare il coefficiente angolare m = - HM ed il termine noto b = SM della retta Y = mX + b che descrive i
dati.

184
In questo modo si assume che durante il processo di denaturazione lentalpia e lentropia rimangano
costanti e valgano rispettivamente H = 96.549 cal/mol e S = 300,3 cal mol-1 K-1. Il H cos calcolato
detto anche H di vant Hoff (HvH).
E inoltre possibile stimare la temperatura di fusione.

Lo stesso risultato si pu ottenere diagrammando i valori di G in funzione delle temperature T. In questo


caso la retta rappresenta la funzione
G = H - T S
Y = b + mX
con m = - S, b = H e lintersezione della retta con lasse delle X (G = 0) che fornisce la temperatura di
fusione TM.

185
Se ora vogliamo calcolare il G a 20C (293K) otterremo
G(20) = H - T S = 96.549 - 293 x 300,3 = 8.560 cal/mol
che corrisponde ad una costante di equilibrio . A 20C lequilibrio di
denaturazione tutto spostato verso sinistra, cio verso la forma nativa. A 20 sono presenti solo 4
molecole denaturate ogni 107 molecole in struttura nativa
Il valore positivo di G indica che in queste condizioni il processo di unfolding sfavorito e lequilibrio
spostato verso lo stato nativo. La proteina quindi stabile in queste condizioni.

Eseguiamo ora uninterpolazione a 80C (353K)


G(80) = H - T S = 96.549 - 353 x 300,3 = -9.457 cal/mol
che corrisponde ad una costante di equilibrio . A 80C lequilibrio di
denaturazione tutto spostato verso destra, cio verso la forma denaturata. A 80 presente solo 1
molecola in struttura nativa ogni 7 105 molecole denaturate.

Se il grafico di vant Hoff non si presenta come una retta, ma come una curva a pendenza variabile, significa
che il H (che rappresenta la pendenza) non rimane costante al variare della Temperatura. In effetti, come
abbiamo gi detto, lentalpia (H) e lentropia (S) dipendono da T e la loro dipendenza espressa in
funzione della capacit termica Cp della proteina. La denaturazione di una proteina infatti accompagnata
di solito da un apprezzabile incremento di Cp riconducibile allincremento di libert conformazionale ed al
diverso tipo di interazione che la proteina ha con il solvente nella forma nativa e denaturata (effetto
idrofobico). L'esposizione al solvente di superfici idrofobiche porta ad un aumento di capacit termica Cp
e quindi ad una dipendenza dalla temperatura delle variazioni entalpica ed entropica H e S.

Se si fornisce calore ad un corpo (espresso come entalpia H) ci determina ovviamente un aumento di


temperatura T.
Nel caso pi semplice ad ogni variazione H di calore corrisponde una medesima variazione T di
temperatura e la capacit termica Cp (espressa come quantit di calorie che necessario fornire ad una
mole di un composto per produrre un incremento di temperatura di 1 grado a pressione costante)
costante.

Pu tuttavia accadere che al crescere della temperatura sia necessario fornire sempre pi calore per
ottenere pari incrementi di temperatura. Ci sta ad indicare che il sistema in qualche modo si modifica
allaumentare della temperatura, in modo tale per cui aumenta anche la sua capacit termica.
Questo ci che accade per la maggior parte delle proteine durante il processo di denaturazione. Ci
significa in sostanza che necessario fornire molto pi calore per ottenere un certo incremento di
temperatura di una soluzione di proteina denaturata, che non per ottenere un uguale incremento in una
soluzione della stessa proteina allo stato nativo. Nelle condizioni descritte si produce quindi un incremento
di Cp e di conseguenza si ha un Cp = CpDen - CpNat.

In questo caso i parametri termodinamici si calcolano da misure dirette di Entalpia e di capacit termica Cp
attraverso misure calorimetriche sperimentali. Le misure di capacit termica Cp durante il processo di
denaturazione danno profili come quelli mostrati nellimmagine seguente, dal quale si possono ricavare il
valore di Cp e di H (larea sottesa alla curva).

186
Il H cos calcolato detto anche H calorimetrico (Hcal). La coincidenza di tale valore con il H di vant
Hoff sta ad indicare che la denaturazione avviene in modo cooperativo, in un unico step.
Per processi pi complessi tale rapporto diverso da uno. In particolare un valore del rapporto Hcal/HvH
inferiore ad uno indica la presenza di un processo irreversibile, mentre un valore superiore ad uno indica un
processo che avviene con step intermedi.

Le funzioni H(T) e S(T) che legano entalpia ed entropia alla temperatura sono le equazione di Kirchhoff

H(T2) = H(T1) + Cp (T2 - T1)


S(T2) = S(T1) + Cp ln(T2/T1)

Tramite queste relazioni possibile, conoscendo il valore dellaumento di capacit termica Cp associato al
processo di denaturazione ed un valore di H ad una certa temperatura T1, calcolare i valori di H e S (e
quindi di G) ad una qualsiasi temperatura T2.

Poich le misure di capacit termica sono piuttosto complesse e delicate tuttavia possibile assegnare al
Cp di denaturazione dei valori empirici. Si infatti osservato che laumento proporzionale al numero di
residui amminoacidici che costituiscono una proteina e si attesta sempre su valori che cadono
nellintervallo tra 10-18 cal K-1 mol-1 per residuo. Una buona stima 13.9 0.5 calK1mol1 (Robertson e
Murphy, 1997).
Dopo aver assegnato in modo empirico il Cp di denaturazione necessario individuare una temperatura di
riferimento ed il relativo H. Il modo pi semplice utilizzare la temperatura di denaturazione TM ed il
relativo HM, calcolati utilizzando il grafico di vant Hoff.

Eseguiamo a titolo di esempio il calcolo con i dati precedenti relativi della denaturazione termica della
Ribonucleasi T1. La Ribonucleasi T1 formata da 104 amminoacidi e dunque assegniamo un Cp di
denaturazione pari a 13.9 x 104 = 1445,6 calK1mol1

Per calcolare il G a 20C (293K) stimiamo lentalpia e lentropia alla medesima temperatura, usando le
equazioni di Kirchhoff

H(293) = H(TM) + Cp (293 TM) = 96.549 + 1445,6 (293 321,5) = 55.349,4 cal/mol
S(293) = S(TM) + Cp ln(293/TM) = 300,3 + 1445,6 ln(293/321,5) = 166,1 calK1mol1
G(293) = H - T S = 55.349,4 - 293 x 166,1 = 55.349,4 48.667,3 = 6.682 cal/mol

187
Eseguiamo il medesimo calcolo per stimare il G a 80C (353K)

H(353) = H(TM) + Cp (353 TM) = 96.549 + 1445,6 (353 321,5) = 142.085,4 cal/mol
S(353) = S(TM) + Cp ln(353/TM) = 300,3 + 1445,6 ln(353/321,5) = 435,4 calK1mol1
G(353) = H - T S = 142.085,4 - 353 x 435,4 = 142.085,4 153.696,2 = -11.611 cal/mol

Si noti come nella termodinamica del folding/unfolding H e T S assumano valori elevati ed opposti,
mentre G presenti valori relativamente piccoli dellordine di 5-15 kcal/mol. G piccolo a causa di effetti
di compensazione tra effetti entalpici ed entropici. Bastano piccole variazioni nei contributi entalpici ed
entropici per far variare il segno complessivo dellenergia libera standard.

In generale la stabilit complessiva di una proteina quindi nel complesso molto piccola, con una
differenza netta (G) tra lo stato nativo e denaturato comparabile cio allenergia di pochi legami idrogeno.
Allaumentare della temperatura il peso del fattore entropico cresce e, alla temperatura di unfolding,
diventa uguale in valore assoluto al fattore entalpico annullando il valore di G, per poi diventare
prevalente a temperature pi elevate, portando il G a valori negativi.
La stabilit termica di una proteina quindi strettamente legata allequilibrio tra contributo energetico e
contributo entropico. Per difendersi dalle alte temperature e quindi prevenire la denaturazione termica
delle proteine, alcuni batteri termofili presentano proteine con un maggior numero di legami idrogeno e
ponti salini in modo da aumentare il peso del contributo energetico e spostare la temperatura di
denaturazione a valori pi elevati.

Naturalmente I parametri termodinamici fin qui calcolati si riferiscono al processo di denaturazione. Se


vogliamo i valori per il processo di folding D N dobbiamo cambiare di segno tutti i valori. Ad esempio, a
20C si avr
H(293) = - 55.349,4 cal/mol
S(293) = - 166,1 calK1mol1
G(293) = H - T S = - 55.349,4 - 293 x (-166,1) = 55.349,4 + 48.667,3 = - 6.682 cal/mol
.
A 20C lequilibrio di folding completamente spostato verso la forma nativa ed presente una molecola
denaturata ogni 105 molecole in struttura nativa. Tuttavia il processo di folding avviene grazie ad un minimo
prevalere di H su -TS. quindi sufficiente un piccolo aumento di T per far prevalere il termine entropico e
spostare lequilibrio verso la forma unfolded, causando la denaturazione della proteina.

Ci significa che il bilancio netto tra forze destabilizzanti e stabilizzanti una proteina comporta solo un lieve
eccesso di queste ultime rispetto alle prime quando il G sia valutato alla temperatura fisiologica di
ciascuna proteina. Si dice per questo che le proteine sono solo marginalmente stabili. Il significato
adattativo di tale fatto si comprende se si pensa che un eccesso di energia stabilizzante comporterebbe
evidentemente una notevole rigidit strutturale della molecola, mentre nella maggior parte dei casi le
funzioni a carico delle proteine richiedono una notevole flessibilit conformazionale. Si pensi a titolo
esemplificativo alla catalisi enzimatica. Nellinterazione tra enzima e substrato intervengono fenomeni di
modificazione conformazionale dellenzima che sono assolutamente essenziali per la funzione. Si pu
quindi ipotizzare che le singole proteine si siano evolute in modo tale da calibrare leccesso di interazioni, e
quindi di energia stabilizzanti, al valore minimo indispensabile per garantire una ragionevole, ma non
eccessiva, stabilit nelle condizioni fisiologiche.

188
Come abbiamo gi ricordato, uno degli obiettivi dellanalisi termodinamica del folding proteico anche
quello di individuare e descrivere le forze responsabili del mantenimento della conformazione nativa.

Quando una proteina assume la conformazione nativa, scambia le molte interazioni non covalenti dello
stato denaturato con lacqua (tipicamente legami idrogeno) con interazioni intramolecolari energicamente
pi favorevoli all'interno della molecola ripiegata. Queste includono principalmente interazioni non
covalenti (legami idrogeno, legami ionici e forze di van der Waals) e secondariamente interazioni covalenti
(ponti disolfuro). La somma di tutte queste interazioni responsabile del contributo entalpico favorevole al
folding (H < 0).

Il contributo entropico al folding complessivamente sfavorevole, ma pi complesso poich si suddivide


in due componenti che presentano effetti opposti sul folding. Il processo di ripiegamento, che comporta il
passaggio da un numero enorme di possibili conformazioni disordinate (random coil) ad un'unica struttura
ripiegata (folded), corrisponde ad una diminuzione del disordine e quindi a una diminuzione di entropia.
Questa variazione definita entropia conformazionale del ripiegamento ed responsabile di un forte
effetto destabilizzante sulla struttura nativa. In altre parole, la variazione di entropia conformazionale si
contrappone al ripiegamento (Sconf < 0 e quindi TSconf > 0). La componente entropica favorevole al
folding data dalleffetto idrofobico (Sidrof > 0 e quindi TSdrof < 0). Leffetto idrofobico associato alla
tendenza dei gruppi apolari a collassare verso linterno della proteina per evitare il contatto con lacqua.
Si tratta di un fenomeno essenzialmente di natura entropica anche se in realt presenta una componente
entalpica di cui discuteremo estesamente pi avanti.
Leffetto idrofobico e inferiore in valore assoluto alla componente entropica conformazionale e dunque non
in grado di azzerarla, ma semplicemente di diminuirne leffetto negativo sul folding, permettendo alla
componente entalpica di prevalere (anche se di poco), portando il G di folding a valori negativi. Leffetto
idrofobico, costringendo il filamento ad un rapido collasso attorno al suo nucleo apolare e riducendo in tal
modo drasticamente il numero di conformazioni proteiche da esplorare, considerato come la causa
principale (driving force) del folding proteico.

189
Il contributo entalpico, sommandosi alleffetto idrofobico, permette di superare, anche se di poco,
lentropia conformazionale, rendendo stabile lo stato nativo. La stabilit della struttura nativa bassa, solo
40 kJ/mol (Privalov e Gill, 1988) ed il prodotto di una combinazione di effetti diversi ed opposti
(idrofobicit, legami idrogeno, entropia conformazionale e altre cause). L'ampiezza di ognuno di questi
fattori (interazioni) notevole, ma essi si compensano lun laltro (Dill, 1990).

Forze che intervengono nella stabilizzazione della struttura nativa

Una proteina contiene tipicamente pochi legami salini e covalenti, diverse centinaia di legami idrogeno e
diverse migliaia di interazioni di van der Waals. Le principali forze che favoriscono il folding sono dunque le
forze di van der Waals, i legami idrogeno e leffetto idrofobico. La principale forza che si oppone
lentropia conformazionale. Come abbiamo gi detto, lo stato nativo la conseguenza di un delicato
equilibrio tra forze stabilizzanti e destabilizzanti, in cui le prime eccedono di poco le seconde
La quantificazione di ciascun contributo alla stabilit della forma nativa stato oggetto di numerosi studi
sperimentali, sui risultati dei quali non vi ancora completo accordo.

entropia conformazionale
Il processo di ripiegamento, che comporta il passaggio da un numero enorme di possibili conformazioni
disordinate (random coil) ad un'unica struttura ripiegata (folded), corrisponde ad una diminuzione del
disordine e quindi a una diminuzione di entropia. Questa variazione definita entropia conformazionale del
ripiegamento ed responsabile di un forte effetto destabilizzante sulla struttura nativa (in altre parole, la
variazione di entropia conformazionale si contrappone al ripiegamento Sconf < 0 e quindi TSconf > 0).
Lentropia di una proteina nel suo stato denaturato molto elevata a causa delle diverse conformazioni che
il filamento pu assumere grazie alla rotazione attorno ai legami semplici della catena principale e delle
catene laterali rispetto a quanto consentito alla forma nativa, i cui movimenti sono per lo pi bloccati.
Una stima teorica dellentropia conformazionale pu essere eseguita utilizzando la relazione di Boltzmann
( )
Dove R la costante universale dei gas ed il numero di conformazioni che ciascun residuo amminoacidico
pu assumere. Ipotizzando ad esempio che ciascun atomo di carbonio-alfa della catena proteica possa
ruotare rispetto ai 3 legami che lo collegano rispettivamente al suo gruppo R (angolo ) ed ai due gruppi
peptidici che lo seguono e lo precedono (angoli e ), in modo che ciascun angolo possa assumere due
valori, il numero delle possibili conformazioni = 23 = 8 e lentropia conformazionale di ogni residuo
amminoacidico allinterno di una proteina nel suo stato denaturato D
( ) ( )
Se assumiamo poi che nella forma nativa ciascun amminoacido si presenti in ununica conformazione (con
angoli , e costanti e definiti) lentropia conformazionale di ogni residuo amminoacidico allinterno di
una proteina nel suo stato nativo N
( ) ( )
La variazione di entropia conformazionale dello stato nativo rispetto allo stato denaturato sar quindi
S = SN SD = 0 4,1 = -4,1 cal mol-1 K-1 per residuo
A 25C (298 K) questo determina un valore della componente entropica conformazionale per il processo di
folding pari a
-T S = - 298 x (- 4,1) = 1,23 kcal mol-1 per residuo

190
In effetti le prime stime dellentropia conformazionale (Kauzmann 1959; Privalov 1979) si attestavano su
questi valori, ma analisi successive hanno condotto a valori pi elevati. Spolar e Record (1994) hanno
trovato 1,7 kcal mol-1 per residuo, mentre Pace (2011) ha stimato 2,4 kcal mol-1 per residuo.

Legami idrogeno
Il ruolo dei legami idrogeno nel guidare il processo di folding e nel rendere stabile la struttura nativa stato
a lungo sottostimato. Si riteneva infatti che fossero essenziali per determinare la conformazione della
proteina, ma non incidessero in modo significativo sulla sua stabilit. Nello stato denaturato i gruppi che
possono formare legami H li formano con lacqua e questi dovrebbero essere energeticamente simili a
quelli formati allinterno della proteina. Lo stato nativo deve dunque contenere circa tanti legami H
intramolecolari quanti i possibili tra la proteina denaturata e lacqua. Per questo motivo i legami H nelle
proteine erano considerati termodinamicamente neutrali. Oggi si ritiene invece che il contributo di tale tipo
di legame sia sostanziale per il fatto che ogni molecola di acqua a temperatura ambiente coinvolta in
legami idrogeno solo la met del tempo e molti di essi sono anche distorti rispetto alla geometria ottimale e
sono quindi meno stabili. Analogamente i dati cristallografici indicano che i legami idrogeno che si
instaurano tra i gruppi alla superficie delle proteine e il solvente non sono stabili (cio si rompono e si
riformano in continuazione) e sono anche variabili nella loro geometria. Al contrario, i legami idrogeno
allinterno delle proteine sono stabili e presentano una geometria generalmente molto prossima a quella
ottimale. E quindi evidente come i legami idrogeno allinterno di una proteina siano anche
energeticamente molto pi favorevoli di quelli tra proteina e solvente. Recenti studi hanno evidenziato che
i legami idrogeno contribuirebbero a stabilizzare la struttura terziaria di una quantit stimata in -1.5 1.0
kcal/mol per legame (Pace 2012) e, essendoci circa 0,7 legami idrogeno per residuo, il contributo entalpico
alla stabilit della struttura nativa sarebbe di circa -1,1 kcal mol-1 per residuo amminoacidico.

Effetto idrofobico e forze di van der Waals


Pace (2011) ha trovato che il contributo delleffetto idrofobico alla stabilit della struttura nativa sempre
superiore a quello dei legami idrogeno, incidendo mediamente per il 60% alla stabilit proteica con un
apporto di -1,4 kcal mol-1 per residuo. Leffetto sembra tuttavia essere minore (ma sempre superiore al
50%) per le piccole proteine e superiore per le proteine pi grandi in cui il rapporto superficie/volume
diminuisce (e quindi in proporzione maggiore la quantit di residui che viene seppellita nel core proteico).

La descrizione classica delleffetto idrofobico lo ricollega essenzialmente a fenomeni di tipo puramente


entropico, tuttavia oggi si ritiene che circa il 50% delleffetto idrofobico sia imputabile ad una componente
stabilizzante di tipo entalpico dovuta ad interazioni di van der Waals. In questa prospettiva dovremmo
assegnare alleffetto idrofobico puro (componente entropica) un contributo di circa -0,7 kcal mol-1 per
residuo ed alle interazioni di van der waals un contributo di circa -0,7 kcal mol-1 per residuo.

Si noti che in questo modo, sommando il contributo dei legami idrogeno a quello delleffetto idrofobico, le
componenti che stabilizzano la struttura nativa arrivano a -2,5 kcal mol-1 per residuo contro leffetto
destabilizzante dellentropia conformazionale stimato (Pace 2011) a 2,4 kcal mol-1 per residuo, portando in
tal modo il G di folding a valori estremamente piccoli, dellordine di -0,1 kcal mol-1 per residuo

L'effetto idrofobico considerato il pi importante elemento nella stabilizzazione delle strutture proteiche
ed anche la principale forza-guida del folding.

191
Leffetto idrofobico fa s che sostanze non polari minimizzino il loro contatto con lacqua. Le interazioni fra
acqua e superfici non polari non sono infatti favorevoli. Proprio come lolio disperso nellacqua tende a
raccogliersi in ununica goccia, cos i residui con catene laterali idrofobiche tendono ad aggregarsi e si
ripiegano verso linterno della proteina, per ridurre la superficie apolare a contatto con lacqua, lasciando
esposti al solvente i residui polari posti sulla superficie proteica.

Leffetto idrofobico, costringendo il filamento ad un rapido collasso attorno al suo nucleo apolare e
riducendo in tal modo drasticamente il numero di conformazioni proteiche da esplorare, considerato
come la causa principale (driving force) del folding proteico.

Per effetto idrofobico si intende dunque il processo associato al trasferimento di una superficie apolare
(quale pu essere una catena laterale di un residuo idrofobico) dall'interno della proteina ad un solvente
acquoso. Come tale esso include, come vedremo, non solo il contributo energetico associato alla
ristrutturazione delle molecole d'acqua intorno ai residui apolari esposti al solvente, ma anche la variazione
in interazioni di van der Waals tra i gruppi apolari durante il trasferimento.
I dati sperimentali hanno evidenziato una correlazione tra l'effetto idrofobico e la quantit di superficie
apolare che viene sottratta al solvente e seppellita allinterno della proteina. Questa quantit a sua volta
determinata dal numero di idrogeni apolari (idrogeno legato ad un atomo di carbonio CH) sottratto al
contatto con lacqua.

J. Kyte (2002), ad esempio, ha stimato lapporto energetico delleffetto idrofobico valutando una
diminuzione di energia libera pari 2,8 kJmol-1 per ogni legame C-H sepolto allinterno del core idrofobico.
Pace et al. (2011) hanno trovato una diminuzione media di energia libera pari 1,1 0,5 kcalmol-1 per ogni
gruppo CH2 sepolto allinterno del core idrofobico, con valori pi bassi (0,6 0,3 kcalmol-1 per ogni gruppo
CH2 sepolto) per le proteine a basso peso molecolare e valori pi alti (1,6 0,3 kcalmol-1 per ogni gruppo
CH2 sepolto) per le proteine ad alto peso molecolare. Pace ha inoltre valutato che leffetto idrofobico
stabilizzi mediamente una proteina per 1,4 0,2 kcal/mol per residuo, con valori pi bassi (1,0 kcalmol-1
per residuo) per le proteine a basso peso molecolare e valori pi alti (1,7 kcalmol-1 per residuo) per le
proteine ad alto peso molecolare.

Leffetto idrofobico non prodotto, come talvolta erroneamente viene affermato, da repulsioni tra lacqua
e le molecole apolari. Al contrario, i contributi entalpici, associati alle interazioni di van der Waals tra acqua
e molecole apolari, sono leggermente favorevoli (H < 0) a tutte le temperature. Il contributo
predominante e decisivo invece quello entropico dovuto alla strutturazione delle molecole di solvente in
clusters ordinati, piuttosto che a inesistenti interazioni idrofobiche repulsive. Quando una sostanza apolare
viene posta in acqua essa interferisce infatti con la rete di legami idrogeno che lega tra loro le molecole
dacqua, modificandone il contenuto entropico. Per comprendere leffetto idrofobico dunque necessario
innanzi tutto descrivere il comportamento dellacqua liquida.

Le molecole dacqua allo stato liquido formano dinamicamente un alto numero di legami idrogeno che si
formano e si spezzano in continuazione.
Il tempo medio di vita di un legame idrogeno tra due molecole dacqua 9.5 ps (picosecondi, 1 ps =10-12 s).
Ogni 10 ps la molecola si muove e si riorienta ed interagisce con nuovi vicini.

192
Lacqua una molecola tetraedrica, con latomo di Ossigeno ibridato sp3. Se poniamo al centro di un ideale
tetraedro latomo di ossigeno, ai 4 vertici troviamo i due atomi di idrogeno e due doppietti elettronici
solitari.

Ogni molecola dacqua pu formare 4 legami idrogeno, due come donatore (usando gli atomi di idrogeno) e
due come donatore (usando i doppietti solitari). Si forma un cluster tetraedrico in cui una molecola dacqua
ne coordina 4 attorno a s.

Il cluster tetraedrico lelemento di base per la formazione di aggregati (cluster) pi estesi. Tra le
conformazioni pi stabili vi sono i cluster esagonali, che presentano la medesima conformazione che le
molecole assumono in fase solida (ghiaccio dacqua), ed i cluster pentagonali.

193
Nellacqua liquida stata inoltre confermata la presenza anche di cluster transienti con complessit molto
elevate.

Nel liquido esiste un equilibrio tra molecole libere di ruotare nella fase liquida (rotameri liberi o bulk water)
e molecole di H2O strutturate in cluster stabilizzati da legami idrogeno.
nH2O (H2O)n
I cluster dacqua rappresentano strutture ordinate (a bassa entropia) ed a densit minore, paragonabile a
quella del ghiaccio (strutture ice-like cio simili al ghiaccio). Nel ghiaccio le molecole si dispongono
secondo un reticolo poliedrico, tale da saturare tutti i possibili legami idrogeno, e in questa situazione si
allontanano l'una dall'altra e l'affollamento molecolare minore che non allo stato liquido disordinato.
Questi aggregati liquidi, detti anche flickering cluster, hanno una vita media di 1010 - 1011 secondi e, pur
presentando la geometria cristallina del ghiaccio, si differenziano da esso oltre che per la loro maggiore
instabilit rispetto al ghiaccio (dove la struttura cristallina permanente), anche perch possono ospitare al
loro interno singole molecole di acqua, non coinvolte con legami idrogeno nel reticolo cristallino.

Lacqua liquida non legata in cluster rappresenta invece una struttura disordinata (ad elevata entropia) ed a
densit maggiore. A 20C lacqua monomerica rappresenta circa il 30% del totale e questa proporzione,
come intuibile, aumenta allaumentare della temperatura.

La formazione di legami idrogeno tra molecole dacqua un processo cooperativo: ciascun nuovo legame
idrogeno che si aggiunge ad uno precedentemente formatosi, lo rinforza. Ci favorisce la formazione di
strutture a cluster, dove i legami idrogeno sono in numero maggiore e pi forti di quanto non accada tra le
molecole dacqua libere (bulk water)

194
Nellimmagine precedente rappresentata la funzione di distribuzione radiale, che indica la probabilit di
trovare una molecola dacqua ad una certa distanza da unaltra., dove la distanza espressa in termini del
diametro di van der Waals della molecola. possibile osservare la presenza di un picco per ogni multiplo
del diametro, ad intensit decrescente. Il grafico indica che ogni molecola di acqua ha un ordine elevato
determinato dalla presenza di altre molecole di acqua in prima sfera di coordinazione e che questo ordine
va attenuandosi allontanandosi dalla molecola. La presenza di molecole ordinate in prima sfera ma anche in
seconda e parzialmente in terza sfera, denota la capacit dellacqua di creare un network di legami
idrogeno in soluzione, sebbene non cos perfetto e definito come nel caso del ghiaccio.

In definitiva le molecole dacqua possono presentarsi in modo pi o meno ordinato (con diverso contenuto
entropico) e le molecole apolari interferiscono con la struttura dellacqua, modificando lentropia del
sistema.
Quando molecole non polari entrano in acqua, si rompono dei legami idrogeno acqua-acqua per creare una
cavit per le molecole di soluto (fenomeno di cavitazione). Ogni molecola di soluto viene intrappolata in
una struttura a gabbia tipo ghiaccio, formata da molecole dacqua molto ordinate, tenute insieme da
legami idrogeno.
Il complesso che si forma, con la molecola apolare al centro, circondata dalla gabbia di molecole dacqua a
bassa densit ed in forma per cos dire cristallina, chiamato clatrato idrato, dalla parola greca clatron =
gabbia.

Clatrato idrato dodecaedrico


contenente una molecola di metano

Poich il numero di modi con cui le molecole dacqua formano legami idrogeno sulla superficie di un
gruppo non polare inferiore a quello che farebbero in sua assenza si ha una diminuzione di entropia del
sistema (le molecole dacqua che costituiscono il clatrato non riescono a fare quattro legami idrogeno) . In
altre parole, le molecole dacqua intorno alla molecola di idrocarburo sono pi ordinate che in acqua pura e
la formazione di clatrati quindi un processo dispendioso dal punto di vista entropico.

195
I clatrati sono infatti molto pi rigidi e stabili dei flickering cluster. Nei cluster dacqua, a differenza di
quanto accade nei clatrati, una molecola dacqua che sia racchiusa allinterno della struttura cristallina
senza formare con essa legami idrogeno, potr in un momento successivo instaurare tali legami, spostando
dalla struttura cristallina unaltra molecola dacqua. Ci evidentemente impossibile nei clatrati, dato che
le molecole apolari ospitate sono incapaci di formare legami idrogeno, ed proprio questo che giustifica la
maggiore stabilit dei clatrati stessi. Questo significa in pratica che la presenza di molecole apolari in acqua
stabilizza notevolmente i legami idrogeno tra le molecole acquose, un fenomeno che fra laltro ha
unevidente riscontro nel fatto che la temperatura di fusione dellacqua si eleva di parecchi gradi quando in
essa vengano disciolte piccole quantit di un idrocarburo di piccole dimensioni.

La riduzione di densit e laumento di capacit termica conseguente allintroduzione di sostanze apolari in


acqua unulteriore conferma che linterazione di molecole polari con lacqua sposta lequilibrio di
questultima verso la formazione di acqua strutturata e stabilizzata da legami idrogeno (clatrati).

Per verificare se leffetto idrofobico guida il folding delle proteine si studia la termodinamica di processi di
dissoluzione di piccole molecole idrofobiche, come gli idrocarburi a basso peso molecolare in acqua e si
vede se i parametri termodinamici associati a questi processi sono simili a quelli associati alla stabilit delle
proteine.

Il primo ad utilizzare un modello di questo tipo fu Kauzmann (1959), il quale intu che la variazione di
energia libera associata alla sepoltura (burying) allinterno della struttura nativa di una catena laterale
apolare poteva essere stimata tramite esperimenti in cui una molecola apolare viene disciolta in acqua.
Cos, ad esempio, la variazione di energia libera G necessaria per disciogliere il toluene in acqua fornisce
una stima della variazione di energia libera (ovviamente cambiata di segno) associata al seppellimento
della catena laterale della fenilalanina allinterno di una proteina ripiegata.
Il valore di G per la dissoluzione del toluene in acqua a 25C 22,8 kJ/mol, calcolabile attraverso la
relazione
G = RT ln

dove la solubilit del toluene in acqua espressa come frazione molare.

Kauzmann giunse a stimare una variazione di energia libera compresa nellintervallo tra -8 e -25 kj/mol per
catena laterale apolare sepolta nel core proteico.

Nel 1962 Tanford esegu una prima pionieristica stima delleffetto idrofobico determinando il G di
trasferimento da etanolo ad acqua di alcani ed amminoacidi. Il G di un tale trasferimento si correla alla
Keq del fenomeno secondo la relazione
G = RT ln Keq

Si noti tuttavia che, data la natura dellevento considerato, la Keq uguale al rapporto delle solubilit nei
due solventi della molecola trasferita. Si tratta quindi in realt di un coefficiente di ripartizione.

[ ]
[ ]

196
G trasf. Etanolo Acqua
(Tanford 1962)
1
molecola (kcal mol )
Glicina -4,63
Alanina -3,90
Valina -2,94
Leucina -2,21
Isoleucina -1,69
Fenilalanina -1,98
Prolina -2,06

Metano +2,26
Etano +3,02
Differenze
Etano - Metano 3,02 - 2,26 = 0,76
Alanina - Glicina -3,90 - (-4,63) = 0,73
Leucina - Valina -2,21 - (-2,94) = 0,73

Tanford valut inoltre che leffetto idrofobico di un gruppo CH2 sia pari a circa 0,75 kcal/mol. La differenza
di energia libera di trasferimento tra etano ed etano (3,02 2,26 = 0,76 kcal/mol) poteva infatti essere
inputata alleffetto di un gruppo CH2 che letano possiede in pi rispetto al metano. In modo analogo,
anche Alanina/Glicina e Leucina/Valina presentano catene laterali che differiscono per un gruppo CH2 il
quale produce in questo caso di una differenza di 0,73 kcal/mol.

Agli inizi del 1970 una seconda serie di esperimenti (R.B.Hermann 1972 C.Chothia 1974) portarono ad una
pi precisa quantificazione delleffetto idrofobico, dimostrando una proporzionalit tra la variazione di
energia libera ad esso associato e la superficie dellarea del soluto apolare sottratto al contatto con lacqua.

Consideriamo, ad esempio, il caso semplice del trasferimento a 25C ed 1 atm del metano (molecola
apolare) da un solvente apolare come leptano allacqua. Il solvente idrocarburico (eptano) simula la
polarit esistente allinterno di una proteina, mentre il metano simula il comportamento dei residui
amminoacidici idrofobi. Come abbiamo appena visto il G di un tale trasferimento si correla alla K eq del
fenomeno secondo la relazione
G = RT ln Keq

e la Keq in realt un coefficiente di ripartizione uguale al rapporto delle solubilit nei due solventi della
molecola trasferita (il metano).

[ ]
[ ]

Il G presenta un valore positivo (3,15 kcal/mol) che sta appunto ad indicare una Keq decisamente minore
di 1 (Keq = 4,9 10-3) e quindi la scarsa solubilit in acqua del metano. Il metano (apolare) si ripartisce tra
acqua ed eptanolo in rapporto di circa 5 a 1000.

197
Parametri termodinamici per il trasferimento di 1 mole di idrocarburo da eptano ad acqua
soluto H (kcalmol-1) S (calmol-1K-1) G (kcalmol-1)
Metano CH4 -2,21 -18,0 3,15
Etano C2H6 -2,06 -19,5 3,75
Propano C3H8 -1,70 -22,0 4,86
Butano C4H10 -0,80 -22,9 6,02

Tuttavia possiamo osservare come il valore positivo di G determinato dai contributi, entrambi negativi,
di H (-2,21 kcalmol-1) e S (-18 calmol-1K-1). Anche se, da un punto di vista entalpico, il sistema clatrato
pi stabile (H < 0), globalmente la variazione di energia libera positiva (G = H TS > 0) a causa di
una variazione di entropia (S < 0) fortemente negativa (per cui il termine TS diventa positivo e supera
in valore assoluto il termine H) ed il processo non spontaneo.

Il valore negativo dei due parametri termodinamici in sostanza dovuto al fatto che, nel trasferimento da
eptano ad acqua, la molecola di metano causa un riordinamento delle molecole di acqua attorno a s con
conseguente formazione di clatrati. Questo accade perch, come gi accennato, la molecola apolare non
pu coinvolgersi nei legami idrogeno. Ma il risultato di questo fenomeno appunto un aumento del
numero dei legami idrogeno delle molecole dacqua attorno al metano. Il processo di cavitazione con
formazione del clatrato attorno alla molecola apolare, trasforma acqua disordinata e ad alta densit (le cui
molecole presentano legami idrogeno pi deboli e meno numerosi) in acqua ordinata (ice-like) ed a bassa
densit (le cui molecole presentano legami idrogeno pi forti e pi numerosi). Il bilancio netto entalpico (al
quale si aggiunge un apporto dovuto alle interazioni di van der Waals acqua/metano e metano/metano)
favorevole al processo di dissoluzione, liberando evidentemente una certa quantit di energia, e ci
giustifica il H negativo.
Tuttavia diminuisce drasticamente anche il numero di gradi di libert del sistema (lacqua diventa nel
complesso pi rigida e cristallina) e questo si traduce in un S negativo. Alla temperatura ambiente (25C)
il termine -T S = -298 x (-18) = 5366 calmol-1 = 5,37 kcalmol-1 prevale quindi sul termine entalpico H,
producendo un G positivo.

Come si pu osservare dai dati riportati nella tabella precedente il G aumenta quando si passa dal
metano ad idrocarburi via via pi lunghi ed ingombranti, i quali producono ovviamente nellacqua delle
cavit, e quindi dei clatrati, di dimensioni maggiori.

La crescita del G prodotta principalmente dalla diminuzione di entropia causata dallaumento della
superficie della gabbia di molecole dacqua ordinate a formare il clatrato e solo in parte dalla diminuzione
del termine entalpico, dovuta al fatto che, allaumentare delle dimensioni del clatrato, il rapporto tra
superficie e volume diminuisce (la superficie cresce secondo la seconda potenza delle dimensioni, mentre il
volume cresce secondo la terza potenza delle dimensioni) e diminuisce quindi di conseguenza il rapporto
tra il numero di legami idrogeno che si formano sulla superficie del clatrato e quelli che si rompono tra le
molecole dacqua disordinate che il clatrato va a sostituire.

Lanalisi dei dati termodinamici relativi al trasferimento di idrocarburi da solventi apolari ad acqua ha
permesso di evidenziare una proporzionalit tra laumento dellenergia libera G e larea superficiale della
cavit creata dal soluto apolare nella soluzione acquosa, di circa 20-25 cal/mol per 2. In altre parole, si
calcola che per ogni 2 di superficie di idrocarburo rimosso dal contatto con lacqua vi sia un guadagno di
energia libera di 20-25 calmol-1.

198
G di trasferimento di n-alcani dallo stato di vapore ad acqua *
n atomi Carbonio ASA (2) G (kcal/mol)
1 130 2,63
2 163 3,34
3 194 4,07
4 224 4,89
5 252 5,57
6 282 6,29
7 311 6,90
8 340 7,70
9 369 8,38
10 399 9,10

* K.A.Sharp et al. Extracting Hydrophobic Free Energies from Experimental Data: Relationship to Protein Folding and Theoretical
Models (1991)

Riportando I dati della tabella precedente su di un grafico si ottiene una retta di pendenza 24 cal/(mol2)

In presenza di molte molecole di idrocarburo si formerebbero altrettante gabbie ordinate di molecole


dacqua, con un aumento dellordine del sistema ed una conseguente diminuzione di entropia, processo
che naturalmente sfavorito. Per minimizzare questo aumento di ordine, le molecole di idrocarburo,
ciascuna circondata dalla propria gabbia dacqua, si aggregano (effetto idrofobico), sfruttando le interazioni
di Van der Waals debolmente attrattive. Se, per semplicit, si considerano solo due molecole non polari in
soluzione acquosa, linterazione idrofobica porta allaggregazione delle due molecole in ununica cavit.

199
La diminuzione di entropia dovuta alla dimerizzazione, con conseguente perdita di gradi di libert
traslazionali e rotazionali, pi che compensata dal guadagno entropico assicurato dalla formazione di un
minor numero di cluster, aventi complessivamente una minor superficie ordinata e dal rilascio di molecole
dacqua nella massa del liquido (bulk).

Quando il numero di molecole diventa elevato, gli aggregati formano una seconda fase, causando la quasi
totale immiscibilit dellidrocarburo in acqua.

Inizialmente si pensava che il contributo energetico predominante nel determinare leffetto idrofobico
fosse dunque di gran lunga il termine entropico, mentre le interazioni vere e proprie, legate a contributi di
tipo entalpico (forze di van der Waals), fossero relativamente poco importanti. Attualmente si ritiene che le
forze di van der Waals contribuiscano per circa il 50% alleffetto idrofobico.

Una conferma della natura entropica del processo si ha dallaumento di solubilit che le molecole apolari
manifestano a basse temperature. Se infatti T diminuisce, il termine TS diventa pi piccolo e, pur
rimanendo positivo, diventa inferiore, in valore assoluto, al termine entalpico. Di conseguenza anche
leffetto idrofobico diminuisce al diminuire della temperatura.

200
Questa rappresenta dunque anche lenergetica che porta i residui amminoacidici apolari a collassare per
dar luogo ad una struttura globulare allinterno della quale si crea un intorno fortemente idrofobico. Nel
caso del folding proteico, si formano tasche idrofobiche prive di molecole dacqua che, nella forma proteica
unfolded, erano coinvolte nella formazione dei clatrati attorno alle catene laterali degli aminoacidi
idrofobici. Leffetto idrofobico pu dunque essere descritto come un rilascio, entropicamente favorevole, di
molecole dacqua strutturate attorno a gruppi idrofobici esposti, a causa della loro aggregazione nel core
proteico.

Unulteriore conferma che il folding proteico guidato dalleffetto idrofobico e decorre parallelamente ad
un aumento di entropia del sistema acquoso fornito dalla diminuzione di capacit termica a pressione
costante che la soluzione contenente la proteina nativa manifesta rispetto alla soluzione contenente la
proteina denaturata.

Questo fenomeno si pu facilmente interpretare ricordando quanto abbiamo finora detto sulla struttura
dellacqua e sulleffetto idrofobico. Una proteina denaturata esporr al solvente residui apolari e quindi
costringer le molecole di solvente a formare pi legami idrogeno tra di loro di quanti non ve ne siano in
presenza della stessa proteina allo stato nativo. Pertanto sar necessario fornire pi calore a una soluzione
di proteina denaturata che non a una di proteina nativa per ottenere gli stessi incrementi di temperatura.
Infatti nel primo caso ci saranno pi legami idrogeno nel solvente e quindi una quantit maggiore di calore
sar utilizzata nella loro rottura e non sar cos disponibile per aumentare lenergia cinetica delle molecole
(temperatura).

Per valutare lentit delleffetto idrofobico sul processo di folding proteico possibile calcolare larea di
superficie non polare che il folding seppellisce nel cuore della struttura nativa. Come abbiamo visto, si
considera poi una diminuzione di energia libera pari a 0.020-0.025 kcalmol-1-2 di superficie idrofobica
seppellita.

Per far ci necessario confrontare larea accessibile al solvente ASA (accessible surface area) delle catene
laterali idrofobiche, con larea accessibile al solvente della proteina nativa.

La superficie proteica definita dallinsieme dei punti degli atomi esterni, ciascuno descritto come una
sfera rigida avente come raggio il raggio di van der Waals (superficie di van der Waals). Le molecole dacqua
sono considerate sfere con raggio di van der Waals pari a 1.4 .
La superficie accessibile al solvente (ASA) definita come larea descritta dal centro di una molecola
dacqua che rotola sopra la superficie di van der Waals della proteina (o della catena laterale).

201
La superficie accessibile al solvente non corrisponde a quella di van der Waals della proteina. Esistono
infatti zone della proteina o della catena laterale (per esempio le fenditure) non accessibili alla molecola
dacqua usata come sonda.

La superficie accessibile al solvente calcolabile tramite un algoritmo messo a punto da Lee e Richards
(1971). Sono state tuttavia trovate diverse relazioni empiriche tra massa proteica (in unit di massa
atomica) ed ASA (in 2).
detta
AN = ASA della proteina nella forma nativa (N)
AU = ASA della proteina nella forma unfolded (U)
AB = ASA sepolta (buried) nel core della proteina in forma nativa = AU - AN
F = frazione di ASA sepolta = AB/AU

Nel 1975 Chothia propose le seguenti relazioni empiriche


AU = 1,444 M
F = 0,595 + 0,536 M 10-5
AB = AUF =1,444 M (0,595 + 0,536 M 10-5) = 0,859 M + 0,774 M2 10-5

Tutte le relazioni in cui compare la massa proteica M possono essere espresse in funzione del numero di
amminoacidi n, considerando che M n maa (con maa = 111 Da = massa media ponderata di un
amminoacido)

Janin (1976) e Teller (1976) notarono che la superficie di una proteina globulare nella sua forma nativa
dovrebbe essere proporzionale alla potenza 2/3 della sua massa AN = k M2/3.
La superficie S di un corpo infatti proporzionale alla seconda potenza delle sue dimensioni D (S D2) e
dunque D S1/2
Il volume V di un corpo invece direttamente proporzionale alla terza potenza delle sue dimensioni (V
D3), ma anche proporzionale alla sua massa M (V = M, con = densit). E dunque anche la massa M
proporzionale alla terza potenza delle dimensioni (M D3). Ricordando che D S1/2 e sostituendo in M
D3, si ottiene M S3/2 e quindi S M2/3
Miller, Chothia et al. (1987), per un campione di 46 proteine monomeriche con massa compresa tra 4000
Da e 35.000 Da, hanno trovato che per tale relazione il valore del coefficiente di proporzionalit vale 11,4
AN = 11,4 M2/3

202
Tuttavia gli stessi autori, considerando che la superficie accessibile al solvente (ASA) pi estesa della
superficie proteica, hanno trovato un valore sperimentale dellesponente leggermente superiore a 2/3 =
0,67. Le formule empiriche proposte sono
AN = 6,3 M0,73
AU = 1,48 M + 21
Miller, Chothia et al. (1987) hanno inoltre trovato che la superficie della proteina nativa mediamente
occupata per il 57% da residui non polari, per il 24% da residui polari e per il 19% da residui carichi, mentre
lASA sepolta presenta il 58% di superficie non polare, il 39% polare ed il 4% carica.

Ad esempio, tenendo conto che la massa media ponderata di un amminoacido di circa 111 Da, la
superficie sepolta per una proteina formata da 35 residui, con massa pari a M = 35 x 111 = 2885 Da, sar
AB = AU - AN = 1,48 M + 21 - 6,3 M0,73 = 3.143 2
Con una superficie sepolta per residuo pari 3143/35 = 90 2/residuo ed una superficie sepolta non polare
pari a 90 x 0,58 = 52 2/residuo. Leffetto idrofobico, considerando un guadagno di 0,025 kcal/ 2 sar pari a
52 2/residuo x 0,025 kcal/ 2 = 1,3 kcal/residuo

Per una proteina formata da 600 residui, con massa pari a M = 600 x 111 = 66600 Da, la superficie sepolta
sar
AB = AU - AN = 1,48 M + 21 - 6,3 M0,73 = 77.673 2
Con una superficie sepolta per residuo pari 3143/35 = 129,5 2/residuo ed una superficie sepolta non
polare pari a 129,5 x 0,58 = 75 2/residuo. Leffetto idrofobico, considerando un guadagno di 0,025 kcal/ 2
sar pari a 75 2/residuo x 0,025 kcal/ 2 = 1,9 kcal/residuo

Come aveva gi sottolineato Janin (1979), la superficie sepolta per residuo aumenta allaumentare della
massa della proteina (e con essa lincidenza delleffetto idrofobico), come conseguenza del fatto che,
allaumentare della massa (e quindi delle dimensioni), diminuisce il rapporto Superficie/Volume. In
proporzione diventa dunque sempre pi elevata la frazione di superficie che la proteina seppellisce nel suo
interno.

Se infatti consideriamo la relazione AN = k M2/3 e la dividiamo per il numero medio di amminoacidi


contenuti in una proteina pari a M/maa (con maa = massa media degli amminoacidi), otteniamo larea
superficiale (ASA) per residuo, che risulta essere inversamente proporzionale alla radice cubica della massa
M.
M 2/3
AN/res = k M 1/ 3
M / maa
Ovviamente, se la superficie esterna per residuo diminuisce allaumentare della massa, la superficie
seppellita per residuo aumenta in proporzione.

La stima dellASA di una proteina nel suo stato denaturato un punto particolarmente delicato, poich di
difficile valutazione e da essa dipende il calcolo della superficie sepolta.
Si tenga infatti presente che, mentre relativamente semplice misurare lASA delle proteine in struttura
nativa, non possibile misurare LASA delle proteine nel loro stato denaturato. Per questo motivo, mentre
le relazioni empiriche che forniscono AN possono considerarsi sufficientemente attendibili, quelle che
forniscono AU sono ottenute sommando lASA dei diversi amminoacidi misurata per ciascun amminoacido X

203
ospitato in un tripeptide Gly-X-Gly (o Ala-X-Ala) in conformazione estesa. Lattendibilit di tali stime per il
calcolo di AU sono tuttavia oggetto di dibattito.

ASA Amminoacidi in tripeptidi Gly-X-Gly o Ala-X-Ala


1 2 3 4 5 6 7 8
Alanine Ala 124 115 118,1 113 111,6 111 116,40 102,68
Arginine Arg 244 225 256,0 241 231,4 252 249,26 235,45
Asparagine Asn 161 160 165,5 158 151,2 167 168,87 155,22
Aspartic Acid Asp 154 150 158,7 151 154,7 161 155,37 141,61
Cysteine Cys 94 135 146,1 140 136,9 157 141,48 127,72
Glutamine Gln 190 180 193,2 189 183,2 197 189,17 175,42
Glutamic Acid Glu 187 190 186,2 183 179,7 190 187,16 173,46
Glycine Gly 89 76 88,1 85 75,6 85 83,91 70,27
Histidine His 201 195 202,5 194 187,2 190 198,51 184,79
Isoleucine Ile 194 175 181,0 182 188,4 172 189,95 176,22
Leucine Leu 198 170 193,1 180 192,2 179 197,99 184,33
Lysine Lys 214 200 225,8 211 209,9 215 207,49 196,87
Methionine Met 215 185 203,4 204 196,6 201 210,55 209,64
Phenylalanine Phe 221 210 222,8 218 210,6 207 223,29 126,78
Proline Pro 150 145 146,8 143 146,2 136 144,80 111,97
Serine Ser 126 115 129,8 122 123,2 125 125,68 134,28
Threonine Thr 152 140 152,5 146 145,8 144 148,06 251,78
Tryptophan Trp 265 255 266,3 259 242,1 250 265,42 224,68
Tyrosine Tyr 236 230 236,8 229 218,0 226 238,30 148,51
Valine Val 169 155 164,5 160 164,8 148 162,24 102,68
9
Media ponderata 172 161 172,8 166 164,9 166 171,1 156,1
1 Shrake-Rupley 1973 (Gly-X-Gly) 2 Chothia 1975 (Gly-X-Gly) 3 Rose et al. 1985 (Gly-X-Gly) 4 Miller et al. 1987 (Gly-X-Gly)
5 Zielenkiewicz Saenger 1992 (Ala-X-Ala) 6 Creighton 1993 (Gly-X-Gly) 7 Samanta 2002 (Gly-X-Gly) 8 Samanta 2002 (Ala-X-Ala)
9 ASA media, ponderata con le frequenze con cui gli amminoacidi compaiono nelle proteine

A partire dalle stime effettuate da autori diversi e presentate nella tabella precedente si pu osservare che
lASA media di un amminoacido misurata in un tripeptide compresa in un intervallo che va da 156 2 a
173 2. LASA di una proteina in stato denaturato dovrebbe pertanto essere stimabile a partire dal numero
n dei suoi amminoacidi ed essere compresa tra AU(min) = 156n e AU(max) = 172n
E sostituendo il numero n di amminoacidi con M / maa (con maa = 111Da = massa media di un
amminoacido) si ottiene che AU compresa tra AU(min) = 1,41 M e AU(max) = 1,56 M, estremi allinterno dei
quali cadono le relazioni empiriche proposte da Chothia (AU = 1,44 M) e Miller (AU = 1,48 M + 21).

Tuttavia LASA di un amminoacido contenuto in un filamento esteso pu essere molto diversa in relazione
allingombro prodotto dagli amminoacidi che lo affiancano. Per ottenere misure pi attendibili sono stati
utilizzati peptidi pi complessi. Ad esempio Wimley et al. (1996) hanno usato pentapeptidi Trp-Leu-X-Leu-
Leu e Gly-Gly-X-Gly-Gly.
Studi successivi (Creamer et al. 1997; Bernad et al. 2006) sembrano indicare che lutilizzo di piccoli peptidi
porti a sovrastimare lASA degli amminoacidi rispetto a quella che essi manifestano in una proteina
denaturata.

204
Creamer et al 1997 Bernad et al 2006
Alanine Ala 83,0 73,1
Arginine Arg 196,2 178,6
Asparagine Asn 115,2 109,1
Aspartic Acid Asp 113,0 102,0
Cysteine Cys 99,3 88,3
Glutamine Gln 142,2 125,6
Glutamic Acid Glu 139,1 125,9
Glycine Gly 65,2 54,2
Histidine His 135,7 129,3
Isoleucine Ile 137,1 122,2
Leucine Leu 132,3 131,5
Lysine Lys 176,7 149,8
Methionine Met 147,7 133,6
Phenylalanine Phe 153,6 146,1
Proline Pro 109,5 100,0
Serine Ser 95,9 75,8
Threonine Thr 108,3 93,2
Tryptophan Trp 180,1 173,0
Tyrosine Tyr 167,3 156,8
Valine Val 116,8 102,0
Media pond. 125 115

Bernad (2006) ha trovato una relazione empirica tra ASA totale, ASA polare, ASA apolare di una proteina
denaturata ed il suo numero di amminoacidi n.
AU(tot) =1740 + 107,8 n
AU(ap) =715,2 + 70,6 n
AU(pol) =1025 + 37,2 n

Secondo tali stime lASA media di un amminoacido allinterno di una proteina denaturata diminuirebbe da
valori intorno ai 160 2 per piccole proteine fino a valori intorno ai 110 2 per proteine di grandi
dimensioni. Inoltre LASA apolare di una proteina denaturata crescerebbe con il numero di amminoacidi da
valori minimi del 60% verso valori del 65% per proteine di grandi dimensioni.

Oltre alle stime dellASA totale dei singoli amminoacidi di una proteina denaturata, sono particolarmente
importanti le stime della loro ASA apolare, in quanto si ritiene che leffetto idrofobico sia proporzionale a
questultima.

205
ASA apolare
Wimley et Wimley et Miller Lesser e Creighton Bernad et
X al (1996) al (1996) (1987) Rose (1990) (1993) al (2006)
AcWL-X-LL AcGG-X-GG G-X-G G-X-G G-X-G
Ala 67,2 80,0 67 86 66 55,0
Arg 71,1 85,3 89 89 65 64,4
Asn 31,0 37,8 44 42 27 30,0
Asp 32,6 39,8 48 45 30 35,0
Cys 92,9 108,4 35 48 119 72,0
Gln 50,6 61,9 53 66 45 46,5
Glu 52,4 64,0 61 69 49 49,9
Gly 37,4 43,3 37 47 29 32,1
His 100,6 116,5 102 129 79 73,8
Ile 133,0 158,1 140 155 137 107,0
Leu 137,0 159,3 137 164 140 114,3
Lys 98,6 116,0 119 122 101 91,7
Met 145,2 166,9 117 137 163 116,6
Phe 164,1 187,0 175 194 170 129,8
Pro 98,7 119,8 105 124 103 86,6
Ser 43,4 51,7 44 56 36 41,9
Thr 71,3 85,2 74 90 65 59,6
Trp 177,0 199,6 190 236 174 136,7
Tyr 130,6 151,8 144 154 130 106,8
Val 110,2 133,1 117 135 112 87,1
Media pond. 85,4 100,8 90,3 103,6 84.3 76,84

Una stima pi precisa delleffetto idrofobico pu essere fatta misurando il G di trasferimento di ciascun
aminoacido dallacqua ad un solvente organico (per esempio etanolo, diossano, ottanolo o cicloesano) che
simula il core proteico idrofobico. I valori cos ottenuti permettono di valutare la propensione di ciascun
amminoacido a trovarsi nel coro idrofobico della proteina e vanno a costituire una scala idrofobica.

Nel 1971 Tanford e Nozaki pubblicarono la prima scala di idrofobicit per alcuni amminoacidi, usando
diversi solventi organici (etanolo e diossano) per simulare linterno idrofobico della proteina.

scala di idrofobicit (Tanford e Nozaki - 1971)


Etanolo/diossanoAcqua
Amminoacido 1
(cal mol )
Triptofano 3400
Fenilalanina 2500
Tirosina 2300
Leucina 1800
Valina 1500
Metionina 1300
Alanina 500
Istidina 500
Treonina 400
Serina -300

206
Nel 1974 Chothia, dopo aver misurato la superficie accessibile al solvente (ASA) di residui X ospitati in un
tripeptide Ala-X-Ala in conformazione estesa, ha trovato una correlazione tra lASA dei residui idrofobici,
diminuita dellASA misurata per la Glicina (82 2), ed i valori della scala di Tanford.
Per i residui idrofobici Ala, Val, Leu e Phe, la retta interpolante fornisce un effetto idrofobico di 22 cal
/(mol2), mentre per i residui parzialmente idrofobici Ser, Thr e Tyr (contenenti un gruppo OH), la retta
interpolante fornisce un effetto idrofobico di 26 cal /(mol2). Le due rette sono separate sullasse delle
ascisse da circa 1 kcal (a parit di ASA i residui contenenti anche gruppi polari sono meno idrofobici di quelli
interamente apolari)

Nel 1985 Rose, dopo aver stimato la superficie accessibile al solvente (ASA) che mediamente ogni
amminoacido seppellisce allinterno di una proteina, ha trovato una correlazione tra questultima ed i valori
della scala di Tanford.

Superficie accessibile al solvente (ASA) sepolta (Rose 1985)


Amminoacido Sigla ASA totale (2) ASA sepolta (2)
Alanine Ala (A) 118,1 86,6
Arginine Arg (R) 256,0 162,2
Asparagine Asn (N) 165,5 103,3
Aspartic Acid Asp (D) 158,7 97,8
Cysteine Cys (C) 146,1 132,3
Glutamine Gln (Q) 193,2 119,2
Glutamic Acid Glu (E) 186,2 113,9
Glycine Gly (G) 88,1 62,9
Histidine His (H) 202,5 155,8
Isoleucine Ile (I) 181,0 158,0
Leucine Leu (L) 193,1 164,1
Lysine Lys (K) 225,8 115,5
Methionine Met (M) 203,4 172,9
Phenylalanine Phe (F) 222,8 194,1
Proline Pro (P) 146,8 92,9
Serine Ser (S) 129,8 85,6
Threonine Thr (T) 152,5 106,5
Tryptophan Trp (W) 266,3 224,6
Tyrosine Tyr (Y) 236,8 177,7
Valine Val (V) 164,5 141,0

207
La pendenza della retta che interpola i dati relativi a Gly Ala Val Leu Phe e Trp pari a 20,1 cal /(mol2)

Una delle scale idrofobiche pi utilizzate si deve a Fauchre e Plika (1983) che valutarono il G di
trasferimento dallottanolo allacqua della sola catena laterale dei 20 amminoacidi. Per rendere la struttura
molecolare di ciascun amminoacido pi simile a quella che esso presenta allinterno delle proteine, dove
ogni amminoacido affiancato da un gruppo peptidico (-CONH-), Fauchre e Plika trasformarono il
gruppo carbossilico in ammidico, mentre quello amminico venne acetilato, ottenendo un N-acetil
Amminoacido ammide (Ac-AA-ammide).

Per avere la misura del G di trasferimento della sola catena laterale (R), bisogna non considerare il
contributo della catena principale. Ci equivale a sottrarre dal valore di G di trasferimento di ciascun
aminoacido il G di trasferimento della Gly che viene in tal modo considerata priva di catena laterale.

208
G di trasferimento da acqua ad ottanolo
relativo alla Glicina (Fauchre e Plika 1983)
Amminoacido Sigla kcal
Tryptophan Trp (W) -3,07
Isoleucine Ile (I) -2,46
Phenylalanine Phe (F) -2,44
Leucine Leu (L) -2,30
Cysteine Cys (C) -2,10
Methionine Met (M) -1,68
Valine Val (V) -1,66
Tyrosine Tyr (Y) -1,31
Proline Pro (P) -0,98
Alanine Ala (A) -0,42
Threonine Thr (T) -0,35
Histidine His (H) -0,18
Glycine Gly (G) 0
Serine Ser (S) 0,05
Glutamine Gln (Q) 0,30
Asparagine Asn (N) 0,79
Glutamic Acid Glu (E) 0,87
Aspartic Acid Asp (D) 1,05
Lysine Lys (K) 1,35
Arginine Arg (R) 1,37

Nel 1996 Wimley et al, dopo aver misurato la superficie non polare accessibile al solvente (ASA) di residui X
ospitati in un pentapeptidi AcGG-X-GG, hanno trovato una correlazione tra lASA non polare dei residui Ala,
Val, Leu, Ile, Phe e Trp ed i valori della scala di Fauchre e Plika. La retta interpolante, tracciata rispetto alla
Valina, fornisce un effetto idrofobico di 20,9 cal /(mol2). In ascisse riportata la differenza tra lASA non
polare dellamminoacido e lASA non polare dellAlanina, in ordinata la differenza tra il G di trasferimento
misurato da Fauchre e Plika tra lamminoacido e lAlanina.

209
Sono state proposte numerose scale di idrofobicit basate sul G di trasferimento degli amminoacidi da
solvente apolare ad acqua, tuttavia esse non forniscono risultati univoci. Infatti, come ha fatto notare
Karplus (1997), il tipo di solvente utilizzato per simulare linterno idrofobico delle proteine influisce in modo
decisivo sui risultati ottenuti e, daltra parte, il core proteico presenta una struttura eterogenea che, solo in
modo molto approssimato, pu essere simulata da un particolare solvente apolare. Karplus sottolinea
inoltre come le diverse scale coincidano solamente nella classificazione degli amminoacidi strettamente
apolari (Gly Ala Val Ile Leu) con catene laterali alifatiche e come sia assurdo pretendere di misurare leffetto
idrofobico per gli altri amminoacidi.

La forte dipendenza dei G di trasferimento degli amminoacidi dal tipo di solvente apolare scelto, ha
portato allintroduzione di metodi alternativi per la misura delleffetto idrofobico basati su esperimenti di
mutagenesi. Si tratta di creare proteine mutanti tramite sostituzioni amminoacidiche e valutare le
variazioni di stabilit tra la forma originaria e quella mutante, determinando la differenza di energia libera
di denaturazione tra la forma nativa e quella mutata, per poi valutare leffetto della mutazione sulla
stabilit

Nel 1992 Eriksson et al. hanno creato diverse forme mutanti del lisozima del batteriofago T4 sostituendo in
diverse posizione del core idrofobico della proteina lamminoacido Isoleucina con lamminoacido (meno
ingombrante) Valina, al fine di creare cavit allinterno della proteina. stato quindi misurato leffetto sulla
stabilit della proteina stessa, calcolando, per ognuno di questi mutanti, il G di denaturazione, ovvero
determinando la differenza di energia libera tra la forma nativa e quella mutata, per poi valutare leffetto
della mutazione sulla stabilit. Si trovato che la destabilizzazione direttamente proporzionale allarea
della cavit creata nella proteina e la pendenza della retta che correla la variazione di G alla superficie
della cavit creata ha un valore intorno a 20 cal/(mol 2).

Studi relativi a proteine mutanti dovrebbero essere utili per stimare l'effetto dei vari fattori sulla stabilit
della proteina, ma lo stesso tipo di sostituzioni hanno dato risultati diversi. Ad esempio, nel caso di mutanti
leu -> Val, le variazioni di energia libera di denaturazione vanno da -l ,5 a -5,0 kJ / mol per cinque mutanti
di lisozima umana (Takano et al., 1995), da -2,1 a -7,5 kJ / mol per cinque mutanti di nucleasi stafiloccocica
(Shortle et al., 1990) e da -0,8 a -7,5 kJ / mol per otto barnase mutanti (Serrano et al., 1992). Ci dimostra
che l'effetto di una singola sostituzione amminoacidica sulla stabilit della proteina dipende dalla posizione
del sito di mutazione e dal suo ambiente all'interno della struttura proteica.
Inoltre, una sostituzione pu influenzare non solo il sito di mutazione ma anche altre parti della proteina
lontano dal sito, sebbene i cambiamenti strutturali non siano grandi (Takano et al., 1997a).

Unaltra scala molto usata quella proposta nel 1987 da Radzicka e Wolfenden che misurarono il G di
trasferimento di ciascun aminoacido da cicloesano allacqua e di ciascun amminoacido dallo stato di vapore
allacqua. I dati di Radzicka e Wolfenden sono corretti per tener conto della carica negativa del gruppo
carbossilico COO e di quella positiva del gruppo amminico NH3+ (effetto di ionizzazione) che falserebbero
la misura delleffetto idrofobico. Il cicloesano un solvente che, a differenza dellottanolo usato da
Fauchre e Plika, non presenta praticamente acqua disciolta al suo interno e risulta quindi decisamente pi
idrofobico.

Per gli amminoacidi alifatici (Gly Ala Val Ile Leu) la scala di Radzicka e Wolfenden presenta una elevata
correlazione con lASA della catena laterale. Usando lASA stimata da Lesser e Rose (1990) leffetto
idrofobico di 36,8 cal /(mol2), un valore decisamente superiore a quello ottenuto con altre scale.

210
Tuttavia valori elevati, intorno a 34 cal /(mol2), sono stati ottenuti anche da altri autori (Chan e Dill, 1997)
per il trasferimento di alcani da cicloesano ad acqua.

Vista lincertezza e la variabilit delle stime a disposizione Karplus (1997) propone di usare come misura
delleffetto idrofobico un valore di 25 30% cal /(mol2).

Oltre alla nuova stima delleffetto idrofobico, il lavoro di Radzicka e Wolfenden permise una stima delle
forze di van der Waals che agiscono tra gli amminoacidi strettamente impaccati nel core proteico,
misurando il G di trasferimento di ciascun aminoacido dallo stato di vapore allacqua

Infatti, poich nella fase di vapore le molecole di amminoacido non sono soggette alle forze intermolecolari
(forze di van der Waals), si pu ritenere che sottraendo i valori di A) ai valori di B) si possa ottenere una
stima del contributo delle forze di van der Waals alla stabilit della struttura nativa per ciascun
amminoacido. Tale ipotesi confermata dal fatto che i valori cos calcolati, risultano essere fortemente
correlati allarea superficiale (ASA) di ciascun amminoacido, come ci si attende da interazioni, come quelle
di van der Waals, che agiscono quando le molecole sono a stretto contatto.

G di trasferimento a 25C e pH 7 corrette per leffetto di ionizzazione.


(Radzicka e Wolfenden 1987)
CicloesanoAcqua VaporeAcqua VaporeCicloesano
Amminoacido 1 1
A - (kcal mol ) B - (kcal mol ) B A = vdW
Leucina 4,92 2,28 -2,64
Isoleucina 4,92 2,15 -2,77
Valina 4,04 1,99 -2,05
Prolina 3,58 1,50 -2,08
Fenilalanina 2,98 -0,76 -3,74
Metionina 2,35 -1,48 -3,83
Triptofano 2,33 -5,88 -8,21
Alanina 1,81 1,94 0,13
Cisteina 1,28 -1,24 -2,52
Glicina 0,94 2,39 1,45
Tirosina -0,14 -6,11 -5,97
Treonina -2,57 -4,88 -2,31
Serina -3,40 -5,06 -1,66
Istidina -4,66 -10,27 -5,61
Glutammina -5,54 -9,38 -3,84
Lisina -5,55 -9,52 -3,97
Asparagina -6,64 -9,68 -3,04
Ac. Glutammico -6,81 -10,24 -3,43
Ac. Aspartico -8,72 -10,95 -2,23
Arginina -14,92 -19,92 -5,00

Nel 2010 Pace ha valutato che leffetto idrofobico stabilizzi mediamente una proteina per 1,4 0,2 kcal/mol
per residuo, con valori pi bassi (1,0 kcalmol-1 per residuo) per le proteine a basso peso molecolare e valori
pi alti (1,7 kcalmol-1 per residuo) per le proteine ad alto peso molecolare.

211
Tale stima valuta leffetto idrofobico nel suo complesso, stimando sia il contributo entropico (effetto
idrofobico puro) che il contributo entalpico, dovuto alle forze di van der Waals, che si ritiene abbiano
complessivamente unincidenza sensibile nel legare i residui nel core proteico strettamente impaccato.

Usando i valori calcolati da Radzicka per le forze di van der Waals possiamo stimarne il contributo,
moltiplicando ciascun valore per la probabilit che ciascun amminoacido si trovi sepolto nel core proteico e
per la frequenza con cui lamminoacido va a formare una proteina.

Oltre a non essere equidistribuiti, i 20 amminoacidi presentano infatti anche una diversa tendenza a
collocarsi allinterno del core proteico. Nella tabella seguente, riportiamo tre analisi statistiche della
probabilit di trovare un amminoacido sepolto allinterno di una proteina.

Probabilit (%) di trovare lamminoacido nel core


Aminoacido Sigla
Janin (1978) Chothia (1975) Tien (2012)
Alanine Ala (A) 51 38 39,4
Arginine Arg (R) 5 1 6,94
Asparagine Asn (N) 22 17 14,2
Aspartic Acid Asp (D) 19 15 10,2
Cysteine Cys (C) 74 50 53,9
Glutamine Gln (Q) 16 7 6,63
Glutamic Acid Glu (E) 16 18 10,4
Glycine Gly (G) 52 36 28,6
Histidine His (H) 34 17 18,6
Isoleucine Ile (I) 66 60 50,9
Leucine Leu (L) 60 45 47,8
Lysine Lys (K) 3 3 2,75
Methionine Met (M) 52 40 45,0
Phenylalanine Phe (F) 58 50 47,7
Proline Pro (P) 25 18 16,0
Serine Ser (S) 35 22 23,0
Threonine Thr (T) 30 23 23,7
Tryptophan Trp (W) 49 27 35,8
Tyrosine Tyr (Y) 24 15 30,3
Valine Val (V) 64 54 48,8

Stimiamo dunque il contributo delle interazioni di van der Waals per residuo amminoacidico moltiplicando
il GvdW calcolato da Radzicka e Wolfenden, per la frequenza di ciascun amminoacido F e per la probabilit
PB che esso ha di trovarsi allinterno della proteina

Amminoacido Sigla GvdW F% PB % GvdW x F x PB


Alanine Ala (A) 0,13 8,07 39,4 0,0041
Arginine Arg (R) -5,00 5,27 6,94 -0,0183
Asparagine Asn (N) -3,04 4,91 14,2 -0,0212
Aspartic Acid Asp (D) -2,23 4,83 10,2 -0,0110
Cysteine Cys (C) -2,52 1,65 53,9 -0,0224

212
Amminoacido Sigla GvdW F% PB % GvdW x F x PB
Glutamine Gln (Q) -3,84 4,02 6,63 -0,0102
Glutamic Acid Glu (E) -3,43 6,31 10,4 -0,0225
Glycine Gly (G) 1,45 7,25 28,6 0,0301
Histidine His (H) -5,61 2,23 18,6 -0,0233
Isoleucine Ile (I) -2,77 5,53 50,9 -0,0780
Leucine Leu (L) -2,64 9,17 47,8 -0,1157
Lysine Lys (K) -3,97 5,73 2,75 -0,0063
Methionine Met (M) -3,83 2,39 45,0 -0,0412
Phenylalanine Phe (F) -3,74 3,94 47,7 -0,0703
Proline Pro (P) -2,08 4,93 16,0 -0,0164
Serine Ser (S) -1,66 6,78 23,0 -0,0259
Threonine Thr (T) -2,31 5,76 23,7 -0,0315
Tryptophan Trp (W) -8,21 1,31 35,8 -0,0385
Tyrosine Tyr (Y) -5,97 3,21 30,3 -0,0581
Valine Val (V) -2,05 6,67 48,8 -0,0667
Somma (interazioni di van der Waals per residuo) -0,64 kcal

Con un procedimento analogo possiamo stimare il contributo delleffetto idrofobico, valutando la superficie
della porzione non polare che ciascun amminoacido seppellisce nel core proteico. La tabella successiva
suddivide lASA totale della catena laterale di ciascun amminoacido nella sua parte non polare Anp e polare
Ap espressa in 2, calcolata per un residuo X in un tripeptide Gly-X-Gly in conformazione estesa (Miller,
Chothia et al 1987).

Amminoacido Sigla Anp Ap F% PB % Anp x F x PB


Alanine Ala (A) 67 0 8,07 39,4 2,1303
Arginine Arg (R) 89 107 5,27 6,94 0,3255
Asparagine Asn (N) 44 69 4,91 14,2 0,3068
Aspartic Acid Asp (D) 48 58 4,83 10,2 0,2365
Cysteine Cys (C) 35 69 1,65 53,9 0,3113
Glutamine Gln (Q) 53 91 4,02 6,63 0,1413
Glutamic Acid Glu (E) 61 77 6,31 10,4 0,4003
Glycine Gly (G) 37 0 7,25 28,6 0,7672
Histidine His (H) 102 49 2,23 18,6 0,4231
Isoleucine Ile (I) 140 0 5,53 50,9 3,9407
Leucine Leu (L) 137 0 9,17 47,8 6,0051
Lysine Lys (K) 119 48 5,73 2,75 0,1875
Methionine Met (M) 117 43 2,39 45,0 1,2583
Phenylalanine Phe (F) 175 0 3,94 47,7 3,2889
Proline Pro (P) 105 0 4,93 16,0 0,8282
Serine Ser (S) 44 36 6,78 23,0 0,6861
Threonine Thr (T) 74 28 5,76 23,7 1,0102
Tryptophan Trp (W) 190 27 1,31 35,8 0,8911
Tyrosine Tyr (Y) 144 43 3,21 30,3 1,4006
Valine Val (V) 117 0 6,67 48,8 3,8083
Somma (Superficie non polare sepolta per residuo) 28,4 2

213
Moltiplicando infine la superficie non polare mediamente sepolta per residuo per -0,025 kcal, si ottiene una
stima del contributo delleffetto idrofobico puro di 0,71 kcal/mol per residuo amminoacidico.

Secondo tale stima le interazioni di van der Waals tra residui apolari contribuirebbero per circa il 50%
alleffetto idrofobico, mentre il rimanente 50% sarebbe il contributo entropico.

Le interazioni di van der Waals si producono principalmente tra residui amminoacidici apolari (forze di
London) ed il loro effetto legante risulta massimo quando due atomi si trovano ad una distanza pari alla
somma dei loro raggi di van der Waals. A distanze minori le nubi elettroniche dei due atomi generano forze
repulsive, a distanze maggiori linterazione si riduce rapidamente.
I raggi di van der Waals della maggior parte degli atomi presenti nelle proteine sono compresi tra 1.3 e 1.7
e le forze di van der Waals offrono un contributo significativo alla stabilizzazione delle proteine per il fatto
che gli atomi componenti la proteina sono molto pi strettamente impaccati quando essa allo stato
nativo e quindi a distanza molto pi favorevole per instaurare questo tipo di legame (sono dette anche
close-packing interactions). Lenergia di una singola interazione di van der Waals si aggira in media attorno
a 0,2-0,5 kcal/mol. Si tratta di un valore modesto, ma la somma di tutte le interazioni prodotte dai singoli
residui amminoacidici di una proteina pu alla fine tradursi in un valore cospicuo.

Diversi studi sembrano dimostrare che il contributo delle interazioni di van der waals alla stabili dello stato
nativo siano dello stesso ordine di grandezza del contributo idrofobico e possano essere stimate calcolando
una diminuzione di energia pari a circa 25 calmol-1 per ogni -2 di superficie idrofobica seppellita.

Una conseguenza dellimpaccamento stretto che caratterizza le proteine globulari che esse presentano
tutte pi o meno la stessa densit, pari a circa 1,37 g/cm 3. Il reciproco di tale valore rappresenta il volume
specifico 0,73 cm3/g (volume occupato da un grammo di proteina).
Moltiplicando il volume specifico per la massa di un dalton 1,66054 10-24 g/Da si ottiene 1,2122 3/Da,
fattore per il quale moltiplicare la massa M (in dalton) di una proteina per ottenerne il volume espresso in
3
V = 1,2122 M
Con la stessa relazione possiamo anche calcolare il volume medio occupato da ciascun amminoacido in una
proteina globulare, usando la massa media di un amminoacido.
Con una massa media di 111 Da un amminoacido occuper un volume medio pari a

V = 1,2122 x 111 = 134 3

Il volume medio di un amminoacido pu essere calcolato anche come media ponderata dei volumi che
ciascun amminoacido occupa allinterno di una proteina

214
Volume medio occupato da ciascun amminoacido in una proteina
Amminoacido Sigla a) b) c) d) e) f)
Alanine Ala (A) 91,5 91,5 90,1 88,2 88,6 86,4
Arginine Arg (R) 196,1 - 192,8 188,8 173,4 197,4
Asparagine Asp (D) 135,2 124,5 117,1 113,4 111,1 108,6
Aspartic Acid Asn (N) 138,3 135,2 127,5 125,2 114,1 115,6
Cysteine Cys (C) 114,4 117,7 113,2 113,3 108,5 107,9
Cysteine S-S Cys (C) 102,4 105,6 103,5
Glutamic Acid Gln (Q) 156,4 161,1 149,4 148,1 138,4 142,0
Glutamine Glu (E) 154,6 155,1 140,8 134,8 143,8 128,7
Glycine Gly (G) 67,5 66,4 63,8 65,3 60,1 57,8
Histidine His (H) 163,2 167,3 159,3 159,2 153,2 150,1
Isoleucine Ile (I) 162,6 168,8 164,9 157,7 166,7 164,6
Leucine Leu (L) 163,4 167,9 164,6 158,7 166,7 164,6
Lysine Lys (K) 162,5 171,3 170,0 164,2 168,6 166,2
Methionine Met (M) 165,9 170,8 167,7 164,9 162,9 160,9
Phenylalanine Phe (F) 198,8 203,4 193,5 192,0 189,9 187,3
Proline Pro (P) 123,4 129,3 123,1 122,1 112,7 120,6
Serine Ser (S) 102,0 99,1 94,2 95,5 89,0 86,2
Threonine Thr (T) 126,0 112,1 120,0 118,4 116,1 113,6
Tryptophan Trp (W) 237,2 237,6 231,7 227,3 227,8 225,0
Tyrosine Tyr (Y) 209,8 203,6 197,1 197,6 193,6 190,5
Valine Val (V) 138,4 141,7 139,1 134,5 140,0 136,8

a) Pontius, J. Richelle, J. Wodak, S. J. - Deviations from standard atomic volumes as a quality measure for protein crystal
structures. J. Mol. Biol. (1996), 264, 121136
b) Chothia C. - Structural invariants in protein folding. Nature (1975), 254, 304308.
c) Harpaz Y. Gerstein M. Chothia C. - Volume changes on protein folding. Structure (1994), 2, 641649.
d) Esque J. Oguey C. de Brevern A.G. - A Novel Evaluation of Residue and Protein Volumes by Means of Laguerre Tessellation,
(2009)
e) A.A. Zamyatin, Prog. Biophys. Mol. Biol., 24 (1972) 107-123.
f) volume in soluzione

Amminoacido Sigla V(a) F% VxF


Alanine Ala (A) 88,6 8,07 7,150
Arginine Arg (R) 173,4 5,27 9,138
Aspartic Acid Asn (N) 111,1 4,91 5,455
Asparagine Asp (D) 114,1 4,83 5,511
Cysteine Cys (C) 108,5 1,65 1,790
Glutamic Acid Gln (Q) 138,4 4,02 5,564
Glutamine Glu (E) 143,8 6,31 9,074
Glycine Gly (G) 60,1 7,25 4,357
Histidine His (H) 153,2 2,23 3,416
Isoleucine Ile (I) 166,7 5,53 9,219
Leucine Leu (L) 166,7 9,17 15,286
Lysine Lys (K) 168,6 5,73 9,661
Methionine Met (M) 162,9 2,39 3,893
Phenylalanine Phe (F) 189,9 3,94 7,482
Proline Pro (P) 112,7 4,93 5,556
Serine Ser (S) 89,0 6,78 6,034

215
Amminoacido Sigla V(a) F% VxF
Threonine Thr (T) 116,1 5,76 6,687
Tryptophan Trp (W) 227,8 1,31 2,984
Tyrosine Tyr (Y) 193,6 3,21 6,215
Valine Val (V) 140,0 6,67 9,338
Volume medio (somma colonna V x F) 134 3

(a) Volume occupato da ciascun amminoacido allinterno di una proteina secondo A.A. Zamyatin, Prog. Biophys. Mol. Biol.,
24 (1972) 107-123.
Il volume di una proteina globulare pu dunque essere stimato anche moltiplicando il numero di residui
amminoacidici n che la compongono per il volume medio di ciascun residuo
V = n x 134 3/residuo

3.5.5 Problema del folding: la predizione della struttura nativa

Come abbiamo visto, lesperimento di Anfinsen ha portato a stabilire che la struttura tridimensionale delle
proteine, nelle condizioni fisiologiche, definita in modo univoco dalla loro sequenza amminoacidica. In
base a tale principio si deve concludere che teoricamente possibile dedurre la struttura tridimensionale di
una proteina dalla sua sola struttura primaria.

Il compito si rivelato molto pi complesso di quanto ci si potesse aspettare. Per comprenderne le


difficolt si consideri la proteina adenilato chinasi isolata dal batterio metanococco e dal maiale. Si tratta di
una proteina che in entrambe le specie presenta la stessa funzione e la stessa struttura tridimensionale.
Tuttavia se confrontiamo la successione amminoacidica troviamo che ladenilato chinasi del batterio
presenta solo il 20% di sequenze in comune con quella del maiale. E come se confrontassimo due articoli di
giornale che parlano dello stesso argomento e dicono le medesime cose, ma che, se confrontati parola per
parola, si presentano completamente diversi. In natura esistono molti esempi di proteine strutturalmente
omologhe, ma con bassissima identit nella sequenza amminoacidica.

A partire dagli anni 70 del Novecento sono stati sviluppati diversi metodi che, inizialmente, avevano come
obiettivo la predizione della sola struttura secondaria della proteina.

Spesso i metodi di predizione delle strutture secondarie sono suddivisi in tre generazioni (B. Rost, Rising
accuracy of protein secondary structure prediction 2003). I metodi di prima generazione sono
essenzialmente di tipo statistico e sono basati per lo pi sulla frequenza con cui ciascun amminoacido si
presenta in una struttura secondaria (Chou-Fasman, GOR). Hanno unefficienza predittiva piuttosto bassa,
riuscendo a predire correttamente la struttura secondaria solo del 50-60% dei residui. I metodi di seconda
generazione cercano di tener conto delle interazioni non-locali (a lungo raggio) e quindi analizzano non i
singoli residui, ma segmenti in finestre scorrevoli da 11 a 21 residui da cui ricavano la struttura secondaria
del residuo centrale. Alcuni autori preferiscono classificare GOR nei metodi di seconda generazione. Le
tecniche utilizzate sono diverse: reti neurali (Qian and Sejnowksi), metodo del vicino pi prossimo (Levin),
metodi statistici (GOR). Lefficienza predittiva pi elevata ma non supera il 70%. I metodi di terza
generazione, oltre ad ampliare il tipo di algoritmi di ricerca (in gran parte metodi di apprendimento
automatico come Reti Neurali, Modelli di Markov Nascosti, Macchine a vettori di supporto etc) usano per
la predizione informazioni evolutive ottenute da un allineamento multiplo della proteina con proteine
omologhe a struttura nota. Lefficienza predittiva del 72-78%.

216
I metodi statistici per la predizione della struttura secondaria furono i primi ad essere messi a punto. Essi si
basano sulla constatazione che gli amminoacidi non si presentano con la stessa frequenza nelle diverse
strutture secondarie, ma sembrano manifestare una propensione (propensity) per luna o laltra.

Il metodo Chou-Fasman fu sviluppato nel 1974 su di un dataset originale che comprendeva solo 15 proteine
ed in seguito venne ampliato nel 1978 e nel 1979 fino a considerare 29 e poi 64 proteine. Lattendibilit del
metodo abbastanza bassa (intorno al 50%), tuttavia ancora utilizzato grazie soprattutto alla semplicit
dellalgoritmo.
Il metodo utilizza, per la predizione della struttura secondaria, 3 parametri statistici, indicati con P , P e Pt,
che misurano la propensione o abbondanza relativa con cui ciascuno dei 20 amminoacidi distribuito
rispettivamente in -eliche, foglietti e -turn.
La propensione Ps di un amminoacido i per una struttura secondaria s definita dalla seguente relazione

( )
()

dove
- P(i|s) la probabilit condizionata dellamminoacido i nei confronti della struttura secondaria s,
cio la probabilit di osservare il residuo i quando si gi presentato lo stato s.
- P(i) la probabilit di osservare il residuo i
Il numeratore valuta linfluenza che un particolare stato (struttura secondaria) ha sulla comparsa di un particolare
residuo. Se ad esempio linfluenza nulla, allora la probabilit del residuo, condizionata a quel particolare stato, sar
uguale alla probabilit di osservare il residuo P(i|s) = P(i) e la propensione sar unitaria.
Ma se un particolare stato rende pi (o meno) probabile la comparsa di un certo residuo, allora la
probabilit condizionata sar maggiore (o minore) e la propensione per quello stato sar maggiore (o
minore) di 1.

Si pu dimostrare che la propensione calcolabile anche attraverso la relazione equivalente


( )
( )
dove
- P(s|i) la probabilit condizionata della struttura secondaria s nei confronti dellamminoacido i,
cio la probabilit di osservare lo stato s quando si gi presentato il residuo i.
- P(s) la probabilit di osservare la struttura secondaria s
In questo caso il numeratore valuta linfluenza che un particolare residuo ha sulla comparsa di una
particolare struttura secondaria e la si confronta, a denominatore, con la probabilit di comparsa della
medesima struttura.

Le due probabilit, e di conseguenza le propensioni, vengono stimate attraverso la misura delle rispettive
frequenze a partire dai dati delle proteine contenute un determinato campione (dataset) di cui nota
sequenza e struttura. Calcoliamo ad esempio la propensione dellalanina verso lalfa-elica P utilizzando i
seguenti dati provenienti dal database 1978 (29 proteine):

4741 = numero residui totali nel database


434 = numero di alanine

217
234 = numero di alanine in alfa elica
1798 = numero di residui in alfa elica

( )
( )

come dire che la comparsa dellalfa elica in una certa posizione aumenta la probabilit della comparsa
dellalanina rispetto alla sua probabilit generale.

oppure

( )
( )

come dire che la comparsa dellalanina in una certa posizione aumenta la probabilit della comparsa
dellalfa elica rispetto alla sua probabilit generale.

Calcoliamo ancora, a titolo desempio, il P della cisteina (C) allinterno della crambina, una piccola proteina
estratta dal cavolo abissinico (crambe abyssinica) costituita da soli 46 residui. La sequenza della proteina
(usando la simbologia FASTA ad una lettera) :

1 2 3 4 5 6
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
EE EE
HHHHHHHHHHH HHHHHHHH HHH
C CCC CCCCC CC CCCCCCC CC

I residui di cisteina C sono indicati in rosso e sono 6 in tutto, le -eliche sono evidenziate in azzurro (22
residui), i foglietti in verde (4 residui). La struttura secondaria evidenziata, oltre che con il diverso
colore, anche con le lettere E (shEet = foglietto beta), H (Helix = alfa elica) e C (Coil)
La frequenza dei residui in -elica in cui compare la cisteina 2/22 = 0,091
La frequenza complessiva dei residui di cisteina nella proteina 6/46 = 0.130
Il P della cisteina nella Crambina sar dunque 0.091/0.130 = 0.70

Nel caso specifico (crambina) la cisteina si trova quindi in -elica con una frequenza inferiore del 30%
rispetto a quella con cui si trova nellintera proteina

Naturalmente i valori tabulati di P per ogni amminoacido sono calcolati sulla base di tutte le proteine di
cui sequenza e struttura sono note. Inoltre, come abbiamo gi accennato, le definizioni di P e Pt sono del
tutto analoghe a quella di P, salvo il fatto che si riferiscono alle propensioni degli amminoacidi nei foglietti
e nei -turn, rispettivamente.

218
Chou-Fasman Statistics 1978 (database 29 proteine)
Amminoacido Sigla P P Pt
Alanine Ala (A) 1,42 0,83 0,66
Arginine Arg (R) 0,98 0,93 0,95
Asparagine Asn (N) 0,67 0,89 1,56
Aspartic Acid Asp (D) 1,01 0,54 1,46
Cysteine Cys (C) 0,70 1,19 1,19
Glutamine Gln (Q) 1,11 1,10 0,98
Glutamic Acid Glu (E) 1,51 0,37 0,74
Glycine Gly (G) 0,57 0,75 1,56
Histidine His (H) 1,00 0,87 0,95
Isoleucine Ile (I) 1,08 1,60 0,47
Leucine Leu (L) 1,21 1,30 0,59
Lysine Lys (K) 1,14 0,74 1,01
Methionine Met (M) 1,45 1,05 0,60
Phenylalanine Phe (F) 1,13 1,38 0,60
Proline Pro (P) 0,57 0,55 1,52
Serine Ser (S) 0,77 0,75 1,43
Threonine Thr (T) 0,83 1,19 0,96
Tryptophan Trp (W) 1,08 1,37 0,96
Tyrosine Tyr (Y) 0,69 1,47 1,14
Valine Val (V) 1,06 1,70 0,50

Ogni amminoacido viene poi classificato per la sua propensione ad entrare in strutture secondarie come very former
(H), weak former (h), very indifferent (I), weak indifferent (i), weak breaker (b) e very breaker (B). Si veda ad esempio
la tabella seguente in cui le propensioni per lalfa elica e per il foglietto beta sono state ordinate per valori
decrescenti, da very former (H) a very breaker (B).

P P
Glu 1,51 H Val 1,70 H
Met 1,45 H Ile 1,60 H
Ala 1,42 H Tyr 1,47 H
Leu 1,21 H Phe 1,38 h
Lys 1,16 h Trp 1,37 h
Phe 1,13 h Leu 1,30 h
Gln 1,11 h Cys 1,19 h
Trp 1,08 h Thr 1,19 h
Ile 1,08 h Gln 1,10 h
Val 1,06 h Met 1,05 h
Asp 1,01 I Arg 0,93 i
His 1,00 I Asn 0,89 i
Arg 0,98 i His 0,87 i
Thr 0,83 i Ala 0,83 i
Ser 0,77 i Ser 0,75 b
Cys 0,70 i Gly 0,75 b
Tyr 0,69 b Lys 0,74 b
Asn 0,67 b Pro 0,55 b
Pro 0,57 B Asp 0,54 b

Gly 0,57 B
Glu 0,37 b

219
La probabilit che un residuo in posizione i sia il primo dei quattro residui che formano un -turn viene inoltre
calcolata tenendo conto anche delle probabilit che i tre residui successivi (i+1) (i+2) e (i+3) si trovino nelle
rispettive posizioni, usando la tabella successiva. Ad esempio la Prolina ha una spiccata predilezione per la
posizione 2 (i+1), nella quale si trova con il 30% di probabilit, mentre in posizione 3 (i+2) si trova solo con il
3,4% di probabilit. Dunque la probabilit che un tetrapeptide formi un -turn si calcola come prodotto
delle 4 probabilit che ciascun residuo si trovi nella rispettiva posizione. Ad esempio, il tetrapeptide HDGY
presenta una probabilit di formare un -turn pari a
0,14 x 0,11 x 0,19 x 0,125 = 3,66 10-4
-4
Poich la probabilit media che un tetrapeptide sia un -turn {pt} = 0.55 x 10 , si conviene che un tetrapeptide con
-4
{pt} > 0.75 x 10 abbia unelevata probabilit di essere un -turn

Amminoacido Sigla F(i) F(i+1) F(i+2) F(i+3)


Alanine Ala (A) 0,06 0,076 0,035 0,058
Arginine Arg (R) 0,07 0,106 0,099 0,085
Asparagine Asn (N) 0,161 0,083 0,191 0,091
Aspartic Acid Asp (D) 0,147 0,11 0,179 0,081
Cysteine Cys (C) 0,149 0,05 0,117 0,128
Glutamine Gln (Q) 0,074 0,098 0,037 0,098
Glutamic Acid Glu (E) 0,056 0,06 0,077 0,064
Glycine Gly (G) 0,102 0,085 0,19 0,152
Histidine His (H) 0,14 0,047 0,093 0,054
Isoleucine Ile (I) 0,043 0,034 0,013 0,056
Leucine Leu (L) 0,061 0,025 0,036 0,07
Lysine Lys (K) 0,055 0,115 0,072 0,095
Methionine Met (M) 0,068 0,082 0,014 0,055
Phenylalanine Phe (F) 0,059 0,041 0,065 0,065
Proline Pro (P) 0,102 0,301 0,034 0,068
Serine Ser (S) 0,12 0,139 0,125 0,106
Threonine Thr (T) 0,086 0,108 0,065 0,079
Tryptophan Trp (W) 0,077 0,013 0,064 0,167
Tyrosine Tyr (Y) 0,082 0,065 0,114 0,125
Valine Val (V) 0,062 0,048 0,028 0,053

La predizione delle strutture secondarie avviene utilizzando le seguenti regole empiriche.

eliche Si calcola per ciascun residuo la propensione media {P } del tetrapeptide di cui il residuo il primo
membro. Una successione di 4 residui consecutivi con {P - > 1 forma il nucleo di unalfa elica. Lelica viene estesa
verso destra (in direzione carbossiterminale) finch la probabilit media non diventa inferiore ad 1. Allelica vanno poi
aggiunti i 3 residui successivi ( con ,P- < 1). A questo punto si analizzano i residui successivi. Se sono di classe H o h
essi vengono generalmente inclusi nellelica. Se sono di classe i vengono inclusi se presentano un P elevato. Nel
decidere se includere o meno dei residui si pu tenere in considerazione il fatto che normalmente un elica costituita
di un numero di residui multiplo di 4. Quindi linclusione di residui sfavorevoli pi accettabile se porta lelica ad un
numero complessivo di residui multiplo di 4. Si calcola infine la probabilit media di tutti i residui assegnati allelica, la
quale deve essere superiore a 1,03 e superiore alla probabilit media della stessa successione di residui per il foglietto
beta. La Prolina non pu mai trovarsi in unelica situata allinterno del filamento proteico o alla sua estremit C-
terminale. Pu solo occupare la prima spira di unelica posta allestremit N-terminale.

Si consideri ad esempio la successione YSPYAELMRSYG

220
Y S P Y A E L M R S Y G
P 0,69 0,77 0,57 0,69 1,42 1,51 1,21 1,45 0,98 0,77 0,69 0,57
b i B b H H H H i i b B
{P} 0,68 0,86 1,05 * 1,21 * 1,40 * 1,29 * 1,10 * 0,97 0,75 - - -
P 1,47 0,75 0,55 1,47 0,83 0,37 1,30 1,05 0,93 0,75 1,47 0,75
H b B H i B h h i b H b
Pred. H H H H H H H H

La riga {P} riporta le probabilit medie dei tetrapeptidi. Ad esempio il primo valore (relativo ad Y) si calcola come
media dei valori di P del tetrapeptide YSPY (0,69 + 0,77 + 0,57 + 0,69)/4 =0,68. Il secondo valore (relativo ad S) si
calcola come media dei valori di P del tetrapeptide SPYA (0,77 + 0,57 + 0,69 + 1,42)/4 =0,86 e cos via. I valori
asteriscati sono superiori allunit ed individuano il nucleo dellalfa elica PYAEL alla quale vengono aggiunti e 3 residui
successivi MRS con {P} < 1. Il successivo residuo Y non viene aggiunto poich ha propensione b (very breaker).
La probabilit media dellelica ,P}PYAELMRS = 1,075 , maggiore di 1,03 e maggiore della probabilit media degli stessi
residui per il foglietto beta {P}PYAELMRS = 0,906

foglietti Si calcola per ciascun residuo la propensione media {P } del tetrapeptide di cui il residuo il primo
membro. Una successione di 3 residui consecutivi con {P } > 1 forma il nucleo di un foglietto beta. Il foglietto viene
esteso verso destra (in direzione carbossiterminale) finch la probabilit media non diventa inferiore ad 1. Al foglietto
vanno poi aggiunti i 3 residui successivi ( con {P} < 1). A questo punto si analizzano i residui successivi. Se sono di
classe H o h essi vengono generalmente inclusi nel foglietto. Se sono di classe i vengono inclusi se presentano un P
elevato.

regioni di sovrapposizione Se Unalfa elica si sovrappone ad un foglietto beta necessario calcolare e


confrontare la probabilit media dei residui potenzialmente assegnati ad entrambe le strutture ed assegnare i residui
alla struttura secondaria con probabilit media pi elevata.

Si consideri ad esempio la successione GPSSALYAVKVLGDAG allinterno della quale la sequenza SALYAVKV presenta
una probabilit media dellelica ,P}ALYAVKV = 1,099 ed una probabilit media del foglietto {P }SALYAVKV = 1,165. Alla
sequenza asteriscata SALYAVKV (con {P} > 1) pi i 3 residui successivi LGD (con {P} < 1) si assegna dunque una
struttura secondaria a foglietto beta. Se {P}ALYAVKV fosse risultato maggiore di {P}SALYAVKV avremmo assegnato una
struttura ad alfa elica alla sequenza SSALYAVKVLGD

G P S S A L Y A V K V L G D A G
P 0,57 0,57 0,77 0,77 1,42 1,21 0,69 1,42 1,06 1,16 1,06 1,21 0,57 1,01 1,42 0,57
B B i i H H b H h h h H B I H B
{P} 0,67 0,88 1,04 1,02 1,18 1,09 1,08 1,17 1,12 1,00 0,96 1,05 0,89 - - -
* * * * * * * * *
{P}SALYAVKV = 1,099
P 0,75 0,55 0,75 0,75 0,83 1,30 1,47 0,83 1,70 0,74 1,70 1,30 0,75 0,54 0,83 0,75
b B b b i h H i H b H h b B i b
{P} 0,70 0,72 0,90 1,08 1,10 1,32 1,18 1,24 1,36 1,12 1,07 0,85 0,71 - - -
* * * * * * * *
{P}SALYAVKV = 1,165
Pred. E E E E E E E E E E E

turn Si calcola per ciascun residuo la propensione media {Pt} del tetrapeptide di cui il residuo il primo membro e
la probabilit pt = fi x fi+1 x fi+2 x fi+3 che il residuo si trovi in quella particolare combinazione di 4 residui. Un
tetrapeptide forma un turn se il suo primo residuo presenta una propensione media {Pt} > 1,0 e maggiore della
propensione media che il medesimo residuo presenta per lalfa elica ed il foglietto beta (,P } < {Pt} > {P}). Inoltre il
-4
residuo deve presentare una probabilit p t = fi x fi+1 x fi+2 x fi+3 > 0,75 10 . Il turn viene assegnato anche se si
sovrappone e rompe unelica o un foglietto. Se due o pi turn si sovrappongono viene assegnato solo quello che
presenta il primo residuo con propensione media {Pt} del tetrapeptide maggiore.

Si consideri ad esempio la successione AGAAALILSKHPNWTNTQV. Nella tabella seguente sono riportate le propensioni
per tutte e tre le strutture secondarie. Per i residui 1-8 c una sovrapposizione tra alfa-elica e foglietto-beta, ma la

221
propensione media della sequenza sovrapposta AALI maggiore per lelica. Sono possibili poi 3 turn (9-11; 11-14;
14-17) che si accavallano. Si sceglie il turn 11-14 (HPNW) poich tra i tre presenta la propensione media {P t} pi
elevata. Il turn 11-14 va a sovrapporsi ed a rompere parte del successivo foglietto beta che viene dunque assegnato
solo a partire dal residuo 15.

AA P P Pt {P} {P} {Pt} fifi+1fi+2fi+3 Pred


-4
1 A 1,42 0,83 0,66 H i 1,20 * 0,81 0,88 0, 1035 10 H
-4
2 G 0,57 0,75 1,56 B b 1,20 * 0,81 0,88 0, 1574 10 H
-4
3 A 1,42 0,83 0,66 H i 1,36 * 0,94 0,64 0,1117 10 H
-4
4 A 1,42 0,83 0,66 H i 1,28 * 1,14 * 0,59 0,0919 10 H
-4
5 A 1,42 0,83 0,66 H i 1,23 * 1,25 * 0,57 0,0137 10 H
-4
6 L 1,21 1,30 0,59 H h 1,06 * 1,23 * 0,77 0,0791 10 H
-4
7 I 1,08 1,60 0,47 h H 1,05 * 1,09 * 0,87 0,1277 10 H
-4
8 L 1,21 1,30 0,59 H h 1,03 * 0,91 0, 99 0,3297 10 H
-4
9 S 0,77 0,75 1,43 i b 0,87 0,72 1,22* 0,8727 10 H
-4
10 K 1,16 0,74 1,01 h b 0,85 0,76 1,26 0,0800 10 H
-4
11 H 1,00 0,87 0,95 I i 0,83 0,92 1,24* 13,4414 10 T
-4
12 P 0,57 0,55 1,52 B B 0,78 1,00 * 1,25 0,4280 10 T
-4
13 N 0,67 0,89 1,56 b i 0,81 1,08 * 1,26 0,1238 10 T
-4
14 W 1,08 1,37 0,96 h h 0,85 1,16 * 1,11* 1,2548 10 T
-4
15 T 0,83 1,19 0,96 i h 0,86 1,09 * 1,11 0,4547 10 E
-4
16 N 0,67 0,89 1,56 b i 0,91 1,22 * 1,00 0,3410 10 E
17 T 0,83 1,19 0,96 i h - - - - E
18 Q 1,11 1,10 0,98 h h - - - - E
19 V 1,06 1,70 0,50 h H - - - - E

Il metodo Chou-Fasman relativamente semplice, ma richiede che vengano eseguiti numerosi e tediosi
calcoli. La tabella precedente stata ottenuta utilizzando il programma Cfpred, il quale legge un file di testo
contenente la sequenza FASTA della proteina e genera un file di testo analogo alla tabella precedente. Cfpred
individua con un asterisco i residui che presentano propensioni elevate verso le tre strutture secondarie (eliche,
foglietti e turn). Cfpred non esegue tuttavia lattribuzione delle strutture secondarie, la quale deve essere fatta
dallutente e risente pertanto di un certo grado di discrezionalit. CFpred permette allutente di utilizzare il database a
29 proteine (1978) o quello a 64 proteine (1979).
Di seguito riportiamo la predizione di struttura secondaria eseguita tramite CFpred (database 64 proteine) per
linibitore della tripsina da pancreas bovino, messo a confronto con lassegnazione effettuata tramite
STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHH--- Stride
-TTTT------TTTTEEEEEEHHHHHHEEEEEEETTTT--TTTTHHHHHHHHHTTTT- Chou Fasman
+-----+++++------++++-------++++++----++++++---++++++----+

Le 29 croci rosse indicano il numero di residui che il metodo Chou Fasman ha predetto correttamente. Su 58 residui
lefficacia della predizione 29/58 = 50%. Tuttavia, come abbiamo gi detto, lattribuzione delle strutture secondarie
soggettiva. Se, ad esempio, utilizziamo il sito http://cib.cf.ocha.ac.jp/bitool/CF/ per applicare il metodo Chou Fasman
(database 64 proteine) alla medesima proteina si ottiene la seguente predizione che non assegna i turn. Per
confrontarla con la struttura secondaria prevista da STRIDE trasformiamo i turn in coil (sostituendo la T con una
lineetta -)
--GGGG-----------EEEEEEE----EEEEEEE---------B--HHHHHHHH--- Stride
--------EE-----EEEEEEHHHHHHEEEEEEEE---------HHHHHHEEEE---- Chou Fasman
++----++--+------++++-------++++++++++++++++---+++-----+++

222
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1

Uno degli indici pi utilizzati per misurare la bont della predizione il Qi, un indice di accuratezza (accuracy) che
rappresenta la percentuale di residui correttamente previsti e che quindi coincidono con quelli osservati (assegnati
alle strutture secondarie dallanalisi cristallografica della struttura proteica sperimentalmente determinata).
possibile calcolarlo per le singole strutture, ad esempio per la predizione delle alfa eliche si avr

oppure si pu calcolarlo per tutte le strutture secondarie complessivamente predette. Se vengono predette n
strutture secondarie lindice viene indicato come Qn.

Nellesempio precedente il metodo effettua una predizione a 3 stati: elica (H) - foglietto (E) Coil (C o ) e lindice
che misura la bont della predizione prende il nome di Q3.

In realt tale indice, sebbene molto diffuso ed utilizzato, non molto significativo. Si consideri ad esempio una
predizione che assegni allintera catena una struttura completamente a coil (senza eliche e foglietti). In questo caso
avremo ben 31 corrispondenze con un Q3 = 31/58 = 53%. Ma evidente che la predizione pessima.

--GGGG-----------EEEEEEE----EEEEEEE---------B--HHHHHHHH--- Stride
---------------------------------------------------------- solo coil
++----+++++++++++-------++++-------+++++++++-++--------+++

Una predizione casuale delle tre strutture secondarie avrebbe evidentemente una probabilit su tre di
essere corretta e dunque produrrebbe un Q3 = 33%.

Un metodo pi rigoroso calcola il coefficiente di correlazione di Mathews per ogni classe di strutture secondarie. Ad
esempio per le eliche si ha

( )( )( )( )

dove
a = numero di residui assegnati correttamente alle eliche (veri positivi)
b = numero di residui assegnati correttamente a non eliche (veri negativi)
c = numero di residui assegnati in modo errato a eliche (falsi positivi)
d = numero di residui assegnati in modo errato a non eliche (falsi negativi)

Il coefficiente pu assumere valori compresi tra -1 e +1.


+1 = predizione perfetta
0 = predizione casuale
-1 = disaccordo completo tra dati e predizione

223
Ad esempio, sempre per le eliche (H)
1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHH--- Stride
-TTTT------TTTTEEEEEEHHHHHHEEEEEEETTTT--TTTTHHHHHHHHHTTTT- Chou Fasman
-----------------------------------------------++++++----- a = 6
+-----+++++------++++-------++++++----++++++-------------+ b = 23
---------------------++++++-----------------+++----------- c = 9
-+++++-----++++++----+++++++------++++------+++--------++- d = 27

( )( )( )( )

Unaltra misura di accuratezza utilizzata il SOV (segment overlap) che tende a penalizzare ulteriormente la
presenza e/o assenza di interi elementi di struttura secondaria. Generalmente i valori di SOV sono circa 5-
6% inferiori a quelli del Q3. La formula del SOV tuttavia piuttosto laboriosa per un calcolo diretto.
possibile usare il server che calcola e mette a confronto sia il Q3 che il SOV (sia totale che per ciascuna
struttura secondaria).

http://proteinmodel.org/AS2TS/SOV/sov.html

Tra i difetti del metodo Chou Fasman vi quello di non tener conto delle interazioni di lungo raggio tra
residui. La finestra di calcolo della propensione media infatti di soli 4 residui (tetrapeptide).

Il metodo GOR (Garnier-Osguthorpe-Robson) si basa su una procedura simile a quella del metodo Chou-Fasman, ma
usa finestre di lunghezza maggiore (17 residui).
Con una finestra scorrevole di 17 residui per ciascuno dei 20 amminoacidi si ottiene una matrice 17x20 costituita dai
coefficienti di contributo che gli amminoacidi, in posizione laterale rispetto al residuo centrale, apportano alla
struttura secondaria del residuo centrale. Le posizioni dellintorno sono considerate scorrelate tra loro e portano
contributi indipendenti e quindi sommabili.

La prima versione (GOR I) stata sviluppata nel 1978 (Garnier, Osguthorpe, Robson - Analysis of the accuracy and
implications of simple methods for predicting the secondary structure of globular proteins) e prevede lutilizzo di 4
matrici 17x20, costruite su un database di 26 proteine. I dati riportati in queste tabelle sono noti come informazioni
direzionali I(k,i) (directional informations) e sono ottenuti calcolando il logaritmo naturale della propensione

( )
( )
( )
dove
k lo stato (elica, foglietto, turn o coil) in cui si trova il residuo i
P(k|i) la probabilit condizionata di k rispetto ad i. Cio la probabilit di osservare lo stato k quando si gi
presentato il residuo i.
P(k) la probabilit di osservare lo stato k
Se, ad esempio, un certo residuo i non ha alcuna influenza sulla comparsa di un particolare stato k, allora P(k|i) = P(k)
e I(k,i) = 0.
Ma se il medesimo residuo ha uninfluenza positiva sulla comparsa di un certo stato k, allora P(k|i) > P(k) e I(k,i) > 0.
Viceversa, se il residuo ha uninfluenza negativa sulla comparsa di un certo stato k, allora P(k|i) < P(k) e I(k,i) < 0.

224
Nelle matrici 17x20 viene calcolata e riportata non solo linformazione condizionata del residuo i in relazione allo stato
k, ma anche linformazione che gli 8 residui che lo precedono e gli 8 che lo seguono apportano allo stato k del residuo
centrale i e che dovr essere sommata allinformazione del residuo centrale. In altre parole la probabilit che ciascun
amminoacido formi una delle 4 strutture secondarie (eliche, foglietti, turn e coil), dipende anche dalla probabilit che
i suoi 16 vicini abbiano gi formato quella struttura. Linformazione associata al j-esimo residuo per la configurazione
di struttura secondaria (elica, foglietto, turn o coil) viene dunque considerata nella sua dipendenza dal contesto
amminoacidico locale (finestra di 17 residui): se un aminoacido circondato da residui che presentano unelevata
propensione a formare una determinata struttura, ad esempio unelica, allora esso far parte dellelica anche se la sua
propensione molto bassa.

Ad esempio, se consideriamo la sequenza RHDFCLEAPYTGPCKAR, la tendenza a formare unalfa elica della


prolina P in nona posizione si ottiene sommando il suo valore nella colonna j (evidenziato in azzurro) ai
valori degli 8 residui che la seguono e degli 8 che la precedono (evidenziati in giallo) ed pari a -131.

Informazioni direzionali elica (Gibrat et al - 1987)


j-8 j-7 j-6 j-5 j-4 j-3 j-2 j-1 j J+1 J+2 J+3 J+4 J+5 J+6 J+7 J+8
Gly (G) -16 -18 -18 -29 -41 -51 -67 -85 -105 -64 -42 -37 -30 -33 -26 -21 -17
Ala (A) 18 20 23 25 32 40 45 45 62 58 51 45 48 43 37 30 32
Val (V) 1 -1 -5 0 -2 -9 -10 -5 4 -5 -3 -8 -11 -1 0 -7 -7
Leu (L) 17 19 22 28 23 29 37 37 51 48 54 59 41 36 34 28 15
lIe (I) -21 -19 -15 -5 0 2 10 9 17 12 8 12 6 6 16 18 9
Ser (S) -23 -16 -18 -13 -20 -25 -27 -31 -51 -41 -47 -43 -35 -34 -38 -34 -36
Thr (T) -13 -21 -16 -16 -14 -11 -7 -14 -28 -30 -33 -30 -20 -17 -18 -12 -8
Asp (D) 16 20 18 14 23 22 19 26 -1 -5 -26 -35 -21 -6 -3 -1 1
Glu (E) 19 24 31 35 39 36 36 45 52 40 14 -17 -13 -14 -10 -7 -2
Asn (N) 2 3 -2 -6 -6 -9 -16 -22 -44 -29 -24 -13 0 -2 -4 -5 3
Gln (Q) 7 9 6 0 7 0 -3 10 23 35 29 23 16 10 0 0 1
Lys (K) 25 24 22 18 14 16 16 25 28 37 44 54 49 44 39 44 47
His (H) 14 0 -7 -6 -14 -6 -2 1 2 21 24 25 27 25 19 25 31
Arg (R) 1 -5 -19 -25 -16 -16 -7 -4 -1 -1 3 6 0 0 -6 8 0
Phe (F) 0 7 17 23 23 18 29 26 32 40 34 28 12 3 15 6 4
Tyr (Y) -8 -9 -10 -18 -13 -13 -31 -26 -15 -24 -18 -23 -28 -19 -16 -18 -23
Trp (W) 8 18 11 9 2 26 37 29 30 17 -1 12 13 11 31 13 2
Cys (C) -77 -71 -74 -74 -67 -60 -71 -61 -47 -46 -56 -58 -67 -70 -71 -80 -81
Met (M) 2 -12 -9 -1 0 21 33 25 34 41 39 44 29 15 4 -2 -11
Pro (P) 0 -6 -7 -6 -15 -22 -35 -47 -68 -179 -95 -72 -53 -37 -28 -22 -11
R H D F C L E A P Y T G P C K A R

Se vogliamo valutare la tendenza a formare unalfa elica della Cisteina C in quinta posizione nella medesima
sequenza RHDFCLEAPYTGPCKAR, si dovr sommare il suo valore nella colonna J ai valori dei 4 residui che la
precedono e degli 8 che la seguono, ottenendo -39.

225
Informazioni direzionali elica (Gibrat et al - 1987)
j-8 j-7 j-6 j-5 j-4 j-3 j-2 j-1 j J+1 J+2 J+3 J+4 J+5 J+6 J+7 J+8
Gly (G) -16 -18 -18 -29 -41 -51 -67 -85 -105 -64 -42 -37 -30 -33 -26 -21 -17
Ala (A) 18 20 23 25 32 40 45 45 62 58 51 45 48 43 37 30 32
Val (V) 1 -1 -5 0 -2 -9 -10 -5 4 -5 -3 -8 -11 -1 0 -7 -7
Leu (L) 17 19 22 28 23 29 37 37 51 48 54 59 41 36 34 28 15
lIe (I) -21 -19 -15 -5 0 2 10 9 17 12 8 12 6 6 16 18 9
Ser (S) -23 -16 -18 -13 -20 -25 -27 -31 -51 -41 -47 -43 -35 -34 -38 -34 -36
Thr (T) -13 -21 -16 -16 -14 -11 -7 -14 -28 -30 -33 -30 -20 -17 -18 -12 -8
Asp (D) 16 20 18 14 23 22 19 26 -1 -5 -26 -35 -21 -6 -3 -1 1
Glu (E) 19 24 31 35 39 36 36 45 52 40 14 -17 -13 -14 -10 -7 -2
Asn (N) 2 3 -2 -6 -6 -9 -16 -22 -44 -29 -24 -13 0 -2 -4 -5 3
Gln (Q) 7 9 6 0 7 0 -3 10 23 35 29 23 16 10 0 0 1
Lys (K) 25 24 22 18 14 16 16 25 28 37 44 54 49 44 39 44 47
His (H) 14 0 -7 -6 -14 -6 -2 1 2 21 24 25 27 25 19 25 31
Arg (R) 1 -5 -19 -25 -16 -16 -7 -4 -1 -1 3 6 0 0 -6 8 0
Phe (F) 0 7 17 23 23 18 29 26 32 40 34 28 12 3 15 6 4
Tyr (Y) -8 -9 -10 -18 -13 -13 -31 -26 -15 -24 -18 -23 -28 -19 -16 -18 -23
Trp (W) 8 18 11 9 2 26 37 29 30 17 -1 12 13 11 31 13 2
Cys (C) -77 -71 -74 -74 -67 -60 -71 -61 -47 -46 -56 -58 -67 -70 -71 -80 -81
Met (M) 2 -12 -9 -1 0 21 33 25 34 41 39 44 29 15 4 -2 -11
Pro (P) 0 -6 -7 -6 -15 -22 -35 -47 -68 -179 -95 -72 -53 -37 -28 -22 -11
R H D F C L E A P Y T G P

Il medesimo calcolo viene ripetuto per le altre strutture secondarie (foglietto, turn e coil) e allamminoacido verr
assegnata la struttura che avr totalizzato il punteggio maggiore.

Negli anni successivi il metodo venne pi volte aggiornato (GORII, GORIII GORIV(1996 database 267 proteine) e
GORV(2002 database 513 proteine)), sia con tavole ricalcolate su database pi estesi che attraverso algoritmi pi
complessi. (Gibrat, Garnier, Robson Further developments of protein secondary structure prediction using
information-theory 1987; J. Garnier e B. Robson, in "Prediction of Protein Structure and the Principles of Protein
Conformation" 1989). Inoltre, mentre le prime versioni predicevano 4 stati (H, E, T e C), nelle versioni successive
venne eliminata la matrice relativa ai turn a causa della eccessiva variabilit dei residui in queste strutture.

Di seguito riportiamo la predizione di struttura secondaria eseguita tramite il programma Garnier (GOR I) per
linibitore della tripsina da pancreas bovino, messo a confronto con lassegnazione effettuata tramite
STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--GGGG-----------EEEEEEETTTTEEEEEEE-----TTTTB--HHHHHHHH--- Stride
-TTTTEE-TTT-TTEEEEEEEETTTTTTEEEEEETTTTTTTTTTTT-HHHHHTTTTT- GOR I
+------+---+-----+++++--++++++++++------++++--++++++-----+

Le 29 croci rosse indicano il numero di residui che il metodo GOR I ha predetto correttamente. Su 58 residui
lefficacia della predizione 29/58 = 50%.

Il medesimo risultato si pu ottenere utilizzando il programma Antheprot (menu Methods Secondary Structure
Prediction Garnier) o con i server

226
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_server.html
http://www.bioinf.manchester.ac.uk/dbbrowser/bioactivity/NPS2.html

Il server http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_server.html ed il programma


Antheprot permettono entrambi di modificare i parametri di decisione (decision constants) per ciascuna delle
quattro strutture secondarie (eliche, foglietti, turn e coil) o di lasciare che questi vengano autodeterminati. Tali
parametri permettono di ottenere migliori risultati nella previsione nel caso si conoscano le percentuali di strutture
secondarie nella proteina. La previsione precedente stata eseguita lasciando i parametri a zero.

Il programma Antheprot permette di effettuare la predizione anche utilizzando GORII (menu Methods
Secondary Structure Prediction Gibrat) nella versione del 1987. Non vi molta chiarezza su quale debba
considerarsi la versione GORII e quale GORIII.
Ad esempio, il server http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gib.html fornisce il
medesimo risultato del programma Antheprot ( Gibrat) presentandolo come GORIII.
1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--GGGG-----------EEEEEEE----EEEEEEE---------B--HHHHHHHH--- Stride
----E----------EEEEEEEEH----E-EEEEE---------------HEEEE--- GOR III
++----+++++++++--++++++-+++++-++++++++++++++-++---+----+++ 42/58 = 72,4%.

Il server http://cib.cf.ocha.ac.jp/bitool/GOR/ usa invece le tavole del 1989 (GORII ?).

La predizione di GORIV pu essere ottenuta utilizzando il programma DOS GORIV.exe o il programma


Windows Unipro UGENE. In rete si pu usare il server
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gor4.html

Di seguito riportiamo la predizione di GORIV per linibitore della tripsina da pancreas bovino, messo a
confronto con lassegnazione effettuata tramite STRIDE sul file PDB 1BPI. Poich GORIV non assegna i
turn, le eliche 310 e i beta bridge per confrontarla con la struttura secondaria prevista da STRIDE
trasformiamo i turn in coil (sostituendo la T con una lineetta -), le eliche 310in alfa eliche (sostituendo la G
con la H) ed i beta bridge in foglietti beta (sostituendo la B con la E)
1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
----------------EEEEEEE-------EEEEE-----------EEEEEEEEEEE- GOR IV
++----++++++++++-++++++-++++--++++++++++++++-+-----------+

Le 38 croci rosse indicano il numero di residui che il metodo GOR IV ha predetto correttamente. Su 58 residui
lefficacia della predizione 38/58 = 65,5%.

La predizione di GORV pu essere ottenuta utilizzando il server http://gor.bb.iastate.edu/. Di seguito


riportiamo la predizione di GORV per linibitore della tripsina da pancreas bovino, messo a confronto con
lassegnazione effettuata tramite STRIDE sul file PDB 1BPI.

227
1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-------------------EEEE-------EEEEE----------------------- GOR V
++----+++++++++++--++++-++++--++++++++++++++-++--------+++

Le 40 croci rosse indicano il numero di residui che il metodo GOR V ha predetto correttamente. Su 58 residui
lefficacia della predizione 40/58 = 70,0%.

Tuttavia GORV deriva da GORIV grazie allintroduzione di allineamenti multipli con proteine omologhe e deve perci
essere considerato un metodo di terza generazione.

A partire dai tardi anni 80 il problema della predizione delle strutture secondarie viene affrontato utilizzando approcci
pi efficienti ed articolati (metodi di seconda generazione) che si avvalgono di database proteici pi estesi, di algoritmi
che utilizzano altre informazioni oltre alla semplice propensione statistica e, soprattutto, di tecniche di
apprendimento automatico (Machine Learning) che sfruttano lomologia con proteine a struttura nota. Lefficienza
predittiva pi elevata, ma non supera il 70%.

Ad esempio, il metodo DPM (Double Prediction Method - Delage & Roux, 1987) esegue una doppia predizione.
Utilizza inizialmente un algoritmo statistico del tutto simile a quello descritto da Chou-Fasman per la predizione delle
strutture secondarie e successivamente un algoritmo per la predizione della classe strutturale della proteina a partire
dalla sua composizione amminoacidica (Nakashima et al, 1986). Le proteine possono infatti essere classificate, in
relazione allincidenza al loro interno di strutture alfa e beta, in 4 classi ((Levitt & Chothia, 1976; Chou, 1989):
- ( pi del 45% di strutture e meno del 5% di strutture )
- ( pi del 45% di strutture e meno del 5% di strutture )
- / (pi del 30% di strutture e pi del 20% di strutture con predominanza di foglietti paralleli)
- + (pi del 30% di strutture e pi del 20% di strutture con predominanza di foglietti antiparalleli)
Queste due predizioni indipendenti permettono di ottimizzare i parametri per la predizione finale della struttura
secondaria. Il metodo stato testato su 59 proteine nel database (cio 10.322 residui) e produce il 72% di successo
nella predizione di classe ed il 61,3% di residui correttamente previsti per i tre stati (elica, foglietto e coil).

Di seguito riportiamo la predizione DPM per linibitore della tripsina da pancreas bovino, messo a confronto
con lassegnazione effettuata tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEETTTTEEEEEEE-----TTTTE--HHHHHHHH--- Stride
---H-------T--HHHEEEEEE-HHH-HEEEEEET----THT----HHHHHH----- DPM
++-+--+++++-++---++++++------++++++-+++++-+--++++++++--+++ Q4=39/58 =67,2%

La predizione stata ottenuta con il server (ma eseguibile anche con Antheprot) http://npsa-pbil.ibcp.fr/cgi-
bin/npsa_automat.pl?page=/NPSA/npsa_dpm.html

Tuttavia la novit pi significativa dei metodi di seconda generazione lutilizzo di tecniche di apprendimento
automatico che utilizzano una predizione per omologia con proteine a struttura nota.

La predizione per omologia si basa sulla constatazione che durante levoluzione la struttura proteica risulta pi stabile
e cambia pi lentamente della successione amminoacidica ad essa associata. Cos sequenze amminoacidiche diverse,

228
ma simili, possono adottare la medesima struttura. In altre parole, le proteine appartengono ad un numero limitato di
famiglie strutturali e le proteine della stessa famiglia (omologhe) hanno strutture tridimensionali molto simili ed
evolutivamente conservate (Chothia e Lesk - 1986). Per questo motivo i metodi per omologia sono anche noti come
metodi evolutivi. Tali metodi confrontano dunque la sequenza di amminoacidi di una proteina sconosciuta con quella
di proteine omologhe e quindi evolutivamente correlate, permettondo di costruire la struttura secondaria di una
proteina sulla base della similarit di sequenza con uno o pi membri di una famiglia strutturale-funzionale di
struttura nota che viene usata come stampo o modello (template).
Lomologia tra due sequenze si deduce dalla loro similarit in sequenza.
Affinch due sequenze di pi di 200 residui possano ragionevolmente definirsi simili e quindi omologhe la percentuale
di amminoacidi identici deve essere superiore al 25% (Sander e Schneider - 1991). Per sequenze pi brevi la
percentuale di identit sale. Al di sotto, tra il 15 ed il 25% di identit, esiste una zona grigia (twilight zone) in cui la
similarit in sequenza potrebbe ancora essere indice di omologia, ma potrebbe anche essere casuale.

I metodi evolutivi di predizione della struttura secondaria sono stati sviluppati utilizzando algoritmi di apprendimento
automatico (machine learning methods). Gli algoritmi di apprendimento automatico pi utilizzati in bioinformatica
sono le reti neurali artificiali (ANN Artificial Neural Networks) e gli Hidden Markov Models (HMM).

I metodi per omologia sono stati sviluppati utilizzando per lo pi algoritmi di apprendimento automatico.
Lapprendimento automatico (Machine Learning) rappresenta una delle aree fondamentali dell'intelligenza artificiale e
si occupa della realizzazione di sistemi e algoritmi che imparano a riconoscere automaticamente modelli complessi e a
prendere decisioni intelligenti basate sui dati per la sintesi di nuova conoscenza.
In particolare vengono utilizzati per lo pi algoritmi di apprendimento automatico supervisionato. Lapprendimento
supervisionato quella parte di apprendimento automatico che necessita di un preventivo
addestramento/apprendimento (training) in cui lalgoritmo impara a riconoscere i dati e ad effettuare previsioni
corrette. Durante il processo di addestramento lalgoritmo viene messo a contatto con una serie di esempi di
input/output che gli permettono di inferire una funzione a partire dai dati di addestramento. La funzione inferita da
un buon algoritmo di apprendimento automatico dovrebbe essere in grado di predire il valore corretto di uscita per un
qualsiasi oggetto di input, anche se questo non stato presentato in fase di apprendimento.

Gli algoritmi di apprendimento automatico pi utilizzati in bioinformatica sono le reti neurali artificiali (ANN - Artificial
Neural Networks), lalgoritmo del vicino pi prossimo (kNN k Nearest Neighbor), le macchine a vettori di supporto
(SVM - Support Vector Machines) e i modelli di Markov nascosti (HMM - Hidden Markov Models).

229
Lalgoritmo k-Nearest Neighbor il pi semplice tra gli algoritmi di apprendimento automatico. Classifica gli oggetti
basandosi sulle caratteristiche dei k oggetti vicini pi prossimi (simili) a quello considerato. Un oggetto assegnato alla
classe C se questa la pi frequente fra i k oggetti pi vicini all'oggetto sotto esame. La vicinanza (similarit) si misura
in base alla distanza fra gli oggetti. La distanza viene misurata secondo criteri diversi che devono essere definiti sulla
base della natura degli oggetti e che individuano la metrica dellalgoritmo. La metrica si traduce in genere in un
sistema di punteggi messi a punto durante la fase di training. Un oggetto classificato in base alla maggioranza dei
voti (punteggi) dei suoi k vicini. I vicini sono presi da un insieme di oggetti di cui nota la classificazione corretta.

La scelta del valore di k (numero di vicini da considerare) delicata, poich pu determinare risultati diversi nella
classificazione.
Si veda, ad esempio limmagine successiva. Se k = 3 loggetto da classificare si confronter con i suoi 3 vicini pi
prossimi (2 triangoli rossi ed un quadrato blu) e verr classificato come un triangolo rosso. Se k = 5 loggetto da
classificare si confronter con i suoi 5 vicini pi prossimi (2 triangoli rossi ed 3 quadrati blu) e verr classificato come
un quadrato blu.

In alternativa, data una soglia di similarit k i vicini sono tutti gli oggetti che presentano una distanza a k.

Lalgoritmo k-Nearest Neighbor fu usato per la prima volta per la predizione di strutture secondarie da Levin nel 1986
(Levin, Robson & Garnier - An algorithm for secondary structure determination in proteins based on sequence
similarity).
Il metodo si basa sul presupposto che piccoli peptidi con sequenze simili dovrebbero adottare una identica struttura
secondaria. Inizialmente il metodo era basato su eptapeptidi. Ogni eptapeptide della sequenza la cui struttura deve
essere predetta viene confrontato con tutti gli eptapeptidi di tutte le proteine del database Kabsch & Sander (1983) la
cui struttura secondaria nota, utilizzando una matrice di similarit che permetter di attribuire al vicino un
punteggio. Pi elevato il punteggio e maggiore sar la similarit. Vengono considerati solo gli eptapeptidi che
superano il punteggio soglia di 7. Il punteggio di ogni eptapeptide che supera il 7 viene assegnato e sommato solo allo
lo stato (H, E, T o C) del residuo che nella stessa posizione dello stato osservato per il peptide simile.

Supponiamo, ad esempio, di voler prevedere la struttura secondaria del peptide KIPLMGT. Lo confrontiamo con il
peptide A-V-L-K-P-S-I di cui conosciamo la struttura H-H-H-C-C-T-T. Utilizziamo la seguente matrice di similarit per
assegnare il punteggio di similarit al peptide A-V-L-K-P-S-I.

230
Secondary structure matrix of Levin et al.1986
G P D E A N Q S T K R H V I M C L F Y W
G 2 0 0 0 0 0 0 0 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
P 0 3 0 -1 -1 0 0 0 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
D 0 0 2 1 0 1 0 0 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
E 0 -1 1 2 1 0 1 0 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
A 0 -1 0 1 2 0 0 1 0 0 0 0 0 0 0 0 0 -1 -1 -1
N 0 0 1 0 0 3 1 0 0 1 0 0 -1 -1 -1 0 -1 -1 -1 -1
Q 0 0 0 1 0 1 2 0 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
S 0 0 0 0 1 0 0 2 0 0 0 0 -1 -1 -1 0 -1 -1 -1 -1
T 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 -1 -1 -1
K 0 0 0 0 0 1 0 0 0 2 1 0 -1 -1 -1 0 -1 -1 -1 -1
R 0 0 0 0 0 0 0 0 0 1 2 0 -1 -1 -1 0 -1 -1 -1 0
H 0 0 0 0 0 0 0 0 0 0 0 2 -1 -1 -1 0 -1 -1 0 -1
V -1 -1 -1 -1 0 -1 -1 -1 0 -1 -1 -1 2 1 0 0 1 0 0 0
I -1 -1 -1 -1 0 -1 -1 -1 0 -1 -1 -1 1 2 0 0 0 1 0 0
M -1 -1 -1 -1 0 -1 -1 -1 0 -1 -1 -1 0 0 2 0 2 0 0 0
C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 -1 -1 -1
L -1 -1 -1 -1 0 -1 -1 -1 0 -1 -1 -1 1 0 2 0 2 0 0 0
F -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 1 0 -1 0 2 1 0
Y -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 -1 0 1 2 0
W -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 -1 0 0 0 -1 0 0 0 2

In giallo sono evidenziati i punteggi che si individuano intersecando (per ogni posizione delleptapeptide) i residui del
peptide da predire, posti nella riga orizzontale in alto, con i residui del peptide a struttura nota, posti nella colonna
verticale a sinistra. I punteggi ottenuti dal confronto sono riportati nella tabella successiva.

K I P L M G T
0 1 -1 -1 -1 0 0
A V L K P S I
H H H C C T T

Attribuiamo quindi al peptide A-V-L-K-P-S-I il seguente punteggio 0 + 1 1 1 1 + 0 + 0 = -2. Poich ha totalizzato


un punteggio inferiore a 7 il peptide A-V-L-K-P-S-I viene scartato e la sua struttura secondaria non verr considerata
per la predizione.

Eseguiamo ora il medesimo confronto con i 2 peptidi:


R-M-P-V-A-G-T con struttura secondaria H-H-C-C-C-T-T ed un punteggio di similarit 1+0+3+1+0+2+2= 9
K-I-P-V-A-G-T con struttura secondaria H-H-H-H-C-E-E ed un punteggio di similarit T2+2+3+1+0+2+2=13

K I P L M G T
1 0 3 1 0 2 2
R M P V A G T
H H C C C T T
2 2 3 1 0 2 2
K I P V A G T
H H H H C E E

Poich entrambi superano la soglia del 7 li utilizziamo per predire la struttura secondaria, riportando il loro punteggio
nella tabella seguente.

231
Consideriamo ad esempio la prima posizione.
- Leptapeptide R-M-P-V-A-G-T presenta uno stato H in prima posizione e dunque assegniamo i suoi 9 punti alla
colonna Elica in corrispondenza del primo residuo (K) delleptapeptide da predire.
- Anche leptapeptide K-I-P-V-A-G-T presenta uno stato H in prima posizione e dunque assegniamo i suoi 13
punti alla colonna Elica in corrispondenza del primo residuo (K) delleptapeptide da predire.
Consideriamo ora la sesta posizione.
- Leptapeptide R-M-P-V-A-G-T presenta uno stato T in sesta posizione e dunque assegniamo i suoi 9 punti alla
colonna Turn in corrispondenza del sesto residuo (G) delleptapeptide da predire.
- Leptapeptide K-I-P-V-A-G-T presenta uno stato E in sesta posizione e dunque assegniamo i suoi 13 punti alla
colonna Foglietto in corrispondenza del sesto residuo (G) delleptapeptide da predire.

Elica Foglietto Turn Coil Predizione


K 9+13 H
I 9+13 H
P 13 9 H
L 13 9 H
M 9+9 C
G 13 9 E
T 13 9 E

Una volta che il confronto stato completato, la struttura secondaria predetta sar quella che otterr il punteggio pi
alto per ciascun residuo considerato.

Di seguito riportiamo la predizione per linibitore della tripsina da pancreas bovino effettuata tramite
Antheprot (menu Methods Secondary Structure Prediction Levin), messo a confronto con lassegnazione
effettuata tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEETTTTEEEEEEE-----TTTTE--HHHHHHHH--- Stride
----E------------EEEEEE--TT----EEEE------------HHHHHHH---- Levin
++----+++++++++++++++++--++----+++++++++-----+++++++++-+++ Q4=42/58 =72,4%

Gli algoritmi di apprendimento automatico di maggior successo in bioinformatica sono tuttavia le reti
neurali (o neuronali) artificiali. I modelli che usano reti neurali sono anche noti come modelli
connessionistici.

Le reti neurali artificiali (ANN - Artificial Neural Networks) sono state sviluppate per simulare alcuni aspetti
dellelaborazione e lapprendimento dellinformazione da parte del cervello. Sono sostanzialmente degli
algoritmi in grado di associare a input complessi (pattern) degli output semplici (classi). Per questo motivo
sono state utilizzate in molte applicazioni (riconoscimento di immagini, lettura automatica di scrittura, etc.)
e recentemente anche nella biologia computazionale per lanalisi di sequenze e riconoscimento di strutture
secondarie.

232
Larchitettura di una rete neurale rispecchia, in prima approssimazione, quella del sistema nervoso
centrale: una serie di elementi interconnessi (da cui il termine connessionista), ciascuno dei quali ha molti
ingressi, mediati da pesi variabili (sinapsi), ed una sola uscita (assone), il cui valore dipende in modo
generalmente non lineare dagli ingressi pesati. I valori dei pesi, che determinano la risposta del sistema ad
un determinato ingresso, dipendono in modo adattivo (si utilizza frequentemente la parola apprendimento)
dagli esempi che vengono utilizzati per la costruzione delle associazioni ingresso/uscita (o pattern/classe). Il
compito di una rete sostanzialmente quello di decidere se un oggetto appartiene o meno ad una data
classe (ad esempio se un residuo appartiene ad unalfa elica).

Una rete neurale costituita da un gruppo di unit interconnesse tra loro (attraverso sinapsi) organizzate
secondo architetture diverse. Poich stiamo parlando di sistemi di calcolo, gli oggetti che vogliamo
classificare dovranno essere descritti da valori numerici che costituiscono i dati di ingresso della rete. In
uscita, la rete fornir a sua volta un valore numerico che costituisce la risposta ai parametri di ingresso. La
rete neurale con architettura pi semplice il cosiddetto perceptrone o percettrone

Nellesempio descritto nellimmagine che segue, il percettrone deve elaborare le informazioni in entrata (x1
x2..xn) e pesarle utilizzando dei fattori di peso (w1 w2wn) per ottenere una risposta S che viene confrontata
con un parametro di soglia T (threshold). Se S > T il percettrone risponde 1, altrimenti risponde 0.

Una rete neurale un insieme di percettroni tra loro interconnessi in modo da formare una particolare
architettura. La topologia delle connessioni definisce il tipo di rete. Ad esempio, si definiscono feed-forward
le reti in cui i neuroni sono organizzati in strati gerarchici ed il segnale fluisce in una unica direzione.
Limmagine successiva rappresenta una rete di questo tipo a 3 strati, Lo strato intermedio si definisce strato
nascosto.

233
Le reti neurali sono dunque dei circuiti di informazioni con un numero fissato di nodi (che sono definiti stati
in cui immagazzinare le informazioni risultanti dalle varie interconnessioni ed una precisa architettura che
rappresenta linterconnessione tra i vari nodi.

Per funzionare, la rete deve imparare a riconoscere e a classificare gli oggetti in ingresso (apprendimento).
Per far questo deve modulare i pesi delle sinapsi. Si deve quindi disporre di una base di dati di
allenamento (training set) per la quale nota la classificazione esatta. Si presentano alla rete i dati
sperimentali e si cerca un insieme di pesi w che minimizzino lerrore che compie la rete neurale nel
classificare correttamente gli oggetti in ingresso. I pesi sono inizializzati con numeri casuali. I fattori di peso
w che controllano il flusso di informazione e che il sistema pu variare durante lapprendimento simulano
la soglia per i neuroni. Nel caso della previsione della struttura secondaria molto importante far allenare
la rete su un insieme di strutture note non ridondante, che non contenga cio sequenze omologhe.

In definitiva, durante il processo di apprendimento automatico, la rete si occupa di inferire una funzione a
partire dai dati di addestramento. La funzione inferita da un buon algoritmo di apprendimento automatico
dovrebbe essere in grado di predire il valore corretto di uscita per un qualsiasi oggetto di input, anche se
questo non stato presentato in fase di apprendimento.

Se io fornisco ad una rete neurale una informazione ed il suo risultato (training set) gli stati memorizzano il
modo di andare dallinformazione al risultato sfruttando le interconnessioni. Se io ripeto pi volte la fase di
training con set diversi, ma sempre veri, la rete sar in grado di arrivare da sola al risultato (fase di
apprendimento). Se io fornisco alla rete una informazione di cui non so il risultato, essa risponder con il
risultato secondo lei pi appropriato, sulla base di quanto ha imparato dai training set.

234
Le tre fasi di funzionamento di una rete sono:
Training: sviluppo del metodo utilizzando sequenze di proteine non omologhe a struttura nota
Test: prova del metodo su sequenze proteiche a struttura nota
Validazione: analisi statistica dei risultati ottenuti

In definitiva le reti neurali


Sono strutture computazionali basate liberamente sullanatomia e la fisiologia delle reti neurali biologiche
Pesano diversamente gli input che ricevono.
Imparano da un set di esempi: settano i propri parametri (pesi) in modo da dare la risposta richiesta.
Presentano un processo di apprendimento adattivo, che dipende cio dallesperienza iniziale o dal set di
dati forniti per il suo allenamento (training).
Possono considerarsi un esperto del tipo di informazione da analizzare, per cui sono in grado di fornire
previsioni su situazioni nuove.

Il primo due algoritmi basati su di una rete neurale artificiale per la predizione di strutture secondarie furono descritti
da Qian e Sejnowski nel 1988 ( Predicting the Secondary Structure of Globular Proteins Using Neural Network Models)
e da Holley and Karplus nel 1989 (Protein secondary structure prediction with a neural net).

Lalgoritmo di Qian e Sejnowski deriva da NetTalk (Sejnowski & Rosenberg, 1987), una applicazione di una rete neurale
al problema del text-to-speech. Nel sistema NetTalk l'ingresso alla rete costituito da stringhe di lettere che
rappresentano le parole, mentre l'uscita sono sequenze di fonemi che rappresentano il corrispondente discorso
parlato. Predire la struttura secondaria di una proteina un problema simile, in cui l'input, simboli analoghi alle
lettere, sono amminoacidi e loutput, analogo ai fonemi, sono le strutture secondarie.

Di seguito riportiamo la predizione per linibitore della tripsina da pancreas bovino effettuata tramite il
server online http://cib.cf.ocha.ac.jp/bitool/NN/ che utilizza lalgoritmo Qian e Sejnowski,
messo a confronto con lassegnazione effettuata tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
----------------EEEEEE--------EEEE-----------------HH----- Qian & Sej.
++----++++++++++-+++++--++++--++++-+++++++++-++----++--+++ Q3=41/58 =70,7%

Naturalmente esistono anche metodi ibridi che utilizzano tecniche miste e considerano pi di una informazione per
prevedere la struttura secondaria. Ad esempio PREDATOR (Frishman and Argos, 1996 - Incorporation of long-distance
interactions in a secondary structure prediction algorithm) dallanalisi di una sequenza amminoacidica ricava due
tavole di propensione, dal cui confronto ottiene la predizione finale. Una si basa sul riconoscimento di residui
potenzialmente coinvolti in legami idrogeno allinterno delle strutture secondarie (foglietti paralleli, antiparalleli ed
eliche), mentre laltra viene costruita sfruttando un metodo di omologia attraverso un algoritmo k-Nearest-Neighbor
che confronta i 25 segmenti (k = 25) pi vicini ad un segmento scorrevole di 13 residui. Gli autori dichiarano
unaccuratezza media di previsione del 68% che pu essere aumentata del 5-7% se si fornisce a PREDATOR invece che
una singola sequenza un allineamento multiplo con sequenze omologhe.

Di seguito riportiamo la predizione di PREDATOR per linibitore della tripsina da pancreas bovino effettuata
tramite il server online http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html messo a confronto con

235
lassegnazione effettuata tramite STRIDE sul file PDB 1BPI. Lo stesso risultato si pu ottenere con il programma
MS-DOS predator.exe o con il programma Windows Antheprot.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-----------------EEEEEEE----E-EEEEE------------HHHHHHHHH-- Predator
++----+++++++++++++++++++++++-++++++++++++++-++++++++++-++ Q3=51/58 =87,9%

Un sensibile aumento di efficienza nella predizione (superiore al 70%) si realizz grazie alla messa a punto agli inizi
degli anni 90 dei metodi predittivi di terza generazione (metodi evolutivi). Come abbiamo gi detto, la struttura
secondaria delle proteine tende ad essere molto meglio conservata della struttura primaria e tutte le sequenze che
mostrano una elevata percentuale di AA uguali in posizione corrispondente hanno strutture secondarie molto simili.
Data una sequenza X di cui si ignora la struttura, se possibile trovare un insieme di sequenze note che, allineate
verso X mostrano con questa una identit percentuale di AA superiore ad una certa soglia, si pu pensare che
nell'insieme di sequenze trovato vi sia maggiore informazione sulla struttura di X rispetto a quella che si trova nella
sola sequenza degli AA di X. Tale informazione detta informazione evolutiva e la pratica di generare l'insieme per
ricavare tale informazione ai fini della predizione nota come allineamento di sequenze multiple omologhe (MSA).

A conferma della congettura che in c' pi informazione che nella sola X, sull'allineamento multiplo si basa il salto di
qualit fatto dai sistemi di predizione delle strutture secondarie di ultima generazione. Si stima infatti che lutilizzo di
allineamenti multipli in sostituzione della singola sequenza amminoacidica sia in grado di aumentare lefficienza di un
sistema predittivo di 6-8 punti percentuali.
I metodi evolutivi utilizzano software in grado di effettuare allineamenti multipli (BLAST, ClustalW etc) e tipicamente
algoritmi di apprendimento automatico (in primis reti neurali)) che ricercano relazioni tra posizioni distanti allinterno
dellallineamento multiplo (informazioni evolutive), fondamentali per la formazione della struttura secondaria. La
considerazione biologica che da questi allineamenti si possono osservare delle conservazioni che rispettano la
struttura tridimensionale della famiglia proteica. I metodi evolutivi utilizzano quindi come input di una rete neurale (o
di un altro algoritmo di apprendimento automatico) un profilo proveniente da un allineamento multiplo (ricavato da
una ricerca in banche dati di grandi dimensioni) della sequenza di cui si vuole determinare la struttura secondaria con
le proteine con cui condivide zone di similarit. I risultati che si ottengono sono sottoposti ad una analisi statistica per
valutare lattendibilit delle predizioni per ogni residuo.
I principali database di strutture secondarie usati dagli algoritmi evolutivi sono DSSP (Kabsch & Sander), generato
tramite il programma DSSP che ricostruisce le strutture secondarie da un file PDB, e HSSP (Sander & Schneider).

Il primo sistema ad utilizzare informazioni evolutive per la predizione di strutture secondarie fu PHD (Profile
HeiDelberg Rost, Sander & Schneider, 1993). La sostanziale innovazione di PHD sta nell'utilizzo come ingresso per la
rete neurale di un profilo di numeri reali che rappresentano le frequenze dei vari AA in una posizione
dell'allineamento. Il sistema di predizione PHD ha dimostrato un livello di prestazioni intorno a Q3=72% e nel 1996
risultato il miglior predittore nella competizione CASP, una gara di predizione nella quale ai competitori vengono
sottoposte alcune sequenze di cui ancora non nota la struttura.

PHD utilizza 3 livelli di reti neurali.


PHD utilizza BLAST per individuare proteine omologhe nel database HSSP. BLAST (Basic Local
Alignment Search Tool) un algoritmo in grado di confrontare una sequenza di amminoacidi o
nucleotidi con quelle di un database per individuare allinterno di questultimo le sequenze che
presentano un grado di similitudine (omologia) al di sopra di una soglia prefissata.

236
Le sequenze omologhe trovate con BLAST vengono poi confrontate usando lalgoritmo MaxHorn
per formare un allineamento multiplo (MSA multiple sequence allineament). Le frequenze con cui
compaiono gli amminoacidi e i gap (inserzioni/delezioni) in ciascuna posizione vanno a formare un
profilo utilizzato per la predizione dalla rete neurale.
Il profilo cos generato viene utilizzato come input di una prima rete neurale (sequence to structure)
che correla le frequenze dei diversi residui allinterno di una finestra scorrevole di 13 residui con la
struttura secondaria del residuo centrale (il settimo) della finestra. Un procedimento analogo a
quello utilizzato da GOR III, con la differenza che in questo caso viene usata una rete neurale.
Loutput della prima rete, costituito dalle informazioni sulle strutture secondarie di ciascun residuo,
va a formare linput di una seconda rete neurale (structure to structure) che analizza finestre di 17
residui per predire nuovamente la struttura del residui centrale (lottavo). Questa seconda rete
stata allenata per scartare eventuali predizioni di strutture secondarie eccessivamente brevi (ad
esempio alfa eliche formate da 2 o 3 residui).
Loutput di questa seconda rete, costituito da 3 valori di propensione per ciascun residuo (uno per
ciascuna possibile struttura secondaria: Helix, Sheet, Coil) viene infine sottoposto ad una serie di
reti (terzo livello) che costituiscono una giuria (jury prediction networks) in grado di votare e
decidere quale delle tre strutture secondarie attribuire al residuo. I risultati che si ottengono sono
sottoposti ad una analisi statistica per valutare lattendibilit (o confidenza) delle predizioni
(reliability) per ogni residuo. Ad ogni posizione di sequenza predetta associato un fattore di
confidenza da 0 a 9 che indica la probabilit che la predizione sia corretta.
confidenza < 5 bassa affidabilit
confidenza = 57 media affidabilit
confidenza > 7 alta affidabilit
PHD presenta unaccuratezza complessiva di predizione di poco superiore al 70%, con unaccuratezza
relativa ai foglietti beta (i pi difficili da prevedere) intorno al 65%. Alle predizioni con alta affidabilit
possibile assegnare unaccuratezza superiore all80%.
Di seguito riportiamo la predizione per linibitore della tripsina da pancreas bovino effettuata tramite il
server online http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_phd.html che utilizza
PHD, messo a confronto con lassegnazione effettuata tramite STRIDE sul file PDB 1BPI. Antheprot ottiene
lo stesso risultato interrogando il server.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-----------------EEEEEE-----EEEEEEE------------HHHHHHHH--- PHD
++----+++++++++++++++++-++++++++++++++++++++++++++++++++++ Q3=53/58 =91,4%
9997788999999531052357529887488889535768999977767878652799 Confidenza
************** * *** **** ****** ****************** ***

Vista lefficacia degli allineamenti multipli nellaumentare laccuratezza della previsione si cercato di
perfezionare gli algoritmi di allineamento multiplo destinati ad elaborare i profili di input per le reti neurali
e di utilizzare database sempre pi ampi.
PSIPRED (D.T. Jones - Protein secondary structure prediction based on position-specific scoring matrices,
1999) utilizza ad esempio i profili di PSIBLAST per migliorare linformazione derivante dallomologia a
disposizione della rete neurale ed il training avvenuto su pi proteine rispetto a PHD. Utilizza una finestra
scorrevole di 15 amminoacidi (nella versione originale) scelta dopo vari training a finestre diverse.

237
PSIBLAST una variante di BLAST che utilizza matrici di pesi per ricercare similarit allinterno di banche
dati. Il programma costruisce, a partire da un gruppo di sequenze trovate, una matrice di punteggio
posizione-specifica (PSSM - position-specific-scoring-matrix) e la utilizza per effettuare una ulteriore ricerca.
Il programma procede in maniera iterativa facendo successivi cicli di ricerca. Il primo ciclo consiste in una
corsa di BLAST con una matrice standard e genera un primo gruppo di sequenze simili. A partire da questo
punto, vengono effettuati cicli successivi in cui vengono utilizzate PSSM generate a partire dai risultati del
ciclo precedente. Lesecuzione finisce quando stato effettuato il numero predeterminato di cicli (di solito
10) oppure viene interrotta anticipatamente se, ad un ciclo, vengono trovate le stesse sequenze del ciclo
precedente. Grazie a questo meccanismo, PSIBLAST pu essere molto pi sensibile di BLAST e riesce a
identificare sequenze che sfuggirebbero allanalisi con BLAST.
PSIPRED utilizza due reti neurali. La prima accetta come input una PSSM generata da PSIBLAST e genera una
predizione di struttura secondaria. La seconda filtra e corregge il risultato della prima e genera loutput
definitivo, valutando la confidenza per ogni residuo
PSIPRED ha subito numerose revisioni.

Di seguito riportiamo la predizione di PSIPRED per linibitore della tripsina da pancreas bovino effettuata
tramite il server online http://www.ibi.vu.nl/programs/sympredwww/ (PSIPRED v. 2.5) e tramite il server
http://bioinf.cs.ucl.ac.uk/psipred/ (PSIPRED v. 3.3) messo a confronto con lassegnazione effettuata
tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
------------------EEEEEE-------EEEE------------HHHHHHH---- PSIPRED 3.3
++----+++++++++++-++++++++++---+++++++++++++-+++++++++-+++ Q3=48/58 =82,8%
---HH------------EEEEEEE----EEEEEEE------------HHHHHHHH--- PSIPRED 2.5
++-++-++++++++++++++++++++++++++++++++++++++-+++++-+++++++ Q3=54/58 =93,1%

Uno dei limiti dei metodi come PHD o PSIPRED che utilizzano finestre di residui di lunghezza fissa per
predire la struttura secondaria del residuo centrale e continuano ad aver maggior difficolt a predire i
foglietti beta rispetto alle alfa eliche. Per migliorare questo aspetto SSpro (Cheng, Randall, Sweredoski, &
Baldi 2002) utilizza lintera sequenza proteica con un nuovo tipo di algoritmo basato sulle reti neurali
bidirezionali ricorrenti (BRNN - Bidirectional Recurrent Neural Network). Una rete ricorrente un modello
neurale in cui presente un flusso bidirezionale d'informazioni. In altri termini, mentre nelle reti di tipo
feedforward (come quelle utilizzate da PHD e PSIPRED) la propagazione dei segnali avviene unicamente
nella direzione che conduce dagli ingressi alle uscite, nelle reti ricorrenti tale propagazione pu anche
manifestarsi da uno strato neurale successivo ad uno precedente, oppure tra neuroni appartenenti ad uno
stesso strato, e persino tra un neurone e s stesso.
La novit sta nel fatto che in questo modo SSpro in grado di allargare dinamicamente la finestra
dellintorno locale durante il processo di valutazione della propensione per una certa struttura secondaria.
Utilizzando profili di allineamento multiplo generati da PSI-BLAST, SSpro in grado di cogliere significative
relazioni di lungo raggio tipiche dei beta strand.

238
Di seguito riportiamo la predizione di SSpro per linibitore della tripsina da pancreas bovino effettuata
tramite il server online http://casp.rnet.missouri.edu/sspro4.html messo a confronto con lassegnazione
effettuata tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
1234567890123456789012345678901234567890123456789012345678
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- SSpro
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ Q3=58/58 =100%

Altri esempi di metodi predittivi che usano reti neurali e allineamenti multipli sono:
PSSpred (Protein Secondary Structure PREDiction) http://zhanglab.ccmb.med.umich.edu/PSSpred/
APSSP2 (Advanced Protein Secondary Structure Prediction) http://www.imtech.res.in/raghava/apssp2/
YASPIN http://www.ibi.vu.nl/programs/yaspinwww/

Il successo predittivo legato allutilizzo di allineamenti multipli ha incentivato il loro impiego anche
allinterno di algoritmi gi sperimentati con sequenze singole. Lalgoritmo Nearest Neighbor (gi usato da
Levin nel 1986) stato utilizzato con allineamenti multipli in diversi metodi predittivi di terza generazione
come, ad esempio, da Salamov e Solovyev con NNSSP (Nearest-Neighbor Secondary Structure Prediction)
nel 1995 (Salamov & Solovyev - Prediction of protein secondary structure by combining nearest-neighbor
algorithms and multiple sequence alignments), da Geourjon e Deleage con SOPMA (Self Optimised
Prediction from Multiple Alignment) nel 1995 (Geourjon C, Deleage G. - SOPMA: significant improvements
in protein secondary structure prediction by consensus prediction from multiple alignments) e dallo stesso
Levin con SIMPA96 (SIMilar Peptide Analysis) nel 1997 (Levin - Exploring the limits of nearest neighbour
secondary structure prediction).

Le predizioni di questi ultimi tre metodi possono essere ottenute utilizzando I seguenti server
NNSSP
http://linux1.softberry.com/berry.phtml?topic=nnssp&group=programs&subgroup=propt
SOPMA
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html
SIMPA96
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_simpa96.html

Anche se le reti neurali restano lalgoritmo pi utilizzato, alcuni metodi di predizione di terza generazione
hanno sperimentato con successo anche algoritmi di apprendimento automatico diversi, come i Modelli di
Markov Nascosti (HMM - Hidden Markov Models) e le Macchine a vettori di supporto (SVM - Support
Vector Machines).

Ad esempio, SAM (Sequence Alignment and Modeling System Karplus et al. 1998) utilizza HMM, mentre
YASSPP (YASSPP: Better kernels and coding schemes lead to improvements in SVM-based secondary
structure prediction - Karypis G. 2006) si basa su SVM.

Le predizioni di SAM e YASSPP possono essere ottenute utilizzando rispettivamente i server

239
http://compbio.soe.ucsc.edu/SAM_T08/T08-query.html
http://glaros.dtc.umn.edu/yasspp/

Come abbiamo detto, gli algoritmi di apprendimento automatico sono i pi utilizzati dai metodi di terza
generazione per elaborare le informazioni evolutive provenienti dagli allineamenti multipli., tuttavia sono
stati messi a punto anche approcci alternativi. Uno degli esempi pi interessanti il metodo DSC
(Discrimination of Protein Secondary Structure Class) di King e Sternberg (DSC: Identification and
application of the concepts important for accurate and reliable protein secondary structure prediction;
1996). DSC accetta come input sia una sequenza singola che un allineamento multiplo, valutando in questo
secondo caso le informazioni evolutive in esso contenute. Per effettuare la predizione DSC individua e
separa le diverse componenti che intervengono nella determinazione della struttura secondaria,
valutandole singolarmente attraverso una semplice funzione statistica di analisi discriminante. L'analisi
discriminante un metodo semplice ed efficace di analisi statistica che permette di classificare oggetti,
attribuendoli a classi, usando variabili che si ritiene abbiano un'importanza per la bont dell'attribuzione.
Le variabili utilizzate per la classificazione da DSC sono:
i valori di propensione di ciascun residuo calcolati secondo il metodo GOR
la distanza del residuo dallestremit della catena proteica. I residui finali presentano infatti meno
vincoli sterici ed una maggior flessibilit nel partecipare alle strutture secondarie.
lidrofobicit dei residui (Eisenberg 1984) assumendo che si trovino in alfa-elica o in foglietto beta
inserzioni e delezioni (gap) individuate con lallineamento multiplo
il momento di conservazione che misura il grado di variabilit di una certa posizione.
Di seguito riportiamo la predizione di DSC per linibitore della tripsina da pancreas bovino effettuata
tramite il programma Discovery Studio della Accelrys, messo a confronto con lassegnazione effettuata
tramite STRIDE sul file PDB 1BPI.

1 2 3 4 5
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
----------------HHHHHHH-------EEEE-------------HHHHHHH---- DSC
0001110111111113699999742211112232311344442333355867642111 PROB-H
1114441100111123210000111101226656310101110111100111131111 PROB-E
9995559899888874201111257798772222489665558666655132337888 PROB-C
++----++++++++++--------++++--++++-+++++++++-+++++++++-+++ Q3=41/58 =70,7%

Il Q3 fornisce lefficienza media di un algoritmo nel predire le tre strutture secondarie (H, E, C), tuttavia
lefficienza per ciascuna struttura pu essere molto diversa. Un algoritmo pu presentare ad esempio un
QH (accuratezza nella predizione delle eliche H) molto maggiore del QE (accuratezza nella previsione dei
foglietti E) o viceversa.
Ad esempio, PSIPRED in grado di predire meglio le -eliche, mentre ssPRO funziona meglio con i -strand.
Unidea abbastanza ovvia sarebbe quindi quella di combinare i risultati di pi metodi per ottenere
predizioni pi affidabili. Questa via praticata dai cosiddetti metodi consenso o metapredittori, che
mettono a confronto gli output di diversi algoritmi per ottenere una struttura secondaria finale che risulta
essere una sorta di media pesata.

240
JPRED un metapredittore che combina i risultati di 6 predittori: DSC (King e Sternberg. 1996), PHD (Rost e
Sander, 1993), NNSSP (Salamov e Solovyev, 1995), PREDATOR (Frishman e Argos. 1997), ZPRED (Zvelebil et
al., 1987) e MULPRED (Barton. 1988, unpublished).
Di seguito riportiamo la predizione di JPRED http://www.compbio.dundee.ac.uk/~www-jpred/ per
linibitore della tripsina da pancreas bovino, messo a confronto con lassegnazione effettuata tramite
STRIDE sul file PDB 1BPI.

1 2 3 4 5
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-----------------EEEEEE-----EEEEEEE------------HHHHHHHH--- JPRED
++----+++++++++++++++++-++++++++++++++++++++-+++++++++++++ Q3=52/58 =89,7%

SYMPRED un metapredittore che combina i risultati di PHD, PROF, SSpro Predator, YASPIN, JNet e
PSIPred. Utilizzando il server http://www.ibi.vu.nl/programs/sympredwww/ possibile selezionare solo
alcuni dei predittori utilizzati da Sympred. Di seguito riportiamo la predizione di SYMPRED per linibitore
della tripsina da pancreas bovino, messo a confronto con lassegnazione effettuata tramite STRIDE sul file
PDB 1BPI ed ai risultati di tutti i predittori che utilizza.

1 2 3 4 5
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA AA
--------------EE-EEEEEE------EEEEEE------------HHHHHHHH--- PHD
-----------------EEEEEEE----EEEEEEE------------HHHHHHHH--- PROF
---H----------HHH-HHHEE-------EEEEE------------HHHHHHHH--- SSPRO
-----------------EEEEEEE----E-EEEEE------------HHHHHHHHH-- PREDATOR
-----------------EEEEEE-----EEEEEEE------------HHHHHHHH--- YASPIN
----------------EEEEEEEE-----EEEEEEE----------HHHHHHHH---- JNET
---HH------------EEEEEEE----EEEEEEE------------HHHHHHHH--- PSIPRED
__________________________________________________________________

--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-----------------EEEEEEE----EEEEEEE------------HHHHHHHH--- SYMPRED
++----++++++++++++++++++++++++++++++++++++++-+++++++++++++ Q3=53/58 =91,4%

Un ultimo esempio di metapredittore CONCORD che usa PSIPRED, DSC, GOR IV, Predator, PROF, PROFphd
e SSpro. Di seguito riportiamo la predizione di CONCORD http://helios.princeton.edu/CONCORD/ per linibitore
della tripsina da pancreas bovino, messo a confronto con lassegnazione effettuata tramite STRIDE sul file
PDB 1BPI

241
1 2 3 4 5
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
--HHHH-----------EEEEEEE----EEEEEEE---------E--HHHHHHHH--- Stride
-----------------EEEEEEE-------EEEE------------HHHHHHHH--- CONCORD
9876558998778866511357757999622367586799999952688899872579 Confidenza
++----++++++++++++++++++++++---+++++++++++++-+++++++++++++ Q3=50/58 =86,2%

I migliori metodi di predizione sono arrivati ad un grado di accuratezza piuttosto elevato (~78%) ed
possibile che non si riesca a migliorarne ulteriormente laccuratezza. I motivi sono diversi.
1. Vi unambiguit di fondo sullassegnazione della struttura reale. I metodi di assegnazione come
Stride e DSSP divergono per il 5-15 %. Dunque siamo costretti a confrontare la predizione con una
struttura che presenta gi unincertezza.
2. Le strutture secondarie dipendono in parte da interazioni non-locali (long range interaction - tipiche
della struttura terziaria) che i metodi di predizione non sono comunque in grado di valutare
pienamente. (un esempio sono le sequenze camaleonte: sequenze identiche che in proteine
diverse assumono SS differenti).

3.5.6 Disordini di folding

La comprensione approfondita dei meccanismi molecolari, che sono alla base del folding delle proteine,
rappresenterebbe un traguardo per tutta la comunit scientifica, in quanto essa fornirebbe la possibilit di
curare molte patologie associate ai processi di misfolding e di aggregazione di proteine che coinvolgono il
cambiamento conformazionale della proteina. Lesempio pi eclatante sono le encefalopatie spongiformi
sostenute da prioni.
Prione (PRION "PRoteinaceus Infective ONly particle" = particella infettiva solamente proteica) il nome
attribuito dal Dr. Stanley B. Prusiner ad un allora ipotetico "agente infettivo non convenzionale" di natura
proteica. Si tratta di un isomero conformazionale di una glicoproteina normalmente espressa.
Essa presente nella cellula nella sua conformazione normale PrPC (Proteina Prionica Cellulare) costituita
principalmente da -eliche e si converte nella forma patologica PrPSC (Proteina Prionica Scrapie), in cui
parte delle -eliche si trasforma in foglietti . Il meccanismo dellazione infettiva del prione sembra essere
quello di agire come stampo per la conversione di altre proteine sane nella forma patologica. In pratica, le
proteine patologiche sono in grado di indurre in proteine sane una cambiamento conformazionale che
produce un riarrangiamento conformazionale (misfolding). Il modo in cui il prione si converte dalla forma
normale a quella patologica e cosa favorisce questo processo ancora sconosciuto.
I prioni sono causa di una serie di malattie in una variet di organismi, tra cui l'encefalopatia spongiforme
bovina (BSE, nota anche come "malattia della mucca pazza"), quella ovina (Scrapie) e la malattia di
Creutzfeldt-Jakob (CJD) negli esseri umani.

242
4 Acidi nucleici: DNA ed RNA

Gli acidi nucleici sono lacido desossiribonucleico (DNA) e lacido ribonucleico (RNA).
Prendono il loro nome dal fatto di essere presenti nel nucleo delle cellule.
La loro funzione quella di contenere linformazione genetica e renderla disponibile per guidare
il metabolismo cellulare. Ogni organismo viene costruito e fatto funzionare a partire da un
progetto genetico scritto nel suo DNA e reso operativo tramite il suo RNA.
Gli acidi nucleici presentano una struttura molecolare per molti versi analoga a quella delle
proteine. Infatti, come le proteine, anche gli acidi nucleici sono costituiti da collane formate
dalla successione ordinata di molecole pi piccole. Ma mentre i mattoni che formano le
proteine sono i 20 tipi di amminoacidi, gli acidi nucleici si formano a partire da 4 tipi di
nucleotidi.
Lanalogia tra la struttura molecolare delle proteine e quella degli acidi nucleici non casuale.
Le informazioni genetiche sono infatti codificate negli acidi nucleici come successione dei
nucleotidi. La cellula trasforma poi la successione dei nucleotidi in una ben precisa
successione di amminoacidi. In altre parole, la particolare sequenza dei nucleotidi negli acidi
nucleici rappresenta le informazioni genetiche necessarie per definire la struttura primaria di
tutte le proteine di un organismo.

4.1 I nucleotidi e le basi azotate


Un nucleotide formato dallunione di un pentoso che si lega ad una molecola di acido
fosforico H3PO4 (gruppo fosfato) e ad una base azotata con legami di condensazione. In
particolare si definisce nucleoside lunione di un pentoso con una base azotata, mentre
lunione di un nucleoside con un gruppo fosfato genera un nucleotide.

Base + Pentoso = Nucleoside

Nucleoside + Fosfato = Nucleotide

Il DNA costituito da 4 tipi di nucleotidi diversi da quelli che formano lRNA


Nei 4 nucleotidi del DNA il pentoso il desossiribosio (o deossiribosio), una molecola di
ribosio che ha perso un atomo di ossigeno, mentre nellRNA il pentoso il Ribosio.

I 4 nucleotidi si differenziano tra di loro per le basi azotate (le basi azotate sono in questo
analoghe ai gruppi R nelle proteine)
Le basi azotate del DNA sono:
Adenina (A) Timina (T) Citosina (C) Guanina (G)

Le basi azotate dellRNA sono:


Adenina (A) Uracile (U) Citosina (C) Guanina (G)

243
In altre parole i nucleotidi dellRNA si differenziano da quelli del DNA solo per lo zucchero
(ribosio al posto di deossiribosio) e per lUracile che sostituisce la Timina.

Adenina e Guanina sono basi puriniche. Citosina Timina ed Uracile sono basi pirimidiniche

Lo zucchero lega la base azotata in posizione 1 (uno-primo) con un legame N--glicosidico ed


il gruppo fosfato in posizione 5 (cinque-primo) con un legame fosfoestereo.

I 4 nucleotidi del DNA in forma libera (non


legati nella catena del DNA) vengono indicati
con le seguenti sigle:
dAMP (deossiAdenosin Monofosfato)
dGMP (deossiGuanosin Monofosfato)
dCMP (deossiCitidin Monofosfato)
dTMP (deossiTimidin Monofosfato)

I 4 nucleotidi dellRNA in forma libera


vengono indicati con le seguenti sigle:
AMP (Adenosin Monofosfato)
GMP (Guanosin Monofosfato)
CMP (Citidin Monofosfato)
UMP (Uridin Monofosfato)

I nucleotidi si legano tra loro in successione


tramite legami fosfodiesterei. Lossidrile
libero in posizione 3 (tre-primo) del pentoso
viene utilizzato per legare il gruppo fosfato
del nucleotide successivo. In questo modo si
forma una catena in cui si succedono
zucchero e fosfato, mentre le basi azotate
rimangono sporgenti. La catena presenta
quindi una precisa direzionalit, presentando
ad un estremo il carbonio 5 (impegnato con
un gruppo fosfato) ed allaltro estremo il
carbonio 3 libero (non legato al gruppo
fosfato). Le catene degli acidi nucleici
vengono sempre montate in direzione 5
3.

244
4.2 La struttura secondaria del DNA: la doppia elica
In natura il DNA si presenta con una struttura secondaria a doppia elica frutto
dellassociazione di due singoli filamenti.
Laccoppiamento delle due catene si realizza attraverso la formazione di ponti a idrogeno tra le
rispettive basi azotate, che vengono quindi a situarsi nella porzione centrale della struttura.
Labbinamento fra i nucleotidi pu realizzarsi soltanto tra basi cosiddette complementari, cio
fra adenina e timina, mediante due ponti a idrogeno (A=T), o tra citosina e guanina, mediante
tre ponti a idrogeno (CG).

Le due catene, per fronteggiarsi, devono opporre una direzionalit inversa, essendo luna
diretta da 3 a 5, e laltra, necessariamente, da 5 a 3, da cui nato il termine di eliche
antiparallele. Le basi presentano una struttura planare e sono disposte in maniera parallela
tra loro, come i gradini di una scala a chiocciola.

La complementariet dei due filamenti ha una conseguenza fondamentale. Infatti, qualora sia
stabilita lesatta successione di basi di un filamento, si pu ricavare, seguendo semplicemente
le leggi della complementariet, la serie di nucleotidi del filamento corrispondente.

In questa conformazione ciascuna coppia di basi dista dalle contigue 0,34 nm. Un giro
completo dellelica, o passo dellelica, misura 3,4 nm, per cui sono presenti 10 coppie di basi
per un giro completo. Il diametro dellelica di 2nm. Lavvitamento destrorso, ossia,
immaginando di guardare lungo lasse, i due filamenti si avvolgono in senso orario.

4.3 Funzioni biologiche del DNA


Come abbiamo gi detto il DNA contiene il progetto costruttivo ed i programmi di gestione e
manutenzione di un organismo, codificati nella sua struttura primaria (sequenza basi). Le sue
funzioni, strettamente correlate alla sua natura di deposito di informazioni, sono:
1) Rendere disponibili le informazioni genetiche per la costruzione ed il corretto
funzionamento dellorganismo. Tale funzione viene mediata da molecole di RNA che

245
copiano le informazioni genetiche (trascrizione) e le trasformano (traduzione) in
proteine (sintesi proteica). Le diverse sequenze di nucleotidi, caratteristiche del DNA di
un organismo, definiscono infatti quali amminoacidi debbano succedersi nella costituzione
delle sue proteine. Tra le proteine sintetizzate vi sono naturalmente anche gli enzimi,
prodotti per controllare le reazioni di cui la cellula necessita. In questo modo il DNA
controlla, attraverso la sintesi degli enzimi, tutto il metabolismo cellulare
2) Generare copie delle informazioni genetiche (duplicazione o replicazione del DNA) in
modo da rendere disponibile lintero progetto genetico per le nuove cellule che si formano.
Ogni essere vivente pluricellulare nasce infatti a partire da una sola cellula (zigote), la
quale ha il compito di moltiplicarsi fino a formare i miliardi di cellule di cui composto
lorganismo adulto. Al momento di ogni divisione cellulare (mitosi) devono dunque essere
gi predisposte due copie del materiale genetico (DNA) in modo che ogni nuova cellula
possieda per intero tutte le informazioni per funzionare correttamente.

Tutte le funzioni svolte dal DNA sono rese possibili grazie alla complementariet delle basi
azotate.

Duplicazione del DNA


Nel processo di duplicazione (o replicazione) del DNA, il doppio filamento viene attaccato e
tagliato in un punto dallenzima topoisomerasi. La doppia elica viene successivamente aperta
come una cerniera-lampo dallenzima elicasi che, rompendo i ponti ad idrogeno che tengono
unite le basi azotate complementari, separa i due filamenti e forma una struttura ad Y detta
forcella di replicazione. La forcella di replicazione viene stabilizzata dalle proteine SSB. Un
altro enzima (DNA-polimerasi) provvede poi ad agganciare su ognuno dei due filamenti
esposti (filamenti-genitori o parentali) dei nucleotidi complementari. In questo modo su
ciascun filamento viene ricostruito il filamento mancante (filamento-figlio) e si generano due
copie della doppia elica originaria. Poich in ciascuna di queste due copie sopravvive met della
molecola originaria, tale processo anche noto come sintesi semiconservativa.

Per le caratteristiche intrinseche al legame stesso, la costruzione dei nuovi filamenti avviene
solo in direzione 5'3'. Ed avendo il DNA due filamenti antiparalleli, la sintesi dei due nuovi
filamenti avviene necessariamente in direzioni opposte.

246
Un filamento, detto filamento veloce
(leading strand) viene sintetizzato in
modo continuo, poich la DNA-Polimerasi
avanza nella stessa direzione dellelicasi.

L'altro filamento, detto filamento lento


(lagging strand) viene sintetizzato in
modo discontinuo, poich nuove molecole
di DNA-polimerasi devono continuamente
inserirsi allinizio della forcella che
continua ad aprirsi grazie allElicasi. In
questo modo si ha la formazione di
segmenti discontinui di DNA detti
frammenti di Okazaki, che vengono
successivamente saldati dallenzima DNA-
ligasi.

La DNA-polimerasi necessita di un innesco, cio di una breve sequenza di RNA (RNA primer)
da cui partire per sintetizzare il nuovo filamento, dal momento che in grado solo di
aggiungere nucleotidi a una catena preesistente, che fornisca una estremit 3-ossidrilica
libera. I primers sono posizionati dall'enzima Primasi. Inoltre la DNA-polimerasi possiede un
secondo sito attivo in grado di controllare che lattivit di appaiamento delle basi sia avvenuta
correttamente e di correggere eventuali errori. Nel caso vengano individuati errori nel processo
di duplicazione la DNA-polimerasi torna indietro a correggerli. Questa funzione di correzione
definita attivit 3-5 esonucleasica (proofreading activity = correzione di bozze).

La duplicazione del DNA avviene contemporaneamente in pi punti della molecola, con le


forcelle di replicazione che si allontanano in direzioni opposte formando bolle di replicazione,
destinate ad estendersi ed a fondersi.

Mentre la bolle di replicazione crescono i filamenti di DNA non ancora aperti tendono a
manifestare una tensione torsionale aumentando il numero di spire per unit di lunghezza (si
pensi a cosa accade ad una treccia se tiriamo le estremit dei fili divaricandoli). Le
topoisomerasi di classe I risolvono il problema della tensione causato dall'avanzamento
dellelicasi tagliando periodicamente uno dei due filamenti e permettendo allelica di girare, per
svolgere gli avvolgimenti in eccesso. Quando il DNA si rilassato, la topoisomerasi riconnette il
filamento rotto, ripristinando il DNA a doppia elica.

247
I frammenti di Okazaki vengono successivamente saldati dalla DNA ligasi, mentre i primers di
RNA vengono rimossi e sostituiti da analoghi filamenti di DNA da un enzima della famiglia delle
DNA-polimerasi.

4.4 La struttura secondaria dellRNA


Come abbiamo gi visto lRNA costituito da una catena di nucleotidi in cui lo zucchero il
ribosio e la Timina sostituita dallUracile. La complementariet delle basi in questo caso
Adenina-Uracile e Citosina-Guanina.
Mentre il DNA una molecola di grandi dimensioni e notevolmente stabile, gli RNA sono pi
piccoli, hanno vita limitata e inoltre sono caratterizzati da una struttura a singolo filamento.

Le molecole di RNA possono ripiegarsi su se stesse in modo tale da permettere la formazione


di legami ad idrogeno tra basi complementari appartenenti a tratti diversi e distanti della
medesima catena con formazione di zone a struttura secondaria elicoidale.

Piccole molecole di RNA sono quindi in grado di acquisire una struttura tridimensionale
regolare, spesso responsabile della loro funzione specifica, mentre RNA pi grandi presentano
zone a struttura tridimensionale definita, congiunte fra loro da parti non strutturate.

Le molecole di RNA vengono sintetizzate utilizzando un filamento di DNA come stampo sul
quale vengono appaiati i singoli nucleotidi complementari dellRNA (trascrizione).
Spesso la forma funzionale di un RNA pi corta rispetto al trascritto primario. Il passaggio
dalla forma primaria inattiva a quella finale funzionale avviene ad opera di enzimi specifici che
rimuovono alcune zone della molecola (introni) e saldano quelle rimanenti (esoni) attraverso
un processo di taglia-incolla detto splicing.

4.5 Funzioni biologiche dellRNA


LRNA permette al DNA di trasformare le informazioni in esso contenute in proteine. Esistono 3
tipi di RNA, tutti coinvolti nella sintesi proteica.

RNA ribosomiale (rRNA) che va a formare i ribosomi, organuli cellulari che traducono
le sequenze nucleotidiche in sequenze proteiche
RNA messaggero (mRNA) che copia le informazioni contenute nel DNA (trascrizione) e
le trasferisce ai ribosomi per la traduzione

248
RNA di trasporto o transfer (tRNA) che porta gli amminoacidi ai ribosomi affinch li
saldino in catene proteiche (sintesi proteica)
Sintesi proteica
Come abbiamo gi detto il DNA contiene le informazioni necessarie per posizionare nella giusta
successione gli amminoacidi di una proteina. Il tratto di DNA che codifica per una particolare
proteina si definisce gene. Le informazioni genetiche sono codificate nella struttura
primaria del DNA, sono cio scritte nella successione delle sue basi azotate.

Nel descrivere la sintesi proteica si utilizza una metafora linguistica, in cui esistono due
linguaggi: quello del DNA con un alfabeto di 4 lettere (le basi azotate) e quello delle proteine
con un alfabeto di 20 lettere (gli amminoacidi).

Le informazioni devono pertanto essere tradotte da un linguaggio ad un altro. Ovviamente


per effettuare la traduzione e decifrare un messaggio codificato necessario possedere il
codice che fornisce la corrispondenza tra i simboli dei due linguaggi.
Il codice genetico definisce dunque il modo in cui la successione delle basi azotate del DNA
deve essere tradotta nella corretta successione di amminoacidi di una proteina. Ovviamente
non vi pu essere una corrispondenza biunivoca tra basi azotate ed amminoacidi (4 contro 20).
Si scoperto che il vocabolario del DNA formato da 64 parole, formate dalla
combinazione delle quattro lettere A T C G (basi azotate) prese a gruppi di tre (43 = 64).
Ciascun amminoacido viene dunque codificato da una particolare tripletta di basi o
codone. I codoni sono le triplette gi trascritte nella molecola dellRNA messaggero e quindi
con lUracile al posto della Timina.
Esistono pi triplette che codificano per il medesimo amminoacido (ridondanza del codice
genetico), ma ciascuna tripletta non pu, ovviamente, codificare per amminoacidi diversi.
Esistono anche triplette che non codificano per alcun amminoacido, dette triplette not-
sense, che la cellula utilizza come segni di interpunzione durante la traduzione
dellinformazione per segnalare la fine (stop) della sintesi della proteina.

Il processo di sintesi proteica si articola in due fasi: trascrizione e traduzione dellinformazione


genetica. Nella fase di trascrizione linformazione viene trasferita dal DNA allRNA, mentre nella
fase di traduzione linformazione passa dallRNA alle proteine

Trascrizione sintesi dellRNA


In questa fase linformazione genetica viene copiata (trascritta) dal DNA su di una molecola di
RNA. Il processo di trascrizione avviene grazie allenzima RNA-polimerasi. Nelle cellule
eucarioti ci sono tre diverse molecole di RNA-polimerasi, che occupano diversi siti. Ciascuno di
questi enzimi responsabile della trascrizione di una differente classe di geni.

249
LRNA-polimerasi I, che risiede nel nucleolo, responsabile della trascrizione dei geni per la
produzione di tutto lRNA ribosomiale (o rRNA). Questo lenzima con la pi elevata attivit di
sintesi.
LRNA-polimerasi II, localizzata nel nucleoplasma (la parte di nucleo che esclude il nucleolo),
responsabile della sintesi del precursore dellRNA messaggero (mRNA).
lRNA-polimerasi III, lenzima con lattivit minore, anchessa presente nel nucleoplasma, che
sintetizza lRNA di trasporto (tRNA).

Nella fase di inizio lRNA-polimerasi si lega alla doppia catena del DNA, aprendola in
corrispondenza di una particolare sequenza, chiamata promotore. Il promotore una speciale
sequenza di nucleotidi che non verr trascritta, situata sul DNA allinizio del gene.
Successivamente lRNA-polimerasi scorre lungo il DNA rompendo i ponti Idrogeno tra le basi
azotate complementari ed aprendo la doppia elica come una cerniera. In questo modo una
delle due catene viene esposta alla copiatura e fa da stampo per la sintesi di una molecola di
RNA messaggero ad essa complementare. Mentre lRNA-polimerasi scorre sul filamento-
stampo del DNA vengono agganciati ad esso dei ribonucleotidi complementari. Quando,
durante la trascrizione, nel DNA si incontreranno particolari sequenze di basi alla fine del gene
(terminatore) si avr il termine della trascrizione. Il filamento di RNA messaggero si stacca
ed il DNA si richiude e si riavvolge

Poich i due filamenti si legano tramite appaiamento delle basi azotate complementari, questi
sono tra loro antiparalleli. La direzione di lettura del DNA 3'5' mentre quella di trascrizione
5'3'.

Il prodotto della trascrizione denominato trascritto primario e consiste probabilmente in un


filamento di RNA che si estende dal promotore al terminatore. Non si ha dimostrazione di ci
perch esso molto instabile e quindi difficile da isolare.

La fase cruciale della produzione delle diverse forme di RNA la maturazione a partire dai
precursori.
I complessi trascritti primari degli rRNA e tRNA di procarioti ed eucarioti vengono modificati in
forme mature pi semplici. Gli mRNA dei procarioti non subiscono quasi mai modificazioni,
mentre lassemblaggio dellmRNA degli eucarioti piuttosto complesso.

Negli eucarioti la trascrizione genera dei precursori nucleari degli mRNA (trascritti primari)
caratterizzati dalla presenza di modificazioni chimiche allestremit 5' e dalla presenza di zone
non codificanti (introni). Tali precursori vengono in seguito convertiti negli mRNA maturi
attraverso un processo (splicing) che prevede la rimozione degli introni e il ricongiungimento
delle parti codificanti (esoni). Lo splicing avviene grazie a un apparato enzimatico complesso
in grado di riconoscere sequenze specifiche presenti nelle zone di giunzione esone-introne, di
rimuovere gli introni e di ricongiungere correttamente tra loro i vari esoni

Una volta maturati, gli mRNA, come le subunit ribosomiche e i tRNA, passano nel citoplasma
per svolgere la loro funzione nella sintesi proteica.

250
LRNA messaggero (mRNA) rappresenta la classe di RNA pi eterogenea; infatti costituita
da filamenti contenenti tanti codoni quanti sono gli amminoacidi delle proteine da loro
codificate.

RNA messaggeri codificanti per piccole proteine sono costituiti da alcune centinaia di nucleotidi,
quelli codificanti per proteine grandi ne comprendono varie migliaia. Ogni mRNA
caratterizzato dal codone dinizio (spesso AUG, specifico per lamminoacido metionina). I tre
codoni UAA, UGA e UAG rappresentano invece il segnale di terminazione della sintesi della
catena polipeptidica. La precisione nellandamento lineare dei ribonucleotidi in gruppi di tre,
non solo determina il corretto allineamento degli amminoacidi in una proteina, ma anche un
esatto punto di inizio e di conclusione della sua sintesi.

LRNA di trasporto (tRNA) trasferisce ai ribosomi i vari amminoacidi che, uniti tra loro con
legame peptidico, formano le proteine. Molti trascritti primari che originano dai geni per i tRNA
sono discretamente pi lunghi rispetto alle piccole molecole mature che si riversano nel
citoplasma e che contengono molte basi modificate. Come tutte le macromolecole trasportate
dal nucleo al citoplasma, anche i tRNA maturi vengono trasportati attraverso i pori nucleari,
probabilmente associati a proteine specifiche che ne facilitano il passaggio. Una volta giunti nel
citoplasma, i tRNA maturi si presentano come molecole piccole, costituite da 75-80 nucleotidi
che si appaiano tra loro in zone specifiche con ponti idrogeno tra basi complementari,
interrotte da tratti a singolo filamento. Tale situazione determina una particolare
conformazione a trifoglio, caratteristica per tutti i tRNA. Nella cellula, tuttavia, questa

251
molecola ha una complessa organizzazione a forma di L rovesciata e contorta a spirale, poich
le due anse laterali del trifoglio si avvicinano tra loro formando langolo fra i bracci della L.
Lestremit 3' del filamento polinucleotidico di tutti i tRNA sopravanza quella 5' di tre nucleotidi
uguali (C-C-A): tale sequenza rappresenta il sito accettore dellamminoacido che, una volta
attivato dallenzima amminoacilsintetasi, si posiziona sul tRNA. Si distinguono circa venti tRNA,
ciascuno specifico per un determinato amminoacido.

La parte pi caratteristica della molecola del tRNA lansa terminale, detta anticodone poich
porta tre basi complementari ai codoni degli mRNA.

Gli RNA ribosomiali (rRNA) costituiscono una famiglia di molecole che, assemblate insieme a
pi di 50 diverse proteine, formano i ribosomi. I ribosomi sono gli organuli citoplasmatici che
utilizzano le informazioni genetiche dellRNA messaggero e gli amminoacidi portati dagli RNA di
trasporto per assemblare le proteine. Sono costituiti da due subunit classificate in termini di
Svedberg (S), una misura del coefficiente di sedimentazione di particelle in sospensione
sottoposte a centrifugazione (gli organuli cellulari vengono separati tramite centrifugazione in
base alla loro diversa densit). La lunghezza delle molecole di rRNA, la qualit delle proteine
costituenti ciascuna subunit e di conseguenza la grandezza di queste ultime varia tra
procarioti ed eucarioti.
In base ai loro coefficienti di sedimentazione, i ribosomi sono stati suddivisi in due classi:
- I ribosomi 70 S sono caratteristici dei procarioti e sono formati da una subunit 30 S e da
una 50 S.
- I ribosomi 80 S sono caratteristici degli eucarioti e sono formati da una subunit 40 S e da
una 60 S

252
Negli eucarioti i geni che codificano per gli rRNA sono localizzati nel nucleolo, che si evidenzia
come un corpicciolo sferico situato nel nucleo. Tale conformazione dovuta allintensa attivit
trascrizionale che si attua al livello di questi geni e dal quasi contemporaneo assemblaggio
degli RNA alle proteine ribosomiali.

Traduzione
Nella fase di traduzione, linformazione genetica, contenuta nellRNA messaggero come
sequenza di codoni (triplette di basi), viene letta dai ribosomi in direzione 5 3 e
trasformata nella corrispondente sequenza di amminoacidi (proteina) grazie al codice genetico.
- Il filamento di mRNA contenente linformazione si inserisce tra le due subunit del
ribosoma, il quale si posiziona sui primi due codoni.
- Due molecole di tRNA, aventi gli anticodoni complementari si agganciano ai codoni,
posizionando in tal modo gli amminoacidi trasportati uno accanto allaltro. Gli
amminoacidi vengono saldati con legame peptidico ed il primo tRNA esce dal ribosoma
lasciando il suo amminoacido sulla catena proteica in via di formazione
- Il ribosoma scivola sul filamento di mRNA, scalando di un codone e posizionandosi sul
secondo e terzo codone. Una terza molecola di tRNA si aggancia al terzo codone
permettendo laggancio del suo amminoacido ai due precedenti. Il secondo tRNA si
sgancia lasciando il suo amminoacido sulla catena proteica in via di formazione
- La traduzione procede con il medesimo meccanismo, con il ribosoma che avanza di un
codone per volta ed un tRNA che entra carico del suo amminoacido ed uno che esce
scarico del suo amminoacido.
- Il processo termina quando il ribosoma trova un codone not-sense. Il filamento proteico
si stacca e viene liberato nel citoplasma dove assume la sua conformazione nativa.

Un filamento di mRNA pu essere letto e tradotto pi volte in modo da ottenere pi copie della
medesima proteina. La traduzione pu essere fatta contemporaneamente da pi ribosomi che
si infilano sul medesimo filamento come le perle di una collana. La struttura che ne deriva
prende il nome di poliribosoma (o polisoma). Ciascun ribosoma appartenente ad un
polisoma si trova ovviamente in una fase diversa della sintesi della medesima proteina

253
4.6 Derivati dei nucleotidi: ATP e NAD
ATP e NAD sono due nucleotidi modificati che la cellula utilizza per il suo metabolismo
energetico.
LATP (Adenosin Trifosfato) viene utilizzato dalle cellule come contenitore e trasportatore di
energia. LATP deriva dallAMP (Adenosin Monofosfato = Adenina-Ribosio-Fosfato) per aggiunta
di due molecole di acido fosforico.
Nel primo passaggio si forma ADP (Adenosin Difosfato = Adenina-Ribosio-Fosfato-Fosfato)
secondo la seguente reazione di condensazione che avviene tra il gruppo fosfato dellAMP e la
molecola di acido fosforico
AMP + H3PO4 ADP + H2O
Spesso nei composti organici il gruppo fosfato viene indicato, in modo abbreviato, con il
simbolo Pi (Fosforo inorganico). La reazione di formazione dellADP pu quindi essere scritta in
forma sintetica
AMP + Pi ADP
LATP si forma dalla reazione di condensazione di una molecola di ADP con unaltra molecola di
acido fosforico. La reazione fortemente endoergonica e richiede circa 7,3 kcal/mol (30,5
kJ/mol)
ADP + Pi + 7,3 kcal ATP
LATP risulta in tal modo una molecola altamente energetica. Lenergia fissata nel legame tra
il secondo ed il terzo gruppo fosfato, legame che viene rappresentato con un tratto circonflesso
Adenina-Ribosio-Pi-Pi~Pi
La cellula utilizza lenergia estratta dai suoi combustibili (carboidrati e lipidi) per sintetizzare
ATP. In questo modo lenergia non viene dissipata sotto forma di calore, ma viene fissata come
energia di legame in molecole, come lATP, rapidamente utilizzabili per fornire energia. Ad
esempio, la combustione di una molecola di glucosio permette alla cellula di caricare 36 ATP
C6H12O6 + 6O2 6CO2 + 6H2O + Energia (36ATP)
Quando la cellula ha bisogno di energia pu ottenerla in modo rapido semplicemente
idrolizzando ATP
ATP ADP + Pi + 7,3 kcal
Durante il metabolismo cellulare questa molecola oscilla dunque continuamente tra la forma
carica (ATP) e la forma scarica (ADP)

Il NAD (Nicotinammide AdeninDinucleotide) una ossidoreduttasi, un coenzima che catalizza


reazioni di ossidoriduzione. Il NAD quindi in grado di trasferire elettroni (ed Idrogeno) da una
molecola che si ossida ad una molecola che si riduce. Ovviamente quando il NAD acquista
elettroni da una molecola A che si ossida il NAD passa in una forma ridotta (NADH o NAD
ridotto), mentre quando cede elettroni ad una molecola B che si riduce passa in una forma
ossidata (NAD+ o NAD ossidato)

254
La reazione di riduzione del NAD richiede 2 elettroni, uno ione H + e 52,4 kcal/mol (220 kj/mol)
NAD+ + 2e + H+ + 52,4 kcal NADH
In modo analogo a quanto accade per lATP, anche il NAD oscilla quindi tra una forma scarica
(NAD+) ed una forma carica (NADH).
Altre importanti ossidoreduttasi analoghe al NAD sono il FAD (Flavin Adenin Dinucleotide) e il
NADP (NAD fosfato).
Analogamente al NAD esistono entrambi nella forma ossidata e ridotta
FAD ossidato (FAD) e FAD ridotto (FADH2)
NADP ossidato (NADP+) e NADP ridotto (NADPH)
Il FAD in grado di assorbire un po meno energia del NAD

FAD + 2e + 2H+ + 46,0 kcal FADH2

NAD e FAD hanno come precursori alcune vitamine del gruppo B. Il NAD deriva dalla vitamina
B3 (o niacina o vitamina PP = Prevenzione Pellagra), il FAD dalla vitamina B2..

255

Potrebbero piacerti anche