Sei sulla pagina 1di 160

Chimica delle macromolecole - Unit didattica 3:

La struttura delle proteine


Amminocidi, peptidi e proteine: Amminoacidi e loro propriet. Il legame
peptidico. Struttura primarie delle proteine. La Struttura secondaria delle
proteine. Struttura terziaria e quaternaria delle proteine. Il ripiegamento delle
proteine. Esempi di strutture proteiche, proteine fibrose e globulari. Alcuni principi
sul ripiegamento delle proteine. le proteine non ripiegate

Autoverifica: Conosci la struttura e la


nomenclatura degli amminoacidi? sai
descrivere la struttura di un dipeptide?
Sapresti descriverne la geometria?
Come si pu descrivere la geometria
di un polipeptide? Quali sono gli
elementi comuni di struttura
secondaria? Da cosa dipende la
struttura terziaria? Come si ripiegano
le proteine? Tutte le proteine hanno
una struttura univoca e stabile? Come
si ottengono informazioni sulla
struttura delle proteine?
Le proteine ricoprono ruoli essenziali negli
organismi

Tre esempi di funzione proteica


la alcool
deidrogenasi
Catalisi: ossida gli alcoli
Praticamente tutte le reazioni ad aldeidi e
chimiche degli organismi viventi chetoni
sono catalizzate da proteine

Trasporto:
Alcune proteine trasportano varie Lemoglobina
trasporta
sostanze, come lossigeno, gli ioni, lossigeno
ecc.

trasferimento di informazioni: Linsulina


Per esempio, gli ormoni. controlla la
quantit di
zucchero nel
sangue
Cosa un amminoacido
Una molecola che contiene entrambi i gruppi funzionali amminico e
carbossilico. Gli amminoacidi pi interessanti dal punto di vista della
biochimica sono gli -amminoacidi, in cui il gruppo amminico legato al
carbonio vicinale rispetto al gruppo carbossilico.

catena R
H R laterale R
carbonio
C
+ COO
H 3N COO NH 3 COO
NH 3

gruppo gruppo modello sfere e Gli amminoacidi sono


amminico carbossilico bastoncini strutture tetraedriche
gruppiRnonpolari,alifatici gruppiRaromatici
COO COO COO COO COO COO COO
H
H 3N C H H 3N C H C H 3N C H H 3N C H H 3N C H H 3N C H
H 2N CH

Classificati secondo la catena laterale


2
H CH 3 CH CH 2 CH 2 CH 2
H 2C CH 2 CH 3 CH 3 C CH
GlicinaAlanina Prolina Valina NH

COO COO COO OH


H 3N C H H 3N C H H 3N C H
Fenilalanina Tirosina Triptofano
CH 2 H C CH3 CH2
CH CH 2 CH 2
Gli amminoacidi naturali

CH 3 CH 3 CH 3 S gruppiRcarichipositivamente
CH 3 COO COO COO
LeucinaIsoleucinaMetionina H 3N C H H 3N C H H 3N C H
CH 2 CH2 CH 2

gruppiRpolarinoncarichi CH 2 CH2 C NH
CH 2 CH
COO COO COO CH 2
C N
H 3N C H H 3N C H H 3N C H CH 2 NH H

CH 2OH H C OH CH 2 NH3 C NH2


CH 3 SH NH 2
SerinaTreonina Cisteina LisinaArgininaIstidina

COO COO gruppiRcarichinegativamente

H 3N C H H 3N C H COO COO
CH2 CH 2 H 3N C H H 3N C H
C CH2 CH2 CH2
H 2N O C COO CH2
H 2N O COO
Asparagina Glutammina Aspartato Glutammato
Alcune propriet degli amminoacidi

importante sapere le abbreviazioni


La ionizzazione degli
amminoacidi
ed in pi ci sono talvolta
gruppi ionizzabili in catena
laterale
La titolazione di acido glutammico e
lisina
Il legame peptidico
Gli amminoacidi possono essere legati tra loro mediante il legame peptidico, per
fare i peptidi
R1 H R2
H 3N CH C OH H N C H COO
O

H 2O H 2O

R1 H R2
H 3N CH C N C H COO
O
Diverso comportamento acido-base
In un peptide, il gruppo carbossilico e quello amminico non sono pi vicinali, per
cui il loro comportamento acido-base pu anche differire da quello dei singoli
amminoacidi costituenti. I gruppi carbossilici e amminici coinvolti nei legami
peptidici non possono pi ionizzare. I gruppi ionizzabili nelle catene laterali
possono ionizzare (le loro propriet possono comunque subire variazioni rispetto
a quelle negli amminoacidi isolati).
OH

CH 3 CH 3

CH
CH 2 OH H H H CH 2 H CH 3 H CH 2
H 3N C C N C C N C C N C C N C COO
H O H O H O H O H
terminaleamminico terminale carbossilico
Gli amminoacidi sono molecole chirali
Tutti gli amminoacidi naturali hanno chiralit L
(come la L-gliceraldeide)
Esistono amminoacidi nella configurazione D, ma
non sono abitualmente trovati nelle proteine
Lunghezza e composizione dei polipeptidi in natura
I polipeptidi si trovano in natura con precise dimensioni (peso molecolare) e
composizione in amminoacidi. Questa evidenza storica pu essere desunta
anche semplicemente idrolizzando i polipeptidi con acidi, in modo da poter
analizzare la miscela di amminoacidi risultante.
Le proteine possono essere semplici o coniugate
Le proteine semplici sono costituite solo da una o pi catene polipeptidiche,
mentre quelle coniugate contengono anche parti non proteiche associate,
necessarie per la loro funzione. Queste parti sono chiamate gruppi prostetici e
le proteine coniugate possono essere catalogate sulla base dei loro gruppi
prostetici.
Un concetto chiave:
I livelli della struttura proteica
Struttura Struttura Struttura Struttura
primaria secondaria terziaria quaternaria

Lys
Lys
Gly
Gly
Leu
Val
Ala
His

residui amminiacidici -elica catena polipeptidica subunit assemblate

Struttura primaria: la descrizione di tutti i legami covalenti (la sequenza, le


reticolazioni)
Struttura secondaria: lorganizzazione stabile degli amminoacidi in motivi
strutturali ricorrenti
Struttura terziaria: il ripiegamento di un polipeptide in una particolare forma
tridimensionale
Struttura quaternaria: la relazione strutturale delle diverse subunit (catene
polipeptidiche distinte), se presenti
La struttura delle proteine stabilizzata da interazioni deboli
La stabilit di una proteina la sua tendenza a mantenere una struttura precisa
(detta nativa). In termini termodinamici, la stabilit delle proteine si valuta
comunemente con G dellordine di 20-65 kJ/mole (poco!)
Una lunga catena polipeptidica pu essere molto disordinata ed avere molteplici
diversi modi di interagire (alta entropia). Le interazioni che permettono ad una
catena disordinata (unfolded) di ripiegarsi in una struttura unica (folded) sono
proprio le interazioni deboli di cui si parlato in precedenza:
Legami idrogeno
Interazioni ioniche
Interazioni idrofobiche
Tra 2 cisteine si possono instaurare legami disolfuro.
Questo legame covalente molto pi forte delle interazioni
deboli, ma sono effettivamente le numerosissime
interazioni deboli che rendono stabile (e scelgono) una
struttura proteica.
Ma una delle grandi driving forces per il ripiegamento
delle proteine la possibilit dellacqua di formare pi
legami idrogeno se la proteina fa legami deboli con se
stessa
Viaggio nella struttura delle proteine: La struttura secondaria
La geometria del legame peptidico
Il legame peptidico non un legame covalente singolo, ma ha una certa percentuale
di doppio legame, di conseguenza non c libera rotazione tra i gruppi attaccati
tramite esso.
C
piano del
Il carattere di parziale doppio legame del legame peptidico

legame peptidico fa s che ogni peptide pu N H

essere pensato come un piano rigido. Ogni


piano pu, invece, ruotare intorno ai legami O C

dellazoto e del carbonio carbossilico con il H

carbonio per dare le conformazioni del peptide


carbonio
polipeptide C

H R
N
gruppo in
catena laterale

C
O

C piano del
legame peptidico
= 180 , =180
Angoli diedri importanti
La forma geometrica della catena polipeptidica dipende da tutti gli angoli e
che si susseguono lungo la catena

Ma non tutte le combinazioni sono possibili, a causa dellimpedimento sterico


(un gruppo che dovrebbe occupare lo spazio di un altro)
C C

C N
ON H H
raggio di C C O
contatto
per atomi N H O C
C C
non legati N N

O C O H
H
C H C H H
C
R O
H R
O
C H R
N
C N
R raggio di C N
C N contatto
H
per atomi C H

H non legati
O C C
O
C C C
O
= 60 , = 180
= 0 , = 0
C unaltra rotazione di 120 di
muove il carbonile ingombrante
= 0 , = 180 = 180 , = 0 il pi lontano possibile dalla catena
laterale
Ramachandran e collaboratori hanno
pensato di diagrammare gli angoli e
-elica
delle proteine note e hanno verificato la foglietto parallelo
tripla elica del levogira
presenza di zone consentite e zone non foglietto antiparallelo
collagene
consentite del piano . Tra le zone si 180
+4
trovano motivi strutturali caratteristici. II
C +5

Questo grafico, ora noto come 4


5
90
diagramma di Ramachandran, mostra le 3

(gradi)
2

conformazioni popolate degli angoli di


L

torsione e le zone proibite che sono poco 0


popolate.
3 n=2


90 +3
+4
+5
5
4
180
180 90 0 90 180
(gradi)

anello chiuso
-elica
destrogira
Diagramma di Ramachandran ideale e reale (da dati
strutturali)

Ideal Real(akinase)

Ramachandran Plots
Il legame idrogeno nelle proteine
Dalla discussione fatta in precedenza
risulta che il gruppo carbonilico delle
proteine contiene un ossigeno che
pu accettare un legame idrogeno,
mentre allazoto ammidico legato un
idrogeno che pu fungere da donatore
di legame idrogeno.
Questi legami idrogeno possono
avvenire con molecole di acqua o,
convenientemente, tra parti diverse di
una proteine (lidrogeno di un azoto
ammidico con un ossigeno carbonilico
sulla stessa catena o su altre catene
polipeptidiche). Spesso in una
proteina molti legami idrogeno si
formano allo stesso tempo
Un legame idrogeno tra gruppi di
due catene polinucleotidiche
L-elica
uno dei motivi strutturali pi diffusi (e prima scoperti). Grazie a legami idrogeno,
gli amminoacidi si organizzano un unelica DESTROGIRA che compie un giro
completo ogni 3.6 ammminoacidi (residui), equivalente a 13 atomi (si dice anche
elica 3.613).
Ogni amminoacido si estende per 1.5 lungo la catena (ogni giro quindi 1.5 x
3.6 = 5.4 , il passo dellelica).

Diverse
rappresentazioni
dell -elica.
L-elica
Lelica (senza considerare le catene laterali, che
puntano verso lesterno) ha un diametro di 6 .
Il carbonile di CIASCUN peptide forma un legame
idrogeno con lN-H che sta 4 residui pi in alto lungo la
catena.
I legami idrogeno sono nella direzione dellasse
dellelica, tutti i carbonili puntano verso una direzione
(lalto) mentre tutti I legami N-H puntano nella direzione
opposta.
Gli angoli di torsione per ottenere unelica di questo tipo
sono =-60 e tra -45 e -50.
Il numero di residui coinvolto in unelica pu variare.

La subunit dellemoglobina
Un modello ideale di -elica (poly-Ala)
Solo n-4 legami ad idrogeno intra--elica si
possono formare in unelica lunga n, mentre i
primi 4 ossigeni carbonilici e gli ultimi 4 idrogeni
ammidici alle estremit dellelica possono
formarli con altri gruppi non parte dellelica
(capping dellelica)
Dallo studio dei poliamminoacidi
(polipeptidi fatti da un tipo di
amminoacido) si vede che non tutti
gli amminoacidi hanno la stessa
propensione a formare -eliche:
particolarmente frequente trovare
residui con gruppi R poco
ingombranti (Ala) mentre si
trovano a fatica gruppi carichi, la
cui repulsione disordina lelica. Si
vede, ad esempio, che a valori di
pH in cui i gruppi carichi si
scaricano (protonazione dei
carbossili, deprotonazione degli
ammoni) la propensione a formare
la doppia elica di tali amminoacidi
aumenta. La prolina deforma (o
interrompe) l-elica.
Le proteine fibrose e le -eliche
Le proteine possono essere distinte, sulla base della loro solubilit, in proteine fibrose,
globulari e di membrana.
Nelle proteine fibrose, le catene polipeptidiche sono allungate e allineate parallelamente alla
direzione della fibra. Sono proteine spesso insolubili e con grande resistenza meccanica, che
ricoprono ruoli strutturali in natura.

L-cheratina ad esempio (unghie,


capelli ) costituita di catene con
una porzione centrale di 311-314
residui in -elica, e porzioni N- e C-
terminali non a elica.

-elica

Coiled coil di due -eliche

Protofilamento (copia di coiled coil)

I residui idrofobici sono nelle parti affacciate delle eliche. La


Filamento (quattro protofibrille ritorte in senso destrogiro
torsione delle eliche serve a nascondere i tratti di residui idrofobici
allacqua (facendoli interagire tra loro sulle due eliche). una
perdita di energia compensata dallesclusone dellacqua.
Legami disolfuro possono tenere rigidamente insieme le catene.
Eliche alternative
Esistono anche altri tipi di eliche nelle proteine, stabilizzate da legami idrogeno.
Lelica 310 contiene 3 residui per giro (con 10 atomi per giro, facendo legami
idrogeno tra carbonili e idrogeni ammidici residui distanti 3 residui lungo la
catena detto i+3). Normalmente queste eliche sono meno frequenti e/o pi
corte dell-elica.
Altre strutture ad elica sono il nastro 27 (legami idrogeno tra carbonile e azoto
ammidico a i+2) e lelica , che ha 4.4 residui per giro (e 16 atomi) per cui
anche detta elica 4.416 (legami H a i+5.)

Esempio di Ala8 in elica 310


Esistono anche eliche levogire: lesempio del collagene
Le catene del collagene hanno una composizione molto

1000 amino acidi di lunghezza, circa 300 nm per 1.4 nm di diametro


particolare (principalmente glicina, prolina ed idrossiprolina
una modifica dellamminoacido prolina). Questi residui non si
ripiegano facilmente in una delle forme pi canoniche ma
assumono una forma elicoidale molto pi estesa dell-elica.
Le tre eliche che compongono il tropocollagene (la fibrilla
base a tripla elica) hanno un passo di 2.9 (rispetto agli 1.5
dell-elica) e 3.3 residui per giro di elica.
Ogni elica ha geometria locale LEVOGIRA, mentre la
superelica risultante destrogira.
Ogni 3 residui, un amminoacido di ogni elica si trova
affacciato allinterno della tripla elica, in una regione di grande
ingombro sterico: solo la Gly (o Ala), che ha gruppo R molto
poco ingombrante pu occupare questa posizione (per cui in
ogni catena, un amminoacido ogni 3 Gly).
Le tre catene sono legate da ponti idrogeno (lN-H delle Gly
lega un C=O della Pro o Hyp adiacente) e da altri legami
idrogeno. La fibra quindi legata fortemente.
Esistono diversi tipi di collagene: il TIpo I in ossa, tendini e
pelle (fatto da due catene uguali ed una diversa), il Tipo II
nella cartilagine ed il Tipo III nei vasi sanguigni fatti di 3
catene uguali.
tropocollagene
In una fibra di collagene, tante triple eliche lunghe 300 nm sono sfasate e
tenute insieme tra loro da legami deboli. Al microscopio elettronico queste
hanno una apparenza a bande, risultante dalla presenza di interruzioni (buchi)
tra le catene. La presenza di questi buchi sembra legata alla presenza di
zuccheri legati covalentemente alle idrossiproline in questa posizione.
Questi potrebbero avere utilit nel
controllare lorganizzazione della
struttura o nel servire da punto di
nucleazione per la crescita di cristalli
di idrossiapatite che formano le ossa
(ove questi cristalli sono, appunto
immersi in una matrice di collagene.
I foglietti beta
unaltra struttura secondaria stabile e molto diffusa delle proteine, stabilizzata dalla
formazione cooperativa di un grande numero di legami idrogeno. detta foglietto
ripiegato o struttura .
Nella struttura, i carboni stanno nelle pieghe delle strisce, i C=O puntano in una
direzione e gli N-H che li legano nella direzione opposta. Tutti i gruppi formano legami H.

Antiparallel -sheet
Foglietti paralleli o antiparalleli
Ogni catena del foglietto pu essere pensata come unelica con passo 2 (2 residui
ogni giro). Poich il carbonio tetraedrico, ogni piano del legame peptidico
piegato rispetto a quello successivo (ed il foglietto risulta piegato).
I legami idrogeno in questa
struttura sono essenzialmente
inter-strand. La catena
polipeptidica nella
conformazione pi estesa
possibile (detta talvolta
conformazione ).
Il foglietto antiparallelo un po
pi esteso di quello parallelo
(che pi piegato, per formare i
legami H, che sono piegati).
I residui sono distanti 0.347 nm
nel foglietto antiparallelo (0.325
nm in quello parallelo).
I gruppi R si estendono
perpendicolarmente rispetto al
piano del foglietto.
In genere si trovano foglietti paralleli in -eliche e zone disordinate danno flessibilit
strutture grandi (almeno 5 catene per
foglietto) mentre foglietti antiparalleli
possono anche essere costituiti di 2 catene.
Ci sono proteine costituite prevalentemente

La struttura nanotecnologica della seta


di -eliche, altre di -sheets, mentre altre
hanno presentano entrambe le strutture in
una stessa catena polipeptidica.
Nella seta, ad esempio, le catene
polipeptidiche sono organizzate
principalmente in foglietti antiparalleli
orientati nella direzione dellasse della fibra.
La conformazione gi molto estesa del
foglietto motiva la scarsa estensibilit della
fibra, che per molto flessibile.
La seta del ragno , effettivamente, un
materiale dalle propriet meccaniche
ragguardevoli: si potesse fare una corda di
seta di ragno dello spessore di una matita,
sarebbe sufficientemente resistente per
fermare un Boeing 747 in volo! Domini microcristallini di -sheets
danno resistenza
La fibroina (della seta) o la -cheratina (piume degli uccelli)
Sono proteine fatte di foglietti antiparalleli ricchi di Gly e Ala (o Ser) alternati, in
modo che da un lato del foglietto possano essere tutte le Gly e dallaltra tutte le
Ala/Ser. In questo modo pi foglietti possono impilarsi facendo combaciare
perfettamente le catene laterali.
Le propriet meccaniche delle fibre dipendono dalla struttura: fibre flessibili ma
non estensibili.
Il -turn
Le catene polipeptidiche devono anche fare inversioni di direzione ad esempio
nelle proteine globulari. I -turn sono ripiegamenti stretti, detti anche ripiegamenti
inversi.
Nel -turn, il carbonile di un residuo fa legame idrogeno con lidrogeno ammidico
3 residui oltre. Questo legame H stabilizza il ripiegamento. Certi amminoacidi,
come la Pro o la Gly compaiono spesso nei -turn e la conformazione del
ripiegamento dipende dalla sua composizione amminoacidica. Gly ha la catena
laterale pi piccola per cui si pu adattare alle richieste strutturali degli altri
amminoacidi, mentre Pro ha langolo fissato dalla struttura ciclica che
promuove il ripiegamento. I -turn facilitano la formazione di foglietti
antiparalleli. O e R3 dalla stessa parte: ingombro,
O e R3 da parti opposte ok se R3=H
Altre irregolarit nella formazione di legami idrogeno tra le catene di foglietti
antiparalleli portano a distorsioni della geometria: sono detti ripiegamenti .
Coinvolge 2 residui su una catena (che si piega e deforma il foglietto) ed uno sulla
catena adiacente legata alla prima.

ripiegamento classico ripiegamento G1 ripiegamento largo


A causa della stabilizzazione energetica conferita dai legami H, difficile che una
proteina non contenga nessun elemento di struttura (secondaria).
La struttura terziaria il ripiegamento di una singola catena polipeptidica nello
spazio. Le informazioni che portano ad una struttura spaziale precisa di una
proteina sono tutte contenute nella struttura primaria, anche se seguendo regole
che non sono totalmente note, finora.
Le eliche e i foglietti (struttura secondaria) si forma, a causa della stabilizzazione
impartita dai legami H. In seguito, questi si associano in una struttura compatta: si
vede che nessuna proteina stabile come un singolo strato di polipeptide. Ci
sono modi comuni per ottenere questo impacchettamento. Come conseguenza
del fatto che i tratti non interessati dalla struttura secondaria sono generalmente
brevi, questi congiungono direttamente le strutture secondarie, senza
attorcigliamenti o annodamenti complicati. Questo limita la variet delle strutture
terziarie, che formano delle famiglie.
Le proteine si ripiegano per formare le strutture pi stabili possibili. La stabilit
deriva dalla i) formazione del maggior numero possibile di legami H
intramolecolari e ii) dalla riduzione della superficie accessibile al solvente.
Le proteine globulari sono le pi diffuse
contengono un quantitativo variabile di -eliche e -sheets.
Ad esempio la mioglobina, una proteina coniugata di 17 kDa che trasporta ossigeno
nei muscoli, sono presenti 8 segmenti di -elica di lunghezza variabile da 7 a 26 a.a.
Lo spazio tra le eliche riempito dalle catene laterali (idrofobiche) mentre quelle polari
sono esposte verso il solvente, come spesso succede. relativamente insolito che
una proteina globulare contenga una proporzione cos grande di -eliche.

residui idrofobici in
verde
Una proteina globulare pi tipica la ribonucleasi A bovina (bovine ribonuclease
A) una piccola proteina (14.6 kD, 129 residui) che contiene alcune eliche corte,
una sezione importante di -sheets antiparalleli e alcuni ripiegamenti , oltre ad
alcuni segmenti senza struttura definita.
Codice colori amminoacidi:

Il nucleo di una proteina spesso contiene soprattutto parti strutturate in eliche o


foglietti, poich in questo modo i gruppi polari C=O e N-H sono neutralizzati nella
formazione di legami H e possono stare nellinterno idrofobico di una proteina.
Nei casi in cui unelica si affaccia al solvente, ecco che presenta una faccia con
residui polari o carichi ed una con residui idrofobici (elica anfipatica). Si nota che
eliche completamente esposte sono polari/cariche.

Struttura della calmodulina (una proteina che lega il calcio Struttura della flavodoxina (uno scambiatore di elettroni con
Con unelica totalmente esposta al solvente) unelica anfipatica esposta al solvente solo su una faccia)
Limpaccamento delle proteine
Calcolando il volume delle proteine globulari e la
somma dei volumi di van der Waals dei singoli
amminoacidi, si pu vedere che la densit di
impaccamento delle proteine in genere 0.72-0.77. Stabilizzazione del -sheet
Questo significa che ci sono spazi vuoti (molto
piccoli) nellinterno della proteina che possono
conferire un certo grado di flessibilit meccanica. La
Stabilizzazione dell-elica
maggior parte di queste cavit non sono grandi a
sufficienza per ospitare molecole (acqua).
I coil o random coil (gomitolo statistico, in Italiano)
sono quelle parti di catena polipeptidica non
interessata da una struttura secondaria. Queste parti
sono, spesso, ugualmente strutturate, ma in maniera
pi variabile, grazie alle interazioni delle loro catene
laterali (i gruppi R). Queste interazioni sono molto
importanti per stabilizzare le strutture proteiche (vedi
modello a destra)
La calmodulina (di Paramecio) che lega il calcio mediante regioni a loop non
strutturate

Da dati ai raggi X a 1.0


Catene disordinate e dinamica nelle proteine
Esistono anche tratti di catena polipeptidica che sono disordinati (e spesso non
appaiono nelle mappe di diffrazione ai raggi X).
Pu essere che siano tratti flessibili che si possono muovere o che assumono
posizioni alternative (per questo non appaiono chiari nella struttura). Spesso catene
cariche sulla superficie delle proteine non sono strutturate (molte delle catene laterali
delle lisine superficiali della mioglobina, ad esempio).
Le proteine sono comunque mantenute strutturate da interazioni deboli, per questo
sono comunque consentiti movimenti strutturali, anche rapidi. Talvolta sono a carico
di un singolo atomo, talvolta di unintera porzione della catena polipeptidica. Possono
essere indotti dallagitazione termica o da meccanismi precisi di induzione.
Le vibrazioni degli atomi delle proteine sono solitamente movimenti veloci e limitati
(0.5 ).
I movimenti collettivi sono pi lenti e coinvolgono interi tratti di catena legati
covalentemente. Un esempio: il movimento dei domini flessibili di legame degli
antigeni negli anticorpi. Avvengono sulle scale di 10-3-10-12 secondi e dipendono
anchessi dallenergia termica.
Transizioni conformazionali (10-9-103 secondi) coinvolgono intere porzioni di catena
che si sposta anche di grandi distanze (1 nm). Possono avvenire in risposta a stimoli
precisi o allinstaurazione o rimozione di interazioni specifiche. Sono importantissime
per la catalisi enzimatica
Le forze che guidano il ripiegamento tridimensionale delle proteine
globulari
Due importanti tendenze razionalizzano il ripiegamento delle proteine globulari:
-Una catena polipeptidica di L-amminoacidi ha, anche se non ha struttura
secondaria, la tendenza ad attorcigliarsi nel senso destrogiro. Questo fa si che
le catene tendano a disporsi preferenzialmente in una forma destrogira, ad
esempio negli incroci necessari per la formazione di foglietti paralleli.
Antiparallelo

rotazione destrogira naturale di una catena polipeptidica

Parallelo, destrogiro

Molto diffusa Si pu formare il


Parallelo, levogiro
motivo

rara

-Il ripiegamento tende a nascondere i residui idrofobici allinterno della proteina,


per non esporli al solvente. Le proteine globulari possono essere classificate
sulla base del tipo di nucleo idrofobico e di geometria dello scheletro che sono
impiegate per nascondere i residui idrofobici. Il nucleo idrofobico quella
regione in cui si raccolgono per interagire tra loro e non con il solvente.
Si possono razionalizzare i ripiegamenti delle proteine globulari come strati di
scheletro ripiegato, in modo che tra gli strati si possano nascondere i residui
idrofobici. Pi di met delle proteine globulari note ha due strati, circa un terzo ne
ha tre, poche ne hanno quattro o cinque.
A volte non facile definire gli strati o contarli.

Strato 1 Strato 2 I residui idrofobici sono sepolti tra gli strati

(a) Citocromo c (b) Fosfoglicerato kinasi (c) Fosforilasi


(Dominio 2) (Dominio 2)

Parti gialle=nuclei idrofobici


Gli strati possono anche essere geometricamente curvi, come per la trioso fosfato
isomerasi, che ha uno strato centrale di -sheet parallelo ed uno strato esterno di
-eliche.

(d) T rioso fosfato isomerasi

Oltre che per gli strati, le proteine sono classificabili sulla base della struttura
secondaria che contengono (-eliche antiparall, -sheet paralleli o misti, -sheet
antiparall. proteine ricche di metalli o disolfuri). Le similitudini della struttura
terziaria non devono ingannare su similitudini di funzione: lomologia funzionale
spesso dipendente da similitudini strutturali su una scala molto pi piccola che
lintera proteina.
Proteine di eliche antiparallele.
il modo pi semplice per impaccare -eliche. Le proteine quindi consistono di
mazzetti (bundle) di eliche, spesso con una torsione levogira.
La maggior parte di queste proteine fatta di 4 eliche.
Le globine sono un gruppo importante di proteine di -eliche: sono costituite da
due strati di eliche, uno perpendicolare allaltro e la catena polipeptidica che passa
continuamente da uno strato allaltro.

la proteina del virus del mosaico del tabacco la mioglobina


Proteine di -sheets paralleli o misti
Si nota che i -sheets paralleli distribuiscono i residui idrofobici su entrambi i lati del
piano. Di conseguenza, nessuno dei lati del foglietto pu essere esposto al
solvente: i foglietti paralleli sono quindi nel nucleo delle proteine che li contengono.
Una struttura importante il -barrel (barile ), in cui 8 catene formano un foglietto
cilindrico affiancato da eliche a loro antiparallele che formano un cilindro esterno di
eliche parallele tra loro. Questa la struttura della trioso fosfato isomerasi, gi
vista.

entrambi i cilindri hanno una


torsione destrogira
Un altro motivo strutturale comune basato su foglietti paralleli o misti un
muro interno di foglietto attorcigliato protetto dal solvente da entrambi le parti
da eliche.
Queste strutture possono essere pensate come fatte di 3 strati di scheletro e
quindi hanno 2 nuclei idrofobici. Un esempio lesokinasi.

esokinasi
Proteine con foglietti antiparalleli
I foglietti antiparalleli dispongono, di solito, i residui idrofobici su un solo lato, per cui
possono avere un lato esposto al solvente.
La struttura minimale a 2 strati, per proteggere il nucleo idrofobico. A volte la
geometria a barile (i barili contengono in genere un numero pari di catene e
possono essere o tutti paralleli o antiparalleli).
A volte le catene sono interbloccate con topologie complicate che ricordano le
Greche.

inibitore della tripsina dalla soia


Le proteine contenenti metalli o ricche in ponti disolfuro
Queste sono proteine generalmente piccole (100 residui) la cui struttura
fortemente influenzata dalla presenza di metalli o legami disolfuro. La struttura di
queste proteine ricche in ponti disolfuro diventa instabile se i ponti disolfuro sono
rotti. Alcune hanno ripiegamenti simili alle proteine viste finora.
Linsulina un esempio di polipeptide ricco in disolfuri
La ferrodoxina ricca in ferro (come fa presumere il nome stesso)

Insulina ferrodoxina
I coiled-coil
Il motivo strutturale dell-cheratina detto coiled-coil. un motivo presente
anche in altri tipi di proteine non costituite esclusivamente di eliche. In un mazzo
di eliche ce ne possono essere 2, 3 o 4 e possono essere parallele o
antiparallele.

Un esempio di coiled-coil molto esteso la coda della miosina, proteina


motore che si muove sulle fibre di actina
Elementi di struttura sovrasecondaria
Sono anche chiamati motivi strutturali, o ripiegamenti (folds). Si tratta di
raggruppamenti caratteristici di strutture secondarie trovate nelle proteine.
Alcuni grandi motivi strutturali possono comprendere lintera proteina, altri sono
molto semplici. Ad esempio, il coiled-coil si pu intendere con motivo strutturale.
A volte si possono individuare DOMINI di ripiegamento in lunghi polipeptidi: in questo
caso, tratti diversi dello stesso polipeptide si ripiegano indipendentemente (e uno pu
essere ripiegato indipendentemente dagli altri). A volte anche la struttura terziaria
reminiscente della divisione in domini, e la proteina appare costituita di sezioni globulari
collegate da filamenti non strutturati. Pi comunemente, gli estesi contatti tra i domini non
permettono di vedere chiaramente tale suddivisione.

Alcuni moduli della titina


Esempi di motivi strutturali:
Due semplici motivi strutturali che possono nascondere residui idrofobici, creando
due strati nella proteina

Gi visto in precedenza, eliche (destrogire e, raramente, levogire) per fare foglietti


paralleli

La tendenza dei -strand di attorcigliarsi


crea strutture come i -barrel o i foglietti
attorcigliati.
I motivi sono la base per una classificazione
dei ripiegamenti delle proteine
Piruvato chinasi: una complessa struttura in cui si nota un motivo --
Altre consuetudini
Quando entrambi presenti in una proteina, -eliche e -sheet fanno di solito parte
di due strati strutturali distinti, perch non riescono a formare facilmente legami H
tra loro.
Pi spesso che no, elementi vicini nella struttura primaria restano in prossimit
anche in quella terziaria, ma non una regola.
Non si possono formare incroci o nodi nel passare da un elemento di struttura
secondaria allaltro.

-Emolisina di
Staphilococcus aureus:
una proteina con un -
barrel che protrude e
che si inserisce nella
membrana cellulare
creando un buco che
porta alla lisi della
cellula.
Helix- turn- helix
Beta sandwiches
4 bundle
Le proteine di membrana si sono adattate ad un
ambiente idrofobico

La struttura della
batteriorodpsina, una
proteina pompa che sposta
protoni attraverso la
membrana (verso fuori)
La struttura quaternaria
non lineare
tridimensionale
formata da legami
idrogeno, legami
covalenti (disolfuri),
impaccamento idrofobico
ed esposizione di
superfici idrofiliche
le strutture favorevoli
sono frequenti e sono
state catalogate
Esempi di altre strutture quaternarie

Tetramero Esamero Filamento

SSB, permette il DNA elicasi, legame ricombinasi, per il


legame coordinato al coordinato al DNA e completo ricoprimento
DNA idrolisi di ATP di una molecola
estesa
In molte proteine, la struttura quaternaria si presenta simmetrica
il legame con lO2 ha
effetti strutturali su tutta
la proteina, cambiando
la propensione stessa di
legare lO2.
Come nellemoglobina, la struttura quaternaria
consente un livello aggiuntivo di funzionalit (o
di complessit)
Generalmente, solo una piccola frazione della
superficie proteica conservata

Invariante (il residuo sempre lo stesso, es: Asp)


Conservato (il residuo generalmente simile, es: carico neg.)
non conservato (diversi residui in diverse specie)
Le chaperonine e lassistenza al ripiegamento
Le chaperonine sono grandi complessi di proteine fatti a doppio anello il
cui ruolo in vivo assistere al ripiegamento delle proteine
Le Chaperonine cercano di controbilanciare il ripiegamento delle proteine
in forme non-native e laggregazione delle proteine
- Durante il folding de novo
- Nelle condizioni di stress (es.: ad alta temperatura sono a volte detti
heat shock proteins)
N =ripiegamento nativo
Cause dellaggregazione

Interazioni idrofobiche
Legami idrogeno inter-
catene
Affollamento intracellulare

U = catena non ripiegata (unfolded)


N = Proteina ripiegata in modo nativo
I = intermedio parzialmente ripiegato
Il meccanismo di assistenza al ripiegamento delle
chaperonine
1- Legano i polipeptidi non ripiegati in modo nativo attraverso interazioni idrofobiche
2- Permettono ai polipeptidi di ripiegarsi in un ambiente idrofobico isolato

1. Il polipeptide non-nativo si lega allanello trans (lontano a GroES)


di GroEL
2. 7ATP (equatoriali) e GroES si legano allanello cis di GroEL
3. Dissociazione dei 7ADP e di GroES dallanello cis di GroEL
4. Il dominio apicale di GroEL ruota e cambia conformazione per
raddoppiare il volume della sua cavit e mutare le propriet
superficiali da idrofobiche a idrofiliche
CHAPERONI CITOSOLICI di Coli e possibile utilizzo contro corpi di inclusione

Si possono usare chaperoni come Schlieker et al.


-disaggregasi che disaggregano il corpo es ClpB
- chaperoni folding es DnaK e GroEL che intervengono anche nel folding de novo
- chaperoni holding che prevengono laggregazione oppure coaggregano con gli
aggregati per richiamare le disaggregasi
Oltre ai chaperoni possibile usare proteasi per disaggregare i corpi di inclusione
Hsp60 (GroEL), Hsp70 (DnaK) e
Hsp90 (HtpG), assistendo il
folding, possono aiutarlo
mandandolo avantie
Polipeptide prevenendo cos laggregazione.
TF nascente Per queste proteine non sono in
grado direttamente di soccorrere
grossi aggregati.
incontra DnaK
Intermedi del
5-18% folding

Proteina
Incotra GroEL Nativa
aggregati

10-15%
Problematica con alto riscontro
nellespressione di proteine ricombinanti
eterologhe
La sovraespressione porta ad un livello di aggregazione
proteica elevato:
CORPI DINCLUSIONE

Sempre maggiore linteresse riscontrato dagli studi che


descrivono leterogeneit della struttura dei corpi
dinclusione e le interazioni dinamiche delle proteine
precipitate sotto questa forma con la frazione solubile.
Come si determina
sperimentalmente la struttura
delle proteine?
Cristallografia ai raggi X
cristallizzare una proteina
bombardarla con i raggi X e
registrare il disegno di
diffrazione
determinare la mappa di
densit elettronica dallo
scattering e dalla fase
mediante trasformata di
Fourier:

"All crystallographic models are not equal. ... The brightly colored stereo views
Utilizzare la densit elettronica of a protein model, which are in fact more akin to cartoons than to
e le conoscenze biochimiche molecules, endow the model with a concreteness that exceeds the
intentions of the thoughtful crystallographer. It is impossible for the
sulla proteina per raffinare le crystallographer, with vivid recall of the massive labor that produced the
model, to forget its shortcomings. It is all too easy for users of the model to
informazioni ed ottenere un be unaware of them. It is also all too easy for the user to be unaware that,
through temperature factors, occupancies, undetected parts of the protein,
modello and unexplained density, crystallography reveals more than a single
molecular model shows.

- Rhodes, Crystallography Made Crystal Clear p. 183.


Cenni storici
1864 Viene cristallizzata l emoglobina.
1895 Rngten osserva che quando i raggi catodici (elettroni) colpivano un bersaglio
metallico si originava una nuova forma di radiazione penetrante, che egli chiamo
raggi X.
1912 Facendo attraversare dai raggi X un cristallo di solfuro di zinco Von Laue ottiene i primi
diffrattogrammi. W.L. Bragg e W.H. Bragg propongono una correlazione semplice tra la
figura di diffrazione ottenuta con i raggi X e la disposizione degli atomi nel cristallo che
ha generato la figura (legge di Bragg).
Anni 30 Bernal, Crowfoot, Bragg, ottengono i primi diffrattogrammi da cristalli di proteine
(insulina, emoglobina, mioglobina).
1941 Atsbury ottiene il primo diffrattogramma ai raggi X del DNA.
1951 Pauling e Corey propongono la struttura di -elica e foglietto in base a
considerazioni teoriche.
1953 Watson e Crick propongono la struttura a doppia elica del DNA sulla base delle analisi
diffrattometriche ai raggi X di Franklin e Wilkins.
1954 Perutz e coll. elaborano i metodi basati sull impiego dei metalli pesanti per risolvere il
problema delle fasi nella cristallografia ai raggi X.
1960 Kendrew descrive la struttura della mioglobina a una risoluzione di 2 . Perutz
propone la struttura della emoglobina, piu grande, ad una risoluzione inferiore.
Anni 80 Hartmut Michel risolve la struttura (3 ) della prima proteina di membrana (centro di
reazione fotosintetico).
Anni 90 Diviene possibile la cristallografia risolta nel tempo.
2000 Vengono risolte le strutture (3 ) delle subunita L e S del ribosoma (circa 1.5 e 1 MD
rispettivamente).
Cristallografia ai raggi X
Servono grandi quantit di
proteine cristallizzate (le proteine
devono cristallizzare)
difficile cristallizzare le proteine
Molto difficile per proteine
idrofobiche (transmembrana)
Pi accurato dellNMR
Costoso: $100,000/proteina
Accesso a radiazione adatta
Tempo di calcolo per risolvere la
struttura
Cristallografia a raggi X

Ottenere cristalli della proteina


0.3-1.0 mm
Le singole molecole sono ordinate in modo
periodico, ripetitivo.
La struttura determinata dai dati di
diffrazione.
problema fondamentale che l intensit dello scattering dei raggi X risultante
dall interazione con una singola molecola troppo debole per dare informazioni
utilizzabili.
Con un cristallo l ampiezza dello scattering viene amplificata di un fattore
pari al numero di cellule unitarie che formano il cristallo esaminato.
Condizioni per la cristallizzazione di proteine

Proteina pura > 97% e in grande quantita.

Lenta precipitazione da una soluzione sovrasatura metodo hanging drop.

Giocano un ruolo molti parametri critici: pH, temperatura, concentrazione della


proteina, natura del solvente e del precipitante, ligandi della proteina, etc.

Alcuni cristalli non diffrangono affatto o troppo poco (disordine intrinseco), altri
sono troppo piccoli o troppo fragili.
Le proteine nei cristalli tendono a impaccarsi lasciando fra loro larghi spazi

Impaccamento
della glicolato
ossidasi

Struttura nativa
Diffusione di ligandi, metalli pesanti
Diffrazione a raggi X
Risoluzione
Spettroscopia NMR
I protoni risuonano ad una frequenza che
dipende dal loro intorno chimico.
Questo pu essere impiegato per
caratterizzare una struttura.
Non ha bisogno di cristalli, la proteina pu
essere in soluzione (anche se in genere
molto concentrata).
A risoluzione pi bassa della cristallografia
ai raggi X.
Spettroscopia NMR

Proteine in soluzione acquosa,


mobili, vibrano e si mescolano
grazie allagitazione termica
lNMR rileva i chemical shift dei
nuclei atomici con spin non nullo a
determinare delle costrizioni causa delle interazioni che hanno
(distanze, angoli) con lambiente circostante
determina le distanze tra coppie di
atomi
impiega, poi, conoscenze chimiche
e biochimiche sulla proteina per
determinare famiglie di modelli.

da usare per determinare una


struttura
Campo magnetico NMR

NOE (Nuclear Overhauser Effect)


Risonanza Magnetica Nucleare
(NMR)
Proteine in soluzione
Limite di dimensione ~ 40 kDa
Proteine stabili a lungo
Marcatura con 15N, 13C, 2H.
Strumentazione molto costosa
Tempo per assegnare le risonanze
Pro e contro
X-ray NMR

Richiede cristalli, problematico Possibile in soluzione, pi


semplice
Non ha limiti (teorici) di
grandezza Limitato a proteine fino a circa
300 residui
Pi preciso Meno preciso
Risoluzione Numero di vincoli
Struttura pu essere deformata Struttura nativa in soluzione,
dai cristalli, rigida flessibile
Una soluzione Molti modelli
X-ray NMR
Fluorescence Resonance Energy Transfer
spesso descritto come righello molecolare
segmenti di una proteina sono etichettati con fluorofori
il trasferimento di energia avviene quando donatore ed accettore
interagiscono, questo dipende dalla distanza e decresce come 1/d6
dove d la separazione tra donatore ed accettore
donatore ed accettore devono essere distanti meno di 50 ,
lintensit di emissione dellaccettore sensibile alle variazioni di
distanza
si possono individuare coppie di punti di catena che sono, ad
esempio, separati quando la catena non ripiegata e prossimi
quando la catena ripiegata.
Protein DataBank (PDB)

NMR:7,400
Xray:58,000
Utili portali di ricerca per strutture
http://www.ncbi.nlm.nih.gov/sites/gquery

http://www.pdb.org
Il problema del ripiegamento delle proteine

cio il problema di capirci qualcosa


Perch il ripiegamento delle proteine un
problema?
Chiunque abbia faticato per ripiegare una
carta stradale dovrebbe portare particolare
rispetto alle proteine, le quali si ripiegano
da sole ed in pratica si mettono anche nel
cassetto

- (Brian Hayes, da un articolo su American Scientist, 1998)


Come si ripiegano le
proteine?
Le proteine si ripiegano spontaneamente
nella loro struttura nativa, impiegando un
tempo biologicamente breve (dellordine
dei secondi)

la struttura nativa lo stato fondamentale


del sistema, La differenza energetica con
il primo stato eccitato >> kT

il ripiegamento di una
proteina una reazione
chimica, il meccanismo tale
che lo stato di transizione
abbia bassa energia libera

le proteine si ripiegano o si denaturano


come risposta ad uno stimolo esterno e per
svolgere funzioni biologiche
Perch il ripiegamento delle proteine
(ancora) un problema irrisolto?

La struttura tridimensionale proteica NON


GERARCHICA, ma contestuale e la nucleazione ha
luogo contemporaneamente: le strutture 2 e 3
crescono insieme
Le proteine non hanno un problema di ripiegamento
ce lhanno i ricercatori

Cartoons by Larry Gonick

In principio,
le leggi della fisica determinano per intero come una catena lineare di
amminoacidi si ripieghi in una struttura tridimensionale complessa
dotata di propriet biochimiche utili.
In pratica,
predire la struttura partendo dalla sequenza un grande problema
irrisolto.
Perch il ripiegamento un problema?

molto difficile caratterizzare il processo di ripiegamento!


Perch il ripiegamento delle proteine
(ancora) un problema irrisolto?

STATO FONDAMENTALE

STATO NATIVO
Paradosso di Levinthal (1968):
Se la ricerca casuale:
83 58
=5 ~ 10

fold = 58
~ 10 sec
12
k0 10
fold >> et delluniverso !!
2CI2 N= 83 residui
~ 5 stati ogni residuo

Ricerca casuale nello


spazio conformazionale
Energia

panorama di energia
conformazionale simile ad un
coordinata(e) di reazione campo da golf
Teoria della superficie di energia potenziale

La proteina cerca
CONFORMAZIONI ad
ENERGIA PI BASSA

Cartoons by Larry Gonick

Superficie di energia potenziale a troppo


campo da golf lento!
superficie di energia potenziale troppo
Energia

altamente corrugata
lento!

superficie di energia OK!


potenziale ad imbuto

coordinata(e) di reazione
Studi teorici hanno mostrato come
superfici di energia potenziale fatte
ad imbuto con un minimo unico
possano guidare efficientemente
una proteina verso strutture native
grazie alla progressiva
organizzazione delle strutture
parzialmente ripiegate che si
formano lungo il cammino.

Limbuto corrugato da
impedimenti locali (impedimenti
sterici, contatti non nativi, ecc.) che
producono barriere di potenziale
alcune volte maggiori delle
fluttuazioni termiche. Durante il
ripiegamento, questa corrugazione
dellimbuto comanda la cinetica del
processo intrappolando le molecole
che si stanno ripiegando.
Si ipotizza che i processi di
ripiegamento/denaturazione
possano avvenire su questa
complessa superficie di energia
potenziale, caratterizzata da
numerosi intermedi.
Cartoons by Larry Gonick
Una proteina guidata verso la sua struttura nativa da
superfici di energia potenziale con una struttura
globalmente ad imbuto
Le molecole individuali seguono
cammini differenti.

(J. M. Fernandez, H. Li, Science 2004,


303, 1674-1678)

Esaminare gli equilibri conformazionali e le


cinetiche di ripiegamento al livello della singola
molecola, sta divenendo una necessit ed al
tempo stesso una grande sfida in biologia
sperimentale.

(Onuchic & Wolynes Current Opinion in


Structural Biology 2004, 14:7075)
Examining protein conformational equilibrium and folding kinetics
at a single-molecule level
Within such a complex funneled multidimensional energy landscape, different
protein molecules, in spite of having the same sequence, can follow markedly
different trajectories during their folding and also in their thermal fluctuations after
having reached their native structure. In fact, one molecule can be driven into
one funnel trap, while a different molecule can visit another one, and so on.
Through such a multiplicity of conformational paths, peculiar structures could be
assumed or particular motions could be made even by only a few molecules
of the ensemble.

Those structures might be selected or those motions might be rectified to make a


specific biological function possible, and the same function would be inaccessible
for all the other molecules at that same moment. It has been theoretically
recognized that the structure of a protein required for a biological function might
also be the result of catastrophic events, such as the cracking or unfolding of part
of the protein due to transient strain energies. On this basis, examining protein
conformational equilibrium and folding kinetics at a single-molecule level has
become a necessity, and it is currently considered a great challenge in
experimental biology.
Misure di singola molecola

Discrasia: pensiamo nei termini di una molecola singola, ma


facciamo solitamente esperimenti campionando numeri di
Avogadro di molecole ed estraendo quantit mediate

Superiamo le limitazioni delle medie con misure di


molecole singole, poi possibile effettuare
medie nel tempo
medie nelle popolazioni conformazionali
Gli esperimenti di denaturazione indotta dalla forza
normalmente esplorano traiettorie differenti sulla
superficie di energia potenziale rispetto agli esperimenti di
denaturazione termica o con agenti chimici.

denaturazione meccanica

denaturazione
termica

(X. Zhuang & M. Rief, 2003)

Gli esperimenti di denaturazione meccanica sono


particolarmente rilevanti per le proteine che sono soggette a
forze di trazione in vivo.
denaturazione meccanica della titina

mediante microscopia a forza atomica: Rief et al. Science 1997, 276, 1109-1112

La curva di forza ha un profilo a denti di sega in cui ogni picco corrisponde


allo svolgimento di un dominio individuale
I singoli moduli si svolgono sequenzialmente.

mediante optical tweezers Kellemayer et al. Science 1997, 276,1112-1116;


Tskhovrebova et al., Nature 1997, 387, 308-312
Denaturazione e rinaturazione di una proteina in velocity clamp

Miosina II coiled coil:


si comporta come una
vera molla entropica:
pu rilassare molto
velocemente poich la
sua struttura (fig.from X. Zhuang, M.
topologicamente Rief Curr. Op. Str. Biol:
semplice 2003)

Titina: la denaturazione e
la rinaturazione
procedono su due
traiettorie diverse. Il
tempo richiesto per
campionare tutte le
possibili interazioni e
scegliere i minimi di
energia ottimali diventa
sempre pi lungo

Il processo dominato da effetti cinetici quando la velocit di applicazione della forza pi


alta del tempo di rilassamento molecolare pi lento.
Panorama (superficie) di energia libera
Simulazioni di Dinamica Molecolare

E (R ) = Elegame + Eangolo + Ediedrica + Eelettrostatica + EvdW

da: http://www.ch.embnet.org/MD_tutorial/
The Structural Prediction Problem
Given a protein sequence, compute its structure.

Possible in principle.
Astronomical, highly under-constrained search space.
Biophysics complex and incomplete.
Next to impossible in practice.
Secondary Structure Prediction
Much simpler to predict a small set of
classes than to predict 3-D coordinates of
atoms.
Amino acids have different propensities for
alpha helices, turns and beta sheets.
Homology can also be used since fold is
more conserved than sequence.
A Major Challenge of Bio-informatics
The challenge: Understand the relationship between amino acid
sequence and the 3D structure of proteins;
Predict 3D structure from sequence.

Unfortunately, the relationship between sequence and


structure is very complicated. Current tools perform this task
poorly.

Best performance (so far) can be achieved using sequence


homology to a known 3D structure experimentally determined
(by X-ray crystallography or NMR).
How do Proteins Acquire
Correct Conformation ?
The primary amino acid sequence is crucial in determining its final
structure.

In some cases, additional interactions may be required before a


protein can attain its final conformation (for example, cofactors,
one or more subunits).

Proteins can change their shape and function depending on the


environmental conditions in which they are found. The primary amino
acid sequence does not change.
How is the 3D structure determined?
1. Experimental methods (Best approach):
X-rays crystallography - stable fold, good quality crystals.
NMR - stable fold, not suitable for large molecule.

2. In-silico methods (partial solutions -


based on similarity):
Sequence or profile alignment - uses similar sequences,
limited use of 3D information.
Threading - needs 3D structure, combinatorial complexity.
Ab-initio structure prediction - not always successful.

http://www.idi.ntnu.no/grupper/KS-grp/microarray/slides/drablos/Fold_recognition/sld004.htm
Predicting Protein Structure
Principle: Look for the structure with minimum free energy.

Rule of thumb: Hydrophobic a.a. wants to stay inside (conserved)


,hydrophilic a.a. wants to be outside (less conserved, assuming
water as the universal solvent in cells).

The main driving force for folding is to pack hydrophobic side-chains


into the interior of the molecule, thus creating a hydrophobic core.

Factors other than free energy:


shape, size, polarity, strength of interactions, etc.
Conformation of Polypeptides
The Advent of Computational Modeling:
Aim: Develop procedures for predicting protein structure,
that are not so time consuming and that are not hindered
by size and solubility constraints.

Basic Theory: Proteins that share a similar sequence,


generally share the same basic structure. There is a
strong conservation of protein 3D shape across large
evolutionary distances.
Three Main Approaches
for Structural Prediction:
1. Comparative (Homology) Modeling.
Requires sequence that is similar to the sequences of
a protein(s) of known structure.

2. Fold Recognition (Threading).


Requires a structure similar to a known structure
(with little sequence similarity).

Both based on similarity.

3. Ab-initio (based only on sequence)


Have no similarity, based on first principals.
Example:
A pathway for folding a 2-domain protein.
1. Comparative (Homology) Modeling
Principle: Sequence homology usually implies 3D
structural similarity.
Given a protein sequence, look for homologous sequences
with a known structure.
Suppose the structure of one or more homologous has
already been determined. Then the structure of our
original protein will be similar (High sequence identity
(> 70%), is necessary).
Remark: The success of this approach depends on the
number of different structures already determined
(low success early on, improved as PDB grows).
2. Protein Fold Recognition -
Classifying Proteins by Folds
Goal: Map regions of linear sequence to known folds in PDB.
Fold: Collection of proteins that share a
similar combination of secondary structures.
In human: Estimated number of proteins is 100,000.
~700 folds discovered so far.

Nature has created complexity through the


combination of a small number of simple
elements - such as secondary structures.
Fold Recognition
Fold recognition - Given a sequence and a library of folds,
thread the sequence through each fold. Take the one with
the highest score.
Note: Method will fail if
new protein does not belong
to any fold in the library.

Experience shows that with


current library (~700 folds)
most new proteins do find a
good fold.

Score of the threading is computed based on known physical chemistry


properties and statistics of amino acids.
http://cmgm.stanford.edu/biochem218/16Threading.pdf
Fold Recognition - Threading
Thick backbone - known structure. Thin lines - modeled
structure. Some side-chains are not positioned correctly,
but some look good.

The similarity of structures is very high in core regions


(helices & sheets). However, loops vary even in pairs of
homologous structures with high % of sequence similarity.
Ab-initio, theoretical modeling,
and conformation space search
Ab-initio = given amino acid primary structure, i.e. sequence,
derive structure from first principles (e.g. treat amino acids as
beads and derive possible structures by rotating through all
possible , angles using a reliable energy function, then
optimize globally)

Theoretical modeling = subset of ab-initio, given amino acid


primary structure and knowledge about characteristic features,
derive structure that has that structure and features
(e.g. protein has an iron binding site
possible heme substructure)

Conformation space search = subset of ab-initio, but a


stochastic search in which the sample space is reduced by
initial conditions/assumptions (e.g. reduce sample space to
conform to Ramachandran plot)
Homology modeling and threading

Homology modeling = knowledge-based approach, given a


sequence database, use multiple sequence alignment on this
database to identify structurally conserved regions and
construct structure backbone and loops based on these
regions, restore side-chains and refine through energy
minimization (apply to proteins that have high sequence
similarity to those in the database)

Threading = knowledge-based approach, given a structure


database of interest (e.g. one that provides a limited set of
possible structures per given sequence for fold recognition,
one that provides a one structure per given limited set of
possible sequences for inverse folding) use scoring
functions and correlations from this database to derive
structure that is in agreement (apply to proteins with
moderate sequence similarity to those in the database)
Energy minimization, simulation
and Monte Carlo
Energy minimization = select an appropriate energy function
and derive conformations that yield minimal energies based
on this function

Simulation = select appropriate molecular conditions and


derive conformations that are suited to these molecular
conditions

Monte Carlo = subset of molecular simulation, but it is an


iterated search through a Markov chain of conformations
(many iterations canonical distribution, P(particular
conformation)~exp(-E/T)) proposed by N. Metropolis, in which
a new conformation is generated from the current one by a
small ``move'' and is accepted with a probability Pacc = min(1,
exp(-E/kT)), which depends on the corresponding change in
energy, E, and on an external adjustable parameter, kT
3. Ab-Initio Prediction
Used when all else fails:
1. No homology found to any sequence with known
structure.
2. All known folds give poor threading scores.

Given only the sequence, try to predict the structure


based on physical-chemistry properties (energy,
hydrophobicity, size, charge, etc.).

Some ab-initio programs try to simulate the process of


the protein folding in the cell (by molecular dynamics).
Ab-Initio Prediction
A good prediction method for 2- or 3D structures
only for small & simple proteins.
Method requires enormous computational resources.

Despite substantial
improvements, success
is still very limited.
Talvolta qualcosa non perfettamente razionale

PARADIGMA STRUTTURA-FUNZIONE

SEQUENZA
STRUTTURA 3D FUNZIONE
AMMINOACIDICA

STRUTTURA 3D SPECIFICA E PREREQUISITO


FONDAMENTALE PER LA FUNZIONALITA
DELLA PROTEINA

ESPERIMENTI DI DENATURAZIONE

cos dovrebbe funzionare sempre, ma


CONFIGURATIONAL ADAPTABILITY
(Karush, 1950)

DA STUDI SU ALBUMINA DEL SIERO

IPOTESI CHE CAMBI CONFORMAZIONALI


SIANO RESPONSABILI DELLA FUNZIONALITA
DELLA PROTEINA

20 ANNI FA: scoperta, in alcune proteine, di segmenti non


strutturati aventi ruolo importante per la funzionalit della Coda funzionale
proteina stessa. dellistone H5
Dalla TRIPLETTA PROTEICA
Molten globule Ordinato

SCHEMA DEL QUARTETTO PROTEICO

Gomitolo statistico
IUPs

INTRINSICALLY UNSTRUCTURED PROTEINS

Proteine la cui funzione


direttamente correlata
al disordine strutturale

Assenza di folding associata a


alta flessibilit

Comuni a molti organismi, in


quantit correlata alla
complessit
Trasduzione del segnale
Localizzate soprattutto in Regolazione del ciclo cellulare
nucleo e citoscheletro
Espressione genica
TECNICHE PRINCIPALI PER
DIMOSTRARE LASSENZA DI UNUNICA
STRUTTURA 3D

Cristallografia Risonanza Dicroismo circolare


ai raggi X magnetica nucleare
multidimensionale
(NMR)

Studio delle IUPs in vitro in


soluzioni altamente diluite
CARATTERISTICHE STRUTTURALI

CONFORMAZIONE ESTESA

COMPOSIZIONE AMMINOACIDICA CARATTERISTICA

BASSA IDROFOBICITA
ALTA CARICA NETTA
MANCANZA DI Cys
ABBONDANZA DI Pro

ORDINE STRUTTURALE
CONFORMAZIONE ESTESA
SARA SBD DOMAIN

La PRINCIPALE PROPRIET
strutturale delle IUPs che non
posseggono una struttura ben
foldata in condizioni fisiologiche.

Appaiono infatti in una


CONFORMAZIONE ESTESA che
SNAP-25 HIF-1 sembra assomigliare allo stato di
random coil, ma tale struttura
dipende da una precisa
composizione amminoacidica per
nulla casuale.

HIF-1
COMPOSIZIONE AMMINOACIDICA
DISTINTIVA
FREQUENZE DI AMMINOACIDI IN %

Arg, Ala, Gly, Pro, Glu, Lys, Ser e Gln


(disorder-promoting)

Trp, Tyr, Phe, Cys, Ile, Leu e Asn


(order-promoting)

Tale composizione amminoacidica provoca:

BASSA IDROFOBICITA
ALTA CARICA NETTA

E FAVORITA UNA CONFORMAZIONE


ESTESA
COMPOSIZIONE AMMINOACIDICA
DISTINTIVA
MANCANZA DI Cys ABBONDANZA DI Pro
In una struttura globulare di solito La prolina un amminoacido che
le cisteine occupano il SITO DESTABILIZZA la struttura
ATTIVO o stabilizzano i LEGAMI avvolta delle proteine a causa
DISOLFURO. Le IUPs infatti sono della sua struttura rigida.
carenti nella frequenza di questi
residui.

E FAVORITA UNA CONFORMAZIONE


ESTESA
La prolina induce la formazione di
una elica sinistrorsa chiamata
POLIPROLINA II (PP II), una
conformazione molto frequente
nelle IUPs.
ORDINE STRUTTURALE
ORGANIZZAZIONE DEI DOMINI DELLE IUPs
Lordine strutturale delle IUPs
visibile a livello della sequenza
amminoacidica, come dimostra
la BASSA COMPLESSITA
(molte regioni ripetute) se
comparata con le sequenze
random delle proteine globulari.

Inoltre la distribuzione a lungo


raggio di alcuni amminoacidi
(Pro, Gln, Acidi, Basici)
tuttaltro che casuale.
Infatti chiaramente visibile
che lorganizzazione in DOMINI
ZONE RICCHE IN AA ACIDI
di alcune IUPs definita dalla
ZONE RICCHE IN AA BASICI
ZONE RICCHE IN Pro
prevalenza di alcuni residui
ZONE CARICHE piuttosto che di altri.
S,A,Q,N,K NOME DELL
DELLAA PREDOMINANTE
CARATTERISTICHE FUNZIONALI
Coinvolgimento in molti PROCESSI CELLULARI:
regolazione della trascrizione e traduzione
trasduzione cellulare del segnale
immagazzinamento di piccole molecole (scavengers)
regolazione dellassemblaggio di grossi complessi multiproteici
(assemblers)
funzione di chaperoni per proteine e molecole ad RNA

TRANSIZIONE DISORDINE-ORDINE (coupled folding and binding). Pu


consistere sia nellassunzione di uno stato semplicemente pi ordinato, sia
di una struttura secondaria o terziaria.

BINDING PROMISCUITY, capacit di legare pi target differenti.


Ovviamente ci presuppone ladozione di diverse conformazioni.

MODIFICAZIONI POST-TRASDUZIONALI (fosforilazioni, acetilazioni,


metilazioni,). Propriet molto importante per tutte le IUPs la cui funzione
soggetta a modulazione (display sites).
Intrinsically Unfolded Proteins (IUPs)
against the classical paradigm of protein science one sequence=one structure
z IUPs = proteins that mostly lack a single, well-defined three-dimensional
structure in physiological conditions.
z IUPs play key roles in a wide range of biological processes like transcriptional
and translational regulation, signal transduction, protein phosphorylation and
help in the folding of RNA and other proteins.
z IUPs fulfil more then one, apparently unrelated, function (moonlighting, or
multi-tasking proteins); might increase the complexity of metabolic
network without increasing the number of underlying proteins

Tompa P, Trends Biochem Sci (27) 10, 527-533


Dunker AK, "DisProt: the Database of Disordered Proteins." Nucl. Ac. Res. 2007(35)786-93
CATENE ENTROPICHE

Questa classe di IUPs non coinvolta nel riconoscimento molecolare.

La funzione deriva direttamente dallo stato disordinato in cui si trovano


ed associata allabilit del polipeptide di fluttuare tra stati
conformazionali alternativi.

Svolgono fondamentalmente ruoli architettonici come ad esempio quello


di molle per la contrattilit del muscolo, o di spaziatori dei microtubuli del
citoscheletro.

Comprende principalmente bristles, springs e linkers.


LEGAME TRANSIENTE
A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma
che intraprendono con i propri target solo legami transienti, ossia non permanenti
nel tempo.

DISPLAY SITES CHAPERONS


La loro funzione mediata da Ultima classe ad essere stata
modificazioni regolatorie POST- individuata.
TRADUZIONALI come
fosforilazione o proteolisi Comprende sia chaperoni proteici
limitata. che RNA-chaperoni. I primi sono
la classe funzionale con la
Alcune modificazioni richiedono maggiore incidenza di regioni non
infatti una buona flessibilit del strutturate (il 40% contro il 15%
substrato (data in questo caso dei proteici).
dal disordine intrinseco) che La funzione dipende direttamente
permette interazioni transienti dai segmenti non strutturati.
ma specifiche con il sito attivo
dellenzima.
LEGAME STABILE
A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma
che intraprendono con i propri target solo legami permanenti, ossia duraturi nel
tempo.

EFFECTORS ASSEMBLERS SCAVENGERS

Alterano lattivit dei loro Questa classe di Scavengers significa


target molecolari proteine coinvolta esattamente
(singole proteine o nei processi di spazzini, infatti la
complessi multiproteici). assemblaggio, loro funzione quella
regolazione e di accumulare e
La loro azione
stabilizzazione di neutralizzare piccole
principalmente inibitoria,
grossi complessi molecole che
ma scoperte recenti
multiproteici quali ad costituiscono il loro
hanno dimostrato che
esempio il ribosoma, ligando.
possono agire anche da
attivatori, dimostrando la la cromatina e il
loro estrema versatilit citoscheletro.
strutturale e funzionale.
Human diseases linked with abnormal aggregation of IUPs

Chiti & Dobson, Annu


Rev Biochem2006
The expression levels of human genesin-vivo are anti-correlated with the
aggregation rates of the corresponding proteins measured in-vitro

human proteins have evolved to resist aggregation and to functio n efficiently, but
with almost no margin of safety to respond to genetic and environmental factors
that decrease their solubility or increase their concentration i n vivo.

we are constantly living our lives at the edge of a molecular pr ecipice.

(Vendruscolo and coll. Trends Biochem Sci 2007)


-synuclein

-Its physiological functions


in the nervous system
remains to be fully defined.

-It is related to several


neurodegenerative diseases,
including Parkinsons disease
(PD).

- -syn bound to ubiquitin is the


main constituent of the Lewy body -synuclein immunostain
proteinaceous cytoplasmic
inclusions called Lewy Bodies.

Amphipatic region NAC Acidic terminal

1 61 95 140
oligomers

?
fibrils
(sheets)

Interacting with
membranes
it acquires Lewy body
-helix
structure
Syn is a natively The transition from the
unfolded protein natively unfolded monomeric
state to fibril is a process of
acquiring a -structure.
This process is still under
strong debate.
Amyloid fibrils
The name comes from the early mistaken identification of the substance
as starch (amylum in Latin)

One of the most intriguing issues in biology is the occasional


conversion of proteins into stable fibrillar aggregates.
Such structures, known as amyloid fibrils are involved in over 20
neurodegenerative human diseases.

An electron microscope image


of amyloid fibrils in vitro

Diffraction pattern: signature of cross structure


with -strands orthogonal to the fibril axis
Amyloid fibrils
Syn 1-140 / 110h 37C
Fibril-involving Proteopathies (Amyloidoses):
42 and counting !
Alzheimers disease
Parkinsons disease
Atrial Amyloidosis
Hereditary Renal
Amyloidosis
Secondary Systematic
Amyloidosis
Injection-Localized
Amyloidosis
Type II diabetes
Chronic Wasting Disease
(CWD)
Scrapie
BSE- Mad Cow Disease
Kuru
Creutzfeldt-Jakob Disease
1 . Tecniche per valutare il contenuto di struttura
secondaria
DICROISMO
CIRCOLARE
Lo spettro CD di
una IUP
caratterizzato da
unellitticit
negativa a 198
nm e da
unellitticit
prossima a zero a
185 nm.
Valutando i valori
di ellitticit a 200
e 222 nm si riesce
anche a
discriminare tra
proteine random
coils e premolten
globules.
SPETTROSCOPIA
INFRAROSSA DI
FOURIER (FT-IR)
Le informazioni sulla
struttura secondaria
derivano dalla
scomposizione della
banda di assorbimento
dellammide nei suoi
componenti. Questa
banda si origina dalla
vibrazione di stretching
del C=O del legame
peptidico, la cui
frequenza sensibile
alla conformazione
della proteina.
Consente di monitorare
laggregazione della
proteina e di
discriminare tra eliche
con differenti gradi di
flessibilit
2. Metodi per valutare la struttura terziaria globale

SMALL ANGLE X-RAY SCATTERING (SAXS)

Lintensit di scatter sensibile sia alle dimensioni della proteina in


soluzione, sia alle propriet conformazionali della catena
polipeptidica.

Confrontando per una proteina il raggio di rotazione sperimentale


con quello atteso, si riesce a discriminare tra proteine foldate,
random coils e premolten globules.
DYNAMIC LIGHT SCATTERING E GEL FILTRATION

Attraverso queste tecniche possibile determinare il raggio


idrodinamico Rh di una particella in soluzione: sono stati definite
delle relazioni empiriche tra lRh e il numero di residui di proteine
globulari e di random coils, perci si pu confrontare lRh osservato
con i valori attesi e valutare il grado di compattezza della proteina.

ULTRACENTRIFUGAZIONE ANALITICA E VELOCITA DI


SEDIMENTAZIONE

Anche queste altre due tecniche forniscono informazioni


idrodinamiche quali la taglia e la conformazione della proteina
3. Metodi per valutare la struttura terziaria locale

SPETTROSCOPIA DI FLUORESCENZA
Il principale fluoroforo nelle proteine lamminoacido triptofano: esso ha
un massimo di assorbanza prossimo a 280 nm e un massimo di
emissione altamente dipendente dalla polarit dellambiente. Lintensit di
fluorescenza del triptofano dipende inoltre dallinterazione con i gruppi
vicini. Lo spettro di fluorescenza di una IUP fornisce perci utili
informazioni sullambiente del fluoroforo, e quindi sulla presenza di
struttura proteica ordinata in sua vicinanza.

SPETTROSCOPIA NEAR UV-CD


Nella regione near-UV (320-260 nm) i segnali CD sorgono
principalmente dalle catene laterali aromatiche di fenilalanina, tirosina e
triptofano. Segnali pronunciati sono indicativi di residui aromatici in un
ambiente piuttosto asimmetrico, compatibile con la presenza di una
residua struttura ordinata.
DIFFERENTIAL SCANNING CALORIMETRY (DSC)

Poich lassenza di una transizione termica cooperativa indicativa


dellassenza di struttura terziaria rigida, unanalisi della capacit
termica pu risultare utile per lindividuazione di proteine
intrinsecamente disordinate.

SURFACE PLASMON RESONANCE (SPR) tecnologia BIACORE

Le variazioni di segnale riflettono cambiamenti conformazionali


allinterno di una proteina immobilizzata. Si possono quindi valutare
il disordine strutturale intrinseco e il folding indotto in presenza di un
ligando
Tool: Single-Molecule AFM-based Force-Spectroscopy

z
z z

z
z z

z
z z

Bulk analysis SMFS


Need: handles are needed to grab an
individual IUP molecule by AFM, to
connect one end of the protein to the
tip and the other to the substrate
In SMFS, like for optical tweezers, the handles can
provide an internal standard: their length and behavior under tension is well
known, so that interesting events can be recognized
define a precise pulling geometry for the molecule of interest
reduce the effect of non-specific probe-surface interactions
Handles+protein=artificial bionanostructure
Result: SMFS can detect different classes of single-
molecule events originated by different conformers of
-synuclein in the nanostructure

Many nanostructures comprising -synuclein are pulled and unfolded


here are some example curves of two types

Interpretation
is due to:

is due to:

extension of the unstructured


portion of the nanostructure
It is now possible to characterize the folding state of -synuclein monomers!
[Sandal, Valle, et al. PLOS Biology 2008, 6(1), e6]