FACOLTÀ DI INGEGNERIA
Tesi di laurea in
INGEGNERIA INFORMATICA ED ELETTRONICA
Studente: Relatore:
AGNESE MONARCA Prof. PAOLO VALIGI
CO-RELATORE;
FORTUNATO BIANCONI
INDICE ......................................................................................................... 3
INTRODUZIONE ............................................................................................. 5
C APITOLO 1 ................................................................................................. 7
1.1 Il gene ................................................................................................................ 7
1.1.1 Il DNA ....................................................................................................... 8
1.1.2 Dal DNA alla proteina: il ruolo dell’RNA ............................................. 9
1.1.3 Sintesi proteica ....................................................................................... 11
1.2 Strumentazione matematica ............................................................................. 14
1.2.1 ODEs ....................................................................................................... 15
1.2.2 Modellazione dinamica: il modello di Michaelis-Menten ................... 16
3
3.2.4 Simulazione ............................................................................................. 65
C ONCLUSIONI ............................................................................................. 73
B IBLIOGRAFIA ............................................................................................ 74
4
INTRODUZIONE
Il lavoro di tesi qui presentato si sviluppa nell’ambito della system biology, una
disciplina biologica che studia gli organismi viventi in quanto sistemi che si
evolvono nel tempo, ossia nell'interazione dinamica delle parti di cui sono composti.
In particolare questo obiettivo viene conseguito tramite l'integrazione di modelli
dinamici e dei risultati di differenti esperimenti ad alto rendimento, unendo nella
pratica le conoscenze di genomica, proteomica e di teoria dei sistemi dinamici. Il
termine sistema viene proprio dalla teoria dei sistemi: la system biology sfrutta gli
approcci di quest'ultima per capire i processi dinamici inter e intra-cellulari. La
struttura concettuale usata dai biologi per rappresentare le variabili di uno schema di
reazioni biochimiche e per descrivere i loro comportamenti sono i pathways. Uno dei
principali obiettivi della system biology è quindi quello di rendere queste mappe
statiche in modelli dinamici che riescano a descrivere l'evoluzione temporale delle
reazioni biochimiche. Questa forte dipendenza dall'aspetto dinamico, è ciò che più
differenzia la system biology dalla bioinformatica, della quale comunque utilizza gli
approcci, così come della matematica statistica, per arrivare a creare un modello
sempre più completo del funzionamento dei sistemi biologici. L'obiettivo principale
è dunque la creazione del modello che astragga dal fenomeno biologico una
rappresentazione matematica che da un lato verrà studiata a prescindere dalla realtà
che rappresenta, dall'altro però si interpreteranno i risultati evinti da questa
nell'ambito del fenomeno studiato. Si avrà dunque un doppio approccio, il primo più
attento alla descrizione qualitativa, che si accosta di più al metodo medico-biologico,
ed il secondo più improntato ad una analisi computazionale sul modello matematico
estrapolato. Nel lavoro svolto si è dunque partiti dal modello matematico dei recettori
della famiglia HER ed è stata condotta, in primo luogo, un’analisi di sensitività
locale al fine di determinare l’effetto che piccole variazioni di un parametro alla
volta, hanno sull’andamento delle concentrazione delle specie, rispetto al
corrispondente valore nominale.
5
Successivamente, è stata condotta un’analisi di sensitività globale rispetto a tutti i
parametri del modello; tale analisi, svolta ricorrendo a due diverse tecniche
implementative, ha consentito di ampliare l’indagine del ruolo dei parametri
rapportandosi ad uno spazio fattoriale molto più ampio.
6
Capitolo 1
1.1 Il gene
Il genoma è tutto il DNA di un organismo, inclusi i suoi geni, che trasportano tutte
le informazioni per produrre le proteine richieste dall'organismo. Queste proteine
determinano anche l'apparenza dell'organismo, il modo migliore in cui il corpo
metabolizzi cibi e infezioni, e alcune volte anche come esso agisca.
7
1.1.1 Il DNA
Il DNA è diventato il punto focale della ricerca genetica. Si pensa che esso
contenga tutte le informazioni genetiche della cellula. Il DNA è costituito da una
molecola a doppia spirale che assomiglia ad una scala a pioli flessibile, ritorta ad
elica. Si tratta dell'unica sostanza vivente in natura capace di riprodursi da sola. Il
DNA ha una composizione chimica identica per ogni organismo vivente. Senza di
esso, non è possibile la riproduzione della vita. La disposizione dei componenti del
DNA determinerà la qualità della cellula dell’organismo vivente. Nel nucleo di una
cellula umana ci sono 23 paia di cromosomi i quali contengono il DNA. Vi sono 4
tipi di nucleotidi nel DNA. Ogni nucleotide è costituito da uno zucchero con 5 atomi
di carbonio (deossiribosio), un gruppo fosfato ed una delle 4 diverse basi azotate:
adenina (A), guanina (G), citosina (C) e timina (T). Le basi azotate sono unite a
coppie C-G, G-C, A-T, T-A. Le due basi che si uniscono sono unite da un legame
idrogeno. All'interno del filamento della molecola di DNA si trovano le coppie di
basi, all'esterno vi è lo scheletro zucchero-fosfato.
8
Nella struttura doppia e complementare dell' elica del DNA è contenuto il
meccanismo che permette la sua duplicazione: i due filamenti che si separano
fungono da stampo e ciascuno dirige la sintesi si un nuovo filamento complementare.
La duplicazione del DNA inizia da una specifica sequenza di nucleotidi, il punto di
origine della duplicazione; i due filamenti si separano e la sintesi del nuovo filamento
è catalizzata dalle DNA-polimerasi. Queste durante la duplicazione svolgono la
funzione di proofreading, cioè di correzione della lettura, che garantisce una precisa
duplicazione del DNA.
9
2. l'RNA contiene, al posto della timina, una pirimidina molto simile, l'uracile
(U), che, come la timina, si appaia solo con l'adenina;
10
RNA è complementare, e non identica, al filamento stampo da cui viene trascritta.
L'RNA messaggero ha il compito di trasportare nel citoplasma le informazioni
codificate nel DNA; per svolgere questo incarico deve essere assemblato senza errori
ed attraversare la membrana nucleare per dirigere la sintesi della sequenza di
amminoacidi del polipeptide corrispondente. Quando il suo compito è terminato,
l'mRNA si scompone nei nucleotidi che lo costituiscono.
rRNA: è l'RNA contenuto nei ribosomi, che sono i siti della sintesi proteica e sono
formati ognuno da due subunità, ognuna composta da rRNA e proteine specifiche. La
subunità più piccola (subunità minore) ha un sito di legame per l'RNA messaggero.
La subunità più grande (subunità maggiore) ha tre siti di legame per gli RNA di
trasporto.
tRNA: le cellule contengono più di 20 diverse molecole di tRNA, almeno una per
ciascuno dei diversi amminoacidi. Ognuna di queste molecole di tRNA sono
costituite da circa 80 nucleotidi legati insieme in un'unica catena e ha una
caratteristica configurazione a trifoglio. Alcune parti della sequenza nucleotidica
sono uguali in tutti i tRNA, mentre le altre variano a seconda del particolare tRNA.
Vediamo ora come l'informazione codificata nel DNA e trascritta nell' mRNA
viene successivamente tradotta nella specifica sequenza di aminoacidi di una catena
polipeptidica. Come abbiamo visto, le istruzioni per la sintesi proteica sono
codificate nelle sequenze di nucleotidi del DNA di una cellula sono trascritte in una
molecola di mRNA seguendo lo stesso principio di accoppiamento delle basi per
regola la duplicazione del DNA. Particolari sequenze nucleotidiche del DNA, dette
promotori, sono i siti di legame per l' RNA polimerasi e quindi costituiscono il
segnale di partenza per la sintesi del RNA, mentre altre sequenze, dette sequenze di
11
terminazione, sono il segnale di arresto della sintesi del RNA. La sintesi proteica è
detta traduzione, dal momento che è il trasferimento di informazioni da un
linguaggio ( acidi nucleici ) a un altro ( amminoacidi ). La traduzione si svolge in tre
fasi: inizio, allungamento e terminazione. La prima fase comincia quando la subunità
minore del ribosoma si attacca al filamento di mRNA. Poi, il primo tRNA si colloca
in modo da appagliarsi col codone d'inizio dell'mRNA, che è complementare alla
anticodone del tRNA il quale porta con sé una forma modificata dell' aminoacido
metionina, nota come fMet. La fMet sarà pertanto il primo amminoacido della catena
polipeptidica in via di formazione, anche se viene rimossa una volta tradotta tutta la
catena. La combinazione fra la subunità minore, le mRNA e il tRNA d'inizio è detta
complesso di inizio. Una volta che questo si è formato, la subunità maggiore si
attacca a quella minore e il tRNA d'inizio va a occupare uno dei tre siti di legame (il
sito P) della subunità maggiore col tRNA. All'inizio della fase di allungamento il
secondo codone dell' mRNA si trova in corrispondenza del sito A. Un tRNA con
l'anti codone complementare si inserisce sulla molecola di mRNA e con il suo
amminoacido viene a occupare il sito a del ribosoma. A questo punto entrambi i siti
sono occupati e si forma un legame peptidico tra i due amminoacidi, attaccando il
primo al secondo. L' RNA poi scorre in avanti di un codone nel ribosoma; di
conseguenza, il primo tRNA si sposta nel sito E e viene liberato, il secondo tRNA
passa dal sito A al sito P mentre un terzo complesso amminoacido-tRNA si inserisce
nel sito, adesso libero, di fronte al terzo codone delle mRNA. Questo procedimento
si ripete e di volta in volta il sito A accoglie il tRNA con il nuovo amminoacido che
si dovrà aggiungere alla catena. La fase di terminazione inizia quando nelle estremità
finale del filamento di tRNA è presente uno (o più di uno) dei tre codoni che portano
il segnale di arresto. Non esistendo tRNA con anticodone corrispondenti a queste
tripletta di stop nel sito non entrerà alcun tRNA ma si inserirà una proteina detta
fattore di rilascio. Quando si giunge a un codone di terminazione, la traduzione
cessa, la catena polipeptidica viene rimossa e le due subunità ribosomiali si separano.
12
13
Figura 1.3 Sintesi proteica
Immagine presa da (http://images.slideplayer.it/1/536163/slides/slide_36)
14
1.2.1 ODEs
15
poiché le componenti dovrebbero rispettare un altro vincolo sulla conservazione
della massa nello spostamento tra i vari compartimenti. Nel nostro modello quindi, ci
limiteremo a considerare i processi interni ad uno stesso settore.
Le reazioni chimiche che avvengono nelle cellule sono catalizzate dagli enzimi.
Questi importanti catalizzatori sono specifici per una particolare reazione. Nel loro
complesso, sono estremamente versatili nel senso che alcune migliaia di enzimi ora
conosciuti, portano avanti tutte quelle reazioni diverse indispensabili per la cellula
come ad esempio: l'idrolisi, la polimerizzazione, le ossidoriduzioni etc. Inoltre,
queste proteine non si comportano da superfici passive su cui avvengono le reazioni,
ma sono piuttosto complesse macchine molecolari che operano mediante una serie di
meccanismi molto diversi tra loro. Lo studio della cinetica enzimatica è iniziato nel
1902, quando Adrian Brown riportò una sua ricerca sulla velocità di idrolisi del
saccarosio catalizzata dall'enzima del lievito invertasi: saccarosio + H2O→glucosio
+ fruttosio. Egli dimostrò che quando la concentrazione del saccarosio è molto più
alta di quella dell'enzima, la velocità della reazione diventa indipendente dalla
concentrazione di saccarosio; cioè, la velocità è di ordine zero rispetto al saccarosio.
Brown pensò quindi che la reazione complessiva fosse composta da due reazioni
elementari, in cui il substrato formava prima un complesso con l'enzima che
successivamente si decomponeva a prodotti ed enzima libero:
E + S ↔k1k -1 ES →k2 E +P
16
Qui, E, S, ES e P indicano rispettivamente l'enzima, il substrato, il complesso
enzima-substrato e i prodotti. Esplicando la reazione enzimatica sotto forma di
equazioni differenziali ordinarie otteniamo:
17
La velocità complessiva di produzione di [ES] è data dalla differenza tra le
velocità delle reazioni elementari che portano alla sua formazione e che determinano
la sua scomparsa:
Questa equazione non può essere esplicitamente integrata senza effettuare alcune
assunzioni semplificatrici. Le due possibilità sono:
2) Assunzione dello stato stazionario. Con l'eccezione della parte iniziale della
reazione (fase transitoria), che avviene in pochissimo tempo dopo aver mescolato
l'enzima con il suo substrato, [ES] rimane costante fino a che il substrato non
comincia ad esaurirsi. Di conseguenza, la velocità di sintesi di ES deve essere uguale
alla velocità di demolizione per quasi tutto il tempo della reazione; [ES] resta cioè in
uno stato stazionario. Si può assumere quindi che [ES] rimane costante e quindi:
I valori di [ES] e di [E] non sono in genere facilmente quantificabili per via
diretta, ma la quantità di enzima totale [E]T è invece sempre nota:
18
[E]T = [E] + [ES]
A questo punto, l'equazione di velocità della nostra reazione enzimatica può essere
derivata combinando l'equazione
con l'assunzione dello stato stazionario e con [E]T = [E] + [ES]. Si ha:
( ) ( )
( )
L'uso della velocità iniziale invece che la velocità nel suo complesso minimizza
alcune complicazioni, quali gli effetti dell'eventuale reversibilità delle reazioni,
l'inibizione dell'enzima da parte del prodotto e la possibile progressiva inattivazione
19
dell'enzima stesso. La velocità massima di una reazione, invece, viene raggiunta solo
quando l'enzima viene saturato da un'elevata concentrazione del substrato, cioè è
completamente nella forma [ES]: Vmax=k2[E]T
In particolare:
20
Capitolo 2
MODELLO HER FAMILY
Nel seguente capitolo si partirà da un'analisi del NSCLC e dei recettori HER,
studiando in particolar modo il ruolo che questi hanno nel cancro polmonare, per
arrivare poi ad illustrare il modello proposto da [3] per descrivere la dinamica di
attivazione dei recettori, che sarà poi oggetto dell'analisi di sensibilità.
2.1 Il NSCLC
21
Il Non-Small Cell Lung Cancer è uno dei due tipi di cancro epiteliale ai polmoni;
si differenzia dal Small Cell Lung Cancer (SCLC) per via della dimensione delle
cellule e della peggiore risposta alla chemioterapia e alla radioterapia. Questi
rappresentano la principale causa di morte oncologica negli Stati Uniti con 224.210
nuovi casi e 159.260 morti, il 75% dei quali colpiti dal NSCLC che risulta quindi
essere la forma più comune. L'elevata mortalità è causata dalla mancanza di efficaci
terapie per i pazienti non operabili e dalla alta probabilità di recidiva in quelli operati.
I tipi istologici con cui si manifesta sono principalmente due: carcinoma a cellule
squamose, colpisce principalmente gli uomini, soprattutto se fumatori, ha l'aspetto di
un'escrescenza irregolare di cellule perlacee di consistenza solida ed è più comune
nella zona dei grossi bronchi; e adenocarcinoma, più comune nelle donne fumatrici,
tende a produrre grumi di muco nei bronchi. Nonostante l'elevata mortalità appena
descritta, negli ultimi anni sono stati apportati netti miglioramenti nello studio di
farmaci e terapie per aumentare la sopravvivenza cellulare. Questo è stato possibile
grazie all'identificazione di mutazioni genetiche nel cancro a lunghe cellule; in
particolare i recettori HER family e le catene di segnalazione mitogen-activated
protein kinase (MAPK) e phosphatidylinositol 3-kinases (PI3K), sono i responsabili
dello sviluppo del NSCLC sotto forma di adenocarcinoma. Altre alterazioni
genetiche di potenziale rilevanza nella scelta e nello studio dei vari trattamenti sono
la traslocazione dell' anaplastic lymphoma kinase-tyrosine kinase receptor (ALK), il
quale è sensibile agli inibitori ALK, e l'amplificazione del mesenchymal epithelial
factor (MET), che decodifica l'hepatocyte growth factor receptor (HGFR) e la cui
amplificazione è stata associata alla resistenza agli inibitori EGFR tyrosin kinase.
I recettori HER sono degli agenti molecolari fondamentali nella fisiologia e nella
sopravvivenza cellulare nello sviluppo e nella fisiopatologia del cancro. Quattro sono
i componenti della famiglia: HER1 (o epidermial growth factor receptor EGFR),
22
HER2 (o NEU), HER3 e HER4. Questi presi singolarmente non hanno grande
impatto nello studio del NSCLC, mentre sono significative le loro coespressioni, che
ci danno importanti informazioni sulle dinamiche con cui i recettori cooperano tra
loro, cosicché attraverso adeguati modelli matematici riusciamo a ricavare adeguati
parametri prognostici e predittivi utili allo sviluppo di terapie mirate. L'attenzione
riservata per i recettori HER è data dal fatto che, dopo essere stati attivati,
influenzano la proliferazione, la sopravvivenza e la motilità cellulare. Essendo
l'attivazione degli HER molto complessa, non ci soffermeremo molto su di essa, ma
vedremo brevemente i processi più importanti. Uno di questi è la dimerizzazione,
ovvero la reazione chimica che partendo da due monomeri uguali crea una nuova
molecola, il dimero. Un altro processo fondamentale è la fosforilazione che consiste
nella addizione di un gruppo fosfato ( PO4-3 ) ad una molecola e risulta essere uno dei
più importanti meccanismi di regolazione, poiché permette l'accensione e lo
spegnimento dei recettori; nel nostro caso è il dimero appena formato ad innescare la
fosforilazione del recettore citoplasmatico che nel caso venga attivato, invierà un
segnale al nucleo della cellula. La dimerizzazione dei recettori HER serve per la
trasduzione del segnale ed in base al dimero formato, si avrà un diverso tipo ed una
diversa durata della risposta cellulare HER ai segnali. La dimerizzazione dà luogo
alla fosforilazione di residui di tirosina i quali avviano vari percorsi di segnalazione
tra cui il MAPK e il PI3K/AKT. Da quanto detto è evidente come la forma più
comune con cui si manifestano i recettori è la coppia, mentre è molto rara la
coespressione di più di due recettori. Questi ultimi inoltre non hanno la stessa
rilevanza e non compaiono con la stessa frequenza; da recenti studi è emerso come il
solo recettore HER1 possa comportare effetti peggiori di quanto possa fare la sua
coespressione con gli altri membri della famiglia. La riprova di ciò è che la
probabilità di sopravvivenza e di assenza di ricaduta, è nettamente migliore in tutti i
casi in cui vi è l'assenza dell'espressione di HER1.
23
Figura 2.2 Recettori HER
HER1: il più significativo dei quattro, noto soprattutto come recettore del fattore
di crescita dell'epidermide EGFR, è un recettore di membrana che può legarsi alla
proteina EGF (fattore di crescita epidermico) o al fattore di crescita trasformante α
(TGFα). Il legame con queste molecole porta all'attivazione del recettore, che
omodimerizza con un altro recettore EGFR o eterodimerizza con altre proteine della
famiglia dei recettori HER. Il partner più frequente di EGFR è rappresentato da
HER2. La omo-eterodimerizzazione porta all'avvicinamento dei domini
citoplasmatici dei suddetti recettori; tali domini possiedono un'attività tirosin
chinasica, che innesca la vicendevole fosforilazione e successivo reclutamento di una
serie di proteine come SOS, in grado di attivare, ad esempio Ras. In particolare, Ras
è una delle principali proteine attivate dal legame dell'EGFR con il suo ligando; nel
breve periodo di attivazione, Ras è in grado di attivare la rete di segnalazione
MAPK, che porterà rapidamente alla differenziazione e proliferazione cellulare.
24
L'omo-eterodimerizzazione di EGFR non comporta soltanto l'attivazione di Ras
tramite SOS, ma anche l'innesco della via di PI3K, il cui principale bersaglio è Akt
che, in seguito a attivazione, è in grado di inibire fortemente l'apoptosi. EGFR si
configura dunque come un proto-oncogene la cui alterazione può portare
all'autosufficienza dai fattori di crescita. Alcune mutazioni a carico di EGFR possono
portare alla sua costante attivazione, che porta ad una divisione cellulare
incontrollata, uno dei fattori di predisposizione allo sviluppo del cancro. Poiché
mutazioni in EGFR sono state trovate in molti tipi di cancro, questo è diventato un
bersaglio preferenziale per una nuova classe di terapie antitumorali.
25
Importante per l'approccio clinico, è la possibilità di usare specifici anticorpi
monoclonali diretti verso HER2; l'interazione tra tali anticorpi ed il recettore ne
bloccano l'azione e stimolano la produzione di p27, una proteina in grado di arrestare
la proliferazione delle cellule tumorali.
HER4: è il meno conosciuto tra i quattro recettori per quanto riguarda il suo ruolo
nello sviluppo del cancro. Contiene, così come HER1, sia un dominio di legame per
il ligando che uno di tirosin chinasi; tra i suoi ligandi ci sonno heregulin, neuregulins,
betacelulins ed epiregulin. HER4 e meno presente nelle cellule rispetto agli altri
recettori, quindi potrebbe non essere disponibile per la dimerizzazione. Ritenuto
responsabile della proliferazione cellulare, recenti studi hanno invece associato
HER4 all' inibizione della crescita della cellula piuttosto che alla proliferazione. In
antitesi con gli altri membri della famiglia, HER4 sembra essere meno importante
26
nello sviluppo del cancro al punto tale che la sua espressione è stata associata a
miglioramenti nella prognosi della malattia.
2.3 Pathway
La segnalazione MAPK è iniziata dai recettori tirosin chinase subito dopo la loro
attivazione da parte del fattore di crescita nello spazio extracellulare.
27
L'efficienza e la durata del segnale di trasmissione è regolata dal soppressore
protein chinase di Ras (KSR), che si associa con Mek. Questa è una proteina serina-
treonina chinasi conservativa che
trasmette segnali a monte da Ras a Raf attraverso l'attivazione di Erk. Una volta
nel nucleo, Erk stimola molti fattori di trascrizione, avendo come conseguenza il
controllo di importanti funzioni cellulari, che possono portare alla progressione del
cancro se attivati in maniera scorretta. Segnalazioni MAPK anormali possono portare
a un aumento della proliferazione cellulare, alla resistenza alla apoptosi e alla
radioterapia, chemioterapia e a terapie mirate.
28
2.4 Modello iniziale
Andiamo ora a presentare il modello iniziale che costituisce la base per quello sul
quale effettueremo l'analisi di sensibilità.
Partendo dai dati conosciuti per EGFR e IGF1F è stato costruito un modello
computazionale che descrive, attraverso le equazioni differenziali ordinarie (ODEs),
le relazioni biologiche che si instaurano tra le reti di segnalazione Erk e PIK3 e le
proteine coinvolte nella EGFR e nella IGF1R. Attraverso queste ODEs e grazie
all'utilizzo di Matlab, con cui sono state integrate, è possibile osservare l'evoluzione
del sistema nel tempo e le interazioni tra i recettori, le proteine e le chinasi coinvolte.
29
Figura 2.3
30
Mek* + Erkk → Erk* + Mek*
p90Rsk*k → p90Rsk
31
Questo sistema è stato ancor più semplificato attraverso le seguenti
approssimazioni.
modellata da
32
Con le considerazioni appena descritte è stato modellato l'intero percorso di
EGFR e IGF1R. Per quanto riguarda l'assegnazione dei parametri, questi sono stati
ricavati dalla letteratura.
Per tutti i recettori inoltre, con l'eccezione di quelli che appaiono solo in forma
attiva, vengono usate due equazioni che descrivono la prima lo stato attivo e la
seconda quello passivo. Infine ne è stata aggiunta un'altra ancora, quella di HER1,2,
per descrivere meglio la relazione tra HER1 e HER2.
33
∑
34
–
35
–
I valori delle costanti usate per i collegamenti tre le proteine, come nel caso
precedente, sono stati ricavati dalla letteratura:
36
8 Costante di disattivazione di HER2
9 Costante d’attivazione di HER3
10 Cost di M-M per attivazione di HER3
11 Costante di disattivazione di HER3
12 Costante d’attivazione di HER4
13 Cost di M-M per attivazione di HER4
14 Costante di disattivazione di HER4
15 Costante d’attivazione di SOS da parte di IGF1R
16 Cost di M-M per attivazione di SOS da parte di IGF1R
17 Costante d’attivazione di PIK da parte di IGF1R
18 Cost di M-M per attivazione di PIK da parte di IGF1R
19 Costante di disattivazione di IGF1R
20 Costante d’attivazione di HER1,2
21 Cost di M-M per attivazione di HER1,2
22 Costante d’attivazione di Erk da parte di p90Rsk
23 Cost di M-M per attivazione di Erk da parte di p90Rsk
24 Costante d’attivazione di Ras da parte di SOS
25 Cost di M-M per attivazione di Ras da parte di SOS
26 Costante d’attivazione di Erk da parte di Mek
27 Cost di M-M per attivazione di Erk da parte di Mek
28 Costante d’attivazione di DSOS da parte di p90Rsk
29 Cost di M-M per attivazione di DSOS da parte di p90Rsk
30 Costante d’attivazione di Akt da parte di PIK3
31 Cost di M-M per attivazione di Akt da parte di PIK3
32 Costante d’attivazione di Akt
33 Costante d’attivazione di Erk da parte di PP2A
34 Cost di M-M per attivazione di Erk da parte di PP2A
35 Costante d’attivazione di PIK3CA da parte di Ras
36 Cost di M-M per attivazione di PIK3CA da parte di p90Rsk
37 Costante d’attivazione di Raf da parte di Ras
38 Cost di M-M per attivazione di Raf da parte di Ras
39 Costante d’attivazione di Mek da parte di Raf
37
46 Cost di M-M per attivazione di Mek da parte di PP2A
47 Costante d’attivazione di Raf da parte di RafPP
Variabile Valore
51
52
53
Tabella 2.1
Variabile Valore
1
2
3
4
5
6
7
8
10
11
38
12
13
14
15
16
17
18
19
20
21
22
Tabella 2.2
2.6 Simulazione
39
HER1(a) HER2(b)
HER3(c) HER4(d)
IGF1R(e) HER1-2(f)
40
Dalla figura emerge come il 4 HER recettori siano molto simili tra loro , hanno
infatti lo stesso valore iniziale e tendono esponenziale mente a 0, la differenza sta
nella velocità di reazione, maggiore nei primi due che nel terzo e quarto. Infatti,
mentre HER1 e HER2 si esauriscono a circa 100 minuti, HER3 e HER4 lo fanno
attorno al minuto 200. La causa di ciò è il maggiore impatto dei primi due recettori
sulla rete di segnalazione, il che comporta una maggiore importanza dei segnali di
informazione di HER1 e HER2 nei processi cellulari. Questa grande influenza dei
primi due recettori la riscontriamo anche nell' andamento di HER1,2, che rappresenta
l'effetto della loro coespressione e che tende anche essa esponenzialmente a 0 anche
se con tempi molto maggiori. L'ultimo recettore analizzato in questa prima
simulazione é IGF1R, il quale ha un andamento simile agli altri, con la differenza
che in questo caso il valore iniziale non è 8000, ma è circa 13 volte inferiore. Nella
seconda simulazione invece virgola sono state fatte variare le condizioni iniziali dei
quattro recettori HER. In particolare per ognuno di essi è stato esaminato il caso di
sottoespressione, espressione nominale e sovraespressione, a cui corrispondono
rispettivamente i valori iniziali di 80, 8000 e 800000. Si sono prodotte dunque 81
diverse combinazioni, riportate nei seguenti grafici.
41
42
Figura 2.4 Analisi del modello al variare delle condizioni iniziali
Dalla figura emerge chiaramente un andamento molto simile per tutte le funzioni,
differenziate esclusivamente dal valore massimo da esse raggiunto e dal tempo con
cui queste si esauriscono. I valori di picco variano tra 1*10^5 e 3,5 *10^5, con il
minimo raggiunto quando tutti e 4 i recettori sono sottoespressi ed il massimo
quando HER1 è sovraespresso e HER2 è sottoespresso o è al suo valore nominale.
Questo ci fa notare come il contributo dei recettori HER3 e HER4 sia ininfluente per
il raggiungimento del massimo, infatti questo, una volta fissati gli opportuni valori di
HER1 e HER2, non varia al variare degli altri due recettori. Al contrario questi sono
importanti, assieme agli altri due, per il raggiungimento del valore minimo, dove,
come era immaginabile, occorre la sottoespressione di tutti e quattro. Una seconda
considerazione da fare riguarda HER1. Questo risulta essere il recettore che
maggiormente influenza la rete, infatti la sua sovraespressione e sottoespressione
determinano rispettivamente un valore alto ed uno basso della funzione,
indipendentemente dal altri tre recettori. Per concludere queste prime simulazioni e
prima di passare all'analisi di sensitività, ricordiamo che le condizioni iniziali
utilizzate non sono valori di equilibrio, bensì è stato considerato sempre un segnale
impulsivo come stimolo del recettore.
43
44
Capitolo 3
ANALISI DI SENSITIVITÀ
45
se esiste una regione nello spazio dei fattori di input per cui la variazione del
modello risulta massima;
le regioni ottimali all’interno dello spazio dei fattori da utilizzare in un
successivo studio di calibrazione;
se e quali fattori o gruppi di essi interagiscono tra di loro.
L’AS può quindi giocare un ruolo importante in tutte le fasi di modellazione, nella
verifica e validazione del modello, nel corso del processo di messa a punto e di
affinamento dello stesso. L’AS può essere condotta prima della fase di calibrazione
del modello al fine di investigare il ruolo di ogni parametro ed identificare per
esempio il set di fattori candidati ad essere calibrati. La necessità di individuare un
set di parametri da sottoporre al processo di calibrazione scaturisce laddove il
sistema modellato risulta complesso ed overparametrizzato, rispetto ai dati
sperimentali disponibili. La preliminare identificazione di quei parametri del modello
che risultano essere poco influenti sull’output del modello rende meno laboriosa e
dispendiosa la fase di calibrazione stessa. Inoltre, l’AS può anche fornire
informazioni dettagliate riguardo alla robustezza degli output del modello laddove
quest’ultimo viene utilizzato come strumento decisionale.
Diverse tecniche di AS sono state proposte in letteratura e applicate ai più svariati
modelli matematici di sistemi ingegneristici, economici, fisici, medici, sociali etc..
Tali tecniche possono essere suddivise, sulla base dello spazio fattoriale di interesse,
in due grandi classi: metodi di analisi di sensitività locale (ASL) e metodi di analisi
di sensitività globale (ASG).
46
considerate singolarmente, dei fattori di input rispetto a predefiniti valori nominali.
La ASL viene condotta mediante il calcolo di derivate parziali delle funzioni di
output rispetto alle variabili di input; i metodi di ASL vengono infatti anche chiamati
"metodi basati sulle derivate". Al fine di valutare tali derivate numericamente, ogni
parametro pi di input viene fatto variare nell'intorno il un valore nominale pinom e
viene valutata la risposta della modello per ogni output y.
∑( )
L'ASL può essere vista come un particolare caso di approccio One factor at a time
(OAT), Tale approccio prevede la variazione di un fattore alla volta mantenendo
costanti e pari al valore centrale (rispetto alla propria distribuzione di probabilità)
tutti gli altri fattori. In tal modo, l’indice di sensitività di uno specifico fattore
dipende esclusivamente dai valori centrali di tutti gli altri. L'approccio locale è
applicabile quando la variazione attorno al valore nominale, di ognuno dei fattori di
input, risulta essere talmente piccola da potere assumere verosimilmente lineare la
relazione che intercorre tra input e output. I metodi di ASL risultano poco utili
laddove l'obiettivo della analisi è quello di confrontare l'effetto della variazione dei
diversi fattori di input sugli output del modello, poiché in tal caso l'incertezza relativa
di ogni fattore di input dovrebbe essere pesata. I metodi di ASL presenti in letteratura
hanno la caratteristica di essere molto efficiente in termini computazionali, in quanto
richiedono un numero di perturbazioni sufficientemente basso per singolo fattore da
analizzare. Tuttavia, sono inefficienti in termini di tempo di programmazione. Essi
richiedono, ad esempio, al fine di eseguire le operazioni di analisi OAT, l'intervento
da parte del modellatore sul codice aumentando così l'incertezza legata agli errori di
programmazione. La variazione del fattore pi determina una variazione dell'output y.
La sensibilità del generico parametro p sull'output y viene quantificata mediante una
funzione di sensitività. Particolare attenzione, nell'applicazione dell'ASL ricopre la
scelta della funzione di sensitività adottata per quantificare l'influenza che il fattore pi
ha sull'output y. La misura della sensitività locale si,j del parametro pi rispetto alla
47
variabile yj è in genere rappresentata dalla pendenza della funzione che descrive il
valore di yj al variare di pi come segue:
I valori così normalizzati forniscono una misura del rapporto tra la percentuale di
variazione verificatasi per il parametro i-esimo e la corrispettiva variazione
percentuale subita dall’uscita j-esima di interesse. Occorre prestare attenzione però a
due possibili inconvenienti, ovvero che l’eventuale divisione per 0, laddove yj sia
nulla, invalida il termine relativo associato, e che, inoltre, i valori istantanei di yj,
molto piccoli in confronto alla sua dinamica complessiva, conferiscono alla
sensitività normalizzata loro associata un peso ingiustificato. Infine bisogna
sottolineare come, a differenza dell’analisi globale, nell’ASL al variare dei metodi
numerici usati, tutti i valori calcolati dovrebbero risultare identici entro il grado di
accuratezza del metodo usato.
48
Presentate le tecniche e applicazioni dell’analisi di sensitività locale, andremo ora
a descrivere più dettagliatamente l’implementazione attuata per il nostro modello.
Essa è stata condotta su ciascuna variabile relativamente ad ognuno dei parametri
nelle specifiche condizioni iniziali di interesse. Nello specifico, sono stati sviluppati
tre codici in Matlab dove, nel primo sono state definite tutte le equazioni differenziali
del modello, nel secondo sono stati assegnati i valori a ciascuna variabile e ciascun
parametro, mentre nel terzo si è sviluppato il codice vero e proprio necessario per
procedere con l’analisi.
Figura 3.1
49
Figura 3.2 Codice Matlab
50
setta la sua tolleranza relativa di default a 1e-6 per contro a quella di ode15s pari a
1e-3, per garantire maggior accuratezza nei risultati delle derivate. Le matrici di
uscita T, Y e DYDU, contengono rispettivamente: il vettore colonna degli NT istanti
di campionamento scelti per l’intervallo TSPAN, la matrice delle NY soluzioni alle
ODEs in ogni istante di campionamento (NTxNY) e la matrice tridimensionale delle
derivate di ciascuna variabile Y a ciascun parametro U in ogni istante di
campionamento (NTxNYxNU). Per poter confrontare i valori discreti di sensitività
assoluta restituiti da SENS_SYS, questi sono stati considerati in valore assoluto,
normalizzati moltiplicando per il valore nominale del parametro e dividendo per il
valore della funzione d’uscita y nel medesimo istante di valutazione ed infine mediati
temporalmente. Per concludere sottolineiamo che la normalizzazione così effettuata,
risulta più accurata rispetto ad una normalizzazione per una dinamica media di y,
nonostante abbia richiesto, di contro, un maggior costo computazionale ed
un’implementazione nel codice al fine di evitare che eventuali divisioni per campioni
prossimi al valore nullo non producessero risultati sfalsati dal rapporto con
infinitesimi.
3.1.2 Simulazione
51
Figura 3.3 Analisi di sensitività locale
52
Figura 3.4 Analisi di sensitività locale con i valori scalati
Nella maggior parte dei casi, predomina leggermente PP2A, proteina che nella
rete incide defosforilando sia MEK* che direttamente ERK*. Da notare la scarsa se
non nulla influenza dei recettori HER3, HER4, che conferma quanto visto
precedentemente nel caso del solo ERK.
Nella seconda simulazione, siamo passati all’analisi della singola variabile ERK*, in
rapporto a tutti i 53 parametri, poiché essa svolge un ruolo chiave nella
proliferazione cellulare e se presente in sovra espressione, può portare allo sviluppo
di tumori polmonari non a piccole cellule.
53
Figura 3.5 Analisi di sensitività di ERK*
54
Figura 3.6 Condizioni iniziali per cui l’espressione di ERK* è massima
55
Nel primo caso vediamo che le diverse condizioni iniziali comportano un generale
abbassamento dell’espressione di ERK*, con eccezione di quelle in correspondenza
dei parametri KM1,SOS e 1 che al contrario risultano amplificate. Nel secondo caso
invece che in corrispondenza dell’abbassamento dei valori dei quattro recettori c’è un
coerente azzeramento di tutte le costanti ad essi associate, mentre le espressioni in
corrispondenza degli altri parametri risultano pressochè invariate.
56
contemporanea di tutti i parametri determina un incremento del numero di
simulazioni necessarie.
Per quanto riguarda la prima categoria, tutti i metodi sono accumunati dal ricorso al
teorema della decomposizione della varianza:
∑ ∑
57
del modello. Tali metodi “economici” forniscono una misura qualitativa della
sensitività, per esempio essi consentono di avere informazioni riguardo all’ordine di
importanza dei un fattori ma non sono in grado di quantificare quanto importante sia
un fattore rispetto ad un altro. Molti approcci al problema del tipo screening sono
stati proposti in letteratura, nei seguenti paragrafi verranno descritti solo alcuni di
essi ed in particolare il metodo proposto da Morris ed il metodo DGSM.
( ) ( )
( )
58
quale viene indicata con Fi. Se il numero di livelli p è finito la distribuzione Fi lo
sarà pure e, come proposto da Morris, il valore della perturbazione ∆ è pari a p/(2(p-
1))mentre il numero degli elementi di Fi è ( ) . Se ad esempio si ha
n=2, p=4 e quindi ∆=2/3 si hanno otto elementi per ogni Fi. La griglia a 4 livelli
nello spazio è rappresentata in Figura, in cui è evidente che il numero di effetti
elementari per ogni fattore può essere calcolato a partire dalla griglia semplicemente
ricordando che ogni effetto elementare del generico fattore i-esimo viene calcolato
utilizzando due punti la cui distanza relativa è ∆. Come misura di sensitività Morris
propone il valore della media (µ) e della deviazione standard (ϭ) della distribuzione
Fi. La media µ esprime l'influenza che il fattore ha sull’output del modello, mentre la
deviazione standard ϭ fornisce una informazione riguardo al grado di interazione o
non linearità introdotto dal fattore in esame. Una spiegazione intuitiva del significato
di ϭ è la seguente: supponiamo di ottenere per il fattore xi un valore alto di ϭ ciò
significa che gli effetti elementari ottenuti per questo fattore differiscono
considerevolmente tra di loro, pertanto il valore di ogni singolo effetto elementare è
fortemente dipendente dalla scelta del punto dello spazio Ω rispetto al quale viene
calcolato. Viceversa, un valore basso di ϭ implica che i valori degli effetti elementari,
relativi al fattore xi, sono tutti molto simili e conseguentemente che l’effetto di xi è
quasi indipendente dal valore degli altri fattori.
59
Figura 3.8 Rappresentazione di una griglia a 4 livelli (p=4) nello spazio di input
bidimensionale (n=2). Il valore di Δ è di 2/3. Le frecce indicano gli 8 punti necessari
per la stima degli effetti elementari relativi al fattore xI
60
dell’analisi di sensitività locale, la cui attendibilità è discutibile tanto più i
parametri siano affetti da incertezza e tanto più il modello si discosti in tali ranges di
variabilità da un comportamento che possa essere approssimato come lineare. Il
metodo, presentato da [13] si basa sul calcolo della media delle derivate locali,
usando il metodo di campionamento Quasi Monte Carlo, e risulta più accurato
rispetto al metodo Morris. Come già detto, i DGSM sono basati su misure di
sensitività locale, Si,j(p), che dipendono dal valore nominale dei parametri e variano
con una variazione di p. Questo problema può essere risolto mediando Si,j(p) sullo
spazio dei parametri HNp, generalmente normalizzato come un Np-ipercubo. Poiché
il calcolo delle derivate parziali rispetto ai parametri di funzioni non monotone può
produrre risultati sia positivi che negativi, al fine di ottenere indici di sensitività
globale Mi,j consistenti, bisogna ricorrere ai valori assoluti delle sensitività locali
relative:
∫ ( )
∑ ∫ ( )
Partendo da questo approccio generale, sono stati sviluppati diversi metodi che
fanno uso delle conoscenze pregresse per focalizzare le regioni dello spazio dei
parametri su cui concentrare l’indagine. In particolare, Rodriguez-Fernandez, Banga
e Doyle hanno ricavato un metodo definito probabilistic or Bayesian DGSM. Questo
sfrutta conoscenze pregresse sui parametri e le pdf associategli per definire
un’opportuna distribuzione che verrà poi utilizzata nel corso dell’integrazione nello
spazio HNp. Per ogni combinazione di parametri, dunque, la rispettiva misura di
sensitività viene pesata dalla probabilità associatagli attraverso un’opportuna
funzione di valutazione.
I metodi DGSM richiedono inoltre la specificazione di metodi di integrazione
numerica adatti a lavorare con le funzioni integrate nello spazio dei parametri, poiché
i metodi di integrazione classici risentono della “maledizione della dimensionalità”,
ossia della crescita esponenziale di funzioni integrande da valutare. Una soluzione a
tale problema è rappresentata dai metodi MonteCarlo e Quasi-Monte Carlo i quali ,
basano la loro efficienza sul ricorso a numerose simulazioni deterministiche,
61
variando casualmente il set di parametri e limitando quindi l’analisi e l’integrazione
ad un intervallo ottenuto come opportuno sottocampionamento dello spazio
complessivo dei parametri.
Figura 3.9
62
1. Analisi di sensitività globale basata sulla varianza e sulle derivate: prima di
ottenere ogni dato sperimentale vengono valutati i valori dei singoli parametri
sulla base di una classifica ricavata dall'analisi globale. I parametri
trascurabili ovvero quelli più bassi in classifica possono essere scartati dal
modello o sostituiti con i valori provenienti dalla letteratura mentre quelli più
alti devono essere trattati con particolare attenzione. Questa classifica può
essere anche usata per identificare le regioni critiche del sistema e le variabili
di stato più rilevanti. SensSB inoltre , plotta le dinamiche della sensibilità
globale cosicché risulti più facile prevedere i tempi necessari per la
simulazione esperimenti futuri. I metodi di analisi globale offerti in SensSB
sono tre: Sobol, Morris e DGSM. Poiché i risultati da questi prodotti sono
diversi, è importante capire il significato di ciascuno di essi al fine di
scegliere il più appropriato per ogni situazione.
63
selezionate del modello FIM. Le caratteristiche degli esperimenti dinamici
che possono essere ottimizzate attraverso SensSB sono: la concentrazione
iniziali degli stati, la durata degli esperimenti, i valori per le variabili di
controllo e i punti di campionamento.
6. Intervalli di confidenza dei parametri stimati: offre una misura obiettiva della
precisione dei parametri stimati.
7. (In)validazione dei modelli: dal momento che nessun metodo può garantire la
validità di un modello con certezza attraverso un numero finito di
esperimenti, è necessario studiarne il comportamento cosicché se esso supera
tutti i test di invalidazione può essere considerato soddisfacente.
64
Un vantaggio aggiuntivo è che il toolbox è in grado di gestire modelli
deterministici dinamici non lineari attraverso dei set di ODEs, DAE o anche black
boxes.
3.2.4 Simulazione
65
Figura 3.10 Valore di µ rispetto ai parametri
66
Figura 3.12 Valore di ϭ rispetto ai parametri
La numerazione dei parametri e delle variabili segue quella delle Tabelle 2.1 e
2.2. Come risulta evidente il parametro che più influisce sull’output del modello, è
PP2A; questo è in parte coerente con quanto emerso dall’analisi di sensitività locale,
ma rispetto a questa si perde il contributo di k1,SOS e k2. Una spiegazione di questo
potrebbe essere il fatto che PP2A incide su tutta la rete di segnalazione MAPK e
quindi risulta più significativo in un contesto di analisi globale, rispetto ai parametri
di k1,SOS e k2 che agiscono ognuno su un singolo recettore.
67
Sempre rimanendo nell’ambito del metodo Morris è stato analizzato, come già
fatto con l’analisi locale, il comportamento del singolo fattore ERK* rispetto a tutti i
parametri.
68
costante d’attivazione di Mek da parte di PP2A, la costante d’attivazione di Raf da
parte di RafPP e la costante di Michaelis-Menten per l’attivazione di Mek da parte di
Raf. Questo risultato va a rafforzare quanto emerso con la prima simulazione di
Morris, ovvero che i parametri più influenti sono quelli associati alla
regolamentazione delle reazioni della cascata MAPK.
69
Figura 3.18 Valore normalizzato di ∑j* computato attraverso le sensitività assolute
rispetto a tutti i parametri.
Le differenze tra i primi due grafici, così come tra il terzo ed il quarto, sono
lampanti; il motivo di ciò è che mentre nel primo e terzo caso la computazione è stata
svolta facendo ricorso alle sensitività assolute, mentre nel secondo e terzo si è fatto
ricorso a quelle relative. Abbiamo già discusso le due tipologie (Paragrafo 3.1) e
visto che la sensitività relativa sia una misura più affidabile, una volta ovviato il
70
possibile inconveniente della divisione per zero, cosa che SensSB fa in automatico.
DGSM offre un’analisi, quindi, più accurata, i cui risultati si accostano, nel secondo
caso (Figura 3.17), a quelli precedentemente ottenuti con l’analisi di sensitività
locale, nella quale avevamo difatti usato valori di sensitività relativi, e nel primo caso
(Figura 3.16) a quelli ottenuti con il metodo Morris. Quindi, possiamo concludere
che valutando l’influenza percentuale dei parametri, quelli relativi ai recettori HER1
e HER2, in particolare k1,SOS, KM1,SOS, k2, γ1, γ2 e k1,2 , sono molto più importanti.
71
Figura 3.21 Valore normalizzato di Mj* computato attraverso le sensitività relative
rispetto a tutti i parametri per il solo ERK*.
Anche qui notiamo la diversità dei risultati scaturita dalle diverse sensibilità adottate.
In particolare, andando ad analizzare il grafico riportato in Figura 3.21, possiamo
notare la somiglianza con quello ottenuto nell’analisi di sensitività locale (Figura
3.5), a conferma delle considerazioni tratte precedentemente.
72
C ONCLUSIONI
In questo lavoro di tesi abbiamo usato gli strumenti propri della System Biology,
per andare a studiare i meccanismi molecolari coinvolti nella proliferazione
tumorale, focalizzandoci in particolar modo sul non small cell lung cancer. Abbiamo
condotto quindi, un’analisi di sensitività locale e globale sul modello in silico
proposto [3], ed incentrato sulla descrizione, tramite equazioni differenziali, delle
relazioni tra le due reti di segnalazione Ras/Raf/Mek/Erk e PI3K/Akt.
Dalle simulazioni è emersa l’importanza dei due recettori HER1 e HER2 e della
loro coespressione, nel manifestarsi e nell’evolversi del tumore. Questo risultato va a
confermare le statistiche basate su pazienti colpiti da questo tipo di carcinoma, in cui
risulta che nella maggior parte dei casi la trasformazione maligna della cellula e la
nascita del tumore è legata all’attivazione dei recettori HER.
Siamo andati, in particolare, ad analizzare la rete di segnalazione Erk, che svolge
un ruolo centrale in diverse fasi dello sviluppo del cancro quali la proliferazione e la
migrazione delle cellule tumorali. Questo risulta particolarmente sensibile alla
concentrazione della proteina PP2A, deputata all’inibizione della produzione di
ERK*, tramite una reazione di defosforilazione, ed alla disattivazione di Mek*.
Abbiamo visto inoltre come i risultati ottenuti con il metodo Morris, possano
essere fuorvianti, in quanto utilizzano valori di misure assolute anziché relative, e
quindi inutilizzabili per confronti tra più variabili rispetto a diversi parametri.
Tuttavia, occorre ricordare che i risultati prodotti con i vari metodi dipendono
fortemente, in ogni caso, dalle tecniche di sottocampionamento dello spazio dei
parametri adottate. Inoltre sottolineiamo che per ottenere un’analisi ancora più
accurata, si dovrebbe diminuire il passo di campionamento ed aumentare l’intervallo
temporale in cui si svolge l’analisi. Purtroppo questo comporta un tempo ed un costo
computazionale molto elevato e non sostenibile da un comune calcolatore.
73
B IBLIOGRAFIA
[2] Silvia Cascianelli, Analisi di Sensitività del modello di trasduzione del segnale
[3] Simone Paladina, Modellazione e simuazione della rete biochimica associata alla
famiglia dei recettori HER nelle cellule tumorali, 2014.
[6] http://www.mathworks.it/it/help/matlab
[7] http://www.wikipedia.org.
[8] http://www.medicinaecologia.it
[9] http://www.cancer.gov/cancertopics/pdq/treatment/non-small-cell-lung
[10] http://www.biooncology.com/research-education/her
[11] http://www.hindawi.com/journals/ijcb/2013/568931/
74