Sei sulla pagina 1di 82

Prefazione

Il progetto in sintesi
La realizzazione di questo progetto ` partita da una necessit` concreta di uno e a strumento in grado di ottimizzare procedure ed applicare nuovi criteri di ricerca. Il lavoro ` partito con la documentazione necessaria ad avere un quadro e completo del fenomeno biologico (siRNA) e le conoscenze fondamentali a utilizzare tutti gli strumenti necessari alla implementazione del software. Il mio scopo ultimo ` stato quello di creare un tool che automatizzasse questa procee dura in modo da poter fornire una lista di geni e ottenere per ognuno di essi un output apribile con un foglio di calcolo. Oltre allautomatizzazione si ` reso e necessario creare uno strumento in grado di ltrare e ordinare i tanti risultati in base a criteri decisi in corso dopera coi ricercatori. Il risultato ` quindi una e sorta di sistema esperto in grado di eseguire ricerche speciche sulla base di conoscenze inserite nel tool.

Presentazione dei capitoli


Nel primo capitolo ho eettuato una panoramica sul fenomeno biologico, lRNA interference, sulla sua storia e sui suoi principali meccanismi di funzionamento. Pi` nello specico ho analizzato i principali attori di questo fenomeno e le u sue prinicipali applicazioni. Nel secondo capitolo ho preso in esame larticolo di riferimento che descrive lalgoritmo di Reynolds e colleghi, utilizzato nella

Prefazione

maggioranza dei software per la progettazione delle sequenze di siRNA, con una menzione al sito Dharmacon utilizzato allinterno di questo progetto. Nel terzo capitolo vengono descritte gli applicativi, le metodologie utilizzati per la realizzazione del progetto e le motivazioni che mi hanno indotto a farne uso. Nel quarto capitolo viene descritta limplementazione del tool, le principali indicazioni necessarie alla scelta di un punteggio di valutazione e quindi i parametri utilizzati e le relative conseguenze. Nellultimo capitolo ho tratto le conclusioni di questo progetto di tesi.

Indice

1 RNA interference 1.1 1.2

11

Cenni Storici . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Il silenziamento mediato da siRNA . . . . . . . . . . . . . . . . 17 1.2.1 1.2.2 1.2.3 1.2.4 Un nuovo campo di Ricerca . . . . . . . . . . . . . . . . 17 Primi passi . . . . . . . . . . . . . . . . . . . . . . . . . 18 Meccanismo dellRNAi mediato da siRNA . . . . . . . . 18 Geni coinvolti nellRNAi . . . . . . . . . . . . . . . . . . 19

1.3 1.4 1.5

Silenziamento mediato da miRNA . . . . . . . . . . . . . . . . . 22 RNAi in cellule di mammifero . . . . . . . . . . . . . . . . . . . 24 Il nucleo: un nuovo sito di ricerca per lRNAi . . . . . . . . . . 25 1.5.1 I processi nucelari mediati dallRNAi . . . . . . . . . . . 25

1.6 1.7

Applicazioni mediche . . . . . . . . . . . . . . . . . . . . . . . . 26 Osservazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 31 43

2 Ingegnerizzazione dellRNAi 3 Progetto e metodologie 3.1

Idea di realizzazione . . . . . . . . . . . . . . . . . . . . . . . . 43 3.1.1 La banca dati Reference Sequence . . . . . . . . . . . . . 43

INDICE

3.1.2 3.1.3 3.1.4 3.1.5

Blast . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Perl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Foglio di Calcolo . . . . . . . . . . . . . . . . . . . . . . 56 Protocollo SSH . . . . . . . . . . . . . . . . . . . . . . . 58 61

4 Implementazione 4.1

Realizzazione dellapplicativo . . . . . . . . . . . . . . . . . . . 61 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 Passo1.pl Passo2.pl . . . . . . . . . . . . . . . . . . . . . . . . . . 63 . . . . . . . . . . . . . . . . . . . . . . . . . . 66

Loutput di Blast . . . . . . . . . . . . . . . . . . . . . . 67 Passo3.pl . . . . . . . . . . . . . . . . . . . . . . . . . . 69

La scelta dello Score . . . . . . . . . . . . . . . . . . . . 71 Sviluppo delle Macro . . . . . . . . . . . . . . . . . . . . 76 79 81

5 Conclusioni Bibliograa

Elenco delle gure


1.1 Stadi di sviluppo embrionale di C.elegans; il nematode ` uno e dei principali modelli per lo studio della regolazione genetica durante gli stadi di dierenziazione tissutale. . . . . . . . . . . . 12 1.2 Eetto dellinterferenza dellRNA di mex-3 sullmRNA endogeno di embrioni di C.elegans. Ibridazione in situ con sonda specica per lmRNA di mex-3. a: controllo negativo con assenza di sonda, b: embrione di genitori non iniettati (pattern di espressione di mex-3 normale), c: embrione di genitori iniettati con RNA antisenso; la presenza di mRNA rispetto al fenotipo wildtype ` calata ma resta comunque elevata, d: embrioni di genie tori iniettati con dsRNA di mex-3B ; mRNA di mex-3B assente nellembrione. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3 1.4 Schema semplicato del meccanismo dellRNAi mediato da siRNA. 19 Schema della biosintesi dei miRNA e del loro processo di silen` ziamento genico. E da notare la possibilit` che i miRNA maturi a entrino nello stesso pathway che gestisce i siRNA. . . . . . . . . 23 2.1 Rappresentazione dellinsieme di siRNA studiati, a sinistra la rey luciferase e a destra la ciclolina B umana [4]. . . . . . . . 32 2.2 Criterio 1. Ordinamento in base a contenuto di G/C, dal 26% al 68% in funzione della capacit` silenziante [4]. . . . . . . . . . 32 a

ELENCO DELLE FIGURE

2.3

Criterio 2. Frequenza di basi A/U alla posizione 1-5 e 15-19 dellsiRNA consenso [4]. . . . . . . . . . . . . . . . . . . . . . . 33 20 C [4]. . . . 34

2.4 2.5 2.6 2.7

Criterio 3. Maggior presenza di >F95 a Tm

Criterio 4-5. Base A alla posizione 19 e alla posizione 3 [4]. . . . 35 Criterio 6. Base A alla posizione 3 [4]. . . . . . . . . . . . . . . 35 Criterio 7-8. Assenza di G/C alla posizione 19; assenza di G alla posizione 13 [4]. . . . . . . . . . . . . . . . . . . . . . . . . 36

2.8

Rappresentazione della funzionalit` dellalgoritmo in termini di a silenziamento rispetto allo score ottenuto [4]. . . . . . . . . . . . 36

2.9

Distribuzione dei selezionati (score>6) e degli eliminati (score<6) su tutto il test set [4]. . . . . . . . . . . . . . . . . . . . . . . . . 37

2.10 Criteri e statistiche derivate dal loro utilizzo. . . . . . . . . . . . 38 2.11 Pagina iniziale del siDesign Center. . . . . . . . . . . . . . . . . 40 2.12 Pagina nale dei 50 candidati siRNA proposti da Dharmacon. . 41 2.13 Struttura di un siRNA ad alto potere silenziante secondo Naito et al. [35] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1 4.1 Pressi daccesso di RefSeq. . . . . . . . . . . . . . . . . . . . . 46 Diagramma del lavoro di tesi, le lettere indicano in ordine crescente la linea temporale dei passaggi. . . . . . . . . . . . . . . . 62 4.2 Analisi in tempo reale della richiesta di tipo post al server Dharmacon monitorata da Firebug. . . . . . . . . . . . . . . . . . . . . . . . 65 4.3 4.4 4.5 4.6 Parte iniziale del le di output di BLAST. . . . . . . . . . . . . 67 Particolare del le di output di BLAST. . . . . . . . . . . . . . 68 Particolare del le di output di BLAST. . . . . . . . . . . . . . 73 Output di Blast modicato per visualizzare lelenco con dierenti E-value. . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

ELENCO DELLE FIGURE

4.7 4.8

File di output del tool con E-value= 100 e macro applicate. . 75 File di output del tool con E-value = 1000 e macro applicate. 75

10

ELENCO DELLE FIGURE

Capitolo 1 RNA interference


La via preferenziale per lo studio della funzione biologica di una proteina ` e rappresentata dalla genetica inversa che consiste nella produzione di un particolare genotipo mutato, a livello di uno o pi` geni dinteresse, e nellesame del u corrispondente fenotipo. La scoperta di metodi specici di silenziamento dellespressione genica ha aumentato la potenzialit` e lecienza di questo approccio. Inizialmena te furono utilizzati frammenti di DNA o RNA antisenso per silenziare geni di interesse, permettendo di studiare gli eetti fenotipici e dedurre cos` la fun zione biologica del gene. Queste tecniche si dimostrarono per` non sempre o altamente speciche e quindi generalmente poco ecienti. Poco pi` di dieci anni fa ` stato evidenziato un nuovo meccanismo di silenu e ziamento genico naturale mediato da RNA a doppio lamento (dsRNA) [1]. In diversi organismi ` stato osservato che il dsRNA ` in grado di indurre silenziae e mento genico sequenza-specico. Questo processo, chiamato RNA interference (RNAi), ubiquitario negli animali e nelle piante, ` stato oggetto di intensi studi e negli ultimi 10 anni. Molto ` ormai noto sul meccanismo molecolare alla base e dellRNAi, tuttavia alcuni aspetti devono ancora essere chiariti e su questi si concentrer` la ricerca nei prossimi anni. a Nel nematode Caenorhabditis elegans il silenziamento genico mediato da

11

12

CAPITOLO 1. RNA INTERFERENCE

RNAi pu` essere indotto a seguito della sua semplice immersione in dsRNA o o nutrendo lo stesso con ceppi di E.coli esprimenti specici dsRNA: sono necessarie poche molecole di dsRNA per cellula per dare inizio ad un eettivo silenziamento genico. Si ` notato, inoltre, che leetto di silenziamento indotto e in C.elegans viene anche ereditato per diverse generazioni [5].

1.1

Cenni Storici

La scoperta dellRNAi avvenne nel tentativo di trovare nuovi metodi per studiare la funzione di determinati geni in C.Elegans (gura 1.1) usando la tecnologia dellRNA antisenso.

Figura 1.1: Stadi di sviluppo embrionale di C.elegans; il nematode ` uno dei e principali modelli per lo studio della regolazione genetica durante gli stadi di dierenziazione tissutale.

Studiando la funzione del gene par-1, Guo & Kemphues nel 1995 [29] iniettarono lRNA antisenso del gene stesso nel nematode. Questo gene codica per una serina-tirosina kinasi, implicata nellasimmetria di divisione cellulare (la prima divisione) a livello embrionale, generando cellule glie diverse per dimensioni, componenti citoplasmatiche e destino di dierenziazione.

1.1. CENNI STORICI

13

Questo esperimento, come atteso, determin` un fenotipo letale. Eettuano do per` il controllo con liniezione del RNA senso, si ebbe sbalorditivamente o lo stesso eetto. A quel tempo, per`, a causa delle limitate conoscenze, questo o risultato fu attribuito ad unipotetica saturazione dei fattori necessari alla traduzione di par-1. Gi` prima dei risultati di Guo & Kempheus, fenomeni a analoghi, che in futuro si sarebbero dimostrati collegati con lRNAi, erano stati osservati, ma erano rimasti senza spiegazione. Nel 1995, il gruppo di ricerca di Jorgensen, nel tentativo di aumentare lattivit` del gene della calcone sintasi a (un enzima coinvolto nella produzione di specici pigmenti), introdusse dei transgeni in petunia. Inaspettatamente la pigmentazione non aument`, anzi o si ebbe una variegazione del colore e, in alcuni casi, la totale perdita di esso. Questo fenomeno fu denito co-soppressione, intendendo la soppressione sia del gene introdotto, sia di quello endogeno [26]. In seguito, la co-soppressione venne ricondotta al PTGS (post trascriptional gene silencing) poich`, in tutti i e casi, il fenomeno era il risultato di una degradazione dellRNA trascritto. Inoltre, questa degradazione post-trascrizionale era osservata anche per transgeni espressi da piante, batteri o sequenze virali. Mentre si parlava di PTGS in piante, un fenomeno molto simile denominato quelling (repressione) era gi` stato osservato nei funghi [22, 23]. Nel 1996, a Cogoni et al. [6], nel tentativo di incrementare la produzione di un pigmento arancione trasformarono una coltura di Neurospora crassa con un plasmide contenente un segmento del gene al1 ottenendo come risultato fenotipi albini. Questi risultati confermarono le precedenti osservazioni sul silenziamento genico indotto da transgeni, e dimostrarono che il fenomeno della metilazione del DNA non era obbligatorio per la sua induzione. Nel 1998 Fire, Mello et al. [1] catalogarono questi fenomeni isolati sotto un principio comune: lRNA interference (RNAi). Sempre lavorando su C. elegans, essi focalizzarono i loro studi sul gene unc22 (responsabile della produzione di una proteina del miolamento), il cui trascritto ` presente e in centinaia di copie nelle cellule dei muscoli striati. Una diminuita attivit` a del gene generava fenotipi con limitata coordinazione motoria, mentre una to-

14

CAPITOLO 1. RNA INTERFERENCE

tale perdita di funzionalit` dello stesso si mostrava in muscoli strutturalmente a difettosi, compromettendone la motilit`. a I risultati indicarono che lintroduzione di una soluzione contenente lamenti di RNA senso ed antisenso era almeno dieci volte pi` ecace del solo u utilizzo dei singoli lamenti. Analisi elettroforetiche mostrarono che, allinterno dellorganismo, il materiale iniettato si conformava per la maggior parte come doppio lamento (dsRNA). Di contro, osservarono che un tempo prolungato tra liniezione del lamento senso e di quello antisenso dava un drastico calo di ecienza, no alla totale assenza di eetto. Questo fenomeno venne spiegato con il fatto che lssRNA (single strand RNA) viene rapidamente degradato nel citoplasma e che, presumibilmente, ` e necessaria la struttura a doppio lamento per il riconoscimento di un eventuale meccanismo cellulare. Anche la presenza dei due tratti in cis 1 su di un singolo lamento diede risposta nulla. Sorprendentemente, gli eetti di questa interferenza genica si mostravano sia nei soggetti iniettati che nelle loro progenie, nonostante nelle prime cellule embrionali gli mRNA, per eetto dei processi di dierenziazione, fossero velocemente degradati. Verosimilmente, pochissime erano le molecole di dsRNA sucienti a generare linterferenza; i valori saggiati non sarebbero stati sucienti se il fenomeno dellRNAi fosse stato di tipo stechiometrico (tra dsRNA ed mRNA). Questa considerazione sugger` lesistenza di una componente catalitica o di un evento di amplicazione che rendesse possibile lRNAi partendo da basse concentrazioni di dsRNA. Per esaminare gli eetti dellinterferenza di dsRNA a livello cellulare gli autori usarono linee transgeniche esprimenti due dierenti green uorescent proteins (gfp) nei muscoli e, in altri casi, attraverso ibridazioni in situ. Liniezione di dsRNA specica per la gfp gener` una marcata riduzione della frazione uoo
1

Termine derivante dalla denizione chimica indicante la struttura tridimensionale di una

molecola di derivati del carbonio.

1.1. CENNI STORICI

15

rescente delle cellule. Tre importanti conclusioni vennero tratte dal lavoro di Fire e Mello: 1. il dsRNA complementare a sequenze promoter o introniche non produceva uninterferenza rilevabile 2. liniezione di dsRNA produceva la diminuzione o la totale eliminazione dellmRNA endogeno; per dimostrare ci` venne usato come trascritto o bersaglio mex-3, abbondante nelle gonadi e nei primi stadi embrionali, nei quali era facile eseguire ibridazioni in situ. Nei soggetti iniettati con dsRNA derivato da mex3 non venne rilevato mRNA mex3. Mentre individui iniettati con solo antisenso puricato di mex3 mantennero comunque alti livelli di mRNA dallo stesso(gura 1.2) 3. linterferenza mediata da dsRNA riesce ad attraversare le barriere cellulari. Infatti, liniezione di dsRNA (per unc-22 LacZ o gfp) nelle cavit` a della testa o della coda produssero una specica e consistente interferenza anche nelle progenie, diondendo quindi no agli organi riproduttivi. Si ` recentemente attribuita alla diusione di questa interferenza il ruolo del e gene SID-1, probabile trasportatore intercellulare di sequenze iniziatrici dellRNAi.

Questo esperimento f` il primo nel suo genere e gett` le basi per la messa a u o punto di metodi di silenziamento genico specici attraverso lapplicazione di dsRNA esogeno, applicabile ed espandibile a tutti gli organismi. Studi successivi [7, 36] spiegarono il meccanismo base dellRNAi; questo avvennne con saggi su lisati di cellule embrionali allo stadio S2 di Drosophila. In altri esperimenti si pose lattenzione su RNA di 25 nucelotidi presenti solo in piante soggette a co-soppressione ed assenti nelle piante in cui non si presentava il fenomeno del silenziamento. Da questi emerse che lmRNA

16

CAPITOLO 1. RNA INTERFERENCE

Figura 1.2: Eetto dellinterferenza dellRNA di mex-3 sullmRNA endogeno di embrioni di C.elegans. Ibridazione in situ con sonda specica per lmRNA di mex-3. a: controllo negativo con assenza di sonda, b: embrione di genitori non iniettati (pattern di espressione di mex-3 normale), c: embrione di genitori iniettati con RNA antisenso; la presenza di mRNA rispetto al fenotipo wild-type ` calata ma e resta comunque elevata, d: embrioni di genitori iniettati con dsRNA di mex-3B ; mRNA di mex-3B assente nellembrione.

1.2. IL SILENZIAMENTO MEDIATO DA SIRNA

17

endogeno veniva tagliato nella regione complementare al dsRNA e il taglio era eettuato in un intervallo di 21-23 nucleotidi. Molto presto, attraverso approcci genetici e molecolari, divenne chiaro il meccanismo dellRNAi. Si comprese quindi di avere tra le mani un potente strumento di ricerca e, una possibile alternativa a strategie terapeutiche per malattie (come HIV e tumori) per le quali ad oggi non esistono rimedi mirati e totalmente ecaci. Nel prossimo paragrafo verranno discussi in dettaglio i processi che regolano il fenomeno dellinterference.

1.2
1.2.1

Il silenziamento mediato da siRNA


Un nuovo campo di Ricerca

La scoperta dellRNAi come potente metodo di silenziamento genetico dest` o repentinamente lattenzione dellintera comunit` scientica. I risultati dei pria mi esperimenti, visti nel paragrafo precedente, favorirono la realizzazione di moltissimi altri lavori di ricerca. Lubiquit` del fenomeno permise infatti il a suo studio su molte specie. Molti esperimenti, infatti, si basavano sulla semplice immersione in dsRNA o attraverso lalimentazione con batteri esprimenti dsRNA. Lo screening genico era quindi molto facilitato e permise la rapida identicazione di geni coinvolti nella RNAi in C.elegans e, il ritrovamento di loro omologhi in Drosophila, piante e funghi, dimostr` che i fenomeni, che prima o venivano etichettati come PTGS (post-transcriptional gene silencing), quelling e co-soppressione, erano tutti parte di un unico processo. Inoltre, organismi precedentemente poco studiati per la loro complessit` genetica, poterono a diventare fonte di informazioni per la comunit` scientica. a

18

CAPITOLO 1. RNA INTERFERENCE

1.2.2

Primi passi

Nelle piante in cui si ` osservato il fenomeno dellRNAi sono state trovate pice cole sequenze di RNA chiamate small interfering RNAs: siRNA. Si ` scoperto e che a generare queste sequenze era un enzima ribonucleasico della superfamiglia delle RNAsi III, chiamato Dicer. Studi su C.elegans hanno fatto emergere lesistenza di geni strettamente coinvolti nel meccanismo dellRNAi [15]: rde1 e rde-4 (dove rde sta per RNAi decient), indispensabili per generare gli elementi reponsabili dellinterferenza, ma non utili al protrarsi della stessa; rde-2 mut-7 sembrano invece implicati nella seconda fase del processo. I primi geni si sono anche mostrati coinvolti nellereditariet` del fenomeno; in Dicer si a ` osservata unaltissima similarit` con rde-1. e a

1.2.3

Meccanismo dellRNAi mediato da siRNA

Il modello funzionale dellRNAi divisibile in due fasi fondamentali: quella di iniziazione e quella eettrice. Nella fase iniziale i dsRNA immessi nella cellula (limmissione pu` avvenire in maniera diretta, attraverso un transgene o un o virus) vengono digeriti in corte molecole di dsRNA chiamate siRNA, lunghe da 21 a 23 paia di basi. Dati sperimentali provano che i siRNA vengono prodotti dallenzima Dicer che taglia i dsRNA attraverso una reazione ATPdipendente. Successive rielaborazioni degradano i siRNA a duplex di 19-21 bp con un prolungamento di due nucleotidi al 3. Nella fase eettrice i duplex siRNA si legano ad un complesso nucleasico e formano quello che viene chiamato RNA-induced silencing complex(RISC). Perch` gli siRNA si possano incorporare nel RISC ` necessaria una fosforie e lazione allestremo 5 del duplex [3] ad opera di una chinasi endogena [10]. Dopo tale legame i siRNA vanno incontro ad una denaturazione a singolo lamento (ATP-dip.), necessaria per lattivazione del complesso RISC. Il complesso cos` attivato, usando come stampo il singolo lamento incorporato, va a tagliare lamenti di mRNA complementari allo stesso (gura 1.3). Il taglio

1.2. IL SILENZIAMENTO MEDIATO DA SIRNA

19

avviene a circa 12 nucleotidi dal 3 del siRNA antisenso.

Figura 1.3: Schema semplicato del meccanismo dellRNAi mediato da siRNA.

1.2.4

Geni coinvolti nellRNAi

RNA polimerasi - RNA dipendente: un sitema di amplicazione La potenza dellRNAi, riscontrata in tutti gli esperimenti, ` stata attribuita ad e un processo di amplicazione, proprio del meccanismo di interferenza. Questa amplicazione pu` avere come bersaglio i dsRNA, al ne di produrre pi` o u

20

CAPITOLO 1. RNA INTERFERENCE

siRNA, o i siRNA stessi. In questo modo i complesi RISC hanno la possibilit` a di eettuare un maggior numero di reazioni ribonucleasiche sequenza-speciche (tagli). Recenti indagini hanno dimostrato che i siRNA complementari allmRNA bersaglio funzionano da primer per un RNApolimerasi-RNA dipendente (RdRP) che trasforma lmRNA in dsRNA, il quale a sua volta sar` il substrato a di Dicer. Questo passaggio amplica cos` la risposta dellRNAi, la quale pu` o autoalimentarsi no a quando tutto lmRNA bersaglio non ` degradato. e Il silenziamento mediato da RNAi diventa cos` uno dei pi` eleganti ed u ecienti meccanismi in natura [14]. I geni qde-1 di eurospora, sde1 /sgs-2 in Arabidopsis ed ego-1 in C.elegans sembrano codicare la stessa RdRP. I dati degli esperimenti su questi geni confermano la loro indispensabile funzione nellRNAi. Mutanti di Arabidopsis per sde1 /sgs-2 si dimostrano incapaci di generare RNAi in seguito a introduzione di dsRNA attraverso transgene; gli stessi per` generano risposta a seguito di replicazione endogena mediata o da virus. Probabilmente questo risultato ` dovuto al fatto che la carenza di e RdRP viene sopperita dalla RNApolimerasi virale.

Gli iniziatori Due geni di C.elegans, rde-1 e rde-4 si presuppongono coinvolti nella fase iniziale dellRNAi. Il gene rde-1 ` membro di una grande famiglia di geni ed e ` omologo a qde-2 in Neurospora crassa (qde sta per quelling decient) e ad e ago1 di Arabidopsis thaliana (ago sta per argonaute). Anche se lesatta funzione di questi geni non ` ancora chiara, un gene e studiato in mammiferi, della famiglia di rde-1, ` stato identicato come fattore e di iniziazione dellRNAi [24].

Gli eettori Geni importanti per la fase eettrice in C.elegans sono rde-2 e mut-7. Questi geni sono stati identicati in esemplari eterozigoti che non erano in grado di

1.2. IL SILENZIAMENTO MEDIATO DA SIRNA

21

trasmettere lRNAi alle progenie omozigote.

Gli argonauti Gli argonauti sono proteine facenti parte di una grande famiglia, molto conservata, i cui membri sembrano andare a formare la maggior parte del complesso RISC; esse sono quindi implicate nel processo di silenziamento, ad opera dellRNAi, come eettori ed in altri fenomeni correlati in molti altri organismi come, funghi, piante e mammiferi. I ruoli degli argonauti 1 e 2 (ago-1 e ago2 in Drosophila) sono quelli meglio deniti. ago-2 ` stato indenticato come una componente del complesso RISC, e ` inoltre necessario alla denaturazione dei siRNA a doppio lamento e alla loro e integrazione (solamente del lamento antisenso) nel complesso. Embrioni decienti di ago-2 restano comunque in grado di eettuare RNAi mediato da miRNA. Ci` suggerisce lesistenza di pi` proteine che svolgono un o u ruolo simile a quello di ago-2. Viceversa, ago-1, indispensabile per il taglio dellRNA guidato da siRNA, ` anche richiesto per la produzione di miRNA e [18]. Lassociazione di ago-1 con Dicer-1 e i pre-miRNA suggerisce inoltre che ago1 sia coinvolto nella biogenesi dei miRNA. Gli argonauti si mostrano anche coinvolti nello sviluppo e nella dierenziazione cellulare, hanno dimensioni di circa 100 kD, fortemente basiche e contengono due domini comuni chiamati PAZ e Piwi [19]. Il dominio PAZ ` costituito da 130 amminoacidi ed ` stato identicato anche in Dicer [11]. e e Anche se non si conosce ancora lesatta funzione del dominio PAZ, si ipotizza che esso sia necessario per uninterazione proteina-proteina, probabilmente per una omo o etero dimerizzazione [19]. Essendo queste proteine molto basiche si pensa possano legare il DNA. Sicuramente quindi le proteine argonaute sono coinvolte nel processo dellRNAi, sia indirettamente che direttamente, ma sono comunque necessari ulteriori studi biochimici per poter scoprire la loro precisa funzione nel metabolismo dellRNA.

22

CAPITOLO 1. RNA INTERFERENCE

1.3

Silenziamento mediato da miRNA

I miRNA sono piccoli RNA lunghi circa 22 nucelotidi, derivano da trascritti non codicanti e funzionano come repressori nella regolazione genica in eucarioti. I miRNA di piante e animali dieriscono per sequenza, quantit`, a pattern di espressione e localizzazione genomica. Alcuni di essi possiedono un proprio locus, altri, invece, sono contenuti allinterno di regioni introniche di altre sequenze codicanti, spesso nello stesso senso; questo suggerisce che probabilmente vengano trascritti in concomitanza del loro gene ospite. Generalmente i miRNA maturi vengono integrati in un complesso chiamato miRNP (simile al RISC per i siRNA). I miRNA interagiscono con lmRNA target attraverso complementariet` delle basi. Due tipi di meccanismi sono a stati individuati a carico del silenziamento mediato dai miRNA: uno prevede la degradazione dellmRNA bersaglio, laltro il blocco della traduzione dello stesso. Lazione di uno o dellaltro processo ` discriminata dalla complemene tariet` tra mRNA e miRNA. Nel caso di un perfetto appaiamento occorre il a taglio dellmRNA mediato dal complesso, come avviene per il silenziamento mediato da siRNA(gura 1.4). Se lappaiamento risulta invece non perfetto il miRNA si lega alla regione 3 UTR dellmRNA bloccandone la traduzione. Questi miRNA, vista la loro natura regolatrice, si trovano molto conservati allinterno di molte specie, e in alcuni casi arrivano a costruire l1% del genoma, mostrandosi come il componente regolatore pi` rappresentativo. u

1.3. SILENZIAMENTO MEDIATO DA MIRNA

23

Figura 1.4: Schema della biosintesi dei miRNA e del loro processo di silenziamento ` genico. E da notare la possibilit` che i miRNA maturi entrino nello stesso pathway a che gestisce i siRNA.

24

CAPITOLO 1. RNA INTERFERENCE

1.4

RNAi in cellule di mammifero

In cellule di mammifero sono state riscontrate molte pi` dicolt` nellindurre u a lRNAi. Questo perch`, a seguito dellintroduzione di dsRNA, spesso a rispone dere non ` un sistema di silenziamento sequenza-specico, ma un sistema che e inibisce tutta lespressione globalmente. In questi casi ad interagire con il dsRNA ` una proteina kinasica (DAI o PKR) che va a scatenare la risposta e immunitaria dellinterferone bloccando la trascrizione in modo globale. Un altro evento di silenziamento genico osservato nei mammiferi ` quello mediato e da una ribonucleasi(RNAsi L), attivata da dsRNA, che agisce attuando una degradazione non specica dellmRNA. Utilizzando invece i siRNA, i quali non azionano la risposta interferonica, si ` riusciti ad indurre il silenziamento sequenza-specico. Questa scoperta, come e descritto in seguito, si mostrer` utile al ne di poter progettare metodologie a di somministrazione umana a scopo terapeutico. Altre molecole di RNA a doppio lamento, naturalmente prodotte da cellule umane (micro-RNA o miRNA), e caratterizzate da precursori con una struttura a forcina (hairpin), si sono mostrate anchesse implicate nel processo avviato da Dicer. In questo modo, collegando i miRNA endogeni al sistema di silenziamento genico dellRNAi, si ` capito che il processo in questione, oltre ad e essere comune in diversi organismi, possiede la funzione di regolazione genica durante lo sviluppo. In tempi pi` recenti, attraverso esperimenti su lievito, ` u e stato appurato che il meccanismo dellRNAi ` coinvolto nella regolazione della e cromatina.

1.5. IL NUCLEO: UN NUOVO SITO DI RICERCA PER LRNAI

25

1.5

Il nucleo: un nuovo sito di ricerca per lRNAi

Il silenziamento genico mediato da siRNA e miRNA presenta una notevole specicit` visto che si tratta di un processo guidato dalla complementariet` di a a basi tra gli RNA. Negli ultimi anni gran parte dellinteresse sui processi mediati dallRNAi si ` focalizzato sui meccanismi che si vericano a livello del genoma e nucleare. In seguito sono descritti i ruoli dei dsRNA e delle proteine coinvolte in diversi processi di silenziamento genico a livello nucleare, il cosidetto TGS (transcriptional gene silencing).

1.5.1

I processi nucelari mediati dallRNAi

Quattro sono i processi mediati da RNAi a livello nucleare. Due di questi, la metilazione del DNA diretta da RNA (RNA-directed DNA methylation: RdDM) e la formazione di eterocromatina mediata da RNAi, costituiscono processi epigenetici che consistono rispettivamente nella modicazione delle citosine del DNA o delle proteine istoniche. LRdDM ` stata maggiormente studiata e descritta in piante, mentre la fore mazione delleterocromatina ` stata analizzata in Schizosaccharomyces pombe, e animali e piante. Sono entrambi processi iniziati da dsRNA, ma non ` ancora e stato chiarito se si tratti di due meccanismi separati o meno. Negli organismi superiori si ` notato che la metilazione del DNA e la modicazione degli istoni e hanno un ruolo di automantenimento reciproco. In S.pombe, invece, dove si ` e potuto osservare la modicazione della cromatina, non ` stata trovata metie lazione a carico del DNA, facendo presupporre che i due fenomeni non siano necessariamente accoppiati. Un terzo meccanismo ` leliminazione del DNA. Protozoi cigliati hanno e mostrato la capacit` di eliminare tratti di DNA durante lo sviluppo dei macronua clei. Questi tratti del genoma erano stati in precedenza, sotto lazione del mec-

26

CAPITOLO 1. RNA INTERFERENCE

canismo dellRNAi, rimodellati a livello della cromatina; ottenendo cos` una ristrutturazione del genoma. Un ultimo meccanismo ` rappresentato dal silenziamento di DNA non appae iato durante la meiosi. Questo fenomeno ` stato osservato in organismi, come e Neurospora crassa, in cui si ` mostrato correlato alle proteine coinvolte nel e fenomeno dellRNAi. Il silenziamento meiotico ha origine nel nucleo, ma a differenza dei tre precedenti, risulta un silenziamento a livello post-trascrizionale e non genera un rimodellamento della cromatina nel locus di partenza.

1.6

Applicazioni mediche

Lidea di usare lRNAi come sistema terapeutico fu ventilata anni fa, a partire dal lavoro pioneristico di Tuschl [32] nel 2001 relativo alla somministrazione dei siRNA. Le possibili malattie trattabili da questo approccio includono le infezioni virali, i tumori e le mutazioni genetiche dominanti ereditabili. Il virus dellHIV ` stato il primo ad essere immaginato come possibile bersaglio e di questa strategia. I geni virali chiave dellHIV (tat, rev, nef e gag) sono stati silenziati, ottenendo una eciente inibizione della replicazione virale su cellule in coltura. Risultati simili sono stati ottenuti silenziando geni cellulari quali CD4, CCR5, CXCR4, necessari allinfezione virale. Anche il virus dellepatite C (HCV), avente un genoma a singolo lamento di RNA, ` stato e studiato come possibile bersaglio per una terapia di silenziamento genico mediata da RNAi, ottenendo buoni risultati su colture. Altri virus su cui sono stati sperimentati, con successo, approcci simili sono il papilloma virus (HPV), attraverso silenziamento dei geni E6 ed E7, il virus dellepatite B (HBV) e il virus dellinfuenza. I risultati sono stati incoraggianti ma necessitano di ulteriori prove, soprattuto per quanto concerne la loro ecienza e sicurezza in vivo su modelli animali (topo) e successivamente attraverso test clinici. La specicit` di sequenza dellRNAi lo predispone come uno strumento efa

1.6. APPLICAZIONI MEDICHE

27

cace per il silenziamento dei geni mutati. Questa possibilit` ` stata provata ae per la prima volta su di un oncogene, K-RAS(V12), la cui mancata espressione risulta in un blocco della crescita tumorale in assenza di ancoraggio delle cellule al tessuto [34]. Lespressione del gene mutato di K-RAS ` stata inibie ta attraverso lespressione di shRNA(short hairpin RNA) sotto il controllo di una versione retrovirale del promotore H1. Il silenziamento del gene mutato ha comunque lasciato inalterata lespressione delle isoforme non mutate dello stesso. Questa prova ha riscontrato grande successo per il fatto che questi risultati non sono stati ottenuti solo su tessuti in coltura ma anche in modelli animali quali il topo. Le malattie genetiche dominanti ereditabili sono tipicamente causate dalla mutazione di un allele il cui prodotto genico ` visibile anche nelleterozigote e e prevale su quello non mutato. Leliminazione del gene mutato permetterebbe a quello normale di restaurare le corrette funzioni cellulari. Lespansione delle regioni ripetute formate da CAG causano la codica di tratti arricchiti di glutammine e sono responsabili di almeno otto malattie neurodegenaritive umane (tra cui la Corea di Huntington e la malattia di Kennedy). Laggregazione delle poliglutammine mutate, anche se con meccanismo non ancora del tutto chiaro, genera una neurotossicit`. I siRNA che hanno come bersaglio le sequenze al 3 a o al 5 delle ripetizioni di CAG riescono a inibire la tossicit` in cellule coltivate a aprendo la possibilit` a nuovi approcci terapeutici. Altri esperimenti sono stati a eettuati su molecole mutate responsabili di malattie genetiche. Un esempio ` lepatite fulminante indotta dal recettore Fas mutato, la cui espressione ` e e stata ridotta con liniezione di siRNA specici nel topo [13]. Ci sono molti problemi che devono essere risolti prima che lRNAi diventi uno strumento utilizzabile nella terapia clinica. Per prima cosa, i siRNA devono essere introdotti in grande quantit` ed in molte cellule, in modo eciente a e stabile. Questo problema pu` essere risolto attraverso modicazioni chimiche o che aumentino la stabilit`, la penetrabilit` e quindi lecienza dei siRNA. Ala a ternativamente possono essere introdotti attraverso luso di un vettore virale. Possibili candidati a questo utilizzo sono i lentivirus, i quali hanno mostra-

28

CAPITOLO 1. RNA INTERFERENCE

to una maggiore persistenza rispetto ai siRNA nudi. In aggiunta lutilizzo di promotori inducibili o reprimibili aiuterebbe ad ottenere una trascrizione dei costrutti controllata dallesterno. Un altro problema ` dato dalla presenza di mutazioni alle eliche che rendono e la specicit` di sequenza un ostacolo, aggirabile con lutilizzo di diversi siRNA a che permettano lappaiamento delle sequenze anche in presenza di geni variabili nella popolazione umana. Tra le pi` recenti innovazioni vi ` un metodo che u e prevede lendocitosi, da parte di cellule speciche, di siRNA trasportati da anticorpi monoclonali [12].

1.7

Osservazioni

Con il continuo evolversi dei metodi e delle conoscenze, la reverse genetics sta acquisendo sempre pi` un ruolo predominante nella ricerca di base. Ad oggi, u infatti, i ricercatori possiedono le informazioni derivanti dai genomi sequenziati di diversi organismi e la possibilit` di consultare tali dati attraverso luso dei a database dei software per il calcolo computazionale di sequenze nucleotidiche e amminoacidiche. LRNAi ` lo strumento necessario per accelerare le ricerche sulla funzione e dei geni sequenziati oltre ad essere utile come applicazione per le terapie cliniche. Le potenzialit` di questo approccio nella reverse genetics meritano a alcune considerazioni. La pi` importante ` lopportunit` di silenziare un gene anche quando loru e a ganismo in studio sia gi` adulto. Con le precedenti tecniche di mutagenesi, a infatti, il genoma veniva modicato irreversibilmente gi` allo stadio di cellula a uovo e questo costringeva lorganismo a crescere in maniera gi` compromessa a rispetto a un genotipo non mutato. In alcuni casi, la mutazione comprometteva addirittura la vitalit` e/o lo sviluppo dellorganismo impedendone uno a studio preciso, soprattutto nello studio dei sistemi animali. Con le nuove tecnologie basate sullRNAi, attraverso la somministrazione di siRNA o con luso

1.7. OSSERVAZIONI

29

di costrutti inducibili, il silenziamento genico pu` essere indotto e regolato in o qualsiasi momento, escludendo eetti collaterali residui quali sviluppi anomali dellorganismo. Molte organizzazioni si stanno adoperando per creare librerie su larga scala per lRNAi. Uno screening genomico fatto utilizzando queste librerie permetterebbe di acquisire molte conoscenze sui sistemi biologici, sulle vie metaboliche, biosintetiche e sui network di segnalazione presenti negli organismi. Un esempio applicativo molto interessante sarebbe lo studio delle interazioni delle popolazioni con un determinato ambiente in base alla presenza o meno di determinati geni. Ci` che ancora rimane una limitazione allaermarsi di terapie basate sulo lRNAi ` la modalit` di somministrazione dei siRNA. Leccessivo ottimismo e a iniziale ` stato poi smorzato dal fatto che spesso i risultati ottenuti in vitro e non sono replicabili in vivo; ed ancora che la somministrazione di molecole sintetiche, quali appunto gli siRNA, scatenino un rilascio, a livelli tossici, di interferone o che il silenziamento prenda come bersaglio altri geni che non erano stati accuratamente predetti. In ambito vegetale lassenza di un sistema immunitario e una specializzazione delle funzioni biologiche relativamente meno complessa, ha permesso di ottenere gi` da subito molti risultati, soprattutto a livello di genomica funa zionale. Non da meno sono le applicazioni: molti sono i progetti di ricerca che prevedono il silenziamento dei geni per il miglioramento di piante economicamente importanti o lutilizzo dellRNAi per ottenere resistenza a determinati virus vegetali. Un interessante esempio attinente questi aspetti ` il lavoro di e Ogita et al. [33], appartenente ad un gruppo di ricerca giapponese, che silenziando, attraverso lRNAi, il gene della theobromina sintasi (CaMXMT1) in ca`, coinvolto nella sintesi della caeine, hanno ottenuto piante naturalmente e decaeinate senza compromettere nessun altro aspetto siologico.

30

CAPITOLO 1. RNA INTERFERENCE

Capitolo 2 Ingegnerizzazione dellRNAi


Le metodologie con cui viene progettato un siRNA sintetico sono un aspetto molto importante della ricerca per ottenere risultati accettabili nelle prove di silenziamento. Ad oggi molte ditte orono un servizio personalizzato di sintesi di siRNA; alcune di esse sono Dharmacon [8], Qiagen [25], Ambion [2], MWG [21]. Con il crescente interesse verso queste nuove metodologie di silenziamento genico, sono stati sviluppati appositi software che, attraverso algoritmi specici, generano le sequenze dei migliori siRNA potenzialmente capaci di silenziare un determinato mRNA target. La potenzialit` di questi software, abbinata alle a possibilit` di allineare, attraverso BLAST, tutte le relative sequenze presenti a nelle banche dati, permette di trovare i possibili target per la costruzione di un siRNA. Proprio partendo dal lavoro presentato al mondo scientico da Reynolds et al. nel febbraio del 2004 [4] su nature biotechnology, nel quale vengono date le linee guida per disegnare un buon candidato siRNA, ho cominciato a capire i meccanismi che stavano alle spalle proprio di uno dei servizi online sopracitati, ovvero il design Center della Dharmacon. Nello studio sopracitato ` stato e analizzato un insieme di 180 siRNA progettati per interferire con due regioni da 197 basi di mRNA di rey luciferase (uc) e ciclolina B umana. Dai risultati ottenuti (gura 2.1), si nota che circa il 78% degli siRNA induce un

31

32

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

silenziamento maggiore del 50% e viene indicato dai ricercatori come >F50. Come ci si aspetta la probabilit` di selezionare sequenze candidate potenti a (>F95) ` molto bassa, per la luciferasi ` del 24.4%, mentre per la ciclolina e e ` dell11,1%. e

Figura 2.1: Rappresentazione dellinsieme di siRNA studiati, a sinistra la rey luciferase e a destra la ciclolina B umana [4].

Vediamo ora i diversi criteri implementati per la ricerca del candidato ottimale.

Figura 2.2: Criterio 1. Ordinamento in base a contenuto di G/C, dal 26% al 68% in funzione della capacit` silenziante [4]. a

33

Il primo degli otto criteri ` quindi linsieme delle sequenze con un contenuto e di G/C compreso tra il 36% e il 58% che come si pu` osservare in gura 2.2 ` o e lintorno con la maggiore ecienza.

Figura 2.3: Criterio 2. Frequenza di basi A/U alla posizione 1-5 e 15-19 dellsiRNA consenso [4].

Il secondo ` la possibilit` di avere almeno tre basi A/U alla posizione 15-19 e a del candidato siRNA (gura 2.3). La ripetizione interna di queste sequenze, o la presenza di aree palindrome, permette la formazione di strutture dette a forcina che di fatto inibiscono lazione silenziante di siRNA. La relativa stabilit` e propensione a formare queste strutture ` stata stimata tramite la a e temperatura di fusione (Tm ) [9]. Si ` osservato che c` una stretta correlazione e e tra una bassa Tm e la presenza di gruppi >F95(g. 2.4) che denisce quindi il terzo criterio, ovvero assenza di ripetizioni interne e una Tm sotto i 20 C. Inne facendo una divisione del campione test, da una parte i funzionali >F80 e dallaltra i non-funzionali <F50, sono stati ricavati gli ultimi criteri fondati sulla presenza o lassenza di diverse basi in diverse posizioni, vediamole in dettaglio. Una base di tipo A alla posizione diciannove (gura 2.6) costituisce il 4 criterio, la presenza di una A come terza base della sequenza candidata

34

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

Figura 2.4: Criterio 3. Maggior presenza di >F95 a Tm

20 C [4].

consenso (gura 2.6) rappresenta il 5 criterio, la presenza di una U come decima base (gura 2.7) costituisce il 6 criterio mentre lassenza di una G/C alla diciannovesima base (gura 2.8) ` il 7 criterio e lassenza di una G in e tredicesima posizione (gura 2.9) rappresenta lultimo criterio, lottavo. Nelle gure che seguono vengono mostrati i gruppi di siRNA candidati selezionati o eliminati a seconda del criterio applicato.

35

Figura 2.5: Criterio 4-5. Base A alla posizione 19 e alla posizione 3 [4].

Figura 2.6: Criterio 6. Base A alla posizione 3 [4].

36

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

Figura 2.7: Criterio 7-8. Assenza di G/C alla posizione 19; assenza di G alla posizione 13 [4].

Figura 2.8:

Rappresentazione della funzionalit` dellalgoritmo in termini di a

silenziamento rispetto allo score ottenuto [4].

37

Gli autori hanno quindi identicato 8 parametri in grado di contribuire al potenziale silenziante del siRNA ed hanno assegnato un punteggio numerico ad ognuno di questi parametri (-1,0,o +1) in modo che si potesse ottenere un punteggio massimo di 10 per ogni sequenza ( Tabella 2.1) . Il sistema ` stato e formulato in modo che la selezione di siRNA con uno score uguale o maggiore a 6 aumentasse la probabilit` di un silenziamento eciente (g. 2.9). a CRITERIO Contenuto di G/C pari al 30%-50% A o U alle posizioni 1519 Assenza di ripetizioni interne (Tm <20 C) A in posizione 19 A in posizione 3 U in posizione 10 A o U in posizione 19 Assenza di G in posizione 13

SE VERO SE FALSO 1 5 1 1 1 1 0 0 0 0 0 0 0 0 -1 -1

Tabella 2.1: Criteri e relativi punteggi

Figura 2.9: Distribuzione dei selezionati (score>6) e degli eliminati (score<6) su tutto il test set [4].

38

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

Come possiamo osservare (gura 2.10), in modo dierente per ogni criterio, un aumento di >F95 e una diminuzione di <F50.

Figura 2.10: Criteri e statistiche derivate dal loro utilizzo.

39

La Dharmacon fornisce un servizio completo di sintesi di siRNA per silenziare tutti i geni umani, basato sullalgoritmo sopracitato, solo dopo verica e ottimizzazione procura al ricercatore i candidati scelti. Il servizio online della Dharmacon si presenta quindi come un aiuto a tutti i potenziali acquirenti di siRNA. Vediamo in dettaglio come funziona la ricerca online. Dopo aver superato la selezione del paese di appartenenza e la home page si viene ridiretti sulla pagina chiamata siDesign Center (gura 2.11). In questa pagina notiamo la divisione in step del metodo di ricerca, nel primo passo abbiamo la possibilit` di scegliere il tipo di identicativo da utilizzare a per indicare il gene bersaglio (gura 2.11a) Accession Number; Nucleotide Sequence; Gene ID o GI Number, e di inserirlo nella casella successiva (gura 2.11b). Nel secondo passo si ha la facolt` di scegliere che tipo di a regione interessata, nel nostro caso ORF e 3 UTR (gura 2.11c/d) che indicano rispettivamente la parte di sequenza che codica per una proteina e la parte successiva al codone di stop (non codicante). Il terzo passo viene lasciato inalterato e stabilisce il contenuto minimo e massimo in percentuale di G/C (gura 2.11e) in accordo col primo criterio dellalgoritmo di Reynolds. Lultimo passo permette di scegliere se eettuare un blast durante la ricerca (gura 2.11f), nel nostro caso vedremo nel successivo che questo passaggio non si rende necessario. Dopo aver cliccato sul tasto di avvio ricerca (gura 2.11g) si viene ridiretti a pagine di attesa, e inne alla pagina dei risultati (gura 2.12).

40

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

Figura 2.11: Pagina iniziale del siDesign Center.

41

La pagina dei risultati fornisce 50 candidati siRNA selezionabili e acquistabili online. Possiamo osservare il nome del gene target (gura 2.12a), lidenticativo utilizzato in fase di inserimento dati (gura 2.12b), la descrizione (gura 2.12c) e le diverse isoforme del gene in esame (gura 2.12d). Lelenco dei risultati permette di visualizzare (gura 2.12e) le sequenze candidate, la regione dalla quale sono state estratte, la posizione di start e altre caratteristiche utili ai ni della scelta.

Figura 2.12: Pagina nale dei 50 candidati siRNA proposti da Dharmacon.

Grazie a questa risorsa web si ha quindi la possibilit` di ottenere candidati a siRNA sui quali eettuare test di silenziamento specico. I ricercatori coi quali ho collaborato avevano la necessit` di velocizzare questo processo che, fatto a esclusivamente a mano per ogni singolo gene, richiede molto tempo per eseguire operazioni ripetitive quali, inserire il codice identicativo, cliccare le opzioni interessate, avviare la ricerca, attendere che lalgoritmo nisca il processo, salvare la pagina dei risultati e da questa estrarre un foglio di lavoro leggibile e facilmente consultabile. Esistono altre risorse online in grado di fornire un servizio simile a quello Dharmacon, spesso per` lalgoritmo alle spalle dei diversi progetti rimane o

42

CAPITOLO 2. INGEGNERIZZAZIONE DELLRNAI

quello di cui abbiamo parlato in questo capitolo. Uno di questi che, in parte, si dierenzia e che vale la pena menzionare ` sicuramente il siDirect ideato da e Naito et al. [35] nel 2004 e fruibile online allindirizzo: http://genomics.jp/sidirect/index.php?sel=0. In questo progetto i ricercatori hanno denito nuove linee guida che possiamo riassumere in questo modo (gura 2.13): 1. Presenza di una base A o U al terminale 5 della sequenza antisenso; 2. Presenza di una base G o C al terminale 5 della sequenza consenso; 3. Maggioranza di A/U al terminale 5 della sequenza antisenso; 4. Limite di lunghezza a 9 basi di tipo G/C lungo la sequenza.

Figura 2.13: Struttura di un siRNA ad alto potere silenziante secondo Naito et al. [35]

Capitolo 3 Progetto dellapplicativo e metodologie utilizzate


3.1 Idea di realizzazione

Lidea di partenza ` stata quella di creare uno strumento che permettesse e al ricercatore di ottenere, in modo automatizzato partendo da una lista di geni, i relativi candidati siRNA. Per poter implementare questo tool ho utilizzato, Perl, come linguaggio di programmazione, Blast, come strumento di ricerca sul db delle RefSeq dellHomo Sapiens e Excel (Microsoft Oce 2003) come visualizzatore per i risultati. Il tutto ` stato pensato per agire, tramite e protocollo ssh, su un server UNIX da macchine Windows. Vado quindi a denire gli applicativi utilizzati e le principali motivazioni che mi hanno indotto a farne uso.

3.1.1

La banca dati Reference Sequence

Il database Reference Sequence (RefSeq) ` denito come una collezione rae gionata, completa e non ridondante di sequenze di DNA, di trascritti(RNA) e di proteine dei maggiori organismi viventi [17]. E organizzato in record

43

44

CAPITOLO 3. PROGETTO E METODOLOGIE

che vengono creati e aggiornati direttamente dallo sta di NCBI1 . Il punto di partenza per la creazione di ogni record che compone RefSeq ` la bane ca dati GenBank. Ogni record di RefSeq, infatti, ` stato denito in seguito e allestrazione e allelaborazione della sequenza interessata da GenBank e successivamente completato da informazioni raccolte da altri database e dalla letteratura. La caratteristica principale che contraddistingue RefSeq ` quele la di applicare ad ogni record uno status. Questo identica laccuratezza del record stesso e quindi anche la validit` biologica dellelemento rappresentato. a Lo status dei record Un elemento di fondamentale importanza nelle analisi successive ` la Status e Key del record in quanto ne denisce laccuratezza. I possibili status sono i seguenti: INFERRED quando non ci sono supporti sperimentali relativi allintera sequenza, ma c` la possibilit` di averne tramite omologia; e a MODEL rappresenta i record predetti dallanalisi della sequenza genomica; PREDICTED quando il record ` predetto e non soggetto ad una revisone e individuale. Il supporto per il transcritto pu` includere lesistenza di o cloni cDNA ed EST (Expressed Sequence Tag). PROVISIONAL associato se il record non ` ancora stato soggetto a ree visione individuale. Si pu` pensare comunque che sia bene supportato e o che rappresenti una valida proteina. E lo stato di default applicato ai genomi per i quali non ci sono chiare informazioni sul metodo usato per denirne la sequenza.
1

Centro Nazionale per le Informazioni di Biologia Molecolare, ` una parte della Bibliotee

ca Nazionale Americana di Medicina, che dipende a sua volta dallIstituto per la Salute Americano.

3.1. IDEA DI REALIZZAZIONE

45

REVIEWED caratterizza i record che sono stati rivisti dallo sta del NCBI. In questo frangente ` stato eettuato un confronto con le sequenze e omologhe disponibili e spesso ` stato validato anche con informazioni e provenienti dalla letteratura. VALIDATED individua i record che hanno subito tutti i processi di annotazione tra cui una revisione individuale da parte dello sta di NCBI, ` il livello di accuratezza migliore. e Gli accessi di RefSeq I record di RefSeq si distinguono da GenBank per le seguenti caratteristiche. In primis non sono ridondanti ma vengono di volta in volta aggiornati sulle basi delle versioni precedenti dei record stessi. I record, inoltre, hanno un formato diverso che prevede di assegnare ad ogni record un Accession Number costituito da due parti separate dal carattere . La prima consiste in una coppia di lettere che individuano il tipo di record selezionato, la seconda da un codice di sei, otto o nove numeri che deniscono lunicit` del record selezionaa to. Tra le principali caratteristiche di RefSeq ricordiamo la possibilit` di avere a collegamenti espliciti alla sequenza nucleotidica e proteica di ogni elemento; un aggiornamento continuo e controllato delle informazioni presenti del database; un formato consistente e sintetico delle sequenze rappresentate (FASTA format); la possibilit` di visualizzare le versioni precedenti e gli aggiornamenti a relativi ad ogni record. Ogni volta che viene denito un nuovo record dai collaboratori del NCB,I ed ` stato raccolto un numero suciente di informazioni sulle caratteristiche del e record stesso, pu` avvenire il trasferimento allinterno del database RefSeq. Per o far questo viene eettuato un ulteriore confronto per mezzo della consultazione dei database UniGene e GenBank. Il prossimo passaggio che subisce il record ` la valutazione attraverso il software BLAST, nel quale viene eettuato un e match con i dati ottenuti da LocusLink (banca dati che mette a disposizione molte informazioni di ogni gene e codici di collegamento ad altre banche dati)

46

CAPITOLO 3. PROGETTO E METODOLOGIE

e da GenBank in modo da completare, eventualmente, le sequenze del record in maniera ottimale. A questo punto viene associato al record uno degli status sopracitati (PROVISIONAL,PREDICTED e INFERRED) che solo dopo una revisione individuale andata a buon ne pu` essere modicato in VALIDATED o o REVIEWED (Tabella 3.1).

Figura 3.1: Pressi daccesso di RefSeq.

Lutilizzo delle RefSeq nel tool Ho quindi deciso, dopo essermi consultato coi ricercatori, di utilizzare come database per il BLAST le RefSeq della specie Homo Sapiens, in quanto gli esperimenti di silenziamento, eettuati dai ricercatori con cui ho collaborato, vengono eettuati su geni umani. Il database ` facilmente reperibile all indie rizzo: ftp://ftp.ncbi.nih.gov/refseq/H sapiens/mRNA Prot/human.rna.fna.gz in formato compresso, una volta scompattato si presenta suddiviso in diversi le. Per poter eettuare la ricerca tramite BLAST si utilizza un software presente nel

3.1. IDEA DI REALIZZAZIONE

47

pacchetto blastall che ridenisce il database secondo gli standard di BLAST con il seguente comando:
formatdb -p F -i human.rna.fna

ottenendo un grande le in formato FASTA composto nel seguente modo:


>gi|155369268|ref|NM_001100917.1| Homo sapi ... 19), mRNA AAAC...ATTATAAAAAAAAAAAAAAAA >gi|169212695|ref|XM_001716884.1| PREDICTED: Homo sapie ... 79), mRNA ATGTG...ATCAACCTCCCCCGCCTGTGA

3.1.2

Blast

Lomologia fra sequenze aminoacidiche e nucleotidiche pu` essere globale o o locale. I programmi che sono in grado di analizzare il secondo tipo di omologia sono senzaltro pi` utili, specialmente qualora si debbano confrontare delle u sequenze di DNA, Questo perch` spesso vengono ricercate solo piccole zone di e omologia, potendo il DNA contenere ampie zone non codicanti. BLAST [16] [28] che ` lacronimo di Basic Local Alignment Search Tool, ` un programma e e euristico per la ricerca di omologie locali di sequenza ed ` in realt` costituito e a da un insieme di 5 programmi: BLASTP paragona una sequenza aminoacidica ad un database di sequenze proteiche. BLASTN paragona una sequenza nucleotidica ad un database di sequenze nucleotidiche BLASTX paragona una sequenza nucleotidica (traducendola in tutti 6 possibili frame di lettura) ad un database di proteine; ` il pi` usato. e u TBLASTN paragona una sequenza aminoacidica ad un database di acidi nucleici tradotto dinamicamente nelle 6 possibili sequenze di aminoacidi che possono derivarne.

48

CAPITOLO 3. PROGETTO E METODOLOGIE

TBLASTX paragona una sequenza nucleotidica letta secondo tutti i 6 possibili frame di lettura con un database di acidi nucleici anchesso letto secondo tutti i 6 possibili frame di lettura. BLAST ` basato sulla dimostrazione data da Karlin & Altschul (1990) [31] che e un allineamento locale di sequenze prive di gap pu` essere valutato con metodi o statistici. In questo BLAST si dierenzia da FASTA che ` un altro programma e euristico per il confronto fra sequenze comunemente usato. FASTA infatti ricerca il migliore allineamento fra lintera sequenza sottoposta ad indagine e il database di sequenze usato come riferimento. BLAST usa inoltre una scoring matrix [30] durante tutte le fasi della ricerca (scansione ed estensione), a dierenza di FASTA che usa una scoring matrix solo durante la fase di estensione del confronto. Inoltre, mentre FASTA esamina gli aminoacidi a coppie (ktup=2) o singolarmente presi (ktup=1), BLAST utilizza per il confronto gruppi di 3-4 aminoacidi (words) il che consente una velocizzazione del processo. Per far fronte alla riduzione di specicit` derivante a dalluso di questi gruppi piuttosto ampi, BLAST prende in considerazione solo quei gruppi di 3-4 aminoacidi il cui punteggio ` superiore ad un valore-soglia T e (CUTOFF), in modo che leventuale omologia identicata possa considerarsi probabile (su base statistica) gi` a priori. Cos` come prevede lalgoritmo che a governa le prime fasi di FASTA, anche BLAST non ammette la presenza di gap allinterno di ciascun segmento di sequenza preso in considerazione. A dierenza di FASTA che nellultima fase prende in considerazione eventuali inserzioni e delezioni nei segmenti allineati, BLAST non contempla tale possibilit` in a nessuna fase.

Il valore soglia T In BLAST la valutazione dellomologia comincia con lanalisi della sequenza che deve essere sottoposta al confronto. Si crea un elenco di tutte le words che compongono tale sequenza. Con questo termine si indicano i tratti di sequenza

3.1. IDEA DI REALIZZAZIONE

49

di lunghezza w (in genere di 3 aminoacidi o 12 nucleotidi) che rappresentano uno dei cardini sui quali si fonda lalgoritrmo di BLAST. Il numero totale di words presenti in una sequenza da sottoporre a confronto, risulta essere: n=lw+1 ove w ` il numero degli aminoacidi che compongono una word ed l ` la e e lunghezza della sequenza in esame. Per ogni word della sequenza da esaminare viene costruita una lista di possibili word che, se confrontate con la sequenza in questione, abbiano un punteggio superiore ad un valore-soglia T (compreso fra 11 e 15), calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame e in base alla matrice di sostituzione utilizzata (normalmente PAM 120 [20] o BLOSUM 62 [30]). A tale scopo si usa una equazione ad hoc che considera i parametri H (entropia del target), e lambda (unit` di informazione a guadagnata per un allineamento). Questultimo ` funzione della matrice di e sostituzione. Le matrici di sostituzione assegnano un punteggio positivo per ogni identit` o per una sostituzione con aminoacidi dello stesso tipo (idrofobici con a idrofobici, carichi positivamente con carichi positivamente ecc...) e negativo per una sostituzione con aminoacidi fra loro diversi (es. aminoacido basico con aminoacido acido ecc..). Tali matrici inoltre assegnano punteggi positivi di dierente entit` a seconda che gli aminoacidi coinvolti siano rari o frequenti. a In questo secondo caso infatti si pu` pensare che lomologia sia casuale. o Nel caso dei nucleotidi (BLASTN) il punteggio ` di pi` semplice value u tazione: viene assegnato un punteggio di +5 ad una identit` di residui e di a -4 per una mancata identit`. Dati questi presupposti, si ` visto che la coma e binazione che ` il miglior compromesso fra sensibilit`, specicit` del metodo e a a e velocit` di esecuzione del confronto fra le sequenze, ` quella con w =3 e a e T =11-15. Utilizzando questi valori, si ottengono delle liste di circa 50 words

50

CAPITOLO 3. PROGETTO E METODOLOGIE

di confronto denominate neighbors per ogni word della sequenza da testare, cio` circa 12500 word nel caso di una sequenza di 250 aminoacidi. Questo dato e ` ben diverso dalle 203 combinazioni possibili (per w = 3) per ciascuna word e della sequenza da testare, che sarebbero necessarie se non venisse eettuata questa preselezione.

La scansione del database In questa fase ciascuna delle word della lista compilata viene confrontata con il database delle sequenze. Quando viene riscontrata una corrispondenza (hit), essa viene estesa a monte e a valle per vedere se ` possibile denire un tratto e di sequenza in grado di raggiungere un punteggio superiore ad un valore-soglia detto S. Tale valore S, ` funzione di un altro valore, detto E, che ` il numero e e atteso (Expected) di tratti di sequenza casualmente omologhi, aventi punteggio superiore a S. Come detto, c` una relazione tra E ed S : tanto pi` elevato ` e u e E, tanto minore diventa S, per cui aumenta la sensibilit` del risultato, ma si a riduce in ugual misura la specicit` del metodo. Per un dato valore di E, una a certa matrice di sostituzione ed una certa sequenza da esaminare, S assume valori dierenti a seconda dellampiezza del database con il quale si eettua il confronto. Pertanto, per normalizzare la situazione ` stato introdotto un e ulteriore parametro denominato Z. I tratti di sequenza omologhi aventi un punteggio (score) superiore al valoresoglia S, vengono denominati HSP (High Score Segment Pair). Essi possono essere anche pi` di uno allinterno di una medesima sequenza e deniscono u una zona locale di omologia. Un particolare tipo di HSP ` il cosiddetto MSP e (Maximal Segment Pair). Con questo termine si denisce la coppia di segmenti di identica lunghezza (presenti nelle sequenze confrontate) avente il punteggio pi` elevato. In sostanza lMSP ` lHSP a punteggio massimo. u e

3.1. IDEA DI REALIZZAZIONE

51

Estensione delle hit Si prosegue lestensione del segmento di omologia in entrambe le direzioni no a che si raggiunge un abbassamento del punteggio di tale segmento al di sotto di un certo valore ottenibile con sequenze pi` corte. Una coppia di segmenti u viene denita essere localmente massimale qualora sia una sua estensione che un suo accorciamento non ne migliorino il punteggio.

Valutazione statistica dei risultati Innanzitutto va denito l E - value, ovvero il numero di sequenze che ci si aspetterebbe di recuperare se il database fosse composto da sequenze casuali, ` inuenzato principalmente dal numero di sequenze presenti nel db e dalla e lunghezza della sequenza query. Il punteggio degli HSP gode della propriet` a di poter essere analizzato statisticamente [31]. A questo scopo viene utilizzata la distribuzione di Poisson. Nelloutput di BLAST compare infatti un valore P che rappresenta la probabilit` che il punteggio di tali HSP denisca una a similarit` casuale: P = 1 eE . Tanto pi` piccolo ` questo valore, tanto a u e maggiore ` la probabilit` che non si tratti di pura casualit`. e a a

Caratteristiche Rappresenta lo strumento standard, utilizzato per allineamenti locali ed ` e veloce in quanto pu` essere eseguito in locale o online. o

Lutilizzo di BLAST nel tool Vediamo come si compone la sintassi di un comando BLAST blastall -p blastn -i file.fasta -b 500 -e 100 -W 7 -F F -q -1 -G 1 -d refseqDB.fna -o outputFile

52

CAPITOLO 3. PROGETTO E METODOLOGIE

-p indica il tipo di BLAST da utilizzare, nel nostro caso BLASTN (ricerca su nucleotidi); -i indica il nome del le in ingresso che verr` utilizzato come query; a -b ` il numero delle sequenze che verranno mostrate nelloutput; e -e indica il valore massimo dell E-value; -W word size; -F applica o meno un ltraggio delle sequenze; -q indica la penalit` da applicare per mismatch; a -G indica il costo da applicare per GAP; -d le database; -o le di output; Come ricordiamo il design Center della Dharmacon permette di eettuare il BLAST durante il suo processo di ricerca, ma si ` preferito eettuarlo in locale e per avere un maggiore controllo sul processo, utilizzando come database le RefSeq umane aggiornate periodicamente, e avendo la possibilit` di variare i a numerosi parametri impostabili nella ricerca di omologie.

3.1.3

Perl

La prima versione di questo linguaggio ` stata resa disponibile nel 1987. P.E.R.L. e ` lacronimo di Practical Extraction and Report Language o se si preferisce e Pathologically Eclectic Rubbish Lister ; non si sa quale delle due denizioni sia la pi` esatta, entrambe sono state dettate direttamente da Larry Wall, u autore, mantenitore e implementatore di questo linguaggio. Perl nasce come un linguaggio interpretato orientato alla gestione di le di testo. Il modo pi` u semplice per descriverlo ` riportare ci` che ci restituisce il comando e o

3.1. IDEA DI REALIZZAZIONE

53

man perl in ambiente unix e leggere quanto scrive Wall: Il Perl ` un linguaggio interpretato ottimizzato per la scansione e di le di testo arbitrari, lestrazione di informazioni da questi le di testo e la stampa di report basati su queste informazioni. E anche un buon linguaggio per molti lavori di manutenzione di sistema. Il linguaggio ` pensato per essere pratico (facile e da usare, eciente e completo) e non per essere bello (piccolo, elegante, minimale). Supporta sia la programmazione object-oriented che quella procedurale e pu` o integrare funzioni aggiuntive grazie ad unampia variet` di moduli e librerie a reperibili su www.cpan.org, un database online ben documentato e costruito dalla comunit` formata dai programmatori di Perl. Per essere precisi, Perl ` a e un linguaggio di scripting, ovvero ` membro di una famiglia di linguaggi di cui e fanno parte Tcl, Python, Rexx, i vari linguaggi di programmazione della shell in ambito unix e, pi` recentemente Ruby. La denizione linguaggio di scripting u implica, quasi come riesso condizionato, una distinzione e quasi un contrasto con i linguaggi di system programming quali C, C++, Java, Delphi, Fortran, etc. La distinzione tra questi due gruppi di linguaggi non ` riconducibile a un e singolo fattore, quale per esempio, come spesso viene aermato, la natura interpretata, piuttosto che compilata, del processo di generazione del codice. Tale dierenza esiste ma, oltre a essere discutibile per quanto concerne la sua nitidezza in unottica tecnica, ` certamente fuorviante. Si potrebbero elencare e molte altre distinzioni, ma certamente quella che, pur non essendo la sola, ha maggiore potere risolutore nella separazione delle due classi di linguaggi ` quella che denota la posizione assunta dal linguaggio nella scelta tra due e obiettivi in sostanza mutuamente irriducibili: massimizzazione della ecienza nella esecuzione del codice da parte del calcolatore oppure massimizzazione della ecienza del programmatore nello sviluppo del codice.

54

CAPITOLO 3. PROGETTO E METODOLOGIE

I linguaggi di scripting si pongono decisamente dalla parte di chi sviluppa codice implementando un insieme di caratteristiche che, in breve, liberano il programmatore dalla necessit` di scrivere codice per la gestione delle risorse a che il programma consuma assumendosene interamente lonere relativo. Esempi non esaustivi di tale gestione includono la gestione della allocazione e della disallocazione della memoria, la gestione della garbage collection, la gestione automatica della conversione tra i tipi, la gestione degli errori, la inizializzazione e la chiusura del programma e cos` via. Si noti che tale gestione non solamente consuma tempo; non solamente signica generare codice soggetto come tale ad essere origine di errori particolarmente insidiosi; ma comporta linvestimento di un tempo dedicato a compiti che distolgono completamente dalla soluzione del problema. Bench` il Perl sia stato una delle grandi novit` nel campo della programe a mazione, il giudizio su di esso da parte della comunit` di programmatori ` a e vario: da un lato viene giudicato negativamente per il fatto che facilita la scrittura di programmi dicili da leggere e quindi rendendo complicata la loro manutenzione (al punto che il nome del linguaggio ` stato reinterpretato come e Pathologically Eclectic Rubbish Lister), dallaltro viene apprezzato per la facilit` di scrivere programmi potenti ma semplici, per la libert` semantica che a a lascia al programmatore al punto che non c` un unico modo di fare le cose ` e e uno dei modi di dire legati a Perl. Wall, che per formazione ` un linguista, e ritiene questa libert` semantica un pregio, in quanto pi` simile al linguaggio a u umano. Altre caratteristiche importanti di Perl sono: le variabili di default che sono denite per molte funzioni e operatori builtin del perl; la sensibilit` del contesto negli assegnamenti, dove Perl sa riconoscere a cosa restituire in base al left value; le espressioni regolari, che permettono la ricerca e la sostituzione di stringhe di testo descritte con caratteri speciali, sono una sorta di lin-

3.1. IDEA DI REALIZZAZIONE

55

guaggio interno al Perl e deniscono un pattern che verr` cercato; sono a sicuramente tra le migliori caratteristiche di questo linguaggio. le chiusure, ovvero subroutine anonime che conservano un riferimento persistente a variabili lessicali non pi` visibili; u la possibilit` di applicare paradigmi di programmazione diversi, come a quello funzionale o quello ad oggetti. Alcune peculiarit` del Perl, tra cui la sintassi, permettono una sintesi raraa mente possibile con altri linguaggi e i sorgenti possono dunque essere molto densi di signicato, tanto da risultare criptici a chi non ne conosca i rudimenti. In compenso su Internet c` cos` tanta documentazione sul Perl che ` possie e bile avvicinarsi rapidamente al linguaggio e con opportuni testi di riferimento iniziarne la strada dellapprendimento. Il linguaggio e linterprete vengono sviluppati da un gruppo di circa cento sviluppatori, guidati da Wall, il quale prende le decisioni nali su cosa includere nel codice. Gli sviluppatori hanno creato il Perl Institute per facilitare lo sviluppo di Perl e migliorarne la visibilit` organizzando conferenze. Wall stesso a lavora per la OReilly, una casa editrice che sostiene attivamente il movimento Open Source. Moduli di espansione Un altro vanto di Perl ` la possibilit` di aumentare in modo decisamente e a ecace lautomazione di determinate procedure, grazie allutilizzo di package creati dalla comunit` e disponibili gratuitamente su www.cpan.org. CPAN ` a e lacronimo di Comprehnsive Perl Archive Network. Si tratta di un archivio, organizzato per argomenti, di moduli Perl, creato da J.Hietaniemi e A.Knig o ed ` online dal 26 ottobre 1995. Ad oggi, luglio 2009, il database contiene e oltre 5.6 Gbyte di packages, sviluppati da 7500 autori diversi arrivando ad un numero complessivo di poco pi` di 16000 moduli. Per svilluppare il tool ho u utilizzato i seguenti pacchetti:

56

CAPITOLO 3. PROGETTO E METODOLOGIE

WWW::Mechanize che permette di simulare un browser internet, navigando tra le pagine e salvandone eventualmente la sorgente HTML, compilare e inviare form di ricerca. Mantiene inoltre uno storico dei link visitati. HTML::TableExtract che d` la possibilit` di estrarre da un documena a to HTML i dati contenuti in tabelle. IO-Zlib utilizzato per poter leggere e scrivere direttamente le compressi senza procedere a una preliminare compressione. File::Path grazie al quale sono riuscito a manipolare cartelle e le per poter organizzare i risultati in modo ordinato e facilmente accessibile allutilizzatore nale. Lutilizzo di Perl nel tool Il linguaggio Perl ` lo strumento principale che mi ha permesso di automatize zare ogni singola procedura a partire dallo scaricamento e preparazione dellultima versione aggiornata del database RefSeq, no ad arrivare alla estrazione e manipolazione dei risultati ottenuti dal siDesign Center di Dharmacon. Dividendo lo script in tre passi ho potuto delineare meglio le principali funzioni del software.

3.1.4

Foglio di Calcolo

Lo strumento principale con il quale lutilizzatore ultimo, ovvero il ricercatore, analizzer` i risultati ottenuti ` un strumento software di tipo foglio di calcolo; a e nel nostro caso il tutto ` stato ottimizzato per lavorare con Excel del pacchetto e Microsoft Oce. Questi tipi di software sono nati dallesigenza di organizzare insiemi di dati tramite tabelle, schemi e graci, e di eettuare calcoli di natura molto semplice. Solitamente vengono utilizzati per lautomazione di procedure di contabilit` e di gestione aziendale. I dati di un foglio elettronico vengono a

3.1. IDEA DI REALIZZAZIONE

57

disposti in uno spazio tridimensionale costituito da un numero determinato di righe, colonne, e pagine. Gli elementi del foglio si dicono celle, un insieme di pagine forma una cartella di lavoro. Le funzionalit` principali sono riassumibili in questo modo: a organizzare basi di dati semplicate; eettuare calcoli ed analisi sui dati esistenti; aggiornare automaticamente i risultati delle analisi ad ogni modica dei dati; formattare i dati e i risultati per la stampa; riorganizzare i dati in dierenti formati (es. graci); Nel caso di Excel c` un grande vantaggio rispetto agli altri fogli elettronici, e ossia la possibilit` di registrare azioni e salvarle come macro. a Le macro in Excel La macro ` un programma, scritto o registrato, in cui ` memorizzata una serie e e di comandi di Microsoft Excel, utilizzabile successivamente come un singolo comando. Le macro consentono di automatizzare attivit` complesse e ripetitive, a vengono registrate nel linguaggio di programmazione Microsoft visual Basic, Application Edition, ma ` anche possibile scriverle utilizzando direttamente e Visual Basic Editor. Lutilizzo di Excel nel tool Dovendo utilizzare un visualizzatore per lambiente Windows che permettesse di migliorare la visibilit` e la leggibilit` dei risultati, la mia scelta ` caduta su a a e Excel, grazie anche alla capacit` di registare azioni ripetute come ladattamena to in larghezza delle colonne al contenuto. Ho poi, dopo una breve infarinatura

58

CAPITOLO 3. PROGETTO E METODOLOGIE

di Visual Basic, modicato la macro per poter applicare colorazioni dierenti alle liste dei diversi candidati.

3.1.5

Protocollo SSH

Secure Shell (SSH) ` un protocollo di comunicazione nato per rimpiazzare i e comandi Berkeley (rsh, rlogin, rcp) con le rispettive versioni sicure (ssh, slogin, scp), consente il collegamento in modalit` remota. Il protocollo Secure Shell a venne sviluppato per la prima volta nel 1995 dal ricercatore nlandese Tatu Ylnen presso luniversit` nlandese di Helsinki, dopo essere stato vittima di o a vari attacchi durante alcune sessioni tramite Telnet. A dierenza di rlogin o telnet, SSH cripta la sessione di login, impedendo alle persone non autorizzate di raccogliere le password in chiaro. SSH [27] ` nato per sostituire i metodi e tradizionali di collegamento in modo remoto ad altri sistemi mediante la shell. Un programma chiamato scp sostituisce i programmi meno recenti per copiare i le tra host, quali ftp o rcp. Dato che queste applicazioni non cifrano le password tra il client e il server, si consiglia di utilizzarle il meno possibile. Nel protocollo SSH il computer client avvia una connessione con il computer server. SSH fornisce le seguenti misure di protezione: Dopo una connessione iniziale, il client verica di collegarsi allo stesso server durante sessioni successive; Il client trasmette le proprie informazioni di autenticazione al server, per esempio il nome utente e la password, in forma cifrata; Tutti i dati inviati e ricevuti durante la connessione vengono trasferiti utilizzando una cifratura a 128 bit. In questo modo ` estremamente e complesso decifrarli e leggerli; Il client pu` utilizzare le applicazioni X11(ambiente graco) avviate dal o prompt della shell. Questa tecnica, chiamata X11 forwarding, fornisce uninterfaccia graca e sicura;

3.1. IDEA DI REALIZZAZIONE

59

Dato che il protocollo SSH cifra tutto ci` che invia e riceve, pu` essere o o usato per cifrare dei protocolli che altrimenti non sarebbero sicuri. Se usate il port forwarding, potete utilizzare un server SSH per cifrare protocolli non sicuri, come POP, aumentando la sicurezza dei dati e del sistema in generale. Molti programmi client e server possono utilizzare il protocollo SSH. Esistono varie versioni del client SSH per quasi tutti i maggiori sistemi operativi in uso. Tra i pericoli che minacciano il traco di rete vi sono la rilevazione dei pacchetti, falsi DNS e IP e la diusione di informazioni di instradamento non vere. In generale queste minacce possono essere raggruppate in due categorie: Intercettazione delle comunicazioni tra due sistemi : questo scenario prevede lesistenza di una terza parte in qualche punto della rete tra le due entit` in comunicazione. Questa terza parte esegue una copia delle infora mazioni trasmesse tra i due sistemi, per conservarle o inviarle modicate al destinatario originale. Imitazione di un host particolare: con questa strategia, un sistema intercettante nge di essere il destinatario di un messaggio. Se la strategia funziona, il client non si accorge dellinganno e continua a comunicare con il sistema intercettante come se il proprio traco raggiungesse con successo la destinazione desiderata. Entrambe le tecniche descritte sopra consentono lintercettazione delle informazioni. Se SSH ` usato per i login con la shell remota e per la copia e dei le, le minacce alla sicurezza si riducono notevolmente. La rma digitale di un server fornisce la verica dellidentit`. La comunicazione tra i sistemi a client e server non pu` essere utilizzata, se intercettata, perch ogni pacchetto o e ` cifrato. I tentativi di assumere lidentit` di uno dei due sistemi comunicanti e a non funzioneranno, poich ogni pacchetto ` cifrato con un codice conosciuto e e solo dai sistemi locali e remoti.

60

CAPITOLO 3. PROGETTO E METODOLOGIE

Lutilizzo di SSH nel tool Per poter agevolare lutilizzo dellapplicativo implementato da parte dei ricercatori, normalmente operanti su macchine Windows, si ` pensato di creare e una connessione sicura con SSH tra i singoli computer e il server Unix, che permetta una maggiore sicurezza nel trasferimento interno dei dati e al contempo fornisca uno strumento di semplice utilizzo dal lato Windows. E stato ideato un ambiente condiviso tra le varie macchine e il server. Ogni utente pu` richiedere al server lesecuzione del procedimento di ricerca e ltraggio e o ottenere i risultati in uno spazio personale. Provvedendo poi a fornire su ogni macchina Windows un le batch 2 , che permette lesecuzione del tool sul server, non si rendono necessarie ulteriori conoscenze sul funzionamento dellintero processo.

Il le batch viene eseguito dallinterprete dei comandi, in ambiente Windows, mandando

in esecuzione, secondo la sequenza specicata, i comandi elencati nel le.

Capitolo 4 Implementazione
4.1 Realizzazione dellapplicativo

Come ` stato accennato nel capitolo precedente, grazie allutilizzo di Perl, e sono riuscito a creare uno strumento in grado di automatizzare la procedura di ricerca ed estrazione dei candidati siRNA, forniti dalla risorsa web Dharmacon, per ogni gene query. Successivamente ` stato eseguito un ltraggio dei tanti e risultati ottenuti creando un sistema esperto. Andiamo a vedere in dettaglio la struttura del tool Perl. Partendo da un le elenco (gura 4.1a), contenente una lista di geni, si arriva alla prima parte del tool che legge la lista, interroga la risorsa web Dharmacon (gura 4.1b) e interpreta i risultati ottenuti (gura 4.1c). A questo punto crea per ogni gene una cartella contenente un le, opportunamente compilato in formato FASTA, con i candidati ottenuti precedentemente (gura 4.1d). La seconda parte del tool carica i parametri presenti nel le di congurazione (gura 4.1f), se richiesto aggiorna il database delle RefSeq (gura 4.1g1) e inne lancia il software BLAST passandogli in ingresso i risultati Dharmacon in formato FASTA (gura 4.1g2). Il BLAST viene impostato per creare i propri output nelle cartelle create (gura 4.1h). Lultima parte di tool si occupa di interpretare i le appena generati e di ordinarli in base a linee guida scelte in accordo coi ricercatori (gura 4.1j).

61

62

CAPITOLO 4. IMPLEMENTAZIONE

Il foglio elettronico, con laggiunta di opzioni precaricate (macro), si occupa di una ottimale visualizzazione dei risultati nali.

Figura 4.1: Diagramma del lavoro di tesi, le lettere indicano in ordine crescente la linea temporale dei passaggi.

4.1. REALIZZAZIONE DELLAPPLICATIVO

63

4.1.1

Passo1.pl

Questo ` lo script che si occupa del lavoro online, ovvero avvalendosi di una e connessione a internet e grazie alla libreria Mechanize simula un browser che, partendo dalla pagina iniziale del sito Dharmacon, arriva al siDesign Center per permettere linserimento dei dati e parametri di ricerca. Prima ancora di eettuare la connessione, eettua il salvataggio in una variabile della lista di geni, sottoforma di le di testo: NM_001237 NM_000454 NM_145117 NM_003418 passatogli da linea di comando in questo modo: perl passo1.pl fileElencoGeni Successivamente crea quindi una cartella con il nome dir leElencoGeni contenente sottocartelle corrispondenti ai geni ricercati. D` la possibilt` di riscria a vere la cartella o di rinominarla nel caso vengano fatte pi` prove sullo stesso u le elenco. A questo punto viene iniziato un ciclo che, per ogni gene, si occupa di navigare le pagine del sito Dharmacon, raggiungere la pagina di design, inserire lAccesion Number contenuto nel le elenco, compilare il form di ricerca inserendo i parametri visti nel capitolo 2 e avviare la ricerca. Questo passaggio che per un utente umano si compone di pochi click, ` in realt` un e a complesso gioco di codici che variano ogni volta che la pagina viene ricaricata e che, per questo rendono ardua lautomatizzazione della procedura. Viene quindi salvato in una variabile il codice html sorgente di ogni pagina in modo da poter essere analizzato e modicato per le successive richieste da inviare al server. Successivamente allinvio della query di ricerca:

64

CAPITOLO 4. IMPLEMENTAZIONE

$mech->submit_form ( form_name => aspnetForm, fields => { $state1 => $codice1, $tendina => Accession Number, $query1 => "$gene", $min => 30, $max => 64, $blast => NoBlast} ); $valorf = $mech->value($orf); $mech->tick($orf,$valorf); $mech->tick($utr3,"on"); $mech->click_button (name => $button); #$

la risorsa web Dharmacon ridireziona il browser su alcune pagine di attesa, necessarie allalgoritmo per eettuare la ricerca e la produzione di 50 candidati siRNA. In questa fase ho dovuto utilizzare alcuni stratagemmi per riuscire ad ottenere la pagina dei risultati. Innanzitutto ho calcolato unattesa media di una decina di secondi facilmente simulabile con il comando:

sleep 10;

poi grazie ad alcuni strumenti quali Firebug (gura 4.2), un plugin del noto browser Firefox che mostra in tempo reale il comportamento della pagina internet, ho potuto analizzare la sequenza di richieste che venivano fatte al server e ho compreso che viene reinviato un nuvo form.

4.1. REALIZZAZIONE DELLAPPLICATIVO

65

Figura 4.2: Analisi in tempo reale della richiesta di tipo post al server Dharmacon monitorata da Firebug.

Allinterno di questultimo viene inserito un nuovo campo, formato da un lunghissimo codice alfanumerico, generato dal server in maniera apparentemente casuale ad ogni refresh della pagina. Grazie alle potenzialit` del paca chetto Mechanize, ho previsto un salvataggio del sopracitato codice e un immediato inserimento nel form di ricerca. Nel caso in cui ci fossero errori nella connessione ho previsto un automatica attesa di sicurezza e un conseguente reinvio della procedura di ricerca. Se tutto funziona secondo quanto previsto si ottiene la pagina contenente i candidati siRNA salvata in una variabile interna. Per ogni gene esiste quindi una pagina di risultati dalla quale viene estratta con lausilio del pacchetto Table-Extract un oggetto contenente i campi di interesse contenuti nella tabella dei candidati.

foreach my $table ($te->tables) { print "--> trovata tabella\n"; foreach my $row ($table->rows) { my $seq = sequence($row->[1]); my $region = region($row->[2]); my $start = start($row->[3]); my $GC = gc($row->[4]); my $score = score($row->[5]);

66

CAPITOLO 4. IMPLEMENTAZIONE

A questo punto vengono creati nuovi le sia in formato .txt che .fasta, il primo contiene tutte le informazioni presenti nella lista dei candidati e quindi: sequenza di 19 basi nucelotidiche; regione di appartenenza (ORF o 3 UTR); posizione di partenza nel gene; score Dharmacon mentre il secondo esclusivamente le sequenze in formato FASTA pronte per essere utilizzate da BLAST.

4.1.2

Passo2.pl

Il secondo script ha il principale compito di eettuare il blast dei candidati ricavati dal sito Dharmacon sul database delle RefSeq. In dettaglio viene precaricato un le di congurazione che prevede la possibilit` di variare alcuni a parametri del software BLASTN. Il pi` utilizzato ` sicuramente lE-value che u e caratterizza e molto, come vedremo nellultimo paragrafo, i risultati ottenuti. Successivamente viene fatto un controllo del sistema operativo e, a seconda che ci si trovi su un sistema Linux o Windows, lo script agisce di conseguenza, a patto che sia installato il pacchetto blastall. E lo stesso BLASTN che, come ricordiamo, va a salvare i propri risultati esattamente dove gli viene indicato e quindi nella cartella di ogni singolo gene.
if ($^O = "linux") # controllo su sistema operativo { if (system(" blastall -p blastn -i $finali -b 250 -e ... ")) {} else {print "$@\n"} } elsif($^O = "MSWin32") {system(" ../wblast/bin/blastall.exe -p blastn -... human.rna.fna -o $blastn ")} 1 -d db/human.rna.fna -o $blastn

4.1. REALIZZAZIONE DELLAPPLICATIVO

67

4.1.3

Loutput di Blast

Come possiamo osservare in gura 4.3 BLAST restituisce un le di testo contenente una lista per ogni candidato siRNA presente nel le elenco; nel nostro caso quindi trenta liste, avendo deciso, daccordo coi ricercatori, di tenere solo i primi trenta risultati dei cinquanta forniti da Dharmacon. Allinizio di ogni lista viene posto un elenco sommario dei risultati con i relativi Subject (nome intero del gene comprensivo di codici identicativi), lo Score assegnato e lE-value in base al quale sono ordinate le sequenze.

Figura 4.3: Parte iniziale del le di output di BLAST.

Il particolare visibile in gura 4.4 rappresenta un esempio di come viene mostrato ogni singolo risultato di BLAST. Le prime righe successive al simbolo > indicano il codice identicativo seguito dallAccession Number compreso tra barre e successivamente il nome intero del gene (gura 4.4a). Nelle righe

68

CAPITOLO 4. IMPLEMENTAZIONE

successive abbiamo lE-value(gura 4.4b), il rapporto tra basi allineate (gura 4.4c) denito Identities e lo Strand (gura 4.4d) che se, come in questo caso ` Plus-Minus, indica la sequenza antisenso, da noi successivamente scartata. e In seguito notiamo la parte principale, ovvero lallineamento composto dalla sequenza query (gura 4.4e) e dal frammento di gene in questione (gura 4.4f). Tra le due righe notiamo una serie di barrette che indicano con la loro presenza lesatto match della base soprastante con quella sottostante.

Figura 4.4: Particolare del le di output di BLAST.

4.1. REALIZZAZIONE DELLAPPLICATIVO

69

4.1.4

Passo3.pl

Il terzo script ` sicuramente il pi` importante in termini di utilizzazione nale, e u in quanto estrae dal le output di BLAST ogni sequenza con le relative caratteristiche. Come per le precedenti parti di codice, il comando viene lanciato passando la cartella contenente i le in questo modo: perl passo3.pl dir_fileElencoGeni Dopo i controlli su directory e le, per assicurarsi che tutto sia nella norma, viene identicato come codice query originale lAccession Number utilizzato per rinominare ogni cartella creata. Per ogni codice di accesso viene aperto il rispettivo le di output di BLAST. Per dividere le trenta liste presenti nel le ho utilizzato questo utilissimo comando in modo da poter analizzare con un ciclo ogni singola lista:
@split_blast = split (BLASTN, $testo); #$ split in base alla parola BLASTN

Successivamente viene eettuata una nuova divisione in base al simbolo >, scartando il primo elemento che rappresenta il sommario visto in gura 4.3. Dopo ogni > viene quindi salvato in una variabile temporanea la caratterizzazione della sequenza blastata (gura 4.4). Attraverso lutilizzo di subroutine (funzioni richiamabili in qualsiasi punto del codice) sono riuscito ad estrarre tutte le informazioni necessarie:
# ricerca del codice da confrontare con loriginale sub code { return ($_[0] =~ /^gi\|\d{6,9}\|re...6,9})\.\d\|/ ? $1 : ) }; # ricerca dellexpectation value sub expect { if ($_[0] =~ /Expect\s=\s\s*\s*\s*(\d\.*\d\d*)\n/) { $_ = $1; s/\./\,/g; $e = $_; } return ($e) }; # ricerca delle identities sub ident { return ($_[0] =~ /Identities...d{2,3}\%\))/ ? $1 : ) }; # ricerca del Plus\Plus Plus\Minus sub strand { return ($_[0] =~ /Strand\s...lus\s*\/\s*\w{4,5})/ ? $1 : ) };

In queste funzioni ho fatto un uso massiccio delle espressioni regolari per poter ricercare ogni singolo parametro visto in (gura 4.4). Va ricordato, per`, che o

70

CAPITOLO 4. IMPLEMENTAZIONE

allinterno di uno stesso gene c` la possibilit` di trovare pi` corrispondenze e a u (match) e si ` quindi reso necessario dividere ulteriormente le due o pi` sequene u ze allineate. Per poter fornire in fase di visualizzazione la sequenza allineata, con le relative dierenze (mismatch) e GAP, si ` deciso di mantenere la see quenza in lettere minuscole, le dierenze con lettere maiuscole e i GAP con il simbolo underscore. Questo passaggio ` stato arontato come segue: e lettura della sequenza query lettura della sequenza allineata lettura indice inizio query e match salvataggio barrette lettura indice ne query e match creazione di un vettore contenente le singole basi della query creazione di un vettore contenente le singole basi del match Questo procedimento ` fondamentale perch` BLAST, nel caso in cui il match e e non sia fatto su tutte e 19 le basi della sequenza query, tralascia le basi circostanti. Si ` quindi reso necessario fare questo controllo e, per ogni sequenza e con indici di inizio e ne diversi rispettivamente da 1 e 19 e match inferiore al 100%, vengono sfruttate le barrette per ricostruire la sequenza completa inserendo i GAP dove necessario. Ecco una parte del codice:
# lo esegue solamente se la seq query non inizia con 1 for ($z=$start2; $z>=0; $z--) { $query = $b[$z].$query; # attacco allinizio le basi mancanti $match = "\_".$match; # attacco allinizio degli spazi $barrette = " ".$barrette } # condizione per la quale mancano delle basi alla fine di query e match if ($endq < 19) {

4.1. REALIZZAZIONE DELLAPPLICATIVO

71

for ($l=$endq; $l<19; $l++) { $query = $query.$b[$l]; # attacco alla fine le basi mancanti $match = $match."\_"; # attacco alla fine gli spazi mancanti $barrette = $barrette." "; #$ } }

Ricreata la sequenza in modo da migliorare la leggibilit` del documento nale, a viene eettuato un controllo sullo Strand che ricordiamo pu` essere Pluso Plus o Plus-Minus. Si ` deciso di scartare il secondo in quanto indica il match e con una sequenze antisenso.

4.1.5

La scelta dello Score

Una volta ricreato il le di risultati per migliorarne la leggibilit` rispetto al pi` a u complesso output di BLAST, abbiamo deciso, accordandoci coi ricercatori, di trovare un punteggio, denito Bont`, per ordinare i singoli candidati e quindi a le 30 liste corrispondenti. La base di questa attribuzione ` unosservazione e eettuata dai ricercatori e derivata da una consistente esperienza sul campo. Si ` notato che c` una stretta correlazione tra la potenzialit` di silenziamento e e e a la presenza di mismatch nelle ultime 8 basi delle sequenze risultanti dal BLAST rispetto alla sequenza candidata Dharmacon. Per questo ` stato denito un e campo Code che attribuisce un valore dierente a seconda del numero di basi che non corrispondono alloriginale. Vengono quindi ordinati, dal migliore al peggiore, in base al numero crescente di basi dierenti. In seguito, a seconda della presenza o assenza di migliori o peggiori ` stata denita la Bont` e, e a grazie a una routine di ordinamento, sono stati preparati i risultati in ordine decrescente a seconda proprio di questo campo, tenendo conto a parit` di a migliore il peggiore successivo.

72

CAPITOLO 4. IMPLEMENTAZIONE

Criteri di attribuizione dei parametri In primis sono state catalogate tutte le sequenze adandosi alle ultime 8 basi della sequenza matchata, la chiave di volta per ottenere un maggior silenziamento in fase sperimentale. r indica la sequenza di riferimento contenente le informazioni generali i indica il gene di partenza ma in una diversa isoforma q indica il gene query 1 le ultime 8 basi non corrispondono alloriginale (1-2 match) 2 le ultime 8 basi non corrispondono alloriginale (3-5 match) 3 le ultime 8 basi non corrispondono alloriginale (6-8 match) 4 ultime 8 basi identiche con percentuale di match inferiore al 70% 5 sequenze restanti In seguito a seconda della presenza o assenza dei codici sopracitati si ` arrivati e a denire le Bont` come segue: a 10 se ho solo lidentit` e sue eventuali isoforme a 9 se ho solo identit`, isoforme e sequenze con ultime 8 basi dierenti (1-2 a mismatch) 8 se ho solo identit`, isoforme e sequenze con ultime 8 basi dierenti (3-5 a mismatch) 7 se ho solo identit`, isoforme e sequenze con ultime 8 basi dierenti (6-8 a mismatch) 5 se ho solo identit`, isoforme, sequenze con ultime 8 basi uguali e % di a match < 70

4.1. REALIZZAZIONE DELLAPPLICATIVO

73

3 se ho altri tipi di sequenze in aggiunta alle precedenti Il parametro Bont` funziona quindi come un vero e proprio ltro permeta tendo una prima scrematura dei risultati. Notiamo in gura 4.5a/b come a seconda del criteri deniti viene assegnato un diverso valore alla Bont`. a

Figura 4.5: Particolare del le di output di BLAST.

Abbiamo notato successivamente una considerevole alterazione dei risultati, e di conseguenza dei punteggi attribuiti, al variare del parametro E-value. Modicando questo parametro si permette di fatto di tagliare le liste in modo molto netto (gura 4.6). LE-value ricordiamo ` il numero di sequenze che e ci si aspetterebbe di recuperare se il database fosse composto da sequenze casuali, di conseguenza pi` ` basso e migliore ` il nostro candidato. Ho notato ue e che BLAST tende a denire dei valori ben precisi di questo parametro, come si pu` facilmente notare dalla gura 4.6. Non esiste quindi la possibilit` di o a limitare lE-value ad un valore intermedio tra il 72 e il 199 o tra il 199 e il 522. Questo fa si che superate queste soglie venga inserito un alto numero

74

CAPITOLO 4. IMPLEMENTAZIONE

di nuovi candidati. La dierenza principale sta nellordinamento successivo del le di risultati, nel quale leBont` vengono assegnate in modo totalmente a dierente e, proprio per il numero elevato di sequenze matchate, scompaiono le assegnazioni migliori.

Figura 4.6: Output di Blast modicato per visualizzare lelenco con dierenti E-value.

In gura 4.7 ` presentato un esempio di le di output del tool del gene con e Accession Number NM 145117, lE-value ` impostato a 100 e la sequenza e che ha ottenuto il miglior punteggio ` il numero 16 seguito dal numero 23. e Rieseguendo la procedura di BLAST sui medesimi candidati del gene sopracitato, ma impostando un E-value di 1000 ottengo al primo posto il numero 26 (gura 4.8) e una lista di sequenze allineate decisamente pi` estesa. In base a u queste osservazioni ` stato impostato come valore di default per lExpectation e value 100. Grazie a questo ordinamento il ricercatore nota subito quali sono i migliori candidati.

4.1. REALIZZAZIONE DELLAPPLICATIVO

75

Figura 4.7: File di output del tool con E-value= 100 e macro applicate.

Figura 4.8: File di output del tool con E-value = 1000 e macro applicate.

76

CAPITOLO 4. IMPLEMENTAZIONE

sub ordinaHash { $val = $ordine{$b}->{bonta} <=> $ordine{$a}->{bonta}; if ($val==0) { $val = $ordine{$a}->{cinqui} <=> $ordine{$b}->{cinqui}; if ($val==0) { $val = $ordine{$a}->{quattri} <=> $ordine{$b}->{quattri}; if ($val==0) { $val = $ordine{$a}->{tre} <=> $ordine{$b}->{tre}; if ($val==0) { $val = $ordine{$a}->{due} <=> $ordine{$b}->{due}; if ($val==0) { $val = $ordine{$a}->{uni} <=> $ordine{$b}->{uni}; } } } } } return $val;

4.1.6

Sviluppo delle Macro

Come abbiamo accennato nel capitolo precedente le macro permettono di registrare operazioni e ripeterle in qualsiasi momento. Inizialmente ho quindi impostato, registrando le mie azioni, la larghezza ottimale delle colonne, applicato il carattere Courier New(questo font ` tra i pochi ad avere ogni e carattere della stessa larghezza e quindi ottimale per confrontare sequenze sulla stessa colonna come nel nostro caso) alla sequenza e colorato la riga del titolo. In questa occasione il codice ` quindi stato creato automaticamente e dalleditor Microsoft. Per poter attribuire un colore dierente tra una lista e laltra ho creato una nuova macro, questa volta scrivendo il codice Visual Basic di mio pugno. Si ` reso necessario, in quanto le liste hanno lunghezze e dierenti e quindi nessuna operazione di registrazione avrebbe reso un risultato accettabile.
Sub Colore() Dim r As Long

4.1. REALIZZAZIONE DELLAPPLICATIVO

77

Dim myId Dim myLastId Dim Colore myLastId = "" For r = 2 To Cells(65536, 1).End(xlUp).Row myId = Cells(r, 1).Value If r > 1 Then myLastId = Cells(r - 1, 1).Value If myId <> myLastId Or r = 1 Then If Colore = 36 Then Colore = 34 azzurro Else Colore = 36 giallo End If End If Range(Cells(r, 1), Cells(r, 16)).Interior.ColorIndex = Colore Next r End Sub

In questa seconda macro viene preso come riferimento la colonna degli indici, e in caso di cambiamento, e quindi di passaggio ad una nuova lista, il colore viene modicato. Una volta salvato il le Excel vuoto basta aprire il le di output ed applicare le macro per vedere applicate tutte le impostazioni (gura 4.7).

78

CAPITOLO 4. IMPLEMENTAZIONE

Capitolo 5 Conclusioni
Il siDesign Center ` nato come strumento di ricerca basato sullalgoritmo di e Reynolds et al. Successivamente ` stato integrato allinterno del sito Dharmacon. e In questo modo permette a tutti gli istituti interessati ai prodotti dellazienda di trovare, in modo adabile, candidati siRNA. Il mio progetto ` nato dallesie genza di avere uno strumento, innanzitutto in grado di far risparmiare tempo al ricercatore che non deve pi` passare ore davanti al proprio browser attenu dendo e salvando ogni pagina, e fondamentalmente capace di fare un ulteriore ltraggio dei risultati ottenuti sulla base di parametri emersi con lesperienza sul campo. Si viene quindi a creare la possibilit` di adare questo compito al a server, magari per un ne settimana, e di trovare pronti i le di risultati e, con un breve colpo docchio, facilitato dalle colorazioni del le Excel, decidere di acquistare e testare i primi due o tre candidati, evitando inutili spese e perdite di tempo. La risorsa web Dharmacon ` stata quindi sfruttata, tramite un processo di e reverse engeneering, per automatizzare la procedura di ricerca. Il problema principale in questa condizione ` che, nel caso venissero eettuate modiche al e codice HTML del siDesign Center, si renderebbe necessaria una nuova analisi e una conseguente modica, seppur minima, del tool. La soluzione ideale

79

80

CAPITOLO 5. CONCLUSIONI

sarebbe un Web Service 1 fornito da Dharmacon al quale appoggiarsi in modo denitivo. Particolarmente rilevante ` stata, in accordo coi ricercatori, la scelta dei e criteri di ordinamento che ha permesso di ottenere un sistema esperto, in grado di decidere i migliori candidati in base a conoscenze tramandate dallesperienza sul campo. Va inoltre ricordato lostacolo E-value in grado, imponendo un valore troppo elevato, di alterare i risultati rendendo meno eciente il lavoro svolto. E importante inoltre sottolineare le potenzialit` di Perl, capace, con lutia lizzo di moduli aggiuntivi, di eettuare una completa navigazione tra le pagine della risorsa web Dharmacon; di estrarre da le di grandi dimensioni parti di testo molto speciche; di gestire cartelle e le in uscita e di utilizzare programmi esterni (nel nostro caso BLAST). Posso sicuramente ricordare questa esperienza in modo molto positivo. Largomento trattato si ` rivelato estremamente interessante e stimolante. Lue tilizzo degli strumenti, in particolare Perl ` stata una sda continua capace di e mettermi in crisi pi` volte, ma mai al punto di farmi desistere. Sono molto u soddisfatto dallidea di aver contribuito, seppur in piccola parte, a una ricerca innovativa e con innumerevoli utilizzi possibili.

Un web service ` un sistema software progettato per supportare linteroperabilit` tra e a

diversi elaboratori su una stessa rete.

Bibliograa
[1] A.Fire, CC.Mello, MK.Montgomery, SA.Kostas, and SE.Driver. Caenorhabditis elegans. Nature, 391, 1998. [2] Ambion. siRNA Target Finder, http://www.ambion.com/techlib/misc/siRNA nder.html. [3] A.Nykanen, B.Haley, and PD.Zamore. ATP requirements and small interfering RNA structure in the RNA interference pathway. Cell, 107:309321, 2001. [4] A.Reynolds, A.Khvorova. D.Leake, Q.Boese, S.Scaringe, SW.Marshall, and Genes Po-

tent and specic genetic interference by double-stranded RNA in

Rational siRNA design for RNA interference.

Dev, 15(2):188200, 2001. [5] A.Sugimoto. High-throughput RNAi in Caenorhabditis elegans: genomewide screens and functional genomics. Dierentiation, 72:8191, 2004. [6] C.Cogoni, JT.Irelan, M.Schumacheand T.Schmidhauser, EU.Selker, and G.Macino. Transgene silencing of the al-1 gene in vegetative cells of Neurospora is mediated by a cytoplasmic eector and does not depend on DNA-DNA interactions or DNA methylation. EMBO, 15:31533163, 1996. [7] DC.Baulcombe. Fast forward genetics based on virusinduced gene

silencing. Curr. Opin. Plant Biol., 2:109113, 1999.

81

82

BIBLIOGRAFIA

[8] Dharmacon. siDESIGN Center, http://www.dharmacon.com/designcenter/designcenterpage.aspx. [9] DR.Groebe and OC.Uhnlenbeck. Characterization of RNA hairpin loop stability. Nucleic Acid Res, 16:1172511735, 1988. [10] D.S.Schwarz, G.Hutvagner, B.Haley, and PD.Zamore. RNAi pathways. Mol. Cell., 10:537548, 2002. [11] E.Bernstein, AA.Caudy, SA.Hammond, and GJ.Hannon. Role for a bidentate ribonuclease in the initiation step of RNA interference. Nature, 409:363366, 2001. [12] E.Song, P.Zhul, SK.Lee, D.Chowdhury, S.Kussman, D.Dykxhoorn, Y.Feng, D.Palliser, DB.Weiner, PM.Shankar, WA.Marasco, and J.Lieberman. Antibody mediated in vivo delivery of small interfering RNAs via cell-surface receptors. Nature Biotechnology, 23:709 717, 2005. [13] E.Song, SK.Lee, J.Wang, N.Ince, N.Ouyang, J.Min, J.Chen, P.Shankar, and J.Lieberman. RNA interference targeting Fas protects mice from fulminant hepatitis. Nature Medicine, 9:347351, 2003. [14] G.Hutvagner and PD.Zamore. RNAi: nature abhors a double-strand. Curr Opin Genetics & Development, 12:363366, 2002. [15] A.Grishokand H.Tabar and CC.Mello. Genetic requirements for Evidence that

siRNAs function as guides, not primers, in the Drosophila and human

inheritance of RNAi in C. elegans. Science, 287:24942497, 2000. [16] JG.Barton. Protein Sequence Alignment and Database Scanning, 1993. [17] KD.Pruitt, T.Tatusova, and DR.Maglott. (RefSeq): NCBI Reference Sequence

a curated non-redundant sequence database of genomes,

transcript anda proteins. Nucleic Acid Res, 1(33):501, 2005.

BIBLIOGRAFIA

83

[18] K.Okamura, A.Ishizuka, H.Siomi, and MC.Siomi. Genes & Dev, 18:16551666, 2004.

Distinct roles for

Argonaute proteins in small RNA-directed RNA cleavage pathways.

[19] L.Cerutti, N.Mian, and A.Bateman. Domains in gene silencing and cell dierentiation proteins: the novel PAZ domain and redenition of the Piwi domain. Trends Biochem. Sci., 25:481482, 2000. [20] MO.Dayho, RM.Schwartz, and BC.Orcutt. A model of evolutionary change in protein. Nat. Biomed. Res. Found., 5:345352, 1978. [21] mwg operon. siRNA Design, http://www.euronsdna.com/productsservices/sirna/sirna-design.html. [22] NN.Pandit and VEA.Russo. Reversible inactivation of foreign gene, hph, during asexual cycle in Neurospora crassa trasformants. Mol.Gen. Genet., 234:412422, 1992. [23] N.Romano and G.Macino. Quelling: transient inactivation of gene expression in Neurospora crassa by trasformation with homologous sequences. Mol. Microbiol., 6:33433353, 1992. [24] PA.Sharp and PD.Zamore. RNA interference. Science, 287:24312433, 2000. [25] Qiagen. siRNA gene silencing, http://www1.qiagen.com/Products/ByApplication/GeneSilencing/. [26] RA.Jorgensen, PD.Cluster, J.English, Q.Que, and CA.Napoli. Chalcone synthase cosuppression phenotypes in petunia owers: comparison of sense vs. antisense constructs and single-copy vs. complex T-DNA sequences. Plant Mol Biol, 31:957973, 1996. [27] RedHat. Red Hat Linux 7.3: Ocial Red Hat Linux Reference

Guide, http://www.tu-chemnitz.de/docs/lindocs/RH73/RH-DOCS/rhlrg-it-7.3/ch-ssh.html.

84

BIBLIOGRAFIA

[28] SF.Altschul, W.Gish, W.Miller, EW.Myers, and DJ.Lipman. Basic Local Alignment Search Tool. J. Molec. Biol, 215:403410, 1990. [29] S.Guo and KJ.Kempheus. Par-1, a gene required for establishing polarity in C.elegans embryos, encodes a putative Ser/thr kinase that is asymmetrically distributed. Cell, 81:611620, 1995. [30] S.Heniko and JG.Heniko. Aminoacid substitution matrices from

protein blocks. Proc. Natl. Acad. Sci. USA, 89:1091510919, 1992. [31] S.Karlin and SF.Altschul. Methods for assessing the statistical signicance of molecular sequence features by using general scoring scheme. Proc. Natl. Acad. Sci. USA, 87:22642268, 1990. [32] SM.Elbashir, W.Lendeckel, and T.Tuschl. RNA interference is mediated by 21- and 22-nucleotide RNAs. Genes Dev., 15(2):188200, 2001. [33] S.Ogita, H.Uefuji, Y.Yamaguchi, N.Koizumi, and H.Sano. RNA

interference: Producing decaeinated coee plants. Nature, 423:823, 2003. [34] TR.Brummelkamp, R.Bernards, and R.Agami. 296:550553, 2002. [35] Y.Naito, T.Yamada, K.Ui-Tei, S.Morishita, and K.Saigo. siDirect: higly eective, target-specic diRNA design software for mammalian RNA interference. Nucleic Acid Res, 32:124129, 2004. [36] Sharp PA Zamore PD, Tuschl T and Bartel DP. Double-stranded RNA directs the ATP-dependent cleavage of mRNA at 21 to 23 nucleotide intervals. Cell, 101:2533, 2000. A system for stable Science,

expression of short interfering RNAs in mammalian cells.

Potrebbero piacerti anche