Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Miniciclo di due lezioni a tema bioinformatica, genomica e trascrittomica applicata allo studio della genetica
dello sviluppo. In queste lezioni si cercherà di dare abbastanza dettagli su alcune delle metodiche che
vengono utilizzate oggi di routine in molti laboratori in tutto il mondo e che sono diventati dei nuovi approcci
per lo studio di geni di interesse. Saranno mostrati degli esempi derivati dalla nostra esperienza diretta in
laboratorio, ma verranno fatti anche altri esempi per capire come si possono applicare allo studio dei geni
coinvolti nella regolazione dello sviluppo.
Questa metodica è ancora utilizzata nei laboratori di tutto il mondo perché spesso c’è bisogno di avere
informazioni sulla sequenza di una precisa porzione di DNA e non si è interessati a determinare sequenze di
intere collezioni (quindi è una metodica ancora utilizzata). L’inizio di questo sistema automatico sviluppato
dall’Applied Biosystems risale alla fine degli anni ’90. Soltanto dieci anni dopo le prime metodiche di Next-
Generation Sequencing sono state introdotte, e questa era un’idea alla quale molti laboratori di tutto il
mondo stavano lavorando da tanto tempo. L’idea di fatto era questa: anziché determinare la sequenza di un
frammento di DNA alla volta in una reazione di polimerizzazione mirata ad un singolo frammento, l’idea alla
base dell’NGS è il sequenziamento massively parallel (massivo in parallelo). Cioè se io posso prendere la
sequenza di un gene, la posso rompere in tanti piccoli pezzi, e posso effettuare contemporaneamente milioni
di sequenze di frammenti piccoli e ho poi a disposizione un sistema, un algoritmo, un software, che mi
permette di rimettere insieme i pezzi piccoli sulla base della complementarietà di sequenza (sulla base della
parziale sovrapposizione che questi frammenti hanno nella loro sequenza), io posso ottenere la sequenza di
partenza e posso fare questa operazione per migliaia di frammenti di partenza contemporaneamente; questa
era l’idea. Inoltre mentre per il sistema di sequencing tradizionale io ho bisogno di un minimo di informazione
sulla sequenza che devo andare a determinare, perché devo disegnare un primer che faccia da innesco,
determinare quindi la sequenza e poi riutilizzando la parte finale della sequenza determinata posso generare
un nuovo primer ed estendere ulteriormente al 3’ e così via, qui per la prima volta io posso ottenere una
sequenza di migliaia di oggetti di gene senza avere nessuna conoscenza a priori. Quindi io posso estrarre per
esempio il DNA di un organismo, anche un organismo nuovo, posso frammentarlo, posso determinarne la
sequenza e posso poi ricostruire la sequenza lineare del genoma di questo organismo utilizzando specifici
software. Chiaramente come si può immaginare questo è un approccio estremamente potente e come era
prevedibile è iniziata anche una competizione commerciale, perché le aziende che hanno sviluppato per primi
sistemi di Next-Generation Sequencing più efficaci hanno iniziato a guadagnare milioni di dollari poiché la
tecnologia migliore, vincendo questa gara, si è poi diffusa a livello globale e viene utilizzata oggi in tutto il
mondo da centinaia di migliaia di laboratori. La tecnologia di maggior successo, quella che è anche più
versatile, che si presta ad analisi di tanti tipi diversi è la tecnologia “illumina” di questa azienda statunitense
che ha sede nella Silicon Valley negli Stati Uniti. Siccome è una tecnologia particolarmente interessante vi
allego un piccolo video che spiega in sintesi l’idea geniale che i tecnici dell’illumina hanno avuto per mettere
a punto il loro sistema di Next-Generation Sequencing: https://www.youtube.com/watch?v=womKfikWlxM.
In questa slide si cerca di illustrare questo concetto con degli esempi: immaginate di avere una regione
genomica da sequenziare e immaginate di avere al centro una sequenza ripetuta che vede la ripetizione del
nucleotide TA (le due T consecutive presenti nella sequenza sono un errore). Immaginate di fare un
sequencing con sequenze da sei (il professore a questo punto si rende conto che ha fame e si mette il
microfono in bocca) e il software di assembly non avrà difficoltà ad assemblare, in base alla parziale
complementarietà di sequenze, queste sequenze ai lati. Ma una volta entrato nella regione ripetuta non
riuscirà più a piazzare, tolte le prime, altre reads perché si troverà a gestire delle reads tutte uguali tra loro
senza avere nessuna informazione su quando finire, cioè quanto sarà lunga questa sequenza? 100, 200, 1
milione di coppie di basi? Il software non lo sa e quindi questa parte non riesce ad essere risolta. Chiaramente
questo è un problema soprattutto se si utilizza una tecnologia di sequenziamento che si basa su reads piccole,
come la tecnologia illumina. Proprio per risolvere questo problema negli ultimi anni sono state sviluppate
altre tecnologie che invece si basano su un approccio di low read, cioè cercano di sequenziare delle molecole
di DNA (o di RNA: tutto questo si può infatti applicare anche all’RNA, quindi allo studio della trascrittomica e
non della genomica ) quanto più lunghe possibili. È chiaro che se io ho una molecola lineare lunga e riesco a
leggere tutta la sequenza riesco senza problemi a passare attraverso una zona ripetuta, perché di fatto io
non vado a produrre oggetti piccoli che poi devo riassemblare ma leggo proprio la sequenza così com’è.
Due delle tecnologie più interessanti, che hanno anch’esse qualcosa di futuristico soprattutto nell’idea che
è stata sviluppata, sono la tecnologia PACBIO e la tecnologia NANOPORE. Di seguito due piccoli video su
queste tecnologie perché sono molto interessanti:
• video 1 allegato: https://www.youtube.com/watch?v=v8p4ph2MAvI (tecnologia PACBIO)
Gli ingegneri della Pacific Biosciences (azienda americana) sono riusciti a legare fisicamente una polimerasi
in una piccola camera di reazione e a sviluppare
un sistema che permettere sempre di emettere
fluorescenza di colore diverso per ciascuna base
in loco, fisicamente in un piccolo spazio, su
questa sorta di vetrino, e anche in questo caso il
grosso vantaggio è che se si riescono ad estrarre
molecole di DNA integre molto lunghe questo
sistema permette di arrivare fino a 100 000
coppie di basi per ciascuna cella di reazione.
Quindi io posso produrre delle sequenze
lunghissime, non ho necessità di ??? e posso
risolvere quindi regioni genomiche
particolarmente complesse. Il problema di
questa tecnologia è che ha una percentuale di
errore molto più alta rispetto al sistema illumina.
In realtà si è visto che combinando le due tecnologie i risultati sono eccezionali, posso produrre delle
sequenze molto lunghe, anche se con errori, con il sistema PACBIO e posso correggere questi errori facendo
le sequenze illumina e comparando le sequenze piccole con le sequenze grandi, quindi senza scendere nel
dettaglio il problema degli errori è stato superato.
• video 2 allegato: https://www.youtube.com/watch?v=E9-Rm5AoZGw (tecnologia NANOPORE)
Gli ingegneri di un’altra società (questa volta inglese) con sede ad Oxford hanno poi sviluppato un ulteriore
sistema che si basa sulle sequenze lineari lunghe, ma che non prevede l’utilizzo di fluorescenza. Un sistema
in qualche modo ancora più rivoluzionario che probabilmente rappresenta il futuro e che ha permesso di
costruire dei sequenziatori automatici che costano poche centinaia di euro (circa 1000 euro) e sono
soprattutto portatili, sono grandi quanto una penna USB e si possono utilizzare anche in ???. Ciò rende
possibile il Next-Generation Sequencing una tecnica che non si può solo fare in laboratorio, ma si può fare
anche in una giungla per ottenere informazione di sequenza di un organismo in quel momento, in quel posto.
Questo può essere estremamente importante per esempio per la diagnosi di particolari patogeni, e questa
tecnologia è stata usata anche per studiare il coronavirus proprio in questo periodo. Quindi questa tecnologia
della Oxford NANOPORE è in qualche modo ancora più rivoluzionaria, perché per la prima volta si è riusciti
ad utilizzare delle proteine e a legare fisicamente delle proteine di membrana che creino un poro su una
membrana che non lascia passare corrente e ad utilizzare una polimerasi ingegnerizzata per interagire con
questo poro di membrana e per spingere all’interno del poro la sequenza di DNA una base alla volta. Il
macchinario poi legge la differenza di potenziale che c’è ai lati del poro e le variazioni che ciascuna base causa
nel flusso di corrente, perché ciascuna base ha una struttura diversa e quando passa nel poro cambia il
passaggio degli ioni e quindi della corrente, e di conseguenza leggendo la differenza di potenziale che cambia
nel tempo si riescono ad avere informazioni sulle basi. Uno degli strumenti da loro prodotti è piccolo quanto
una penna USB e può essere collegata a un portatile e utilizzata in giro.
Queste tecnologie nel loro complesso hanno portato la nostra specie nell’era della genomica individuale,
perché già oggi è possibile determinare la sequenza del proprio genoma ad un costo molto basso, di poche
centinaia di euro, e i risultati che si potranno ottenere saranno sempre più accurati e costeranno sempre di
meno in futuro, chiaramente con tutto quello che a questo ne conseguirà. Si potrà sicuramente rispondere
ad un sacco di domande biologiche, scoprire i dettagli dei meccanismi di azione per esempio di
numerosissime malattie, però si avranno anche tante informazioni sugli individui che bisognerà gestire con
molta attenzione.
L’algoritmo che loro hanno inventato si chiama chromosome quotient, l’idea è questa: se io faccio la
sequenza genomica usando tecnologia illumina di DNA estratto da una femmina e faccio la stessa cosa con
DNA estratto da maschi avrò una collezione di reads di 100 coppie di basi che sono corrispondenti a ciascun
cromosoma. Nella femmina io avrò reads che derivano dagli autosomi e reads che derivano dai cromosomi,
dal cromosoma X (di queste reads ho una dose doppia, perché ho due cromosomi X). Nei maschi invece avrò
reads che derivano dagli autosomi più o meno nello stesso numero, reads che derivano dal cromosoma X (e
mi aspetto che queste reads siano la metà rispetto quelle prodotte sequenziando il genoma delle femmine)
e reads che derivano dal maschio. Se io ho una collezione di sequenze genomiche derivate da un maschio (si
tratta di sequenze assemblate), prendo il DNA genomico di maschi, lo assemblo e ottengo dei contigs (non
ottengo le sequenze dei cromosomi, ma ottengo dei contigs). In questa condizione di sequenze assemblate
ci saranno sequenze assemblate corrispondenti agli autosomi, sequenze assemblate corrispondenti al
cromosoma X e sequenze assemblate corrispondenti al cromosoma Y, tuttavia non ho modo di identificare
chi è uno e chi è l’altro. Allora questi autori si sono inventati questo sistema: se noi prendiamo le reads di
femmine e le reads di maschi in due esperimenti paralleli, cerchiamo di mappare queste reads sulle sequenze
genomiche assemblate e andiamo a contare quante volte mappano le sequenze nei due sessi, possiamo in
qualche modo riuscire ad identificare le sequenze che sono legate al cromosoma Y, al cromosoma X e agli
autosomi.
Questo viene fatto secondo quale principio? Noi ci aspettiamo che le sequenze che corrispondono agli
autosomi vedano un numero di reads mappate più o meno uguale, comparabile, tra le reads derivate dalle
femmine e le reads derivate dai maschi. Le sequenze che corrispondono al cromosoma X invece vedranno
mappare un numero di reads in femmine che è doppio rispetto al numero di reads che posso mappare usando
quello dei maschi. Nel caso dell’Y invece io otterrò un numero di reads mappabili soltanto se uso i dati di
maschi perché nelle femmine queste sequenze sono completamente assenti. Allora loro hanno ideato questo
algoritmo che non fa altro che fare il rapporto tra il numero di reads, per ciascuna di queste sequenze fa il
rapporto tra il numero di reads mappate usando il campione di femmine e il numero di reads mappate usando
il campione di maschi. Quello che loro hanno visto con Anopheles stephensi è che effettivamente ottengono
degli isogrammi di distribuzione di questi score di chromosome quotient intorno a 1 per sequenze
autosomiche, intorno a 2 per sequenze dell’X e intorno a 0 per sequenze dell’Y (perché nel caso di sequenze
dell’Y avrò 0 fratto un numero e di conseguenza il risultato sarà sempre 0). Quindi con questo sistema io
posso digitalmente comprendere quali reads assemblate, quali sequenze genomiche assemblate, sono
putative del cromosoma Y. Allora utilizzando questo approccio abbiamo prodotto delle reads lunghe, quindi
per evitare anche il problema di dover fare l’assembly, abbiamo preso il DNA da un maschio di Ceratitis
capitata e abbiamo prodotto delle reads con la tecnologia PACBIO. Poi abbiamo preso sia maschi che
femmine separatamente e abbiamo prodotto delle reads con tecnologia illumina. Per le femmine quindi
avremo prodotto delle reads corrispondenti sia agli autosomi che al cromosoma sessuale X, per i maschi
avremmo prodotto reads corrispondenti agli autosomi, al cormosoma X e al cormosoma Y. Dopodiché
abbiamo applicato l’algoritmo del chromosome quotient, abbiamo mappato queste reads sulla collezione di
reads genomiche prodotte nei maschi. Questo ci ha permesso di dare un nome a questi oggetti e di
identificare tra questi quelli che in teoria erano derivati dal cromosoma Y, cioè reads PACBIO lunghe contro
le quali mappavano solo reads del campione di maschi e non del campione di femmine. Mappare una reads
non significa altro che fare una specie di blast: prendo una sequenza di 100 coppie di basi e cerco una
sequenza ad essa identica nella mia collezione di sequenze genomiche, se riesco a trovarla mappo la reads in
quel punto e segno 1 per la sequenza genomica sulla quale sarà mappata la reads e ripeto l’operazione con
tutti i milioni di reads piccole. Quindi per ciascuna di queste sequenze genomiche io ottengo degli score.
Come isolare quindi su queste sequenze il gene corrispondente al male determining factor?
Per risolvere questo secondo problema (che avrebbe richiesto comunque anni, perché erano centinaia le
reads genomiche lunghe che abbiamo tirato fuori con questa genomica, e non è proprio facile cercare un
gene in sequenze derivate dal cromosoma Y, anche perché è un cromosoma ricchissimo di sequenze ripetute)
abbiamo utilizzato un altro approccio, abbiamo utilizzato un secondo approccio bioinformatico, questa volta
di trascrittomica. Si è detto che silenziando il gene trasformer mediante RNA interference si riesce a
riprogrammare un embrione XX e si può far diventare questo embrione XX un maschio.