Lezione XV - Prof. Salvemini

Lezione XV – Salvemini Roberto Garruto Campanile
Miniciclo di due lezioni a tema bioinformatica, genomica e trascrittomica applicata allo studio della genetica
dello sviluppo. In queste lezioni si cercherà di dare abbastanza dettagli su alcune delle metodiche che
vengono utilizzate oggi di routine in molti laboratori in tutto il mondo e che sono diventati dei nuovi approcci
per lo studio di geni di interesse. Saranno mostrati degli esempi derivati dalla nostra esperienza diretta in
laboratorio, ma verranno fatti anche altri esempi per capire come si possono applicare allo studio dei geni
coinvolti nella regolazione dello sviluppo.
Che cos’è la bioinformatica?

La bioinformatica è una disciplina (il professore decide di mangiarsi
il microfono) che si trova a metà strada tra ??? il computer science,
la biologia molecolare e la genetica ed è per sua natura una
disciplina multidisciplinare perché sono richieste tante diverse
competenze e si può arrivare a fare bioinformatica da molte strade
che prevedono non soltanto l’ambito biologico delle life science ma
sono richieste delle professionalità anche legate alla matematica,
alla statistica, all’ingegneria oltre che all’informatica vera e propria
(alla computer science).
(versi incomprensibili, probabilmente il professore si trovava
sott’acqua) La bioinformatica utilizza la IT (information technology)
per l’analisi di database che contengono dati biologici. Il connubio con l’aspetto genetico e di biologia
molecolare della bioinformatica è dovuto al fatto che le informazioni che sono relative ai geni sono
informazioni che possono essere rappresentate come stringhe di testo, cioè la sequenza di un gene, la
sequenza di una proteina, è una stringa di testo che può essere messa in un computer e queste collezioni di
sequenze possono essere usate per costruire quelli che vengono chiamati i database, che sono un po’ il cuore
di questa disciplina, perché tutto quello che viene fatto e prodotto deve confluire in un database che deve
poi essere utilizzato dai vari utenti per cercare all’interno e per ??? ottenere le informazioni ??? biologico. La
produzione dei dati è soltanto una componente, però è una componente fondamentale, e molto spesso
consiste proprio nella produzione di dati di sequenza.
Questi sono alcuni database

biologici che si possono
trovare sul web. La
bioinformatica ha seguito di
pari passo lo sviluppo di
internet. All’inizio i
database erano locali,
erano presenti su computer
fisici e potevano essere
consultati soltanto andando
a prelevarli fisicamente con
dei floppy disk o dei CD,
portandoli su un altro
computer e analizzandoli.
Adesso grazie a questa fantastica invenzione che è la rete, che mette in connessione tutti noi e che ci sta
permettendo di fare lezioni in questo momento così complicato di emergenza sanitaria, l’accesso ai database
è diventato pane quotidiano per i biologi, anche se non si è bioinformatici si ha spesso l’esigenza di andarsi a
confrontare con un database per tirar fuori delle informazioni sui geni o le proteine che si stanno studiando.
Negli ultimi anni una quantità esponenziale crescente di dati si è accumulata in uno dei database più famosi,
che si chiama Genbank, che è un deposito di sequenze sia di geni che di proteine, che si utilizza quasi sempre
quando si scrive una pubblicazione: si scopre un nuovo gene, si determina una nuova sequenza, si carica e si
rende accessibile questa sequenza a tutta la comunità depositandolo proprio in questo archivio, in questa
Genbank. Negli ultimi anni chiaramente la cosa è andata ancora più velocemente, negli ultimi 5-6 anni la
mole di dati che sono accessibili liberamente (sono quasi tutti pubblici) è considerevole. (rumori
incomprensibili) Per chi è un bioinformatico puro, quindi un ricercatore che fa la sua attività di ricerca proprio
sullo sviluppo e sul testing di software per l’analisi di dati biologici (quindi la bioinformatica consiste anche
nello sviluppo di strumenti), il più famoso strumento che è stato sviluppato per permettere comparazioni di
sequenza è l’algoritmo BLAST. Questo è uno strumento potentissimo che permette di comparare le nuove
sequenze prodotte con l’intero archivio presente sul sito dell’NCBI, che è il National Center for Biotechnology
Information dell’NIH (cioè l’equivalente dell’istituto superiore di sanità degli Stati Uniti). Lì ci sono dei server
giganteschi dove confluiscono tutti i risultati prodotti in tutti i laboratori del mondo, ed è possibile fare ricerca
in questi enormi database ??? utilizzando l’algoritmo BLAST, che permette di comparare utilizzando delle
matrici di comparazione di sequenze sia di proteine che di nucleotidi. Altra caratteristica fondamentale della
bioinformatica è che la comunità internazionale (questo in realtà dovrebbe valere per la scienza in generale,
ma non è sempre vero per tutti gli ambiti), nell’ambito della comunità scientifica dei bioinformatica, questa
comunità ama definirsi open, è una comunità aperta e sia i software sviluppati, sia i tutorial per l’utilizzo dei
software, sia la condivisione addirittura dei risultati delle ricerche è particolarmente fruibile rispetto ad altri
ambiti. Esistono tantissimi forum, sia generali che specifici, sui quali è possibile chiedere aiuto per risolvere
problematiche relative all’istallazione, piuttosto che all’utilizzo di un determinato software ed è una
comunità che fa delle ??? col fatto che spesso i software sono dati non solo in uso gratuito, ma anche il codice
sorgente (cioè il codice che permette di modificare il software e di farne versioni diverse) viene di solito
rilasciato. Questa è una cosa molto bella e proprio questo approccio sta favorendo un enorme sviluppo di
strumenti e anche uno sviluppo molto rapido e veloce infatti quando una nuova tecnologia viene prodotta
immediatamente parte una corsa a sviluppare gli strumenti più idonei per permettere poi anche a chi è solo
un utente dello strumento bioinformatico di avere qualcosa di semplice da utilizzare per poter fare queste
analisi. Quindi se per certi versi è un ambiente che può spaventare, perché può sembrare che siano richieste
particolari conoscenze informatiche per la gestione dei sistemi e dei software, in realtà è un mondo nel quale
è più facile avere informazioni e supporto rispetto ad altri ambiti di ricerca.
Finita questa piccola introduzione torniamo ora al nostro argomento principale. Per quanto la bioinformatica
abbia tanti aspetti e tante sfaccettature, oggi ci interessa approfondire in particolare quello che riguarda la
parte iniziale, la produzione primaria del dato, perché è proprio grazie a rivoluzioni tecnologiche in
quest’ambito che si sono sviluppate una serie di applicazioni, si sono generate delle
nuove possibilità, che oggi rendono possibile analisi di dati che era impensabile gestire
sul computer in laboratorio fino a pochi anni fa. Il sequenziamento del DNA è una
metodica che già conosciamo e il padre di questo aspetto chiave per lo studio degli
acidi nucleici, e quindi anche per lo studio dei geni, è Frederick Sanger. La sua tecnica
ha permesso di sequenziare il primo genoma della storia, che è un genoma molto
piccolo di un fago, il fago φX174 che ha un genoma di soli 5375 coppie di basi.
La tecnica messa a punto da Sanger si basa

sull’utilizzo di particolari nucleotidi che,
anziché avere un deossiribosio, hanno un
dideossiribosio. Come sappiamo il gruppo -OH
al 3’ è fondamentale per allungare una
catena, quindi per la polimerizzazione di una
nuova catena di DNA, ma se c’è un
dideossiribosio il gruppo -OH non c’è e la
reazione di polimerizzazione si interrompe.
Allora Sanger ebbe questa idea geniale: ideò
un sistema che permetteva di realizzare
quattro reazioni di sequenza e di aggiungere a
ciascuna reazione di sequenza, dove c’era
chiaramente uno stampo, quindi un primer che facesse da innesco di nucleotidi di cui
uno marcato radioattivamente per poter poi visualizzare i prodotti di amplificazione ottenuti, ossia i prodotti
polimerizzati, una piccola quantità di uno dei dideossi. Questo che cosa comportava? Comportava la
possibilità di polimerizzare delle molecole, ma ogni qualvolta si arrivava ad un determinato punto dove c’era
e veniva introdotto il dideossi quella molecola si bloccava nella sua sintesi. Facendo quindi quattro reazioni
e correndo poi queste reazioni di polimerizzazione su un gel di poliacrilammide che rende possibile separare
frammenti di DNA che differiscono anche per una sola coppia di basi, quindi anche per un solo nucleotide, si
ottenevano delle immagini di questo tipo (vedi figura) ed era possibile leggere una sequenza del DNA dal
basso verso l’alto leggendo ogni base di una line di caricamento (in questo esempio nella prima line è stata
caricata la reazione dove c’era il dideossi-G, in quella a fianco il dideossi-A, quella dopo ancora il dideossi-T,
e infine il dideossi-C, ed è chiaro che la prima
reazione che si andava ad interrompere era quella
che prevedeva l’introduzione di un dideossi-T; la
sequenza era quindi TTCGTGAA... e così via).
Questa metodica è stata rivoluzionata pochi anni
dopo grazie all’introduzione di fluorocromi legati
fisicamente ai dideossi. Quindi era possibile fare avvenire questa reazione di polimerizzazione e il dideossi
che bloccava la reazione aveva anche un fluoroforo, ognuno di colore diverso per ciascuna delle basi. Questo
ha reso possibile correre anziché su un gel di poliacrilammide, su un capillare contenente poliacrilammide, di
ottenere quindi in tempi molto più rapidi e in un'unica corsa elettroforetica la sequenza, che in questo caso
veniva rivelata come fluorescenza. Questa cosa è molto importante per comprendere gli avanzamenti
tecnologici che ci sono stati successivamente e che hanno portato alla nascita del Next-Generation
Sequencing, perché la possibilità di associare molecole fluorescenti ai nucleotidi è alla base anche delle
tecniche più moderne di NGS (Next-Generation Sequencing). Quindi i sequenziatori automatici (così vengono
chiamati) non sono altro che dei macchinari in grado di gestire un’elettroforesi capillare: c’è una sorgente
luminosa in grado di eccitare i fluorofori e una sorgente in grado di rilevare la fluorescenza. In questo modo,
mentre prima bisognava leggere le basi una per rigo in base alla posizione e all’ordine di caricamento, con
l’elettroforesi capillare si va a guardare direttamente il colore ottenuto, quindi otterrò un
elettrofluorogramma con dei picchi di assorbanza (uno per ciascuna lunghezza d’onda di ciascun fluoroforo)
e questo mi permette di avere in poche ore (un paio d’ore) una sequenza completa di un frammento, fino a
500-600 coppie di basi (mentre invece con la prima metodica, proprio per la complessità tecnica della
gestione del gel di acrilamide, per fare più o meno 300-400 coppie di basi ci volevano tre giorni).
Questo è un classico elettrofluorogramma che si ottiene da un sequenzatiore automatico.
Questa metodica è ancora utilizzata nei laboratori di tutto il mondo perché spesso c’è bisogno di avere
informazioni sulla sequenza di una precisa porzione di DNA e non si è interessati a determinare sequenze di
intere collezioni (quindi è una metodica ancora utilizzata). L’inizio di questo sistema automatico sviluppato
dall’Applied Biosystems risale alla fine degli anni ’90. Soltanto dieci anni dopo le prime metodiche di Next-
Generation Sequencing sono state introdotte, e questa era un’idea alla quale molti laboratori di tutto il
mondo stavano lavorando da tanto tempo. L’idea di fatto era questa: anziché determinare la sequenza di un
frammento di DNA alla volta in una reazione di polimerizzazione mirata ad un singolo frammento, l’idea alla
base dell’NGS è il sequenziamento massively parallel (massivo in parallelo). Cioè se io posso prendere la
sequenza di un gene, la posso rompere in tanti piccoli pezzi, e posso effettuare contemporaneamente milioni
di sequenze di frammenti piccoli e ho poi a disposizione un sistema, un algoritmo, un software, che mi
permette di rimettere insieme i pezzi piccoli sulla base della complementarietà di sequenza (sulla base della
parziale sovrapposizione che questi frammenti hanno nella loro sequenza), io posso ottenere la sequenza di
partenza e posso fare questa operazione per migliaia di frammenti di partenza contemporaneamente; questa
era l’idea. Inoltre mentre per il sistema di sequencing tradizionale io ho bisogno di un minimo di informazione
sulla sequenza che devo andare a determinare, perché devo disegnare un primer che faccia da innesco,
determinare quindi la sequenza e poi riutilizzando la parte finale della sequenza determinata posso generare
un nuovo primer ed estendere ulteriormente al 3’ e così via, qui per la prima volta io posso ottenere una
sequenza di migliaia di oggetti di gene senza avere nessuna conoscenza a priori. Quindi io posso estrarre per
esempio il DNA di un organismo, anche un organismo nuovo, posso frammentarlo, posso determinarne la
sequenza e posso poi ricostruire la sequenza lineare del genoma di questo organismo utilizzando specifici
software. Chiaramente come si può immaginare questo è un approccio estremamente potente e come era
prevedibile è iniziata anche una competizione commerciale, perché le aziende che hanno sviluppato per primi
sistemi di Next-Generation Sequencing più efficaci hanno iniziato a guadagnare milioni di dollari poiché la
tecnologia migliore, vincendo questa gara, si è poi diffusa a livello globale e viene utilizzata oggi in tutto il
mondo da centinaia di migliaia di laboratori. La tecnologia di maggior successo, quella che è anche più
versatile, che si presta ad analisi di tanti tipi diversi è la tecnologia “illumina” di questa azienda statunitense
che ha sede nella Silicon Valley negli Stati Uniti. Siccome è una tecnologia particolarmente interessante vi
allego un piccolo video che spiega in sintesi l’idea geniale che i tecnici dell’illumina hanno avuto per mettere
a punto il loro sistema di Next-Generation Sequencing: https://www.youtube.com/watch?v=womKfikWlxM.
Quindi come si vede in questo video il sequencing NGS

sviluppato da illumina è possibile perché ci sono degli
oligonucleotidi legati ad un vetrino, quindi è possibile far
avvenire delle reazioni enzimatiche di polimerizzazione
bloccando fisicamente gli acidi nucleici su un vetrino.
Utilizzano un sistema di sequencing by synthesis, cioè
mentre si polimerizza la molecola di DNA si emettono
fluorescenze di colore diverso a seconda del nucleotide che
viene aggiunto. Quindi ciclo per ciclo c’è una sorta di
sensore che fotografa questo vetrino, che ha dimensioni
discrete (ma chiaramente la densità dei segnali è in scala
nanometrica), e quelle che vengono fuori sono delle
immagini del genere (vedi pagina dopo), sono delle immagini con puntini luminosi di colore diverso che si
susseguono ciclo per ciclo. Siccome il sistema associa a ciascuna posizione il nome di una reads, di una
sequenza, si riescono ad avere tipicamente 200 milioni (quella presa in esame è una slide molto vecchia, parla
di 40 milioni di clusters per flow cell, in realtà oggi si arriva
fino a 200 milioni o 300 milioni) di puntini per flow cell, ciò
significa che io posso produrre 200 milioni di reads in una run
che dura di solito un giorno, un giorno e mezzo. Questo
sistema di sequencing ha un’altra cosa particolarmente
eccezionale e affascinante: si può immaginare quanto sia
complicato attribuire la corretta base alla corretta sequenza
in situazioni del genere, in situazioni dove i segnali luminosi
sono vicini tra loro perché i clusters si sono formati vicini tra
loro sul vetrino (il processo di appaiamento tra le molecole di
partenza e gli oligonucleotidi è casuale). Allora i tecnici di
illumina che cosa hanno pensato di fare? Hanno pensato di
coinvolgere degli astrofisici chiedendo a loro una mano per
adattare gli algoritmi che loro utilizzano con i radiotelescopi per poter distinguere tra loro stelle reali da
rumori di fondo e hanno applicato questa stessa tecnologia all’analisi delle immagini prodotte dal
sequenziatore. Questo è un buon esempio per capire come a volte la capacità di pensiero laterale e
“creativo”, che mischia competenze di discipline completamente diverse, può avere degli sviluppi eccezionali.
Tornando alla strategia dell’NGS il ragionamento è esemplificato in questo esempio: io ho un genoma, lo
frammento, faccio la frammentazione del genoma in modo tale che si producano dei frammenti casuali ma
overlappanti tra loro e determino la sequenza di ciascun frammento in parallelo (chiaramente sono milioni
ad overlappare, non così pochi). Faccio questo leggendo un certo numero di coppie di basi, tipicamente circa
100 coppie di basi, ad un’estremità del frammento soltanto o da entrambe le estremità, per il
sequenziamento che si dice “paired-end” (come ha spiegato nel video c’è la possibilità di sequenziare
entrambi i lati di un frammento). Posso quindi fare un sequenziamento in single-end (soltanto da un lato) o
in paired-end che è molto meglio perché si ottengono maggiori informazioni, un numero di basi maggiore, e
questa cosa può essere utile quando si devono risolvere regioni un po' più complicate nella fase poi di
assembly.
Una volta avute tutte queste reads, utilizzando un
apposito software per l’assembly, io posso cercare di
ricostruire il genoma. L’idea teorica è quella di poter
ricostruire la sequenza lineare di ciascun cromosoma
presente in un genoma. Questa cosa si riesce a fare
soltanto facendo dei grossi progetti di
sequenziamento che permettono di affrontare anche
delle problematiche che tra un po’ vedremo. In linea
di massima però le reads spesso, quasi sempre, si
riescono ad assemblare in contigs (quindi in
sequenze contigue) e spesso si riescono anche a
montare contigs tra loro per produrre i cosiddetti
scaffolds che sono delle sequenze molto molto
lunghe che possono arrivare anche a Mbs (megabasi). Quindi anche laddove io non riuscissi a ricostruire una
sequenza lineare di un intero cromosoma ho delle sequenze lineari di DNA enormi che contengono
presumibilmente al loro interno tutti i geni di un determinato organismo. Quando ci sono delle regioni che
non riescono ad essere montate insieme si possono utilizzare delle tecniche più sofisticate per andare a fare
un sequencing localizzato soltanto delle regioni ???in questione???, questa però è una procedura più
complessa che richiede in alcuni casi anche l’utilizzo del sequenziamento tradizionale, step by step, perché
occorre sequenziare dei cloni che siano solo corrispondenti alle parti mancanti e non sequenziare l’intera
collezione di partenza. Comunque applicando anche questo si può arrivare, come per esempio nel caso di
drosofila, ad avere cromosomi lineari completamente assemblati, quindi degli assembly di ottima qualità.
Una volta avuto questo, una volta avute le sequenze lineari dei reads, dei contigs, degli scaffolds o dei
cromosomi, lo step successivo è quello di andare a cercare i geni. Andare a cercare i geni è una cosa che
richiede una fase iniziale di annotazione ??? e poi una fase di manual curation, cioè di analisi manuale da
parte di esperti nel risolvere quello che i software non sono riusciti a predire. Come si fa a predire la struttura
di un gene? È una cosa molto complessa, esistono software specifici che svolgono questo lavoro. Si cerca di
utilizzare tutte le informazioni distintive di un gene tra cui le sequenza codificante di un database di proteine
di specie filogeneticamente vicine e le sequenze conservate delle giunzioni sugli introni. Il software cerca
tutto questo, si fa un’analisi di tutti i possibili esoni e poi tra questi si vanno a guardare quelli che codificano
per putative proteine conservate in altre specie e poi alla fine si arriva ad una predizione di tutti i possibili
geni presenti in un genoma. Chiaramente mancheranno geni particolarmente complessi; nei seminari sul
gene fruitless quasi sempre c’era sottolineato il fatto che era stato necessario uno studio ad hoc perché il
gene era un po’ complesso e non era stato predetto correttamente da questo tipo di software automatici.
Utilizzando questi approcci sono stati ad oggi assemblati centinaia, ormai migliaia, di genomi di un numero
elevato di organismi, e il settore dello sviluppo dei software per il genome assembly è un settore
particolarmente prolifico perché chiaramente molti gruppi di ricerca collaborano tra loro ma sono anche in
competizione per cercare di sviluppare il software per l’assembly migliore, o che risponda a richieste
specifiche di particolari tipi di organismi che hanno problematiche particolari.
Come sappiamo il primo genoma completamente sequenziato è quello di C. elegans, sono seguite poi le
sequenze del genoma di diversi organismi modello e sono da alcuni anni iniziati anche dei progetti di
sequenziamento non più di intere specie ma di singoli individui, questo perché è molto importante
comprendere anche la variabilità individuale per poter comprendere meglio alcuni processi di regolazione
della funzione genica. Questo è particolarmente valido per esempio per le popolazioni umane. Stanno
facendo progetti di questo tipo anche per esempio in insetti, come ad esempio le zanzare della specie
Anopheles gambiae che è vettore della malaria, in particolare si sta cercando di comprendere meglio la
variabilità che c’è fra gli individui nelle popolazioni presenti in aree endemiche o meno, dove c’è o meno la
malaria. Se si fa una ricerca sul sito dell’NCBI nella sezione genomi, è possibile vedere che ad oggi (in
particolare concentrandosi solo sugli eucarioti) ci sono circa 6000 genomi pubblici accessibili e depositati.
Molti di questi sono genomi di insetti, anche se il numero di appena 490 sulle milioni di specie di insetti
esistenti è un numero che potrebbe sembrare trascurabile. Negli ultimi anni proprio grazie allo sviluppo di
queste tecnologie sono partiti progetti di ricerca molto ambiziosi, uno di questi che è bene segnalare è l’Earth
Biogenome Project che è un consorzio di università di tutto il mondo che si propone di riuscire a sequenziare
nei prossimi 20 anni una specie per ciascun genere di vivente. Questo significa che ci sarà una quantità di dati
accessibili da qui ai prossimi anni che permetterà analisi comparative praticamente in tutte le specie che
fanno parte del regno dei viventi, sarà una cosa senza precedenti, estremamente stimolante perché a quel
punto non ci sarà limite alla fantasia nelle indagini che si potranno fare. Nonostante queste tecnologie siano
così consolidate e promettenti esiste una problematica che è relativa al sequenziamento di regioni complesse
che sono presenti nei genomi, in particolare nei genomi vegetali; le regioni più complesse sono le regioni
ricche di ripetizioni. Come sappiamo esistono delle regioni ripetute nel genoma e queste regioni ripetute
sono una sfida particolarmente complessa per i software di assembly.
In questa slide si cerca di illustrare questo concetto con degli esempi: immaginate di avere una regione
genomica da sequenziare e immaginate di avere al centro una sequenza ripetuta che vede la ripetizione del
nucleotide TA (le due T consecutive presenti nella sequenza sono un errore). Immaginate di fare un
sequencing con sequenze da sei (il professore a questo punto si rende conto che ha fame e si mette il
microfono in bocca) e il software di assembly non avrà difficoltà ad assemblare, in base alla parziale
complementarietà di sequenze, queste sequenze ai lati. Ma una volta entrato nella regione ripetuta non
riuscirà più a piazzare, tolte le prime, altre reads perché si troverà a gestire delle reads tutte uguali tra loro
senza avere nessuna informazione su quando finire, cioè quanto sarà lunga questa sequenza? 100, 200, 1
milione di coppie di basi? Il software non lo sa e quindi questa parte non riesce ad essere risolta. Chiaramente
questo è un problema soprattutto se si utilizza una tecnologia di sequenziamento che si basa su reads piccole,
come la tecnologia illumina. Proprio per risolvere questo problema negli ultimi anni sono state sviluppate
altre tecnologie che invece si basano su un approccio di low read, cioè cercano di sequenziare delle molecole
di DNA (o di RNA: tutto questo si può infatti applicare anche all’RNA, quindi allo studio della trascrittomica e
non della genomica ) quanto più lunghe possibili. È chiaro che se io ho una molecola lineare lunga e riesco a
leggere tutta la sequenza riesco senza problemi a passare attraverso una zona ripetuta, perché di fatto io
non vado a produrre oggetti piccoli che poi devo riassemblare ma leggo proprio la sequenza così com’è.
Due delle tecnologie più interessanti, che hanno anch’esse qualcosa di futuristico soprattutto nell’idea che
è stata sviluppata, sono la tecnologia PACBIO e la tecnologia NANOPORE. Di seguito due piccoli video su
queste tecnologie perché sono molto interessanti:
• video 1 allegato: https://www.youtube.com/watch?v=v8p4ph2MAvI (tecnologia PACBIO)
Gli ingegneri della Pacific Biosciences (azienda americana) sono riusciti a legare fisicamente una polimerasi
in una piccola camera di reazione e a sviluppare
un sistema che permettere sempre di emettere
fluorescenza di colore diverso per ciascuna base
in loco, fisicamente in un piccolo spazio, su
questa sorta di vetrino, e anche in questo caso il
grosso vantaggio è che se si riescono ad estrarre
molecole di DNA integre molto lunghe questo
sistema permette di arrivare fino a 100 000
coppie di basi per ciascuna cella di reazione.
Quindi io posso produrre delle sequenze
lunghissime, non ho necessità di ??? e posso
risolvere quindi regioni genomiche
particolarmente complesse. Il problema di
questa tecnologia è che ha una percentuale di
errore molto più alta rispetto al sistema illumina.
In realtà si è visto che combinando le due tecnologie i risultati sono eccezionali, posso produrre delle
sequenze molto lunghe, anche se con errori, con il sistema PACBIO e posso correggere questi errori facendo
le sequenze illumina e comparando le sequenze piccole con le sequenze grandi, quindi senza scendere nel
dettaglio il problema degli errori è stato superato.
• video 2 allegato: https://www.youtube.com/watch?v=E9-Rm5AoZGw (tecnologia NANOPORE)
Gli ingegneri di un’altra società (questa volta inglese) con sede ad Oxford hanno poi sviluppato un ulteriore
sistema che si basa sulle sequenze lineari lunghe, ma che non prevede l’utilizzo di fluorescenza. Un sistema
in qualche modo ancora più rivoluzionario che probabilmente rappresenta il futuro e che ha permesso di
costruire dei sequenziatori automatici che costano poche centinaia di euro (circa 1000 euro) e sono
soprattutto portatili, sono grandi quanto una penna USB e si possono utilizzare anche in ???. Ciò rende
possibile il Next-Generation Sequencing una tecnica che non si può solo fare in laboratorio, ma si può fare
anche in una giungla per ottenere informazione di sequenza di un organismo in quel momento, in quel posto.
Questo può essere estremamente importante per esempio per la diagnosi di particolari patogeni, e questa
tecnologia è stata usata anche per studiare il coronavirus proprio in questo periodo. Quindi questa tecnologia
della Oxford NANOPORE è in qualche modo ancora più rivoluzionaria, perché per la prima volta si è riusciti
ad utilizzare delle proteine e a legare fisicamente delle proteine di membrana che creino un poro su una
membrana che non lascia passare corrente e ad utilizzare una polimerasi ingegnerizzata per interagire con
questo poro di membrana e per spingere all’interno del poro la sequenza di DNA una base alla volta. Il
macchinario poi legge la differenza di potenziale che c’è ai lati del poro e le variazioni che ciascuna base causa
nel flusso di corrente, perché ciascuna base ha una struttura diversa e quando passa nel poro cambia il
passaggio degli ioni e quindi della corrente, e di conseguenza leggendo la differenza di potenziale che cambia
nel tempo si riescono ad avere informazioni sulle basi. Uno degli strumenti da loro prodotti è piccolo quanto
una penna USB e può essere collegata a un portatile e utilizzata in giro.
Queste tecnologie nel loro complesso hanno portato la nostra specie nell’era della genomica individuale,
perché già oggi è possibile determinare la sequenza del proprio genoma ad un costo molto basso, di poche
centinaia di euro, e i risultati che si potranno ottenere saranno sempre più accurati e costeranno sempre di
meno in futuro, chiaramente con tutto quello che a questo ne conseguirà. Si potrà sicuramente rispondere
ad un sacco di domande biologiche, scoprire i dettagli dei meccanismi di azione per esempio di
numerosissime malattie, però si avranno anche tante informazioni sugli individui che bisognerà gestire con
molta attenzione.
Concludiamo questa lezione vedendo come

l’utilizzo di queste tecnologie ci ha aiutato a
risolvere un problema che era rimasto in
sospeso, cioè l’identificazione del Male
determining factor (M-Factor) di Ceratitis
capitata, cioè del segnale primario della
determinazione del sesso. In Ceratitis capitata,
grazie ad un progetto di ricerca che è iniziato
molti anni fa e che è durato quasi 20 anni, sono
stati isolati tutti gli omologhi di drosophila e si è
scoperto che il gene Sex-lethal non è coinvolto nel controllo della determinazione del sesso, mentre invece il
gene tra e tra2 sono coinvolti nel controllo di questo processo. In particolare il gene tra è in grado di
autoregolare il proprio splicing solo in femmine. Nei maschi questa autoregolazione non si innesca perché è
presente sul cromosoma Y un fattore mascolinizzante che blocca l’azione del gene trasformer, e quindi se
questa autoregolazione non si istaura nelle primissime ore dello sviluppo non riesce poi più ad essere
innescata nel corso degli stadi successivi e l’embrione XY si svilupperà come maschio. Invece in femmine
l’assenza del Male determining factor permette l’istaurarsi dell’autoregolazione, che parte grazie a prodotti
materni sia di tra che tra2, e questa memoria sarà mantenuta per tutto il corso dello sviluppo sessuale
femminile.
Quello che sapevamo prima di approcciare questo
problema era soltanto che il Male determining factor è
un gene che è espresso precocemente durante
l’oogenesi e che si trova sul cromosoma Y, ma il
cromosoma Y di Ceratitis capitata non è un oggetto tanto
piccolo: tutto il cromosoma Y conta 52 Megabasi,
soltanto la regione che si pensava contenesse il Male
determining factor è una regione di circa 8 milioni di basi.
Una regione difficile da isolare, non si possedeva nessun
entry point per andare a pescare nel genoma questo tipo
di sequenza. Quindi per anni si è cercato di risolvere il
problema con metodi molecolari, di sottrazioni molecolari, utilizzando PCR differenziale, comparando
campioni di maschi e femmine in vario modo, senza però riuscire ad arrivare all’obbiettivo. Ci siamo riusciti
proprio grazie all’utilizzo del Next-Generation Sequencing, in particolare due tecnologie di sequenziamento,
sia quella illumina che quella PACBIO, utilizzando un software che era stato sviluppato da colleghi
dell’università americana dell’istituto politecnico della Virginia, il Virginia High-Tech. Questi colleghi volevano
fare la stessa cosa, cioè loro erano interessati ad isolare il Male determining factor in una zanzara, Anopheles
stephensi, e hanno avuto un’idea geniale. Non solo hanno avuto un’idea geniale ma hanno sviluppato un
software che poi hanno reso disponibile in maniera gratuita alla comunità, e quindi proprio grazie a questo
sistema abbiamo avuto la chiave per risolvere il problema.
L’algoritmo che loro hanno inventato si chiama chromosome quotient, l’idea è questa: se io faccio la
sequenza genomica usando tecnologia illumina di DNA estratto da una femmina e faccio la stessa cosa con
DNA estratto da maschi avrò una collezione di reads di 100 coppie di basi che sono corrispondenti a ciascun
cromosoma. Nella femmina io avrò reads che derivano dagli autosomi e reads che derivano dai cromosomi,
dal cromosoma X (di queste reads ho una dose doppia, perché ho due cromosomi X). Nei maschi invece avrò
reads che derivano dagli autosomi più o meno nello stesso numero, reads che derivano dal cromosoma X (e
mi aspetto che queste reads siano la metà rispetto quelle prodotte sequenziando il genoma delle femmine)
e reads che derivano dal maschio. Se io ho una collezione di sequenze genomiche derivate da un maschio (si
tratta di sequenze assemblate), prendo il DNA genomico di maschi, lo assemblo e ottengo dei contigs (non
ottengo le sequenze dei cromosomi, ma ottengo dei contigs). In questa condizione di sequenze assemblate
ci saranno sequenze assemblate corrispondenti agli autosomi, sequenze assemblate corrispondenti al
cromosoma X e sequenze assemblate corrispondenti al cromosoma Y, tuttavia non ho modo di identificare
chi è uno e chi è l’altro. Allora questi autori si sono inventati questo sistema: se noi prendiamo le reads di
femmine e le reads di maschi in due esperimenti paralleli, cerchiamo di mappare queste reads sulle sequenze
genomiche assemblate e andiamo a contare quante volte mappano le sequenze nei due sessi, possiamo in
qualche modo riuscire ad identificare le sequenze che sono legate al cromosoma Y, al cromosoma X e agli
autosomi.
Questo viene fatto secondo quale principio? Noi ci aspettiamo che le sequenze che corrispondono agli
autosomi vedano un numero di reads mappate più o meno uguale, comparabile, tra le reads derivate dalle
femmine e le reads derivate dai maschi. Le sequenze che corrispondono al cromosoma X invece vedranno
mappare un numero di reads in femmine che è doppio rispetto al numero di reads che posso mappare usando
quello dei maschi. Nel caso dell’Y invece io otterrò un numero di reads mappabili soltanto se uso i dati di
maschi perché nelle femmine queste sequenze sono completamente assenti. Allora loro hanno ideato questo
algoritmo che non fa altro che fare il rapporto tra il numero di reads, per ciascuna di queste sequenze fa il
rapporto tra il numero di reads mappate usando il campione di femmine e il numero di reads mappate usando
il campione di maschi. Quello che loro hanno visto con Anopheles stephensi è che effettivamente ottengono
degli isogrammi di distribuzione di questi score di chromosome quotient intorno a 1 per sequenze
autosomiche, intorno a 2 per sequenze dell’X e intorno a 0 per sequenze dell’Y (perché nel caso di sequenze
dell’Y avrò 0 fratto un numero e di conseguenza il risultato sarà sempre 0). Quindi con questo sistema io
posso digitalmente comprendere quali reads assemblate, quali sequenze genomiche assemblate, sono
putative del cromosoma Y. Allora utilizzando questo approccio abbiamo prodotto delle reads lunghe, quindi
per evitare anche il problema di dover fare l’assembly, abbiamo preso il DNA da un maschio di Ceratitis
capitata e abbiamo prodotto delle reads con la tecnologia PACBIO. Poi abbiamo preso sia maschi che
femmine separatamente e abbiamo prodotto delle reads con tecnologia illumina. Per le femmine quindi
avremo prodotto delle reads corrispondenti sia agli autosomi che al cromosoma sessuale X, per i maschi
avremmo prodotto reads corrispondenti agli autosomi, al cormosoma X e al cormosoma Y. Dopodiché
abbiamo applicato l’algoritmo del chromosome quotient, abbiamo mappato queste reads sulla collezione di
reads genomiche prodotte nei maschi. Questo ci ha permesso di dare un nome a questi oggetti e di
identificare tra questi quelli che in teoria erano derivati dal cromosoma Y, cioè reads PACBIO lunghe contro
le quali mappavano solo reads del campione di maschi e non del campione di femmine. Mappare una reads
non significa altro che fare una specie di blast: prendo una sequenza di 100 coppie di basi e cerco una
sequenza ad essa identica nella mia collezione di sequenze genomiche, se riesco a trovarla mappo la reads in
quel punto e segno 1 per la sequenza genomica sulla quale sarà mappata la reads e ripeto l’operazione con
tutti i milioni di reads piccole. Quindi per ciascuna di queste sequenze genomiche io ottengo degli score.
Per esempio (Guarda la slide) quando mappo le reads di

femmine ottengo che su una sequenza vengono mappate
100 000 reads e quando mappo le reads di maschi ottengo
sempre 100 000 reads, su un’altra sequenza invece quando
mappo le reads di femmine ottengo che vengono mappate
50 000 reads, ad esempio, e mappando le reads di maschi
25 000 reads e questa è una chiara indicazione che questa è
una sequenza dell’X. In un’altra sequenza ancora se mappo
le reads di femmine riesco a mappare praticamente niente,
se mappo le reads dei maschi ottengo 3-4 mila reads, e
questa è un’indicazione che queste sequenze sono appunto
Y linked. A questo punto abbiamo creato una sottocollezione di sequenze che sono putative del cromosoma
Y. Ma avevamo comunque il problema di doverle poi analizzare ad una ad una per cercare di trovare dei geni
all’interno di queste sequenze, e tra questi trovare il Male determining factor.
Come isolare quindi su queste sequenze il gene corrispondente al male determining factor?
Per risolvere questo secondo problema (che avrebbe richiesto comunque anni, perché erano centinaia le
reads genomiche lunghe che abbiamo tirato fuori con questa genomica, e non è proprio facile cercare un
gene in sequenze derivate dal cromosoma Y, anche perché è un cromosoma ricchissimo di sequenze ripetute)
abbiamo utilizzato un altro approccio, abbiamo utilizzato un secondo approccio bioinformatico, questa volta
di trascrittomica. Si è detto che silenziando il gene trasformer mediante RNA interference si riesce a
riprogrammare un embrione XX e si può far diventare questo embrione XX un maschio.
Noi abbiamo prodotto anni fa nel nostro

laboratorio una linea transgenica che è in
grado di fare proprio questo, e grazie a questa
linea transgenica siamo riusciti a mettere a
punto un particolare schema di incrocio che ci
permette di produrre solo embrioni di tipo XX.
Siamo quindi in condizione di fare un incrocio
tra maschi XX non transgenici e femmine XX
che invece hanno il transgene che silenzia il
gene tra. Utilizzando questo sistema è possibile
arrivare ad un incrocio tra maschi XX e
femmine XX e come atteso questo produrrà soltanto embrioni XX, che si svilupperanno come femmine
selvatiche normali. Quindi abbiamo prodotto due popolazioni di embrioni: una popolazione di embrioni solo
XX e una popolazione mista, normale quindi, nata da un incrocio tra maschi e femmine normali, sia XY che
XX. Abbiamo estratto l’RNA e abbiamo applicato il Next-Generation Sequencing anche a questi due campioni
utilizzando la tecnologia illumina (vedremo meglio nella prossima lezione che infatti il Next-Generation
Sequencing si può applicare anche all’RNA, quello che si chiama RNA-seq). La comparazione dei trascritti
assemblati con le reads di embrioni sia XX che XY ci ha permesso di identificare poche centinaia di geni
putativi maschio specifici espressi durante l’embriogenesi, geni quindi che teoricamente dovevano contenere
all’interno anche il Male determining factor. A questo punto abbiamo combinato i risultati delle due analisi,
cioè siamo andati a guardare se tra questi poche centinaia di geni maschio specifici, espressi precocemente
durante l’embriognesi, di questi alcuni fossero presenti proprio su quei contigs genomici identificati col
chromosome quotient e abbiamo identificato soltanto 19 oggetti, un numero ragionevole per poter essere
poi analizzato.
L’analisi dei primi tre di questi 19 oggetti ci ha
permesso di identificare un gene che codifica per
una proteina molto piccola che abbiamo
chiamato MoY, ovvero Maleness-on-the-Y, che
rappresenta proprio il Male determining factor.
Questo gene infatti se viene spento in embrioni
XY permette la riprogrammazione di questi che
si svilupperanno come femmine XY, quindi tutto
il contrario di quello che accade se si va a
silenziare il gene trasformer. Se invece questo
gene si fa esprimere in embrioni XX, questi
embrioni XX vengono riprogrammati e si
svilupperanno come maschi XX. Questo lavoro è
stato pubblicato l’anno scorso sulla rivista
Science, che è una rivista molto prestigiosa, e
quindi grazie alla bioinformatica e alla
collaborazione di numerosi colleghi sia italiani
che stranieri siamo riusciti a completare lo studio della determinazione del sesso e ad arrivare a questo
risultato di cui siamo molto orgogliosi e contenti.
In sintesi la bioinformatica, la genomica e la
trascrittomica aprono delle porte perché
permettono di isolare geni altresì non
facilmente identificabili e isolabili e
permettono di fare delle analisi che sono
importanti e rilevanti anche per lo studio di
geni master che controllano processi
importanti dello sviluppo. Nella prossima
lezione cercheremo di capire come questa
tecnologia si può utilizzare non soltanto per
il DNA ma anche per l’RNA, ma soprattutto
cercheremo di capire come questa
tecnologia può essere utilizzata anche per
studiare l’espressione genica. Infatti
l’espressione genica differenziale all’interno delle cellule nelle prime fasi dello sviluppo è fondamentale per
determinare in qualche modo l’identità delle cellule e per permettere lo svolgimento del programma di
sviluppo. E quindi riuscire a studiare con risoluzione elevatissima le espressioni differenziali, anche addirittura
di singole cellule di un embrione in sviluppo, si può immaginare che sta avendo e avrà un impatto sempre
maggiore per lo studio della genetica dello sviluppo.

Lezione XV - Prof. Salvemini

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lezione XV - Prof. Salvemini

Caricato da

Copyright:

Formati disponibili

Lezione XV – Salvemini Roberto Garruto Campanile

Che cos’è la bioinformatica?

Questi sono alcuni database

La tecnica messa a punto da Sanger si basa

Questo è un classico elettrofluorogramma che si ottiene da un sequenzatiore automatico.

Quindi come si vede in questo video il sequencing NGS

Concludiamo questa lezione vedendo come

Per esempio (Guarda la slide) quando mappo le reads di

Noi abbiamo prodotto anni fa nel nostro

Potrebbero piacerti anche