Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
27.09.2016
Post-DNA era: dopo la scoperta del Dna. Importante è capire come questo
acido desossiribonucleico può essere studiato; qui subentra Kary Mullis
scoprì nel 1993 la PCR e il suo funzionamento.
PCR: reazione a catena della polimerasi, con cui siamo in grado di andare a leggere
il DNA sia di persone in vita che non e quindi analizzando i reperti antichi.
Non studieremo solo Dna nucleare (N-DNA) ma anche DNA mitocondriale (MT-
DNA).
Il DNA mitocondriale ci fornisce duplici informazioni utilizzabili sia in studi
evolutivi, antropologici che in analisi forense.
Le informazioni ricavate dal DNA nucleare, però, sono maggiori rispetto alle altre,
infatti c’è sia DNA codificante (circa il 30% di tutto il genoma) che DNA non
codificante (extra-genico, circa il 70%). Il DNA non codificante è più importante
rispetto all’altro. Perché? Un DNA che codifica produce proteine che vanno a
costituire le basi della vita fisiologica, e il DNA che codifica è sottoposto a selezione
di carattere naturale che è uno dei meccanismi che sta alla base dell’evoluzione.
Quindi è sottoposto a fenomeni selettivi.
Esempio di gene codificante: Homo Sapiens inizialmente stava in Africa e quindi gli
individui avranno avuto la pelle scura per fenomeni di carattere adattativo, perché
era più avvantaggiato rispetto a quelli con pelle chiara (perché resiste meglio al Sole);
adesso, invece, la maggior parte delle persone ha la pelle chiara questo perché ci
sono stati fenomeni evolutivi che hanno portato a miglior adattamento/fitness quelli
con la pelle chiara rispetto a quelli con la pelle scura. Quali vantaggi porta la pelle
chiara? Poco sole, poca vitamina D e quindi possibile rachitismo per individui con la
pelle scura.
Quindi i geni che codificano sono importanti, ma sottoposti a selezione naturale.
Per cui se devo effettuare studi di carattere evolutivo non ha senso studiare i geni
codificanti perché è possibile che popolazioni diverse sviluppino certe
caratteristiche compatibili anche se non sono imparentati.
All’interno del genoma nucleare non codificante ci sono zone che ci interessano e
sono dette Mini-Satellite e Macro-Satellite che provengono entrambe da ripetizioni
in tandem (tutte le regioni di DNA costituite da sequenze di due o
più nucleotidi ripetute una di seguito all'altra, per esempio ATTCGATTCGATTCG è
una ripetizione in tandem di ATTCG ripetuta tre volte).
Micro-Satellite
Tratti di DNA formati da un numero di nucleotidi ripetuti in tandem, la cui unità
di ripetizione va da 1 a 6 bp.
Sono anche detti SSR (Single Sequence Repeated) o STR (Short Tandem Repeat).
I microsatelliti sono considerati neutrali, ovvero senza alcun effetto fenotipico,
anche se alcuni lo presentano (ad esempio l’espansione del numero di basi presenti
a livello di un promotore può andare ad interrompere la trascrizione).
Ci consente di sviluppare sistemi di identificazione personale sia per l’ambito
forense sia nello studio delle popolazioni.
Mini-Satellite
Le unità di ripetizione dei minisatelliti variano dalle 8 alle 100bp e possono essere
ripetute dalle 5 alle 1000 volte.
Esempi di minisatelliti: gene della mucina 1 che codifica per una glicoproteina
molto polimorfica contiene unità di ripetizione di 20AA che varia nel numero di
copie da 20 a 120.
Esempio
Prendo due sequenze di DNA: ATG e ACG. C e T sono varianti ad un determinato
Locus. Se si tratta di una sola base allora si chiama SNP.
29.09.2016
DNA MITOCONDRIALE
I principali sono (in figura in senso orario): CytB, ND5, ND4, ND4L, ND3, COIII,
ATPasi6, ATPasi8, COII, COI, ND2, ND1, RNA16s, RNA12s. La maggior parte di
questi geni codificano per le subunità della catena respiratoria, due per RNA
ribosomiali e 22 per RNA transfer. Noi utilizziamo le informazioni di DNA
mitocondriale come barcoding per identificazione specifica.
04.10.16
DNA ANTICO
Con il termine DNA antico (aDNA= ancient DNA) si indica qualsiasi traccia di DNA
proveniente da un organismo morto o da parte di esso, o anche DNA estratto da
campioni biologici non recenti come il DNA contenuto in una goccia di sangue
coagulata, nello sperma, o nelle poche cellule epiteliali che si possono ritrovare nel
mozzicone di una sigaretta. Quindi se vogliamo essere più precisi si può
considerare antico qualsiasi DNA che è stato sottoposto a processi autolitici o
diagenetici.
Gene FOXP2: gene collegato allo sviluppo del linguaggio articolato. È stato visto
che i Neanderthaliani condividevano la variante del gene FOXP2 con i Sapiens.
Questo ci ha fatto pensare che Neanderthal fosse in possesso di un linguaggio
articolato simile a Sapiens (ci si immagina sia perché il gene era diverso dalla
Famiglia degli Scimpanzé sia perché avranno dovuto avere qualcosa per
comunicare con gli altri cacciatori, in quanto i Neanderthal erano grandi
cacciatori).
2007: Neanderthal e Sapiens avevano, invece, sequenza diversa nel gene relativo
al recettore 1 della melanocortina. Questo ci ha permesso di capire che mentre
i Sapiens in questi geni avevano una sostituzione nucleotidica C, i Neanderthal
avevano una T. questa sostituzione comportava in entrambe le specie una
pigmentazione di pelle chiara e rossiccia nei capelli.
QUINDI: Entrambi i geni situati sullo stesso cromosoma avevano sequenze
differenti che portavano ad una caratteristica fenotipica uguale in due differenti
individui.
2010: utilizzando le NGS per la prima volta viene analizzato un draft (bozza) del
genoma dell’uomo di Neanderthal. Quello che le sequenze ci rivelavano in relazione
ad Homo Sapiens siamo sicuri che fosse una bozza di genoma priva di
contaminazione, realizzata unendo genomi recuperati da 5 neanderthaliani.
Sempre in questo anno venne sequenziato il primo mitocondrio completo di un
Sapiens vissuto circa 38000 anni fa in Russia ci diceva che non era molto differente
dai Neanderthaliani. C’era da capire perché.
06.10.2016
Quindi questa metodologia richiede la PCR: reazione a catena della RNA polimerasi
ed è una metodologia utilizzata soprattutto nell’ambito forense perché per quanto
riguarda gli studi di carattere evolutivo, riguardanti l’analisi del DNA degradato,
non viene quasi più utilizzato.
Siccome devo andare ad amplificare il DNA, il primo reagente che metterò nella
reazione è appunto il DNA sotto forma di due filamenti. Abbiamo detto che questa
PCR funziona grazie all’utilizzo di una coppia di primers, quindi metto anche questi.
Cosa sono? I primers sono dei frammenti di DNA complementari alle regioni che
voglio andare ad analizzare: la coppia di primers verrà sistemata a monte e a valle
della mia regione, ma come polimerizza il DNA? Cioè in che direzione? 5’ -> 3’ quindi
la polimerizzazione della regione su un filamento sarà in direzioni opposte.
Ovviamente se devo amplificare una regione, significa che devo utilizzare anche un
qualcosa che mi polimerizza queste due catene e quel qualcosa è una Taq
polimerasi che polimerizza i nucleotidi trifosfati che non sono altro che i
mattoncini che vanno a costituire la molecola. Cioè la Taq polimerasi inserirà,
punto per punto, la base azotata che trova corrispondente: quindi se trova una A,
inserirà una T ecc. purtroppo però noi abbiamo a che fare con DNA degradato
quindi la situazione non sarà altrettanto semplice. Perché viene utilizzata la Taq
polimerasi? Perché lavora a temperature più alte, infatti nella reazione della PCR
prima si lavora a 94° per denaturare il DNA, in quanto se i primers devono
attaccarsi alla catena, è ovvio che questa prima debba aprirsi, poi la temperatura
scende e si avvicina ai 50°-60° (temperatura di Annealing) -> a queste temperature
i primers sono in grado di attaccarsi; ma come mai c’è un delta così grande? Perché
siccome i primers hanno sequenze di basi differenti a seconda del numero di C e G
presenti all’interno di questi primers, servono temperature più alte o più basse per
attaccarsi alla catena del DNA. La terza temperatura incontrata durante la reazione
è quella di 72° (temperatura di estensione) -> a questa temperatura la catena si
estende, cioè viene ricostruita. Tutto ciò viene ripetuto per un numero di 30-40-50
volte, dipende da quanto DNA deve essere amplificato. (filmato PCR)
REAGENTI TEMPERATURA
DNA 94°C
PRIMERS 50°-60°C (temperatura di Annealing)
DNTPs 72°C (temperatura di estensione)
Taq polimerasi “
Se faccio un grafico in cui sull’asse delle ascisse metto il numero dei cicli e sulle
ordinate metto il numero delle molecole di DNA prodotte attraverso la PCR: vedo
che nel primo ho due copie di DNA e 0 target copie, al secondo ciclo ho 4 copie di
DNA e 0 target copie, solamente al terzo ciclo di PCR ho le prime due coppie di
target copie -> nel grafico finale vediamo che dopo 30 cicli ho un miliardo e 73
milioni … copie di DNA partendo da una singola molecola. Quindi se le molecole
da cui parto sono molte di più vedremo che si ottengono miliardi di copie di DNA
amplificato, cosa che mi permette di andare a leggere le sequenze e studiarle nel
dettaglio. Questo è il funzionamento della PCR, ma c’è sempre da capire come
funzionano gli OVERLAPPING FRAGMENTS (frammenti che tra loro si
sovrappongono).Cosa significa fare un’amplificazione utilizzando overlapping
fragments?
Il nostro DNA si presenta molto frammentato e la media della frammentazione è
intorno alle 70-80 paia di basi, con una coppia di primers che amplificano una
regione fatta da 20 paia di basi, cioè 20 da una parte e 20 dall’altra, se devo
amplificare un frammento di 80 paia di basi, 20 + 20 = 40, 80-40 = 40 -> quindi è
un po' complesso, non è tanto semplice. È per questo che la PCR non funziona così
bene su un DNA altamente degradato perché qui possiamo trovare regioni di
diverse lunghezze, alcune le posso amplificare con la PCR, ma comunque sono
lunghe 140-150 paia di basi. Supponiamo di voler analizzare 360 paia di basi della
regione HVR1 che però non riesco a trovare tutte insieme; l’unica soluzione che ho
è l’utilizzo di overlapping fragments: quindi se io volessi andare ad amplificare
queste 360 paia di basi, potrei costruire un sistema di primers che amplifica un
primo frammento, un secondo e un terzo.
____0______________________________________________________360___
|_________ |___| | | |
120 | | | |
|______________|___| |
120 | |
|_____________________________ |
120
Quindi con tre coppie di primers io posso andare ad amplificare una regione un po'
più grande rispetto a quella che mi posso trovare all’interno del mio campione,
quindi 360 significa 120-120-120 che mi vanno poi a ricostruire, una volta
confrontate tra di loro, le 360 paia di basi della HRV1 dell’mtDNA.
Ricostruzione dell’HVR1
dell’uomo di Neandertal
con 7 overlapping
fragments.
QUINDI: utilizzare
overlapping fragments ci
permette di superare la
problematica della
rottura dei filamenti e del
danno ossidativo.
Primers:
corte sequenze di DNA complementari alle 2 estremità del frammento da
amplificare
dNTPs (dATP, dGTP,dCTP,dTTP):
nucleotidi trifosfati, ‘mattoni’ per costruire i nuovi filamenti
Taq polimerasi
(+ buffer e MgCl2):
enzima (DNA polimerasi) che compie la reazione
DNA stampo
Es. gel con pozzetti dove carico il DNA. Nel primo e nell’ultimo ci metto il controllo
negativo e il controllo positivo (cosa sono? Il controllo negativo è costituito da tutti
i reagenti della PCR tranne il DNA serve per controllare che non ci sia
contaminazione; quello positivo sia per vedere la corretta altezza delle bande sia
per verificare che abbia messo tutto bene nei pozzetti.
Vedi disegno quaderno scanner.
FOTO
Campione n1: maschio; n2: femmina; n3: maschio; controllo positivo: maschio
perché presenta entrambi gli alleli. La banda più in basso è 106 perché è quella
più leggera e quindi quella che arriva prima.
Però essendo campione degradato chi mi dice che il campione 2 dove vedo solo il
106 non ci sia anche un allele degradato? Può succedere che avvenga perdita
allelica, è molto frequente. Per assicurarmi che il campione 2 sia una femmina
posso ripetere l’esperimento una seconda volta sullo stesso campione, ma ad
esempio partendo da un frammento osseo diverso.
Posso usare un’altra coppia di primers che vanno ad analizzare un altro locus posto
solo sul cromosoma Y, quindi effettuo una PCR Multiplex perché utilizzo più di
una coppia di primers (molte coppie di primers, in questo caso due). Solitamente
vengono amplificati fino a 17 loci.
Il frammento che vado ad amplificare si chiama SRY perché esclusivo del
cromosoma Y ed è lungo 93 paia di basi; scelgo un frammento ancora più piccolo
dei 106-112 perché ci sta che ci sia frammentazione di frammenti più grandi.
Il Range massimo di frammenti amplificabili sono circa 45bp, quindi dobbiamo
utilizzare frammenti piccoli ma non troppi.
Ripeto l’esperimento e trovo 4 bande sul 93, questo perché tutti gli individui sono
maschi.
Multiple and Independency PCR: Multiple vuol dire che dobbiamo fare più PCR per
ogni singolo estratto, mentre Independency in più laboratori.
Criteri of authenticity:
- Aree di lavoro fisicamente separate
- Controlli negativi sia in fase di estrazione che amplificazione
- Amplificazione di piccoli frammenti di DNA max 200mp
- Riproducibilità del dato: stesso risultato da differenti estratti
- Clonaggio
- Riproducibilità dell’intera fase sperimentale da un altro operatore in un altro
laboratorio
- Quantificazione delle molecole; una volta amplificato il DNA con Real Time
posso vedere in tempo reale quanto DNA ho all’interno di un estratto.
20.10.2016
L’ultima volta abbiamo parlato del clonaggio genico come un meccanismo che ci
permette di suddividere le molecole di DNA che sono state prodotte attraverso
l’amplificazione.
RIASSUMENDO: siccome partiamo dall’analisi di un reperto antico di un individuo
vissuto nel passato, che sia un neandertaliano o un sapiens, il DNA che andiamo
a recuperare è un DNA degradato e quindi quando la coppia di primers si attacca,
durante la reazione della PCR, su una molecola di DNA mitocondriale ad esempio,
abbiamo la possibilità e spesso accade che questa molecola sia degradata in vari
punti e che questa degradazione possa compromettere un’analisi successiva
quando andiamo a sequenziare questo DNA -> Cioè se andiamo a leggere la
sequenza di DNA che passa attraverso un’amplificazione e quindi un
sequenziamento diretto di questo prodotto di amplificazione, non è detto che il
risultato rispecchi quello che realmente c’è all’interno di questo frammento osseo
perché abbiamo detto che nell’estratto ci sono centinaia di migliaia di molecole di
DNA mitocondriale e quindi se andiamo ad amplificare una di queste molecole
degradate, le amplifico tutte, ma se ne sequenzio solo un gruppo avrò un risultato
che non prende in considerazione tutto quello che si presenta all’interno e
addirittura potremmo avere un risultato sbagliato. Quindi il passaggio del
clonaggio, nella metodologia classica, ci permette di setacciare il pool di molecole
prodotte durante l’amplificazione e poi ci permette di confrontarle e di vedere
effettivamente quali sono le molecole che possono essere considerate endogene del
reperto.
Un flusso di lavoro con la metodologia classica è un flusso di lavoro che negli studi
di carattere antico non viene quasi più utilizzato: è una metodologia un po' passata,
ma è importante perché, anche se non è utilizzata per lo studio dell’evoluzione
naturale dell’uomo, è utilizzata nell’antropologia forense. Con questa metodologia
in fin dei conti sono stati prodotti una serie di risultati scientifici che hanno messo
in mostra numerose ed importanti ricerche riguardanti la storia evolutiva della
nostra storia.
X es: popolazioni fuigine, della terra del fuoco, cioè gli antichi abitanti della
Patagonia; questi individui sono presenti in buon numero sia nel museo di Firenze
che a Roma. Non sono molto antichi (1700-1800), ma sono gli ultimi morti in quelle
terre. Erano chiamati così perché erano nudi e indossavano solo qualcosa per
coprire il bacino e accendevano grandi fuochi sulle terre da cui passavano. Sono
stati studiati anche da un punto di vista genetico per la loro resistenza alle alte
temperature, ma aldilà di questo, andando a studiare il DNA di un abitante della
Terra del fuoco, i cui reperti erano stati sicuramente manipolati da vari individui,
si sono trovate tantissime contaminazioni, però la cosa importante era sapere che
questi reperti erano stati studiati da individui europei -> analisi filogenetiche:
abbiamo estratto il DNA amplificato con il clonaggio, dopodiché si sono ricostruite
le sequenze di DNA mitocondriale. Sappiamo che le popolazioni native americane
hanno apogruppi A, B, C, D che sono diversi dagli apogruppi europ e la differenza
si osserva dalle sostituzioni nucleotidiche di ogni apotipo mitocondriale. Quindi
andando ad osservare, tra tutte le sequenze clonate, quali erano quelle sequenze
che avevano quelle sostituzioni nucleotidiche caratteristiche di quei determinati
apogruppi mitocondriali, abbiamo potuto estrarre queste informazioni e abbiamo
potuto recuperare le sequenze endogene. Ma come mai abbiamo preso queste
sequenze e siamo sicuri che sono endogene? Attraverso lo studio di carattere
filogenetico, cioè analizzare gli apogruppi mitocondriali significa costruire alberi
filogenetici che mettono in relazione le sequenze dal punto di vista evolutivo e che
quindi ci permettono di separare quelle molecole mitocondriali che appartenevano
ad un determinato apotipo mitocondriale.
Quindi noi dalle analisi di tipo filogenetico sappiamo che i nativi americani avevano
apogruppi A, B, C e D e che quindi avevano precise sostituzioni nucleotidiche, cioè
per esempio un apotipo D ha come caratteristica quella di avere, in posizione
16223, una C invece di una T e quindi sappiamo che quella determinata sequenza
con quella determinata sostituzione afferisce a quel determinato apotipo
mitocondriale. Quindi se da questo pannello di ampliconi andiamo a recuperare
quelle sequenze che hanno queste caratteristiche con queste sostituzioni
nucleotidiche che conosciamo, sappiamo che queste sono SEQUENZE
ENDOGENE, ma lo possiamo fare perché abbiamo fatto studi di carattere
filogenetico. -> comunque possiamo usare questo metodo perché sappiamo che i
reperti sono stati manipolati da operatori europei, perché se fossero stati
manipolati da antropologi nativi americani non l’avremmo potuto fare.
QUINDI:
Per ogni posizione in alcune nuove molecole si inserisce un deossinucleotide
la sintesi del filamento continua
In altre molecole si inserisce un dideossinucleotide
la sintesi del filamento si blocca
In ogni tubo di reazione si possono formare
diversi possibili frammenti:
X ESEMPIO (2): DIGESTIONE DEL LATTE. Chi non digerisce il latte ha una carenza
di lattasi dovuta ad una sostituzione puntiforme nella posizione 13919 di una C
con una T del promotore della lattasi. Il latte è un prodotto di un animale -> da
193.000 anni (a cui risale il primo individuo della nostra specie) fino a 7000 anni
fa, il latte non veniva digerito; nel neolitico però siamo venuti in contatto con i
processi di addomesticazione in un luogo ben preciso che era la Mesopotamia.
L’addomesticazione riguardava sia piante che animali, ma addomesticare un
animale significa renderlo partecipe della vita dell’uomo, ma soprattutto significa
andare a selezionare quegli animali che avevano caratteristiche importanti anche
per lo sviluppo dell’agricoltura. Per esempio i bovini all’inizio vennero addomesticati
perché erano utili per tirare l’aratro nei campi. Poi ci siamo accorti che il latte dei
bovini era buono, ma siamo entrati in contatto con l’alimento solo poche migliaia
di anni fa e quindi nella nostra popolazione sapiens c’erano sia individui che non
potevano digerire il latte sia individui che invece lo digerivano. Quindi il discorso
della incapacità di digerire il latte, se si tratta di una sostituzione puntiforme del
cromosoma 2 nella posizione 13.919 C-T, significa che mi posso aspettare che in
individui vissuti nel Paleolitico superiore questo gene fosse un gene ancestrale. Se
questo è vero, se trovo questa sostituzione nucleotidica che porta alla non
digeribilità del latte, in un individuo sapiens vissuto nel Paleolitico superiore, può
essere anche un risultato valido, specialmente se chi l’ha manipolato sono tutti
individui che non hanno questa sostituzione nucleotidica. Quindi da un punto di
vista pratico un locus di questo tipo posso anche andare ad investigarlo.
Quindi l’analisi del DNA nucleare su reperti umani è legata molto spesso alla
storia tafonomica e alla comparazione delle sequenze.
NEANDERTAL: se devo fare il DNA
mitocondriale è molto più semplice perché
ha sequenze che sono differenti dal sapiens,
quindi il DNA mitocondriale è OK. Se invece
devo fare il DNA nucleare, sicuramente il
gene della lattasi i neandertaliani non ce
l’avevano, ma non avevano nemmeno
l’enzima per la digestione dell’amido; quindi
se devo andare a fare delle analisi sul DNA
nucleare che codifica per enzimi che posso
associare a determinate caratteristiche
comportamentali di un determinato
individuo neandertaliano, posso capire che
la lattasi non ce l’aveva, come anche l’amilasi ecc. il problema subentra quando,
con la metodologia classica, voglio andare ad analizzare geni che i neandertaliani
possono condividere con noi.
ESEMPIO: abbiamo già visto che i neandertaliani e i sapiens, per quanto riguarda
il gene FOXp2 che è un gene che è deputato per lo sviluppo delle abilità linguistiche,
hanno la stessa sequenza. Quindi se trovo la stessa sequenza in un Neanderthal e
in un sapiens, come ho fatto a capire quella sequenza neandertaliana era di un
Neanderthal perché la possedeva questo individuo e non si trattava di una
contaminazione?
Quindi ho una sequenza di DNA nucleare neandertaliana che non riesco a
distinguere da quella sapiens a quel determinato locus.
A questo punto si può parlare di:
POLIMORFISMI DI ALLELI ANCESTRALI VICINI AL LOCUS CHE ANDIAMO A
STUDIARE:
io ho la sequenza del gene FOXp2 dell’uomo sapiens dove è presente il polimorfismo
che vogliamo andare ad investigare. Supponiamo che neandertal abbia lo stesso
polimorfismo e quindi la stessa sostituzione nucleotidica, quindi ha quel locus e
entrambi hanno l’allele uguale. Questo allele è ancestrale o derivato? Per dirlo
bisogna rapportarlo a qualcos’altro: potrei trovare una sequenza di DNA che a quel
determinato locus ha un allele ancestrale. Quale potrebbe essere quella
determinata specie che a quel determinato locus potrebbe avere un allele
ancestrale? Se vado a ricostruire la storia evolutiva dei sapiens e dei neandertaliani
so che in un punto del passato, X milioni di anni fa, entrambi avevano un
progenitore in comune e so che anche questo progenitore comune, X milioni di anni
fa, aveva un progenitore in comune sia neandertal che sapiens, ma anche altre
linee evolutive si sono evolute da questo antenato comune. Sappiamo benissimo
per esempio che le scimmie (Pan troglodytes), circa una decina di milioni di anni
fa, avevano un antenato in comune alla linea che ha portato al genere Homo e alla
linea che ha portato al genere Pan, quindi se vado ad investigare la linea Pan posso
andare a verificare se su questa linea ho un polimorfismo differente e se ho un
polimorfismo differente, lo posso sicuramente considerare ancestrale.
Ancora però non ho risolto il problema perché entrambi hanno l’allele derivato,
quindi se vado a fare queste investigazioni non vedo se ho contaminato oppure no.
Però a questo punto io potrei andare a vedere, andando ad investigare la sequenza
vicina al locus che sono andato ad investigare, se ci sono altre sostituzioni
nucleotidiche che differiscono rispetto a quelle di Homo sapiens e supponiamo che
si trovino due T. Io so che neandertal ha una T e una A, la scimmia ha una G e
vicino ha una T, forse allora il locus è un locus ancestrale; ma il mio sapiens ha
una T? NO e forse allora è veramente un locus ancestrale, però questo polimorfismo
vicino al locus investigato è un polimorfismo che mi dà un’informazione importante:
mi dice che questa sequenza, anche se ha lo stesso polimorfismo che è presente in
sapiens, forse è neandertaliana e quindi non è contaminato. Ed è quello che è
stato fatto quando si sono andati ad analizzare i geni FOXp2 dei neandertal,
sono state osservate le sostituzioni nucleotidiche vicine a questo gene
presenti nei neandertaliani e non presenti nei sapiens e in questo modo è
stato possibile discriminare i diversi DNA. Si capisce che il polimorfismo del
genere Pan è più vecchio perché rispetto al genere Homo, il genere Pan si diversifica
prima quindi è ancestrale.
Quindi con la metodologia classica, se voglio andare ad investigare dei loci che
possono essere condivisi da sapiens e da neandertal, devo andare ad investigare
anche altri polimorfismi che possono essere presenti nella linea che voglio andare
ad osservare, in questo caso neandertal.
Per sviluppare la metodologia classica
inoltre occorre avere tante stanze tra loro
separate: dressing room, PCR room, real-
time room ecc. si entra da una parte, si
scorre e non si può tornare indietro.
Quindi andiamo a vedere da un punto di
vista antropologico quello che la
metodologia classica ci ha detto.
In laboratorio si recuperano piccoli microgrammi di polvere d’osso da cui poi si
parte e si fa l’estrazione del DNA. I primi studi che sono stati fatti in campo
antropologico e che hanno riguardato individui vissuti nel passato hanno
riguardato i mitocondri e il DNA mitocondriale e seguendo questa metodologia
(estrazione, quantificazione,
amplificazione, clonaggio,
sequenziamento del DNA
clonato seguendo i golden
criteria) ci possiamo trovare
di fronte a:
4. MODELLO DELL’ASSIMILAZIONE
Dice la stessa cosa del modello del REPLACEMENT,
ma dice anche che in alcuni casi è possibile che ci sia
stata una sorta di contributo genetico delle
popolazioni che prima erano fuori dall’Africa con le
popolazioni che sono uscite fuori dall’Africa.
Tra i 150.000 ed i 50.000 anni fa anche Homo sapiens esce fuori dall’Africa, ma
riguardo a questo, abbiamo capito, dai 4
modelli, che non tutti sono d’accordo.
Quindi il primo studio che fu fatto per studiare la nostra evoluzione fu fatto
utilizzando la metodologia classica su campioni moderni e attuali e questo studio
permise di spostare la nostra attenzione
verso le popolazioni africane. Ovviamente
chi si occupava di evoluzione umana e chi
non era favorevole a questa teoria dell’Eva
africana pose dei seri dubbi e uno dei più
interessanti era questo: è vero che questi
ricercatori avevano dimostrato che i
mitocondri più vecchi stanno nelle
popolazioni africane, ma è anche vero che
se studio i mitocondri studio solo una
parte degli esseri umani, cioè escludo
tutto ciò che è maschile, quindi la storia
evolutiva dei maschi potrebbe essere differente. Inoltre chi obiettava disse anche
che c’era una progressione continua nell’anatomia dei fossili, specialmente quelli
orientali del genere Homo e che si osservava anche una continuità nella
morfologia dei fossili anche europei in cui vedo dei neandertaliani e dei sapiens
che hanno caratteristiche simili tra di loro, quindi sembra quasi come se ci fosse
una sorte di continuità tra neandertal e sapiens. Quindi l’obiettore era convinto
che il modello multiregionale fosse quello più veritiero.
Qualche tempo dopo, dei ricercatori giapponesi fecero degli studi sull’alter ego del
DNA mitocondriale, ovvero il CROMOSOMA Y. Se il DNA mitocondriale si eredita
per via materna, il cromosoma Y si erediterà per via paterna. Quindi io posso
andare ad osservare il cromosoma Y in cui sappiamo che c’è una parte non
ricombinante e se in questa parte non ricombinante del cromosoma Y ho un buon
tasso di mutazione e posso seguire la storia evolutiva della linea maschile, posso
utilizzare il cromosoma Y come il DNA mitocondriale e mi posso accorgere che il
(….) vive in Africa perché la maggior parte della variabilità genetica del
cromosoma Y è a carico delle popolazioni africane e quindi in Africa c’erano i
mitocondri più antichi, ma c’erano anche gli Y più antichi.
Quindi la teoria multiregionale un po' vacillava. Ma una forte spallata a questa
teoria fu quella che venne da uno studio del 1997 (Paabo nel 1997 estrae e
caratterizza il DNA dal primo e più famoso fossile Neandertaliano) che utilizzò
tutte le informazioni che abbiamo sulla metodologia classica, cioè si andò ad
analizzare il DNA mitocondriale dell’uomo di Neandertal e a cosa si comparò? Al
DNA mitocondriale delle attuali popolazioni sapiens: si osservò che le differenze
genetiche che c’erano tra uomo-uomo e uomo-neandertal e uomo-scimpanzé,
quelle che trovò nel neandertal stavano nel mezzo ed
era un numero di differenze talmente elevato che non
era possibile pensare che i mitocondri dei
neandertaliani fossero gli antenati dei sapiens. Quindi
attraverso la metodologia classica si dimostrò che
neandertal e sapiens, da un punto di vista di
variabilità mitocondriale, erano su due linee differenti.
Quindi in un albero filogenetico, se si va ad analizzare
il DNA mitocondriale, i neandertal cadono al di fuori
della variabilità genetica delle popolazioni africane e
non africane.
Quando sembrava che fosse finita questa disputa, nel
1999 venne ritrovato in Portogallo un reperto datato a circa 24.500 anni le cui
caratteristiche morfologiche sembravano ibride tra un neandertal e un sapiens e
questa fu una prova importante per chi sosteneva la teoria multiregionale. Paabo
infatti aveva analizzato il DNA del neandertal e l’aveva confrontato con quello degli
attuali sapiens, ma quello che era più importante fare era confrontare il DNA dei
neandertaliani con quello dei sapiens.
La disputa sembrava chiusa a favore dei sostenitori dell’origine recente di Homo
sapiens;
Ma nel 1999 la disputa intellettuale improvvisamente si riapre:
viene infatti recuperato uno scheletro di un bambino datato intorno ai 24500 BP
appartenente sicuramente ad un rappresentante dell’uomo anatomicamente
moderno ma con alcuni tratti tipici dei Neandertaliani: una prova per i multi
regionalisti.
Ed è quello che fu fatto nel 2003 quando vennero analizzati i due DNA mitocondriali di due
Un’analisi cruciale che poteva quindi mettere a tacere questa disputa scientifica
Cromagnoidi italiani, vissuti 24.000 anni fa di Grotta Paglicci in Puglia e si osservò che
sarebbe stata quella di analizzare il DNA mitocondriale questi reperti dei primi
sapiens, che
rappresentati dell’uomo moderno contemporaneo ai neandertaliani:
MDS - K2P (gamma-a=0.26) Il
vivevano
Final Configuration, dimension 1 vs. dimension 2
nostro gruppo analizzò due individui Paglicci 25 e Paglicci 12 (Cromagnoidi)ai
contemporaneamente
datati 24.000 BP AFKIK Homo sapiens neandertaliani, avevano
AFMBE una variabilità
mitocondriale che cadeva
Dimension 2
Quindi con la metodologia classica abbiamo potuto testare il modello della OUT OF
AFRICA, che era il modello che funzionava meglio seguendo i dati di carattere
antropologico che si erano ottenuti con i nostri studi.
<-
PAGLICC
I
Si è potuto fare anche altri studi, per esempio sul gene FOXp2 e con la metodologia
classica, fino al 2009, abbiamo ottenuto il DNA dell’uomo di Altamura: cade
all’interno della variabilità dei neandertaliani, è un neandertaliano ed è il
neandertal da cui è stato estratto il DNA più antico del mondo, anche se in realtà
il più antico è stato estratto da Heidelbergensis.
Quindi attraverso la metodologia classica si è potuto dimostrare che il
modello dell’OUT of AFRICA e del REPLACEMENT è quello che si sposa meglio
con i dati ottenuti dallo studio dei vari mitocondri e che ci permetteva di dire
che i neandertaliani e i sapiens, da un punto di vista di DNA mitocondriali,
non potevano essere venuti in contatto.
27.10.2016
Quindi sono stati presi dente e costa, puliti, rimosso lo strato superficiale, messi
sotto gli UV (per eliminare il DNA che poteva essere in superficie) dopo di che con
una micropunta in tungsteno è stata campionata la polvere d’osso da cui iniziare
l’estrazione e il DNA delle persone che erano venute a contatto col reperto. Il DNA
analizzato era DNA mitocondriale, in particolare un frammento dell’HVR1 di 360
paia di basi, ma visto che 360 bp non possono essere amplificati in uno stesso
shock di reazione sono stati suddivisi in 3 frammenti.
1) Estrazione del Dna
2) La fase successiva all’estrazione del DNA è l’amplificazione tramite PCR
3) Clonaggio (in questo modo si creano tante copie uguali tra loro)
4) Lettura del DNA
[Anche a Barcellona sono state fatte le stesse operazioni sui due campioni diversi].
Otteniamo una sequenza consenso: quella A è relativa alla costa e la B al dente
(non trovo le immagini). 16024 è la prima base del DNA mitocondriale del
frammento HVR1.
Le linee corrispondono alle sequenze del frammento che ho clonato, dove c’è il
puntino c’è corrispondenza con la sequenza di riferimento dove c’è la base non ce
l’ho (diversità probabilmente derivante dalla misincorporazione).
F.1.1= Firenze, PCR n° 1 estratto n° 1; F.1.2= Firenze, PCR n°1 estratto n° 2. (Lo
stesso vale per barcellona)
Per esempio
1
6
0
2
4
F.1.1 …………………………………………T…………
F.1.2 ……………………………………T………….……..
F.1.3 ………………………………………………C…….
Questo per quanto riguarda il Rib (costa) e vale sia per Firenze che per Barcellona,
A.
Andiamo a vedere cosa succede x B (dente), andiamo a vedere se è presente la
posizione 16126, ma non c’è, c’è però la posizione 16129 che ha G verso A e si
ripete anche in altri ampliconi. Quindi costa e dente hanno DNA mitocondriali
differenti.
Ulteriore analisi per la determinazione del sesso di entrambi i frammenti. Era
avanzato ancora DNA perché di solito viene estratto 150micro litri ma ne viene
usato circa 25micro litri.
Come si fa? Attraverso l’analisi del gene omologo dell’amelogenina e delle SRY.
Osserviamo i risultati, può avvenire perdita allelica quindi si fanno 6 PCR.
COSTOLA
1. 112-106-93 (maschio)
2. 112-106-93 (maschio)
3. 112-93 (maschio)
4. 93 (maschio)
5. 106-93 (maschio)
6. 112-106-93 (maschio)
DENTE: per tutti i campioni avevamo solo 106 il cranio è di una donna
L’aspetto interessante della vicenda fu che il cranio era 200 anni più vecchio
rispetto alla costa (quindi il cranio era stato sostituito). Ma l’aspetto veramente
interessante fu che nel 2003/2004 durante una conferenza stampa un giornalista
fece un articolo in stile Humour British sul The Guardian che si intitolava Petrarch-
the poet who lost his head: two times.
Con questo finiamo la parte relativa alla metodologia classica e inizieremo quella
della metodologia moderna.
03.11.2016
Inizio della spiegazione sui sistemi di nuova generazione che ci hanno permesso di
incrementare le conoscenze sulla storia naturale dell’uomo.
New generation sequency (NGS)
Ci consentono di ottenere molte informazioni, per esempio avere a che fare con un
gran numero di dati. Porta molti vantaggi, l’unico svantaggio può essere quello
economico, costi molto elevati per l’utilizzo di queste tecnologie. Con queste
tecnologie è stato possibile analizzare il genoma completo dell’uomo di Neanderthal.
Questa libreria adesso devo andare a sequenziarla e leggere cosa c’è scritto, per cui
devo utilizzare questo workflow del 454 pirosequenziamento.
454 PIROSEQUENZIAMENTO
La prima cosa da fare è
denaturare la libreria
lavorando su entrambi i
filamenti, anche se nel
nostro workflow mi
concentrerò solo su un
filamento tanto l’altro è
complementare. Il
frammento andrà incontro
ad una PCR che si chiama
PCR Emulsio clonale
(EMPCR).
Avviene su micro bilie che
presentano sulla loro
superficie oligonucleotidi
complementari a quelli di
uno dei due adattatori; per
cui il frammento di un
adattatore, per esempio A,
va sulla bilia e il frammento
oligonucleotidico posto
sulla bilia si replica questo frammento si replica, si stacca e va su un altro
adattatore...si replica si stacca e va su un altro adattatore e così via fino a che tutti
i segmentini sono occupati. Tutta questa cosa qui avviene all’interno di
un’emulsione. La EMPCR finirà quando tutti gli oligonucleotidi sulla sfera avranno
un frammentino riprodotto.
In questo modo scompongo tutto il DNA
molecolare estratto, lo faccio amplificare e
successivamente la micro bilia viene messa in
un micro reattore che si trova su una piastra
(in realtà avrò miliardi di microreattori perché
ho miliardi di
microbilie)
che si metterà all’interno della macchina del
sequenziatore e mi leggerò la sequenza del
frammentino che ho amplificato sulla bilia. Le
letture che avvengono da questo sequenziatore si
chiamano Reads.
Su una bilia abbiamo detto che ci va una sola molecola, ma come fa ad andarcene
solo una che mi reagisca con una sola bilia (se ne andassero due avrei due sequenze
diverse nel microreattore)? Andando a misurare la concentrazione della libreria con
la PCR Real Time decido quante biglie mettere a far reagire in modo da avere un
rapporto stechiometrico 1:1 ovvero una molecola e una bilia. A volte non accade
perché su una bilia ci vanno tre molecole per cui il risultato del pirosequenziamento
viene scartato. Quindi io sequenzio migliaia di frammenti con illumina e con una
corsa teoricamente posso leggere tutto il genoma (lungo circa 109): molto più
efficace della metodologia classica.
Ampliconi di PCR: un passaggio fatto per separare il DNA all’interno degli ampliconi
viene effettuato il clonaggio.
Se io utilizzo il pirosequenziamento per analizzare il mio prodotto di estrazione,
posso studiare il DNA mitocondriale amplificato ed osservare che tipi di molecole
ci sono. Ho prodotti più ampi rispetto al clonaggio.
Per la prima volta questi strumenti sono stati utilizzati per lo studio della genomica
dei Neanderthaliani: analizzati,infatti, un milione di nucleotidi recuperati dall’uomo
di Neanderthal.
Parallelamente a questo fu utilizzata un’altra tecnica simile (riguardante la
metagenomica) e riuscirono ad analizzare 65000 basi dell’uomo di Neanderthal. La
cosa interessante fu che quando fecero il calcolo dei tempi di divergenza (=quando
due individui appartenenti adesso a due generi differenti si sono separati da un
antenato comune), andando a contare le sostituzioni nucleotidiche presenti sulle
basi sequenziat), mentre con la tecnica metagenomica la divergenza tra uomo
Sapiens e Neanderthal corrispondeva a 800.000 anni, con l’altra veniva intorno ai
400.000 anni. Questi dati vennero poi rianalizzati e ci si accorse che utilizzando la
tecnica di estrazione formazione di libreria sequenziamento non si trovavano
solo molecole di neanderthaliani ma anche umane che facevano abbassare il tempo
di divergenza e quindi i dati dovevano essere analizzata in maniera più accurata e
dettagliata poiché c’erano sequenze umane contaminanti.
08.11.2016
Grazie alle tecnologie ILLUMINA è stato possibile leggere ad esempio per 50 volte
il genoma dell’uomo di neandertal. Quindi i mezzi sono importanti perché ci
sconsentono di descrivere la storia evolutiva dell’Homo Sapiens (complessa storia
evolutiva). Può essere utilizzata anche per scopi a carattere investigativo, per es
analisi che è stata fatta per determinare genoma di individuo attraverso analisi di
Dna estratto da pidocchio che l’individuo aveva lasciato su scena del crimine.
È anche possibile analizzare più individui e campioni contemporaneamente, quindi
non solo a livello evolutivo, ma anche a livello di popolazione (per esempio storia
genetica dell’Europa all’età del ghiaccio in cui abbiamo fatto il genoma di una
quarantina di individui sapiens vissuti nel Paleolitico superiore e ci siamo accorti
che questi sapiens avevano caratteristiche peculiari e l’abbiamo fatto con queste
tecnologie).
Spesso per gli studi non è necessario analizzare l’intero genoma, ma a volte è
necessario recuperare informazioni da punti diversi del genoma che vogliamo
andare ad analizzare; per questo esistono una serie di tecnologie basate sulla
cattura del DNA che consentono di prendere frammenti del genoma sparsi.
Come funziona il workflow dell’illumina? La libreria si forma nello stesso modo del
454 cioè utilizzando due adattatori. La differenza è il tipo di PCR, che nel 454 è
emulsioclonale (fatta su bilia in una emulsione in cui vengono posti dei
frammentini che si attaccavano agli adattatori, si andavano a replicare, si
attaccavano e si staccavano e così via e intanto la bilia era saturata e venivano lette
le varie sequenze attraverso il piro sequenziamento) mentre nell’illumina la PCR
viene effettuata su supporto solido che è una specie di rettangolino (una specie
di microchip).
La PCR dell’illumina
è detta BRIDGE-PCR
perché su questo
supporto ci sono gli
adattatori
complementari (A o
B), arriva il
frammento, si lega
all’adattatore e si
piega su sé stesso
facendo una specie
di ponte ed inizia
l’amplificazione. Una volta fatta l’amplificazione, il ponte si stacca, e il frammento
che si è formato va su un altro adattatore e così via.
La differenza con quella dell’altra volta è che su una bilia ci può andare una sola
molecola e se casualmente su una bilia ce ne vanno due, quella bilia non si può
più leggere, mentre su un cluster ce ne possono andare tante perché possono
essere comunque lette. Con questa tecnologia siamo riusciti a leggere genomi di
individui vissuti centinaia di migliaia di anni fa.
Come faccio se io voglio leggere solo una parte del genoma, per esempio solo il
mitocondrio? Attraverso lo studio del genoma mitocondriale dell’uomo di
neandertal è stato possibile vedere:
- bassa variabilità genetica, quindi si trattava di popolazioni molto piccole;
- si muovevano poco e ce ne siamo accorti perché i mitocondri dei
neandertaliani clusterizzavano, cioè avevano dei cluster, cioè erano più
simili i mitocondri di individui che vivevano nel sud Europa rispetto a
individui che stavano nel nord Europa o individui che stavano nell’est
rispetto all’ovest e quindi significava che c’era poco flusso genico. Allora
abbiamo deciso di andare a leggere i mitocondri dei neandertaliani perché
avevamo a disposizione questa tecnologia, ma siamo andati a leggere NON
tutto il genoma dei neandertaliani.
La lettura del genoma dei neandertaliani fu fatta con un sistema detto Primer-
Extension-Capture (PEC). Come funziona? Immaginiamo di avere una libreria a
DNA, prendo una porzione di polvere ossea (da un osso di neandertaliano) e faccio
l’estrazione del DNA (modalità abbastanza classica). Quindi estraiamo il DNA
presente nell’osso, preparo una libreria, se voglio analizzare 5 individui diversi
metterò 5 INDEX diversi, quindi avrò 5 librerie diverse e anche se le mescolo
riuscirò comunque poi a separarle.
La pec è stata utilizzata per la prima volta per catturare il genoma mitocondriale
dei neandertaliani (5 neandertaliani). Una volta catturato il genoma mitocondriale,
lo sequenzio con altissima resa -> in questo tipo di sequenziamento in cui ho
un’altissima resa, di ciascun frammento catturato quante letture avrò? Tante
letture, quindi se ho tante letture (READS) di un altro frammento ne avrò
altrettante, finché tutte queste reads non andranno a ricostruire una sequenza
consenso. Ed è stato fatto così per la ricostruzione del genoma dei neandertaliani.
Oltre alle informazioni di carattere biologico elencate prima, cosa ci hanno detto i
neandertaliani? Ci hanno fatto capire come si distingue il DNA esogeno da quello
endogeno.
Abbiamo parlato di coverage di una base (se una A è coperta 9 volte significa che
è coperta 9x), quindi se un genoma neandertaliano è coperto di media 50x significa
che tutte le basi sono lette più o meno 70 volte. Leggere una base 70 volte vuol dire
che siamo sicuri che lì ci sia quella base e non c’è verso sbagliare, significa che
posso anche dire se un individuo è omozigote o eterozigote per un determinato
locus: in un 50x, se è eterozigote avrà 25 A e 25 la base complementare. Una lettura
così profonda mi dà la struttura del genoma. Dopodiché, con tutti questi software,
posso costruire una sequenza consenso andando ad eliminare quelle reads
contaminanti da quelle non contaminanti.
Esistono software che fanno tutti i conti -> si può anche dire se il DNA
mitocondriale proviene da più fonti biologiche, cioè si può discriminare i
mitocondri.
10.11.2016
- I Neanderthaliani avevano bassa variabilità genetica e ciò vuol dire che poteva
andare incontro ad estinzione. Questo visto tramite analisi del mitocondrio.
Ad oggi non si utilizza più la PEC, è stata sostituita da una nuova tecnologia.
La PEC ci serve per catturare i mitocondri andiamo a costruire dei primers
oligonucleotidici che si attaccano ad un frammento complementare, si estendono e
catturiamo; i frammenti PEC possono essere lunghi circa 80bp, con l’estensione
arriviamo a 160bp. Quindi se voglio catturare tutto un mitocondrio lungo 16000
bp dovrò utilizzare 100 primer PEC (costano molto). QUNDI come si supera il
Primer PEC? si pensò di poter utilizzare delle sonde prodotte mediante
frammentazione di un mitocondrio (quindi se ne voglio catturare uno ne posso
utilizzare un altro).
15.11.2016
Un altro tipo di degradazione che è correlata con la perdita del materiale genetico:
FRAMMENTAZIONE. Questo poco DNA endogeno, salvo casi eccezionali di
conservazione, come nel permafrost o in condizioni microclimatiche
particolarmente favorevoli, è anche altamente frammentato per via di fenomeni di
degradazione, primo fra i quali l’idrolisi e sempre nel lavoro citato sopra, anche in
questo caso è stato visto che non c’è una correlazione particolare tra la lunghezza
media dei frammenti di DNA recuperati da un campione e l’età del reperto stesso.
Inoltre nei siti paleolitici si trovano spesso tanti frammenti ossei e sono
fondamentalmente i resti della macellazione che gli uomini praticavano nel
paleolitico: sono resti faunistici di cui a volte non è nemmeno possibile determinare
la specie di appartenenza oppure conoscendo già quali erano i reperti relativi al
cinghiale per esempio, è stato possibile fare uno studio sull’addomesticazione del
cinghiale. In questo caso si doveva essere certi che ogni campione appartenesse ad
un individuo diverso, quindi sono state fornite tabelle relative al calcolo del numero
minimo di individui in modo da essere sicuri di prendere sempre individui diversi
-> interazione con archeologi.
METODO CLASSICO: basato sulla PCR, infatti utilizzando la PCR dobbiamo sapere
a priori che marcatore vogliamo studiare e dobbiamo conoscerne anche la sequenza
perché dobbiamo costruire primer che siano complementari a questa sequenza a
monte e a valle di questa sequenza. Per il DNA antico a volte la PCR non funziona
perché magari, nelle molecole antiche, la sequenza che ci interessa non è integra e
quindi o non la troviamo per niente oppure è parziale e quindi entrambi i primer
non riescono a trovare una sequenza complementare integra a cui attaccarsi e a
far partire la reazione di amplificazione. Questa è la limitazione principale della
PCR nel campo del DNA antico e la seconda problematica è che con la PCR si
utilizzano una coppia di primer e ognuno di questi è lungo una 20ina di paia si
basi (quindi 40) e nel mezzo ci deve stare almeno un pezzettino di sequenza che
voglio studiare; quindi generalmente i prodotti di PCR sono lunghi almeno una
60ina di paia di basi, nei campioni antichi si ha una frammentazione così spinta
che si hanno anche molecole più corte che anche con la PCR non possono essere
recuperate.
Ipotizziamo che il DNA che ci interessa c’è ed è integro, una volta effettuata
l’amplificazione nel DNA antico generalmente non si poteva fare un
sequenziamento diretto del prodotto di PCR, ma c’era uno step intermedio che era
il CLONAGGIO: se sequenzio un prodotto di PCR direttamente, probabilmente
ottengo un profilo disturbato perché magari ho amplificato sia la parte che mi
interessava, che quella di un sapiens che l’ha contaminato. Il clonaggio serve
proprio per separare, dal prodotto di PCR, le singole molecole, inglobarle in un
plasmide da far replicare all’interno di cellule batteriche, quindi fondamentalmente
al termine del clonaggio si recupera diverse colonie batteriche ciascuna delle quali
contiene numerose copie di una molecola di partenza prelevata dal prodotto di PCR
e poi andiamo a fare un sequenziamento su più colonie batteriche e si confrontano
tutte le sequenze ottenute. Se per esempio ho un campione neandertaliano:
sequenzio 10 colonie, 8 di queste mi danno una sequenza neandertaliana, 2 mi
danno una sequenza del sapiens -> questo mi permette di capire cosa c’è
effettivamente nel campione, di interpretarlo e di convalidare finalmente il risultato.
Se faccio un sequenziamento diretto non riesco a discriminare.
I vantaggi della NGS rispetto alla PCR sono tanti: si può lavorare in parallelo, si
possono avere tantissime informazioni in poco tempo, non si ha la limitazione di
dover costruire i primer, quindi di dover costruire a priori la sequenza che ci serve,
si può recuperare anche frammenti molto corti che invece con la PCR non si può
prendere e in campioni molto degradati i frammenti molto corti sono proprio la
stragrande maggioranza dei frammenti del DNA endogeno; inoltre il fatto che
utilizziamo adattatori ci permette di amplificare con questi primer universali, tutte
le volte che ci serve, il campione e possiamo osservare le caratteristiche originali
delle molecole, in particolare le misincorporazioni alle estremità e possiamo così
riconoscere il DNA antico da quello moderno contaminante. Oltre agli adattatori,
possiamo attaccare INDICI, che sono dei “codici a barre” che noi associamo ad ogni
singolo campione in modo tale che possiamo recuperare solo le cose indicizzate e
se poi subentrano contaminazioni di laboratorio restano ininfluenti perché il nostro
campione ha gli indici e quindi è riconoscibile. Questo meccanismo degli indici ci
permette anche di sequenziare molti frammenti tutti insieme buttandoli nel
sequenziatore tutti insieme.
Grazie all’NGS si possono sequenziare anche regioni molto ampie e addirittura
INTERI GENOMI.
I VANTAGGI DELL’NGS:
•È possibile effettuare decine di milioni di reazioni di sequenza per ogni
corsa di sequenziamento in parallelo su piattaforme altamente
miniaturizzate ottenendo il risultato in pochi giorni
• L’ «inconveniente» dell’NGS di produrre reads (sequenze) corte non
rappresenta un problema nell’applicazione su DNA antico
• L’utilizzo di primers disegnati sugli adattatori esterni ai frammenti di
DNA del campione permette di recuperare sequenze non accessibili con
la metodica classica della PCR perché troppo corti (per campioni
altamente degradati rappresentano la maggior parte del materiale
genetico)
• La presenza degli adattatori permette in ogni momento di riamplificare
tramite PCR la library, rendendola così una forma di immortalizzazione
del campione
• Danneggiamenti del DNA ed eventuali contaminazioni possono essere
osservati con una maggiore risoluzione
• Dei barcode (indici) possono essere aggiunti agli adattatori, permettendo
il riconoscimento delle molecole del campione anche da eventuali
molecole contaminanti successivamente introdotte durante le fasi di
DALLA PREPARAZIONE DELLA LIBRARY FINO AL SEQUENZIAMENTO.
analisi.
• Rende possibile il sequenziamento di interi genomi
La costruzione della library si fa anche per il DNA moderno, ci sono infatti dei kit
che si comprano e che in poco tempo attaccano gli adattatori agli indici rendendo
disponibile il campione per il sequenziamento; ovviamente per quanto riguarda il
DNA antico la situazione è più complicata perché un kit che va bene per un DNA
di buona qualità non è detto che vada bene per tutti i campioni che hanno un
qualsiasi tipo di problematica. Quindi in questo caso, invece di comprare il kit,
bisogna fare passaggio per passaggio in modo tale che ad ogni step ci si possa
fermare a controllare che tutto proceda al meglio ed eventualmente si possa
correggere qualche passaggio in modo da ottimizzare la resa il più possibile. In
generale comunque, le fasi di preparazione della LIBRARY sono le stesse sia per i
campioni moderni, sia per quelli antichi: fondamentalmente nel DNA moderno i
frammenti sono lunghi e quindi per fare la library e il sequenziamento è necessario
che vengano frammentati, mentre nel DNA antico sono già frammentati e quindi la
prima parte viene risparmiata, però c’è il problema che le estremità non sono pari.
Quindi:
1. Devo riparare l’estremità delle molecole
2. Legare gli adattatori alle estremità: gli adattatori sono sequenze di DNA
sintetizzate di cui conosco la sequenza
3. Se voglio fare l’arricchimento della regione che mi interessa
4. Sequenziamento.
A questo punto vedo qual è il risultato finale della mia LIBRARY: verifico che
effettivamente il DNA c’era nel mio campione, perché l’ho indicizzato, e decido come
procedere.
Se invece decido di procedere con l’altro protocollo: SINGLE STRAND, la procedura
è un po' diversa. Nel protocollo double strand parto dal DNA a doppio filamento del
mio campione e attacco adattatori a doppio filamento poi procedo. Però posso
trovare anche situazioni dove il doppio filamento non è completamente integro, ma
ho una interruzione su uno dei due filamenti oppure su entrambi i filamenti che
rappresentano un punto di debolezza della molecola, anche se comunque non
riescono a rompere la molecola. In una situazione del genere, le degradazioni in
questi punti, se facessi una DOUBLE STRAND LIBRARY, non mi permetterebbero
di recuperare queste molecole perché nel momento in cui attacco gli adattatori e
vado a fare la fase successiva in cui devo denaturare il DNA per amplificarlo,
quando denaturo questo doppio filamento perdo completamente un pezzo o l’altro
perché hanno l’adattatore solo da una parte, cioè perderei tutta l’informazione. La
single strand library mi permette invece di recuperarli ed infatti è stata studiata
per quei campioni che con l’altro protocollo non davano buoni risultati proprio
perché presentavano, ina maniera più incisiva, questo tipo di danneggiamenti.
Quindi i passaggi fondamentali della SINGLE STRAN LIBRARY sono:
1. Denaturazione iniziale e si lavora sul singolo filamento, attaccando un
adattatore ad ogni singolo filamento che ottengo da questa denaturazione,
cioè lavoro su ogni singolo filamento dove attacco ad ognuno un adattatore.
2. Ogni singolo filamento con il suo adattatore viene legato alle biglie
magnetiche: questo legame con le biglie avviene grazie al legame tra la
biotina e la streptavidina; infatti le biglie magnetiche sono rivestite di
streptavidina e la biotina è presente sull’adattatore. Quindi catturo queste
molecole sulle biglie magnetiche e poi aggiungo CL9, un altro adattatore,
che è complementare all’adattatore precedente e che mi permette di far
partire un’estensione che mi va a ricostruire il filamento mancante.
Ci sono quindi due procedure per la costruzione della library: il protocollo della
double strand che è quello più innovativo ed è stato visto che la purificazione fatta
con le biglie magnetiche ottimizza il recupero del materiale; la single strand library
permette di recuperare molecole che hanno anche questi danneggiamenti su uno o
su entrambi i filamenti ed è stato visto che su filamenti altamente degradati, la
single strand può incrementare di molto la copertura dei frammenti del marcatore
che si sta studiando.
Però la double strand resta la migliore quando il campione non è altamente
degradato perché la single strand va a scartare molecole più lunghe di 120
paia di basi e la single strand è molto costosa, infatti è un protocollo poco
utilizzato perché viene utilizzato solo se con la double strand non si sono
ottenuti buoni risultati.
Poi verrà fatta l’analisi delle sequenze con specifici strumenti bioinformatici.
17.11.2016
Quindi la BRIDGE PCR viene fatta sulla FLOW CELL, ma fisicamente può avvenire:
all’interno di un SEA BOAT, cioè all’interno di uno strumento associato al
sequenziatore, ma a parte; oppure all’interno del sequenziatore stesso, in base al
tipo di sequenziatore che io utilizzo. Nei primissimi modelli, come nel primo
sequenziatore dell’ILLUMINA, si metteva la FLOW CELL all’interno di questo SEA
BOAT, che è una scatolina dove si infilava la FLOW CELL e avveniva la PCR; una
volta finita la PCR si toglieva la FLOW CELL dal SEA BOAT e si inseriva nel
sequenziatore e partiva il sequenziamento.
Negli ultimi modelli la BRIDGE PCR si fa direttamente all’interno del sequenziatore
e non c’è bisogno di fare trasferimenti.
Quindi ho creato i miei cluster delle giuste dimensioni e si può partire con il
sequenziamento: è un sequenziamento che avviene per sintesi utilizzando 4
nucleotidi, ciascuno dei quali è marcato con un fluoroforo di colore diverso; questi
nucleotidi, avendo il fluoroforo, una volta incorporati bloccano la sintesi, per cui
quando mando il primo ciclo si attaccano i fluorofori alla regione corrispondente,
ma poi la sintesi non può procedere perché il fluoroforo legato impedisce l’attacco
del nucleotide successivo. Per cui faccio partire il primo ciclo, si attaccano i
nucleotidi alla base corrispondente e a questo punto viene identificato dalla CCD
camera l’immagine, viene cioè fatta una foto dell’immagine e successivamente viene
associato a ciascun colore, la base corrispondente. Il sequenziamento inoltre può
essere di 2 tipi diversi:
1- Sequenziamento a SINGLE END
Uno dei metodi più semplice ed economico: un frammento viene sequenziato
soltanto partendo dal suo filamento in forward; per cui quello che ottengo è solo
una lettura per ciascun frammento. È il metodo più semplice che si può utilizzare
per fare un sequenziamento
[Alla fine del mio sequenziamento avrà una grandissima quantità di dati da dover
gestire: nel caso del MY SEC per esempio ci si trova davanti a 28 milioni di reads.
Prima delle NGS la maggior parte dei costi erano legati proprio al
SEQUENZIAMENTO. con lo sviluppo delle NGS i costi si sono sposatati: forte
riduzione dei costi di sequenziamento, ma si è avuto un incremento esponenziale
dei costi per lo stoccaggio dei dati e per la ricostruzione bioinformatica delle
sequenze. Questo par capire come nel corso degli anni c’è stato uno shift da costi
di laboratorio abbastanza importanti legati al sequenziamento, fino all’era dell’NGS
in cui la parte più sostanziosa è legata allo stoccaggio e quindi alla gestione del
dato].
PARTE BIOINFORMATICA:
Con l’avvento delle NGS la situazione si è complicata: prima di tutto perché devo
gestire una gigantesca mole di dati che non è più una sola lettura per ciascun
campione, ma sono migliaia di letture per ciascun campione. Quindi la primissima
fase, indispensabile prima di iniziare la ricostruzione del frammento è:
EFFETTUARE IL DE-MULTIPLEXING, ovvero siccome all’interno di una stessa
corsa si possono mescolare più campioni, io devo associare le mie reads al
campione di provenienza. Questa associazione READ-CAMPIONE DI
PROVENIENZA si chiama DE-MULTIPLEXING e viene fatta da due software che si
trovano all’interno dello strumento, quindi questa parte qui la fa ancora il
sequenziatore. I software che il sequenziatore utilizza sono CASABA e nel caso del
MY SEC, quello che si chiama il REPORTER SOFTWARE. Oltre a questi due
software che sono fondamentali per il DE-MULTIPLEXING, io ho bisogno anche di
2 FILE DI INPUT:
uno è un file BCL (binary base call): la chiamata di ciascuna base, quindi
effettivamente la sequenza nucleotidica, ma non scritta per esempio ATCG
come la vediamo di solito, ma scritta in termini binari; quindi si tratta del
dato quasi grezzo dello strumento, perché il dato più grezzo che si ottiene è
l’immagine, cioè le foto dei pallini luminosi.
Ho anche bisogno del SIMPLE SHEET: ha un formato EXCEL, in cui nella
prima parte ci sono le informazioni legate agli esperimenti che stiamo
facendo, per cui c’è il nome dell’operatore, il progetto, la data di
sequenziamento ecc. poi c’è una sezione in cui è riportata l’informazione
legata alle reads, cioè alle letture che voglio ottenere; per cui ci sono scritti
il numero dei cicli utilizzati e il numero degli indici, cioè 2.
Infine sono riportate le informazioni che sono indispensabili per fare il DE-
MULTIPLEXING: per cui dal software viene letto il nome del campione e gli
indici associati a questo campione, per cui, facendo questa associazione,
NOME DEL CAMPIONE-INDICI, lui riesce ad associarmi a ciascun
campione le reads che portano quegli indici. Per cui se sbaglio a fare il
SIMPLE SHEET confondo tutti i campioni -> è molto importante la
compilazione di questa scheda.
Fornisco tutte queste
informazioni allo strumento, lo
strumento fa le varie associazioni
e crea dei file: sono file in formato
FAST-Q e all’interno sono
riportate le sequenze e le letture
associate a quel campione. Il
formato FAST-Q è un formato in
cui nella terza riga c’è
effettivamente l’esatta sequenza
nucleotidica, mente nella prima
riga c’è il QUALITY SCORE, cioè la
qualità di quella chiamata: per questo il file si chiama FAST-Q dove q sta per
quality. Per cui è un file in FASTA a cui, a ciascuna base, è associata la qualità di
chiamata -> più alta è la qualità di chiamata, migliore sarà quella base, cioè più
affidabile sarà quel dato in quella determinata posizione.
Oltre a queste due informazioni, che sono anche le più importanti di un file in
FastQ, ci sono altre due linee: una dove ci si possono mettere le informazioni
opzionali e un’altra linea nel mezzo che inizia con la @ dove c’è il nome dello
strumento che è stato utilizzato e le coordinate del cluster sulla FLOW CELL da
dove proviene quella lettura. Questo è il formato in FAST-Q, cioè quello che ottengo
dal DE-MULTIPLEXING.
Per ciascun campione ottengo due file: uno è quello dove sono elencate tutte le
sequenze in forward e l’altro è quello dove ci sono tutte le sequenze in reverse e
sono quelle che si chiamano R1 e R2, questo perché impostiamo un
sequenziamento in PAIRED END. Queste informazioni inoltre vengono restituite in
formato compresso perché un file venuto bene è in media di 150 mega, per cui è
pesante e quindi non si apre mai. Quindi là dentro ci troviamo a gestire centinaia
di migliaia di letture per ciascun campione.
Una volta ottenuti questi file li devo trattare in modo tale che alla fine possa
ricostruire solo ed esclusivamente la sequenza consenso del campione:
Si fa una operazione che prende il nome di ADAPTER TRIMMING: procede
di pari passo con il MERGING e può essere fatta sfruttando diversi
software. Prima però si era detto allo strumento di NON fare l’ADAPTER
TRIMMING, adesso però lo devo fare io perché ho già visto che le molecole
hanno l’adattatore, quindi adesso quest’ultimo non mi serve perché mi
serve la sequenza target che sta al centro degli adattatori. Quindi inserisco
nella linea di comando le sequenze degli adattatori e gli dico di rimuoverle,
contemporaneamente però gli dico di conservare soltanto quelle molecole
che hanno sequenziato tutto o in parte l’adattatore perché se gli dico di
conservare tutte le molecole, anche quelle senza adattatore, è altamente
probabile che conservi anche delle molecole derivanti da DNA
contaminante. Ma se la molecola si trova al limite e io dell’adattatore ho
sequenziato 3 o 4 paia di basi? La perdo, meglio perdere un po' di
informazione che averne troppa ridondante di non buona qualità.
Una volta fatto il TRIMMING degli adattatori, vado a ricostruire il
frammento di origine che deriva dal sequenziamento del filamento in
forward e del filamento in reverse. Quindi come faccio?
Prendo i due file, quello dell’R1 e quello dell’R2, e il software riesce ad associare
esattamente le due reads provenienti dallo stesso frammento grazie a questa linea
di comando del FAST-Q dove, oltre al nome dello strumento usato per il
sequenziamento, anche le coordinate del cluster sulla FLOW CELL. L’unica cosa
che cambia in questa linea di comando è il read identifier, e questo mi serve per
identificare l’R1 e l’R2. -> Con il MERGING vado a ricostruire, quindi vado ad unire
R1 e R2 fino a ricreare il filamento di origine di queste due reads. In questa fase
imposto alcuni parametri: al software dico che deve tenere soltanto quelle reads
che abbiano un OVERLAP durante il MERGING di almeno 11 paia basi: questo
significa che questa caratteristica sarà ottenuta soltanto per quei frammenti di
origine che non sono più lunghi di 142 paia basi. Perché se R1 è 76 paia basi e l’R2
è 76 paia basi e questa regione R1-R2 sequenziata ha una sovrapposizione di 11
paia basi, significa che il frammento di origine è inferiore alle 142 paia basi. Quindi
cade perfettamente all’interno delle dimensioni medie dei frammenti di DNA
antichi.
Al contrario alla macchina diciamo che, se questo OVERLAP di almeno 11 paia di
basi fra R1 e R2 non c’è, allora queste reads devono essere scartate perché questo
significa che sono frammenti troppo lunghi, in questo caso se sia R1 che R2 sono
di 76 paia basi, ma non si incontrano e non si sovrappongono per un certo numero
di paia basi, significa che derivano da un frammento troppo lungo che va oltre le
142 paia di basi e che quindi verosimilmente deriva da un frammento che non è
endogeno del campione, ma che potrebbe essere un frammento contaminante.
Altra cosa che imposto allo strumento è la LUNGHEZZA MINIMA: gli dico di
scartare le sequenze più lunghe di 142 paia basi, ma allo stesso tempo gli dico
anche di scartare le sequenze più corte di 30 paia basi. Perché? una sequenza più
corta di 30 paia basi potrebbe verosimilmente mappare ovunque, quindi in più
parti dello stesso genoma per esempio mitocondriale oppure anche in genomi
diversi perché la dimensione è troppo breve per essere discriminante. Quindi è stato
visto che la lunghezza minima per avere un accurato mappaggio è di 30 paia basi,
per cui imposto anche un limite minimo di lunghezza. Per cui quando si fa il
MERGING, quello che si otterrà nel file finale, saranno tutte quelle READS da cui
saranno escluse:
Quindi abbiamo mappato, abbiamo scelto BVA o CIRCULAR MAPPER in base alle
nostre esigenze, ora però dobbiamo fare un altro passaggio che mi ripulisca il mio
file, cioè la RIMOZIONE DEI DUPLICATI.
Sicuramente si procede con la PCR: questo significa che quando andiamo a fare il
mappaggio può venire fuori una situazione in cui per esempio ho delle reads che
hanno una certa variante e mappano in una certa regione del genoma; queste
molecole non sono altro che prodotti di PCR, cioè prodotti che creano una
ridondanza di informazione che può creare dei falsi positivi perché queste molecole,
derivando dalla stessa molecola di partenza, possono essere tranquillamente
collassate in una sola molecola. Avere tutti questi duplicati di PCR mi può portare
a dei falsi positivi: io per esempio do per certa una variante perché la ritrovo in 400
molecole, ma in realtà se quelle 400 molecole sono il prodotto di una unica, mi
creano un falso positivo. Quindi per ovviare a questa problematicità:
vado a togliere i duplicati di PCR e per farlo ci sono vari software. Uno di questi è il
SAME TOOLS REMOVE DUPLICATE: con SAME TOOLS vengono rimossi i
duplicati sulla base del fatto che le reads presentano esattamente le stesse
coordinate iniziali della molecola. Quindi ho che due frammenti partono dalla
stessa posizione, quindi hanno esattamente le stesse coordinate di inizio, quindi
per SAME TOOLS sono la stessa molecola, e li elimina, cioè toglie tutte e due queste
molecole e le collassa in una unica. In realtà non è detto che se due molecole hanno
le stesse coordinate di inizio siano lo stesso frammento: probabilmente una deriva
da una molecola più lunga e una da una molecola più corta, quindi se utilizzo
SAME TOOLS, perdo quella parte di informazione.
Allora è stato sviluppato un altro software: DELOOP che si trova sempre all’interno
del pacchetto software IGOR, che per rimuovere i duplicati prende come
riferimento, non solo la posizione di inizio, ma anche la posizione di fine della
molecola. Per cui nel caso di DELOOP le due molecole che prima venivano eliminate
da SAME TOOLS, ora vengono conservate -> ho una maggiore preservazione del
dato.
A questo punto abbiamo fatto il mappaggio, abbiamo ripulito dai duplicati, ora vado
a visualizzare il mappaggio: per farlo si possono utilizzare diversi software che si
chiamano ALIGNMENT VIEWER che sono dei visualizzatori dell’allineamento.
Anche di questi ce ne sono tanti: TABLET ecc. e anche in questo caso non ce n’è
uno migliore dell’altro, per cui si può scegliere quello con cui ci si trova meglio
graficamente. Nei risultati che si ottengono si vede:
la posizione del mappaggio, per cui se io mappo tutte reads presenti
sull’HG19, cioè sul genoma di riferimento umano e sono tutte reads che
derivano dal mitocondrio, avrò come visualizzazione la scritta CHRM perché
sull’HG19 il mitocondrio è classificato con la sigla CHRM.
La reference: cioè il genoma di riferimento
Nel mezzo avrò le reads che mappano
Per cui se vado a vedere nel dettaglio le mie reads analizzate con i software, troverò
soltanto reads non più corte di 30 paia basi e non più lunghe di 142 paia di basi e
si presentano tutte allineate una sotto l’altra, in base alle regioni dove mappano.
SEQUENZA CONSENSO
Una volta che ho fatto i mappaggi devo in qualche modo sintetizzare tutte le
informazioni in un file che sia utilizzabile, quindi devo concentrare tutta
l’informazione in dei file che siano utilizzabili anche per le successive fasi di analisi
di genetica di popolazione. Ci sono essenzialmente due formati:
VCF file: VARIANT CALL FORMAT che si può ottenere con vari software tra cui
anche SAME TOOLS ecc. questo file è un file in cui vengono conservate soltanto le
informazioni relative ai polimorfismi e alle varianti. Per cui avrò informazioni e avrò
riportato in questo file soltanto quelle posizioni che sono variate rispetto alla
reference: le posizioni identiche alla reference non vengono scritte. In questa prima
parte del file (file in txt), ci sono le meta-informazioni, cioè le informazioni relative
al campione che stiamo analizzando, mentre nella DATA LINES (sotto) ci sono le
informazioni relative ai polimorfismi. Per cui nella prima riga abbiamo indicato il
numero del nucleotide sul genoma, per esempio il nucleotide nella posizione 16.569
del mitocondrio, poi in un’altra colonna è riportato il nucleotide presente sulla
reference in un’altra colonna ancora c’è il nucleotide riportato nel nostro campione,
quindi qui ci saranno solo le posizioni variate. Questo VCF file si utilizza quando si
vanno ad analizzare soprattutto genomi completi umani, per esempio genomi molto
grossi, perché è molto più semplice andare ad identificare solo la variante, piuttosto
che 3 miliardi di paia di basi.
FASTA: si utilizza quando invece si va a studiare genomi piccoli, per esempio quelli
batterici o mitocondriali, e si va a ricreare la sequenza consenso. Quindi la
sequenza consenso è conservata in un file FASTA (con il simbolino > all’inizio), e
nella sequenza consenso sono riportate esattamente tutte le posizioni che ho
ottenuto. per cui se vado a studiare il mitocondrio, nella sequenza consenso avrò
16.569 paia di basi sia che siano esse identiche alla reference, sia che siano variate.
Quindi quello che conservo qua dentro è TUTTA l’informazione, mentre nel VCF file
conservo solo l’informazione legata alle varianti.
Quando vado a creare una sequenza consenso, che sia con l’uno o con l’altro tipo
di file, come la creo? Come faccio a sapere che in quella posizione c’è esattamente
una variante o c’è una reference? O c’è una base identica alla reference?
Lo faccio andando a vedere come sono distribuiti i nucleotidi nel mio mappaggio:
ci sono dei software che fanno le chiamate, non è che mi metto a vedere tutte le
reads e a fare la chiamata. Utilizzo quindi dei software particolari: per il DNA antico,
dove i parametri devono essere molto più stringenti, proprio perché ho molecole
corte e danneggiate, utilizzo un aggiornamento del software GATIC che è sempre
fornito all’interno della piattaforma IGOR e lo imposto con questi particolari filtri.
Si imposta che:
Una chiamata venga effettuata SE e SOLO SE ho almeno 5 reads che mi
coprono quella base, quindi al di sotto delle 5 reads non faccio la chiamata,
ma metto una indeterminata, cioè una (N) = nomenclatura IUPAC che
indica un sito in cui non ho chiamata.
Se tutte e 5 (come minimo) le reads che ho portano un nucleotide come la
reference, chiamo ovviamente la reference, significa cioè che in quella
posizione non c’è variazione. In questo caso per esempio ho 4 reads che
portano il nucleotide come la reference e 2 che invece portano la variante,
quindi cosa chiamo? NON chiamo la variante perché per chiamarla deve
essere presente almeno nel 90% delle reads presenti, quindi la variante la
chiamerò quando ho 5 reads in un modo e solo una diversa.
50-50: metà portano un nucleotide e metà un altro, per esempio metà
portano la A e metà portano la G: cosa chiamo in questo caso? Non si sa
quindi in questo caso ci metto una (R) che nella nomenclatura IUPAC
significa una indeterminazione tra due nucleotidi, in particolare indica una
indeterminazione tra G e A, mentre per l’indeterminazione tra C e T si
utilizza la (Y). Per cui quando vado ad aprire la mia sequenza consenso
generata da GATIC e vedo che in quella posizione c’è la R, vado ad aprire
l’allineamento, ricerco la posizione ed effettivamente vedo che 50% delle
reads portano una variante e 50% ne portano un’altra.
22.11.2016
3) ContamMix: analisi che si basa su delle stime che i consente di stimare appunto
la proporzioni di reads autentiche da quelle contaminanti. Due file di imput: A) le
reads che vengono mappate contro la sequenza consenso (reference) ottenuta del
campione; B) un altro file di imput usato per questo script è un allineamento
costituito da 311 mitocondri umani che rappresentano la variabilità umana. Sono
mitocondri ricostruiti appositamente in modo da inserirvi tutta la variabilità umana
presente, quindi avrò tutti i polimorfismi più rappresentati nella popolazione
umana. Utilizzando il software confronto le sequenze consenso e le reads per cui
alla fine saprò quale reads mappano meglio sulla sequenza consenso (e quindi che
la mia contaminazione è bassa) o sulle 311 umane, sulla variabilità umana (e
quindi probabilmente derivano da contaminanti). Quindi col software si può capire
se la mia sequenza consenso è più probabile che derivi da una sola sorgente
biologica (dal mio campione) piuttosto che da più sorgenti biologiche e quindi
contaminanti. Se il valore di autenticità che trovo si avvicina a 1 è probabile che il
mio campione non sia contaminato.
Gli studiosi hanno cercato di capire come si è evoluto il pool genetico dei Sardi nel
corso degli anni e le differenze o meno tra le culture pre-neolitiche o post-neolitiche.
Per avere idea del pool genetico sardo, le uniche testimonianze erano gli studi sul
DNA mitocondriale di campioni nuragici, confrontati con quelli dei sardi attuali
provenienti dall’Ogliastra e dalla Gallura. In particolare 6 modelli demografici che
differivano tra la presenza/assenza di una massiva introgressione da parte del
continente e la diretta genealogia antichi/moderni. è emerso che esiste una forte
continuità genetica con le popolazioni neolitiche dell’Ogliastra ma non della
Gallura. Studio importante perché per la prima volta è stata preso in
considerazione anche il dato antico.
L’unico limite delle popolazioni è che le popolazioni antiche riguardano l’età del
bronzo (e quindi neolitiche e non preneolitiche, non si sa cosa è successo prima) e
poi lo studio era limitato solo alla regione del DNA mitocondriale (solo 365bp del
mtDNA)
Lavoro dell’assistente
Si inserisce quindi il lavoro di sequenziamento del DNA mitocondriale su 16569bp.
I campioni, inoltre, derivano da un sito specifico nel sud vicino al Sulcis, prima
delle popolazioni neolitiche.
Nel 1978 si sono studiati gli orizzonti del suolo suddividendolo in 4 orizzonti e si è
visto che i primi 3, ovvero i più superficiali, erano abbastanza sciupati da agenti
esterni mentre il 4 (da 1,40 a 1,55 metri) gli strati erano molto poco disturbati ed
ha restituito tanti materiali, sono stati rinvenuti pezzi di ceramica, di animali estinti
e anche resti umani (tibia, ulna e omero, non interi ovviamente) datati tra
11.000 e 8.000 anni fa, quindi prima del Neolitico in Sardegna (che è avvenuta
circa 6.000 anni fa) del Mesolitico.
Il dato importante era che al 5 fold la copertura ottenuta è molto buona per due
campioni su 3. L’Average Coverage (stima della copertura del sequenziamento) ha
portato allo scarto di un campione e lasciare i due più antichi (KARH7 e KARH8).
A questo punto viene effettuato Map Damage e Contamination Test per vedere
l’attendibilità del dato, e i parametri fanno sì che i campioni siano autentici.
IV ANALISI: studio della storia demografica della Sardegna, in cui sono stati messi
a punto dei modelli e successivamente è stata fatta un’analisi di simulazione al
computer in cui si vanno a testare i modelli demografici che meglio descrivono il
dato che ho ottenuto. Per cui vi inserisco all’interno delle mie simulazioni tutti i
vari parametri che possono influenzare la composizione genetica di popolazione e
attraverso il pc faccio delle simulazioni e quelle che presenta score più alto è quella
che descrive meglio il dato che ho osservato. Andando a vedere il parametro che
avevo impostato riesco a capire cosa è successo nel corso della storia.
[La neolitizzazione non è stata un fenomeno locale, ma dovuto all’arrivo di genti dal
continente che hanno colonizzato la Sardegna e l’incrocio delle popolazioni
neolitiche continentali con quelle paleolitiche dell’isola non hanno consentito un
apporto della componente genetica paleolitica fino alle popolazioni moderne.]
24.11.2016
L’altra volta sono state definite le caratteristiche e i metodi di studio del Dna antico,
oggi guarderemo i casi di studio nei vari regni (Batteri, Piante, Animali, Uomo).
Batteri
La stragrande maggioranza contenuta in un campione attivo è prevalentemente di
origine microbica, per lo più batterica; non solo il materiale genetico relativo ai
batteri è tanto ma anche molto variegato (molte specie batteriche).
Non sempre è agevole determinare il tempo in cui è stato colonizzato l’organismo
che studiamo. Anche per questo non ci sono molti studi sui batteri, anche se negli
ultimi anni si è sviluppata una tipologia di studio che
riguarda il Dental Calculus, ovvero l’analisi del tartaro
recuperato da resti umani e animali poiché contenente molto
DNA. È stato infatti possibile ricostruire il DNA mitocondriale
di un individuo studiando il Dental Calculus, che però
contiene anche DNA relativo a flora microbica del cavo orale
o anche di batteri patogeni delle vie respiratorie oppure resti
di DNA di flora animale e vegetale (ciò che veniva mangiato
dall’organismo studiato).
Si possono anche studiare patogeni relativi ad esempio ad Epidemie (peste,
lebbra…); si può studiare il DNA antico sia a scopo diagnostico oppure per un
interesse evolutivo in modo da studiare l’evoluzione dei ceppi batterici sia moderni
che antichi Ricostruito il genoma antico del micobatterio della lebbra o della
peste, su campioni umani.
Studiando l’antico è stato anche possibile descrivere meglio l’evoluzione del batterio
della Tubercolosi (studiando DNA moderno si pensava derivasse da bovini, invece
su campione antico si è capito che il ceppo responsabile era umano dal quale si è
sviluppato, in seguito a mutazione, il ceppo caratterizzante bovino che poi è stato
ripassato all’uomo a fronte di nuove mutazioni ed è quello che oggi appunto
colpisce l’uomo).
Piante
Lavori un po’ scarsi perché nelle piante sono contenute sostanze che fungono da
inibitori per alcuni passaggi sperimentali.
Animali
- Lavoro è stato effettuato su una pergamena, per capire da quale
animale fosse ottenuto; lavoro svolto tramite PCR con primers specifici
e confrontando le sequenze delle pergamene con un genere di
campionario di alcuni animali e si è visto che il materiale in questione
derivava da Capra Hircus.
- Un altro lavoro anche su libri rinvenuti nei fondali marini tra Pantelleria e Tunisia,
da un vascello spagnolo del 1700. Utilizzando primer diversi si sono identificate
due specie diverse: uno fabbricato a partire dalla pelle di ovino e uno di razza (a
quell’epoca era un materiale ricercato dai nobili).
Uomo
Si può studiare: Identificazione personale, Relazioni di parentela tra individui
vissuti nel passato, Genetica di popolazioni (come migrazioni,
continuità/discontinuità genealogica tra popolazioni vissute in tempi diversi
magari nella stessa area geografica ecc…)
- Studio sui Longobardi in Italia in regioni diverse per vedere se c’è stato
un impatto genetico causato da essi che culturalmente sembrano essere
omogenei. Partenza dello studio da un progetto del Piemonte in cui erano
già disponibili campioni longobardi con approccio Bayesiano per studiare
diversi modelli demografici c’è quasi sempre discontinuità genealogica
tra medioevo e moderno in Piemonte, a parte per il Trino Vercellese.
01.12.2016
Gli STR non hanno mutazioni che fanno sì che da una popolazione all’altra ci siano
grandi cambiamenti, ma sono piuttosto costanti e questo è un vantaggio per questi
sistemi che vengono utilizzati.
Oltre agli STR vengono usati ad oggi anche dei MINI STR, cioè dei sistemi genetici
che vanno ad amplificare frammenti più corti di DNA: infatti le lunghezze che
vengono utilizzate sono anche molto elevate (100-150 paia di basi) e se ho a che
fare con frammenti molto degradati, si capisce che è molto difficile andare ad
amplificare alleli molto lunghi.
I POLIMORFISMI:
I polimorfismi genetici sono variazioni nelle
sequenze di DNA presenti in una popolazione
con una frequenza maggiore dell’1%. Quando
la frequenza è inferiore a tale valore
arbitrario, si preferisce parlare di varianti
genetiche rare, che in molti loci sono
presenti in aggiunta ai polimorfismi.
A) POLIMORFISMI DI SEQUENZA
B) POLIMORFISMI DI LUNGHEZZA
PER ESEMPIO:
D3S1358 sta sul braccio p del
cromosoma 3 e il motivo di
ripetizione è: TCTA(TCTG)1-3(TCTA)n
e il range allelico va da 114 a 142
paia di basi.
Ecc.
Qui vediamo: 15 loci STR che quindi stanno su 15
cromosomi differenti e si vede che hanno colorazioni
differenti perché la variabilità allelica tra locus e locus
molto spesso si sovrappone, anche molto, per
esempio: D76820 si sovrappone quasi interamente a
D16S539 e quindi è ovvio che debbano avere primers
marcati in modo diversi in modo tale da poterli
riconoscere. C’è anche A perché nel kit utilizzato per
l’identificazione personale c’è anche la
quantificazione, oltre dei loci STR, anche del gene
omologo della amelogenina, infatti dalle 100 alle 400 paia di basi il gene omologo
dell’amelogenina sta intorno alle 106-112 paia di basi.
Occorre quindi usare dei modelli matematici/statistici basati sulla conoscenza dei
marcatori genetici, utilizzati per le analisi, della genetica di popolazione e delle leggi
della probabilità: nei casi di compatibilità dunque occorre valutare la diffusione del
profilo genetico all’interno della popolazione.
Vuol dire che se io faccio un’indagine e vado ad analizzare il profilo genetico tramite
la random match probability, con quest’ultima ottengo quanto è frequente quel
determinato profilo all’interno della mia popolazione: questo è il calcolo da fare. E
adesso vediamo come si calcola questa RMP perché è molto semplice, soprattutto
utilizzando dei software precisi:
COME SI CALCOLA?
LA FREQUENZA DI UN DETERMINATO GENOTIPO O PROFILO ALL’INTERNO DI UNA
POPOLAZIONE E’ CONSEGUNEZA DIRETTA DELLA LEGGE DI Hardy –Weinberg quindi
la frequenza di un determinato locus viene calcolata a partire dalle frequenze alleliche di
quel locus e quindi se ad un determinato locus l’allele che ottengo è in omozigosi la sua
frequenza sarà p2 o q2 se invece è in eterozigosi sarà 2pq; quindi la frequenza di un
determinato genotipo sarà il prodotto delle frequenze osservate a ciascun locus; questo lo
possiamo fare perché gli alleli utilizzati per determinare il profilo vengono trasmessi in
modo indipendente: Ovviamente per conoscere la frequenza di un determinato allele ad
un determinato locus in una popolazione devo conoscere la variabilità genetica per gli
alleli a quei loci in quella popolazione
Questo conteggio lo faccio per tutti i loci che ho a disposizione, cioè per tutti i loci
che vado ad osservare all’interno di questo mio profilo li vado a misurare tutti. Alla
fine, siccome si tratta di frequenze, dovrò fare una moltiplicazione tra tutte le
sequenze perché è una probabilità di match quindi dovrò fare un conto che mi
permette di andare a moltiplicare tutte le mie frequenze di un determinato genotipo
che ho osservato. Quindi significa che moltiplico tutti i numeri dell’ultima colonna
e alla fine avrò la frequenza del mio profilo genetico, cioè 3,57 x 10-20. Con la RMP
questo significa che questo profilo ce l’ha un individuo su 1020, vuol dire che la
frequenza di questi loci con queste frequenze è presente, nella popolazione che ho
usato come riferimento, come 3 individui su 1020.
Likelihood Ratio, LR: altro modo per calcolare la Random Match Probability. E’ il
rapporto di verosimiglianza ovvero il confronto delle probabilità d osservare un
particolare evento E (nel nostro caso il profilo STRs) sotto due ipotesi alternative che
sono tra loro mutuamente esclusive il DNA appartiene alla persona (Hp) il DNA non
appartiene alla persona (HD).
TEST DI PATERNITA’
CPI o Combined Paternity Index: PI= p(E I Hp)/p(E I Hd) = X/Y dove il rapporto
X/Y è il rapporto tra il fattore di segregazione dell’allele trasmesso da presunto
padre al figlio e la frequenza dello stesso nella popolazione è ed tanto più elevato
quanto più probabile è l’ipotesi Hp ovvero che il padre presunto sia il padre
biologico del figlio. Il fattore di segregazione è la probabilità che il presunto padre
abbia trasmesso l’allele in questione al figlio e vale 1, se il presunto padre è
omozigote per tale allele e 0.5 se è eterozigote. Analogamente alla RMP l’indice di
paternità viene calcolato per ogni locus esaminato i valori trovati vengono
moltiplicati tra loro poiché i loci esaminati sono indipendenti (teorema della
probabilità composta o del prodotto) ed in questo modo si ottiene l’indice di
paternità combinato.
Quando le due ipotesi di paternità e di non paternità sono assunte a priori come
equiprobabili, il teorema di Bayes prende la forma W= 1/1+Y/X
[QUINDI: Perché il test del DNA funziona? Perché i dati che vado ad ottenere mi
danno una frequenza talmente elevata di quel profilo genetico all’interno della
popolazione che è impossibile che due individui che condividono lo stesso profilo
siano differenti per effetto del caso perché ho molta più informazione dall’analisi di
una Random Match Probability rispetto all’informazione che può sostenere dal
numero di individui presenti in una popolazione].
Perché non si trova DNA contenuto nel mitocondrio di Bossetti nelle tracce
biologiche ritrovate sulla Gambirasio, nonostante fosse stato ritrovato il DNA
autosomico? Perché era molto degradato, ma se è così noi sappiamo come
ritrovarlo: sistema di catture con Marecich e col software MIA (e il ContamMix)
verificare la probabilità che il mitocondrio trovato ha di appartenere ad un’unica
fonte biologica oppure fonte di contaminazione avvenuta durante la scena del
crimine.
13.12.2016
Ricorda:
Regno --- Animale
Phylum --- Cordati
Tipo --- Vertebrati
Classe --- Mammiferi
Ordine --- Primati
Sottordine --- Antropoidei
Infraordine --- Catarrini
Superfamiglia ---Ominoidei
Famiglia --- Ominidi
Sottofamiglia --- Ominini
Genere --- Homo
Specie --- Sapiens
Tornando al discorso della dieta, sappiamo che la carne cruda richiede più impegno
masticatorio rispetto a quella cotta. Però per cuocerla serve il fuoco, quindi altro
passo avanti l’apparato masticatore si modifica ulteriormente diminuendo lo
spazio e diventando più semplici e piccoli aumentano le dimensioni del cervello
(perché denti più piccoli quindi meno muscoli) per far aumentare le dimensioni
del cervello la colonna vertebrale deve sviluppare alcune curvature che permettono
di sostenerlo (testa più pesante, evoluzione di un grande cervello da 400cm3 a 800).
- L‘alluce umano non è opponibile alle altre dita del piede, ma serve a migliorare
l'appoggio sul terreno e a dare l'ultima spinta durante la locomozione, i primati non
umani hanno l'alluce opponibile alle altre dita del piede, per potersi afferrare ai
rami degli alberi
La Mano
- La capacità di camminare in posizione eretta determina la “liberazione” degli arti
anteriori dalla deambulazione.
- Si aprirono molti orizzonti culturali e tecnologici: caccia, trasporto, produzione
dei primi manufatti
- Le mani delle Australopitecine avevano caratteristiche simili a quelle umane, ma
non erano in grado di compiere movimenti di precisione.
Homo Erectus
Possiamo osservare la colonna vertebrale e alcune caratteristiche
post-craniali. Le colonne vertebrali erano larghe, perché ci passano
molti nervi perché sono aumentate le capacità di precisione che gli
ominidi hanno sviluppato (aumentano perché hanno un cervello più
grande grazie alla dieta ecc..)
Iniziano a spostarsi per la ricerca del cibo e intorno a 2,5 milioni di
anni fa escono dall’Africa.
- Pollice opponibile capacità di costruire utensili ad esempio per la caccia