Sei sulla pagina 1di 122

ANTROPOLOGIA DAVID CARAMELLI ANNO ACCADEMICO 2016/2017

27.09.2016

L’antropologia studia la storia naturale dell’uomo, anche se non si focalizza solo su


questo.
Quell’antropologia che studia la storia naturale dell’uomo necessita di determinati
strumenti sofisticati per lo studio di materiale osteologico (ossa) e che riguardano
Tac, tomografie assiali, calcolatori per ricostruzioni virtuali di alcune parti
mancanti ad esempio di uno scheletro. In ogni caso strumenti che riguardano
aspetti macroscopici, mentre noi affronteremo la parte microscopica  studiare il
DNA di individui sia attuali che in misura maggiore di individui morti/reperti
scheletrici.
Per recuperare il Dna da reperti scheletrici occorrono metodologie particolari.
Si può distinguere la storia in Pre-DNA era e in Post-DNA era.
 Pre-DNA era: ovvero prima del 1953, anno della scoperta della struttura del
Dna, si studiavano principalmente le proteine degli individui viventi. Come?
Si prelevava il sangue da primati (scimpanzè, gorilla, uomo) e vedevamo quali
erano affini tra loro, confrontando le differenti cariche degli amminoacidi che
costituivano le proteine degli organismi studiati. Si estraevano le proteine,
venivano messe in un campo elettrico, venivano fatte migrare e a seconda
della migrazione delle proteine/del loro punto isoelettrico/della carica
amminoacidica si vedeva che proteine simili andavano dalla stessa parte.
Avendo un sistema proteico più simile allora forse avranno avuto un
antenato vicino in passato e quindi venivano costruiti i primi alberi genetici.

 Post-DNA era: dopo la scoperta del Dna. Importante è capire come questo
acido desossiribonucleico può essere studiato; qui subentra Kary Mullis
scoprì nel 1993 la PCR e il suo funzionamento.

PCR: reazione a catena della polimerasi, con cui siamo in grado di andare a leggere
il DNA sia di persone in vita che non e quindi analizzando i reperti antichi.

Piccola parentesi su evoluzione dell’uomo. Neanderthaliani: dai 350.000 ai 29.000


anni fa in Nord e Sud Europa fino quasi in Asia. Da 200.000 anni fa Homo Sapiens
in Africa il primo reperto. In Europa intorno ai 40.000 anni quindi per un periodo
in Europa ci sono stati sia Sapiens che Neanderthal. Homo Florecencis, Denisova,
Habilis, sono altre specie vissute nel corso degli anni.

Non studieremo solo Dna nucleare (N-DNA) ma anche DNA mitocondriale (MT-
DNA).
Il DNA mitocondriale ci fornisce duplici informazioni utilizzabili sia in studi
evolutivi, antropologici che in analisi forense.
Le informazioni ricavate dal DNA nucleare, però, sono maggiori rispetto alle altre,
infatti c’è sia DNA codificante (circa il 30% di tutto il genoma) che DNA non
codificante (extra-genico, circa il 70%). Il DNA non codificante è più importante
rispetto all’altro. Perché? Un DNA che codifica produce proteine che vanno a
costituire le basi della vita fisiologica, e il DNA che codifica è sottoposto a selezione
di carattere naturale che è uno dei meccanismi che sta alla base dell’evoluzione.
Quindi è sottoposto a fenomeni selettivi.
Esempio di gene codificante: Homo Sapiens inizialmente stava in Africa e quindi gli
individui avranno avuto la pelle scura per fenomeni di carattere adattativo, perché
era più avvantaggiato rispetto a quelli con pelle chiara (perché resiste meglio al Sole);
adesso, invece, la maggior parte delle persone ha la pelle chiara questo perché ci
sono stati fenomeni evolutivi che hanno portato a miglior adattamento/fitness quelli
con la pelle chiara rispetto a quelli con la pelle scura. Quali vantaggi porta la pelle
chiara? Poco sole, poca vitamina D e quindi possibile rachitismo per individui con la
pelle scura.
Quindi i geni che codificano sono importanti, ma sottoposti a selezione naturale.
Per cui se devo effettuare studi di carattere evolutivo non ha senso studiare i geni
codificanti perché è possibile che popolazioni diverse sviluppino certe
caratteristiche compatibili anche se non sono imparentati.

Il Dna non codificante è meno sottoposto a selezione naturale, le sostituzioni


nucleotidiche che si hanno, avvengono per effetto del caso e del tempo. Cioè se una
popolazione si è separata dall’altra e vado ad analizzare le parti non codificanti del
DNA, se ho sostituzioni nucleotidiche simili tra loro posso considerare i risultati
come attendibili.

All’interno del genoma nucleare non codificante ci sono zone che ci interessano e
sono dette Mini-Satellite e Macro-Satellite che provengono entrambe da ripetizioni
in tandem (tutte le regioni di DNA costituite da sequenze di due o
più nucleotidi ripetute una di seguito all'altra, per esempio ATTCGATTCGATTCG è
una ripetizione in tandem di ATTCG ripetuta tre volte).

Micro-Satellite
Tratti di DNA formati da un numero di nucleotidi ripetuti in tandem, la cui unità
di ripetizione va da 1 a 6 bp.
Sono anche detti SSR (Single Sequence Repeated) o STR (Short Tandem Repeat).
I microsatelliti sono considerati neutrali, ovvero senza alcun effetto fenotipico,
anche se alcuni lo presentano (ad esempio l’espansione del numero di basi presenti
a livello di un promotore può andare ad interrompere la trascrizione).
Ci consente di sviluppare sistemi di identificazione personale sia per l’ambito
forense sia nello studio delle popolazioni.

Mini-Satellite
Le unità di ripetizione dei minisatelliti variano dalle 8 alle 100bp e possono essere
ripetute dalle 5 alle 1000 volte.
Esempi di minisatelliti: gene della mucina 1 che codifica per una glicoproteina
molto polimorfica contiene unità di ripetizione di 20AA che varia nel numero di
copie da 20 a 120.

Polimorfismi di sequenze codificanti si riferiscono alle varianti alleliche di un


determinato gene.
Una regione polimorfica è una regione che può presentare differenti morfologie,
ovvero differenti sequenze in un determinato punto, che viene detto Locus. Tutte
le varianti di questo Locus caratterizzano una regione polimorfica e sono detti
Alleli.
Le due o più forme alternative dello stesso gene che si trovano nella stessa
posizione su ciascun cromosoma omologo (locus genico). Differiscono leggermente
nella sequenza nucleotidica.

Esempio
Prendo due sequenze di DNA: ATG e ACG. C e T sono varianti ad un determinato
Locus. Se si tratta di una sola base allora si chiama SNP.

Si tratta di polimorfismi a singolo nucleotide in cui una base può subire:


sostituzione, delezione (perdita di una base) o inserzione (aggiunta di una base).
Sostituzione= una base viene cambiata con un’altra
e ciò può avvenire per un errore di appaiamento delle
basi durante la replicazione. Se si ha sostituzione di
una purina con una purina (per es A con G) o una
pirimidina con un’altra pirimidina (per es C con T) si
parla di Transizione. Quando una purina viene
sostituita con una pirimidina e viceversa si parla di
Trasversione.
Le sostituzioni possono avere effetto diverso in base al tipo di mutazione. Mutazione
missenso: la proteina prodotta differisce da quella di origine per un amminoacido.
Mutazione nonsenso: si ha il cambiamento da una tripletta che codifica per un AA
ad una che non codifica e quindi un codone di stop. Mutazione neutra: l’AA
risultante non determina delle alterazioni funzionali sulla proteina prodotta, perché
chimicamente sono uguali. Mutazione silente: il codone dell’mRNA modificato è in
grado di codificare lo stesso AA.

Ci possono essere varianti formate da più lettere (come la variante di un DNA


extragenico che appartiene ad un DNA ripetuto in tandem: CTCTCT polimorfico ad
un locus ovvero più ripetizioni in tandem a quel determinato locus, quindi più alleli
in quel locus ma non è un locus che codifica).

Se le varianti possono essere molteplici (quasi infinite) e si trovano su un DNA


microsatellite, quando le varianti possono essere uguali tra più individui? Quando
sono parenti.
Anche se è probabile che per effetto del caso due polimorfismi siano uguali, per cui
i microsatelliti vengono anche utilizzati per le analisi di parentele

29.09.2016

Strumenti polimorfici (differenti da individuo ad individuo) descrivono anche la


variabilità di una popolazione. Se due individui però hanno lo stesso profilo non
posso sapere se è per effetto del caso o se è per casualità, per cui gli STR sono molto
polimorfiche e questo è importante per i nostri studi.

Un aspetto importante degli STR è il fatto che ci permette di utilizzare il DNA


fingerprinting (dattilologia: studio delle impronte digitali) che permette di avere un
profilo genetico che poi verrà riconosciuto.

DNA MITOCONDRIALE

Il DNA nucleare è presente nel nucleo ed è lungo circa 6 miliardi di nucleotidi in


forma diploide; il DNA nucleare si compatta attorno a degli istoni (proteine) che a
loro volta si compattano su se stessi formando i cromosomi ed è utile per ottenere
molte informazioni. Nella cellula, però, oltre a quello del nucleo ci sono anche altri
elementi genetici contenuti nei mitocondri. Il DNA mitocondriale (umano) usato in
antropologia viene usato per alcune sue caratteristiche peculiari.

- È un DNA contenuto nei mitocondri (cellule procariote viventi come simbionti


nelle cellule eucariote alle quali avrebbero fornito la fosforilazione ossidativa ma
perso l’attività fotosintetica).
- È un DNA circolare che non presenta istoni ed è lungo circa 16569 paia di basi
(circa perché il DNA mitocondriale umano solitamente è lungo 16569bp anche se
ci sono individui che presentano delezioni di quasi una decina di basi per cui hanno
un DNA mitocondriale più piccolo). Visto che è un DNA più piccolo di quello
nucleare è più facile da utilizzare.
- Il DNA mitocondriale umano non ha introni (regioni non codificanti di un gene
che, insieme agli esoni, vengono trascritte dalle RNA polimerasi); codifica per 37
geni.

I principali sono (in figura in senso orario): CytB, ND5, ND4, ND4L, ND3, COIII,
ATPasi6, ATPasi8, COII, COI, ND2, ND1, RNA16s, RNA12s. La maggior parte di
questi geni codificano per le subunità della catena respiratoria, due per RNA
ribosomiali e 22 per RNA transfer. Noi utilizziamo le informazioni di DNA
mitocondriale come barcoding per identificazione specifica.

All’interno del Dna mitocondriale c’è anche


una parte non codificante detta D-Loop
ovvero displicing loop (circolo) ovvero ansa di
dislocazione, che serve per la replicazione del
mitocondrio stesso. In particolare la regione
D-Loop contiene la regione OH ovvero
l’origine della replicazione del filamento H,
uno dei due filamenti mitocondriali.
Il mitocondrio è infatti costituito da due
filamenti: il filamento H (filamento pesante)
ricco di residui guaninici; il filamento L
(leggero) ricco di residui citosinici.
La D-Loop mitocondriale umana è lunga
1100 paia di basi e si suddivide in 3
sottoregioni: regione ipervariabile 1, ipervariabile 2 e ipervariabile 3.
Ad oggi l’analisi viene fatta sul DNA completo, in realtà prima gli studi si
focalizzavano sulla regione ipervariabile 1 detta HVR1 perché ha caratteristiche
analoghe a quelli degli usati per individuare le caratteristiche antropologiche. Parte
dalla posizione 16024 alla posizione 16383 quindi HVR1 misura 360 paia di basi.
HVR1 è una regione molto variabile, infatti se analizzo questa regione posso
osservare differenze che mi consentono di verificare l’appartenenza del mitocondrio
ad un certo individuo (quindi può essere usato per identificazione personale).

CARATTERISTICHE DNA MITOCONDRIALE


Un’altra caratteristica importante del DNA mitocondriale è il tipo di 1)
ereditabilità, infatti si eredita solo per via materna (lo ereditano sia maschi che
femmine ma solo dalle mamme) ed è 2) DNA non ricombinante. Il fatto che non
ricombini è importante, infatti risalendo l’albero genealogico di un certo individuo
troviamo uno stesso DNA mitocondriale per tutti gli antenati  Metodo del
coalescente che ci permette di individuare un DNA mitocondriale “comune” tra
individui. A tal proposito possiamo parlare di Eva Mitocondriale Africana ovvero
la teoria che sostiene che ci sia stata, in Africa, un’antenata comune a tutti i DNA
mitocondriali presenti oggi.
Un’altra caratteristica importante è che ha un 3) discreto tasso di sostituzione
nucleotidica, ovvero andando a stimare le mutazioni che possono avvenire su
ciascun sito di questo mtDNA per anno posso capire quando individui differenti, in
passato, appartenevano alla stessa popolazione.
Esempio: se io conosco una popolazione e so da quale altra popolazione si è separata,
confrontando i mitocondri delle due popolazioni e contando le sostituzioni
nucleotidiche che in media ci sono tra le due popolazioni ho quante sostituzioni
nucleotidiche ho avuto in un certo numero di anni.
Le sostituzioni nucleotidiche in ambiente non codificante avviene più velocemente,
perché avvengono per funzione del caso e del tempo.
Ultima caratteristica è che sono 4) facili da studiare perché in una cellula ci sono
molti mitocondri; 500-600 copie di mitocondri.

- Il DNA mitocondriale può essere utilizzato come marcatore per identificazione


personale (ad esempio su scene del crimine, anche se non sempre è recuperabile).
- Utilizzato anche per il riconoscimento personale.

Esempio: ritrovamento di un ciuffo di capelli di Napoleone, si voleva capire se fosse


realmente suo. Quindi si ricostruisce l’albero genealogico della sua discendenza e
andiamo a prendere DNA mitocondriale di una sua discendenza e confronarla con
Napoleone.

Ma c’è anche da chiedersi, se due mtDNA hanno la stessa sequenza, se la hanno


perché parenti o per effetto del caso.
CROMOSOMA Y
L’alter ego del DNA mitocondriale è il cromosoma Y poiché si eredita dal padre,
quindi si trasmette solo per via paterna. Presenta una discreta parte non
ricombinante (circa il 95% di tutto il cromosoma) e due piccole parti ricombinanti
poste all’estremità del cromosoma e che sono i telomeri; questi ricombinano con il
cromosoma X.
Il tasso di sostituzione nucleotidica è più lenta rispetto al DNA mitocondriale poiché
è rivestito dal nucleo e quindi ha anche gli istoni a compattarlo rendendelo più
stabile. Andando ad analizzare il cromosoma Y possiamo ricostruire la linea
evolutiva maschile.

Utilizzando mtDNA e Cromosoma Y possiamo ricostruire la storia di una


popolazione.
Esempio: ricostruzione ed analisi del cromosoma Y di Leonardo da Vinci anche se
non è così semplice poiché il padre non sempre è certo. Per questo viene recuperato
cromosoma Y dalle sepolture per vedere se le sequenze dell’Y sono simili. Una volta
analizzato il cromosoma Y si può confrontare con quello di Leonardo e ricostruirne
l’intero genoma.

 Studio sul dna mitocondriale dei nativi americani (popolazioni abbastanza


ristrette, si sono scambiati mtDNA tra loro ecc..). I ricercatori suddivisero il DNA
mitocondriale in aplogruppi mitocondriali, ovvero un insieme di aplotipi
mitocondriali di cui si ipotizza un’origine comune, grazie alla condivisione di
mutazioni caratteristiche (si parla di aplotipi e aplogruppi perché mtDNA è apolide).
Combinazione di varianti alleliche lungo un cromosoma o segmento cromosomico
contenente loci strettamente associati tra di loro, che in genere vengono ereditati
insieme.

Si accorsero che sia in HVR1 che in altre regione codificanti, in individui


appartenenti alle stesse regioni erano molto frequenti gli stessi tipi di mutazioni.
Classificazione degli aplogruppi tramite lettere dell’alfabeto: Aplogruppi A, B, C, D
(caratteristici delle popolazioni native americane; non ci sono solo questi, nel corso
degl altri samo arrivati fino alla H più o meno). La cosa interessante è che studiando
le popolazioni asiatiche ci si accorse che avevano aplogruppi a e b così come erano
presenti nelle popolazioni americane, quindi da qui possiamo dire che le
popolazioni asiatiche hanno colonizzato quelle americane.

Come si identifica un aplogruppo? In base alle sostituzioni nucleotidiche presenti


nella regione HVR1 e in quella codificante del mitocondrio.
Dove sono state osservate la maggior parte delle sostituzioni nucleotidiche? Visto
che si tratta di sostituzioni che avvengono sul mitocondrio ed avvengono per effetto
del caso e del tempo la maggior parte delle sostituzioni nucleotidiche, e quindi della
variabilità mitocondriale, è stata rilevata sulla popolazione più vecchia ovvero su
quella africana (perché avevano avuto più tempo di sviluppare questa variabilità)
Questi studi sono stati condotti anche per il Cromosoma Y e si ha comunque
maggior variabilità nelle popolazioni africane. Questi studi ci dicono che Homo
Sapiens deriva dall’Africa. I veri europei sono i Neanderthal perché si sono evoluti
e scomparsi in Europa.

04.10.16

Storia della nostra specie


1984-1985: primo lavoro condotto utilizzando DNA per ricostruirlo su di un uomo.
Lavoro effettuato da Svante Pääbo. Egli cercò di recuperare DNA da una mummia
egizia andandolo a clonare all’interno di un vettore plasmidico e ricostruirlo.
Andando a confrontare il DNA della mummia con il suo vide che era
uguale a quello della mummia (in realtà si capì dopo che era per via delle
contaminazioni).
Alan Wilson nel 1984 andò ad analizzare DNA di un Quagga per capire
se era più simile a quello dei cavalli o era una specie a sé (cosa che poi
venne dimostrata).
1997: Recupero di DNA da un Neanderthaliano e questa fu una scoperta
eccezionale perché fino ad allora nessuno era riuscito a recuperare DNA da un
individuo così antico. Il Neanderthaliano era quello di Feldhofer.
Quando inizialmente vennero ritrovate le ossa post craniali (tutte le ossa tranne il
cranio) si pensava che fossero di cavalli perché il femore era leggermente storto.
Questa invece era una peculiarità dei Neanderthal.
Questo fu reso possibile dagli studi su mtDNA, in particolare analizzando la regione
HVR1 di D-Loop che presentava differenze tra l’uomo di Neanderthal e di Sapiens.

DNA ANTICO
Con il termine DNA antico (aDNA= ancient DNA) si indica qualsiasi traccia di DNA
proveniente da un organismo morto o da parte di esso, o anche DNA estratto da
campioni biologici non recenti come il DNA contenuto in una goccia di sangue
coagulata, nello sperma, o nelle poche cellule epiteliali che si possono ritrovare nel
mozzicone di una sigaretta. Quindi se vogliamo essere più precisi si può
considerare antico qualsiasi DNA che è stato sottoposto a processi autolitici o
diagenetici.

 Con approcci di carattere molecolare siamo stati in grado di ricostruire


frammenti di DNA di individui Neanderthaliani e anche ad analizzare mitocondri
completi di individui vissuti nel passato. Come per esempio ricostruire del genoma
mitocondriale del Mammut attraverso un approccio di PCR multiplex.

2004-2005: passaggio dall’analisi del DNA mitocondriale a quello contenuto nel


nucleo delle cellule. La cavia de laboratori antropologi è il Mammut perché ci sono
tanti reperti scheletrici conservati. Per cui il primo studio condotto su DNA
nucleare è stato fatto sul mammut.
Dopo il 2006: Gli studi condotti su genomi nucleari di individui vissuti nel passato
hanno visto l’utilizzo di tecnologie più specifiche, come NGS (Tecnologie di Nuova
Generazione)  Analisi di 1 milione di nucleotidi di Neanderthal.

Gene FOXP2: gene collegato allo sviluppo del linguaggio articolato. È stato visto
che i Neanderthaliani condividevano la variante del gene FOXP2 con i Sapiens.
Questo ci ha fatto pensare che Neanderthal fosse in possesso di un linguaggio
articolato simile a Sapiens (ci si immagina sia perché il gene era diverso dalla
Famiglia degli Scimpanzé sia perché avranno dovuto avere qualcosa per
comunicare con gli altri cacciatori, in quanto i Neanderthal erano grandi
cacciatori).

2007: Neanderthal e Sapiens avevano, invece, sequenza diversa nel gene relativo
al recettore 1 della melanocortina. Questo ci ha permesso di capire che mentre
i Sapiens in questi geni avevano una sostituzione nucleotidica C, i Neanderthal
avevano una T. questa sostituzione comportava in entrambe le specie una
pigmentazione di pelle chiara e rossiccia nei capelli.
 QUINDI: Entrambi i geni situati sullo stesso cromosoma avevano sequenze
differenti che portavano ad una caratteristica fenotipica uguale in due differenti
individui.

2010: utilizzando le NGS per la prima volta viene analizzato un draft (bozza) del
genoma dell’uomo di Neanderthal. Quello che le sequenze ci rivelavano in relazione
ad Homo Sapiens siamo sicuri che fosse una bozza di genoma priva di
contaminazione, realizzata unendo genomi recuperati da 5 neanderthaliani.
Sempre in questo anno venne sequenziato il primo mitocondrio completo di un
Sapiens vissuto circa 38000 anni fa in Russia ci diceva che non era molto differente
dai Neanderthaliani. C’era da capire perché.

2011: fino a quest’ora conoscevamo un sacco di specie, ma non la donna di


Denisova (in realtà nemmeno adesso poiché non abbiamo un resto post-craniale
da analizzare).
Denisova Cave: ritrovamento di frammenti ossei: falange, denti (molto importanti,
ci dicono moltissime cose). Il dente era un molare differente da quello di tutte le
altre specie i cui denti erano stati studiati. Studiando un frammento di falange
venne scoperto che il DNA di Denisova era diversa sia da Sapiens che da
Neanderthal, si trattava quindi di una nuova specie ancora da studiare.

2012: utilizzando sempre tecniche di analisi molecolare si ha il sequenziamento


dell’intero genoma di individui denisoviani. Scoperta interessante in quanto il DNA
nucleare si ritrovava in proporzioni elevate (superiori al 6%) con popolazioni
Sapiens della Papua Nuova Guinea.

2013: Sequenziamento del genoma completo 50x dell’uomo di Neanderthal (prima


avevano una bozza). 50x vuol dire che ciascuna base del genoma è letta 50 volte,
quindi il risultato è sicuro.  leggendo il genoma vediamo che i Neanderthaliani
condividono una parte di genoma con Sapiens.

2014: sequenziamento mitocondriale completo di Homo Heidelbergensis


(considerato l’antenato di Neanderthal). Quindi confrontando i mitocondri dovrei
trovare Heidelbergensis prima di Denisova e dopo Neanderthal, anche se era più
simile a Denisova.
2016: analisi di campioni Sapiens provenienti da più zone geografiche (italiano,
eurepeo, est europeo fino all’Asia) e di età da 50000 a 100000 anni fastoriche
diverse. Riportando in grafico sulle X l’antichità dei reperti e sulle Y la percentuale
di DNA Neanderthaliano nei reperti vediamo che il DNA Neanderthaliano delle
popolazioni europee decresce col passare del tempo fino ad arrivare ad oggi ad un
2%.

06.10.2016

La degradazione e quindi le caratteristiche del DNA antico, o degradato,


condizionano le ricerche.
LA CONTAMINAZIONE: è molto frequente che un reperto venga manipolato da
individui diversi quindi la contaminazione risulta essere un aspetto fondamentale
e molto importante degli studi di carattere antropologico  vedremo com’è possibile
superare questi ostacoli importanti rappresentati dalla degradazione e dalla
contaminazione da parte di un DNA moderno su un DNA di un reperto antico.

Come si sviluppano questi fenomeni di contaminazione e che caratteristiche


hanno?
Noi andiamo a lavorare sul DNA degradato, che molti chiamano Ancient DNA: la
degradazione è un fenomeno che però non è sempre uguale e pertanto potremo
osservare individui vissuti nel passato recente che hanno un DNA molto più
degradato rispetto ad individui che sono vissuti centinaia di migliaia di anni fa che
per le condizioni tafonomiche in cui essi vengono ritrovati conservano la molecola
in uno stato migliore di conservazione.
TAFONOMIA: sono tutti quei fenomeni che avvengono dal momento in cui un
individuo è morto e viene sepolto al momento in cui viene ritrovato.
Gli aspetti tafonomici sono gli aspetti che riguardano la sepoltura: dove viene
sepolto, come questo individuo è stato ritrovato, se ha avuto una sepoltura naturale
o artificiale, che cosa è successo durante e dopo la sepoltura o dopo la morte, in
quanto non tutti gli individui che noi andiamo ad osservare sono stati seppelliti.
ESEMPIO: i neandertaliani seppellivano i morti? Non li seppellivano generalmente
anche se forse c’è un esempio di sepoltura in cui erano stati deposti dei fiori, però
non è mai stato dimostrato definitivamente che fosse una sepoltura
neandertaliana.
Caratteristiche del DNA degradato, recuperato da un individuo vissuto nel passato,
che dovremo studiare:

1. COMPARSA DI SITI ABASICI


Mancano delle basi. Se io devo per esempio analizzare il DNA che trovo sul
mozzicone di una sigaretta e lo devo confrontare con il DNA della persona che
l’ha lasciato, il DNA della persona che l’ha lasciato visto che è in vita e sta bene
sarà un DNA non degradato; il DNA sul mozzicone della sigaretta, essendo un
DNA che va incontro a fenomeni di degradazione, potrà essere un DNA
degradato. Ma se nel DNA degradato compaiono dei siti ABASICI, cioè dove
mancano delle basi, quando lo vado a leggere e lo confronto con la persona che
l’ha lasciato osservo inevitabilmente delle differenze. Se osservo delle differenze
ci potrebbero essere dubbi sulla reale appartenenza del DNA trovato sul
mozzicone alla persona che l’ha lasciato e di cui si era precedentemente
analizzato il DNA. Quindi da un punto di vista pratico, conoscere le modalità di
analisi di un DNA degradato non serve solo per la ricostruzione della storia
evolutiva della nostra specie, ma è importante anche ai fini pratici nelle indagini
di carattere antropologico forense.
Quindi la comparsa di un sito abasico comporta la DELEZIONE DI UNA BASE,
cioè la mancanza di una base e laddove manca una base in quel punto, il DNA
è più debole e quindi è più facile che si possa rompere. Quindi la presenza di un
sito ABASICO, oltre alla mancanza di informazione ci può portare anche alla
frammentazione del DNA ed infatti, il DNA degradato, è un DNA molto
frammentato. Ci sono degli strumenti che fanno vedere la lunghezza di queste
molecole all’interno di un campione antico: ci sono poche molecole con
lunghezza intorno ai 350 paia di basi, tantissime che sono lunghe 70-75 paia di
basi e poche molecole di 15-20 paia di basi. Quindi quando abbiamo a che fare
con un DNA estremamente degradato, abbiamo a che fare con un DNA con una
lunghezza media intorno alle 75-80 paia di basi -> si tratta di molecole corte,
difficili da recuperare con la PCR.

2. MODIFICAZIONE DEI RESIDUI GLICOSIDICI E DI PIRIMIDINE


Si tratta quindi di zuccheri e di pirimidine, citosina e timina: se si modifica il
desossiribosio, quindi si rompe qualche legame, questa molecola di DNA si
taglia. Se si modificano le pirimidine C e T, come possono modificarsi? Possono
trasformarsi in surrogati o basi simili.
Per esempio: la CITOSINA si modifica spesso in IPOXANTINA, ma questa
ipoxantina come viene letta dalla DNA polimerasi? L’ipoxantina è riconosciuta
dalla DNA polimerasi come una ADENINA, quindi quando arriva la DNA
polimerasi e va a ricostruire quella catena trova un’adenina e nella catena
complementare ci inserisce una TIMINA -> quindi molto spesso in un DNA
degradato, quando l’andiamo a ricostruire, troviamo tantissime sostituzioni
nucleotidiche C verso T. Le C-T quindi sono molto frequenti e questo causa
grandi differenze; infatti se si guarda dal punto di vista evolutivo, quando
facciamo il confronto tra due popolazioni, se conto le sostituzioni misincorporate
causate dalla degradazione del DNA, lo spread le due aumenta perché sono
aumentate le sostituzioni nucleotidiche. quindi un DNA antico è un DNA
degradato che si presenta: frammentato, misincorporato ecc.
3. COMPARSA DI CROSS-LINK INTERMOLECOLARI
Un DNA degradato è frammentato, ma non in maniera esatta ovviamente, è
frammentato lasciando sia in 5’ sia in 3’ delle zone libere: queste zone libere
stanno nel DNA, il DNA sta dentro le cellule che a loro volta stanno nelle ossa.
Dove stanno queste ossa? Sotto terra ci sono batteri, magari qualche batterio è
morto e quindi le endonucleasi della sua cellula hanno cominciato a dividere la
molecola di DNA che risulta anch’essa frammentata -> Se in questa
frammentazione della molecola di un batterio trova una piccola corrispondenza
di sequenza complementare con una molecola di DNA umana, si attaccano e si
costruisce un CROSS-LINK molecolare. Nello studiare questo cross-link
troviamo frammenti di DNA umano con DNA batterico: quindi anche i CROSS-
LINK molecolari sono un fenomeno che caratterizza il DNA degradato e anche
questi possono essere superati.
Un altro tipo di cross-link intermolecolare riguarda alcuni prodotti chiamati:
prodotti di Maillard: sono legami di natura covalente tra proteine e catene di
DNA. Questi sono molto frequenti in catene di DNA che sono deposte nel terreno.
Il DNA, quando si formano questi prodotti, è impossibile da analizzare.

Quindi il DNA che ci troviamo a dover analizzare è in condizioni molto critiche, ma


le tecnologie a nostra disposizione sono molto spinte e ci permettono di superare
molti di questi ostacoli.
Quindi i principali siti di attacco
presenti sulla molecola di DNA vedo
che ce ne sono molti:
- Siti di danno della depurinazione:
adenina e guanina
- Siti di danno ossidativo
- Siti di danno idrolitico
Quindi ci rendiamo conto che gli
aspetti ambientali, dove ritrovo il mio
reperto su cui voglio fare un’analisi
genetica, sono fondamentali perché
se uno dei danni principali è un
danno di carattere idrolitico, che
cosa significherà? Che se trovo il mio
reperto in acqua, molto
probabilmente avrò un DNA
talmente frammentato che sarà molto difficile da studiare. Danni ossidativi: se
trovo il mio reperto scheletrico all’aria o in luoghi molto areati, avrò molti
problemi nel recuperare l’informazione da questa molecola ecc. nelle mummie
ritroviamo spesso danno idrolitico e danno ossidativo perché stanno in luoghi
caldi-umidi. Infatti analizzare il DNA delle mummie egizie è molto complicato.
FATTORI CHE DETERMINANO LA DEGRADAZIONE DEL DNA:
 attività enzimatica cellulare: quando una cellula smette di vivere, al suo
interno i fenomeni che di solito vengono utilizzati per la riparazione di errori
commessi durante la replicazione non funzionano più: ci sono le
endonucleasi che tagliano il DNA.
 attività microbica
 Ph: terreni più o meno acidi possono sviluppare una microflora batterica
che può andare a distruggere il DNA
 azione dell’ossigeno
 Temperatura: temperature più alte possono causare la denaturazione
della molecola e quindi portano alla degradazione
 radiazioni UV: le radiazioni ultraviolette sono utilizzate anche per
sterilizzare perché causano la formazione di dimeri di timine che causano la
degradazione del DNA: infatti i raggi UV a 254 nanometri vengono usati per
disinfettare anche le superfici delle ossa da analizzare.
 Umidità: danno idrolitico
 stress meccanico: reperti ricoperti da quintali di terreno sono sottoposti
ad uno stress meccanico notevole ed un aumento della temperatura del
suolo può portare ad una degradazione delle molecole all’interno del
reperto.

Quindi il DNA che dobbiamo trattare è un DNA molto degradato e frammentato,


ma la situazione è complicata dalle possibili manipolazioni a cui il reperto può
essere soggetto, per esempio le manipolazioni di vari operatori che possono lasciare
il proprio DNA sul reperto; però se si deve analizzare il DNA di un reperto
neandertaliano, distinguere DNA del reperto dal DNA dell’operatore risulta più
facile in quanto il neandertaliano ha il mitocondrio diverso da quello del sapiens,
mentre quando vado ad analizzare il mitocondrio di un sapiens vissuto
contemporaneamente ai neandertaliani (quindi 30.000 anni fa) e trovo del DNA del
contaminante, come faccio a capire qual è il DNA del sapiens e qual è quello del
contaminante, se il sapiens e il contaminante appartengono alla stessa specie?
La situazione risulta ora è più complicata: infatti la contaminazione è uno dei
principali problemi per questo tipo di studi, specialmente quando abbiamo a che
fare con l’analisi di un DNA umano. Quindi:
Uno dei principali problemi per lo studio del DNA antico/degradato umano è la
contaminazione che può avvenire da parte dell’operatore o da altro DNA umano
amplificato presente sotto forma di aerosol

Come poter essere sicuri di ottenere del DNA


antico/degradato autentico?
METODOLOGIA CLASSICA
Per la metodologia classica nel tempo sono stati stilati molti protocolli di analisi:
uno di questi fu fatto da un australiano che nel 2000 scrisse un articolo “Ancient
DNA: do it right or not at all” in cui Aree di lavoro fisicamente separate
erano elencati dei golden criteria
che tutt’oggi sono utilizzati per Controlli negativi sia in fase di
quanto riguarda questa estrazione che amplificazione
metodologia. -> Amplificazione di piccoli frammenti
Ma cos’è questa metodologia max 200 bp
classica? Riproducibilità del dato: stesso
risultato da differenti estratti

La metodologia classica consiste in Clonaggio


varie fasi: Riproducibilità dell’intera fase
- Estrazione del DNA sperimentale (da un altro operatore
- Quantificazione del DNA estratto o in un altro laboratorio)
- Amplificazione del DNA attraverso la PCR
Grado di preservazione biochimico
- Clonaggio dell’amplificato
- (TGA Racemizzazione)
Sequenziamento dei prodotti clonati
Quantificazione delle molecole (PCR
competitiva)

Quindi questa metodologia richiede la PCR: reazione a catena della RNA polimerasi
ed è una metodologia utilizzata soprattutto nell’ambito forense perché per quanto
riguarda gli studi di carattere evolutivo, riguardanti l’analisi del DNA degradato,
non viene quasi più utilizzato.

Guardiamo la tabella: panoramica dei diversi tipi


di danno che si possono avere in un DNA
recuperato da reperti antichi.
Nella prima colonna sono riportati i differenti tipi
di danno:
- rottura dei filamenti -> sono dovuti a danni
di carattere chimico, danni da parte dei
microrganismi ecc. e come effetti hanno la
riduzione della quantità di DNA che può essere
presente all’interno della cellula e riduzione dei
filamenti che sono più corti. Qual è la possibile
soluzione di questi tipi di danni? Fare la PCR di
questi frammenti corti che tra loro si
sovrappongono, quindi fare un’amplificazione di
piccoli segmenti che tra loro si sovrappongono.
PCR: reazione a catena della RNA polimerasi. Questa reazione è molto importante
perché permette di amplificare il DNA, cioè permette di produrre tante copie uguali
a sé stesse del DNA che vado ad analizzare. Essendo una reazione di carattere
biochimico, ha anche altre caratteristiche: può andare anche ad amplificare un
frammento di DNA che voglio analizzare -> io voglio analizzare per esempio un
frammento di 360 paia di basi HRV1 e per farlo utilizzo una coppia di iniziatori o
primers che si vanno ad attaccare alle estremità del frammento che voglio andare
ad amplificare. Attraverso la PCR non solo amplifico il DNA, ma vado anche a
selezionare il DNA che voglio andare ad amplificare: per questo si tratta di una
reazione molto specifica perché attraverso questa coppia di primers che non sono
altro che due frammenti di DNA di lunghezza variabile, dalle 20 alle 30 paia di basi,
che si attaccano in regioni complementari vicine alle regioni che voglio andare ad
analizzare, in questo modo attraverso un ciclo di reazioni accoppiate a temperature
differenti, riesco ad amplificare questo DNA.

Siccome devo andare ad amplificare il DNA, il primo reagente che metterò nella
reazione è appunto il DNA sotto forma di due filamenti. Abbiamo detto che questa
PCR funziona grazie all’utilizzo di una coppia di primers, quindi metto anche questi.
Cosa sono? I primers sono dei frammenti di DNA complementari alle regioni che
voglio andare ad analizzare: la coppia di primers verrà sistemata a monte e a valle
della mia regione, ma come polimerizza il DNA? Cioè in che direzione? 5’ -> 3’ quindi
la polimerizzazione della regione su un filamento sarà in direzioni opposte.
Ovviamente se devo amplificare una regione, significa che devo utilizzare anche un
qualcosa che mi polimerizza queste due catene e quel qualcosa è una Taq
polimerasi che polimerizza i nucleotidi trifosfati che non sono altro che i
mattoncini che vanno a costituire la molecola. Cioè la Taq polimerasi inserirà,
punto per punto, la base azotata che trova corrispondente: quindi se trova una A,
inserirà una T ecc. purtroppo però noi abbiamo a che fare con DNA degradato
quindi la situazione non sarà altrettanto semplice. Perché viene utilizzata la Taq
polimerasi? Perché lavora a temperature più alte, infatti nella reazione della PCR
prima si lavora a 94° per denaturare il DNA, in quanto se i primers devono
attaccarsi alla catena, è ovvio che questa prima debba aprirsi, poi la temperatura
scende e si avvicina ai 50°-60° (temperatura di Annealing) -> a queste temperature
i primers sono in grado di attaccarsi; ma come mai c’è un delta così grande? Perché
siccome i primers hanno sequenze di basi differenti a seconda del numero di C e G
presenti all’interno di questi primers, servono temperature più alte o più basse per
attaccarsi alla catena del DNA. La terza temperatura incontrata durante la reazione
è quella di 72° (temperatura di estensione) -> a questa temperatura la catena si
estende, cioè viene ricostruita. Tutto ciò viene ripetuto per un numero di 30-40-50
volte, dipende da quanto DNA deve essere amplificato. (filmato PCR)

REAGENTI TEMPERATURA
DNA 94°C
PRIMERS 50°-60°C (temperatura di Annealing)
DNTPs 72°C (temperatura di estensione)
Taq polimerasi “

Se faccio un grafico in cui sull’asse delle ascisse metto il numero dei cicli e sulle
ordinate metto il numero delle molecole di DNA prodotte attraverso la PCR: vedo
che nel primo ho due copie di DNA e 0 target copie, al secondo ciclo ho 4 copie di
DNA e 0 target copie, solamente al terzo ciclo di PCR ho le prime due coppie di
target copie -> nel grafico finale vediamo che dopo 30 cicli ho un miliardo e 73
milioni … copie di DNA partendo da una singola molecola. Quindi se le molecole
da cui parto sono molte di più vedremo che si ottengono miliardi di copie di DNA
amplificato, cosa che mi permette di andare a leggere le sequenze e studiarle nel
dettaglio. Questo è il funzionamento della PCR, ma c’è sempre da capire come
funzionano gli OVERLAPPING FRAGMENTS (frammenti che tra loro si
sovrappongono).Cosa significa fare un’amplificazione utilizzando overlapping
fragments?
Il nostro DNA si presenta molto frammentato e la media della frammentazione è
intorno alle 70-80 paia di basi, con una coppia di primers che amplificano una
regione fatta da 20 paia di basi, cioè 20 da una parte e 20 dall’altra, se devo
amplificare un frammento di 80 paia di basi, 20 + 20 = 40, 80-40 = 40 -> quindi è
un po' complesso, non è tanto semplice. È per questo che la PCR non funziona così
bene su un DNA altamente degradato perché qui possiamo trovare regioni di
diverse lunghezze, alcune le posso amplificare con la PCR, ma comunque sono
lunghe 140-150 paia di basi. Supponiamo di voler analizzare 360 paia di basi della
regione HVR1 che però non riesco a trovare tutte insieme; l’unica soluzione che ho
è l’utilizzo di overlapping fragments: quindi se io volessi andare ad amplificare
queste 360 paia di basi, potrei costruire un sistema di primers che amplifica un
primo frammento, un secondo e un terzo.
____0______________________________________________________360___
|_________ |___| | | |
120 | | | |
|______________|___| |
120 | |
|_____________________________ |
120
Quindi con tre coppie di primers io posso andare ad amplificare una regione un po'
più grande rispetto a quella che mi posso trovare all’interno del mio campione,
quindi 360 significa 120-120-120 che mi vanno poi a ricostruire, una volta
confrontate tra di loro, le 360 paia di basi della HRV1 dell’mtDNA.

Ricostruzione dell’HVR1
dell’uomo di Neandertal
con 7 overlapping
fragments.
QUINDI: utilizzare
overlapping fragments ci
permette di superare la
problematica della
rottura dei filamenti e del
danno ossidativo.

A COSA SERVE LA PCR?


Ad aumentare in modo esponenziale il numero di molecole di DNA presenti in
una soluzione

amplificazione esponenziale delle molecole di DNA

Per una PCR di 35 cicli: 234 = 34 miliardi di copie


PERCHÉ è UTILE LA PCR?
Il DNA diviene più facile da manipolare e viene utilizzato in tutti gli
esperimenti di Biologia molecolare (espressione genica, analisi delle sequenze
nucleotidiche, etc.)
 RAPIDA
 PRECISA
 SENSIBILE
Consente di ottenere, in breve tempo, un elevato numero di copie di uno
specifico frammento di DNA a partire da un ridotto numero di copie di
partenza.
Occorre conoscere almeno in parte la sequenza nucleotidica del frammento
di DNA che vogliamo amplificare, e in particolare le sue estremità:

Primers:
corte sequenze di DNA complementari alle 2 estremità del frammento da
amplificare
dNTPs (dATP, dGTP,dCTP,dTTP):
nucleotidi trifosfati, ‘mattoni’ per costruire i nuovi filamenti
Taq polimerasi
(+ buffer e MgCl2):
enzima (DNA polimerasi) che compie la reazione
DNA stampo

La TAQ polimerasi che si utilizza nella reazione di PCR è la DNA


polimerasi estratta dal batterio termostabile Thermus aquaticus che vive in
prossimità delle sorgenti termali.
Le sue molecole sono perciò stabili e funzionanti anche ad elevate
temperature ambientali.

GLI STEP DELLA PCR:


1) Denaturazione a 94°C
2) Appaiamento dei primers a 50-60°C
3) Estensione a 72°C
18.10.2016

DETERMINAZIONE DEL SESSO PER VIA MOLECOLARE


Per quale motivo è importante determinare il sesso di un individuo che non è più
in vita? Le caratteristiche di un individuo si riversano anche a livello scheletrico,
morfologico: per esempio il bacino che è più slargato nella donna per via del canale
del parto; il cranio, che nella donna è più arrotondato. Non è sempre facile però
osservare queste sottili differenze. Inoltre, spesso abbiamo un bacino frammentato
e anche così non è facile studiarlo.
Quindi, per sapere se siamo davanti ad un individuo maschile o femminile
possiamo fare la determinazione molecolare del sesso, poiché oltre alle
problematiche appena descritte ce ne sono altre come il riconoscimento del sesso
in individui infanti e subadulti.
Studiando il sesso è anche possibile studiare la Sex Ratio: distribuzione delle
sepolture maschili e femminili,
si può capire l’importanza di accesso ai riti per maschi e femmine; inoltre vedere i
“gradi” nei due sessi, l’importanza che i due sessi avevano (parità di accesso ai riti
= stessa impotanza).

Come si fa a distinguere dal punto di vista genetico un uomo da una donna?


Sappiamo che il cariotipo maschile è XY e quello femminile XX.
Esiste un gene detto gene omologo dell’amelogenina che ha un polimorfismo di
lunghezza sui due cromosomi sessuali.
- omologo ovvero che una sequenza sta nel cromosoma X e l’altra starà su X o Y;
- polimorfico ovvero che ha una determinata caratteristica su un cromosoma e una
in un altro; visto che è un polimorfismo di lunghezza significa che la differenza che
noi andiamo a cercare è sulla lunghezza del numero di bp sul cromosoma X e Y.
Noi andiamo a studiare una porzione del gene che sappiamo essere polimorfica,
che deve avere caratteristiche tali da poter essere studiati su individui non in vita
quindi con cariotipo degradato.
Questo polimorfismo sul cromosoma Y è di 112
paia di basi, su X è 106 bp. Quindi il profilo
(allelotipo) di un individuo femminile sarà 106-
106 (perché su X ci sono due frammenti di 106)
mentre quello del maschio sarà 112-106.
Attraverso un’amplificazione con una singola
coppia di primers di un frammento presente su
X e su Y avrò, a seconda se si tratta di un
maschio o di una femmina, un profilo
rispettivamente di 112-106 e di 106-106 (quindi
in entrambi i casi avrò amplificazione di due
frammenti ma di lunghezze diverse). Facendo la
PCR, utilizzando la mia coppia di primers, se si
tratta di un individuo maschile avrò
l’amplificazione di due frammenti se si tratta di uno femminile sempre di due ma
della stessa lunghezza.
Ma come faccio a vedere se il DNA è un individuo di sesso maschile o femminile?
Effettuo un’elettroforesi su gel

Inserisco su questo gel, solitamente di agarosio (polimero di zucchero che quando


polimerizza forma maglie strette) il campione di DNA. Questo DNA che vi inserisco
viene sottoposto a un campo elettroforetico (con polo positivo e negativo) e quindi il
Dna correrà verso il polo positivo poiché carico negativamente. Più il frammento è
corto, più corre veloce e quindi arriva prima.

QUINDI nei frammenti 106-112 che corrono arriva


prima 106; mettendo poi una sostanza nel gel che,
se colpita da raggi UV, diventa fluorescente quando
punto una lampada a raggi ultravioletti visualizzo
delle bande  se ho a che fare con individuo
maschio vedrò due bande (perché i due frammenti
arrivano in due momenti diversi) se ho femmina avrò
una sola banda.

Es. gel con pozzetti dove carico il DNA. Nel primo e nell’ultimo ci metto il controllo
negativo e il controllo positivo (cosa sono? Il controllo negativo è costituito da tutti
i reagenti della PCR tranne il DNA serve per controllare che non ci sia
contaminazione; quello positivo sia per vedere la corretta altezza delle bande sia
per verificare che abbia messo tutto bene nei pozzetti.
Vedi disegno quaderno scanner.
FOTO
Campione n1: maschio; n2: femmina; n3: maschio; controllo positivo: maschio
perché presenta entrambi gli alleli. La banda più in basso è 106 perché è quella
più leggera e quindi quella che arriva prima.
Però essendo campione degradato chi mi dice che il campione 2 dove vedo solo il
106 non ci sia anche un allele degradato?  Può succedere che avvenga perdita
allelica, è molto frequente. Per assicurarmi che il campione 2 sia una femmina
posso ripetere l’esperimento una seconda volta sullo stesso campione, ma ad
esempio partendo da un frammento osseo diverso.
Posso usare un’altra coppia di primers che vanno ad analizzare un altro locus posto
solo sul cromosoma Y, quindi effettuo una PCR Multiplex perché utilizzo più di
una coppia di primers (molte coppie di primers, in questo caso due). Solitamente
vengono amplificati fino a 17 loci.
Il frammento che vado ad amplificare si chiama SRY perché esclusivo del
cromosoma Y ed è lungo 93 paia di basi; scelgo un frammento ancora più piccolo
dei 106-112 perché ci sta che ci sia frammentazione di frammenti più grandi.
Il Range massimo di frammenti amplificabili sono circa 45bp, quindi dobbiamo
utilizzare frammenti piccoli ma non troppi.
Ripeto l’esperimento e trovo 4 bande sul 93, questo perché tutti gli individui sono
maschi.

Lesioni di carattere ossidativo portano lesioni di carattere nucleotidico.


Se il nostro DNA è sottoposto a fenomeni di degradazione, quindi si può verificare
che nel light strend (del DNA mitocondriale, infatti ricorda che ha una catena
leggera e una pesante) la citosina possa essere letta come uracile in seguito ad
idrolisi. Per cui alla prima replicazione la C viene letta come uracile ci viene
accoppiata una timina e quindi abbiamo un filamento C-T (una C verso una T;
oppure nell’altro filamento una A verso una G)  Misincorporazioni
Se una coppia di primers amplifica una regione con misincorporazioni, alla fine del
processo di amplificazione avrò migliaia di molecole con quell’errore. Se si parte
però dalla stessa molecola senza errore allora dopo l’amplificazione non avrò errori.
Quindi io ho molecole sia con errore che senza e che una volta amplificate vanno
lette tramite una reazione di sequenza (reazione casuale) che mi consente di farlo.
Quindi io leggerò sia quelle con l’errore che quelle senza, per cui mi serve un
sistema che mi legga le molecole e riesca a distinguere e separare quelle con l’errore
e quelle senza. Questo sistema è il clonaggio.
CLONAGGIO
Sistema della metodologia classica.
Per esempio, ho Dna estratto da un uomo vissuto anni fa, e lo inserisco all’interno
di eppendorf. Prendiamo 2micro litri di DNA e ci facciamo una PCR. Vogliamo
amplificare HVR1 del DNA mitocondriale, quindi coppia di primers nel DNA
degradato e se trova delle corrispondenze i primers iniziano ad amplificare questo
frammento (in realtà non vanno solo su un frammento mitocondriale ma su tanti
frammenti di DNA mitocondriale). Alla fine dell’amplificazione avremo miliardi di
amplificati che teoricamente dovrebbero essere tutti uguali tra loro, in pratica non
lo sono perché siamo partiti dal DNA degradato.
Possiamo quindi separarle in grandi gruppi di molecole, grazie al clonaggio genico.

1) Taglio di specifiche sequenze di DNA bersaglio


con specifici enzimi di restrizione che
riconoscono e tagliano sequenze palindromiche;
2) Selezione di specifici vettori plasmidici ) entro
cui inserire il DNA esogeno (i plasmidi sono
elementi genetici non appartenenti a cromosomi
che si replicano autonomamente in cellule
batteriche. Devono contenere una sequenza Ori,
una certa resistenza ad un Ab e una regione
polylinker in cui si inserisce l’inserto di DNA da
clonare); 3) Ligazione, tramite ligasi, dei
frammenti tagliati, in modo da creare legami
covalenti tra le estremità del vettore e del DNA;
4) Inserzione del vettore all’interno di cellule
batteriche e successiva trasformazione per
incorporare il vettore; 5) Si ottengono cloni del
batterio trasformato, quindi tanti nuovi batteri
con il frammento di interesse ad ogni ciclo di
replicazione.

Esempio di lezione: Prendere un frammento e inserirlo all’interno di un plasmide (nel


nostro caso più molecole su più plasmidi). Se io introduco i plasmidi in cellule
batteriche e li faccio replicare avrò separato le mie molecole e le avrò fatte replicare
in cellule diverse. Inserisco la molecola nel plasmide, molecola che proviene dal
prodotto di amplificazione con PCR. Inserisco il plasmide in una cellula batterica e le
trasformo. La cellula batterica viene messa in un terreno di coltura e quindi in seguito
avrò tante cellule batteriche contenenti plasmidi contenenti inserti tutti uguali tra loro
(all’interno di una singola colonia). Non si parla di errori perché si ha correzione.
In seguito, quindi, a clonaggio avrò una piastra con cellule batteriche, vado a
recuperare le colonie e con strategie di carattere molecolare andiamo a recuperare
l’inserto. Quindi dalle mie piastre ad esempio recupero 14 inserti, quindi vuol dire
che almeno ho separato il mio prodotto di amplificazione in 14 gruppi di molecole
che possono essere o uguali o diversi tra loro. Dopo aver recuperato i 14 differenti
inserti del mio prodotto di amplificazione, vado a sequenziarli.
(In seguito a sequenziamento, riportando in figura avrò 16024 che è la posizione di
inizio di HVR1 del DNA mitocondriale; il fatto che ci siano dei puntini sta a
significare che la base è uguale a quella di riferimento; dove ci sono le basi scritte
vuol dire che si ha misincorporazione). Il clonaggio adesso non si fa più perché NGS
è più efficace.

Multiple and Independency PCR: Multiple vuol dire che dobbiamo fare più PCR per
ogni singolo estratto, mentre Independency in più laboratori.

Criteri of authenticity:
- Aree di lavoro fisicamente separate
- Controlli negativi sia in fase di estrazione che amplificazione
- Amplificazione di piccoli frammenti di DNA max 200mp
- Riproducibilità del dato: stesso risultato da differenti estratti
- Clonaggio
- Riproducibilità dell’intera fase sperimentale da un altro operatore in un altro
laboratorio
- Quantificazione delle molecole; una volta amplificato il DNA con Real Time
posso vedere in tempo reale quanto DNA ho all’interno di un estratto.

20.10.2016

L’ultima volta abbiamo parlato del clonaggio genico come un meccanismo che ci
permette di suddividere le molecole di DNA che sono state prodotte attraverso
l’amplificazione.
RIASSUMENDO: siccome partiamo dall’analisi di un reperto antico di un individuo
vissuto nel passato, che sia un neandertaliano o un sapiens, il DNA che andiamo
a recuperare è un DNA degradato e quindi quando la coppia di primers si attacca,
durante la reazione della PCR, su una molecola di DNA mitocondriale ad esempio,
abbiamo la possibilità e spesso accade che questa molecola sia degradata in vari
punti e che questa degradazione possa compromettere un’analisi successiva
quando andiamo a sequenziare questo DNA -> Cioè se andiamo a leggere la
sequenza di DNA che passa attraverso un’amplificazione e quindi un
sequenziamento diretto di questo prodotto di amplificazione, non è detto che il
risultato rispecchi quello che realmente c’è all’interno di questo frammento osseo
perché abbiamo detto che nell’estratto ci sono centinaia di migliaia di molecole di
DNA mitocondriale e quindi se andiamo ad amplificare una di queste molecole
degradate, le amplifico tutte, ma se ne sequenzio solo un gruppo avrò un risultato
che non prende in considerazione tutto quello che si presenta all’interno e
addirittura potremmo avere un risultato sbagliato. Quindi il passaggio del
clonaggio, nella metodologia classica, ci permette di setacciare il pool di molecole
prodotte durante l’amplificazione e poi ci permette di confrontarle e di vedere
effettivamente quali sono le molecole che possono essere considerate endogene del
reperto.

Un flusso di lavoro con la metodologia classica è un flusso di lavoro che negli studi
di carattere antico non viene quasi più utilizzato: è una metodologia un po' passata,
ma è importante perché, anche se non è utilizzata per lo studio dell’evoluzione
naturale dell’uomo, è utilizzata nell’antropologia forense. Con questa metodologia
in fin dei conti sono stati prodotti una serie di risultati scientifici che hanno messo
in mostra numerose ed importanti ricerche riguardanti la storia evolutiva della
nostra storia.

ANALISI della METODOLOGIA CLASSICA e QUALI SONO LE RICERCHE CHE


POSSIAMO CONDURRE UTILIZZANDO QUESTA METODOLOGIA:

partiamo da un DNA estratto,


quindi la prima cosa che si va a
fare è la PCR: c’è un prodotto di
PCR? Se c’è questo prodotto di PCR
andiamo avanti nel percorso
logico, se il prodotto di PCR non c’è
bisogna chiedersi allora se sono
presenti dimeri di primers -> i
dimeri di primers sono una coppia
di primers che si appiccicano
perché trovano delle
complementarietà e si auto-
amplificano. Se questi dimeri di primers sono presenti, ma non ho avuto alcun
prodotto, potrebbe essere successo che non c’è sufficiente DNA di partenza e quindi
dovrei aumentare la quantità di DNA e ripartire da capo a rifare la PCR. Se invece
i dimeri di primers non sono presenti, la reazione potrebbe essere stata inibita:
questo perché quando faccio l’estrazione del DNA da questi reperti scheletrici che
possono essere sepolti, sotto terra ecc. all’interno dei reperti possono ancora
trovare dei resti di terra o particelle di acidi urici che inibiscono notevolmente
l’azione della Taq polimerasi e quindi accade molto spesso che un estratto si
presenti molto inibito, cioè che contiene molte sostanze che vanno ad inibire la
funzione della Taq polimerasi. Per questo motivo molto spesso è necessario andare
a diluire l’estratto del DNA -> se non sono presenti dimeri di primers, la reazione
potrebbe essere stata inibita: la soluzione è andare a diluire l’estratto di DNA o
purificarlo.
Quindi ora ripartiamo: c’è un prodotto di PCR, ma ci chiediamo se sono puliti i
controlli negativi. Cosa vuol dire? Se i controlli negativi fossero sporchi significa
che ho utilizzato dei reagenti inquinati da DNA umano che potrebbe essere
dell’operatore, ed è per questo che quando si lavora con i reperti antichi bisogna
indossare un abbigliamento che ci isoli completamente, ovvero si devono utilizzare
guanti e camici sterili monouso, mascherina ecc. questa contaminazione però può
essere fatta dall’operatore, ma può essere fatta anche da un aerosol che viene
prodotto in una zona del laboratorio dove si utilizza DNA ad alte concentrazioni e
pertanto esistono delle regole specifiche all’interno di un laboratorio di antropologia
(rules lab.). in questi laboratori inoltre esistono delle dressing rooms: in cui sono
accesi i raggi UV che devono disinfettare l’ambiente e in cui gli operatori i vestono
per andare a fare l’estrazione del DNA.
 Quindi i nostri controlli negativi sono puliti? Se sono puliti si continua, se
non sono puliti perché magari un operatore li ha contaminati con il suo DNA,
vuol dire che la nostra estrazione è stata contaminata e questo rappresenta
un grosso problema perché noi abbiamo a che fare con elementi quasi unici;
per esempio fino ad oggi sono stati analizzati 39 neandertaliani e 60 sapiens,
quindi sono campioni quasi unici.
 Se i nostri controlli sono positivi sappiamo che anche in controlli di DNA
puliti ci potrebbero essere
contaminazioni non sviluppate in
laboratorio, ma contaminazioni che
si sono accumulate nel corso del
tempo: la contaminazione può
avvenire a svariati livelli, per
esempio può avvenire oltre che nel
personale del laboratorio, anche nel
personale archeologico ed è molto
difficile da identificare -> quindi
anche se ho i controlli negativi puliti,
posso anche pensare che un reperto
che è stato conservato in un museo
e di cui voglio andare ad analizzare il DNA posso immaginare che sia stato
maneggiato da moltissimi operatori. quindi nel mio reperto posso arrivare ad
osservare DNA mitocondriali con motivi differenti. Capiamo quindi che non
è possibile applicare la metodologia classica su reperti antichi che potrebbero
essere stati manipolati da diversi individui, per esempio materiale umano
tenuto in un museo che appartiene al genere sapiens non può essere
analizzato con questa metodologia, mentre materiale di proveninenza diversa
dal sapiens si perché il DNA mitocondriale è diverso e quindi è possibile fare
una discriminazione. Quindi posso analizzare per esempio il mitocondrio
neandertaliano e distinguerlo da un mitocondrio umani -> con la metodologia
classica posso analizzare frammenti di DNA mitocondriale neandertaliano
con risposte sicure.
 Andando avanti clono il prodotto: tutte le sequenze sono uguali tra di loro?
se tutte le sequenze sono uguali tra di loro, vuol dire che probabilmente ho avuto
la fortuna di avere un reperto
ben conservato, non
contaminato che mi produce
tutte sequenze uguali, però
potrebbe anche essere dovuto
ad altro: se un reperto è stato
sottoposto da fenomeni di
contaminazione importanti,
cioè è stato molto manipolato
da un individuo ecc., il DNA
che verrà fuori sembra
endogeno perché tutto uguale,
ma c’è un problema di fondo,
cioè non posso essere sicuro a
chi appartenga questo DNA
perché non so da chi è stato
manipolato il reperto -> quindi è difficile accettare il risultato, ma può risultare
invece più facile accettarlo se faccio il secondo passaggio: ANALISI
FILOGENETICA.
Perché? noi abbiamo parlato di apogruppi mitocondriali e si è detto che sono delle
sequenze mitocondriali simili tra di loro e un apotipo mitocondriale infatti è un
individuo che possiede un determinato motivo mitocondriale le cui caratteristiche
sono asbbstanza specifiche per una determinata popolazione. Gli apogruppi
mitocondriali inoltre si indicano con le lettere dell’alfabeto e per esempio i nativi
americani hanno gli apogruppi A B C D, mentre le popolazioni africane hanno
apotipo L, mentre quelle europee ne hanno un sacco diversi quindi per quest’ultime
è molto difficile fare analisi filogenetiche.

X es: popolazioni fuigine, della terra del fuoco, cioè gli antichi abitanti della
Patagonia; questi individui sono presenti in buon numero sia nel museo di Firenze
che a Roma. Non sono molto antichi (1700-1800), ma sono gli ultimi morti in quelle
terre. Erano chiamati così perché erano nudi e indossavano solo qualcosa per
coprire il bacino e accendevano grandi fuochi sulle terre da cui passavano. Sono
stati studiati anche da un punto di vista genetico per la loro resistenza alle alte
temperature, ma aldilà di questo, andando a studiare il DNA di un abitante della
Terra del fuoco, i cui reperti erano stati sicuramente manipolati da vari individui,
si sono trovate tantissime contaminazioni, però la cosa importante era sapere che
questi reperti erano stati studiati da individui europei -> analisi filogenetiche:
abbiamo estratto il DNA amplificato con il clonaggio, dopodiché si sono ricostruite
le sequenze di DNA mitocondriale. Sappiamo che le popolazioni native americane
hanno apogruppi A, B, C, D che sono diversi dagli apogruppi europ e la differenza
si osserva dalle sostituzioni nucleotidiche di ogni apotipo mitocondriale. Quindi
andando ad osservare, tra tutte le sequenze clonate, quali erano quelle sequenze
che avevano quelle sostituzioni nucleotidiche caratteristiche di quei determinati
apogruppi mitocondriali, abbiamo potuto estrarre queste informazioni e abbiamo
potuto recuperare le sequenze endogene. Ma come mai abbiamo preso queste
sequenze e siamo sicuri che sono endogene? Attraverso lo studio di carattere
filogenetico, cioè analizzare gli apogruppi mitocondriali significa costruire alberi
filogenetici che mettono in relazione le sequenze dal punto di vista evolutivo e che
quindi ci permettono di separare quelle molecole mitocondriali che appartenevano
ad un determinato apotipo mitocondriale.
Quindi noi dalle analisi di tipo filogenetico sappiamo che i nativi americani avevano
apogruppi A, B, C e D e che quindi avevano precise sostituzioni nucleotidiche, cioè
per esempio un apotipo D ha come caratteristica quella di avere, in posizione
16223, una C invece di una T e quindi sappiamo che quella determinata sequenza
con quella determinata sostituzione afferisce a quel determinato apotipo
mitocondriale. Quindi se da questo pannello di ampliconi andiamo a recuperare
quelle sequenze che hanno queste caratteristiche con queste sostituzioni
nucleotidiche che conosciamo, sappiamo che queste sono SEQUENZE
ENDOGENE, ma lo possiamo fare perché abbiamo fatto studi di carattere
filogenetico. -> comunque possiamo usare questo metodo perché sappiamo che i
reperti sono stati manipolati da operatori europei, perché se fossero stati
manipolati da antropologi nativi americani non l’avremmo potuto fare.

 Quindi andando avanti: se questi risultati danno un senso filogenetico,


allora posso andare avanti; se invece non hanno senso filogenetico, cioè se
avessi trovato tutti apotipi europei, potrei anche smettere di procedere
perché sono tutti reperti contaminati.
 Anche se hanno un senso filogenetico, dobbiamo sempre andare a replicare
i nostri esperimenti in un altro laboratorio. Quindi quando viene replicato
in un altro laboratorio e le sequenze hanno un match esatto, allora significa
che ho avuto un risultato valido. Mentre se ci sono delle differenze, allora a
questo punto ci potrebbe
essere stata una
contaminazione a livello di
qualche punto e quindi devo
rifare tutto l’esperimento.
 Anche se le sequenze
hanno un match esatto,
potrebbero comunque essere
intrinsicamente contaminate:
se ho un reperto trovato
direttamente nel terreno da
un operatore, so che quando
vado ad analizzarlo questo reperto ha preso contatto SOLO con questo
operatore, quindi andando a fare il DNA mitocondriale dell’operatore e del
reperto, se questo DNA mitocondriale del reperto è differente, molto
probabilmente potrebbe essere il suo. Perché probabilmente? Perché il
reperto potrebbe essere intrinsicamente contaminato. X ES: uomo di
Altamura, prima di arrivare al luogo in cui era conservato l’uomo di
Altamura c’era un percorso in cui c’erano numerose ossa di animale che
facevano una specie di tappeto. Quindi per arrivare all’uomo ovviamente si
doveva passare su queste ossa di animale: prima di iniziare lo studio sul
DNA dell’uomo di Altamura, si è recuperato qualche osso di animale
presente nella grotta per provare se, in queste condizioni ambientali così
difficili, è ancora possibile trovare DNA in buono stato di conservazione. Si
trattava di uno strato di ossa di 25-30.000 anni fa e inizialmente si pensava
che il reperto prelevato fosse un osso di daino: laboratorio, estrazione e
amplificazione del DNA di daino -> non viene nessun risultato. Allora si
cercò di capire che tipo di animale potesse essere, per farlo si provarono
una serie di primers tra cui anche quelli della pecora. Stesso procedimento
e viene il risultato che si cercava: le pecore sono animali domestici e
l’addomesticazione è invece un processo che è stato introdotto con l’homo
sapiens quindi intorno a 5.000-6.000 anni fa sicché 25.000 anni fa,
quando poteva essere vissuto l’uomo di Altamura, le pecore lì non potevano
esserci. Quindi, visto che i risultati erano discordanti, si sono utilizzati dei
primers che andavano ad amplificare frammenti più piccoli: e otteniamo
DNA di daino. Ma perché si era ottenuto DNA di pecora? Perché l’uomo di
Altamura si trovava nelle murgie, cioè grandi pascoli dove ci pascolano le
pecore e gli speleologi, al momento della scoperta del reperto, avevano
camminato prima nelle murgie e pestando escrementi di pecora avevano
lasciato delle impronte anche sulle ossa del percorso che portava alla grotta
dell’uomo. Quindi questo campione di daino era intrinsicamente
contaminato dal DNA di pecora.
Per cui anche i reperti umani possono essere contaminati intrinsicamente,
ma da cosa? Da qualsiasi cosa, però sappiamo anche che a volte, all’interno
di una sepoltura che troviamo, ci possono essere anche reperti animali,
quindi il DNA potrebbe essere intrinsicamente contaminato.
 se il DNA è intrinsicamente contaminato, cosa possiamo fare? Possiamo
quantificarlo innanzitutto, ma possiamo anche fare un altro tipo di test,
cioè possiamo testare con primers che vanno ad amplificare il DNA umano
il DNA estratto dagli animali che sono in prossimità di questo reperto, per
verificare se il DNA che ho estratto da questi animali contiene al suo
interno tracce d DNA umano. Questa è una delle ultime cose che viene
fatta.
 Abbiamo così l’evidenza
scientifica che il DNA
che abbiamo
recuperato è DNA
autentico, il risultato
però non è provato, è
supportato però
dall’evidenza
scientifica. Cosa vuol
dire? Vuol dire che con la metodologia classica noi possiamo andare a fare
solo poche operazioni:
- Analizzare il DNA neandertaliano perché è differente da quello dell’uomo
- Possiamo analizzare il DNA di individui umani che sono stati
direttamente scavati con tutte le precauzioni
- Possiamo analizzare il DNA animale
- NON possiamo analizzare il DNA umano che è stato manipolato e non
sappiamo da chi
- NON possiamo andare ad analizzare DNA nucleare di individui
appartenenti allo stesso genere
- NON possiamo analizzare nemmeno il DNA nucleare di individui
appartenenti alla nostra specie

Questo è quello che possiamo fare con la metodologia classica, mentre


con la tecnologia NGS possiamo fare tutto quello che vogliamo perché con questa
metodologia possiamo distinguere DNA endogeno da DNA esogeno.

Quindi ha significato fare studi analisi sul DNA antico/degradato?


La risposta è si a determinate condizioni:
- Recupero del reperto in condizioni di massima sterilità
- Storia tafonomica del reperto
- Confronti nei casi forensi

Ultima parte della metodologia classica: SEQUENZIAMENTO DEL DNA.

Come funziona la REAZIONE DI SEQUENZA


(quella che ci permette di leggere il DNA)?
1983-85: scoperta della PCR -> questa scoperta
ha avuto moltissime applicazioni, una delle
quali è il sequenziamento automatico del DNA.
Questo infatti è fondamentalmente una PCR che
in un certo senso differisce da quella classica per
un paio di elementi; per la PCR vengono usati:
DNA stampo, primers, DNtp e la Taq polimerasi.
La reazione di sequenza più o meno è simile:
 anziché usare una coppia di primers se ne usa uno solo perché tanto devo
andare a ricostruire solo un filamente perché l’altro è complementare.
 L’ingrediente in più sono i DIDEOSSINUCLEOTIDI TRIFOSFATI: ddNTP -> ci
sono il ddATP, il ddCTP, il ddGTP e il ddDTP.
La reazione di sequenza è una reazione stocastica, cioè
casuale, perché la molecola che viene inserita quando
viene ricostruita la sequenza del DNA può essere un
dNTP o un ddNTP.
Che differenza c’è tra l’inserimento di uno o dell’altro?
Se viene inserito dNTP, cioè un deossinucleotide
trifosfato, (….), se invece viene inserito un ddNTP questa
reazione si stoppa. L’altra caratteristica del ddNTP, oltre
a bloccare la reazione di sequenza per la mancanza del
gruppo ossidrle e quindi l’altro d NTP non si può
attaccare, è che il ddNTP per ciascuna base avrà una
molecola fluorescente attaccata, cioè un fluoroforo che
si andrà ad inserire in corrispondenza della base a cui
si andrà ad attaccare. L’importanza della reazione di sequenza è che si fa a partire
da un numero elevatissimo di sequenze, cioè da un prodotto di amplificazione,
perché se non si fa partendo da un prodotto di amplificazione, è impossibile andare
a sequenziare il nostro prodotto (video).
Quindi per sequenziare il DNA abbiamo bisogno di:
- DNA
- DNA polimerasi
- Nucleotidi
- Un primer
- Dideossinucleotidi
Essendo una PCR il DNA si denatura, arriva il
primer che si attacca, arriva la DNA polimerasi
e iniziano ad attaccarsi casualmente i Dntp, ma
anche un ddNTP: cosa succede? Quando si
provano poi ad attaccare altri d NTP o ddNTP la
reazione si stoppa. Ovviamente per ciascuna base, perché si parte da un numero
elevatissimo di molecole, abbiamo la possibilità di avere un fluoroforo con un
ddNTP attaccato e quindi se io inserisco tutto questo prodotto di sequenza
all’interno di un sequenziatore automatico -> per il discorso con cui funziona anche
l’elettroforesi, i frammenti migrano nel gel in proporzione alla loro taglia, quindi
passano i prodotti di amplificazione davanti ad un laser e sono tutti differenti. alla
fine abbiamo un cromatogramma che ripropone la sequenza di DNA e ciascun
frammento corrisponde ad un picco che osserviamo nel nostro gromatogramma. I
frammenti ovviamente sono in ordine di lunghezza, il più veloce è anche quello più
corto.
Come mai i picchi del cromatogramma sono di differenti altezze?
Perché il picco T è più alto rispetto
al picco A? hanno un’altezza
differente perché dipende dal
numero di frammenti che finiscono
con la T, con la A ecc. ovviamente
più frammenti finiscono con la T
più è alto il picco. Questo è
importante ai fini della reazione di
sequenza perché la reazione di
sequenza è stocastica e quindi che
ci sia un picco più alto o più basso
è normale perché casualmente
possono esserci molti più frammenti che finiscono con la A rispetto a quelli che
finiscono con la C ecc.

QUINDI: SEQUENZIAMENTO DEL DNA

Esistono 3 metodiche di sequenziamento del DNA:

1. Metodo chimico di MAXAM-GILBERT

2. Metodo enzimatico di SANGER

3. Sequenziamento AUTOMATICO tramite terminatori fluorescenti  più


attuale

Si opera sempre sul DNA a singolo


filamento.
Vengono allestite 4 reazioni di PCR (sintesi
del DNA) particolari in ciascuna delle quali
è presente un reagente in più:
DIDEOSSINUCLEOTIDE
Quando la DNApolimerasi incorpora nel nuovo
filamento un dideossinucleotide:
la sintesi si blocca  TERMINATORI
perché nel dideossinucleotide manca un gruppo ossidrile.

QUINDI:
Per ogni posizione in alcune nuove molecole si inserisce un deossinucleotide
 la sintesi del filamento continua
In altre molecole si inserisce un dideossinucleotide
 la sintesi del filamento si blocca
In ogni tubo di reazione si possono formare
diversi possibili frammenti:

Esempio per la reazione contenente ddATP ->


Il metodo originale di Sanger (DNA sequencing with chain-terminating
inhibitors, 1977) o metodo enzimatico,
consiste nella sintesi di nuovi filamenti di DNA
complementari ad uno stampo a singolo
filamento, in presenza di ddNTP (terminatori
dideossi); avviene in 5 fasi:

1. Il campione di DNA da sequenziare


viene clonato in un vettore e
denaturato per ottenere lo stampo a
singolo filamento in quantità
sufficiente.
2. Lo stampo a singolo filamento viene
suddiviso in 4 provette di sintesi con
l'aggiunta di:
o un primer specifico
complementare al filamento da
sequenziare e marcato
radioattivamente
o la DNA polimerasi
o una miscela dei 4 dNTP
o un ddNTP diverso in ognuna delle 4 provette e in concentrazione
1:100 rispetto al dNTP corrispondente
3. Al termine della reazione di sintesi ogni provetta conterrà nuovi frammenti
di DNA marcati di lunghezza diversa (a seconda della posizione 3' in cui è
stato incorporato il ddNTP) che vengono poi caricati in 4 pozzetti diversi e
separati con elettroforesi su gel di poliacrilammide.
4. I frammenti (che hanno l'estremità 5' marcata) vengono visualizzati
attraverso autoradiografia come bande radioattive di lunghezze diverse.
5. La sequenza del DNA viene ricostruita a partire dall'estremità 5' a quella 3'
(cioè dal frammento più corto a quello più lungo) in base alla posizione delle
bande nei diversi pozzetti, che corrisponde alla terminazione della sintesi a
livello di una delle 4 basi nucleotidiche per incorporazione di un ddNTP.

Sequenziamento AUTOMATICO tramite


terminatori fluorescenti:
 è un’evoluzione del metodo di Sanger:
* si usano dideossinucleotidi coniugati a
composti fluorescenti
* si allestisce una reazione unica
* la separazione dei frammenti e la lettura
della sequenza vengono fatte automaticamente
 SEQUENZIATORE AUTOMATICO
Successivamente è stata introdotta una variante del metodo originale, in cui i
frammenti di Sanger sono prodotti mediante amplificazione con PCR di una
piccola quantità di DNA stampo a doppio filamento, quindi non è più necessario il
clonaggio del DNA da sequenziare e si può utilizzare DNA a doppio filamento. Inoltre
si utilizzano primer o ddNTPs marcati con 4 fluorocromi differenti, quindi si
possono far correre i frammenti in un'unica corsia e, soprattutto, la sequenza può
essere letta in modo automatizzato:

1. Vengono allestite 4 reazioni di PCR con:


o il DNA stampo da sequenziare a doppio filamento
o un solo primer (per ottenere soltanto il filamento complementare allo
stampo)
o la Taq DNA polimerasi
o una miscela dei 4 dNTP
o un ddNTP marcato con un fluorocromo diverso in ognuna delle 4
provette e in concentrazione 1:100 rispetto al dNTP corrispondente
2. Per ogni reazione si genera una miscela
di frammenti a singolo filamento che
vengono poi caricati in un unico pozzetto
e separati per elettroforesi
3. Durante l'elettroforesi i frammenti
vengono eccitati da una luce laser,
passano davanti a un rilevatore che
capta la lunghezza d'onda e l'intensità
delle emissioni fluorescenti e identifica
quale nucleotide è presente nella banda.
4. Le informazioni vengono integrate e trasformate in picchi di colore diverso
(uno per ogni nucleotide) con aree proporzionali all'intensità di emissione.
Il metodo di Sanger automatizzato ha reso possibile il sequenziamento di interi
genomi come quelli di Haemophilus influezae, S. Cerevisiae e E. Coli.
Nel 1999 sono stati introdotti dalla PerkinElmer i sequenziatori automatici
ABI (Applied Biosystems) che utilizzano un sistema di elettroforesi capillare al
posto dell’elettroforesi su gel. La separazione dei frammenti fluorescenti avviene in
un tubo capillare del diametro di 50 µm contenente un polimero di corsa. I
sequenziatori più efficienti utilizzano 96 capillari che permettono di sequenziare
100.000 bp/run.
25.10.2016

Quali sono stati, a livello antropologico, i risultati ottenuti seguendo questa


METODOLOGIA CLASSICA?

Storia tafonomica: occorre, sul


reperto che stiamo studiando,
andare a recuperare quante più
informazioni possibili. Se per
esempio ho a che fare con un
reperto europeo, che magari
condivide lo stesso nostro
apotipo mitocondriale, diventa
molto difficile andarlo a
studiare. Quindi la prima cosa
su cui dobbiamo porre
attenzione, quando abbiamo a
che fare con un individuo
SAPIENS europeo, e la maggior parte degli individui antichi lo sono, dobbiamo
pensare a ricostruire la sua storia tafonomica, cioè chi ha manipolato questo
reperto. Conoscere la storia tafonomica serve anche nello studio di un
neandertaliano, però è importante se devo estendere questo studio non al DNA che
è presente nel mitocondrio, ma al DNA che è presente nel nucleo. Quindi se dovessi
seguire questa linea per quanto riguarda Homo sapiens:
1. sarebbe andare a ricostruire la storia tafonomica.
2. sarebbe decidere quali LOCI andare ad indagare: loci sul DNA
mitocondriale o loci sul DNA nucleare. È sufficiente la conoscenza della
storia tafonomica se vado a studiare dei loci sul DNA mitocondriale?
Dipende molto dalle condizioni in cui trovo questo reperto perché se lo
ritrovo il giorno prima in una grotta e so chi l’ha manipolato e confronto il
mitocondrio che ho recuperato con il mitocondrio delle persone che l’hanno
manipolato, allora forse io posso ricostruire questo DNA mitocondriale; se
però queste informazioni non ce l’ho, cioè non so quando è stato scavato e
chi l’ha manipolato, ma lo trovo in un museo, allora non basta più la
metodologia classica. La problematica aumenta se voglio andare a fare
indagini sul DNA presente nel nucleo: perché? perché se la variabilità
mitocondriale è una variabilità che forse mi permette di distinguere quel
determinato DNA mitocondriale che ho recuperato a chi appartiene, se si
parla di DNA nucleare la situazione si complica.

X ESEMPIO (1): se nella classe si andasse ad analizzare il GENE CHE RIGUARDA


LA COLORAZIONE DELLA PELLE, a occhio vediamo che siamo tutti chiari, però
questo conta poco. Bisogna invece osservare un gene MC1R: recettore 1 della
melanocortina, gene che determina le variazioni nella pigmentazione di pelle ->
osserverei per tutti le stesse sostituzioni nucleotidiche, ma 60.000 anni fa avevamo
la pelle chiara o la pelle scura? Probabilmente avevamo la pelle scura perché
eravamo adattati a condizioni climatiche particolari, ma quando siamo arrivati in
Europa avevamo la pelle chiara o la pelle scura? Non lo sappiamo. Quindi una
risposta che ci dovrebbe far capire fenomeni di adattamento, potrebbe essere quella
di andare ad investigare il colore della pelle di un individuo vissuto 40.000 anni fa.
Sappiamo che con la metodologia classica lo possiamo fare, però se noi andiamo
ad analizzare quel frammento di DNA e troviamo, su questo reperto, che il nostro
uomo vissuto 40.000 anni fa ha la pelle chiara e quindi ha la stessa sostituzione
nucleotidica che abbiamo noi, come facciamo a sapere che questa sostituzione
nucleotidica appartiene all’individuo e che non si tratta di una contaminazione?
Andare ad investigare particolari polimorfismi del DNA nucleare di individui che
possono avere le caratteristiche genetiche simili a quelli che fanno le analisi, quindi
in questo caso il colore della pelle, diventa difficile. Con l’NGS è stato dimostrato
che nel Paleolitico superiore, circa 25.000 anni fa, gli europei avevano colore di
pelle variabile: alcuni erano più chiari, altri più scuri. Questo è un esempio che
ci fa capire che l’analisi di LOCI NUCLEARI su individui antichi, con la
metodologia classica, è molto complessa.

X ESEMPIO (2): DIGESTIONE DEL LATTE. Chi non digerisce il latte ha una carenza
di lattasi dovuta ad una sostituzione puntiforme nella posizione 13919 di una C
con una T del promotore della lattasi. Il latte è un prodotto di un animale -> da
193.000 anni (a cui risale il primo individuo della nostra specie) fino a 7000 anni
fa, il latte non veniva digerito; nel neolitico però siamo venuti in contatto con i
processi di addomesticazione in un luogo ben preciso che era la Mesopotamia.
L’addomesticazione riguardava sia piante che animali, ma addomesticare un
animale significa renderlo partecipe della vita dell’uomo, ma soprattutto significa
andare a selezionare quegli animali che avevano caratteristiche importanti anche
per lo sviluppo dell’agricoltura. Per esempio i bovini all’inizio vennero addomesticati
perché erano utili per tirare l’aratro nei campi. Poi ci siamo accorti che il latte dei
bovini era buono, ma siamo entrati in contatto con l’alimento solo poche migliaia
di anni fa e quindi nella nostra popolazione sapiens c’erano sia individui che non
potevano digerire il latte sia individui che invece lo digerivano. Quindi il discorso
della incapacità di digerire il latte, se si tratta di una sostituzione puntiforme del
cromosoma 2 nella posizione 13.919 C-T, significa che mi posso aspettare che in
individui vissuti nel Paleolitico superiore questo gene fosse un gene ancestrale. Se
questo è vero, se trovo questa sostituzione nucleotidica che porta alla non
digeribilità del latte, in un individuo sapiens vissuto nel Paleolitico superiore, può
essere anche un risultato valido, specialmente se chi l’ha manipolato sono tutti
individui che non hanno questa sostituzione nucleotidica. Quindi da un punto di
vista pratico un locus di questo tipo posso anche andare ad investigarlo.
Quindi l’analisi del DNA nucleare su reperti umani è legata molto spesso alla
storia tafonomica e alla comparazione delle sequenze.
NEANDERTAL: se devo fare il DNA
mitocondriale è molto più semplice perché
ha sequenze che sono differenti dal sapiens,
quindi il DNA mitocondriale è OK. Se invece
devo fare il DNA nucleare, sicuramente il
gene della lattasi i neandertaliani non ce
l’avevano, ma non avevano nemmeno
l’enzima per la digestione dell’amido; quindi
se devo andare a fare delle analisi sul DNA
nucleare che codifica per enzimi che posso
associare a determinate caratteristiche
comportamentali di un determinato
individuo neandertaliano, posso capire che
la lattasi non ce l’aveva, come anche l’amilasi ecc. il problema subentra quando,
con la metodologia classica, voglio andare ad analizzare geni che i neandertaliani
possono condividere con noi.
ESEMPIO: abbiamo già visto che i neandertaliani e i sapiens, per quanto riguarda
il gene FOXp2 che è un gene che è deputato per lo sviluppo delle abilità linguistiche,
hanno la stessa sequenza. Quindi se trovo la stessa sequenza in un Neanderthal e
in un sapiens, come ho fatto a capire quella sequenza neandertaliana era di un
Neanderthal perché la possedeva questo individuo e non si trattava di una
contaminazione?
Quindi ho una sequenza di DNA nucleare neandertaliana che non riesco a
distinguere da quella sapiens a quel determinato locus.
A questo punto si può parlare di:
POLIMORFISMI DI ALLELI ANCESTRALI VICINI AL LOCUS CHE ANDIAMO A
STUDIARE:
io ho la sequenza del gene FOXp2 dell’uomo sapiens dove è presente il polimorfismo
che vogliamo andare ad investigare. Supponiamo che neandertal abbia lo stesso
polimorfismo e quindi la stessa sostituzione nucleotidica, quindi ha quel locus e
entrambi hanno l’allele uguale. Questo allele è ancestrale o derivato? Per dirlo
bisogna rapportarlo a qualcos’altro: potrei trovare una sequenza di DNA che a quel
determinato locus ha un allele ancestrale. Quale potrebbe essere quella
determinata specie che a quel determinato locus potrebbe avere un allele
ancestrale? Se vado a ricostruire la storia evolutiva dei sapiens e dei neandertaliani
so che in un punto del passato, X milioni di anni fa, entrambi avevano un
progenitore in comune e so che anche questo progenitore comune, X milioni di anni
fa, aveva un progenitore in comune sia neandertal che sapiens, ma anche altre
linee evolutive si sono evolute da questo antenato comune. Sappiamo benissimo
per esempio che le scimmie (Pan troglodytes), circa una decina di milioni di anni
fa, avevano un antenato in comune alla linea che ha portato al genere Homo e alla
linea che ha portato al genere Pan, quindi se vado ad investigare la linea Pan posso
andare a verificare se su questa linea ho un polimorfismo differente e se ho un
polimorfismo differente, lo posso sicuramente considerare ancestrale.
Ancora però non ho risolto il problema perché entrambi hanno l’allele derivato,
quindi se vado a fare queste investigazioni non vedo se ho contaminato oppure no.
Però a questo punto io potrei andare a vedere, andando ad investigare la sequenza
vicina al locus che sono andato ad investigare, se ci sono altre sostituzioni
nucleotidiche che differiscono rispetto a quelle di Homo sapiens e supponiamo che
si trovino due T. Io so che neandertal ha una T e una A, la scimmia ha una G e
vicino ha una T, forse allora il locus è un locus ancestrale; ma il mio sapiens ha
una T? NO e forse allora è veramente un locus ancestrale, però questo polimorfismo
vicino al locus investigato è un polimorfismo che mi dà un’informazione importante:
mi dice che questa sequenza, anche se ha lo stesso polimorfismo che è presente in
sapiens, forse è neandertaliana e quindi non è contaminato. Ed è quello che è
stato fatto quando si sono andati ad analizzare i geni FOXp2 dei neandertal,
sono state osservate le sostituzioni nucleotidiche vicine a questo gene
presenti nei neandertaliani e non presenti nei sapiens e in questo modo è
stato possibile discriminare i diversi DNA. Si capisce che il polimorfismo del
genere Pan è più vecchio perché rispetto al genere Homo, il genere Pan si diversifica
prima quindi è ancestrale.
Quindi con la metodologia classica, se voglio andare ad investigare dei loci che
possono essere condivisi da sapiens e da neandertal, devo andare ad investigare
anche altri polimorfismi che possono essere presenti nella linea che voglio andare
ad osservare, in questo caso neandertal.
Per sviluppare la metodologia classica
inoltre occorre avere tante stanze tra loro
separate: dressing room, PCR room, real-
time room ecc. si entra da una parte, si
scorre e non si può tornare indietro.
Quindi andiamo a vedere da un punto di
vista antropologico quello che la
metodologia classica ci ha detto.
In laboratorio si recuperano piccoli microgrammi di polvere d’osso da cui poi si
parte e si fa l’estrazione del DNA. I primi studi che sono stati fatti in campo
antropologico e che hanno riguardato individui vissuti nel passato hanno
riguardato i mitocondri e il DNA mitocondriale e seguendo questa metodologia
(estrazione, quantificazione,
amplificazione, clonaggio,
sequenziamento del DNA
clonato seguendo i golden
criteria) ci possiamo trovare
di fronte a:

sull’asse delle ascisse


vengono riportate quasi
tutte le forme afferenti al
genere Homo, ma non solo
che hanno fatto parte della
nostra storia evolutiva,
quindi partendo da sinistra,
dove trovo anche l’asse delle ordinate dove c’è una scala temporale in milioni di
anni, vediamo che abbiamo dai 200.000 ad oggi homo sapiens, abbiamo l’uomo di
neandertal, homo heidelbergensis, homo antecessor, homo ergaster, homo erectus
e homo florensiensis: tutte queste forme appartengono al genere homo e sono state
recuperate in varie località.
Homo di neandertal: è stato recuperato nella valle di Neander in Germania e la
sua storia evolutiva va dai 300-400.000 fino ai 29.000 anni fa
Homo heidelbergensis: è considerato un antenato del neandertal e non solo, forse
anche del sapiens e si considerano heidelbergensis anche alcuni africani. È intorno
ai 600-700.000 anni fa.
Homo antecessor: specie che ha provato una fuoriuscita dall’Africa intorno a 1
milione di anni fa ed è rimasta isolata in Spagna, infatti i resti sono stati trovati in
Spagna.
Homo ergaster: è la forma di Homo forse più vecchia, 1 milione e 700.000 anni fa
in Africa ed è la specie che per prima ha deciso di lasciare l’Africa.
Homo florensiensis: soprannominato hobbit per le sue piccole dimensioni, e i più
recenti sono arrivati fino a 12.000 anni fa -> questo significava che in Mesopotamia
c’erano i primi sapiens che iniziavano a fare l’addomesticazione, mentre sull’isola
di Flores (Indonesia) c’erano questi hobbit che cacciavano gli animali che avevano
caratteristiche particolari.
Tutto il resto fa parte del genere australopithecus: genere da cui il genere Homo
pare si sia evoluto. Il primo genere che si trova fuori dall’Africa è il genere Homo
che è attribuito all’erectus o all’ergaster che si trova in Asia -> panorama delle
conoscenze di carattere antropologico che abbiamo oggi.
Inoltre tra le ultime scoperte è stato visto che individui della Papua nuova Guinea
hanno nel loro DNA un genoma che non è né dei neandertal, né sapiens, né
denisoviano e che probabilmente appartiene ad una ulteriore specie che dal punto
di vista morfologico deve essere ancora trovata.
Se nella linea temporale aggiungo il DNA più antico che con la metodologia classica
siamo riusciti a tirare fuori, mi torna che abbia 175.000: dell’uomo di Altamura
(neandertal) e quindi con la metodologia classica possiamo studiare: SAPIENS,
NEANDERTAL, HEIDELBERGENSIS, HOMO DI FLORES e forse qualche individuo
di Homo erectus, ma non le altre perché sono molto più antiche e quindi con la
metodologia classica non siamo capaci di poterle studiare. Ad oggi però con la
metodologia classica è stato possibile analizzare solo 2 specie che sono: sapiens e
neandertal.

RIASSUMENDO: attraverso la metodologia classica siamo stati capaci, ad oggi, di


analizzare frammenti di genoma dell’homo di neandertal e dell’homo sapiens, però
con la metodologia classica un po' di human evolution siamo riusciti a spiegarla.
Ci sono 4 modelli con cui si può spiegare la HUMAN EVOLUTION: non è un segreto
che noi siamo originari dell’Africa e la questione su cui gli antropologi, fino a poco
tempo fa, si sono accapigliati è quello che è successo dopo che noi siamo usciti
dall’Africa e ci sono 4 modelli che sono stati proposti per spiegare quello che è
successo per quanto riguarda la nostra fuoriuscita dall’Africa.
1. MODELLO DEL CANDELABRO
Questo modello dice che quando l’homo ergaster
uscì per la prima volta dall’Africa, intorno a 1
milione e 500 mila anni fa, andò in Asia, in
Europa, in Austral-asia e lì, generazione dopo
generazione, si è evoluto in forme umane
differenti tra di loro, fino a portare alle forme
umane attuali: asiatici, australiani, europei ecc.
e in questo percorso di carattere evolutivo, tutte
le forme umane che vengono trovate nei diversi
continenti non sono altro che una evoluzione
delle forme precedenti. Esempio: l’homo di neandertal, secondo il modello del
candelabro, sarebbe l’antenato delle popolazioni europee. Modello che regge
pochissimo perché questo presupporrebbe che la variabilità genetica osservata
in ciascun continente fosse talmente elevata da distinguere un individuo
africano da uno asiatico o da uno australiano, cosa che sappiamo non è
possibile.
2. MODELLO MULTIREGIONALE
(dell’evoluzione multiregionale)
Ci dice le stesse cose del modello precedente, ma
ci dice anche molte cose in più: include i flussi
genici tra i vari continenti. Questo, dal punto di
vista degli scambi genici tra popolazioni, è
plausibile perché continui scambi genici portano
ad una omogeneizzazione dei vari popoli e quindi
sarebbero spiegate anche le differenze che non si
osservano oggi tra popolazioni diverse, però si prevede che i neandertal siano i
nostri diretti antenati.
3. MODELLO DEL REPLACEMENT
Dice che è vero che la specie appartenente al genere
Homo, in particolare l’ergaster, è uscito dall’Africa 1
milione e 700.000 anni fa, ma è anche vero che c’è
stata una seconda ondata massiccia di sapiens fuori
dall’Africa, intorno ai 70.000 anni fa, con cui, nei vari
continenti, si sono sostituite le varie comunità che
prima ci vivevano. Quindi quando sono arrivati i
sapiens, l’homo di neandertal si sarebbe estinto,
senza dare al sapiens nessun contributo genetico.

4. MODELLO DELL’ASSIMILAZIONE
Dice la stessa cosa del modello del REPLACEMENT,
ma dice anche che in alcuni casi è possibile che ci sia
stata una sorta di contributo genetico delle
popolazioni che prima erano fuori dall’Africa con le
popolazioni che sono uscite fuori dall’Africa.

Questi sono i 4 modelli che spiegano la nostra


evoluzione.
Cerchiamo di capire quali studi sono stati fatti, con la metodologia classica, per
cercare di rispondere a uno o l’altro modello.
Tra i 7 e i 3 milioni di anni fa la situazione
dei generi vicini al nostro genere homo,
ovvero austrolopithecine e i primi ominidi,
erano tutti in una zona dell’Africa dove è
stata trovata anche Lucy, australopiteco.
1,5 milioni di anni fa homo erectus (habilis
e ergaster) esce dall’Africa.

Tra i 150.000 ed i 50.000 anni fa anche Homo sapiens esce fuori dall’Africa, ma
riguardo a questo, abbiamo capito, dai 4
modelli, che non tutti sono d’accordo.

Quindi il modello del


rimpiazzamento o della sostituzione è stato teorizzato per la prima volta da
Stringer qualche anno fa e questo modello ci dice che Homo sapiens esce dall’Africa
e non ha niente a che vedere con le popolazioni che stanno al di fuori dell’Africa,
cioè queste popolazioni danno un contributo al genoma dell’homo sapiens che esce
fuori dall’Africa. Da questo modello si vede che neandertal europeo non ha niente
a che vedere con l’attuale europeo.
Il modello multiregionale invece, che è stato teorizzato da un altro, ci dice che i
neandertaliani europei sono in continuità genetica gli uni con gli altri. Noi
sappiamo che con i mezzi che ci dà la metodologia classica possiamo analizzare il
DNA mitocondriale che però non è così esaustivo, ma comunque qualche
informazione ce la può dare per capire se i dati che abbiamo sono più propensi al
modello multiregionale o al modello della sostituzione.

Mitochondrial DNA and Human Evolution,

Cann R., 1987. Nature, 325: 31-36


In questo articolo viene osservato che la maggior parte della variabilità genetica
dei mitocondri presenti su tutti gli individui sapiens del pianeta è presente nelle
popolazioni africane, ed essendo queste le più variabili, vuol dire che avranno
avuto più tempo per accumulare questa variabilità e per variabilità si intende
sostituzioni nucleotidiche -> averne di più vuol dire aver avuto più tempo per
accumularle e quindi essere popolazioni più antiche. Sicché il modello dell’OUT
OF AFRICA, quindi delle popolazioni umane che sono uscite dall’Africa e hanno
sostituito le popolazioni che erano fuori dall’Africa, con l’analisi esclusiva del DNA
mitocondriale sulle popolazioni attuali, sembrava che fosse il modello più
coerente e fu chiamato anche modello dell’EVA AFRICANA perché il DNA
mitocondriale si eredita per via materna ed andare a studiare i mitocondri delle
popolazioni, significa trovare il mitocondrio delle popolazioni ancestrali, quindi
trovare l’antenata a tutte le altre popolazioni.

Andarono a ricostruire il DNA


mitocondriale dell’antenato comune.
Costruirono questo albero filogenetico e
osservarono che la maggior parte della
variabilità genetica era nelle popolazioni
africane che quindi avevano i mitocondri
più antichi e quindi questi ricercatori
californiani confermarono che: Modello
della sostituzione o anche delle Eva
Africana si accorda molto bene con le
evidenze offerte dalla antropologia molecolare e precisamente dallo studio
del DNA Mitocondriale.

Quindi il primo studio che fu fatto per studiare la nostra evoluzione fu fatto
utilizzando la metodologia classica su campioni moderni e attuali e questo studio
permise di spostare la nostra attenzione
verso le popolazioni africane. Ovviamente
chi si occupava di evoluzione umana e chi
non era favorevole a questa teoria dell’Eva
africana pose dei seri dubbi e uno dei più
interessanti era questo: è vero che questi
ricercatori avevano dimostrato che i
mitocondri più vecchi stanno nelle
popolazioni africane, ma è anche vero che
se studio i mitocondri studio solo una
parte degli esseri umani, cioè escludo
tutto ciò che è maschile, quindi la storia
evolutiva dei maschi potrebbe essere differente. Inoltre chi obiettava disse anche
che c’era una progressione continua nell’anatomia dei fossili, specialmente quelli
orientali del genere Homo e che si osservava anche una continuità nella
morfologia dei fossili anche europei in cui vedo dei neandertaliani e dei sapiens
che hanno caratteristiche simili tra di loro, quindi sembra quasi come se ci fosse
una sorte di continuità tra neandertal e sapiens. Quindi l’obiettore era convinto
che il modello multiregionale fosse quello più veritiero.

Maggiori Critiche da parte dei Multi regionalisti:


A) Nessuno poteva assicurare che la ricostruzione al femminile della nostra evoluzione fosse
veramente rappresentativa dell’intero fenomeno

B) Progressione continua nell’anatomia dei fossili orientali di Homo e che la medesima


congruenza morfologica fosse riscontrabile anche negli europei per cui i Neandertaliani
dovevano essere gli antenati diretti delle attuali popolazioni

Qualche tempo dopo, dei ricercatori giapponesi fecero degli studi sull’alter ego del
DNA mitocondriale, ovvero il CROMOSOMA Y. Se il DNA mitocondriale si eredita
per via materna, il cromosoma Y si erediterà per via paterna. Quindi io posso
andare ad osservare il cromosoma Y in cui sappiamo che c’è una parte non
ricombinante e se in questa parte non ricombinante del cromosoma Y ho un buon
tasso di mutazione e posso seguire la storia evolutiva della linea maschile, posso
utilizzare il cromosoma Y come il DNA mitocondriale e mi posso accorgere che il
(….) vive in Africa perché la maggior parte della variabilità genetica del
cromosoma Y è a carico delle popolazioni africane e quindi in Africa c’erano i
mitocondri più antichi, ma c’erano anche gli Y più antichi.
Quindi la teoria multiregionale un po' vacillava. Ma una forte spallata a questa
teoria fu quella che venne da uno studio del 1997 (Paabo nel 1997 estrae e
caratterizza il DNA dal primo e più famoso fossile Neandertaliano) che utilizzò
tutte le informazioni che abbiamo sulla metodologia classica, cioè si andò ad
analizzare il DNA mitocondriale dell’uomo di Neandertal e a cosa si comparò? Al
DNA mitocondriale delle attuali popolazioni sapiens: si osservò che le differenze
genetiche che c’erano tra uomo-uomo e uomo-neandertal e uomo-scimpanzé,
quelle che trovò nel neandertal stavano nel mezzo ed
era un numero di differenze talmente elevato che non
era possibile pensare che i mitocondri dei
neandertaliani fossero gli antenati dei sapiens. Quindi
attraverso la metodologia classica si dimostrò che
neandertal e sapiens, da un punto di vista di
variabilità mitocondriale, erano su due linee differenti.
Quindi in un albero filogenetico, se si va ad analizzare
il DNA mitocondriale, i neandertal cadono al di fuori
della variabilità genetica delle popolazioni africane e
non africane.
Quando sembrava che fosse finita questa disputa, nel
1999 venne ritrovato in Portogallo un reperto datato a circa 24.500 anni le cui
caratteristiche morfologiche sembravano ibride tra un neandertal e un sapiens e
questa fu una prova importante per chi sosteneva la teoria multiregionale. Paabo
infatti aveva analizzato il DNA del neandertal e l’aveva confrontato con quello degli
attuali sapiens, ma quello che era più importante fare era confrontare il DNA dei
neandertaliani con quello dei sapiens.
La disputa sembrava chiusa a favore dei sostenitori dell’origine recente di Homo
sapiens;
Ma nel 1999 la disputa intellettuale improvvisamente si riapre:
viene infatti recuperato uno scheletro di un bambino datato intorno ai 24500 BP
appartenente sicuramente ad un rappresentante dell’uomo anatomicamente
moderno ma con alcuni tratti tipici dei Neandertaliani: una prova per i multi
regionalisti.
Ed è quello che fu fatto nel 2003 quando vennero analizzati i due DNA mitocondriali di due
Un’analisi cruciale che poteva quindi mettere a tacere questa disputa scientifica
Cromagnoidi italiani, vissuti 24.000 anni fa di Grotta Paglicci in Puglia e si osservò che
sarebbe stata quella di analizzare il DNA mitocondriale questi reperti dei primi
sapiens, che
rappresentati dell’uomo moderno contemporaneo ai neandertaliani:
MDS - K2P (gamma-a=0.26) Il
vivevano
Final Configuration, dimension 1 vs. dimension 2
nostro gruppo analizzò due individui Paglicci 25 e Paglicci 12 (Cromagnoidi)ai
contemporaneamente
datati 24.000 BP AFKIK Homo sapiens neandertaliani, avevano
AFMBE una variabilità
mitocondriale che cadeva
Dimension 2

AFMBE8 all’interno della variabilità


SAMO
KOR AFIBO1
AFSA2
Neandertal delle popolazioni attuali
PNG2
UZB NAIN
AFEF AFSA1 sapiens. Quindi se una
ITA MEZZ
PGL25 AFLIS MMSK29K
VD42K
FELD45K popolazione sapiens, che
viveva
PNG4 SAI1
PNG1
BUR INUI
EVEN
CHUC
MBU7 AFHA contemporaneamente ai
PNG1
neandertaliani, aveva il
DNA mitocondriale
Dimension 1
differente dal DNA mitocondriale dei neandertaliani, sicuramente non poteva essere in
continuità genetica.
 Il reperto di Paglicci cadeva nella variabilità degli africani e dei non africani. A quel
tempo si conosceva solamente la variabilità genetica di due neandertal e l’albero
genetico dei due paglicci li faceva cadere nelle popolazioni africane ‘

Quindi con la metodologia classica abbiamo potuto testare il modello della OUT OF
AFRICA, che era il modello che funzionava meglio seguendo i dati di carattere
antropologico che si erano ottenuti con i nostri studi.

<-
PAGLICC
I

Si è potuto fare anche altri studi, per esempio sul gene FOXp2 e con la metodologia
classica, fino al 2009, abbiamo ottenuto il DNA dell’uomo di Altamura: cade
all’interno della variabilità dei neandertaliani, è un neandertaliano ed è il
neandertal da cui è stato estratto il DNA più antico del mondo, anche se in realtà
il più antico è stato estratto da Heidelbergensis.
Quindi attraverso la metodologia classica si è potuto dimostrare che il
modello dell’OUT of AFRICA e del REPLACEMENT è quello che si sposa meglio
con i dati ottenuti dallo studio dei vari mitocondri e che ci permetteva di dire
che i neandertaliani e i sapiens, da un punto di vista di DNA mitocondriali,
non potevano essere venuti in contatto.

27.10.2016

Struttura di un articolo: Abstract (è il riassunto dell’articolo in cui ci sono i


risultati), Introduzione, Materiali e Metodi, Risultati e Conclusioni.

CARATTERIZZAZIONE DEL DNA DI FRANCESCO PETRARCA (storiella


romanzata)

Petrarca è vissuto dal 1304 al 1374.


Storia della sepoltura di Petrarca
Nel 1374 la prima sepoltura avvenne all’interno della Chiesa di Arquà in un’arca
marmorea; nel 1380 viene trasferita dall’interno della chiesa al piazzale accanto.
Frate Tommaso Martinelli il 27maggio 1630, spezza l’arca e prende le ossa
dell’avanbraccio destro del poeta (il frate viene poi sottoposto a processo ed esilio);
i reperti trafugati però non furono mai ritrovati.
Nel 1843 Carlo Leoni decise di curare il restauro dell’arca; ne seguì una breve
ricognizione durante la quale viene prelevata una costa che verrà poi reinserita
nella sepoltura 2 anni dopo.
Nel 1873 Giovanni Canestrini (curò la prima edizione, traducendolo, dell’Origine
della specie di Charles Darwin) condusse una ricognizione ufficiale durante la quale
il cranio del poeta si spaccò.
Nel 1943 c’è seconda guerra mondiale, quindi se si vogliono salvare i resti del poeta
devono essere spostati: viene aperta l’arca, prelevato il contenuto e i resti sotterrati
a Venezia sotto il Palazzo Ducale.
Nel 1946 finita la guerra le ossa che erano state trafugate vengono ricomposte dalla
scuola di anatomia dell’università di Padova e riportare nell’arca ad Arquà.
Nel 2003 in occasione del settimo centenario della nascita del Poeta, un gruppo di
esperti viene incaricato di effettuare ricognizione finalizzata a verificare lo stato di
conservazione dei resti e a ricostruire il vero volto del Poeta. Quindi c’era da
capire se si poteva essere sicuri che quell’individuo fosse Petrarca.

I rilievi patologici sull’individuo avevano dimostrato che la parte post-craniale


(quindi escluso il cranio) poteva appartenere a Francesco Petrarca, perché
presentavano caratteristiche morfologiche attendibili rispetto agli aspetti
bibliografici. Esempio: bibliografia riporta una frattura del femore sinistro, quindi
andiamo a vedere se è presente un callo osseo nello scheletro in seguito a questa
frattura del poeta; o scheletro presentava delle ossificazioni dei tendini e si è
riscontrato che Petrarca parlando col medico dicesse di aver dolore a camminare
quindi poteva essere lui.
Ma il cranio??? Questo cranio era frammentato e sembrava che potesse essere
attribuito ad una donna.
Per cui a Caramelli venne chiesto di analizzare il DNA dei denti del mascellare
inferiore e posteriore dell’individuo e dalle coste. Perché proprio due denti e due
coste? Uno per campione se li teneva lui e gli altri li ha dati a un collega spagnolo
per ripetere le analisi.

Quindi sono stati presi dente e costa, puliti, rimosso lo strato superficiale, messi
sotto gli UV (per eliminare il DNA che poteva essere in superficie) dopo di che con
una micropunta in tungsteno è stata campionata la polvere d’osso da cui iniziare
l’estrazione e il DNA delle persone che erano venute a contatto col reperto. Il DNA
analizzato era DNA mitocondriale, in particolare un frammento dell’HVR1 di 360
paia di basi, ma visto che 360 bp non possono essere amplificati in uno stesso
shock di reazione sono stati suddivisi in 3 frammenti.
1) Estrazione del Dna
2) La fase successiva all’estrazione del DNA è l’amplificazione tramite PCR
3) Clonaggio (in questo modo si creano tante copie uguali tra loro)
4) Lettura del DNA
[Anche a Barcellona sono state fatte le stesse operazioni sui due campioni diversi].
Otteniamo una sequenza consenso: quella A è relativa alla costa e la B al dente
(non trovo le immagini). 16024 è la prima base del DNA mitocondriale del
frammento HVR1.
Le linee corrispondono alle sequenze del frammento che ho clonato, dove c’è il
puntino c’è corrispondenza con la sequenza di riferimento dove c’è la base non ce
l’ho (diversità probabilmente derivante dalla misincorporazione).
F.1.1= Firenze, PCR n° 1 estratto n° 1; F.1.2= Firenze, PCR n°1 estratto n° 2. (Lo
stesso vale per barcellona)

Per esempio
1
6
0
2
4
F.1.1 …………………………………………T…………
F.1.2 ……………………………………T………….……..
F.1.3 ………………………………………………C…….

Sostituzione nucleotidica T verso C, è una misincorporazione o una sostituzione


nucleotidica? Visto che è presente in tutti gli ampliconi può essere una
sostituzione. Questa C verso T compare anche nel secondo frammento.
Nella posizione 16126 nella costa ho una C.
Altra sostituzione nucleotidica ovvero una T nella posizione 16193
Nel terzo frammento a 16311 ho T verso C (quindi ho la C invece della T).

Questo per quanto riguarda il Rib (costa) e vale sia per Firenze che per Barcellona,
A.
Andiamo a vedere cosa succede x B (dente), andiamo a vedere se è presente la
posizione 16126, ma non c’è, c’è però la posizione 16129 che ha G verso A e si
ripete anche in altri ampliconi. Quindi costa e dente hanno DNA mitocondriali
differenti.
Ulteriore analisi per la determinazione del sesso di entrambi i frammenti. Era
avanzato ancora DNA perché di solito viene estratto 150micro litri ma ne viene
usato circa 25micro litri.
Come si fa? Attraverso l’analisi del gene omologo dell’amelogenina e delle SRY.
Osserviamo i risultati, può avvenire perdita allelica quindi si fanno 6 PCR.

COSTOLA
1. 112-106-93 (maschio)
2. 112-106-93 (maschio)
3. 112-93 (maschio)
4. 93 (maschio)
5. 106-93 (maschio)
6. 112-106-93 (maschio)

Sia per il primo che per il secondo estratto venne maschio.

DENTE: per tutti i campioni avevamo solo 106  il cranio è di una donna

L’aspetto interessante della vicenda fu che il cranio era 200 anni più vecchio
rispetto alla costa (quindi il cranio era stato sostituito). Ma l’aspetto veramente
interessante fu che nel 2003/2004 durante una conferenza stampa un giornalista
fece un articolo in stile Humour British sul The Guardian che si intitolava Petrarch-
the poet who lost his head: two times.

Quindi attraverso la metodologia classica è stato possibile effettuare analisi su DNA


antichi sia mitocondriali che nucleari e ci permette così di fare degli studi per
quanto riguarda l’avanzamento della parte culturale, come le storie accadute in
passato.

Con questo finiamo la parte relativa alla metodologia classica e inizieremo quella
della metodologia moderna.
03.11.2016

Inizio della spiegazione sui sistemi di nuova generazione che ci hanno permesso di
incrementare le conoscenze sulla storia naturale dell’uomo.
New generation sequency (NGS)
Ci consentono di ottenere molte informazioni, per esempio avere a che fare con un
gran numero di dati. Porta molti vantaggi, l’unico svantaggio può essere quello
economico, costi molto elevati per l’utilizzo di queste tecnologie. Con queste
tecnologie è stato possibile analizzare il genoma completo dell’uomo di Neanderthal.

Il workflow (flusso di lavoro) di queste tecnologie NGS è un workflow che prevede


differenti step.
Due modi per leggere il DNA con tecnologie NGS: 1) tecnologia del
pirosequenziamento e 2) tecnologia illumina (parliamo di queste due perché
sono le più utilizzate; la prima viene utilizzata più che altro in ambito forense e non
per lo studio dell’evoluzione dell’uomo, la tecnologia illumina è quella che viene
utilizzata invece per aspetti di carattere ecologico, zoologico, microbiologico,
antropologico).
Il flusso di lavoro sulle piattaforme illumina e 454 è simile da un punto di vista
teorico anche se una ha delle peculiarità rispetto all’altra.
Mentre con la PCR avevano qualcosa di specifico da dover leggere, con NGS
vogliamo andare a leggere tutto ciò che c’è dentro ad un estratto (per es estrazione
DNA da frammento osseo di Neanderthal, con questa tecnologia possiamo leggere
tutto il materiale genetico al suo interno come DNA dell’individuo, dei batteri
presenti sulla superficie o delle persone che hanno contaminato).  ho un altissimo
Cluck Put (possibilità di leggere milioni di basi

- Con questa tecnologia si possono ad esempio prendere cassette di ossa presenti


nei musei e leggere il DNA presente ed osservare le differenze tra DNA endogeno ed
esogeno (contaminante).
- Possiamo discriminare un DNA antico degradato da uno contaminante non
degradato. Questo è stato scoperto studiando quello dell’uomo di Neanderthal.

A differenza della PCR non abbiamo un target ma abbiamo un panorama


molecolare, e per avere questo panorama dobbiamo partire dalla ricostruzione delle
librerie geniche, dette LIBRARY
Prendiamo per esempio l’osso Rocca Petrosa (a livello craniale, porzione dell’osso
temporale; osso molto duro) e campionando la polvere ottengo un DNA concentrato
in maniera superiore rispetto a qualsiasi altra parte di osso dello stesso individuo.
Estraiamo questo DNA da rocca petrosa, ma sarà comunque degradato per cui il
frammento double strend è molto difficile che sia integro, è difficile che abbia le
estremità piatte intatte (blunt ends). Però se voglio costruire una libreria queste
estremità piatte le devo riportare per cui sia a destra che a sinistra attraverso la
Polimerasi T4 riporto le mie estremità
ad essere piatte. Dove c’è doppio
filamento i nucleotidi più o meno
sono protetti (ovvero c’è
corrispondenza di base), dove c’è
degradazione allora anche i
nucleotidi saranno più degradati ed è
più probabile avere
misincorporazioni (quando la T4 va a
leggere le basi ci può mettere una
base associata diversa). Quindi potrò
osservare dei punti in cui sono
presenti delle miscorporazioni a livello del 5’ o 3’ rispetto ai punti centrali della
catena.
Una volta che la PolT4 riporta a blunt end le estremità, inserisco a destra e sinistra
due sequenze oligonucleotidiche (che chiamo A e B e sono due adattatori). A questo
punto io ho costruito la mia library su tutti i frammenti di DNA presenti
nell’estratto. Su ciascun frammento di DNA estratto avrò una situazione di questo
tipo (se vado a costruire la libreria) e la conservo in freezer.

Questa libreria adesso devo andare a sequenziarla e leggere cosa c’è scritto, per cui
devo utilizzare questo workflow del 454 pirosequenziamento.

454 PIROSEQUENZIAMENTO
La prima cosa da fare è
denaturare la libreria
lavorando su entrambi i
filamenti, anche se nel
nostro workflow mi
concentrerò solo su un
filamento tanto l’altro è
complementare. Il
frammento andrà incontro
ad una PCR che si chiama
PCR Emulsio clonale
(EMPCR).
Avviene su micro bilie che
presentano sulla loro
superficie oligonucleotidi
complementari a quelli di
uno dei due adattatori; per
cui il frammento di un
adattatore, per esempio A,
va sulla bilia e il frammento
oligonucleotidico posto
sulla bilia si replica questo frammento si replica, si stacca e va su un altro
adattatore...si replica si stacca e va su un altro adattatore e così via fino a che tutti
i segmentini sono occupati. Tutta questa cosa qui avviene all’interno di
un’emulsione. La EMPCR finirà quando tutti gli oligonucleotidi sulla sfera avranno
un frammentino riprodotto.
In questo modo scompongo tutto il DNA
molecolare estratto, lo faccio amplificare e
successivamente la micro bilia viene messa in
un micro reattore che si trova su una piastra
(in realtà avrò miliardi di microreattori perché
ho miliardi di
microbilie)
che si metterà all’interno della macchina del
sequenziatore e mi leggerò la sequenza del
frammentino che ho amplificato sulla bilia. Le
letture che avvengono da questo sequenziatore si
chiamano Reads.

Si dice pirosequenziamento perché il sequenziamento del DNA all’interno del


microreattore avviene tramite questa reazione detta del pirosequenziamentto (in
base a quante basi vengono messe si ha maggior emissione di luce rispetto ad una;
anche emissione di luci differenti)

Su una bilia abbiamo detto che ci va una sola molecola, ma come fa ad andarcene
solo una che mi reagisca con una sola bilia (se ne andassero due avrei due sequenze
diverse nel microreattore)? Andando a misurare la concentrazione della libreria con
la PCR Real Time decido quante biglie mettere a far reagire in modo da avere un
rapporto stechiometrico 1:1 ovvero una molecola e una bilia. A volte non accade
perché su una bilia ci vanno tre molecole per cui il risultato del pirosequenziamento
viene scartato. Quindi io sequenzio migliaia di frammenti con illumina e con una
corsa teoricamente posso leggere tutto il genoma (lungo circa 109): molto più
efficace della metodologia classica.
Ampliconi di PCR: un passaggio fatto per separare il DNA all’interno degli ampliconi
viene effettuato il clonaggio.
Se io utilizzo il pirosequenziamento per analizzare il mio prodotto di estrazione,
posso studiare il DNA mitocondriale amplificato ed osservare che tipi di molecole
ci sono. Ho prodotti più ampi rispetto al clonaggio.

Questa tecnica del pirosequenziamento può essere utilizzato anche in ambito


forense. Qual è l’unico caso in cui io non riesco ad identificare una persona,
nemmeno con il DNA fingerprinting? Nel caso di due gemelli omozogoti poiché
hanno lo stesso DNA, nascendo dallo stesso zigote. Quando andiamo ad utilizzare
il DNA fingerprinting utilizziamo gli STR (polimorfismi di lunghezza) e verifichiamo
le lunghezze, gli omozigoti hanno le stesse lunghezze; però lo sviluppo e la vita di
uno può essere diverso rispetto ad un altro. Quando andiamo a fare gli STR per
gemelli omozigoti abbiamo visto che le lunghezze sono uguali ma ci possono essere
dei polimorfismi che oltre a lunghezza sono polimorfismi di sequenza. Quindi li
possiamo distinguere. Cosa si fa? Sequenziando un STR, dopo aver separato il suo
panorama molecolare ottenendo quindi sia il polimorfismo di lunghezza che di
sequenza.

Per la prima volta questi strumenti sono stati utilizzati per lo studio della genomica
dei Neanderthaliani: analizzati,infatti, un milione di nucleotidi recuperati dall’uomo
di Neanderthal.
Parallelamente a questo fu utilizzata un’altra tecnica simile (riguardante la
metagenomica) e riuscirono ad analizzare 65000 basi dell’uomo di Neanderthal. La
cosa interessante fu che quando fecero il calcolo dei tempi di divergenza (=quando
due individui appartenenti adesso a due generi differenti si sono separati da un
antenato comune), andando a contare le sostituzioni nucleotidiche presenti sulle
basi sequenziat), mentre con la tecnica metagenomica la divergenza tra uomo
Sapiens e Neanderthal corrispondeva a 800.000 anni, con l’altra veniva intorno ai
400.000 anni. Questi dati vennero poi rianalizzati e ci si accorse che utilizzando la
tecnica di estrazione  formazione di libreria  sequenziamento non si trovavano
solo molecole di neanderthaliani ma anche umane che facevano abbassare il tempo
di divergenza e quindi i dati dovevano essere analizzata in maniera più accurata e
dettagliata poiché c’erano sequenze umane contaminanti.

08.11.2016

Grazie alle tecnologie ILLUMINA è stato possibile leggere ad esempio per 50 volte
il genoma dell’uomo di neandertal. Quindi i mezzi sono importanti perché ci
sconsentono di descrivere la storia evolutiva dell’Homo Sapiens (complessa storia
evolutiva). Può essere utilizzata anche per scopi a carattere investigativo, per es
analisi che è stata fatta per determinare genoma di individuo attraverso analisi di
Dna estratto da pidocchio che l’individuo aveva lasciato su scena del crimine.
È anche possibile analizzare più individui e campioni contemporaneamente, quindi
non solo a livello evolutivo, ma anche a livello di popolazione (per esempio storia
genetica dell’Europa all’età del ghiaccio in cui abbiamo fatto il genoma di una
quarantina di individui sapiens vissuti nel Paleolitico superiore e ci siamo accorti
che questi sapiens avevano caratteristiche peculiari e l’abbiamo fatto con queste
tecnologie).

Spesso per gli studi non è necessario analizzare l’intero genoma, ma a volte è
necessario recuperare informazioni da punti diversi del genoma che vogliamo
andare ad analizzare; per questo esistono una serie di tecnologie basate sulla
cattura del DNA che consentono di prendere frammenti del genoma sparsi.

Ma come funziona il metodo dell’ILLUMINA? La cosa che differenzia questa


tecnologia da quella dell’altra volta è IL NUMERO DI SEQUENZE CHE RIUSCIAMO
A LEGGERE, infatti con questa tecnologia ILLUMINA riusciamo a leggere 10 alla 9
sequenze per corsa (1 miliardo, quindi con 3-4 corse riusciamo a leggere l’intero
genoma dell’individuo). È stato anche possibile sequenziare genomi completi di
individui attuali.

Ci sono anche sistemi di cattura utilizzati per genomi mitocondriali (Protocollo


Manechich o Manevich) -> PROTOCOLLO DI CATTURA DEL DNA
MITOCONDRIALE, per qualsiasi sia umano che non. Andare a catturare mitocondri
completi significa usare questa molecola come strumento di identificazione
personale. Infatti le catture fatte sui mitocondri sono molto frequenti, anche perché
permettono di conoscere quanto il DNA nucleare. che noi andiamo ad analizzare, è
ben conservato o meno.
Quindi, queste tecnologie NGS, servono prima per la cattura e poi per il
completo sequenziamento dei mitocondri. Ci permettono anche di
determinare quanti profili mitocondriali sono presenti all’interno di un
reperto. Quindi queste metodiche possono essere utilizzate sia in campo evolutivo
che in campo investigativo, infatti se nel caso di Yara Gambirasio fossero riusciti a
catturare il DNA dei mitocondri, attraverso questo processo avrebbero potuto
discriminare la qualità e la quantità di molecole presenti all’interno di un
determinato reperto.

Riprendiamo dall’altra volta. Abbiamo due frammenti/adattatori legati ad un


frammento di DNA e quindi utili per la costruzione di una libreria. Con questo
sistema è possibile fare un numero elevato di campioni alla volta perché abbiamo
la possibilità di leggere tante sequenze quindi, se ho dei genomi piccoli che voglio
andare a leggere, e il DNA mitocondriale è di 16.000 paia di basi ed io ho una
potenza di fuoco che ha un miliardo di nucleotidi in lettura, se faccio un miliardo
/ 10000, trovo 10 alla 5, quindi 100.000.
Se io sequenziassi solo i mitocondri potrei sequenziarne solo 100.000 (resa della
macchina di 10^9, e io ho frammenti lunghi 10^4 vuol dire che io posso
sequenziare insieme 10 alla 5 mitocondri).
Ma con la metodologia dell’altra volta come faccio a sequenziare DNA mitocondriale
di individui diversi? Dove ci sono librerie che contengo DNA batterico, DNA umano
ecc. se nello stesso sequenziamento metto 10-15 individui, come li riconosco una
volta estratti e sequenziati?
Ci deve essere un modo che mi consente di identificare una libreria -> Metto un
riconoscimento/un tag. Per cui insieme agli adattatori metto dei TAG, cioè dei
riconoscimenti (sequenze piccole di 5-6 paia di basi specifici delle librerie che ho
costruito). Se utilizzo la libreria 454 utilizzo degli adattatori che si chiamano MID,
se li uso per la tecnica workflow dell’illumina si chiamano INDEX -> Con questi
riesco ad identificare quella libreria che appartiene ad un determinato individuo e
ad un determinato campione.

ESEMPIO: ho 10 ossa di 10 individui differenti, estraggo il DNA, creo una libreria e


sulla numero 1 metto un tag, sulla numero 2 un altro tag e così via.. quindi saranno
tutti tag differenti e quando vado a sequenziare la libreria li sequenzio tutti insieme
e riuscirò a riconoscere che questo frammento appartiene a quella determinata
libreria di quel determinato campione perché vado a riconoscere il TAG.
Una volta sequenziati, li separo in base ai tag. Questa separazione di separazione
prende il nome di DEMULTIPLEXING, processo che faccio quando vado a separare
le varie librerie (perché multiplex vuol dire mettere tutto insieme).

Come funziona il workflow dell’illumina? La libreria si forma nello stesso modo del
454 cioè utilizzando due adattatori. La differenza è il tipo di PCR, che nel 454 è
emulsioclonale (fatta su bilia in una emulsione in cui vengono posti dei
frammentini che si attaccavano agli adattatori, si andavano a replicare, si
attaccavano e si staccavano e così via e intanto la bilia era saturata e venivano lette
le varie sequenze attraverso il piro sequenziamento) mentre nell’illumina la PCR
viene effettuata su supporto solido che è una specie di rettangolino (una specie
di microchip).
La PCR dell’illumina
è detta BRIDGE-PCR
perché su questo
supporto ci sono gli
adattatori
complementari (A o
B), arriva il
frammento, si lega
all’adattatore e si
piega su sé stesso
facendo una specie
di ponte ed inizia
l’amplificazione. Una volta fatta l’amplificazione, il ponte si stacca, e il frammento
che si è formato va su un altro adattatore e così via.

L’amplificazione avviene su punti specifici detti Cluster, che sono


tantissimi/miliardi, quindi avvengono miliardi di amplificazioni. Quando tutti i
cluster sono saturati, cioè su ogni cluster c’è il nostro frammentino, parte una
lettura della sequenza, viene letta con LCD-camera e viene riportata la sequenza di
ciascun frammentino presente nel cluster. Ho moltissima resa in termini di
sequenziamento perché, mentre le bilie da un punto di vista stechiometrico non
potevo utilizzarle a miliardi, ma forse a milioni, in questo caso posso usare miliardi
di cluster perché sono molto piccoli. Viene fatta con macchine illumina che hanno
rese diverse (anche rese di 10^9 o 10^13). (filmato)

Media Viewer Sequencing-Workflow-Video - Illumina, Incflv

La differenza con quella dell’altra volta è che su una bilia ci può andare una sola
molecola e se casualmente su una bilia ce ne vanno due, quella bilia non si può
più leggere, mentre su un cluster ce ne possono andare tante perché possono
essere comunque lette. Con questa tecnologia siamo riusciti a leggere genomi di
individui vissuti centinaia di migliaia di anni fa.

Come faccio se io voglio leggere solo una parte del genoma, per esempio solo il
mitocondrio? Attraverso lo studio del genoma mitocondriale dell’uomo di
neandertal è stato possibile vedere:
- bassa variabilità genetica, quindi si trattava di popolazioni molto piccole;
- si muovevano poco e ce ne siamo accorti perché i mitocondri dei
neandertaliani clusterizzavano, cioè avevano dei cluster, cioè erano più
simili i mitocondri di individui che vivevano nel sud Europa rispetto a
individui che stavano nel nord Europa o individui che stavano nell’est
rispetto all’ovest e quindi significava che c’era poco flusso genico. Allora
abbiamo deciso di andare a leggere i mitocondri dei neandertaliani perché
avevamo a disposizione questa tecnologia, ma siamo andati a leggere NON
tutto il genoma dei neandertaliani.

La lettura del genoma dei neandertaliani fu fatta con un sistema detto Primer-
Extension-Capture (PEC). Come funziona? Immaginiamo di avere una libreria a
DNA, prendo una porzione di polvere ossea (da un osso di neandertaliano) e faccio
l’estrazione del DNA (modalità abbastanza classica). Quindi estraiamo il DNA
presente nell’osso, preparo una libreria, se voglio analizzare 5 individui diversi
metterò 5 INDEX diversi, quindi avrò 5 librerie diverse e anche se le mescolo
riuscirò comunque poi a separarle.

Ma se invece di sequenziare tutto il genoma dell’uomo di neandertal, volessi


sequenziare esclusivamente una porzione (come il mitocondrio) come faccio? Posso
catturare il DNA che mi interessa.
E come lo catturo? Con la metodologia PEC, che consiste nell’andare a catturare
frammenti di DNA mitocondriale. Il nostro target, nel caso io voglia andare a
catturare il DNA mitocondriale, saranno frammenti di DNA mitocondriale che sono
presenti all’interno della libreria. Io costruisco dei primers PEC che hanno un
frammento complementare alla regione che voglio catturare, una regione
spaziatrice (per dare la giusta misura al primer PEC) e in fondo hanno una molecola
di biotina. Se io voglio catturare DNA mitocondriale completo dovrò avere un
numero sufficiente di primers PEC, cioè un numero sufficiente di primers con
sequenze che sono complementari a tutto il genoma mitocondriale. Come faccio a
costruire dei primers PEC che siano complementari al genoma mitocondriale che
voglio catturare, se questo genoma mitocondriale non lo conosciamo?
Utilizzo quindi primer PEC che hanno sequenze simili al genoma mitocondriale che
voglio andare a catturare, in questo caso i primers PEC, se voglio farlo su
neanderthal, li costruisco sul genoma dell’uomo moderno. E come faccio a fare la
cattura se ho qualche base che non mi corrisponde? Se io abbasso la temperatura
di annealing durante la PCR riesco a far diventare i primer meno specifici, così che
l’amplificazione avvenga ugualmente. Quindi utilizzerò un numero elevato di
primers PEC, ma quanti? Dipende dalla lunghezza del mio primer PEC perché se
io voglio andare a catturare un frammento che è lungo 16.000 paia di basi posso
fare 16 primers da 100 paia di basi -> 1600, sicché me ne servono 1000, quindi,
visto che non posso utilizzare primer molto lunghi, dovrò utilizzare primers lunghi
60-80 paia di basi e facendo il conto: 16.000/100 = 160, supponiamo che questi
primer siano lunghi 100 paia di basi, quindi utilizzo 100 primer PEC.
Il primer PEC si lega sul frammento che trova complementare, si ha poi
un’estensione del frammento che così rimane attaccato a quello complementare
estendendosi. Il primer pec in fondo ha la molecola di biotina, se io la faccio
associare ad una molecola di streptavidina, le due molecole si complementano.
Ma se la streptavidina la metto su una bilia magnetica, e con un magnete vado ad
interagire con la bilia, succede che il complesso primer PEC-frammento catturato-
streptavidina-biotina si tirano via e rimuovono, dall’insieme della libreria, il DNA
che voglio andare a catturare.
QUINDI: ho il primer PEC con la molecola di biotina, poi ho una bilia magnetica e
una molecola di streptavidina: la streptavidina si complementa alla biotina, il
primer PEC è complementano al frammento che ho catturato, quindi se questa
molecola di
streptavidina è
attaccata ad una
bilia magnetica e
ho un magnete che
tira, succede che io
fisicamente
rimuovo dalla
libreria i frammenti
che mi interessano
e tutto il resto lo
butto via o lo tengo
per altre
operazioni. Così ho
catturato un
frammento di DNA mitocondriale del tipo A----TARGET----B. Se vado a sequenziare
tutto il catturato, avrò la sequenza di tutto il mitocondrio.

La pec è stata utilizzata per la prima volta per catturare il genoma mitocondriale
dei neandertaliani (5 neandertaliani). Una volta catturato il genoma mitocondriale,
lo sequenzio con altissima resa -> in questo tipo di sequenziamento in cui ho
un’altissima resa, di ciascun frammento catturato quante letture avrò? Tante
letture, quindi se ho tante letture (READS) di un altro frammento ne avrò
altrettante, finché tutte queste reads non andranno a ricostruire una sequenza
consenso. Ed è stato fatto così per la ricostruzione del genoma dei neandertaliani.
Oltre alle informazioni di carattere biologico elencate prima, cosa ci hanno detto i
neandertaliani? Ci hanno fatto capire come si distingue il DNA esogeno da quello
endogeno.

Torniamo un po’ indietro…. Come si costruisce una library? Si parte da DNA


frammentato, con la T4 si ricostruisce a destra e a sinistra, ci mettiamo gli
adattatori e in 5’,3’ abbiamo un numero elevato di misincorporazioni. Come si
capisce che abbiamo un numero elevato di misincorporazioni? Perché se si tratta
di un DNA degradato, quando la T4 va a mettere le basi le mette sbagliate. Ci siamo
accorti che in un DNA antico a livello del 5’/3’, cioè alle estremità delle reads,
esistono 30-40% di basi misincorporate -> riconosciamo una molecola antica da
una moderna perché al suo interno ha le basi misincorporate. Quindi significa che
se abbiamo detto 30-40%, allora su 10 reads, nella posizione 5’, avrò 3-4 basi con
misincorporazioni. Come facevo ad associare che questa caratteristica è del DNA
antico? Perché se avessi sequenziato il genoma di un uomo avrei visto che ci sono
queste caratteristiche, ma non avrei capito che queste caratteristiche
corrispondono ad un DNA antico. L’ho capito per il semplice fatto che il motivo che
c’è sulla reads mitocondriale, e quindi reads neandertaliane, sono differenti rispetto
ai motivi del DNA umano (hanno sequenze diverse e non hanno misincorporazioni,
in quanto il DNA è “fresco” e non ha avuto tempo di degradarsi, infatti in campioni
moderni, le misincorporazioni in 5’/3’ sono 0). E ci siamo accorti che andando
indietro nel tempo le misincorporazioni in 5’/3’ vanno ad aumentare: 40% in
campioni molto antichi, 10% in campioni più recenti fino ad arrivare a campioni di
100 anni fa che non hanno misincorporazioni in 5’/3’.
Quindi, come faccio a riconoscere una sequenza antica se non ha
misincorporazioni ma è contaminata? Confronto il motivo mitocondriale con quello
delle misincorporazioni, cioè con i motivi delle sequenze dei neandertaliani. Ma
perché io posso fare un ragionamento del genere? Perché ho una grossissima resa
in fase di sequenziamento, perché avrò 300 reads di un singolo frammento, quindi
tante informazioni. Grazie alle misincorporazioni in 5’/3’ possiamo riconoscere un
DNA umano antico da un DNA contaminato. Ovviamente esiste un software (Map
Damage) che ti dice come stanno i danni nelle posizioni 5’ e 3’. Otteniamo cioè dei
grafici in cui vengono riportate le frequenze percentuali delle misincorporazioni. Li
vedremo quando faremo il Dna mitocondriale di un individuo del paleolitico
superiore.

Abbiamo parlato di coverage di una base (se una A è coperta 9 volte significa che
è coperta 9x), quindi se un genoma neandertaliano è coperto di media 50x significa
che tutte le basi sono lette più o meno 70 volte. Leggere una base 70 volte vuol dire
che siamo sicuri che lì ci sia quella base e non c’è verso sbagliare, significa che
posso anche dire se un individuo è omozigote o eterozigote per un determinato
locus: in un 50x, se è eterozigote avrà 25 A e 25 la base complementare. Una lettura
così profonda mi dà la struttura del genoma. Dopodiché, con tutti questi software,
posso costruire una sequenza consenso andando ad eliminare quelle reads
contaminanti da quelle non contaminanti.
Esistono software che fanno tutti i conti -> si può anche dire se il DNA
mitocondriale proviene da più fonti biologiche, cioè si può discriminare i
mitocondri.
10.11.2016

Dai video vediamo che:


- Le bilie possono catturare il DNA della libreria, sono state messe sul magnete
portando via ciò che è stato catturato, buttiamo via ciò che non ci interessa e quindi
dalle bilie con DNA si separano quelle con la sonda che non ci interessano. Il DNA
catturato viene poi messo nel Flash sube.

- I Neanderthaliani avevano bassa variabilità genetica e ciò vuol dire che poteva
andare incontro ad estinzione. Questo visto tramite analisi del mitocondrio.
Ad oggi non si utilizza più la PEC, è stata sostituita da una nuova tecnologia.
La PEC ci serve per catturare i mitocondri andiamo a costruire dei primers
oligonucleotidici che si attaccano ad un frammento complementare, si estendono e
catturiamo; i frammenti PEC possono essere lunghi circa 80bp, con l’estensione
arriviamo a 160bp. Quindi se voglio catturare tutto un mitocondrio lungo 16000
bp dovrò utilizzare 100 primer PEC (costano molto). QUNDI come si supera il
Primer PEC?  si pensò di poter utilizzare delle sonde prodotte mediante
frammentazione di un mitocondrio (quindi se ne voglio catturare uno ne posso
utilizzare un altro).

Se voglio utilizzare la tecnologia Marecich prendo un


DNA mitocondriale ed eseguo due LONG RANGE PCR
(PCR a lungo raggio) che amplificano due frammenti di
DNA mitocondriale producendo frammenti di lunghezza
8500-9000 bp.
Una volta effettuate queste due Long Range PCR
(sostanzialmente un’amplificazione del mitocondrio)
avrò due stringhe di DNA (A-B) con parti che si
sovrappongono in modo da coprire tutto il mitocondrio,
a questo punto utilizzo un sistema interessante.
Io ho moltissimi frammenti di DNA mitocondriale
(perché ho amplificato tramite PCR) ed utilizzando un
sonicatore (macchina che emette ultrasuoni) vado a
frammenta casualmente i frammenti più lunghi. Quindi
avrò milioni di frammenti complementari ad un
mitocondrio.
Sui frammenti viene inserita nella parte finale una
molecola di Biotina e inserisco su sferette magnetiche
delle molecole di streptavina.
Facendo reagire i frammenti ottenuti con le bilie avrò un complesso “FRAMMENTO-
BIOTINA-STREPTAVINA-BILIA”.
Una volta ottenute le sferette le farò ibridare con la
libreria fatta sul mio campione estratto (sulla libreria ho
TUTTE le molecole di DNA estratto); tra le molecole di
DNA endogeno/non contaminante ed
esogeno/contaminante del mio DNA mitocondriale con le
sfere le unirò ad unire alle librerie e mi andranno a
catturare tutti i tipi di molecole esogene/endogene. 
ADATTATORE A – FRAMMENTO -ADATTATORE B.
A questo punto ho catturato il mio mtDNA sia esogeno
che endogeno.
Una volta catturato, lo denaturo liberando la libreria dalle
bilie e avrò i miei frammenti A-B, A-B ecc…. i miei frammenti vanno al
sequenziatore ILLUMINA (quindi Cluster Station)  Bridge PCR  Riproduzione
PCR  Cluster sequenziamento  sequenze…
Una volta ottenute le sequenze verranno confrontate con una di riferimento e viene
ricostruito il nostro genoma. (noi abbiamo catturato DNA esogeno ed endogeno, ma
li riconosco dalle misincorporazioni in 5’-3’) alla fine vado a ricostruire la sequenza
consenso (posso avere il mitocondrio Neanderthaliano, se ne faccio 1; se ne faccio
5 sulla libreria metto un indice e dopo li riconosco. Faccio un’operazione detta
demultiplexing e ordino la mia libreria.

Siamo in grado di analizzare genomi completi, nonostante si sia parlato fino ad


adesso di piccoli genomi. Non sempre però mi interessa analizzarlo tutto, per cui le
catture viste sul genoma mitocondriale possiamo farlo anche su quello nucleare.

 QUINDI con le tecnologie NGS possiamo:


- andare a sequenziare tutto il genoma
- andare a catturare porzioni di genoma sia mitocondriale che nucleare e
sequenziarle

Esiste un insieme di sonde che vengono comunemente utilizzate per catturare


porzioni di genoma mitocondriale in rapporto 1:1. Funzionano analogamente alla
tecnologia Marecich: ibridazione su regioni specifiche di genoma nucleare DNA,
cattura, delezione; in questo modo si ha uniformazione del DNA nucleare.
Ovviamente si catturano zone polimorfiche contenenti SNPs che sono
evolutivamente informativi. Può essere fatto in diversi modi, quello più semplice è
una cattura fatta utilizzando un supporto solido.
1) STARTING: DNA che ho estratto
2) Preparazione della libreria
3) Supporto solido (detto MicroCip) di vetro sul quale sono disposte le sonde
costruite e complementari alle regioni di DNA che voglio catturare
4) Cattura
5) Lavaggio, eliminando ciò che non ho catturato
6) Arricchisco la libreria e la mando a sequenziare su una piattaforma Illumina

Esiste un altro modo che VIENE EFFETTUATO IN LIQUIDO


1) DNA di partenza
2) Creazione di una libreria
3) Utilizzo di sonde a RNA biotinilate (con biotina in fondo) che si ibridano con
la libreria
4) Sistema di cattura in cui ciò che è ibridato alla regione che mi interessa
rimane, lo porto via e coi magneti lo catturo.
5) Digestione di RNA e mi rimane DNA catturato
6) Arricchisco la libreria e la sequenzio con Illumina

Quindi si possono avere molte informazioni su quel pezzo di DNA di interesse,


perché le sonde vanno a leggerlo più volte. Può essere utilizzato anche per
l’identificazione personale.

15.11.2016

Metodologie principali per lo studio di un campione antico


 Estrazione del DNA da osso
 Preparazione Library Illumina
 Cattura e target enrichment mtDNA
Caratteristiche del DNA antico o DNA degradato:
1. Un campione antico presenta un numero ridotto di molecole di DNA, il
cosiddetto DNA endogeno, cioè proprio il DNA del campione, perché in
realtà potremmo anche riuscire ad estrarre tanti DNA dal campione, ma
quello endogeno in realtà spesso è presente in basse quantità, infatti la
maggior parte del DNA estratto da un reperto antico è per la stragrande
maggioranza DNA esogeno, in particolare DNA microbico per il quale
magari non ci sono ancora confronti in banche dati, quindi sono sequenze
che non riusciamo ad assegnare tassonomicamente a nessun organismo.
Poi c’è anche DNA microbico che riusciamo ad identificare in modo
specifico, ma c’è anche una piccola percentuale di DNA umano
contaminante che deriva dagli operatori che hanno maneggiato il reperto e
che quindi hanno apportato il proprio DNA sul reperto, contaminandolo.
Quindi dal campione recuperiamo tutto il DNA presente e molto spesso
troviamo una situazione di questo tipo, in cui il DNA endogeno è presente
in quantità ridotta.

(C ‘è un lavoro in cui sono andati ad indagare il pattern di queste degradazioni del


DNA cercando di trovare eventuali correlazioni con l’età del reperto: la riduzione
del numero di molecole di DNA endogeno in realtà, secondo questo studio, non
presenta una proporzionalità e una correlazione con l’età del campione e infatti:
ASSE X = epoca trascorsa dalla morte dell’organismo che stiamo studiando e
sull’ASSE DELLE Y= quantità di DNA presente, vediamo che i punti si collocano in
maniera abbastanza casuale e questo vuol dire che questo tipo di degradazione,
quindi la riduzione del DNA presente, in realtà avviene abbastanza rapidamente
con la morte dell’organismo e non presenta una correlazione con l’età del reperto).

Un altro tipo di degradazione che è correlata con la perdita del materiale genetico:
FRAMMENTAZIONE. Questo poco DNA endogeno, salvo casi eccezionali di
conservazione, come nel permafrost o in condizioni microclimatiche
particolarmente favorevoli, è anche altamente frammentato per via di fenomeni di
degradazione, primo fra i quali l’idrolisi e sempre nel lavoro citato sopra, anche in
questo caso è stato visto che non c’è una correlazione particolare tra la lunghezza
media dei frammenti di DNA recuperati da un campione e l’età del reperto stesso.

2. Un’altra caratteristica importante che bisogna considerare quando si studia


il DNA antico sono le MISINCORPORAZIONI. Il tipo di danneggiamento più
frequente è quello della deaminazione della citosina. Le misincorporazioni
consistono fondamentalmente in una lettura sbagliata della molecola che
avviene in laboratorio quando noi effettuiamo certi tipi di analisi in cui
fondamentalmente amplifichiamo il DNA e la polimerasi che viene
utilizzata, nel leggere quella che era una Citosina, ma che ha subito
deaminazione, misincorpora, cioè inserisce una base complementare
sbagliata. Quindi poi quando andiamo a leggere la sequenza, là dove era
presenta una C, che però nella molecola era stata deaminata, in realtà la
polimerasi ha inserito una T e queste sono le famose C-T che ritroviamo
frequentemente nei campioni di DNA antico.

In uno studio si stavano analizzando campioni neandertaliani e, grazie al fatto che


si trattava di una specie simili, ma diversa dalla nostra cioè con caratteristiche del
DNA mitocondriale riconoscibili rispetto a quello di Homo sapiens, è stato possibile
evidenziare quelle che erano le caratteristiche del DNA endogeno neandertaliano,
perché se ne riconosceva la sequenza, e quelle che invece erano le caratteristiche
del DNA ritrovato nello stesso reperto appartenente però a Homo sapiens e quindi
sicuramente contaminante e moderno. Mettendo in un grafico la frequenza di
queste mutazioni C-T rispetto alla posizione nel frammento, è stato visto che il DNA
antico ha questo picco percentuale di C-T all’estremità 5’ dei frammenti e in
maniera complementare questa cosa si traduce all’estremità 3’ dei filamenti con
una frequenza di mutazioni G-A. questa cosa non è visibile invece nei grafici relativi
al contaminante moderno estratto dallo stesso campione. Quindi questo tipo di
osservazione ha fatto capire che questa è proprio una peculiarità del DNA antico.
Il grafico dice che tra tutte le molecole di DNA che mappano sul mitocondrio
neandertaliano, il 28% per esempio di queste molecole presentano una T laddove
la sequenza di riferimento che stiamo usando in realtà ha una C. quindi questa è
un’altra caratteristica importante che noi sfruttiamo poi in fase di analisi. Nel solito
lavoro è stata messa anche in relazione la frequenza di queste C-T in 5’ rispetto
all’età del campione e in questo caso effettivamente l’andamento si distribuisce più
o meno lungo una linea che va ad indicare una certa proporzionalità: questo
discorso è valido per i campioni che provengono dai climi temperati, mentre i casi
eccezionali, tipo quei reperti recuperati nel permafrost o in condizioni climatiche
sfavorevoli, si discostano da questo andamento. In linea di massima comunque si
ritrova una certa correlazione tra la frequenza delle C-T in 5’ e l’età del reperto
stesso e anche questa è una caratteristica importante che sfruttiamo nelle analisi
per accertarci che il DNA che stiamo analizzando sia effettivamente antico oppure
no.

La problematica della contaminazione fa sì che nel trattare i campioni antichi che


devono essere sottoposti ad analisi genetica è necessario adottare delle precauzioni
particolari a partire già dal recupero del reperto stesso: nella situazione ideale, già
in fase di scavo, si deve adottare precauzioni nel prelievo del frammento dal
sedimento terroso, per esempio vestendo con mascherina, guanti, copricapo e tuta,
per evitare fenomeni di contaminazione del reperto. Questa è la situazione ideale,
ma non sempre è facile avere una situazione di questo tipo: nelle necropoli
abbastanza recenti è possibile individuare le sepolture e quindi è possibile munirsi
in anticipo di tutte le precauzioni, ma per esempio in scavi che risalgono a periodi
più antichi, per esempio per reperti neandertaliani, spesso ci si ritrova a scavare in
grotte dove c’è poca luce e inoltre l’osso neandertaliano è uno su 10.000 pezzi d’osso
che stai recuperando. Quindi molto spesso questa strategia non viene adottata
dagli archeologi, salvo appunto casi eccezionali, per esempio caso della grotta in
Spagna: Sima de los Huesos, deposito ricchissimo di ossa umane. Comunque è
stato visto che se si riesce ad adottare certe strategie è possibile valorizzare questi
campioni e discriminare tra il DNA endogeno del campione ed una eventuale
contaminazione.

Quando accogliamo reperti in laboratorio cerchiamo sempre di recuperare un certo


numero di informazioni che possono aiutarci in questa opera di comprensione della
storia del campione ed eventualmente di riconoscimento delle contaminazioni.
Innanzitutto ci sono delle schede da compilare che devono descrivere il reperto:
- Datazione del reperto, di cui dobbiamo essere certi
- Storia tafonomica, cioè se è andato incontro a particolari tipi di degrado
dovuto alla tipologia del terreno, oppure ci sono situazioni in cui ci sono
sepolture particolari in cui il reperto è stato sepolto con reperti in bronzo che
in seguito a percolazione del terreno, si è insinuato nell’osso ecc. la storia
tafonomica non riguarda solo il campione incluso nel sedimento, ma anche
ciò che è successo dopo ovvero se il campione è stato trattato in qualche
modo, per esempio potrebbe essere stato trattato con una sostanza collosa
che ne renderebbe difficile l’estrazione del DNA; oppure potrebbe essere stato
lavato: l’acqua veicola eventuali contaminazioni da parte dell’operatore. Se
sappiamo che il reperto è stato toccato, l’ideale sarebbe poter prelevare un
campione di DNA dell’operatore, quindi a quel punto al reperto si associa
una scheda con i dati di chi ha toccato il reperto, in modo che quando si
ottiene la sequenza del campione, si possa essere sicuri che non corrisponda
a quella di uno degli operatori, anche se nei laboratori di paleogenetica gli
operatori lavorano in modo sterile.
- Tracciabilità delle contaminazioni
- Informazioni relative alle possibili parentele tra individui: anche queste
sono molto importanti per un duplice motivo: le eventuali parentele infatti
potrebbero essere uno spunto di indagine, magari gli archeologi le ipotizzano,
mentre i paleogenetisti devono verificarle dal punto di vista genetico. Oppure
se si vuole fare uno studio popolazionistico prendendo tanti campioni da una
necropoli, il fatto che ci siano parenti stretti disturba lo studio di genetica di
popolazione perché se ci sono tante parentele in una Necropoli, gli individui
prelevati da quella necropoli non sono rappresentativi della popolazione, ma
si verifica una deviazione delle frequenze genetiche che dobbiamo tenere
presente se stiamo facendo uno studio simile.
- Caso delle sepolture multiple: sepoltura secondaria, cioè gli individui
prima erano stati sepolti in un posto, poi riesumati e buttati alla rinfusa in
una sepoltura comune -> si tratta di una tipica sepoltura Kurgan. Questi
campioni sono molto interessanti perché dovrebbero essere i primi Indo-
europei arrivati in Europa e quindi si vorrebbe contestualizzarli insieme a
tanti altri campioni. In questo caso quindi si dovrebbe fare uno studio
popolazionistico e per farlo bisogna essere sicuri di analizzare tutti gli
individui, ma senza andare a pescare dei doppioni perché in una situazione
in cui ho tanti frammenti ossei non capisco se una tibia e un femore
appartengono a due individui diversi, se dovessi prendere dei doppioni potrei
pensare che una certa sequenza genetica abbia una alta frequenza in quella
popolazione, in realtà sono solo campioni dello stesso individuo. In questo
senso quindi è importante che gli archeologi diano indicazioni abbastanza
precise sul numero di individui, cioè tra tutte le ossa gli archeologi devono
capire quanti individui sono e devono fornire ai paleogenetisti solo campioni
che sicuramente appartengono ad individui diversi.
Nello studiare questi campioni: prima si è analizzato i genomi mitocondriali
trovando 3 individui che avevano lo stesso aplotipo, cioè la stessa sequenza
mitocondriale -> in questo caso, avendo solo il dato mitocondriale, non era
possibile sapere se questi tre reperti potevano appartenere allo stesso
individuo o magari potevano appartenere a tre individui di cui una era la
madre degli altri due. Quindi dopo l’analisi del solo genoma mitocondriale si
aveva un dato, ma non era possibile analizzarlo: quando poi è stato fatto
anche il DNA nucleare è saltato fuori che questi 3 individui con lo stesso
apogruppo avevano, per quanto riguarda i marcatori nucleari, delle
differenze e quindi, vista anche morfologicamente l’età dei reperti, era
verosimile che una fosse la madre e due fossero fratello e sorella tra loro e
poi, nell’ambito dello studio nucleare, è stato individuato un quarto individuo
che per i marcatori nucleari era compatibile come padre di questi due
giovani.

Le problematiche sono tante e per avere risposte è necessario mettere


insieme tante informazioni.

Inoltre nei siti paleolitici si trovano spesso tanti frammenti ossei e sono
fondamentalmente i resti della macellazione che gli uomini praticavano nel
paleolitico: sono resti faunistici di cui a volte non è nemmeno possibile determinare
la specie di appartenenza oppure conoscendo già quali erano i reperti relativi al
cinghiale per esempio, è stato possibile fare uno studio sull’addomesticazione del
cinghiale. In questo caso si doveva essere certi che ogni campione appartenesse ad
un individuo diverso, quindi sono state fornite tabelle relative al calcolo del numero
minimo di individui in modo da essere sicuri di prendere sempre individui diversi
-> interazione con archeologi.

Quali sono, nello specifico, i campioni su cui lavoriamo?


Per la stragrande maggioranza sono reperti ossei perché l’osso è quello che si
mantiene e si conserva meglio nei sedimenti archeologici, quindi per quanto
riguarda le ossa sono stati fatti diversi lavori per capire se c’è un osso migliore
dell’altro che conservi il DNA. Inizialmente ci si buttava su frammenti di osso
compatto, per esempio frammenti di diafisi delle ossa lunghe, perché l’osso
compatto rispetto allo spugnoso preserva meglio il DNA, soprattutto è meno
soggetto ad intrusione di materiale esterno. Poi è stato visto che tra le ossa e i denti,
i denti conservano meglio il DNA e sono meno suscettibili alla contaminazione.
Quindi tra le ossa compatte e i denti, cerchiamo di prediligere i denti.
Poi l’anno scorso è uscito un articolo in cui si diceva che la rocca petrosa contiene
una quantità di DNA endogeno decisamente molto superiore rispetto ai denti o a
qualunque altro osso di un potenziale individuo. Queste ossa, giunte in laboratorio,
vengono:
 sottoposte ad analisi in condizioni sterili, in una particolare zona di
laboratorio dove sono utilizzate le lampade UV e tutte le precauzioni: nella
fase di pre-amplificazione bisogna lavorare in ambiente sterile, una volta che
si è amplificato il DNA di interesse, si può poi maneggiarlo con più
tranquillità (zona post-amplificazione).
 il campione viene pulito, primissima fase: si può lavorare con le porzioni
diafisarie di ossa lunghe o facendo un tassello nel prelevarlo o cercando di
deturpare il meno possibile il campione con un trapano dentistico, lasciando
così solo un forellino; oppure si lavora con i denti e siccome ci interessa la
dentina, lasciamo la corona e lo smalto intatti e andiamo a scavare la radice
del dente per recuperare la polvere interna (facciamo quindi un carotaggio;
oppure la rocca petrosa, che quando è disponibile è il materiale d’eccellenza:
è collocata alla base del cranio, se il cranio è intero si può asportare, in
seguito a prelievo va sezionata e anche in questo caso si utilizza un trapano
dentistico per prelevare la parte di interesse. Quest’ultima è una parte ben
precisa: c’è una parte di osso spugnoso che non ci interessa, poi c’è una
parte di osso compatto, detta ZONA C, all’interno della coclea, che ha una
quantità di DNA esorbitante, quindi noi dobbiamo proprio andare a
recuperare quella parte che, tra individui, può essere diversa. Quindi questa
è la prima fase di lavoro.
 Viene estratto il DNA dalla polvere d’osso: polverizziamo molto finemente la
parte di interesse e la sottoponiamo all’estrazione del DNA. Una
problematica che si potrebbe presentare è quella egli INIBITORI: sono
sostanze che derivano dal terreno in cui era conservato il reperto, per
esempio acidi urici o Sali particolari, queste sostanze interferiscono con le
analisi: sono sostanze che inibiscono l’attività della polimerasi. Quando noi
estraiamo il DNA da un campione antico dobbiamo usare protocolli che ci
aiutino a ripulire l’estratto il più possibile da queste sostanze inibitrici e che
ci aiutino a recuperare DNA costituito anche da frammenti molto corti
perché spesso, durante l’estrazione, i frammenti molto corti vengono persi.
sono usciti molti articoli che proponevano protocolli diversi, ma
l’ultimissimo, quello che ad oggi è il più accurato è stato messo a punto su
un campione di osso delle caverne ed è stato dimostrato che permette il
recupero di frammenti di DNA più corti di 60 paia di basi, che in certi
campioni antichi, rappresentano la maggioranza del DNA endogeno.
L’estrazione che si utilizza adesso è basata sull’utilizzo della GUANINA
IDROCLORURO che permette il legame del DNA con la silica che è presente
in alcuni filtri particolari che si utilizzano, la blocca con questo filtro di silica,
viene lavata la parte di sostanze che non ci interessano, mentre viene
trattenuto il DNA e alla fine viene diluito.
 Poi il DNA estratto può essere utilizzato secondo due strategie: CLASSICA,
che prevede l’amplificazione del DNA di interesse tramite PCR, il clonaggio e
il sequenziamento; oppure la strategia della NEXT GENERATION
SEQUENCING, quella di nuova generazione tramite sequenziamento
massivo.

METODO CLASSICO: basato sulla PCR, infatti utilizzando la PCR dobbiamo sapere
a priori che marcatore vogliamo studiare e dobbiamo conoscerne anche la sequenza
perché dobbiamo costruire primer che siano complementari a questa sequenza a
monte e a valle di questa sequenza. Per il DNA antico a volte la PCR non funziona
perché magari, nelle molecole antiche, la sequenza che ci interessa non è integra e
quindi o non la troviamo per niente oppure è parziale e quindi entrambi i primer
non riescono a trovare una sequenza complementare integra a cui attaccarsi e a
far partire la reazione di amplificazione. Questa è la limitazione principale della
PCR nel campo del DNA antico e la seconda problematica è che con la PCR si
utilizzano una coppia di primer e ognuno di questi è lungo una 20ina di paia si
basi (quindi 40) e nel mezzo ci deve stare almeno un pezzettino di sequenza che
voglio studiare; quindi generalmente i prodotti di PCR sono lunghi almeno una
60ina di paia di basi, nei campioni antichi si ha una frammentazione così spinta
che si hanno anche molecole più corte che anche con la PCR non possono essere
recuperate.
Ipotizziamo che il DNA che ci interessa c’è ed è integro, una volta effettuata
l’amplificazione nel DNA antico generalmente non si poteva fare un
sequenziamento diretto del prodotto di PCR, ma c’era uno step intermedio che era
il CLONAGGIO: se sequenzio un prodotto di PCR direttamente, probabilmente
ottengo un profilo disturbato perché magari ho amplificato sia la parte che mi
interessava, che quella di un sapiens che l’ha contaminato. Il clonaggio serve
proprio per separare, dal prodotto di PCR, le singole molecole, inglobarle in un
plasmide da far replicare all’interno di cellule batteriche, quindi fondamentalmente
al termine del clonaggio si recupera diverse colonie batteriche ciascuna delle quali
contiene numerose copie di una molecola di partenza prelevata dal prodotto di PCR
e poi andiamo a fare un sequenziamento su più colonie batteriche e si confrontano
tutte le sequenze ottenute. Se per esempio ho un campione neandertaliano:
sequenzio 10 colonie, 8 di queste mi danno una sequenza neandertaliana, 2 mi
danno una sequenza del sapiens -> questo mi permette di capire cosa c’è
effettivamente nel campione, di interpretarlo e di convalidare finalmente il risultato.
Se faccio un sequenziamento diretto non riesco a discriminare.

NGS: nell’antropologia molecolare ha rivoluzionato la disciplina perché, in


campioni molto problematici, ha permesso di ottenere risultati da reperti che non
avevano mai dato risultati con la PCR e ottenere una mole di dati talmente
superiore che ha permesso di fare nuove scoperte per quanto riguarda l’evoluzione.
Si basa sulla costruzione di LIBRARY: quest’ultima mi permette di recuperare tutte
le molecole presenti nell’estratto e di immortalizzarle attaccandoci degli adattatori
di cui si conosce la sequenza che permettono di amplificare tutti i frammenti che
ci sono, sfruttando la sequenza degli adattatori con dei primer universali, anche se
non si sa a priori cosa c’è
nella library però in questo
modo si può andare a vederlo
senza fare selezioni a priori.
In questo modo, siccome non
amplifichiamo niente
all’inizio, recuperiamo tutto e
il vantaggio principale che c’è
stato con l’NGS è stato
questo, cioè che recuperando
tutto, leggiamo tutto e
soprattutto leggiamo le
caratteristiche originali delle
molecole, cosa che con la PCR
non potevamo fare perché
usavamo primer che
ritagliavano la sequenza. Invece così si legge tutta e si può verificare se la molecola
è degradata all’estremità -> grazie alla NGS, quella che era la problematica del DNA
antico, viene superata e diventa un vantaggio perché permette di dire che un DNA
degradato è sicuramente antico e non è frutto di contaminazione.
L’altro VANTAGGIO: con l’NGS si ottiene un numero di sequenze molto elevato e
quindi rispetto alla PCR si ha molta più informazione.

Spesso nel DNA antico non si fa direttamente la costruzione delle library e il


sequenziamento, ma si fa un TARGET ENRICHEMENT: abbiamo visto che il DNA
di un campione può provenire da fonti diverse e che a volte però il DNA endogeno
è la minima parte: in questo caso, se non voglio sprecare il mio sequenziamento
che mi restituirà il 99% di sequenze batteriche, cerco di arricchire la parte che mi
interessa che potrebbe essere per esempio il genoma umano, mitocondriale o
nucleare ecc. -> faccio quindi un arricchimento selettivo utilizzando delle SONDE:
ci sono delle ditte che producono sonde e restituiscono dei chip su cui si può far
ibridare le molecole della libreria oppure possiamo costruire delle sonde fatte in
casa. Queste sonde catturano le molecole a loro complementari, cioè queste sonde
sono legate a biglie magnetiche, quindi una volta che abbiamo fatto ibridare il DNA
della libreria alle sonde, con un magnete catturiamo il pool di sonde e molecole del
campione e poi l’andremo a sequenziare.

I vantaggi della NGS rispetto alla PCR sono tanti: si può lavorare in parallelo, si
possono avere tantissime informazioni in poco tempo, non si ha la limitazione di
dover costruire i primer, quindi di dover costruire a priori la sequenza che ci serve,
si può recuperare anche frammenti molto corti che invece con la PCR non si può
prendere e in campioni molto degradati i frammenti molto corti sono proprio la
stragrande maggioranza dei frammenti del DNA endogeno; inoltre il fatto che
utilizziamo adattatori ci permette di amplificare con questi primer universali, tutte
le volte che ci serve, il campione e possiamo osservare le caratteristiche originali
delle molecole, in particolare le misincorporazioni alle estremità e possiamo così
riconoscere il DNA antico da quello moderno contaminante. Oltre agli adattatori,
possiamo attaccare INDICI, che sono dei “codici a barre” che noi associamo ad ogni
singolo campione in modo tale che possiamo recuperare solo le cose indicizzate e
se poi subentrano contaminazioni di laboratorio restano ininfluenti perché il nostro
campione ha gli indici e quindi è riconoscibile. Questo meccanismo degli indici ci
permette anche di sequenziare molti frammenti tutti insieme buttandoli nel
sequenziatore tutti insieme.
Grazie all’NGS si possono sequenziare anche regioni molto ampie e addirittura
INTERI GENOMI.
I VANTAGGI DELL’NGS:
•È possibile effettuare decine di milioni di reazioni di sequenza per ogni
corsa di sequenziamento in parallelo su piattaforme altamente
miniaturizzate ottenendo il risultato in pochi giorni
• L’ «inconveniente» dell’NGS di produrre reads (sequenze) corte non
rappresenta un problema nell’applicazione su DNA antico
• L’utilizzo di primers disegnati sugli adattatori esterni ai frammenti di
DNA del campione permette di recuperare sequenze non accessibili con
la metodica classica della PCR perché troppo corti (per campioni
altamente degradati rappresentano la maggior parte del materiale
genetico)
• La presenza degli adattatori permette in ogni momento di riamplificare
tramite PCR la library, rendendola così una forma di immortalizzazione
del campione
• Danneggiamenti del DNA ed eventuali contaminazioni possono essere
osservati con una maggiore risoluzione
• Dei barcode (indici) possono essere aggiunti agli adattatori, permettendo
il riconoscimento delle molecole del campione anche da eventuali
molecole contaminanti successivamente introdotte durante le fasi di
DALLA PREPARAZIONE DELLA LIBRARY FINO AL SEQUENZIAMENTO.
analisi.
• Rende possibile il sequenziamento di interi genomi

La costruzione della library si fa anche per il DNA moderno, ci sono infatti dei kit
che si comprano e che in poco tempo attaccano gli adattatori agli indici rendendo
disponibile il campione per il sequenziamento; ovviamente per quanto riguarda il
DNA antico la situazione è più complicata perché un kit che va bene per un DNA
di buona qualità non è detto che vada bene per tutti i campioni che hanno un
qualsiasi tipo di problematica. Quindi in questo caso, invece di comprare il kit,
bisogna fare passaggio per passaggio in modo tale che ad ogni step ci si possa
fermare a controllare che tutto proceda al meglio ed eventualmente si possa
correggere qualche passaggio in modo da ottimizzare la resa il più possibile. In
generale comunque, le fasi di preparazione della LIBRARY sono le stesse sia per i
campioni moderni, sia per quelli antichi: fondamentalmente nel DNA moderno i
frammenti sono lunghi e quindi per fare la library e il sequenziamento è necessario
che vengano frammentati, mentre nel DNA antico sono già frammentati e quindi la
prima parte viene risparmiata, però c’è il problema che le estremità non sono pari.
Quindi:
1. Devo riparare l’estremità delle molecole
2. Legare gli adattatori alle estremità: gli adattatori sono sequenze di DNA
sintetizzate di cui conosco la sequenza
3. Se voglio fare l’arricchimento della regione che mi interessa
4. Sequenziamento.

Ci sono due tipologie di LIBRARY:


- Single strand library: protocollo per la costruzione di una library a singolo
filamento. Si tratta del protocollo utilizzato per il DNA antico, ma fa fatica a
prendere campo.
- Double strand library: library a doppio filamento che sono quelle che
generalmente si fanno anche per il DNA moderno.
Prevede la riparazione delle estremità 5’ e 3’ in modo da avere estremità piatte. Le
estremità piatte prevedono,
tramite l’utilizzo di una ligasi,
l’attacco degli adattatori P5 e P7, a
monte e a valle del campione. Gli
adattatori sono universali per la
piattaforma illumina, cioè per la
ditta ILLUMINA gli adattatori
hanno sempre una certa sequenza.
L’unica cosa è che noi li
assembliamo “in casa”, creando, a
partire da degli oligonucleotidi
che facciamo sintetizzare, degli
adattatori con una estremità
piatta e una impari. Questo
stratagemma serve per far sì
che gli adattatori si leghino alla
molecola del campione nella
direzione corretta e non
ribaltati. L’unica sfortuna è
che, in questo mix di reagenti
dove metto l’estratto e gli
adattatori, alcuni adattatori si
legheranno correttamente alle molecole del campione, altri si legheranno tra di loro
e formeranno i cosiddetti DIMERI DI ADATTATORI, che sono molecole che noi
dobbiamo scartare perché sono artefatti della reazione che a noi non servono.
Probabilisticamente però, una certa % degli adattatori, si legheranno al campione.

Poi si fa la cosiddetta: ADAPTER FILL-IN.


Reazione con una polimerasi che va a
ricostruire la parte mancante dei
filamenti degli adattatori in modo da
ottenere una molecola finale con le
estremità pari, cioè si estende il
filamento laddove mancava.
A questo punto ci si ferma e si controlla cosa sta succedendo facendo una PCR
quantitativa tramite REAL TIME, per vedere che concentrazione abbiamo ottenuto
per ciascun campione e per ottimizzare i passaggi successivi; utilizziamo dei
PRIMER universali che si attaccano agli adattatori, amplifichiamo e vediamo
l’amplificazione sulla REAL TIME. Otteniamo i profili di quantificazione e le
quantità oggettive in cui possiamo vedere da che quantità stiamo partendo e
decidere quanto vogliamo amplificare ulteriormente il campione per renderlo
sufficientemente concentrato per le fasi successive. Quindi a seconda di queste
quantità di partenza, personalizziamo per ciascun campione il numero di cicli di
amplificazione che faremo nello step successivo che è la cosiddetta INDEXING
PCR:
una PCR in cui usiamo dei primer che hanno una parte di sequenza complementare
ad una parte
dell’adattatore, una
parte di sequenza (in
rosso) che è l’indice,
che io decido di
associare ad un
determinato campione
e poi una parte di
sequenza conosciuta,
universale che
sfrutterò nei passaggi
successivi. Quindi
assegnerò una coppia
di primer a ciascun
campione, perché ogni coppia di primer avrà una certa sequenza di indice,
amplifico e ottengo un prodotto finale:
TEMPLATO-ADATTATORE-INDICE (a monte e a valle).

A questo punto riquantifico per verificare cosa è successo e per vedere se


effettivamente la indexing PCR ha avuto una buona efficienza e una buona resa e
per capire che concentrazione ho e ottimizzare il passaggio successivo. Ottimizzare
nel senso che, ogni volta che faccio una PCR, se imposto un numero troppo elevato
di cicli, la PCR raggiunge una PLATEAU oltre il quale non amplifica più, ma crea
degli artefatti, gli ETERODUPLEX, che sono degli accrocchi di molecole che si sono
legate tra di loro in maniera scorretta, cioè non sono dei doppi filamenti puliti, ma
hanno una forma, a volte 3D, che viene mal interpretata dagli strumenti che si
usano dopo e che comunque disturbano perché non mi fanno capire quella che è
la reale quantità delle mie molecole, falsando l’interpretazione da parte degli
strumenti di quantificazione -> Quindi è importante che aggiusti le fasi di
amplificazione impostando un numero di cicli che sia sufficiente per amplificare
abbastanza il campione, ma non troppo elevato in modo che non si formino questi
artefatti.
Quindi alla fine della INDEXING PCR,
io cerco di amplificare ancora il
campione, che essendo un campione
antico probabilmente non ha una
quantità troppo elevata di materiale,
lo voglio arricchire utilizzando i
primer universali che si attaccano
all’esterno degli indici, con un numero
di cicli di PCR che stabilisco sulla
base dei conti che ho fatto con le
quantificazioni fatte in precedenza.

Alla fine ho la mia library terminata, eventualmente arricchita, la controllo:


invece di controllarla con la PCR, la controllo con AGILENT BIOANALYZER ->
effettua una elettroforesi, ma la effettua all’interno di capillari che fanno parte di
un chip. Si caricano i
campioni, i campioni
corrono all’interno dei
capillari e lo strumento
restituisce un profilo che,
graficamente è analogo a
quello che si vedrebbe su
un gel di agarosio, ma in
un grafico restituisce i
risultati su una curva che
descrive qualitativamente
e quantitativamente il
campione, cioè dice quanto
sono lunghi i frammenti presenti, infatti sull’asse delle X ho le paia di basi e quanto
sono concentrate le diverse famiglie di frammenti lunghe diverse paia di basi. Da
questo grafico si capisce che la stragrande maggioranza dei frammenti è lunga circa
200 paia di basi e i frammenti lunghi circa 200 paia di basi sono concentrati a 176
nanogrammi/microlitro. Ma poi ho anche frammenti più lunghi e più corti presenti
a diverse concentrazioni.

A questo punto vedo qual è il risultato finale della mia LIBRARY: verifico che
effettivamente il DNA c’era nel mio campione, perché l’ho indicizzato, e decido come
procedere.
Se invece decido di procedere con l’altro protocollo: SINGLE STRAND, la procedura
è un po' diversa. Nel protocollo double strand parto dal DNA a doppio filamento del
mio campione e attacco adattatori a doppio filamento poi procedo. Però posso
trovare anche situazioni dove il doppio filamento non è completamente integro, ma
ho una interruzione su uno dei due filamenti oppure su entrambi i filamenti che
rappresentano un punto di debolezza della molecola, anche se comunque non
riescono a rompere la molecola. In una situazione del genere, le degradazioni in
questi punti, se facessi una DOUBLE STRAND LIBRARY, non mi permetterebbero
di recuperare queste molecole perché nel momento in cui attacco gli adattatori e
vado a fare la fase successiva in cui devo denaturare il DNA per amplificarlo,
quando denaturo questo doppio filamento perdo completamente un pezzo o l’altro
perché hanno l’adattatore solo da una parte, cioè perderei tutta l’informazione. La
single strand library mi permette invece di recuperarli ed infatti è stata studiata
per quei campioni che con l’altro protocollo non davano buoni risultati proprio
perché presentavano, ina maniera più incisiva, questo tipo di danneggiamenti.
Quindi i passaggi fondamentali della SINGLE STRAN LIBRARY sono:
1. Denaturazione iniziale e si lavora sul singolo filamento, attaccando un
adattatore ad ogni singolo filamento che ottengo da questa denaturazione,
cioè lavoro su ogni singolo filamento dove attacco ad ognuno un adattatore.
2. Ogni singolo filamento con il suo adattatore viene legato alle biglie
magnetiche: questo legame con le biglie avviene grazie al legame tra la
biotina e la streptavidina; infatti le biglie magnetiche sono rivestite di
streptavidina e la biotina è presente sull’adattatore. Quindi catturo queste
molecole sulle biglie magnetiche e poi aggiungo CL9, un altro adattatore,
che è complementare all’adattatore precedente e che mi permette di far
partire un’estensione che mi va a ricostruire il filamento mancante.

QUINDI: avevo un doppio filamento con delle degradazioni, lo denaturo e ottengo 4


singoli filamenti. Su ciascuno dei 4 singoli filamenti attacco un adattatore, attacco
questi 4 singoli filamenti ad una biglia, ci faccio annilare l’adattatore
complementare e lo estendo. Quindi da questi 4 singoli filamenti, otterrò 4 doppi
filamenti che sono rappresentativi di una molecola di partenza che avevo
nell’estratto e questo mi permette di non perdere questi filamenti degradati. Dopo
aver ricostruito il doppio filamento attacco il secondo adattatore e posso procedere.
Il discorso delle biglie è una cosa in più: se io con il primo procedimento faccio una
purificazione utilizzando un kit è stato visto che con questa purificazione rischio di
perdere le molecole molto corte, quindi nell’ambito di questo protocollo sono state
messe a punto le biglie magnetiche, utilizzate al posto dei soliti filtri perché alle
biglie magnetiche si legano sia frammenti lunghi che frammenti corti, quindi non
perdo niente. Alla fine staccherò il DNA dalle biglie, stacco l’adattatore da una parte
e recupero il prodotto finale.
Alla fine avrò ottenuto 4 molecole finali a partire da una molecola iniziale che era
nell’estratto, molecola che avrei perso se avessi lavorato con la double strand. Poi
quantifico con real time e verifico quello che ho ottenuto; poi posso procedere
all’indicizzazione, e si può usare un indice o un doppio indice: quest’ultimo
permette di essere ancora più accurati quando si va al sequenziatore.

Ci sono quindi due procedure per la costruzione della library: il protocollo della
double strand che è quello più innovativo ed è stato visto che la purificazione fatta
con le biglie magnetiche ottimizza il recupero del materiale; la single strand library
permette di recuperare molecole che hanno anche questi danneggiamenti su uno o
su entrambi i filamenti ed è stato visto che su filamenti altamente degradati, la
single strand può incrementare di molto la copertura dei frammenti del marcatore
che si sta studiando.
Però la double strand resta la migliore quando il campione non è altamente
degradato perché la single strand va a scartare molecole più lunghe di 120
paia di basi e la single strand è molto costosa, infatti è un protocollo poco
utilizzato perché viene utilizzato solo se con la double strand non si sono
ottenuti buoni risultati.

A questo punto ho la mia library e posso decidere se sequenziare e fare quindi un


sequenziamento shot-gun dove sequenzio
tutto quello che c’è oppure fare un target
enrichment dove selezionare un marcatore di
interesse, amplificarlo rispetto al resto del
DNA presente e focalizzare quindi il
sequenziamento solo sul target, cioè sul
marcatore che mi interessa. Questo perché il
DNA endogeno può essere presente in bassa
percentuale e quindi sprecherei il mio
sequenziamento se facessi uno shot-gun. Per
arricchire c’è una strategia home-made di
cattura, molto utilizzata nel DNA antico, e
che si basa su questo protocollo prodotto do
Maricic nel 2010. Fondamentalmente questo protocollo permette di preparare in
casa le sonde: esempio per il DNA mitocondriale.
Fondamentalmente si parte da un estratto di DNA moderno, si fanno le cosiddette
LONG RANGE PCR: sue PCR che mi

vanno ad amplificare una metà e l’altra


un’altra metà del mitocondrio.
Frammento questi prodotti di PCR tramite un sonicatore che mi frammenta il DNA
e mi crea queste sonde lunghe 300-400 paia di basi che sfrutterò come sonde per
catturare il DNA del mio campione. Per gestire queste sonde ci attacco degli
adattatori biotinilati perché questa biotina posso farla legare alla streptavidina che
riveste le biglie magnetiche e che io posso utilizzare per maneggiare le molecole
utilizzando delle basi magnetiche in modo da catturare solo le biglie magnetiche a
cui si sono attaccate le molecole di interesse e lavare via tutto il resto che invece
non si è attaccato.

La cattura vera e propria avviene così:


io ho costruito la mia library, utilizzo 2
microgrammi della mia library per far
sì che i suoi filamenti di interessi si
annilino alle sonde: con una prima
reazione faccio annilare dei blocking-
oligo ad uno dei due filamenti delle mie
molecole perché se ora denaturo il mio
DNA, lo mescolo insieme alle sonde, i

due filamenti delle molecole si


riconoscono e si attaccano tra
di loro invece di attaccarsi con
le sonde; quindi come prima
cosa denaturo e blocco uno
dei due filamenti attaccandoci
questi oligo che sono
complementari agli adattatori
agli indici. In questo modo
sono sicura che non si va a
riformare il doppio filamento,
ma che questo filamento rimane libero per attaccarsi alle sonde. Faccio
un’ibridazione che consiste quindi nella: denaturazione del DNA, blocco di uno dei
due filamenti e azzero i gradi in modo che il mio prodotto rimanga congelato e
attacco gli oligo; dopodiché metto in ibridazione, per due giorni e due notti a 65°
questo prodotto insieme alle sonde in una soluzione liquida, in un rotore, in modo
che le molecole vengano mescolate e quelle complementari alle sonde possano
incontrarle ed annilarsi ad esse.
Dopo catturo le sonde con le eventuali molecole attaccate con le biglie magnetiche,
purifico cioè lavo via tutto il resto, quantifico ancora una volta con una PCR
QUANTITATIVA tramite real time e osservo se effettivamente la cattura è andata a
buon fine: eventualmente, se la quantità non è sufficiente, faccio una PCR di
arricchimento sempre usando primer universali che si attaccano agli adattatori e
agli indici; dopodiché quantifico nuovamente con AGILENT BIOANALYZER e vedo
il profilo ottenuto. il profilo è analogo alla library di partenza, ma troverò una
quantità di DNA inferiore perché io ho catturato solo una porzione della mia library
e tutto il resto l’ho scartato.
Un altro vantaggio è che posso mettere più campioni in modo da risparmiare tempo
e denaro, cioè con un unico pool di sonde posso catturare più campioni insieme,
tanto poi li riconosco con gli indici. Poi
sulla base di questa quantificazione
fatta all’AGILENT decido anche quanti
microlitri di ciascun campione caricare
sul sequenziatore creando un pool di
sequenziamento in cui posso unire
campioni diversi in quantità equi
molari in modo che non competano
uno con l’altro, in modo da poter fare il
sequenziamento.

Creo un pool di più campioni in quantità equi molare, da caricare nel


sequenziatore: ci sono diversi tipi di sequenziatore dell’ILLUMINA ed hanno una
capacità di sequenziamento diversa, cioè posso metterci più o meno campioni a
seconda della capacità. Il DNA
del mio pool si annila alla
superficie della lane, cioè a
questa piattaforma che è
presente nel sequenziatore,
dove sono presenti delle
piccole sonde complementari
ad una parte dell’indice. Sulla
lane si effettua una PCR
chiamata BRIDGE PCR perché
le molecole si posizionano a
ponte, si forma il cluster, cioè
un insieme di molecole clonali
tutte identiche l’una con
l’altra, che sono frutto di
questa BRIDGE PCR e il fatto di creare questi cluster serve affinché il segnale
luminoso del sequenziatore sia sufficiente per essere letto dallo strumento, perché
se vado a sequenziare una sola molecola il segnale luminoso non è abbastanza
potente. Al termine della generazione di cluster avviene il sequenziamento vero e
proprio in cui, ad ogni ciclo, viene letta l’emissione di fluorescenza di ciascuna base.
Al termine di numerosi cicli avrò la mia sequenza e una cosa importante da tenere
presente è che il sequenziamento che generalmente viene fatto, prevede il
sequenziamento di entrambi i filamenti delle molecole. Alternativamente si può fare
un sequenziamento single end e in questo caso si sequenzia un singolo filamento
della molecola (e il cui kit costa meno), però nel DNA antico è importante eccedere
nell’informazione perché già la situazione di partenza è svantaggiata, quindi si
sequenziano entrambi i filamenti e li sequenziamo tramite un insieme di primer:
- un primo primer si attacca all’adattatore e legge il templato sul filamento
forward
- un altro primer di sequenziamento si attacca all’adattatore a valle del
templato e mi legge la sequenza dell’indice da associare
- un altro primer si attacca sul secondo filamento (reverse) su un adattatore
e mi legge il templato
- il quarto primer si attacca a valle del templato e legge il secondo indice che
assocerà alla lettura precedente.

Poi verrà fatta l’analisi delle sequenze con specifici strumenti bioinformatici.
17.11.2016

PRINCIPALI SOFTWARE CHE VENGONO UTILIZZATI PER L’ANALISI DELLE


SEQUENZE RECUPERATE DA REPERTI ANTICHI. (procedure di bioinformatica
che vengono fatte al prodotto dopo il sequenziamento, in maniera tale da poter
andare a ricostruire il genoma di interesse che può essere l’intero genoma nucleare
o il genoma mitocondriale).

Dopo le varie fasi di laboratorio, si passa al SEQUENZIAMENTO:


 Si va a preparare delle library e per libreria genetica si intende l’attacco
degli ADATTATORI alle estremità dei filamenti di DNA che voglio andare a
sequenziare, in particolare gli adattatori sono specifici per ciascun tipo di
sequenziamento che voglio fare, cioè sono specifici in base alla piattaforma
che voglio utilizzare, per cui avrò adattatori specifici per la piattaforma
ILLUMINA, che sono diversi dagli adattatori della ROCHE, che sono diversi
ancora da quelli della piattaforma SOLID. Quindi a seconda della
piattaforma che si decide di utilizzare, si vanno ad inserire, alle estremità
dei filamenti, degli adattatori specifici per quella determinata piattaforma.
Oltre agli adattatori, durante la costruzione della library,
contemporaneamente si inseriscono anche degli INDICI, cioè sequenze
specifiche per ciascun campione in modo tale che io possa far correre in
multiplexing più campioni all’interno della stessa corsa e grazie a questi
indici riesco esattamente ad associare la sequenza al rispettivo campione di
provenienza. Per cui la prima parte è la parte di PREPARAZIONE DELLA
LIBRARY.
 La parte successiva alla costruzione della library, è quella di andare a
costruire i CLUSTER di sequenziamento: si fanno sfruttando la bridge PCR,
e grazie a questa PCR particolare si vanno a creare delle molecole clonali,
quindi a partire da un filamento stampo si creano centinaia di migliaia di
molecole generate da questo frammento di partenza
 L’ultima parte è quella del SEQUENZIAMENTO: è un sequenziamento per
sintesi, cioè viene determinata l’esatta sequenza nucleotidica man mano
che si genera la catena a partire dal filamento stampo.

Andando nel dettaglio: il sequenziamento si svolge a partire da un vetrino: noi


utilizzeremo il sequenziamento su piattaforma ILLUMINA -> per questo tipo di
sequenziamento si utilizza un vetrino chiamato FLOW-CELL: è proprio come un
vetrino da microscopio ed è la piattaforma su cui avvengono tutte e reazioni
necessarie allo svolgimento del sequenziamento. La FLOW-CELL, a seconda del
modello di sequenziatore che si usa, può essere: divisa in tanti sotto-canalini
chiamati LANE, oppure può essere costituita da un’unica LANE. Quindi
l’alternativa non è un vetrino suddiviso, ma è un vetrino liscio e unico. Queste sotto
divisioni si chiamano LANE e una lane a sua volta è suddivisa in altre sotto regioni
che si chiamano TILE: il tile altro non è che una regione di spazio dove sono
ancorati dei primer di sequenziamento complementari agli adattatori che abbiamo
attaccato alle sequenze e sono quelli che danno l’avvio sia alla bridge PCR, sia al
sequenziamento vero e proprio. Il TILE inoltre è anche quella piccolissima regione
di spazio in cui viene rilevata l’immagine dalla CCD CAMERA: perché durante
l’avvio del sequenziamento si ha il rilascio di picchi luminosi in base al tipo di
fluoroforo e quindi in base al nucleotide che viene incorporato e questo picco
luminoso viene rilevato da una foto. Il tile è il pezzettino che di volta in volta viene
fotografato e scansionato. Ovviamente, come per le foto, maggiore è il numero di
TILE e migliore sarà la risoluzione dell’immagine, per cui più accurato sarà il
sequenziamento.
Le lane inoltre possono essere costituite o da 13 o da 19 TILE: di solito quello che
utilizziamo è quella da 19 tile in modo tale da avere un’altissima risoluzione
dell’immagine e quindi un’ottima lettura.

Cosa succede all’interno della FLOW-CELL quando avviene, prima di tutto, la


BRIDGE PCR?
La BRIDGE PCR serve per creare dei CLUSTER: sono un centinaio di migliaia di
molecole clonali derivanti da una molecola di partenza: è proprio esattamente come
quando si fanno crescere delle cellule in un terreno, un vero e proprio clonaggio.
La bridge PCR funziona proprio così: parte l’amplificazione di una molecola, inizia
la PCR con l’attacco dei primer e si ha l’inizio della sintesi della nuova molecola con
la differenza che qui, quando la sintesi della molecola TARGET è conclusa, la
molecola si piega, cioè fa un ponte, si attacca con l’estremità al primer
complementare sulla FLOW-CELL e riparte la sintesi.
Per cui si vengono a creare tutta una serie di ponti e alla fine avrò la generazione
del CLUSTER. Questa fase è molto importante perché è determinante per il
sequenziamento: se non si generano dei cluster abbastanza luminosi io non riesco
a fare un sequenziamento perché se ho poche molecole che rilasciano il segnale nel
momento dell’incorporazione del fluoroforo, la lettura sarà difficoltosa; se invece
avrò tante molecole che mi generano il segnale, avrò un segnale molto più intenso
che verrà letto in maniera molto più accurata dalla CCD camera. Per cui se la
generazione dei cluster non genera abbastanza molecole, io perdo il
sequenziamento: è molto importante che la BRIDGE PCR funzioni e che la
generazione di CLUSTER funzioni.
Allo stesso modo si può presentare anche il problema inverso: se io genero troppi
cluster perché ho messo troppe molecole all’interno del mio sequenziatore, ho
un’intensità luminosa talmente forte che lo strumento non riesce a discriminare
tra un cluster e l’altro per cui anche in questo caso il sequenziamento si blocca.
Questa è quindi una parte determinante al fine di ottenere un sequenziamento di
buona qualità.

Quindi la BRIDGE PCR viene fatta sulla FLOW CELL, ma fisicamente può avvenire:
all’interno di un SEA BOAT, cioè all’interno di uno strumento associato al
sequenziatore, ma a parte; oppure all’interno del sequenziatore stesso, in base al
tipo di sequenziatore che io utilizzo. Nei primissimi modelli, come nel primo
sequenziatore dell’ILLUMINA, si metteva la FLOW CELL all’interno di questo SEA
BOAT, che è una scatolina dove si infilava la FLOW CELL e avveniva la PCR; una
volta finita la PCR si toglieva la FLOW CELL dal SEA BOAT e si inseriva nel
sequenziatore e partiva il sequenziamento.
Negli ultimi modelli la BRIDGE PCR si fa direttamente all’interno del sequenziatore
e non c’è bisogno di fare trasferimenti.

Quindi ho creato i miei cluster delle giuste dimensioni e si può partire con il
sequenziamento: è un sequenziamento che avviene per sintesi utilizzando 4
nucleotidi, ciascuno dei quali è marcato con un fluoroforo di colore diverso; questi
nucleotidi, avendo il fluoroforo, una volta incorporati bloccano la sintesi, per cui
quando mando il primo ciclo si attaccano i fluorofori alla regione corrispondente,
ma poi la sintesi non può procedere perché il fluoroforo legato impedisce l’attacco
del nucleotide successivo. Per cui faccio partire il primo ciclo, si attaccano i
nucleotidi alla base corrispondente e a questo punto viene identificato dalla CCD
camera l’immagine, viene cioè fatta una foto dell’immagine e successivamente viene
associato a ciascun colore, la base corrispondente. Il sequenziamento inoltre può
essere di 2 tipi diversi:
1- Sequenziamento a SINGLE END
Uno dei metodi più semplice ed economico: un frammento viene sequenziato
soltanto partendo dal suo filamento in forward; per cui quello che ottengo è solo
una lettura per ciascun frammento. È il metodo più semplice che si può utilizzare
per fare un sequenziamento

2- Sequenziamento in PAIRED END


Il frammento in questo caso viene letto sia in forward sia in reverse: per cui quello
che si ottiene sono due letture per ciascun campione, una lettura corrispondente
alle reads forward (1) e una lettura corrispondente alle reads reverse (2). Questa
metodologia è più costosa, ma garantisce una migliore lettura del frammento, ma
anche un miglior mappaggio di queste reads. In particolare, grazie ad una lettura
di questo tipo, riesco a capire se ci possono essere stati eventuali errori di
sequenziamento, infatti se io ho solo una sequenza e durante il mappaggio
riscontro una variante, non so se quella variante è un errore di sequenziamento
oppure se effettivamente è una variante del campione; se invece ho entrambe le
letture e quella variante la ritrovo sia su R1 che su R2, ho una maggiore certezza
che la variante sia endogena e non legata ad un errore di sequenziamento.
Inoltre si va a migliorare anche la qualità del mappaggio: in questo modo posso
andare ad identificare con maggiore precisione i vari riarrangiamenti genetici come
possono essere le delezioni, le inserzioni o altre varianti genetiche.
Per quanto riguarda la POTENZA DI SEQUENZIAMENTO, in commercio esistono
diverse tipologie di sequenziatori ILLUMINA che si selezione in base a quello che
deve fare: più aumenta la potenza del sequenziatore, più aumentano i costi.
Il primo sequenziatore, GENOME ANALYZER, è ormai dismesso perché è scomodo
fare la bridge PCR in un altro strumento e perché per ottenere risultati ci volevano
11 giorni. La lunghezza del sequenziamento era dovuta al fatto di dover rilevare
accuratamente l’immagine per cui la CCD camera che scorreva sulla FLOW CELL
lo faceva in maniera così lenta che per completare il sequenziamento ci volevano
11 giorni. Adesso sul mercato ci sono diversi modelli, ognuno con un OUTPUT
diverso, cioè ognuno con una potenza di sequenziamento variabile: si va dal più
semplice in cui si hanno al massimo 25 milioni di reads, si passa poi al MY SEC
che ne può produrre fino a 28 milioni, fino ad arrivare al HIGH SEC X SERIE che
può produrre fino a 6 miliardi di reads. Quindi in base alla tipologia di studi che
vogliamo fare, si utilizza un sequenziamento piuttosto che un altro. Per l’analisi sul
genoma mitocondriale, visto che è piccolo, si utilizza il MY SEC perché grazie alle
sue 25 milioni di reads generate, è più che sufficiente per ottenere le letture relative
ai mitocondri. Se invece si deve mappare il nucleare si utilizza o il MY SEC o l’HIGH
SEC perché sul nucleare abbiamo bisogno di una maggiore potenza di
sequenziamento.

Cosa si può fare sul DNA antico?


Per quanto riguarda il DNA antico si possono affrontare diverse tipologie di studio
partendo sempre dalle LIBRARY, possiamo: o andare a fare un arricchimento, cioè
selezionare all’interno della LIBRARY solo i pezzi di genoma che ci interessano,
oppure si può fare uno SHOTGUN. Tendenzialmente per il DNA antico fare uno
shot gun, cioè sequenziare direttamente le library a partire dall’estratto, non è
conveniente perché è stato visto che all’interno di un campione antico la % di DNA
endogeno è molto molto bassa, nei casi più fortunati può aggirarsi intorno al 5%
del totale, quindi il 95% delle reads sono di origine esogena, cioè provengono da
contaminazioni ambientali, soprattutto funghi e batteri, e quindi fare lo SHUTGUN
è poco conveniente perché butto via la maggior parte delle reads che ottengo.

Quindi si va a selezionare solo le molecole che ci interessa studiare e queste


possono essere: o catture sul DNA mitocondriale, per cui utilizzerò delle sonde
specifiche per il DNA mitocondriale, oppure andare a selezionare degli snip del DNA
nucleare.
1)Per la prima parte, se voglio fare uno studio sul DNA nucleare, la potenza di
sequenziamento di cui ho bisogno non è così elevata, mi serve cioè un
sequenziamento di medie dimensioni per cui utilizzerò come strumentazione o il
MINI SEC o il MY SEC e inoltre, all’interno della stessa corsa, posso andare a
mescolare e quindi sequenziare insieme fino a 45 campioni.
2) per quanto riguarda lo SHOT GUN o la cattura sul DNA mitocondriale ho bisogno
di una profondità di sequenziamento decisamente maggiore, per cui andrò ad
utilizzare della strumentazione più potente, quindi l’HIGH SEC e in questo caso
multiplexerò un minor numero di campioni massimo fino a 20, altrimenti non
riesco ad avere un buon bilanciamento tra risultato e coperture. In ogni caso, che
io abbia bisogno di un sequenziamento molto profondo o meno, le caratteristiche
del sequenziamento devono essere sempre le stesse:
- devo fare un sequenziamento in PAIRED END, perché posso ricostruire in
maniera più accurata il frammento che ha dato origine alla lettura
- devo usare kit in grado di sequenziare frammenti corti, proprio perché il DNA
antico è costituito prevalentemente da questi ultimi, per cui vado a selezionare solo
e soltanto quel numero di basi sufficienti a sequenziare i miei campioni
- durante il settaggio dello strumento, imposto una voce per cui NON deve essere
fatto il taglio degli adattatori: questa fase è piuttosto importante perché gli
adattatori mi danno fin da subito una misura della lunghezza dei frammenti che
sono andata a sequenziare. Infatti se ci si immagina un frammento di medie
dimensioni, lungo circa 50 paia di basi, devo usare un kit da 75 paia basi, quindi
significa che il mio kit mi riesce a sequenziare fino a 75 paia di basi, e avrò: tutto
il frammento sequenziato + 15 paia di basi dell’adattatore. Questo significa che se
io ritrovo l’adattatore sequenziato all’interno delle mie reads, ho già una misura del
fatto che ho sequenziato molecole corte, proprio perché finita la molecola, il
sequenziamento è proceduto sull’adattatore. Per cui impostare di non fare il taglio
degli adattatori e quindi rilevare, all’interno delle mie molecole la presenza di tutto
o parte dell’adattatore, già mi dà una informazione sulla dimensione dei frammenti.

[Alla fine del mio sequenziamento avrà una grandissima quantità di dati da dover
gestire: nel caso del MY SEC per esempio ci si trova davanti a 28 milioni di reads.
Prima delle NGS la maggior parte dei costi erano legati proprio al
SEQUENZIAMENTO. con lo sviluppo delle NGS i costi si sono sposatati: forte
riduzione dei costi di sequenziamento, ma si è avuto un incremento esponenziale
dei costi per lo stoccaggio dei dati e per la ricostruzione bioinformatica delle
sequenze. Questo par capire come nel corso degli anni c’è stato uno shift da costi
di laboratorio abbastanza importanti legati al sequenziamento, fino all’era dell’NGS
in cui la parte più sostanziosa è legata allo stoccaggio e quindi alla gestione del
dato].

PARTE BIOINFORMATICA:

prima dello sviluppo delle NGS le analisi bioinformatiche erano relativamente


semplici e veloci, sia perché per ciascuna corsa si poteva sequenziare un solo
campione, per cui nella migliore delle ipotesi arrivavano 10 sequenze quindi era
facile gestirle.
PER ESEMPIO: il sequenziamento di Sanger è un elettroferogramma e il primo dato
grezzo che usciva dal sequenziamento era un elettroferogramma, cioè l’esatta
sequenza nucleotidica del frammento amplificato e sequenziato con i rispettivi
picchi di chiamata -> ogni colore ha una base, ogni picco è una chiamata e l’altezza
del picco è proporzionale all’intensità del segnale, per cui maggiore è l’altezza del
picco, più sicura è quella chiamata perché significa che ha dato un forte segnale
luminoso per cui non posso essermi confusa sulla chiamata. Quindi una volta
guardato l’elettroferogramma e una volta visto che non c’è stato errore di
attribuzione tra picco e chiamata, si andava ad esportare questo formato in un
formato FASTA, cioè un file che ha come primo simbolo il “>” a cui fa seguito il
nome della sequenza e altre informazioni relative che uno può aggiungere o meno
al sequenziamento. Poi a seguire l’esatta sequenza nucleotidica esportata
dall’elettroferogramma. Una volta esportata la sequenza si andava ad allineare
contro un genoma di riferimento, utilizzando uno di questi software di allineamento
e alla fine si andava a fare l’assemblaggio e la ricostruzione della sequenza
consenso ottenuta da quel campione, sempre in formato FASTA. Per cui vediamo
che le analisi bioinformatiche erano relativamente semplici.

Con l’avvento delle NGS la situazione si è complicata: prima di tutto perché devo
gestire una gigantesca mole di dati che non è più una sola lettura per ciascun
campione, ma sono migliaia di letture per ciascun campione. Quindi la primissima
fase, indispensabile prima di iniziare la ricostruzione del frammento è:
EFFETTUARE IL DE-MULTIPLEXING, ovvero siccome all’interno di una stessa
corsa si possono mescolare più campioni, io devo associare le mie reads al
campione di provenienza. Questa associazione READ-CAMPIONE DI
PROVENIENZA si chiama DE-MULTIPLEXING e viene fatta da due software che si
trovano all’interno dello strumento, quindi questa parte qui la fa ancora il
sequenziatore. I software che il sequenziatore utilizza sono CASABA e nel caso del
MY SEC, quello che si chiama il REPORTER SOFTWARE. Oltre a questi due
software che sono fondamentali per il DE-MULTIPLEXING, io ho bisogno anche di
2 FILE DI INPUT:
 uno è un file BCL (binary base call): la chiamata di ciascuna base, quindi
effettivamente la sequenza nucleotidica, ma non scritta per esempio ATCG
come la vediamo di solito, ma scritta in termini binari; quindi si tratta del
dato quasi grezzo dello strumento, perché il dato più grezzo che si ottiene è
l’immagine, cioè le foto dei pallini luminosi.
 Ho anche bisogno del SIMPLE SHEET: ha un formato EXCEL, in cui nella
prima parte ci sono le informazioni legate agli esperimenti che stiamo
facendo, per cui c’è il nome dell’operatore, il progetto, la data di
sequenziamento ecc. poi c’è una sezione in cui è riportata l’informazione
legata alle reads, cioè alle letture che voglio ottenere; per cui ci sono scritti
il numero dei cicli utilizzati e il numero degli indici, cioè 2.
 Infine sono riportate le informazioni che sono indispensabili per fare il DE-
MULTIPLEXING: per cui dal software viene letto il nome del campione e gli
indici associati a questo campione, per cui, facendo questa associazione,
NOME DEL CAMPIONE-INDICI, lui riesce ad associarmi a ciascun
campione le reads che portano quegli indici. Per cui se sbaglio a fare il
SIMPLE SHEET confondo tutti i campioni -> è molto importante la
compilazione di questa scheda.
Fornisco tutte queste
informazioni allo strumento, lo
strumento fa le varie associazioni
e crea dei file: sono file in formato
FAST-Q e all’interno sono
riportate le sequenze e le letture
associate a quel campione. Il
formato FAST-Q è un formato in
cui nella terza riga c’è
effettivamente l’esatta sequenza
nucleotidica, mente nella prima
riga c’è il QUALITY SCORE, cioè la
qualità di quella chiamata: per questo il file si chiama FAST-Q dove q sta per
quality. Per cui è un file in FASTA a cui, a ciascuna base, è associata la qualità di
chiamata -> più alta è la qualità di chiamata, migliore sarà quella base, cioè più
affidabile sarà quel dato in quella determinata posizione.
Oltre a queste due informazioni, che sono anche le più importanti di un file in
FastQ, ci sono altre due linee: una dove ci si possono mettere le informazioni
opzionali e un’altra linea nel mezzo che inizia con la @ dove c’è il nome dello
strumento che è stato utilizzato e le coordinate del cluster sulla FLOW CELL da
dove proviene quella lettura. Questo è il formato in FAST-Q, cioè quello che ottengo
dal DE-MULTIPLEXING.
Per ciascun campione ottengo due file: uno è quello dove sono elencate tutte le
sequenze in forward e l’altro è quello dove ci sono tutte le sequenze in reverse e
sono quelle che si chiamano R1 e R2, questo perché impostiamo un
sequenziamento in PAIRED END. Queste informazioni inoltre vengono restituite in
formato compresso perché un file venuto bene è in media di 150 mega, per cui è
pesante e quindi non si apre mai. Quindi là dentro ci troviamo a gestire centinaia
di migliaia di letture per ciascun campione.

Una volta ottenuti questi file li devo trattare in modo tale che alla fine possa
ricostruire solo ed esclusivamente la sequenza consenso del campione:
 Si fa una operazione che prende il nome di ADAPTER TRIMMING: procede
di pari passo con il MERGING e può essere fatta sfruttando diversi
software. Prima però si era detto allo strumento di NON fare l’ADAPTER
TRIMMING, adesso però lo devo fare io perché ho già visto che le molecole
hanno l’adattatore, quindi adesso quest’ultimo non mi serve perché mi
serve la sequenza target che sta al centro degli adattatori. Quindi inserisco
nella linea di comando le sequenze degli adattatori e gli dico di rimuoverle,
contemporaneamente però gli dico di conservare soltanto quelle molecole
che hanno sequenziato tutto o in parte l’adattatore perché se gli dico di
conservare tutte le molecole, anche quelle senza adattatore, è altamente
probabile che conservi anche delle molecole derivanti da DNA
contaminante. Ma se la molecola si trova al limite e io dell’adattatore ho
sequenziato 3 o 4 paia di basi? La perdo, meglio perdere un po' di
informazione che averne troppa ridondante di non buona qualità.
 Una volta fatto il TRIMMING degli adattatori, vado a ricostruire il
frammento di origine che deriva dal sequenziamento del filamento in
forward e del filamento in reverse. Quindi come faccio?

Prendo i due file, quello dell’R1 e quello dell’R2, e il software riesce ad associare
esattamente le due reads provenienti dallo stesso frammento grazie a questa linea
di comando del FAST-Q dove, oltre al nome dello strumento usato per il
sequenziamento, anche le coordinate del cluster sulla FLOW CELL. L’unica cosa
che cambia in questa linea di comando è il read identifier, e questo mi serve per
identificare l’R1 e l’R2. -> Con il MERGING vado a ricostruire, quindi vado ad unire
R1 e R2 fino a ricreare il filamento di origine di queste due reads. In questa fase
imposto alcuni parametri: al software dico che deve tenere soltanto quelle reads
che abbiano un OVERLAP durante il MERGING di almeno 11 paia basi: questo
significa che questa caratteristica sarà ottenuta soltanto per quei frammenti di
origine che non sono più lunghi di 142 paia basi. Perché se R1 è 76 paia basi e l’R2
è 76 paia basi e questa regione R1-R2 sequenziata ha una sovrapposizione di 11
paia basi, significa che il frammento di origine è inferiore alle 142 paia basi. Quindi
cade perfettamente all’interno delle dimensioni medie dei frammenti di DNA
antichi.
Al contrario alla macchina diciamo che, se questo OVERLAP di almeno 11 paia di
basi fra R1 e R2 non c’è, allora queste reads devono essere scartate perché questo
significa che sono frammenti troppo lunghi, in questo caso se sia R1 che R2 sono
di 76 paia basi, ma non si incontrano e non si sovrappongono per un certo numero
di paia basi, significa che derivano da un frammento troppo lungo che va oltre le
142 paia di basi e che quindi verosimilmente deriva da un frammento che non è
endogeno del campione, ma che potrebbe essere un frammento contaminante.
Altra cosa che imposto allo strumento è la LUNGHEZZA MINIMA: gli dico di
scartare le sequenze più lunghe di 142 paia basi, ma allo stesso tempo gli dico
anche di scartare le sequenze più corte di 30 paia basi. Perché? una sequenza più
corta di 30 paia basi potrebbe verosimilmente mappare ovunque, quindi in più
parti dello stesso genoma per esempio mitocondriale oppure anche in genomi
diversi perché la dimensione è troppo breve per essere discriminante. Quindi è stato
visto che la lunghezza minima per avere un accurato mappaggio è di 30 paia basi,
per cui imposto anche un limite minimo di lunghezza. Per cui quando si fa il
MERGING, quello che si otterrà nel file finale, saranno tutte quelle READS da cui
saranno escluse:

 Tutte quelle con gli adattatori


 Le reads più lunghe di 140 paia di basi perché derivano da contaminanti
 Le reads più corte di 30 paia basi perché verosimilmente potrebbero
mappare in più parti del genoma o in più genomi diversi.
Dopo questa prima fase avrò quindi un prodotto sotto forma di file in FAST-Q, ma
ripulito in cui ci sono solo le reads che rispettano questi filtri.
Adesso possiamo passare al MAPPAGGIO o ALLINEAMENTO: grazie a questa
procedure riesco a determinare esattamente la regione corrispondente di quella
reads su un genoma di riferimento. Questa procedura è abbastanza complicata ed
è determinata da diversi fattori: dalla lunghezza delle reads, infatti per il DNA antico
il mappaggio è una fase piuttosto complicata perché è difficile trovare l’associazione
precisa quando le reads sono molto corte e ovviamente più lunga è la read, più è
facile trovare la regione corrispondente: una lettura lunga 1000 paia basi può
mappare solo in un posto perché trovare una corrispondenza in un’altra parte di
1000 paia basi è quasi impossibile. Per cui dipende sia dalla lunghezza delle reads,
ma anche dalla variabilità presente all’interno della popolazione che stiamo
studiando, dagli errori di sequenziamento ecc. sono stati sviluppati nel corso del
tempo, diversi algoritmi per il mappaggio, ma tendenzialmente se ne trovano 2:
HASH TABLE BASED ed è l’algoritmo un po' più antico, quello più moderno invece
si chiama BTT. Grazie al prodotto finito di questo algoritmo, in cui si riesce a trovare
l’esatta corrispondenza della mia read sul genoma di riferimento facendo una serie
di prove e di incastri, cercando di fare anche forward e reverse incrociandoli, il
software riesce a trovare il mappaggio con il più alto quality e il file di output è un
file in formato SAM: all’interno di questo file vengono salvate tutte le reads, non
viene scartato niente.
Come faccio a distinguere quelle che mappano da quelle che non mappano?
Semplicemente perché nel formato SAM ci sono una serie di colonne che mi
indicano la qualità di mappaggio, la posizione del mappaggio e se una reads mappa
o non mappa. In questo file SAM le sequenze ci rimangono tutte, ma per ognuna si
ha l’associazione di una linea particolare di comando e di un simbolo particolare
che mi determina la condizione di mappaggio di quella reads: se mappa o non
mappa, dove mappa e la qualità del mappaggio. Più di recente, a partire dal file
SAM, è stato prodotto il file BAN: altro non è che la versione compressa del SAM.
La messa a punto di questo file è stata resa possibile grazie al progetto 1000 genomi
in cui si è avuto come scopo la tipizzazione del genoma nucleare in 1000 individui
che rappresentano la variabilità mondiale, quindi per ovviare alla pesantezza del
file SAM, hanno trovato un modo di convertire l’informazione SAM, comprimerla e
creare un file BAN. Adesso abbiamo quindi un formato più compresso all’interno
del quale ci stanno esattamente le stesse informazioni del file SAM.

A questo punto sorge un problema, se per esempio voglio lavorare su un genoma


mitocondriale, mi trovo a dover lavorare su un genoma circolare: i genomi circolari
hanno il problema che quando si va a fare il mappaggio ho dei problemi perché non
si può mappare su qualcosa di tondo, il genoma deve essere aperto. Per cui, se il
genoma sia mitocondriale che batterico, deve essere aperto viene aperto: se le reads
mappano nel punto di rottura ho un mappaggio molto stringente come quello di
BVA, le reads che cadono nel punto di rottura il software le scarta perché non
rispettano tutti i filtri di mappaggio. Questo significa che in questo punto, cioè nel
punto di apertura del genoma per il mappaggio, le mie reads vengono tutte scartate
per cui questa regione non è coperta -> io perdo informazioni in quella regione e
questo non è accettabile. Allora gli studiosi di DNA antico si sono impegnati per
risolvere questo problema:
la prima soluzione a questo problema si è trovata con un software che si chiama
MIA (map interactive assembler) che è stato prodotto durante la ricostruzione e
l’analisi del DNA mitocondriale di neandertal, in cui è stato ovviato a questo
problema riducendo l’affidabilità del mappaggio; per cui loro dicono che sì hanno
un mappaggio meno stringente, ma almeno conservano l’informazione di quella
regione. In questo modo però perdo di qualità nel mappaggio in generale. Allora è
stato messo a punto un altro software che è il CIRCULAR MAPPER e si trova
all’interno di un pacchetto software che agisce in 3 step:
 Crea un genoma di riferimento fasullo che è più lungo di 500 paia basi a
destra e a sinistra, per cui se ho un mitocondrio aperto e lungo 16569 paia
di basi, artificialmente questo mitocondrio viene esteso di due pezzi
entrambi da 500 paia di basi, per cui artificialmente creo una sequenza di
riferimento più lunga dove alle estremità sono ripetute: all’estremità destra
le basi della sinistra, e all’estremità sinistra le basi dell’estremità destra.
Così facendo vado a mappare in maniera stringente tutte le mie molecole e
quelle che in passato venivano flaggate come ambigue o non mappanti, in
questo caso le riesco a mappare perché questa read che mi starebbe fuori
da un lato, mi mappa sull’altro lato. È un artifizio che viene utilizzato per
conservare l’informazione che è a cavallo del mio punto di rottura del
mitocondrio che altrimenti si perderebbe.
Quando si vanno a studiare dei genomi circolari è bene non utilizzare BVA,
ma CIRCULAR MAPPER che è più preciso per ovviare al problema della
circolarità del mitocondrio.

Quindi abbiamo mappato, abbiamo scelto BVA o CIRCULAR MAPPER in base alle
nostre esigenze, ora però dobbiamo fare un altro passaggio che mi ripulisca il mio
file, cioè la RIMOZIONE DEI DUPLICATI.
Sicuramente si procede con la PCR: questo significa che quando andiamo a fare il
mappaggio può venire fuori una situazione in cui per esempio ho delle reads che
hanno una certa variante e mappano in una certa regione del genoma; queste
molecole non sono altro che prodotti di PCR, cioè prodotti che creano una
ridondanza di informazione che può creare dei falsi positivi perché queste molecole,
derivando dalla stessa molecola di partenza, possono essere tranquillamente
collassate in una sola molecola. Avere tutti questi duplicati di PCR mi può portare
a dei falsi positivi: io per esempio do per certa una variante perché la ritrovo in 400
molecole, ma in realtà se quelle 400 molecole sono il prodotto di una unica, mi
creano un falso positivo. Quindi per ovviare a questa problematicità:
vado a togliere i duplicati di PCR e per farlo ci sono vari software. Uno di questi è il
SAME TOOLS REMOVE DUPLICATE: con SAME TOOLS vengono rimossi i
duplicati sulla base del fatto che le reads presentano esattamente le stesse
coordinate iniziali della molecola. Quindi ho che due frammenti partono dalla
stessa posizione, quindi hanno esattamente le stesse coordinate di inizio, quindi
per SAME TOOLS sono la stessa molecola, e li elimina, cioè toglie tutte e due queste
molecole e le collassa in una unica. In realtà non è detto che se due molecole hanno
le stesse coordinate di inizio siano lo stesso frammento: probabilmente una deriva
da una molecola più lunga e una da una molecola più corta, quindi se utilizzo
SAME TOOLS, perdo quella parte di informazione.
Allora è stato sviluppato un altro software: DELOOP che si trova sempre all’interno
del pacchetto software IGOR, che per rimuovere i duplicati prende come
riferimento, non solo la posizione di inizio, ma anche la posizione di fine della
molecola. Per cui nel caso di DELOOP le due molecole che prima venivano eliminate
da SAME TOOLS, ora vengono conservate -> ho una maggiore preservazione del
dato.

A questo punto abbiamo fatto il mappaggio, abbiamo ripulito dai duplicati, ora vado
a visualizzare il mappaggio: per farlo si possono utilizzare diversi software che si
chiamano ALIGNMENT VIEWER che sono dei visualizzatori dell’allineamento.
Anche di questi ce ne sono tanti: TABLET ecc. e anche in questo caso non ce n’è
uno migliore dell’altro, per cui si può scegliere quello con cui ci si trova meglio
graficamente. Nei risultati che si ottengono si vede:
 la posizione del mappaggio, per cui se io mappo tutte reads presenti
sull’HG19, cioè sul genoma di riferimento umano e sono tutte reads che
derivano dal mitocondrio, avrò come visualizzazione la scritta CHRM perché
sull’HG19 il mitocondrio è classificato con la sigla CHRM.
 La reference: cioè il genoma di riferimento
 Nel mezzo avrò le reads che mappano
Per cui se vado a vedere nel dettaglio le mie reads analizzate con i software, troverò
soltanto reads non più corte di 30 paia basi e non più lunghe di 142 paia di basi e
si presentano tutte allineate una sotto l’altra, in base alle regioni dove mappano.

Altre due cose che si possono visualizzare nel mappaggio:

 Snip: variante rispetto al genoma di riferimento, infatti sulla reference c’è


una A, mentre sul campione c’è una G.
 Depth coverage: il coverage è il numero di volte che la regione di interesse
è stata sequenziata, per cui mi indica quante volte quella posizione è
coperta. Il coverage è dato dal:
THROUGHTPUT
LA DIMENSIONE DELLA REGIONE DI
INTERESSE.
Il primo è inteso come il numero di basi mappanti, si calcola infatti solo quelli e
non si deve considerare il troughtput totale delle reads grezze, ma solo di quelle
che mappano fratto la dimensione della regione di interesse.
Per esempio: nel caso di uno studio del DNA mitocondriale ottengo questi valori per
due campioni. Per il campione A, dopo tutte le operazioni, ottengo 500.000
nucleotidi mappanti; mentre per il campione B ottengo 18.000 basi mappanti. Per
cui il coverage si calcola:
per il campione A:
500.000 / 16.569 paia di basi (dimensione del mitocondrio umano) = 30, …
Questo significa che mediamente ogni nucleotide è coperto da almeno 30 letture e
questo è un buon risultato perché se ho almeno 30 letture per ogni nucleotide, vuol
dire che la base che vado a chiamare nella sequenza consenso è piuttosto accurata.
Per il campione B faccio la stessa cosa:
18.000/16.569 = 1, … quindi il risultato non è buono e scarto il campione. Questo
significa che ogni nucleotide è coperto mediamente una volta, per cui con una sola
lettura non posso essere certa della base che viene chiamata perché può essere un
errore di sequenziamento o una misincorporazione, quindi questo campione lo
scarto.
Quindi già con il coverage ho un’idea di quanto può essere sicura la mia
sequenza consenso che ottengo alla fine.

SEQUENZA CONSENSO
Una volta che ho fatto i mappaggi devo in qualche modo sintetizzare tutte le
informazioni in un file che sia utilizzabile, quindi devo concentrare tutta
l’informazione in dei file che siano utilizzabili anche per le successive fasi di analisi
di genetica di popolazione. Ci sono essenzialmente due formati:

VCF file: VARIANT CALL FORMAT che si può ottenere con vari software tra cui
anche SAME TOOLS ecc. questo file è un file in cui vengono conservate soltanto le
informazioni relative ai polimorfismi e alle varianti. Per cui avrò informazioni e avrò
riportato in questo file soltanto quelle posizioni che sono variate rispetto alla
reference: le posizioni identiche alla reference non vengono scritte. In questa prima
parte del file (file in txt), ci sono le meta-informazioni, cioè le informazioni relative
al campione che stiamo analizzando, mentre nella DATA LINES (sotto) ci sono le
informazioni relative ai polimorfismi. Per cui nella prima riga abbiamo indicato il
numero del nucleotide sul genoma, per esempio il nucleotide nella posizione 16.569
del mitocondrio, poi in un’altra colonna è riportato il nucleotide presente sulla
reference in un’altra colonna ancora c’è il nucleotide riportato nel nostro campione,
quindi qui ci saranno solo le posizioni variate. Questo VCF file si utilizza quando si
vanno ad analizzare soprattutto genomi completi umani, per esempio genomi molto
grossi, perché è molto più semplice andare ad identificare solo la variante, piuttosto
che 3 miliardi di paia di basi.

FASTA: si utilizza quando invece si va a studiare genomi piccoli, per esempio quelli
batterici o mitocondriali, e si va a ricreare la sequenza consenso. Quindi la
sequenza consenso è conservata in un file FASTA (con il simbolino > all’inizio), e
nella sequenza consenso sono riportate esattamente tutte le posizioni che ho
ottenuto. per cui se vado a studiare il mitocondrio, nella sequenza consenso avrò
16.569 paia di basi sia che siano esse identiche alla reference, sia che siano variate.
Quindi quello che conservo qua dentro è TUTTA l’informazione, mentre nel VCF file
conservo solo l’informazione legata alle varianti.
Quando vado a creare una sequenza consenso, che sia con l’uno o con l’altro tipo
di file, come la creo? Come faccio a sapere che in quella posizione c’è esattamente
una variante o c’è una reference? O c’è una base identica alla reference?
Lo faccio andando a vedere come sono distribuiti i nucleotidi nel mio mappaggio:
ci sono dei software che fanno le chiamate, non è che mi metto a vedere tutte le
reads e a fare la chiamata. Utilizzo quindi dei software particolari: per il DNA antico,
dove i parametri devono essere molto più stringenti, proprio perché ho molecole
corte e danneggiate, utilizzo un aggiornamento del software GATIC che è sempre
fornito all’interno della piattaforma IGOR e lo imposto con questi particolari filtri.
Si imposta che:
 Una chiamata venga effettuata SE e SOLO SE ho almeno 5 reads che mi
coprono quella base, quindi al di sotto delle 5 reads non faccio la chiamata,
ma metto una indeterminata, cioè una (N) = nomenclatura IUPAC che
indica un sito in cui non ho chiamata.
 Se tutte e 5 (come minimo) le reads che ho portano un nucleotide come la
reference, chiamo ovviamente la reference, significa cioè che in quella
posizione non c’è variazione. In questo caso per esempio ho 4 reads che
portano il nucleotide come la reference e 2 che invece portano la variante,
quindi cosa chiamo? NON chiamo la variante perché per chiamarla deve
essere presente almeno nel 90% delle reads presenti, quindi la variante la
chiamerò quando ho 5 reads in un modo e solo una diversa.
 50-50: metà portano un nucleotide e metà un altro, per esempio metà
portano la A e metà portano la G: cosa chiamo in questo caso? Non si sa
quindi in questo caso ci metto una (R) che nella nomenclatura IUPAC
significa una indeterminazione tra due nucleotidi, in particolare indica una
indeterminazione tra G e A, mentre per l’indeterminazione tra C e T si
utilizza la (Y). Per cui quando vado ad aprire la mia sequenza consenso
generata da GATIC e vedo che in quella posizione c’è la R, vado ad aprire
l’allineamento, ricerco la posizione ed effettivamente vedo che 50% delle
reads portano una variante e 50% ne portano un’altra.

Alla fine la mia sequenza consenso viene ricostruita esattamente, utilizzando


parametri che sono molto stringenti -> questo vale per il DNA antico perché ho
l’esigenza di essere molto conservativa perché nella maggior parte dei casi quelle
che potrebbero essere varianti non lo sono, ma sono misincorporazioni o lesioni
post-mortem che la molecola ha subito, per cui devo essere molto conservativa e
stringente nel ricreare la sequenza consenso.

22.11.2016

Ottengo dalle Reads uscite dal sequenziatore la sequenza consenso: sequenza


unica in cui sono racchiuse tutte le informazioni derivanti dalle reads del campione
preso come oggetto di studio.
Voglio sapere però se la sequenza consenso del DNA che estraggo è contaminata o
meno. Quindi escludo i contaminanti ambientali nel momento in cui vado a fare
un mappaggio, questo perché le Reads non mappano nelle sequenze consenso
umane, ciò non toglie però che possano essere mappate sequenza di DNA umano
moderno anziché antico.

Dobbiamo capire se la sequenza consenso ottenuta deriva da DNA esogeno od


endogeno del campione. Come si fa?

Nella pre next generation sequencing: si cercavano di prevenire le


contaminazioni attraverso una serie di “Golden Criteria” ovvero comportamenti di
laboratorio che mi riducessero al minimo l’apporto di contaminazioni.
1) Suddivisione tra DNA pre-amplificazione effettuata in un’area sterile in cui le
molecole non vengono amplificate;
2) Abbigliamento adeguato e pulizia delle superfici, rese sterili tramite raggi UV;
3) Inserire dei controlli negativi per ogni passaggio: cosa sono i controlli negativi?
Provette in cui ci sono inserite tutti i reagenti usati durante le fasi sperimentali
eccetto DNA per cui se trovo positività nei controlli negativi vuol dire che il DNA
sarà contaminato perché lo erano i reagenti;
4) Riproducibilità del dato: una volta ottenuta sequenza consenso veniva spedito il
campione in un altro laboratorio per vedere se la sequenza consenso risultante
fosse identica all’altra;
5) Clonaggio batterico dei prodotti di PCR ovvero una volta amplificata non veniva
direttamente sequenziata, ma ogni molecola dell’amplificato veniva inserita in un
batterio e clonata per cui alla fine si sequenziava il prodotto degli ampliconi, quindi
avevamo sequenza derivante da una singola molecola presente nel prodotto
dell’estratto e clonato più volte. Si andavano ad allineare gli ampliconi e se la
variante veniva ritrovata su tutti gli ampliconi era considerata endogena, quando
c’era discordanza tra le varianti rinvenute erano considerate derivanti da più
sostanze biologiche e quindi scartate.
Nell’era NGS: ci sono tutta una serie di parametri che mi danno un’idea precisa
dell’apporto o meno dei contaminanti.
1) Studio della distribuzione della dimensione dei frammenti: distribuiti tra 30 e
140 paia di basi perché imposto dei filtri in modo da scartare sequenze più corte di
30 e più lunghe di 140 perché si ha più probabile presenza di contaminanti.
Osservando la dimensione dei frammenti delle Reads mi faccio un’idea generale (se
la lunghezza media dei miei frammenti è spostata verso le 140bp mi viene da
pensare perché per essere antichi sono piuttosto lunghi, anche se non è per forza
correlato). Mediamente la dimensione dei frammenti antichi si aggira attorno alle
50-60 paia di basi per cui se osservo un pattern di questo tipo mi posso aspettare
che le mie reads siano autentiche e quindi mi possono dare un’idea delle sequenze
del campione.
2) Pattern di misincorporazione all’estremità dei filamenti. Durante la
frammentazione il DNA si rompe e i
nucleotidi alle estremità dei frammenti
a singolo filamento sono più esposti a
degradazione  c’è una correlazione tra
frammentazione (e quindi antichità del
reperto) e pattern di misincorporazioni
(si osservano le transizioni C-T quindi
nel filamento complementare G-A).
maggiore è la frammentazione, e quindi
l’antichità, maggiore è la sostituzione.
Quindi nelle molecole antiche avrò alta
frequenza di C-T, più bassa nelle
molecole moderne. Studiando quindi le
misincorporazioni posso vedere se i
frammenti sono antichi o moderni.
Questo studio si effettua tramite un software detto Map Damage, grazie al quale
posso mappare ed identificare i pattern di misincorporazione presenti all’estremità
dei filamenti. L’imput del software è
costituito dalle Reads ripulite e mappate,
se il pattern è corretto sarà corretta anche
la sequenza consenso perché deriva dalle
stesse Reads.

3) ContamMix: analisi che si basa su delle stime che i consente di stimare appunto
la proporzioni di reads autentiche da quelle contaminanti. Due file di imput: A) le
reads che vengono mappate contro la sequenza consenso (reference) ottenuta del
campione; B) un altro file di imput usato per questo script è un allineamento
costituito da 311 mitocondri umani che rappresentano la variabilità umana. Sono
mitocondri ricostruiti appositamente in modo da inserirvi tutta la variabilità umana
presente, quindi avrò tutti i polimorfismi più rappresentati nella popolazione
umana. Utilizzando il software confronto le sequenze consenso e le reads per cui
alla fine saprò quale reads mappano meglio sulla sequenza consenso (e quindi che
la mia contaminazione è bassa) o sulle 311 umane, sulla variabilità umana (e
quindi probabilmente derivano da contaminanti). Quindi col software si può capire
se la mia sequenza consenso è più probabile che derivi da una sola sorgente
biologica (dal mio campione) piuttosto che da più sorgenti biologiche e quindi
contaminanti. Se il valore di autenticità che trovo si avvicina a 1 è probabile che il
mio campione non sia contaminato.

Riassumendo: quando ho una sequenza consenso se mi deriva da frammenti corti,


frammenti che presentano alta frequenza di transizioni all’estremità dei filamenti e
se la proporzione dei contaminanti è superiore al 94% (valore soglia) allora il mio
campione è autentico e posso usarlo per studi successivi.

Se il mio campione è contaminato eseguo un’analisi tramite uno di due software


che mi consentono di andare a separare le Reads endogene da quelle contaminanti
e in teoria ricreare una sequenza consenso ripulita da tutte le contaminazioni e
quindi utilizzabili. Non lavorano bene quando il numero di reads non è elevato
perché ne resterebbero troppo poche e quindi non avrei separazione. Quindi riesco
a separarle se il livello di contaminazione è al 50% per le library double strend e
fino al 70% per le library single end.
[Esempio su applicazione vera e propria di quello che abbiamo sentito fino ad oggi].

COMPLETE MITOCHONDRIAL SEQUENCES OF MESOLITHIC SARDINIA


Approccio da un punto di vista popolazionistico: capire come è avvenuto il
popolamento della Sardegna e quali correlazioni ci sono con gli attuali individui.
Per quanto riguarda la colonizzazione l’argomento è dibattuto, infatti da un punto
vista archeologico non abbiamo siti riguardanti la Sardegna prima del neolitico.
L’unico dato più certo è rappresentato da due resti umani antichi datati a circa
20000 anni fa (la datazione però non è diretta, ma si basa sull’associazione
stratigrafica). 20.000 anni fa quindi verso la parte finale del Paleolitico Superiore
(quello caratterizzato da Homo Sapiens: Paleolitico medio caratterizzato da
Neanderthal).

Alla fase successiva del Paleolitico si ha una forte espansione demografica e la


comparsa di siti appartenenti al primo Neolitico, datati attorno a 6000-7000 anni
fa. [Il Neolitico inizia circa 10.000 anni fa].
Si passa quindi da pochi siti di attribuzione incerta pre-neolitica a molti siti di
attribuzione neolitica dai quali emergono resti di materiali utilizzati e anche resti
umani.

Gli studiosi hanno cercato di capire come si è evoluto il pool genetico dei Sardi nel
corso degli anni e le differenze o meno tra le culture pre-neolitiche o post-neolitiche.

 Studi su genomi completi della Mummia di Otzi e dei sardi moderni, e


confrontati. Si è visto che le popolazioni moderne derivano da una migrazione di
neolitici dal continente verso l’isola; si è visto anche che i sardi moderni
rappresenterebbero uno snap-shot genetico di quelli che erano i neolitici dell’epoca
 specchio della variabilità genetica di quella che era la migrazione di massa del
Neolitico (perché non sono cambiati).
Tuttavia lo studio si basa solo su campioni moderni (a parte la mummia, 5000 anni
fa) per cui non ho una visione diretta della genetica ai tempi del neolitico, posso
solo estrapolare tramite confronto quello che poteva essere del passato ma non ho
una certezza sul pool genetico sardo del neolitico.

Per avere idea del pool genetico sardo, le uniche testimonianze erano gli studi sul
DNA mitocondriale di campioni nuragici, confrontati con quelli dei sardi attuali
provenienti dall’Ogliastra e dalla Gallura. In particolare 6 modelli demografici che
differivano tra la presenza/assenza di una massiva introgressione da parte del
continente e la diretta genealogia antichi/moderni.  è emerso che esiste una forte
continuità genetica con le popolazioni neolitiche dell’Ogliastra ma non della
Gallura. Studio importante perché per la prima volta è stata preso in
considerazione anche il dato antico.
L’unico limite delle popolazioni è che le popolazioni antiche riguardano l’età del
bronzo (e quindi neolitiche e non preneolitiche, non si sa cosa è successo prima) e
poi lo studio era limitato solo alla regione del DNA mitocondriale (solo 365bp del
mtDNA)

Lavoro dell’assistente
Si inserisce quindi il lavoro di sequenziamento del DNA mitocondriale su 16569bp.
I campioni, inoltre, derivano da un sito specifico nel sud vicino al Sulcis, prima
delle popolazioni neolitiche.

Nel 1978 si sono studiati gli orizzonti del suolo suddividendolo in 4 orizzonti e si è
visto che i primi 3, ovvero i più superficiali, erano abbastanza sciupati da agenti
esterni mentre il 4 (da 1,40 a 1,55 metri) gli strati erano molto poco disturbati ed
ha restituito tanti materiali, sono stati rinvenuti pezzi di ceramica, di animali estinti
e anche resti umani (tibia, ulna e omero, non interi ovviamente)  datati tra
11.000 e 8.000 anni fa, quindi prima del Neolitico in Sardegna (che è avvenuta
circa 6.000 anni fa)  del Mesolitico.

Dopo aver eseguito la procedura affrontata nelle lezioni precedenti (prelievo di


polvere d’osso, estrazione DNA con procedure classiche utilizzate per campioni
antichi, costruzione di Library double strend, cattura del DNA mitocondriale,
sequenziamento..)

Il dato importante era che al 5 fold la copertura ottenuta è molto buona per due
campioni su 3. L’Average Coverage (stima della copertura del sequenziamento) ha
portato allo scarto di un campione e lasciare i due più antichi (KARH7 e KARH8).

A questo punto viene effettuato Map Damage e Contamination Test per vedere
l’attendibilità del dato, e i parametri fanno sì che i campioni siano autentici.

I ANALISI: Identificazione delle varianti rispetto alla sequenza di riferimento per


ogni campione e grazie ad un software è stato identificato l’aplogruppo di ogni
campione. Lo studio degli aplogruppi fa già capire che le nostre sequenza sarde
sono particolari.

Per contestualizzare le sequenze sarde nel panorama antico (pre-neolitico) abbiamo


stabilito le relazioni filogenetiche delle nostre sequenze rispetto a quelle passate e
successivamente è stato costruito un albero filogenetico.

 Abbiamo un campione sardo con un aplogruppo ancora oggi presente in


Sardegna, tuttavia l’aplotipo è diverso da quello presente oggi.  Non c’è continuità
tra le popolazioni del mesolitico e moderne.

II ANALISI: database antichi suddivisi in 4 gruppi temporali divisi in: A) Pre-LGM


(45.000-25.000 anni fa; LGM= era glaciale); B) Post-LGM (19.000-15.000); C) Late
Glacial (durante l’era glaciale); D) Olocene;  le nostre sequenze sarde sono più
simili alle sequenze collocate nel Pre-LGM piuttosto a quelle moderne, nonostante
appartengano all’Olocene.
III ANALISI: test sull’analisi delle componenti principali, suddivise come prima
nelle 4 epoche  emerge come i nostri campioni mesolitici non siano vicini alle
sequenze dell’olocene ma a quelle pre-oloceniche in particolare quelle pre-LGM.

Quindi, è probabile che la sardegna sia stata colonizzata in un’epoca precedente ai


20000 anni fa e che abbia mantenuto intatte le caratteristiche antiche grazie ad un
isolamento geografico e genetico della Sardegna.

IV ANALISI: studio della storia demografica della Sardegna, in cui sono stati messi
a punto dei modelli e successivamente è stata fatta un’analisi di simulazione al
computer in cui si vanno a testare i modelli demografici che meglio descrivono il
dato che ho ottenuto. Per cui vi inserisco all’interno delle mie simulazioni tutti i
vari parametri che possono influenzare la composizione genetica di popolazione e
attraverso il pc faccio delle simulazioni e quelle che presenta score più alto è quella
che descrive meglio il dato che ho osservato. Andando a vedere il parametro che
avevo impostato riesco a capire cosa è successo nel corso della storia.

In particolare hanno studiato il modello di continuità tra popolazioni mesolitiche


e quelle moderne; modello di discontinuità in cui è stata studiata una totale
discontinuità sempre tra popolazioni mesolitiche e moderne, quindi asserisco che
le popolazioni sarde derivino da una massiva migrazione neolitica dal continente
alla Sardegna; modello misto in cui non mi aspetto né continuità né discontinuità
per cui mi aspetto che il pool moderno attuale derivi sia da mesolitico che da
neolitico.

Il modello della continuità è completamente scartato, mentre lo score più alto è


stato ottenuto dal modello di discontinuità per cui possiamo confermare che la
popolazione sarda deriva da una massiccia migrazione delle popolazioni dal
continente all’isola. Il modello misto ha probabilità bassa, pari al 22%; questo
modello aumenta di valore se metto come apporto di neolitico una percentuale pari
al 75% (può essere attendibile solo se considero una migrazione molto ingente dal
continente).  MODELLO DELLA DISCONTINUITA’ (la popolazione sarda attuale
deriva solo da migrazione neolitica)

[La neolitizzazione non è stata un fenomeno locale, ma dovuto all’arrivo di genti dal
continente che hanno colonizzato la Sardegna e l’incrocio delle popolazioni
neolitiche continentali con quelle paleolitiche dell’isola non hanno consentito un
apporto della componente genetica paleolitica fino alle popolazioni moderne.]
24.11.2016

Il contributo del DNA antico nell’antropologia molecolare

L’altra volta sono state definite le caratteristiche e i metodi di studio del Dna antico,
oggi guarderemo i casi di studio nei vari regni (Batteri, Piante, Animali, Uomo).

Batteri
La stragrande maggioranza contenuta in un campione attivo è prevalentemente di
origine microbica, per lo più batterica; non solo il materiale genetico relativo ai
batteri è tanto ma anche molto variegato (molte specie batteriche).
Non sempre è agevole determinare il tempo in cui è stato colonizzato l’organismo
che studiamo. Anche per questo non ci sono molti studi sui batteri, anche se negli
ultimi anni si è sviluppata una tipologia di studio che
riguarda il Dental Calculus, ovvero l’analisi del tartaro
recuperato da resti umani e animali poiché contenente molto
DNA. È stato infatti possibile ricostruire il DNA mitocondriale
di un individuo studiando il Dental Calculus, che però
contiene anche DNA relativo a flora microbica del cavo orale
o anche di batteri patogeni delle vie respiratorie oppure resti
di DNA di flora animale e vegetale (ciò che veniva mangiato
dall’organismo studiato).
Si possono anche studiare patogeni relativi ad esempio ad Epidemie (peste,
lebbra…); si può studiare il DNA antico sia a scopo diagnostico oppure per un
interesse evolutivo in modo da studiare l’evoluzione dei ceppi batterici sia moderni
che antichi  Ricostruito il genoma antico del micobatterio della lebbra o della
peste, su campioni umani.
Studiando l’antico è stato anche possibile descrivere meglio l’evoluzione del batterio
della Tubercolosi (studiando DNA moderno si pensava derivasse da bovini, invece
su campione antico si è capito che il ceppo responsabile era umano dal quale si è
sviluppato, in seguito a mutazione, il ceppo caratterizzante bovino che poi è stato
ripassato all’uomo a fronte di nuove mutazioni ed è quello che oggi appunto
colpisce l’uomo).
Piante
Lavori un po’ scarsi perché nelle piante sono contenute sostanze che fungono da
inibitori per alcuni passaggi sperimentali.

- Alcuni lavori volti a comprendere i ceppi


selvatici poi domesticati dall’uomo (per
esempio mais e orzo; in figura DNA di una
pannocchia).

- Un’altra applicazione è quella di andare ad identificare la specie di origine di


alcuni manufatti, ad esempio il papiro (che deriva appunto dal papiro. È stato fatto
per studiare il degrado del DNA in essi contenuto e si è visto che nei papiri più
antichi di 600 anni non c’è DNA, per cui questo ci fa capire che dai resti degli
antichi egizi non capiremo mai qualcosa a livello genetico proprio perché non sono
stati conservati bene in modo da mantenere la doppia elica).

Animali
- Lavoro è stato effettuato su una pergamena, per capire da quale
animale fosse ottenuto; lavoro svolto tramite PCR con primers specifici
e confrontando le sequenze delle pergamene con un genere di
campionario di alcuni animali e si è visto che il materiale in questione
derivava da Capra Hircus.

- Un altro lavoro anche su libri rinvenuti nei fondali marini tra Pantelleria e Tunisia,
da un vascello spagnolo del 1700. Utilizzando primer diversi si sono identificate
due specie diverse: uno fabbricato a partire dalla pelle di ovino e uno di razza (a
quell’epoca era un materiale ricercato dai nobili).

- Comprensione dei processi di domesticazione più che altro su


bovini e cinghiali che erano diffusi in Eurasia e si poteva pensare
ci fossero stati dei centri di domesticazione diversi in base alle
regioni geografiche.
Studio sui cinghiali; fino al lavoro erano
state identificate sequenze tipicamente
mediorientali, tipicamente europee e tipicamente italiane. Per i
campioni antichi le sequenze mediorientali prima del neolitico
erano presenti solo nel vicino oriente, con il neolitico iniziano
ad espandersi verso l’Europa quindi si pensava che la
domesticazione del cinghiale fosse avvenuta nel vicino Oriente.
In realtà studiando un sito in Friuli si è scoperto che nell’arco
temporale occupato dall’uomo c’erano numerosi resti di suini ma non si capiva se
domestici o selvatici  Per quanto riguarda il paleolitico superiore c’era una
sequenza analoga a quella descritta, spostandoci però nel mesolitico nel nostro sito
troviamo una sequenza che veniva dichiarata come mediorientale.

- Sequenziando il genoma nucleare di due campioni di


mammut ritrovati nel permafrost si è capita la sua
filogenesi e le sue parentele con l’elefante. Applicazione
filogenetica ed evolutiva (Una cosa simile è stata fatta
anche per gli equidi)

Uomo
Si può studiare: Identificazione personale, Relazioni di parentela tra individui
vissuti nel passato, Genetica di popolazioni (come migrazioni,
continuità/discontinuità genealogica tra popolazioni vissute in tempi diversi
magari nella stessa area geografica ecc…)

1) Identificazione personale: articolo sui resti di Re Riccardo III e indagine


per capire se i resti ritrovati in un fiume erano realmente i suoi o meno. È
stato stimato il suo albero genealogico con i suoi discendenti (linea
maschile, tramite cromosoma Y, si conoscevano 5 individui viventi mentre
per la linea femminile, tramite DNA mitocondriale, si conoscevano 2
individui; non ha avuto nessun figlio).
- Si è inizialmente studiato il Dna mitocondriale, ricostruendo l’intero
genoma tramite Target Enrichment e si è visto che era compatibile con i
due discendenti per linea materna quindi dal punto di vista materno poteva
tornare che questi resti appartenessero al Re.
- Per quanto riguarda il cromosoma Y, a livello dei 5 individui che sapevano
essere imparentati si è visto un caso di falsa paternità, ma in realtà tutti e
5 avevano profili diversi da quello dello scheletro in questione (quindi: o i
resti in questione non sono collegati dal punto di vista maschile con i
discendenti oppure ci sono stati almeno due eventi di falsa paternità nella
genealogia della famiglia, e questo è molto probabile, stimato
statisticamente).
- Viene poi fatta una terza verifica con Irisplex che va ad indagare alcuni
geni in base al colore degli occhi e dei capelli e da una probabilità del
fenotipo studiato. I risultati possono combaciare con i tratti ritrattistici del
Re, quindi si può dedurre con alta probabilità che i resti studiati possano
appartenere a Riccardo III.
Se ci sono resti e non discendenti ma vogliamo sapere se i resti appartengono
ad un organismo? Un lavoro di questo tipo è stato fatto per i presunti resti
dell’evangelista Luca conservati a Padova: nato in Siria e morto in Grecia,
resti spostati a Costantinopoli e poi a Padova.
Questi resti potevano effettivamente appartenere a persona nata in Siria o
erano falsi e alterati in seguito? Possiamo confrontare il campione di
interesse con altre vissuti in quella zona e ottenere delle probabilità. Il
campione antico è piuttosto lontano da turchi e greci ma vicino sia alla
Siria che all’Italia, quindi i resti potrebbero verosimilmente appartenere a
un individuo siriano oppure essere manomessi in italiano. Questo non dà
risposte certe.

2) Relazione di parentela: articolo in cui è stato analizzato un sito tedesco


in cui c’è una planimetria tra le sepolture ritrovate e alcune con più
individui.

Gli individui sepolti insieme erano collegabili tramite relazioni di


parentela? Analizzati le sepolture multiple e determinati gli
aplogruppi dell’individui ritrovati (entrambi maschi) e
risultano essere figli degli altri due (uomo e donna) perché
portano corrispondenze sia su Dna mitocondriale che sull’Y.

In un’altra sepoltura c’è un adulto e 3 giovani (con stesso


aplogruppi mitocondriale quindi potrebbero essere fratello e
sorella) ma l’apogruppo è diverso da quello della donna
presente nella sepoltura quindi non è la madre.

Un altro caso individui sepolti insieme e non imparentati. Individui tutti


maschili che non hanno fornito corrispondenza su Dna Y ma su
mitocondriale non si sa.

3) Variabilità genetica: ci sono molti studi che cercano di indagare anche le


variabilità passate, perché si pensava che la variabilità moderna in qualche
modo rispecchiasse quella antica (popolazioni antiche e moderne dello
stesso luogo hanno stessa variabilità, ma ciò non è sempre vero).
Possono essere studiate o tramite le distanze genetiche oppure sviluppati
strumenti leggermente più elaborati che sono modelli che si basano sulla
statistica bayesiana.

- Analizzati campioni dall’isola di Creta di epoca minoica studiati due siti


della costa e dell’entroterra, solo uno dei due siti dell’entroterra ha dato
risultati relativi a DNA mitocondriale. È stato fatto quindi un lavoro
utilizzando le distanze genetiche, confrontando campioni moderni ed
antichi con quelli di Creta. Due principali ipotesi sull’origine della
popolazione minoica: derivasse da popolazione del Nord Africa oppure che
fosse una popolazione locale che poi aveva sviluppato una certa cultura. È
più probabile una teoria dello sviluppo locale della cultura. Lavoro fatto
utilizzando le distanze demografiche.

- Lavoro diverso fatto in Sardegna, per la popolazione nuragica: campioni


nuragici messi a confronto con moderne (Ogliastra e Gallura). Lavoro
effettuato utilizzando modelli demografici. Esiste continuità genealogica tra
popolazioni nuragiche/del neolitico e la popolazione dell’Ogliastra, mentre
questa relazione non esiste per la Gallura.

- Lavoro su etruschi. Capire da dove provenissero e se avevano lasciato


discendenza. Per quanto riguarda l’origine ci sono due teorie principali:
cultura sviluppata localmente oppure immigrati dall’Anatolia. La seconda
cosa da fare era capire se avessero lasciate tracce nella Toscana di oggi.
Sono stati analizzati campioni medioevali e moderni della Toscana; 3
modelli in cui la continuità genealogica sembra essere vera per Casentino
e Volterra. Per vedere l’origine è difficile perché non abbiamo modelli
derivati dall’Anatolia per cui è stato fatto una riduzione con un approccio
particolare basato sulla coalescenza (visualizzando le mutazioni calcolare
la probabilità di risalire all’epoca di separazione delle discendenze). Presi i
discendenti etruschi moderni (Casentino e Volterra) e confrontati con gli
anatolici moderni ed è stato calcolato il tempo di separazione di queste due
popolazioni (7500 anni fa quindi più antico della cultura etrusca).  Gli
etruschi probabilmente non derivano da una migrazione dall’Anatolia ma
hanno avuto uno sviluppo locale (anche se non possiamo studiare le
popolazioni precedenti ovvero i Villanoviani perché al momento della morte
venivano cremati).

- Studio sui Longobardi in Italia in regioni diverse per vedere se c’è stato
un impatto genetico causato da essi che culturalmente sembrano essere
omogenei. Partenza dello studio da un progetto del Piemonte in cui erano
già disponibili campioni longobardi con approccio Bayesiano per studiare
diversi modelli demografici  c’è quasi sempre discontinuità genealogica
tra medioevo e moderno in Piemonte, a parte per il Trino Vercellese.
01.12.2016

ANTROPOLOGIA MOLECOLARE FORENSE - Come funzionano i sistemi


identificativi personali
Come si fa a ricavare un profilo genetico da un individuo, profilo genetico che poi
ci permette di attribuire ad un determinato individuo se è stato su una scena del
crimine oppure per verificare se un determinato individuo è figlio di una coppia di
genitori o non lo è, quindi:
- Indagini di carattere parentale
- Indagini di carattere identificativo.
Questo studio si basa su dettami di carattere biologico, si basa sulla conoscenza
della variabilità genetica di una popolazione perché non conoscendo la variabilità
genetica di una popolazione è impossibile fare questi studi. Pertanto tutti coloro
che intraprendono studi con scopo identificativo sono costretti ad analizzare le
variabilità genetiche delle popolazioni di riferimento. Sono anche strumenti che ci
permettono di indagare su casi particolari come per esempio ricostruire le relazioni
parentali che potevano essere esistite all’interno di una sepoltura multipla di una
popolazione etrusca, oppure capire se nelle case di Pompei individui che erano stati
attribuiti alla stessa famiglia lo erano realmente ecc.
Per fare questo bisogna conoscere quali sono i sistemi che ci permettono di fare
questa operazione e soprattutto avere anche le conoscenze per poter interpretare i
dati.

I sistemi che vengono utilizzati nell’identificazione personale sono sistemi che


abbiamo utilizzato quando si è spiegato il concetto di omozigote ed eterozigote e
sono quei sistemi che rientrano nei sistemi di DNA microsatelliti. È un DNA
altamente ripetuto all’interno del nostro genoma ed è un DNA che ha delle
caratteristiche particolari: queste caratteristiche sono importanti per i nostri studi
perché è un DNA molto variabile all’interno di un gruppo di individui. I loci
microsatelliti che vengono utilizzati in queste analisi sono diversi: 9-15-17 perché
esistono diversi kit che vengono usati per le analisi genetiche e il motivo per cui si
utilizzano è perché sono molto polimorfici.

Cosa vuol dire che un locus possiede un


numero di alleli molto polimorfici?
Significa che a quel determinato locus
su quel determinato cromosoma
esistono più forme di quel DNA, quindi
se dovessi andare a descrivere un
polimorfismo di questi STR: un
polimorfismo che sta sul cromosoma
numero 1 e sta nel locus D7 e questo
locus ha diversi polimorfismi significa che posso avere alleli che vanno da una
lunghezza di 120 paia di basi ad alleli che vanno ad una lunghezza di 160 paia di
basi. Questo significa che a questo determinato locus e in questa determinata
posizione cromosomica io trovo alleli che possono avere lunghezze differenti che
vanno dalle 120 alle 160 paia di basi. Queste lunghezze sono dettate dal motivo
STR: short tandem repeats (ripetizioni corte in tandem) che io trovo all’interno di
questa sequenza di DNA. Questi motivi STR possono essere molteplici: ci possono
essere motivi STR formati da due basi, quindi per esempio C-C ripetuto n volte; ci
possono essere motivi STR di 4 basi: A-T-G-G- presi n volte e poi ci possono essere
anche motivi STR più complessi. Significa che queste ripetizioni corte in tandem
hanno queste caratteristiche: se scrivo che in questo range di lunghezza di DNA
120-161 paia basi faccio: 161-120 = 41 quindi le ripetizioni che io posso avere di
un motivo ATCG quindi di 4 basi sono 10, quindi posso avere massimo 10
ripetizioni -> il mio allele in questo determinato locus può andare da 10 ripetizioni
a 1 ripetizione, cioè ad un solo motivo. Quindi se avrò n = 8, 4x8 =32 l’allele che
avrò sarà 120 + 32 =152. Quindi il mio frammento sarà lungo 152 paia di basi.
Ovviamente qui si tratta di un locus che sta su un cromosoma e i nostri cromosomi
sono omologhi, quindi significa che sull’altro cromosoma ci può essere o lo stesso
allele o un allele differente: se è lo stesso allele avrò 152 paia di basi e il nostro
individuo a quel determinato locus sarà omozigote; se anziché avere 8 ripetizioni,
ne ha 10, quindi 161, il nostro individuo sarà eterozigote a quel determinato locus.
Ma noi non mettiamo la lunghezza dell’allele, ma solo il numero di ripetizioni,
quindi se questo individuo è omozigote sarà 8-8, se è eterozigote sarà 8-10.

Questi kit contengono almeno 9 loci, quindi


significa che avrò la possibilità di ricostruire
il profilo allelico utilizzando 9 marcatori che
stanno su 9 cromosomi differenti e che
questi marcatori hanno queste
caratteristiche cioè possono essere
omozigoti o eterozigoti, ma possono essere
anche POLIMORFICI, quindi significa che la
variabilità che io osservo è molto alta, cioè
che queste ripetizioni di questa lunghezza
molti individui le potranno avere perché sono molto variabili. Quindi su questo
cromosoma posso avere questo determinato locus 10-10 e un altro di noi può avere
7-8 e così via. È questo l’aspetto fondamentale, cioè avere un’alta variabilità perché
se fossimo tutti uguali non sarebbero sistemi identificativi e quindi occorre
conoscere a priori la variabilità genetica della popolazione, quanto è variabile la
mia popolazione a tutti questi sistemi genetici? Perché se non conosco la variabilità
della popolazione come faccio a stimare se un individuo possiede questo DNA e
questo DNA che trovo sulla scena del crimine è dell’individuo che l’ha lasciato
perché l’ha lasciato lui oppure perché il caso implica che tutti gli individui hanno
lo stesso DNA, quindi può essere uno o può essere l’altro.
Quindi su questo cromosoma al locus 1 abbiamo questo sistema polimorfico; se si
va sul cromosoma 2, prendiamo il locus D2 e andiamo ad osservare su quest’altro
cromosoma il tipo di variabilità che vado ad osservare per quel determinato locus:
200-231, osservo individui che hanno sequenze di DNA a quel determinato locus
che vanno dalle 200 alle 231 paia di basi, conosco il motivo a quel determinato
locus, per esempio G-C, preso n volte, sono 32 (231-200 = 31+1 = 32 per la regola
di …) basi quindi posso fare 32/2 = 16 e quindi posso avere 16 differenti ripetizioni,
cioè n = 16. Si tratta quindi di polimorfismi di lunghezza: sfruttiamo questo sistema
perché riusciamo a distinguere la differente lunghezza di un determinato allele.
Se prendiamo il cromosoma 3, locus D3 e prendiamo sempre una coppia di
lunghezze: 180-221, sono sempre 42 paia di basi e si suppone che la ripetizione
sia T-C n volte: anche qui ho la possibilità di avere 16 differenti tipi di alleli.
Quindi ho già messo tre sistemi allelici differenti che stanno su tre cromosomi
differenti che hanno lunghezze differenti: il sistema minimo che viene utilizzato
nell’antropologia forense sono 9 LOCI POLIMORFICI che vengono analizzati tutti
insieme e non uno alla volta.
Come faccio quindi a fare l’analisi di 9 loci polimorfici tutti insieme?
L’analisi che faccio la faccio con la PCR. Abbiamo già visto questo tipo di PCR
(multiplex), dove mettiamo più coppie di primer insieme (l’abbiamo già utilizzata su
Petrarca per fare la determinazione del sesso): quindi se usiamo 9 loci differenti,
utilizzeremo 9 coppie di primer differenti che fanno un’amplificazione di 9 loci
differenti. se andiamo ad amplificare 9 loci differenti e andiamo ad amplificare dei
polimorfismi di lunghezza, come li visualizziamo questi polimorfismi di lunghezza?
Con l’ELETTROFORESI: riusciamo a distinguere ciascun frammento in base alla
lunghezza -> tutti gli alleli che ricadono tra le 200 e le 221 e che stanno sul
cromosoma 2 o sul cromosoma 3 li posso confondere con una elettroforesi normale,
perché arrivano alla stessa velocità contemporaneamente e quindi non riesco a
distinguerli. Quindi abbiamo studiato un sistema che ci permette di distinguere
due differenti alleli che potrebbero avere la stessa lunghezza -> non facciamo una
elettroforesi normale, ma una ELETTROFORESI CAPILLARE:
c’è un capillare molto stretto con il polo positivo e il polo negativo e poi vengono
caricati i nostri campioni.
PER ESEMPIO: ho tre individui ridotti ad un omozigote, potrei avere un solo allele,
senza l’omologo solo nel cromosoma Y perché qui ho un marcatore unico visto che
l’omologo non c’è; infatti ci sono i sistemi dell’Y che servono per fare il
riconoscimento parentale (babbo-figlio). Supponiamo che sul cromosoma Y, 120-
161 abbiamo un allele 128. Poi abbiamo un frammento 206, poi un altro
frammento che va da 180 a 221 quindi per effetto del caso potrebbe avere lo stesso
frammento di 206. Quando questi tre frammenti passano nel capillare, in basso
avrò il frammento di 128 e più in alto avrò il frammento di 206, uno del cromosoma
2 e uno del cromosoma 3. Come faccio a distinguerli? Utilizziamo dei primer che
hanno come marcatore un fluoroforo: questi primer hanno un fluoroforo differente
a seconda del sistema allelico che vado ad utilizzare. Vuol dire che i fluorofori che
vado ad utilizzare in questi kit sono 4 o 5 e ciascuno, se colpito da una luce laser,
emette un colore e quindi se io metto un fluoroforo che va ad amplificare con un
colore che è blu e metto un fluoroforo che va ad amplificare con il colore rosso, avrò
un 206 che emette in blu e un 206 che emette in rosso. Quindi quando questi
passano dal capillare e dalla luce laser che scansiona, anche quello di 128 emetterò
un altro colore: così sappiamo che se il frammento 206 emette il colore blu, vuol
dire che appartiene al cromosoma 2, mentre se emette colore rosso vuol dire che
appartiene al cromosoma 3 -> riesco a distinguerli.
Quando faccio la PCR cosa succede? Se vado ad amplificare la doppia elica dove
stanno questi polimorfismi, su uno dei due primer viene attaccato un fluoroforo
quindi quando la catena si polimerizza da una parte e dall’altra, polimerizza con
questo fluoroforo e quindi tutti i frammenti avranno questo fluoroforo e quindi li
riesco a riconoscere. Il kit per l’identificazione personale ad esempio ha un colore
rossastro perché è la somma di tutti i fluorofori che sono attaccati ai primer.

ESEMPIO: analisi del sangue ritrovato su un albero e confronto con sangue di un


capriolo ucciso. Prima di tutto bisogna conoscere la variabilità genetica della
popolazione di caprioli: come primo studio si guardano tutti i sistemi polimorfici
dei caprioli italiani e toscani perché tra zona e zona c’è una grande differenziazione.
Una volta vista la variabilità genetica, si devono identificare quelle regioni di DNA
che possono contribuire ad identificare un determinato profilo genetico: conoscere
la variabilità genetica significa andare a vedere a ciascun locus tutti gli alleli che
sono presenti per quella determinata popolazione, quindi se prendo 9 loci, per tutti
devo andare a vedere la variabilità della popolazione. Mentre i kit che vengono usati
per analizzare il genoma umano sono commerciali, per quello dei caprioli non è la
stessa cosa: si guarda la variabilità genetica per ciascun locus e si costruisce un
sistema di primers, 9 coppie, e, in base alle lunghezze osservate, si andava ad
associare ad ogni coppia di primer un fluoroforo differente: i fluorofori però sono 5,
quindi c’erano anche coppie di primers con lo stesso fluoroforo. Però la soluzione
era che quelle che avevano lo stesso fluoroforo avevano alleli che non si
sovrapponevano: quindi si costruiscono le sequenze di primers, si fanno
sintetizzare, si associa il fluoroforo a ciascuna coppia e si osserva i due DNA.

Gli STR non hanno mutazioni che fanno sì che da una popolazione all’altra ci siano
grandi cambiamenti, ma sono piuttosto costanti e questo è un vantaggio per questi
sistemi che vengono utilizzati.

Oltre agli STR vengono usati ad oggi anche dei MINI STR, cioè dei sistemi genetici
che vanno ad amplificare frammenti più corti di DNA: infatti le lunghezze che
vengono utilizzate sono anche molto elevate (100-150 paia di basi) e se ho a che
fare con frammenti molto degradati, si capisce che è molto difficile andare ad
amplificare alleli molto lunghi.
I POLIMORFISMI:
I polimorfismi genetici sono variazioni nelle
sequenze di DNA presenti in una popolazione
con una frequenza maggiore dell’1%. Quando
la frequenza è inferiore a tale valore
arbitrario, si preferisce parlare di varianti
genetiche rare, che in molti loci sono
presenti in aggiunta ai polimorfismi.
A) POLIMORFISMI DI SEQUENZA
B) POLIMORFISMI DI LUNGHEZZA

PER ESEMPIO:
D3S1358 sta sul braccio p del
cromosoma 3 e il motivo di
ripetizione è: TCTA(TCTG)1-3(TCTA)n
e il range allelico va da 114 a 142
paia di basi.

TH01 che sta sul cromosoma 11


nella posizione p15.5 ha un motivo
di ripetizione (AATG)n che va dalle
169 alle 189 paia di basi e il fluoroforo associato è JOE

Ecc.
Qui vediamo: 15 loci STR che quindi stanno su 15
cromosomi differenti e si vede che hanno colorazioni
differenti perché la variabilità allelica tra locus e locus
molto spesso si sovrappone, anche molto, per
esempio: D76820 si sovrappone quasi interamente a
D16S539 e quindi è ovvio che debbano avere primers
marcati in modo diversi in modo tale da poterli
riconoscere. C’è anche A perché nel kit utilizzato per
l’identificazione personale c’è anche la
quantificazione, oltre dei loci STR, anche del gene
omologo della amelogenina, infatti dalle 100 alle 400 paia di basi il gene omologo
dell’amelogenina sta intorno alle 106-112 paia di basi.

COME LEGGIAMO UN PROFILO?


Questo è ciò che ci rende il sequenziatore
automatico: ci restituisce dei picchi e la
chiamata allelica. Si legge 15-16: 15 o 16
ripetizioni, cioè se guardiamo il D8S1179 si
rende conto del tipo di ripetizione che c’è. Il
D21S11 ha un 29: questo individuo a quel
determinato locus è omozigote, questo è un
profilo di un maschio o di una femmina? È un
maschio perché il gene omologo
dell’amelogenina ha due picchi, quindi ha
l’allele di 112 e l’allele di 106 e inoltre l’allele di 112 è più spostato. I picchi sono
più o meno alti perché abbiamo a che fare con dei fluorofori, quindi essendo
un’amplificazione multiplex non tutti i frammenti sono amplificati nella stessa
quantità, ce ne sarà qualcuno più amplificato e qualcun altro meno amplificato,
quindi l’altezza del picco sarà più o meno elevata a seconda di quanti frammenti
sono presenti: io lo posso dire perché avrò una riflessione maggiore in base al
numero di frammenti che contengono questi primer con i fluorofori che avrò
generato.
Il locus FGA ha polimorfismi che vanno dal 16 al 26: è tutta la variabilità genetica
osservata per quel polimorfismo,
quindi a quel determinato locus.
Io cioè posso avere alleli che
possono essere 16, 20, 19 ecc.
I loci utilizzati dipendono dalla
popolazione con cui abbiamo a che fare: negli Stati Uniti, in cui la popolazione è
multietnica, occorre utilizzare dei loci che diano una risposta significativa
importante e che quindi tengano in considerazione anche la variabilità genetica
della popolazione; così lo stesso anche per la Germania, molto ricca di migranti.
Quindi è fondamentale conoscere i loci che possono darci più risposte ed è per
questo che si sono trovate le differenze tra i vari paesi.
06.12.2016

CALCOLO DELLA PROBABILITÀ PER L’IDENTIFICAZIONE PERSONALE


Probabilità che due individui o che due tracce di DNA con lo stesso profilo, abbiano
lo stesso profilo per effetto del caso, oppure perché queste due tracce appartengono
alla stessa persona. Dobbiamo capire il motivo per cui siamo così certi che l’analisi
del DNA sia un’analisi risolutiva, cioè dobbiamo capire il motivo per cui due
individui che condividono lo stesso DNA sono la stessa persona oppure se questa
condivisione dipende solo dal caso oppure se realmente sono due individui che
hanno lo stesso DNA.

Confronto di profili genetici ottenuti: un profilo genetico ottenuto è rappresentato


da tutte quelle variabili STR che io ottengo dall’analisi biologica di un campione,
quindi il profilo genetico in questo caso è il profilo STR, cioè che DNA ho ai differenti
loci che vado ad analizzare. Quindi il profilo genetico ottenuto ci dice la variabilità
di quel determinato individuo: ci dà delle chiamate alleliche a tutti i loci che vado
ad analizzare.
Quindi abbiamo:
a) Compatibilità
b) Incompatibilità
c) Inconcludenza

Qual è la cosa che andiamo a valutare sempre? Valutiamo sempre la compatibilità


perché se due profili allelici sono differenti è chiaro che questi due profili
appartengano a due individui differenti: se ho due profili allelici completamente
diversi non c’è bisogno di nessun calcolo di probabilità perché sono diversi. Per
inconcludenza si intende il caso in cui abbia due profili parziali, quindi non ho
l’informazione totale e con l’informazione parziale non posso fare analisi che mi
permettano di dire se due individui condividono lo stesso genoma per effetto del
caso oppure perché realmente sono la stessa persona. Pertanto viene fatta
un’ANALISI DI PROBABILITÀ STATISTICA solo nel caso in cui due profili genetici
siano uguali o compatibili perché il fatto che siano compatibili vuol dire che non
sono completamente uguali, ma hanno delle differenze nel senso che tutti gli altri
loci, a parte le differenze, sono uguali.
La statistica serve per dare un significato al match osservato, infatti, per effetto del
caso potrebbe accadere che un individuo non coinvolto in una determinata
situazione (criminosa o di mera identificazione) abbia lo stesso profilo ricavato dalla
traccia biologica, ma in realtà non sia la persona da confrontare.

Occorre quindi usare dei modelli matematici/statistici basati sulla conoscenza dei
marcatori genetici, utilizzati per le analisi, della genetica di popolazione e delle leggi
della probabilità: nei casi di compatibilità dunque occorre valutare la diffusione del
profilo genetico all’interno della popolazione.

LA PROBABILITA’ CHE UN ALTRO INDIVIDUO NON IMPARENTATO CON LA


PERSONA DA “INDAGARE” PRESO A CASO NELLA POPOLAZIONE, ABBIA LO
Il concetto è che il fatto che due individui possono avere lo stesso profilo genetico
dipende da due cose fondamentali: dal fatto che questi due individui siano in realtà
lo stesso e quindi per forza hanno lo stesso profilo genetico e da quanto questo
profilo genetico sia frequente all’interno della popolazione, perché se all’interno di
una popolazione tutti gli individui hanno lo stesso profilo genetico, se io confronto
il profilo genetico di una popolazione con quello di un’altra persona, come faccio a
sapere se è la persona A che ha lasciato la traccia sulla scena del crimine o è stata
la persona B? non posso utilizzare questo sistema di marcatori per fare questo tipo
di analisi perché tutti hanno lo stesso profilo genetico.
Quindi conta conoscere a priori la variabilità genetica della popolazione e
quindi occorre a priori utilizzare degli strumenti che ci permettono di andare
a vedere quanto è variabili una popolazione. Quindi se per fare degli studi a
carattere identificativo dovessi utilizzare dei loci che appartengono a delle posizioni
cromosomiche che in una popolazione sono uguali o per lo meno sono molto
frequenti nella popolazione osservata, è chiaro che questo sistema genetico non mi
serve perché se io prendo l’allele A e tutti ce l’hanno come faccio a dire di chi è
realmente? Per questo devo usare sistemi polimorfici, cioè che hanno tante
differenze all’interno di una popolazione perché un individuo può avere uno o due
alleli, a seconda che sia omozigote o eterozigote a quel determinato locus, ma più
individui possono avere differenti alleli agli stessi loci -> discorso fondamentale per
qualsiasi indagine di carattere parentale che voglio andare a fare.
La probabilità che un altro individuo non imparentato… (vedi sopra):
RANDOM MATCH PROBABILITY = probabilità casuale di match. Quindi noi
abbiamo detto che attraverso la random match probability possiamo dire se due
profili allelici sono uguali per effetto del caso o sono uguali perché appartengono
allo stesso individuo.

RMP (RANDOM MATCH PROBABILITY) È UNA STIMA DELLA FREQUENZA CON LA


QUALE QUEL PARTICOLARE PROFILO GENETICO E’ PRESENTE NELLA POPOLAZIONE,
cioè è una stima con la quale quel particolare profilo genetico è presente nella popolazione.
Io vado a stimare quanto è frequente quel determinato profilo genetico all’interno della
popolazione. ESSA PUO’ ESSERE CONSIDERATA COME LA PROBABILITA’ CHE,
PRENDENDO A CASO UNA PERSONA DALLA POPOLAZIONE, ESSA ABBIA QUEL
DETERMINATO PROFILO GENETICO, MA NON RAPPRESENTA LA PROBABILITA’ CHE UN
ALTRO INDIVIDUO DIVERSO DALLA PERSONA INDAGATA SIA ESSO VERAMENTE IL
COLPEVOLE (SE AD ESEMPIO CI RIFERIAMO AD UNA SCENA DEL CRIMINE)

Vuol dire che se io faccio un’indagine e vado ad analizzare il profilo genetico tramite
la random match probability, con quest’ultima ottengo quanto è frequente quel
determinato profilo all’interno della mia popolazione: questo è il calcolo da fare. E
adesso vediamo come si calcola questa RMP perché è molto semplice, soprattutto
utilizzando dei software precisi:
COME SI CALCOLA?
LA FREQUENZA DI UN DETERMINATO GENOTIPO O PROFILO ALL’INTERNO DI UNA
POPOLAZIONE E’ CONSEGUNEZA DIRETTA DELLA LEGGE DI Hardy –Weinberg quindi
la frequenza di un determinato locus viene calcolata a partire dalle frequenze alleliche di
quel locus e quindi se ad un determinato locus l’allele che ottengo è in omozigosi la sua
frequenza sarà p2 o q2 se invece è in eterozigosi sarà 2pq; quindi la frequenza di un
determinato genotipo sarà il prodotto delle frequenze osservate a ciascun locus; questo lo
possiamo fare perché gli alleli utilizzati per determinare il profilo vengono trasmessi in
modo indipendente: Ovviamente per conoscere la frequenza di un determinato allele ad
un determinato locus in una popolazione devo conoscere la variabilità genetica per gli
alleli a quei loci in quella popolazione

La legge di Hardy – Weinberg prende in considerazione una popolazione che


dovrebbe essere in equilibrio, cioè una popolazione che non è soggetta a dinamiche
di grosse migrazioni, cioè una popolazione in cui le dinamiche sono abbastanza
conosciute. Infatti se mi calcolo la variabilità genetica di una popolazione che non
è in equilibrio, è chiaro che sarà una variabilità che cambia in continuazione. In
una popolazione in equilibrio le frequenze alleliche presenti sono il quadrato delle
frequenze alleliche: (a+b)2 in questo modo si calcola la frequenza delle variabili
alleliche all’interno di una popolazione in equilibrio. Se io vado a svolgere questo
quadrato da un punto di vista algebrico: a^2 + b^2 + 2ab.
Se metto p e q sono le frequenze dei differenti alleli, allora avrò: p2 + q2 + 2pq.
Per capire ancora meglio: la frequenza di un determinato allele in una popolazione
rappresenta quante volte osservo quell’allele nella popolazione 10,20 volte... è la
frequenza delle variabili alleliche, sappiamo che a ciascun locus possono esserci 2
variabili alleliche quindi se questo individuo è
omozigote sarà quella frequenza x quella frequenza =
q2, se invece è in eterozigosi sarà 2pq. Quindi
cerchiamo di trasformare questi dati aritmetici in dati
biologici.

PER ESEMPIO: locus D8S1179, cioè che sta sul


cromosoma 8: ci sono alleli 10 e 13 cioè alleli che hanno
ripetizioni di 10 e di 13 di quel determinato motivo
perché si parla di polimorfismi STR. Quindi se sono due
alleli 10 e 13 significa che l’individuo è perfetto, quindi
la frequenza genotipica è 2pq -> FREQEUNZA
GENOTIPICA PER QUEL DETERMINATO LOCUS.
Come faccio a sapere qual è la frequenza allelica del
locus D8S1179 dell’allele 10? Quando faccio uno studio
di genetica di popolazione vado a contare quante volte
questo allele è presente all’interno della mia
popolazione, nel nostro caso è presente nell’8% dei casi. Quindi torna il discorso
che se non si conosce la variabilità genetica della popolazione, questo discorso non
può essere fatto.
Locus D21S11: alleli presenti sono 30 e 30 quindi questo individuo per questo
allele è omozigote, quindi la formula che mi permette di capire la frequenza di
carattere genotipico è p2.
Locus D7S820: anche questo individuo è omozigote.

Questo conteggio lo faccio per tutti i loci che ho a disposizione, cioè per tutti i loci
che vado ad osservare all’interno di questo mio profilo li vado a misurare tutti. Alla
fine, siccome si tratta di frequenze, dovrò fare una moltiplicazione tra tutte le
sequenze perché è una probabilità di match quindi dovrò fare un conto che mi
permette di andare a moltiplicare tutte le mie frequenze di un determinato genotipo
che ho osservato. Quindi significa che moltiplico tutti i numeri dell’ultima colonna
e alla fine avrò la frequenza del mio profilo genetico, cioè 3,57 x 10-20. Con la RMP
questo significa che questo profilo ce l’ha un individuo su 1020, vuol dire che la
frequenza di questi loci con queste frequenze è presente, nella popolazione che ho
usato come riferimento, come 3 individui su 1020.

Considerando i 13 STRs (se ne utilizziamo di più, aumenta anche la possibilità


di poter identificare un individuo) CODIS si ottiene un valore medio di RPM per
individui non imparentati di 10^12 (se utilizzo meno STR, ottengo un valore
medio di RPM di 10^12); questo significa che un determinato profilo
genetico CODIS è trovato in media in un individuo su 10^12 persone e
considerando che la popolazione mondiale è 7 x10^9 individui, i valori RPM di
CODIS permettono di stabilire che in caso di match, la traccia biologica lasciata
appartiene al quel determinato individuo.

Se io ottengo delle probabilità casuali di match così basse e i calcoli matematici mi


dicono che i due profili genetici sono uguali, calcolati provenienti da un dato
biologico, cioè da un DNA che estraggo e amplifico con il pannello dei loci CODIS,
ottengo che due tracce di DNA che hanno lo stesso profilo genetico hanno una
probabilità di essere uguali di 3,57… quindi significa che se io ottengo due profili
genetici uguali, questi due profili genetici, calcolati in questo modo, non possono
che appartenere allo stesso individuo.
Tutto questo lo facciamo con la RMP che si basa su quanto è frequente quel
determinato profilo all’interno di una popolazione e che permette di stimare la
variabilità genetica all’interno della popolazione.
Probabiltà casuale di match

Si basa su quanto è frequente quel determinato profilo all’interno di una


popolazione (noi biologi siamo importanti perché ne stimiamo la variabilità
genetica). La frequenza di un determinato locus viene calcolata a partire dalle
frequenze alleliche di quel locus e quindi se ad un determinato locus l’allele che
ottengo è in omozigosi la sua frequenza sarà p2 o q2 se invece è in eterozigosi sarà
2pq.
Posso farlo perché utilizzo un sistema polimorfico che segue la seconda legge di
Mendel.
Due profili genetici possono appartenere a persone diverse nel caso di gemelli
omozigoti quindi posso utilizzare le NGS analizzando gli ampliconi prodotti dal
prodotto di amplificazione (vedere polimorfismi di lunghezza e sequenza).

Likelihood Ratio, LR: altro modo per calcolare la Random Match Probability. E’ il
rapporto di verosimiglianza ovvero il confronto delle probabilità d osservare un
particolare evento E (nel nostro caso il profilo STRs) sotto due ipotesi alternative che
sono tra loro mutuamente esclusive il DNA appartiene alla persona (Hp) il DNA non
appartiene alla persona (HD).

Per l’identificazione personale i sistemi polimorfici quindi sono fondamentali. Altri


sistemi genetici sono ugualmente utilizzati ma hanno efficacia minore, come per
esempio mtDNA (se confronto il mitocondrio del figlio e della madre e osservo le
stesse sequenze posso dire che mtDNA ottenuto è uguale a quello della madre, ma
può essere un caso per cui non ho la certezza). Il DNA mitocondriale è un DNA a
singolo locus (perché si eredita solo dalla mamma) per cui nella Random Match
Probability vado a calcolare la frequenza di un mitocondrio all’interno della
popolazione  calcolo quante volte quel determinato aplotipo compare all’interno
della popolazione e vedo se due individui sono imparentati  se quel determinato
aplotipo compare tante volte le probabilità che i due individui possano essere
imparentati si abbassano notevolmente.

L’alterego di mtDNA è il cromosoma Y è un frammento che non ricombina quindi


potrebbe essere considerato a singolo locus, ma ci sono molti STR di cui è possibile
misurare la frequenza (nello stesso modo degli autosomici) quindi ne calcoliamo
comunque la frequenza; ad esempio per un test di paternità sono necessari gli
autosomici e come si fa?

TEST DI PATERNITA’

Per un defunto vado a trattare i cromosomi autosomici, mentre se la persona è in


vita e ho certezza della madre vado a indagare l’Y (anche se dobbiamo comunque
vedere quanti ne sono presenti nella popolazione) conviene comunque fare gli STR
presenti negli autosomici e quindi nei cromosomi non sessuali. Considero 1 allele
a ciascun locus (se faccio relazione parentale tra presunto padre e figlio; vado a
cercare un allele nel figlio e vedo se è presente anche nel padre e poi determino se
lo è per effetto del caso oppure per fattore di segregazione).

Se padre e madre a quel determinato locus sono omozigoti lo moltiplico per 1


altrimenti se sono eterozigoti lo moltiplico per 0,5.

CPI o Combined Paternity Index: PI= p(E I Hp)/p(E I Hd) = X/Y dove il rapporto
X/Y è il rapporto tra il fattore di segregazione dell’allele trasmesso da presunto
padre al figlio e la frequenza dello stesso nella popolazione è ed tanto più elevato
quanto più probabile è l’ipotesi Hp ovvero che il padre presunto sia il padre
biologico del figlio. Il fattore di segregazione è la probabilità che il presunto padre
abbia trasmesso l’allele in questione al figlio e vale 1, se il presunto padre è
omozigote per tale allele e 0.5 se è eterozigote. Analogamente alla RMP l’indice di
paternità viene calcolato per ogni locus esaminato i valori trovati vengono
moltiplicati tra loro poiché i loci esaminati sono indipendenti (teorema della
probabilità composta o del prodotto) ed in questo modo si ottiene l’indice di
paternità combinato.

PROBABILITA’ DI PATERNITA’: viene calcolata utilizzando il teorema di Bayes ed è la


probabilità del padre assunto di essere il padre biologico; richiede in via preliminare una
stima soggettiva delle probabilità a priori (cioè prima di fare il test del DNA); vi sono anche
qui due ipotesi contrapposte: l’ipotesi di paternità (Hp) e di non paternità (Hd). Le probabilità
sono descritte come segue: p (Hp I E) è la probabilità a posteriori dell’ipotesi di paternità
(Hp) data la compatibilità genetica dei profili del trio ed è la probabilità di paternità W
P(Hp) è la probabilità a priori dell’ipotesi di paternità
P(Hd) è la probabilità a priori dell’ipotesi di non paternità

Quando le due ipotesi di paternità e di non paternità sono assunte a priori come
equiprobabili, il teorema di Bayes prende la forma W= 1/1+Y/X

[QUINDI: Perché il test del DNA funziona? Perché i dati che vado ad ottenere mi
danno una frequenza talmente elevata di quel profilo genetico all’interno della
popolazione che è impossibile che due individui che condividono lo stesso profilo
siano differenti per effetto del caso perché ho molta più informazione dall’analisi di
una Random Match Probability rispetto all’informazione che può sostenere dal
numero di individui presenti in una popolazione].
Perché non si trova DNA contenuto nel mitocondrio di Bossetti nelle tracce
biologiche ritrovate sulla Gambirasio, nonostante fosse stato ritrovato il DNA
autosomico? Perché era molto degradato, ma se è così noi sappiamo come
ritrovarlo: sistema di catture con Marecich e col software MIA (e il ContamMix)
verificare la probabilità che il mitocondrio trovato ha di appartenere ad un’unica
fonte biologica oppure fonte di contaminazione avvenuta durante la scena del
crimine.

13.12.2016

Lezione di carattere Antropologico Fisico che hanno visto lo sviluppo dell’uomo in


Africa fino ad oggi.

L’unica specie non inserita è Naledi perché non è ancora datata.

- 35 milioni di anni fa in Africa Orientale


Si ha un deterioramento climatico e diminuzione di
umidità, inoltre a livello orografico si ha la formazione della
frattura tettonica nell’Africa orientale, quella che oggi è la
Rift Valley. I venti che provenivano dall’India arrivavano
meno e quindi anche l’umidità diminuiva perché i venti
portavano piogge  formazione di un ambiente diverso
simile a quella che oggi è la savana.
Caratteristiche animali tropicali: specie animali che si
arrampicavano sugli alberi; che si nutrivano di vegetali
(quindi avevano denti robusti, diversi dai canini che
servono per la carne).
Con il cambiamento ambientale ci saranno alcune specie
che sopravvivono e si adattano meglio rispetto ad altre:
hanno una maggiore fitness.
Quindi cambiamento ambientale dovuto alla formazione di una valle che ha
impedito alle correnti provenienti dall’India a spargere acqua all’interno dell’Africa
centro/Settentrionale e quindi da un ambiente tropicale si passa ad uno
“savanoso”.
Si pensa che da un piccolo mammifero detto Purgatorius (ritrovato
sulla cima del monte Purgatorio e simile a un topo) si sia
sviluppato l’ordine dei
Primati. Questo mammifero
era l’unico che poteva vivere al
tempo dei Dinosauri.

Ricorda:
Regno --- Animale
Phylum --- Cordati
Tipo --- Vertebrati
Classe --- Mammiferi
Ordine --- Primati
Sottordine --- Antropoidei
Infraordine --- Catarrini
Superfamiglia ---Ominoidei
Famiglia --- Ominidi
Sottofamiglia --- Ominini
Genere --- Homo
Specie --- Sapiens

- 28 milioni di anni fa (Oligocene)


Si osserva l’Aegyptopithecus (27 milioni anni fa) da cui
diparte la linea Proconsul (15 milioni di anni fa) che si
pensa abbia portato ad antenati della famiglia degli
Ominidi come Gorilla, Pan, Homo.
Denti abbastanza aguzzi per cui forse il tipo di nutrimento
era diverso da quello di coloro che vivevano propriamente
nella foresta che mangiavano solo vegetali.
Camminavano su 4 zampe quindi era adattato alla vita di
foresta, si arrampicava anche sugli alberi.
- 15/20 milioni di anni fa
Oreopithecus ritrovato nel monte Bamboli (provincia di Grosseto) all’interno della
miniera di Baccinello.
Primate europeo che sembra aver sperimentato un rudimentale e parziale
bipedismo, ma non ha avuto nessun tipo di proseguo in quanto si è estinto.
Sivapithecus Indus che probabilmente ha dato origine all’orango.
- 5/6 milioni di anni fa
Si ha la divergenza tra la linea
evolutiva che porta allo
scimpanzé e quella che ha
portato all’uomo. Quindi
esisteva un antenato comune
a queste linee che poi nel
corso dell’evoluzione hanno
portato allo sviluppo di generi
differenti.
Quindi non deriviamo dalle
scimmie.

-3,5 milioni di anni fa


Si ha la Savana: questo ambiente diventa importante. C’erano organismi che
vivevano nella foresta e stavano bene nella foresta ma alcuni che potevano stare
bene anche nella savana.

Per esempio Australopithecus Afarensis: come era Lucy, che


aveva la possibilità di arrampicarsi, ma anche di camminare bene
su due gambe (ce lo dicono sia i fossili, sia le impronte ritrovate
datate a 3,5 milioni di anni fa. Quando si sono
scoperti anche i reperti scheletrici è stato possibile
avere la certezza).
- Chi stava su due gambe nella savana aveva alcuni
vantaggi rispetto a quelli che stavano su due: se
stavano a due gambe riuscivano a vedere l’orizzonte
e scrutare i predatori, inoltre riuscivano anche a
salire sugli alberi.
- Inoltre camminando su due zampe potevano usare le mani per fare altre cose
anziché impiegarle per il movimento.

- Maggiore possibilità di cibarsi, perché avevano la possibilità di spostarsi da un


ambiente all’altro (savana e foresta), quindi erano ubiquitari e avevano meno
competitori per il cibo  si sperimenta un nuovo tipo di dieta.
Cambiando il tipo di dieta (da frutta e verdura alla carne in parte) ho anche un
cambiamento di tipo morfologico. Può darsi che vengano ridotti i denti, che
divengano un po’ più piccoli perché non c’è così bisogno di masticare vegetali.
Si sviluppano i denti a punta  diminuzione dei muscoli dell’apparato masticatore
 aumento del cervello, non solo perché diminuiscono i muscoli e gli fanno più
spazio ma anche perché mangio più proteine animali.
- Cambiamento dell’apparato nervoso sia per quello appena spiegato, sia perché
per il movimento degli arti superiori servivano stimolazioni nervose più fini (prima
si sviluppa il bipedismo e poi si raffina lo sviluppo del cervello).

Insieme al genere Australopithecus inizia a comparire un altro genere che è il


genere Homo, detto Homo Habilis (anche se alcuni lo chiamano Australopithecus
Habilis)

Tornando al discorso della dieta, sappiamo che la carne cruda richiede più impegno
masticatorio rispetto a quella cotta. Però per cuocerla serve il fuoco, quindi altro
passo avanti  l’apparato masticatore si modifica ulteriormente diminuendo lo
spazio e diventando più semplici e piccoli  aumentano le dimensioni del cervello
(perché denti più piccoli quindi meno muscoli)  per far aumentare le dimensioni
del cervello la colonna vertebrale deve sviluppare alcune curvature che permettono
di sostenerlo (testa più pesante, evoluzione di un grande cervello da 400cm3 a 800).

DIFFERENZE SCIMMIA E UOMO:


- Nelle scimmie la colonna vertebrale è più dritta perché hanno il cervello più
piccolo e stanno a 4 zampe.
- Nell’uomo il torace ha la forma di una botte in quanto le mani sono specializzate
nella manipolazione degli oggetti, nella scimmia invece ha la forma di un imbuto
rovesciato perché le braccia vengono impiegate nella locomozione.
- Il bacino umano è svasato per offrire ai muscoli glutei e alle gambe spazio per la
locomozione; la scimmia ha il bacino stretto e lungo e la colonna vertebrale è
lontana dalle articolazioni degli arti posteriori
- Le gambe dell’uomo
sono più lunghe delle
braccia con un femore
leggermente obliquo per
distendere l’arto; le
scimmie hanno arti
posteriori più corti di
quelli anteriore, il
femore è verticale e
l’articolazione del
ginocchio non gli consente di stendere le gambe.

- L‘alluce umano non è opponibile alle altre dita del piede, ma serve a migliorare
l'appoggio sul terreno e a dare l'ultima spinta durante la locomozione, i primati non
umani hanno l'alluce opponibile alle altre dita del piede, per potersi afferrare ai
rami degli alberi

Il canale del parto


dell’uomo è più o meno
uguale a quello
dell’Australopithecus.
La differenza è la
grandezza del cervello nel
momento della nascita che
nell’uomo si “sviluppa”
crescendo mentre negli
Australopitecini è subito
sviluppato ma comunque
più piccolo rispetto a
quello dell’uomo non
sviluppato al momento della nascita.

La Mano
- La capacità di camminare in posizione eretta determina la “liberazione” degli arti
anteriori dalla deambulazione.
- Si aprirono molti orizzonti culturali e tecnologici: caccia, trasporto, produzione
dei primi manufatti
- Le mani delle Australopitecine avevano caratteristiche simili a quelle umane, ma
non erano in grado di compiere movimenti di precisione.
Homo Erectus
Possiamo osservare la colonna vertebrale e alcune caratteristiche
post-craniali. Le colonne vertebrali erano larghe, perché ci passano
molti nervi perché sono aumentate le capacità di precisione che gli
ominidi hanno sviluppato (aumentano perché hanno un cervello più
grande grazie alla dieta ecc..)
Iniziano a spostarsi per la ricerca del cibo e intorno a 2,5 milioni di
anni fa escono dall’Africa.
- Pollice opponibile  capacità di costruire utensili ad esempio per la caccia

Nelle antropomorfe (scimmie) il pollice è corto e tozzo e le falangi sono


ricurve; nell'uomo moderno, invece, le falangi delle dita sono dritte e l'ultima
falange del pollice è molto più lunga  Viene così aumentata la sensibilità, la
mobilità di tutte le articolazioni (comprese quelle del braccio e della spalla) ed è
permesso un raffinato controllo dei movimenti.

Potrebbero piacerti anche