Sei sulla pagina 1di 33

d AVID c A R A M ELLI

ANTROPOLOGIA MOLECOLARE
Manuale di base

FIRENZE
UNIVERSITY

PRESS

manuali
scienze

pianeta redi
comitato scientifico
renato fani
david caramelli
alessio mengoni

titoli gi pubblicati

La PCR e le sue varianti. Quaderno di laboratorio, a cura di Angela Scialpi,


Alessio Mengoni, 2008
David Caramelli, Antropologia molecolare. Manuale di base, 2009

david caramelli

Antropologia molecolare
Manuale di base

Firenze University Press


2009

Antropologia molecolare : Manuale di base /


David Caramelli. Firenze : Firenze University
Press, 2009.
(Manuali . Scienze ; 5)
http://digital.casalini.it/9788884537546
ISBN 978-88-8453-696-9 (print)
ISBN 978-88-8453-754-6 (online)

Il volume stato realizzato grazie al contributo del progetto UE BioTethed


contract number 017474.

Progetto grafico di Alberto Pizarro Fernndez


2009 Firenze University Press
Universit degli Studi di Firenze
Firenze University Press
Borgo Albizi, 28, 50122 Firenze, Italy
http://www.fupress.com/
Printed in Italy

Sommario

Cap. 1 Il genoma umano


1.1 Introduzione
1.2 La struttura degli acidi nucleici
1.3 Caratteristiche dei cromosomi umani
1.4 I geni
1.5 Le sequenze ripetute e intersperse nel genoma
1.6 Le parti non ricombinanti del genoma umano

1
1
2
5
7
12
15

Cap. 2 La variabilit del genoma umano


2.1 Introduzione
2.2 Origine della variabilit genetica
2.3 Polimorfismi a singolo nucleotide: mutazioni geniche
o puntiformi
2.4 Polimorfismi di lunghezza
2.5 Gli elementi trasponibili 

49
49
53

Cap. 3 Studio della diversit del genoma umano


3.1 Considerazioni generali 
3.2 Il database e gli SNPs
3.3 Scoperta e tipizzazione dei microsatelliti
3.4 Scoperta e tipizzazione dei minisatelliti
3.5 Scoperta e tipizzazione dei polimorfismi Alu/LINE
3.6 Scoperta e tipizzazione di satelliti e polimorfismi
strutturali

79
79
80
87
89
90

Cap. 4 I meccanismi dellevoluzione


4.1 Introduzione
4.2 La legge di Hardy-Weinberg
4.3 Processi che agiscono sulla variabilit delle popolazioni

93
93
93
94

58
70
76

91

VI

sommario

4.4 La teoria neutrale dellevoluzione molecolare


e lipotesi dellorologio molecolare
Cap. 5 Evoluzione molecolare
5.1 Introduzione
5.2 Sostituzioni nucleotidiche in una sequenza di DNA
5.3 Divergenza tra sequenze e stima delle distanze
genetiche fra molecole
5.4 Misura della variabilit genetica nelle popolazioni
e stima delle distanze genetiche fra popolazioni

113
117
117
117
124
127

Cap. 6 Metodi filogenetici


6.1 Terminologia e topologia degli alberi filogenetici
6.2 Metodi per la costruzione di alberi filogenetici
6.3 Datazione delle ricostruzioni filogenetiche e stima
del TMRCA

133
133
135

Cap. 7 Lanalisi molecolare


7.1 Estrazione del DNA: introduzione
7.2 La reazione a catena della polimerasi
7.3 Il clonaggio
7.4 Il sequenziamento automatico del DNA. Il metodo
di Sanger

149
149
164
171

Cap. 8 Il DNA antico


8.1 Introduzione
8.2 Diagenesi del DNA antico
8.3 Sopravvivenza del DNA nellambiente naturale
8.4 Esempi di resti antichi da cui possibile estrarre il DNA
8.5 Problemi relativi allanalisi del DNA antico
8.6 Marcatori del DNA antico
8.7 Importanza della quantificazione 
8.8 Differenza tra sequenziamento diretto
e sequenziamento da cloni
8.9 Amplificazioni di frammenti lunghi

185
185
186
188
189
191
208
210

Cap. 9 Come si effettua uno studio sul DNA antico


9.1 Introduzione
9.2 Il recupero
9.3 La conservazione
9.4 Il prelievo del campione per lanalisi molecolare
e la preparazione della polvere
9.5 Analisi della racemizzazione degli amminoacidi
9.6 Analisi termogravimetrica
9.7 Estrazione del DNA

213
213
215
217

147

179

210
212

218
219
225
225

antropologia molecolare

9.8 I primers
9.9 La prova inibitori
9.10 La PCR competitiva
9.11 Visualizzazione del risultato
9.12 La Real Time PCR: levoluzione della PCR
competitiva
9.13 Lamplificazione del DNA
9.14 Taglio della banda e purificazione
9.15 Clonaggio del DNA con il TopoTA Cloning
9.16 Conservazione dellamplicone e creazione
dellArchivio Biologico
9.17 Reazione di sequenza
9.18 Ricostruzione al PC della sequenza nucleotidica

VII

226
227
227
230
233
234
235
236
236
236
237

Cap. 10 Il DNA antico ed il DNA forense


10.1 Introduzione
10.2 DNA antico
10.3 DNA forense
10.4 Principali punti dunione tra le analisi
10.5 Lautenticit dei risultati: valutazioni e metodiche
applicate

241
241
241
242
244

Cap. 11 Evoluzione umana e popolamento


11.1 Origine delluomo anatomicamente moderno
11.2. Prove di una origine africana dai resti fossili
11.3 Evidenze genetiche
11.4 Diffusione extra-africana di Homo sapiens 
11.5 Dispersioni multiple 
11.6 Contributo degli studi sul DNA antico allorigine
delluomo anatomicamente moderno
11.7 Studio filogenetico delle popolazioni
secondo i marcatori classici

247
249
250
252
258
264

Bibliografia

295

Indice dei concetti

321

244

266
279

Hanno collaborato alla ricerca e alla stesura dei capitoli:


Giulio Catalano e Elena Pilli (Capitolo 1); Elena Pilli (Capitoli 2, 3, 8, 9, 10);
Martina Lari (Capitoli 4, 5 e 6); Giulio Catalano e Elena Pilli (Capitolo 7); Lucio
Milani (Capitolo 11).

Capitolo 1
Il genoma umano

1.1 Introduzione
Ogni organismo vivente, unicellulare o multicellulare, caratterizzato
dalla presenza di molecole di acido nucleico (DNA o RNA) in grado di produrre copie identiche a se stesse. Esclusi alcuni virus a RNA, linformazione
genetica degli organismi viventi contenuta nelle molecole di DNA. Con
il termine genoma si definisce il contenuto completo dellinformazione
genetica. Il contenuto totale di DNA negli eucarioti e quindi la dimensione
del genoma correlata alla complessit dellorganismo (ad es., il genoma
umano pi grande di quello degli insetti che a sua volta pi grande di
quello funghi). Esistono per diverse eccezioni: es. il genoma di X. laevis
grande quanto quello dei mammiferi; altri anfibi hanno un genoma circa
50 volte pi grande del genoma umano; tra le piante, il genoma di Zea
mais (5000 Mbp) pi grande di quello umano. In genere, per un dato
raggruppamento tassonomico, la dimensione minima del genoma approssimativamente proporzionale alla complessit dellorganismo. Come
per il contenuto di DNA, anche il numero e le dimensioni dei cromosomi
molto variabile tra gli eucarioti (Tab. 1.1). Il materiale genetico degli
eucarioti suddiviso in pi cromosomi lineari. Il numero cromosomico,
salvo poche eccezioni, caratteristico per ciascuna specie. Molti eucarioti
hanno due copie di ciascun tipo di cromosoma presente nel nucleo, e per
questo motivo, il loro assetto detto diploide, vale a dire 2N.
Nelluomo il cariotipo, ovvero linsieme completo di tutti i cromosomi metafasici di una cellula, costituito da 46 cromosomi. Di questi,
44 cromosomi, detti autosomi, sono 22 coppie di cromosomi omologhi,
identici nei due sessi. Per questo motivo i geni contenuti in ogni autosoma sono in duplice copia, una per omologo. Gli altri 2 cromosomi sono
quelli sessuali, rappresentati da due cromosomi X nella femmina e da

il genoma umano

1 cromosoma X e un cromosoma Y nel maschio. La femmina ha quindi


una doppia copia, una per omologo, dei geni localizzati sul cromosoma
X, il maschio invece ne ha una sola ed quindi emizigote per i geni del
cromosoma X.
Tabella 1.1. Dimensioni e numero di cromosomi in alcuni eucarioti.
TAXON
Mammalia

Aves
Amphibia
Fish
Insecta

Nematoda
Protozoa

SPECIE
Homo sapiens
Pan troglodites
Bos taurus
Canis familiaris
Mus musculus
Rattus norvegicus
Gallus gallus
Xenopus laevis
Xenopus tropicalis
Danio rerio
Tetradon nigroviridis
Drosophila melanogaster
Anopheles gambiae
Apis mellifera
Caenorhabditis elegans
Leishmania major
Plasmodium falciparum

GENOMA (Mpb) N CROMOSOMI


3200
2100
3000
2385
2500
2700
1054
3100
1700
1700
400
180
278
228
97
34
26

23
24
30
39
20
21
39
18
10
25
22
4
5
16
6
36
14

1.2 La struttura degli acidi nucleici


Sia il DNA sia lRNA sono grandi macromolecole (polimeri) composte
da unit costitutive pi piccole (monomeri). Per comprendere meglio la
loro struttura, possiamo considerare alcuni livelli di complessit:
1. I nucleotidi sono lunit strutturale ripetitiva degli acidi nucleici.
2. I nucleotidi sono legati tra loro a formare un filamento di DNA o
di RNA. La sequenza lineare di nucleotidi di un filamento detta
struttura primaria del DNA o dellRNA.
3. Due filamenti di DNA (e talvolta di RNA) possono interagire luno
con laltro per formare una doppia elica (Fig.1.1a). La doppia elica
un esempio di struttura secondaria regolare ripetitiva. La doppia
elica del DNA pu adottare differenti strutture secondarie, dette
DNA-A, DNA-B e DNA-Z.
4. I vari ordini di ripiegamento delle strutture secondarie formano
una struttura tridimensionale finale che prende il nome di struttura terziaria. Allinterno delle cellule viventi il DNA associato

antropologia molecolare

ad unampia variet di proteine che influenzano la sua struttura


terziaria finale.
Il nucleotide lunit strutturale ripetitiva del DNA e dellRNA. Un
nucleotide ha tre componenti: un gruppo fosfato, uno zucchero pentosio
e una base azotata. Come indicato in figura (Fig. 1.1), i nucleotidi possono
differire per quanto riguarda lo zucchero e la base azotata. Vi sono due
tipi di zuccheri: ribosio e deossiribosio.
Figura 1.1. Struttura del DNA.

Nel DNA lo zucchero presente sempre il deossiribosio, nellRNA


il ribosio. I due zuccheri differiscono per i gruppi sostituenti legati al
carbonio 2: un gruppo idrossilico (OH) nel ribosio, un gruppo idrogeno
(H) nel desossiribosio. Le cinque diverse basi sono distinte in due diversi
gruppi: purine e pirimidine. Le basi puriniche, ladenina (A) e la guanina
(G), contengono una struttura a doppio anello (biciclica); le basi pirimidiniche, la citosina (C), la timina (T) e luracile (U), presentano invece una
struttura a singolo anello (monociclica). Il DNA e lRNA si distinguono
per alcune importanti caratteristiche chimiche (Figg. 1.2.a, 1.2.b). Infatti
la base timina non presente nellRNA e al suo posto presente luracile.
Ladenina, la guanina e la citosina sono i nucleotidi costituenti sia del DNA
sia dellRNA. Nel DNA e nellRNA le basi sono sempre unite al carbonio
1 del pentoso da un legame covalente. Le basi puriniche sono legate
allazoto 9, mentre le pirimidine si legano allazoto 1. La combinazione
di uno zucchero e di una base detta anche nucleoside. Il nucleoside con
un fosfato ad esso legato diventa un nucleotide, o un nucleoside fosfato.
Il gruppo fosfato legato al carbonio 5 dello zucchero sia nel DNA che
nellRNA. Per la formazione dei polinucleotidi di DNA e di RNA, i nucleotidi vengono uniti da un legame covalente tra il gruppo fosfato di un
nucleotide ed il carbonio in 3 del pentoso dellaltro nucleotide. Questo
tipo di legame fosfato 5-3 viene detto legame fosfodiesterico.

il genoma umano

Figura 1.2. a) Struttura del ribosio e del desossiribosio b) Struttura di


un nucleotide.

1.2.1 La doppia elica di Watson e Crick


La scoperta della doppia elica da parte di Watson e Crick nel 1953 fu
senza dubbio uno dei momenti pi importanti di tutta la biologia. Per la
formulazione del loro modello, Watson e Crick si avvalsero delle scoperte
condotte da Erwin Chergaff, riguardanti la composizione in basi del DNA,
e da Rosalind Franklin e Maurice H.F. Wilkins nel campo della diffrazione
ai raggi X. Chargaff aveva dimostrato che in qualsiasi tipo di DNA a doppia
elica la quantit di purine era uguale a quella di pirimidine. E ancora che
la quantit di adenina (A) era pari a quella di timina (T), mentre la quantit di guanina (G) era pari a quella di citosina (C). Queste equivalenze
sono divenute note come le regole di Chargaff. Nel confronto di DNA da
organismi diversi, i rapporti A/T e G/C erano sempre gli stessi.
Rosalind Franklin, coadiuvata da Maurice Wilkins, aveva studiato
fibre isolate di DNA mediante la tecnica della diffrazione dei raggi X. I
raggi X diffratti sono registarti su una lastra fotografica: analizzando la
fotografia, Franklin ottenne delle informazioni sulla struttura atomica
della molecola. I suoi studi giunsero alla conclusione che il DNA era una
struttura ad elica che presentava due periodicit riconoscibili di 0,34 nm
e 34 nm lungo lasse della molecola.
Watson e Crick elaborarono questi risultati e costruirono un modello
tridimensionale della struttura del DNA. Il modello proposto da Watson
e Crick presenta le seguenti caratteristiche:
1. La molecola di DNA composta da due catene polinucleotidiche
avvolte luna intorno allaltra a formare una doppia elica destrorsa,
ovvero in senso orario.

antropologia molecolare

2. Le due catene sono antiparallele, cio hanno polarit opposta. Un


filamento orientato n direzione 5-3 e laltro in quella 3-5.
3. Lo scheletro, costituito dalle catene di zucchero legate fra loro
dallortofosfato, allesterno della struttura, mentre le basi azotate
sono allinterno. Le basi sono disposte perpendicolarmente allasse
principale della doppia elica.
4. Le basi dei filamenti opposti sono unite da deboli legami idrogeno.
Il diametro della doppia elica di 20 , e le basi sono appaiate in
modo tale da non creare distorsioni nella struttura della molecola: a
una purina su unelica corrisponde sempre una pirimidina sullaltra
elica. Non c mai appaiamento tra due purine o tra due pirimidine.
Inoltre data la struttura chimica delle basi e la possibilit di stabilire
legami idrogeno, gli unici appaiamenti possibili sono tra adenina e
timina e tra guanina e citosina.
5. La forma pi comune, assunta dalla doppia elica in condizioni
fisiologiche, detta forma B. In questa forma, un giro completo
della doppia elica di 34 , e la distanza fra due coppie di basi di
3,4 , per cui ogni giro dellelica formato da 10 coppie di basi.
6. Entrambi i filamenti sono destrorsi, e le ossature esterne di zucchero-ortofosfato formano due solchi di dimensioni diverse, detti solco
maggiore e solco minore. Le proteine che interagiscono con il DNA,
e che riconoscono una determinata sequenza di basi, normalmente
entrano in contatto con la doppia elica nel solco maggiore.

1.3 Caratteristiche dei cromosomi umani


I cromosomi umani variano in grandezza e morfologia. La morfologia
viene definita dalla posizione del centromero, che per convenzione divide
il cromosoma in un braccio corto, denominato p, e in un braccio lungo,
denominato q. I cromosomi si dicono metacentrici quando il rapporto
tra la lunghezza del braccio corto e quella del braccio lungo allincirca
1 (il centromenro posizionato al centro del cromosoma); si dicono
submetacentrici quando la lunghezza delle braccia lunghe superiore a
quella delle braccia corte (il centromero posizionato a breve distanza dal
centro del cromosoma); si definiscono acrocentrici quando il centromero
si trova terminalzzato verso unestremit del cromosoma. Il cromosoma
costituito da due strutture fondamentali: il centromero e il telomero. Il
centromero lega i microtubuli del fuso durante la divisione cellulare ed
responsabile della corretta segregazione in fase di mitosi e di meiosi. Il
telomero protegge le estremit dei cromosomi dalla degradazione e dalla
fusione coda-coda, e assicura un ancoraggio alla DNA polimerasi per la
duplicazione delle sequenze pi terminali.
Quando i cromosomi sono a determinata tecniche di bandeggio,
come il bandeggio G o il bandeggio R, avviene una denaturazione lungo

il genoma umano

il loro asse, che determina, dopo colorazione con Giemsa, unalternanza


di bande chiare e scure. Il pattern di alternanza di tali bande ricorrente
in ogni individuo ed specificodi ogni cromosoma, in quanto riflette la
concentrazione relativa, che regione-specifica, di AT o CG.
Quando possiamo concretamente osservare nel modo migliore i cromosomi, e cio alla metafase, i cromosomi appaiono a forma di X: due
bastoncini attaccati nella loro zona centrale. In questo stadio ogni cromosoma quindi composto da due parti dette cromatidi (Fig. 1.3). Poich la
molecola di DNA che compone un cromatide di un cromosoma ha la stessa
sequenza della molecola di DNA che costituisce laltro, i due cromatidi di
uno stesso cromosoma sono anche detti cromatidi fratelli. La condensazione dei cromosomi ne facilita una ripartizione ordinata, senza pericolo
di aggrovigliamento tra molecole di DNA diverse. La cellula quindi prima
duplica tutto il DNA nucleare, poi lo divide tra le due cellule figlie. Pertanto
solo durante le prime fasi della divisione cellulare il corredo dei cromosomi
apparir come un insieme di 46 elementi a forma di X (due cromatidi
uniti a livello del centromero, per un totale di 92 cromatidi), mentre alla
anafase i due cromatidi si separeranno e appariranno come due bastoncini singoli a forma di I. Nel periodo che intercorre tra una divisione e
laltra il materiale genetico normale in effetti composto, per ogni cellula
somatica, da 46 cromatidi singoli, che tuttavia noi non visualizziamo perch
queste 46 molecole di DNA sono despiralizzate in filamenti sottilissimi a
formare la cromatina. Questa si differenzia in eucromatina che comprende
le regioni cromosomiche non condensate, attivamente trascritte e ad alta
densit genica (fibre 30 nm) e in eterocromatina (facoltativa o costitutiva)
che rappresenta una cromatina mediamente o altamente condensata e
Figura 1.3. I 46 cromosomi umani.

antropologia molecolare

generalmente non trascritta, ad alta percentuale di sequenze ripetute e


contenuto di geni relativamente basso.

1.3.1 Il bandeggio cromosomico


La definizione corretta del cariotipo deve basarsi su tecniche di bandeggio. Ne esistono diverse, specifiche per le diverse regioni cromosomiche, di cui riflettono la costituzione in basi e sequenze (uniche o ripetute)
e lo stato trascrizionale.
Il bandeggio G (Giemsa) o R (Reverse) specifico delleucromatina, determina una scomposizione in bande chiare e scure dellasse cromosomico
(lalternanza di bande chiare e scure nel bandeggio R quasi complementare rispetto a quella ottenuta con il bandeggio G, da qui il termine riverse)
ed quindi indispensabile per la corretta definizione del cariotipo. Anche il
bandeggio Q specifico per leucromatina, dando un pattern di bandeggio
del tutto sovrapponibile al bandeggio G, e colora selettivamente anche il
braccio lungo del cromosoma Y, nella sua larga porzione eterocromatica.
Il bandeggio C specifico per leterocromatina centromerica e pericentromerica, che con questa tecnica appare intensamente colorata, mentre
leucromatina delle braccia corte e lunghe rimane pressoch incolore. La
colorazione NOR colora specificamente i satelliti dei cromosomi acrocentrici 13, 14,15,21 e 22, ed esclusiva di queste regioni.
Il pattern di bandeggio delle braccia corte e lunghe di ogni cromosoma
viene indicato secondo una nomenclatura internazionale. Ogni banda
identificata da un numero, di grandezza crescente procedendo dal centromero verso il telomero, e ogni regione cromosomica usualmente definita
da un doppio ordine di numeri:il primo riferito alla banda maggiore e il
secondo a una delle sue sottobande minori. I numeri che identificano le
regioni cromosomiche, cos come il numero complessivo delle bande, si
diversificano a seconda del grado di condensazione cromosomica.

1.3.2 DNA a sequenze uniche


Le sequenze uniche (a singola copia), sono definite come le sequenze
presenti nel genoma come copie singole. Nelluso corrente, il termine si
applica alle sequenze di cui nel genoma presente una o poche copie. La
maggior parte dei geni strutturali, rientra nella classe di DNA a sequenza
uniche. Nelluomo si stima che le sequenze uniche rappresentino circa il
65 per cento del genoma.

1.4 I geni
Tradizionalmente, il gene definito come un segmento di DNA che
codifica per un polipeptide o per una specifica molecola di RNA. Signi-

il genoma umano

ficativi progressi in campo molecolare hanno tuttavia contribuito a rendere il concetto di gene pi ampio. In accordo con questi studi, il gene
una specifica regione di DNA, la cui trascrizione regolata da uno o pi
promotori e altri elementi di controllo trascrizionale che contiene linformazione per la sintesi di molecole di RNA tra loro correlate (con un tratto
di sequenza in comune) che possono svolgere varie attivit funzionali, ed
eventualmente dirigere la sintesi di catene polipeptidiche.
Oggi si riconoscono quattro classi di geni: (1) geni che codificano per le
proteine, che sono trascritti in RNA e successivamente tradotti in proteine,
(2) geni codificanti per proteine organizzati in famiglie geniche (3) geni
RNA-specifici (geni per rRNA, tRNA ed istoni), che sono esclusivamente
trascritti e organizzati per unit ripetute in tandem e (4) geni per ncRNA
(Cavalier-Smith 1985; Watson et al. 1987; Lewin 1994). Questultima
categoria di geni include solo sequenze non-trascritte, mentre i geni regolatori trascritti appartengono essenzialmente ad una delle prime due
categorie. I geni che codificano per le proteine e i geni RNA-specifici sono
anche noti come geni strutturali. I geni organizzati in famiglie geniche
sono tra loro omologhi, e derivano da un evento di duplicazione genica o
di retrotrasposizione mediata da RNA. I membri di una famiglia genica
allinterno di uno stesso genoma sono detti paraloghi, e normalmente si
specializzano acquisendo funzioni distinte. Nei batteri la trascrizione di
tali geni condotta da un solo tipo di RNA polimerasi e la sintesi avviene
nel citoplasma. Nel genoma nucleare degli eucarioti, sono coinvolti tre
tipi di RNA polimerasi (Watson et al. 1987; Lewin 1994). I geni RNA
ribosomici (rRNA) sono trascritti dalla RNA polimerasi I (Pol I), i geni
strutturali dalla RNA polimerasi II (Pol II), e i geni RNA citoplasmatici
(scRNA), come i geni codificanti gli RNA di trasporto, dalla RNA polimerasi III (Pol III).

1.4.1 I geni strutturali


Un gene strutturale tipo che codifica per un polipeptide consiste di
una parte trascritta e di una parte non-trascritta. Le parti non trascritte
sono definite, in ragione della loro ubicazione allinterno del gene, come
regioni fiancheggianti alle estremit 5 e 3. La regione fiancheggiante
allestremit 5(o regione del promotore) provvede attraverso numerosi
segnali a promuovere lavvio della trascrizione. Negli eucarioti, la sequenza
del promotore pi variabile e spesso pi complessa di quella presente
nei procarioti. Di solito costituita da un nucleo del promotore (core
promoter) e da elementi regolativi. Il nucleo del promotore indispensabile affinch avvenga la trascrizione; infatti il nucleo del promotore,
la cui funzione simile a quella di un promotore batterico, a fornire il
sito di legame iniziale per i fattori generici di trascrizione e per la RNA
polimerasi. Alcune brevi sequenze di DNA, dette elementi o box, sono

antropologia molecolare

importanti affinch i fattori generici di trascrizione e la RNA polimerasi


si assemblino in corrispondenza del promotore. Il nucleo del promotore
composto di solito da una sequenza TATAAAA detta TATA box situata
a 19-27 paia di basi a monte del punto di inizio della trascrizione. Inoltre
sono presenti altri due elementi del promotore a monte della TATA box
una sequenza GGCCAATCT, detta CAAT box, e una sequenza GGGCGG,
detta GC box. Per il numero e la posizione delle GC box e delle CAAT box
variano notevolmente nei diversi geni strutturali eucariotici. Il ruolo della
TATA box differisce da quello a della CAAT box e della GC box. La TATA
box importante nel determinare il sito di inizio preciso della trascrizione. Se manca dal nucleo del promotore, il sito di inizio della trascrizione
diventa indefinito, e la trascrizione pu iniziare in varie posizioni. Invece
la CAAT box e la GC box funzionano da siti di riconoscimento ai quali
si legano i fattori di trascrizione, e inoltre reclutano la RNA polimerasi
nelle vicinanze della regione del promotore. Negli eucarioti sono presenti
parecchi fattori generici di trascrizione. Queste proteine interagiscono per
attirare la RNA polimerasi verso la regione del nucleo del promotore e dare
il via al processo della trascrizione. Allestremit 3 gli eucarioti superiori
contengono una sequenza AAUAAA. Questa sequenza di poliadenilazione
(o coda di poliA) contiene i segnali responsabili della terminazione del
processo di trascrizione.
Durante la trascrizione viene sintetizzato un RNA corrispondente
allintera sequenza genica; successivamente, le sequenze dellRNA che
corrispondono agli introni genici (sequenze non codificanti) vengono
tagliate via, mentre le sequenze di RNA derivanti dagli esoni (sequenze
codificanti) vengono giuntate tra loro. Questo processo prende il nome
di splicing (taglio e saldatura) dellRNA. Oltre allo splicing, le ricerche
hanno indicato che esistono svariati meccanismi molecolari che spiegano
le diverse modificazioni dellRNA. Per esempio, gli rRNA e i tRNA vengono
sintetizzati come lunghi trascritti che sono scissi in segmenti funzionali pi
piccoli. Inoltre, la maggior parte degli mRNA eucariotici ha un cappuccio
(cap) attaccato allestremit 5 e una coda di poliA attaccata allestremit
3. A livello molecolare sono stati identificati tre differenti meccanismi di
splicing dellRNA. In tutti e tre i casi lo splicing determina la rimozione
dellRNA intronino e lunione covalente dellRNA esonico mediante un
legame fosfodiesterico. A differenza dello splicing degli introni del I gruppo
e del II gruppo, capaci di auto-splicing, il terzo meccanismo di splicing
(del pre-mRNA) richiede lausilio di una struttura a pi componenti detta spliceosoma. Non si conosce limportanza biologica degli introni del
gruppo I e del gruppo II, mentre lo splicing del pre-mRNA un fenomeno
frequente negli eucarioti superiori.
Per i geni strutturali la sequenza nucleotidica dellmRNA tradotta in
una sequenza di aminoacidi: la traducibilit dellmRNA in una specifica
sequenza aminoacidica si basa sul codice genetico. La sequenza delle basi

10

il genoma umano

di una molecola di mRNA fornisce uninformazione codificata che viene


letta a gruppi di tre nucleotidi. Ogni gruppo di tre nucleotidi si chiama
codone. A seconda della successione delle sue tre basi, un codone pu
avere due funzioni diverse: nella maggior parte delle combinazioni esso
specifica un particolare aminoacido. Per esempio, il codone CCC specifica
laminoacido prolina, il codone AUG laminoacido metionina. A volte, per,
un codone, definito di arresto, ha il compito di terminare il processo di
traduzione. Poich nellmRNA ci sono quattro tipi di basi (A, U, G e C)
e in ogni codone ci sono tre nucleotidi, possono formarsi 43=64 codoni
diversi. Tuttavia ci sono soltanto 20 tipi di aminoacidi (Fig. 1.4). Poich
i codoni sono pi degli amminoacidi, il codice genetico degenerato;
ci significa che pi di un codone specifica lo stesso amminoacido. Per
esempio, i codoni GGU, GGC, GGA e GGG specificano tutti laminoacido
glicina. In molti casi la base degenerata la terza che per questo motivo
viene definita base oscillante (wobble base). Il termine deriva dallidea che
la base complementare del tRNA possa oscillare leggermente durante il
riconoscimento della terza base del codone dellmRNA.
Figura 1.4. Codice genetico degenerato.

TERZA BASE DEL CODONE

PRIMA BASE DEL CODONE

SECONDA BASE DEL CODONE

Dallanalisi di molte specie diverse di batteri, protozoi, funghi, piante


e animali i ricercatori hanno ricavato che il codice genetico quasi universale. Esistono, infatti, alcune eccezioni. I mitocondri hanno un proprio
codice, con alcune differenze. Per esempio, AUA significa metionina e
UGA significa triptofano.

antropologia molecolare

11

Affinch la traduzione dellmRNA avvenga a un ritmo efficiente allinterno di una cellula vivente, sono necessari svariati componenti cellulari.
Tra di essi vi sono i ribosomi, gli RNA di trasporto (tRNA), certi fattori
proteici e alcune piccole molecole. Specifiche sequenze dellmRNA sono
necessarie per garantire che sia sintetizzata la sequenza corretta di aminoacidi. Negli eucarioti il ribosoma esplora lmRNA in cerca di un codone di
inizio, che sar il punto iniziale della traduzione. Generalmente il codone di
inizio AUG, codone che specifica il primo aminoacido del polipeptide, la
metionina. La sintesi di un polipeptide comporta interazioni tra lmRNA, il
ribosoma e le molecole di tRNA. Il ribosoma scorre lungo lmRNA nella direzione 53. Mentre il ribosoma scorre su un codone dellmRNA, un tRNA
con un anticodone complementare si lega al codone; allestremit opposta
il tRNA porta un amino acido. Il tRNA ha quindi due funzioni importanti:
il suo anticodone si lega in modo specifico con un codone dellmRNA e,
inoltre, esso trasporta lamminoacido giusto alla sua estremit opposta. In
questo modo il tRNA funge da intermediario traduttore durante la sintesi
del polipeptide. Il codone di inizio dellmRNA generalmente seguito da
centinaia o anche da migliaia di codoni che specificano la sequenza amminoacidica del polipeptide che deve essere sintetizzato. Il ribosoma scorre i
codoni uno dopo laltro, in un processo a tappe, mentre le molecole di tRNA
si legano ai codoni tramite gli anticodoni, portando con s lamminoacido
corretto. Nel frattempo, gli amminoacidi vengono staccati dalle molecole
di tRNA e legati luno allaltro a formare una catena polipeptidica. Infine,
si raggiunge un codone di arresto che segnala la fine della traduzione. A
questo punto il ribosoma, lmRNa e il polipeptide si dissociano.

1.4.2 I geni tRNA e rRNA specifici


I singoli geni codificanti per i tRNA sono presenti in copie multiple
nel genoma. Nella sequenza del genoma umano, sono stati individuati 497
geni per tRNA, che rappresentano 49 specie di tRNA sulla base dellanticodone. I geni per tRNA sono dispersi nel genoma ma sono organizzati
in cluster: pi del 50% sono localizzati sul cromosoma 6 (140 geni in
una regione di 4Mpb) e sul cromosoma 1. Altri cromosomi hanno meno
di 10 geni per tRNA. Il numero di geni per tRNA risulta correlato con le
dimensioni degli oociti. I geni codificanti per per gli rRNA 28S, 5,8S e 18S
sono organizzati in ununit trascrizionale ripetuta in tandem. Nel genoma
umano, le ripetizioni sono organizzate in 5 cluster di circa 150-200 copie
presenti sul braccio corto dei cromosomi 13,14,15, 21 e 22. I geni lrRNA
5S sono organizzati in unit ripetute che formano un cluster di ~200-300
geni in prossimit dellestremit telomerica del cromosoma 1. I genomi
eucariotici codificano per un gran numero di RNA non codificanti proteine (ncRNA). Circa il 30% dei trascritti identificati nel topo risulta non
codificante per proteine.

12

il genoma umano

1.4.3 Le famiglie geniche


Le famiglie geniche sono componenti comuni di tutti i genomi eucariotici,
soprattutto di quelli degli organismi complessi, dove la formazione delle
famiglie geniche considerata una strategia utilizzata dal genoma nucleare
per specializzare il ruolo funzionale di alcuni geni, sia per quanto riguarda
il profilo di espressione che per quanto riguarda il ruolo funzionale delle
proteine espresse. Le famiglie geniche possono andare incontro a contrazioni
o espansioni (relazioni uno a molti o molti a molti) Le famiglie geniche
possono essere generate attraverso diversi meccanismi:poliploidizzazione del
genoma, duplicazione di segmenti genomici (famiglia dei geni omeotici), duplicazione di un singolo gene (geni per e globine) e retrotrascrizione.

1.4.4 Gli pseudogeni


Talvolta la copia di un gene non funzionale, ovvero non viene trascritta in RNA, o viene trascritta in un RNA non funzionale. Le copie
inattive di un gene vengono dette pseudogeni. Gli pseudogeni possono
essere classificati in: 1) non processati; 2) processati. Nel primo caso il
gene inattivo originato dal gene funzionale e contiene la tipica struttura
in esoni ed introni. La copia genica pu essere completa o parziale. Gli
pseudogeni di questo tipo si formano con maggiore probabilit nelle regioni pericentromeriche. Gli pseudogeni processati sono privi di introni
in quanto derivano dalla retrotrasposizione di mRNA (retropseudogeni).
Il numero di copie di retropseudogeni correlato al livello di espressione
del gene da cui derivano. Nel genoma umano sono stati descritti ~8.000
pseudogeni (~5.000 nel genoma del topo). Il maggior numero di pseudogeni processati deriva da geni per proteine ribosomiali; altri gruppi
derivano da geni che codificano per proteine che legano il DNA e lRNA,
per molecole strutturali ed enzimi metabolici. Molti pseudogeni derivano
da geni a cui non stata attribuita una funzione. Oltre al livello di espressione dei geni, altri fattori gene-specifici sono responsabili dellorigine
degli pseudogeni, quali la lunghezza o il loro contenuto in G+C.

1.5 Le sequenze ripetute e intersperse nel genoma


In seguito ad analisi molecolari stato quindi osservato che alcune
sequenze sono presenti una volta nel genoma, mentre altre sequenze
sono ripetute. Complessivamente si identificano tre categorie di sequenze:
DNA e sequenze uniche (presenti da una a poche copie per genoma), DNA
moderatamente ripetuto (presenti da poche fino a 105 nel genoma) e DNA
altamente ripetuto (presenti circa da 105 a 107). I genomi eucarioti sono costituiti da DNA sia a sequenze uniche sia a sequenze ripetute, queste ultime
molto complesse nel numero di tipi, numero di copie e dislocazione.

antropologia molecolare

13

1.5.1 DNA a sequenze ripetute


Con il termine di sequenza ripetuta (o ripetitiva) ci si pu riferire a
due grandi classi di DNA non codificante. Nella prima classe risiedono le
sequenze distribuite a intervalli regolari (ripetizioni intersperse), nella
seconda invece si trovano sequenze raggruppate insieme (ripetizioni in
tandem) che verranno trattate nel capitolo 3.
Le ripetizioni intersperse sono anche conosciute con il nome di retrotrasposoni. I retrotrasposoni fanno parte della famiglia dei trasposoni, sono
cio frammenti di DNA che si spostano da una parte allaltra del genoma
attraverso un meccanismo noto come trasposizione. Essi copiandosi prima
in un intermedio a RNA e, successivamente, revertendo in DNA (attraverso
la trascrittasi inversa) riescono ad integrarsi in una nuova posizione allinterno del genoma. Questo meccanismo permette ai trasposoni di incrementare notevolmente e rapidamente la presenza delle loro copie allinterno del
genoma, aumentando conseguentemente anche la grandezza del genoma
stesso. I retrotrasposoni ,come altri tipi di elementi trasponibili, possono
indurre mutazioni inserendosi casualmente allinterno di geni funzionali,
alterandone o, in alcuni casi, impedendone lespressione.
Si distinguono due sottoclassi di retrotrasposoni: i retrotrasposoni
che presentano alle estremit delle lunghe sequenze ripetute terminali
(LTR, Long Terminal Repeat, per questo chiamati retrotrasposoni LTR)
e i retrotrasposoni che non le presentano (retrotrasposoni non-LTR).I
retrotrasposoni LTR possiedono alle estremit sequenze ripetute, lunghe
dalle 100 alle 5000 coppie di basi. Sono suddivisi a loro volta in due gruppi,
i retrotrasposoni Ty1-copia simili e i retrotrasposoni Ty3-copia simili, in
base alle loro sequenze genomiche e allordine dei geni codificati. Entrambi
i gruppi si ritrovano in gran numero sia nelle piante (dalle pi semplici
alghe unicellulari fino alle angiosperme) che nei mammiferi, compreso
luomo, di cui costituiscono approssimativamente l8% dellintero genoma. A differenza degli LTR, I retrotrasposoni non-LTR non presentano
sequenze ripetute alle estremit e vengono suddivisi in due sottotipi, le
brevi sequenze intersperse (SINE, Short Interspersed Nuclear Elements) e le lunghe sequenze intersperse (LINE,Long Interspersed Nuclear
Elements). Le SINE sono brevi sequenze di DNA (di meno di 500 coppie
di basi). Le SINE raramente sono trascritte, e non codificano per la trascrittasi inversa; hanno perci bisogno delle proteine codificate da altre
sequenze (come le LINE) per trasporre. Le SINE pi comuni nei primati
(e dunque anche nelluomo) appartengono alla famiglia delle sequenze
Alu. Gli elementi di questa famiglia genica sono lunghi circa 300 coppie
di basi, e possono essere individuate dal fatto che sono capaci di legare
lenzima Alu I (da cui il nome). Il genoma umano contiene oltre un milione
di copie di sequenze Alu, parziali o complete, disperse tra i geni allinterno
degli introni. Esse infatti costituiscono allincirca l11% del patrimonio

14

il genoma umano

genetico totale. Le LINE sono lunghe sequenze di DNA (di pi di 5000


coppie di basi). Codificano per 2 geni, uno dei quali presenta attivit di
trascrittasi inversa e di integrasi, permettendo la copia e la trasposizione
sia di loro stessi, sia di altre sequenze non codificanti (come le SINE).
Poich traspongono replicandosi, le LINE sono in grado di accrescere la
grandezza di un genoma. Il genoma umano, per esempio, contiene oltre
900000 LINE, che costituiscono allincirca il 21% dellintero genoma.
Vi sono tre famiglie principali di elementi LINEs: L1, L2 e L3. I genomi
dei mammiferi possiedono molte copie di una particolare famiglia LINE di
sequenze ripetute, la famiglia LINE-1. Le LINE inoltre sono spesso utilizzate dai genetisti per il fingerprinting. Sebbene solitamente classificate come
DNA spazzatura, ricerche recenti hanno suggerito che le LINE e le SINE
possano aver avuto sia un ruolo importante nellevoluzione dei genomi,
sia significativi effetti a livello strutturale e trascrizionale. La trasposizione
di questi elementi stata implicata come causa di alcuni disturbi genetici
(come la neurofibromatosi) e di alcuni tipi di cancro.
Come i retrotrasposoni anche i trasposoni a DNA sono elementi mobili e
fanno parte della famiglia dei trasposoni. Nei trasposoni a DNA per al
contrario dei retrotrasposoni, il meccanismo di trasposizione non utilizza
un intermedio a RNA. I trasposoni a DNA vengono distinti in due categorie: trasposoni a Dna che si spostano replicandosi e trasposoni a DNA
che si spostano in maniera conservativa, da un sito allaltro del genoma
senza aumentare il numero di copie. Sono meno comuni negli eucarioti
rispetto ai retrotrasposoni. Mentre si dispone di molte informazioni sullorganizzazione delle sequenze e sulla distribuzione delle SINE e delle
LINE (Tabella 1.2), le conoscenze sulla funzione di queste sequenze sono
molto scarse. Una delle ipotesi che la maggior parte di queste sequenze
Tabella 1.2. Sequenze ripetute e intersperse nel genoma.
CLASSE
SINE

FAMIGLIA
Alu
MIR

LINE

LINE-1
(kpn)
LINE-2

LTR
TRASPOSONI
A DNA

ERV
MER-1
(Charlie)

DIMENSIONI UNIT
RIPETUTA
0,3 kb lunghezza
completa
0,13 kb dimensione
media
0,8 kb dimensione
media
0,25 kb dimensione
media
1,3 kb dimensione
media
0,25 kb dimensione
media

N COPIE

GENOMA

1.200.000 ca 10,7 % ca
450.000 ca

2,5 % ca

2.600.000 ca

17,3 %

370.000 ca

3,3 %

240.000

4,7 %

213.000

1,4 %

antropologia molecolare

15

non abbia alcuna funzione. Unaltra ipotesi che alcune delle sequenze
ripetute, o dei loro trascritti, o entrambi, siano in qualche modo coinvolti
nei meccanismi di regolazione dellespressione genica.

1.6 Le parti non ricombinanti del genoma umano


Il processo mediante il quale si producono nuove combinazioni di
caratteri rispetto a quelli parentali detto ricombinazione genica. Mentre
i cromosomi autosomici omologhi sono sottoposti, durante la meiosi, a
ricombinazione genica e si mescolano ad ogni generazione in modo tale
che linformazione genetica di ciascun nuovo individuo sia formata per
met da quella materna e per met da quella paterna, il cromosoma Y ed il
DNA mitocondriale (mtDNA) invece passano di generazione in generazione
senza subire cambiamenti (se ovviamente si escludono gli eventi mutazionali). Per questo motivo costituiscono un valido strumento per lo studio
dellevoluzione umana, per la ricostruzione della storia demografica, dei
flussi migratori e del mescolamento delle popolazioni, per la ricostruzione
di relazioni di parentela e vengono considerati dei marcatori lineari (lineage
markers). Il corredo genetico che si trova nella regione differenziale (regione
di non omologia con il cromosoma X) del cromosoma Y viene ereditato,
nella specie umana, soltanto dai maschi e la trasmissione avviene di padre
in figlio. I geni invece presenti sullmtDNA vengono trasmessi dalla madre
ai suoi figli siano essi maschi o femmine. Nelle ricostruzioni di relazioni
di parentela quindi le informazioni sulla linea parentale materna possono
essere desunte dallanalisi delle sequenze di mtDNA mentre le informazioni
sulla linea parentale paterna dallanalisi del cromosoma Y (Fig. 1.5).

1.6.1 Il cromosoma Y
Dove si trova e sua struttura. Negli animali ed in molte piante, le
cellule maschili e femminili che contengono il proprio corredo cromosomico allinterno del nucleo, si distinguono per i cromosomi sessuali,
cromosomi che, in molti organismi eucarioti, sono rappresentati diversamente nei due sessi. Nelluomo, le femmine possiedono due cromosomi
X, submetacentrici e di media lunghezza, mentre i maschi portano un
cromosoma X ed un cromosoma Y, acrocentrico di piccole dimensioni
(Fig. 1.6). Il cromosoma Y lungo circa un terzo del cromosoma X e per
questo motivo molti geni presenti sul cromosoma X non hanno una controparte sul cromosoma Y. Dal punto di vista strutturale il cromosoma Y
una molecola lineare di circa 50 Mb.
In un lavoro pubblicato su Nature nel 2003 i ricercatori del Whitehead
Institute e della Washington University, riportano la sequenza di 23 Mb
delle circa 50 Mb del cromosoma Y umano. La restante porzione del cro-

16

il genoma umano

Figura 1.5. Ereditariet dei marcatori autosomici ed uniparentali.

Figura 1.6. Cromosomi sessuali umani.

Figura 1.7. Struttura del cromosoma Y.

mosoma di circa 30 Mb, non riportata nellarticolo una regione costituita


da eterocromatina, posizionata sul braccio lungo del cromosoma (Fig. 1.7)
che non viene trascritta e composta da DNA altamente ripetuto difficile
da sequenziare con le attuali tecnologie. Il cromosoma Y con le sue 50 Mb
il terzo cromosoma pi corto del corredo genetico umano, pi grande
solo del cromosoma 21 (47 Mb) e del cromosoma 22 (49 Mb).

antropologia molecolare

17

Nonostante la dimensione del cromosoma Y sia circa quattromila


volte maggiore di quella dellmtDNA, esso caratterizzato da una bassa
densit di geni e dai una bassa frequenza di mutazione.
Il cromosoma Y costituito da unampia regione non omologa (regione differenziale) a quella del cromosoma X, chiamata regione non
ricombinante (NRY non-ricombinig region of the human Y chromosome)
che comprende pi o meno il 95% di tutto il cromosoma (Fig. 1.8) e da
due piccole regioni posizionate allestremit del cromosoma che sono
conosciute come regioni pseudo-autosomali 1 e 2 (PAR pseudo-autosomal
regions) che presentano omologia con una porzione del cromosoma X.
Durante la meiosi nei maschi, le regioni pseudo-autosomiche del cromosoma X e del cromosoma Y si appaiano e si scambiano di materiale genico
attraverso il crossing-over e ci assicura che i due cromosomi migrino poi
verso le estremit opposte della cellula meiotica, si abbia cio una corretta
segregazione dei cromosomi X ed Y e la meiosi proceda.
La regione pseudo-autosomale 1 (PAR 1) localizzata allestremit
del braccio corto (Yp) del cromosoma ha una lunghezza di circa 2,5 Mb
mentre PAR 2, posizionata allestremit opposta, quella cio del braccio
lungo (Yq) ha dimensioni inferiori ad 1 Mb.
Skaletsky et al. nel 2003 hanno dato alla regione non ricombinante
il nome di male specific region (MSY) invece di NRY per sottolineare
lappartenza specifica di questa regione ad individui di sesso maschile. In
questa regione sono presenti solo poche dozzine di geni, solo alcuni dei
quali hanno il loro corrispondente sul cromosoma X. Tra questi ultimi,
molti sono quelli coinvolti nella differenziazione sessuale maschile, in
particolare il gene SRY (sex-determinig region Y), mentre molti altri
geni specifici sono coinvolti nella produzione di spermatozoi. LSRY
posizionato sul braccio corto del cromosoma (Yp11.3) e la sua presenza
o assenza determina durante lembriogenesi la possibilit che le gonadi,
fino a quel momento bipotenziali, si sviluppino in testicoli oppure in
ovaie. Nei maschi quindi, i geni presenti nella regione differenziale sono
detti emizigoti (met zigote). Riassumendo quindi il cromosoma Y
determina la mascolinit nei mammiferi placentali mediante lazione
Figura 1.8. Frammenti ricombinanti tra il cromosoma X ed Y.

18

il genoma umano

di uno o pi geni che controllano la transizione verso la differenziazione sessuale maschile. Questo prodotto genico chiamato fattore di
determinazione del testicolo determina la differenziazione delle gonadi
primordiali in testicoli piuttosto che in ovari. Questo levento chiave
nella determinazione del sesso in molti mammiferi; tutte le altre differenze fra i sessi sono effetti secondari derivanti dallazione di ormoni o
di fattori prodotti dalle gonadi. In poche parole la determinazione del
sesso dipende dalla determinazione delle gonadi. A livello della regione
MSY, il cromosoma Y caratterizzato dalla presenza di diverse regioni
che non sono altro che copie del cromosoma X oppure regioni duplicate
del cromosoma Y stesso. Tre sono le classi di sequenze che sono state
tipizzate sul cromosoma: X-trasposte, X-degenerate ed ampliconic.
Due blocchi, posizionati sul braccio corto del cromosoma, con una
lunghezza complessiva di 3,4 Mb, formano le sequenze X-trasposte.
Queste ultime sono identiche al 99% rispetto a delle sequenze trovate sul
cromosoma X in posizione Xq21 che contengono due sequenze geniche
e che non partecipano al crossing over X-Y durante la meiosi maschile.
Le sequenze X-degenerate si trovano organizzate in otto blocchi su
braccio corto e su quello lungo del cromosoma, per una lunghezza di
8,6 Mb. Queste sequenze presentano unomologia del 96% con sequenze
presenti sul cromosoma X. I segmenti ampliconic sono costituiti da
sette ampi blocchi sparsi sia sul braccio corto che su quello lungo del
cromosoma, coprono una lunghezza di circa 10,2 Mb. Il 60% di queste
sequenze hanno unidentit intracromosomica pari al 99,9% o pi. In
altre parole, molto difficile distinguere queste sequenze luna dallaltra.
Unaltra caratteristica che queste sequenze sono palindromiche, presentano cio una sequenza identica ma invertita. Otto ampie palindromi
occupano 5,7 Mb del braccio lungo del cromosoma e per lo meno sei di
queste contengono geni coinvolti nella formazione del testicolo.

Eredit del cromosoma Y


La modalit di trasmissione dei cromosomi X ed Y attraverso le
generazioni molto semplice e chiara. La femmina produce solo gameti
portatori dellX mentre il maschio produce sia gameti con lX che gameti
con lY. Lunione casuale dei gameti maschili e femminili produce una
generazione in cui il 50% sar maschio (XY) ed il 50% sar femmina (XX).
Il cromosoma Y in quanto portatore del gene per la determinazione del
sesso maschile, si trasmette solo di padre in figlio. Per la sua struttura e
per la sua peculiare valenza ereditaria costituisce insieme al DNA mitocondriale un valido strumento per lo studio dellevoluzione umana. Inoltre
risulta essere uno strumento molto utile nella ricostruzione di relazioni
parentali per linea paterna. Per queste sue funzioni, il cromosoma Y viene
considerato lanalogo al maschile del DNA mitocondriale.

antropologia molecolare

19

Marcatori del cromosoma Y e loro tasso di mutazione


In generale due sono le categorie di marcatori molecolari usati per
lanalisi della diversit del cromosoma Y: loci bi-allelici che producono
solo due alleli possibili e loci multi-allelici.
I marcatori bi-allelici comprendono i single nucleotide polymorphisms
(Y-SNPs) e linserzione degli elementi Alu. Questi tipi di polimorfismi
sono i primi marcatori bi-allelici scoperti sul cromosoma Y. Qualche volta
i marcatori bi-allelici riguardano un singolo evento di mutazione (UEPs
unique event polymorphisms) dal momento che il loro tasso di mutazione
basso (~108 per generazione). Per lanalisi del cromosoma Y 250 marcatori
bi-allelici sono stati caratterizzati. Y-SNPs giocano un ruolo importante
non in genetica forense, dato il basso potere di discriminazione rispetto
agli Y-STRs ma negli studi della migrazione umana in quanto consentono una valutazione effettiva delle maggiori differenze fra i vari gruppi di
popolazioni. Gli alleli degli Y-SNPs vengono indicati come ancestrale
e derivato e possono essere indicati nella forma binaria di 0 e 1 per la
forma ancestrale e derivata rispettivamente. Lo stato ancestrale dei marcatori Y-SNP solitamente determinato dal confronto con la sequenza di
DNA dello chimpazee per lo stesso marcatore. I marcatori multi-allelici
comprendono invece due minisatelliti e pi di 200 short tandem repeat
(Y-STR). Questi loci multi-allelici permettono di differenziare aplotipi
diversi con abbastanza alta risoluzione dal momento che presentano un
alto tasso di mutazione. I minisatelliti hanno un tasso di mutazione del
6-11% per generazione mentre la media del tasso di mutazione per gli
STRs di circa 0,2% per generazione.
Il numero di STRs disponibili per lidentificazione umana aumentato
drasticamente da quando stata disponibile lintera sequenza del genoma
umano. Intorno al 1990 infatti solo una manciata di Y-STRs erano stati
caratterizzati ed erano disponibili per luso. Agli inizi del 2002, 30 erano
gli STRs a disposizione dei ricercatori ma da allora il numero aumentato
enormemente fino ad un numero di circa 200 STRs depositati in Genome
Database ad oggi (GDB; <http://www.gdb.org/>) (Fig. 1.9).

Le basi molecolari della determinazione del sesso


I primi tentativi di determinazione molecolare del sesso si basarono
sullamplificazione, per mezzo della reazione a catena della polimerasi
(PCR), di regioni ripetute sul cromosoma Y. La presenza di regioni di DNA
esclusive di ciascuno dei cromosomi sessuali port alla messa a punto
di metodi basati soprattutto sullamplificazione di sequenze ripetute,
appartenenti alla famiglia del DNA satellite. Questi metodi risultarono
per inadeguati per il DNA antico perch, in alcuni casi, i frammenti
amplificati presentavano una lunghezza decisamente superiore alle poche

20

il genoma umano

Figura 1.9. Posizionamento degli STRs sul cromosoma Y.

centinaia di paia di basi tipiche del DNA recuperabile da reperti antichi.


Inoltre, trattandosi di sequenze ripetute centinaia di volte, il rischio di
contaminazione da parte di DNA moderno era molto elevato. Unulteriore limitazione derivava dal fatto che, mentre nel caso di DNA moderno
lassenza del prodotto di amplificazione indica un individuo femminile,
altrettanto non si pu concludere per il DNA antico. La mancata amplificazione potrebbe infatti essere legata alla scarsa quantit e qualit del DNA
estratto cos come alla presenza di sostanze inibenti. Ulteriori sviluppi
portarono allimpiego del locus a singola copia del gene dellamelogenina, successivamente utilizzato nel campo della genetica forense. Il gene
dellamelogenina si trova nei cromosomi sessuali in posizione telomerica
(regione p22.2 sullX e p 11.2 sullY) e codifica per una proteina, lamelogenina, coinvolta nello sviluppo dello smalto dentario. Questo gene ha
la particolarit di presentare un dimorfismo di lunghezza: il frammento
sul cromosoma X lungo 106 bp mentre quello sul cromosoma Y lungo
112 bp. Questa differenza dovuta ad una delezione di 6 bp presente
sul primo introne del cromosoma X che invece non esiste nel rispettivo
introne del cromosoma Y.
Con lutilizzo di primer specifici queste due varianti alleliche possono
essere evidenziate e distinte come frammenti di 106 e di 112 bp: un individuo di sesso maschile dovrebbe avere quindi un profilo allelico caratterizzato da entrambi i frammenti di 106 e 112 bp, mentre un individuo
di sesso femminile mostrer solo il frammento di 106 bp. Attualmente
lamplificazione del gene omologo dellamelogenina rappresenta il metodo
pi comunemente usato per la determinazione del sesso in reperti antichi.
Tuttavia esso presenta alcuni problemi tra cui la perdita allelica dovuta
allamplificazione parziale di uno solo dei due alleli, spesso riscontrata
nei loci biallelici e la presenza, seppur con una frequenza molto bassa,

antropologia molecolare

21

di un raro polimorfismo di delezione sul cromosoma Y che impedisce


lamplificazione del frammento di 112 bp.
Per evitare il problema dellamplificazione parziale sono state messe
a punto diverse strategie, una delle quali prevede limpiego nella stessa
reazione di tre coppie di primers, uno comune e gli altri specifici per ogni
cromosoma. I prodotti di amplificazione che si ottengono sono rispettivamente di 218 bp per il cromosoma Y e di 330 bp per il cromosoma X. I
frammenti amplificati in questa amplificazione risultano per di dimensioni troppo elevate per studiare reperti in cui il DNA presente molto
degradato. Unaltra strategia consiste invece nellutilizzo di primers che
amplificano un segmento di 112 bp dellesone 6 del gene dellamelogenina
le cui copie sui due cromosomi sessuali hanno la medesima lunghezza
ma differiscono in 10 posizioni della sequenza nucleotidica. I prodotti di
amplificazione vengono poi fatti ibridare con due oligonucleotidi sintetici
marcati, ciascuno specifico per un solo cromosoma sessuale. Questa per
risulta essere una metodica un po lunga. La metodica migliore che permette di superare i problemi sopra elencati prevede la co-amplificazione
dellamelogenina e di una piccola porzione del gene SRY (sex determinig
region Y), locus che, trovandosi sul braccio corto del cromosoma Y (Yp
11.3), presente unicamente negli individui di sesso maschile. Tale gene,
altamente conservato, rappresenta il male-determinig factor poich,
durante il processo dembriogenesi la sua presenza o assenza determina
se le gonadi, fino a quel momento bipotenziali, si sviluppino come testicoli
o ovaie. Questo sistema di co-amplificazione presenta inoltre il vantaggio
di necessitare di un numero inferiore di prove per singolo campione, abbassando fortemente i rischi di contaminazione inevitabilmente presenti
nelle prove ripetute molte volte.

Applicazioni dellanalisi del cromosoma Y


Come precedentemente accennato, data la sua struttura e le sue
caratteristiche di trasmissione, lanalisi del cromosoma Y gioca un ruolo
importante nello studio dellevoluzione umana, per la ricostruzione dei
flussi migratori e del mescolamento delle popolazioni. Lo studio del cromosoma costituisce anche un valido strumento nel cercare sia di risolvere
questioni di interesse storico che difficili controversie genealogiche.
Studi storici. In uno studio condotto da un team di ricercatori guidati
da Chris Tyler Smith delluniversit di Oxford sono stati analizzati i profili
di pi di 2100 maschi provenienti dallAsia centrale.
Lanalisi dei profili ha portato allottenimento di un unico profilo
allelico nell8% dei casi. Lulteriore analisi di 16 Y-SNPs (Single Nucleotide Polymorphism, trattati nel capitolo 3) pone i campioni studiati
allinterno dellaplogruppo C*, aplogruppo frequente in Asia. Attraverso

22

il genoma umano

lottenimento di questi dati genetici i ricercatori hanno tentato di stimare


gli anni che separano il gruppo di individui che presentavano lo stesso
profilo genetico da il loro antenato comune. Considerando il tempo di
generazione, cio lintervallo di tempo che intercorre fra una generazione
e quella successiva, pari a 30 anni, e facendo delle ipotesi sul possibile
tasso di mutazione , i ricercatori sono giunti a stimare un tempo di separazione di circa 1000 anni.
Gli studiosi hanno poi osservato che il suddetto profilo era molto presente in Mongolia, dato questo che faceva considerare la regione in questione come la culla del profilo genetico osservato nonostante risultasse
ampliamente diffuso anche in altre 16 differenti popolazioni asiatiche.
Il dato di maggior interesse era che la distribuzione geografica del
gruppo di individui caratterizzati dal profilo genetico studiato, corrispondeva, in Mongolia, allarea occupata dallex impero mongolico di
Genghis Khan. Questa scoperta faceva ipotizzare che il profilo Y-STRs
studiato potesse essere correlato a quello di Genghis Khan e dei suoi discendenti. Lipotesi che questa Y-lineage potesse derivare direttamente
da Genghis Khan (circa 1162-1227) e dalla sua linea parentale maschile
stata rafforzata dal fatto che il profilo genetico in questione risultava
uguale al profilo di un gruppo di individui in Pakistan i quali, secondo
la tradizione orale, sarebbero i diretti discendenti per linea maschile di
Genghis Khan. In questo studio lanalisi del cromosoma Y ha rivelato un
interessante indizio sul nostro passato.
Controversie genealogiche. Nel 1802, alcuni anni dopo che divenne
presidente degli Stati Uniti, Thomas Jefferson fu pubblicamente accusato
dal Richmond, giornale della Virginia, di essere il padre naturale di un
bambino avuto dalla sua schiava, Sally Hemings. Nonostante non si sappia come sia nata questa accusa, il legame fra Thomas Jefferson e Sally
Hemings stato oggetto di controversia per almeno 200 anni. Poi nel
1998, il prestigioso giornale scientifico Nature, ha pubblicato uno studio
sullintroduzione delle prove a DNA nelle controversie storiche. Il lavoro,
intitolato Jefferson fathered slaves last child, metteva in evidenza come
con luso dei marcatori del cromosoma Y era stata seguita la linea maschile
dei discendenti di Jefferson fino a giungere ad un discendente del figlio
pi giovane di Sally Hemings, Eston Hemings. Sfortunatamente i figli
legittimi di Thomas Jefferson morirono tutti quando ancora in fasce, le
sue due figlie che arrivarono alla maturit ovviamente non portavano il
suo cromosoma Y cos i discendenti non si sono potuti utilizzare in questo studio. Rimanevano per altre due possibilit da sfruttare: il fratello
Randolph ed il fratello di suo padre, Field. Lultimo discendente maschile
del fratello di Thomas per mor nel 1920 o 1930 e cos le analisi si sono
dovute indirizzare sui discendenti dello zio del Presidente. Cinque dei
setti discendenti individuati furono daccordo nel collaborare allo studio

antropologia molecolare

23

donando per lanalisi del cromosoma Y il loro sangue. Per quanto riguarda
la famiglia Hemings lanalisi stata condotta sui discendenti del figlio
di Sally Hemings, Eston Hemings. Eston infatti ebbe due figli maschi
ed una figlia, il suo figlio pi giovane, Beverly, ebbe un figlio Carl-Smith
che a sua volta ebbe due figli, solo uno dei quali ebbe un figlio maschio di
nome John Weeks. Questultimo, nato nel 1946, stato utilizzato come
campione di confronto per la famiglia Hemings (Fig. 1.10).
Figura 1.10. Esempio di genealogia del cromosoma Y.

In questo studio diversi sono stati i campioni ulteriori che sono stati
raccolti per essere utilizzati come controlli e per cercare di risolvere la
controversa questione della paternit. Uno di questi campioni aggiuntivi
fu quello di un discendente di Thomas Woodson, primogenito di Sally
Hemings. Oggi i discendenti infatti di questo sono in un numero superiore
a 1400 e sono sparsi per tutti gli Stati Uniti. Secondo la tradizione orale
della famiglia Woodson, Thomas era il figlio pi grande di Sally e del
Presidente. Dal momento che non cerano documenti che supportassero
la pretesa della famiglia Woodson, si prelevarono anche campioni di sangue di cinque discendenti ancora in vita di Thomas Woodson in modo da
poter aiutare a confermare o confutare ci che la famiglia si tramandava
di generazione in generazione. Per lo studio furono utilizzati anche tre
campioni di discendenti della linea maschile dei nipoti di Thomas Jefferson, figli cio della sorella in quanto alcune testimonianze indicavano
i nipoti come possibili padri dei figli di Sally Hemings e di sua sorella.
Infine vennero prelevati anche cinque campioni di discendenti per linea
maschile da diverse vecchie famiglie della Virginia utili come campioni di

24

il genoma umano

confronto. Questi campioni sono stati inseriti nello studio per fornire il
segnale di background, con lidea che le potenziali similarit riscontrate
nellanalisi del cromosoma Y dovute alla vicinanza geografica dovessero
essere eliminate. I risultati ottenuti da questo studio sono riportati nella
tabella 1.3.
Come si evince dalla tabella, tutti le 19 regioni del cromosoma Y
analizzate dai discendenti della famiglia Jefferson sono perfettamente
compatibili con i profili ottenuti dai discendenti di Eston Hemings. Questo
risultato stato interpretato dai ricercatori come la prova che il Presidente
Tabella 1.3. Risultati dello studio sui discendenti di Jefferson.
Marcatori
studiati
Numero di
individui
tipizzati
Y-STR loci
DYS19
DYS388
DYS389A
DYS389B
DYS389C
DYS389D
DYS390
DYS391
DYS392
DYS393
DXYS156Y
Y-SNP loci
DYS287
(YAP)
SRYm8299
DYS271
(SY81)
LLY22g
Tat
92R7
SRYm1532
Minisatellite
MSY1

Linea maschile Linea maschile


Field Jefferson Eston Hemings

15
12
4
11
3
9
11
10
15
13
7

Linea maschile
nipoti
Presidente

Linea maschile
Thomas
Woodson

15
14
12
12
4
5
11
12
3
3
9
10
11
11
10
10
15
13
13
13
7
7
(0 = allele ancestrale; 1 = allele derivato)

14
12
5
11
3
10
11
13
13
13
7

0
0
0
1

0
0
0
1

0
0
1
1

0
0
1
1

(3)-5
(1)-14
(3)-32
(4)-16

(3)-5
(1)-14
(3)-32
(4)-16

(1)-17
(3)-36
(4)-21

(1)-16
(3)-27
(4)-21