Sei sulla pagina 1di 10

IL GENOMA UMANO

Il genoma è l’insieme di tutto l’assetto cromosomico presente all’interno di un individuo, per cui si
può parlare di genoma umano, genoma batterico, genoma vegetale ecc.
Quindi rappresenta tutto il DNA dalla prima all’ultima base presente all’interno di un organismo
vivente.
Il genoma umano è stato il primo genoma di un vertebrato ad essere sequenziato nel 2001 ma c’è un
antefatto: alla fine del progetto genoma si conosceva l’ordine dal primo all’ultimo nucleotide
presente sul DNA dell’uomo ma diversi anni prima era partito un progetto mondiale chiamato
progetto genoma umano che prevedeva che ogni istituzione sequenziasse uno dei 23 cromosomi
che compongono il genoma e un’azienda americana comprò una batteria di sequenziatori
automatici grazie ai quali riuscirono a battere in tempo tutte le restati istituzioni pubbliche.
Questa impresa ha fornito molte informazioni sulla composizione genetica della nostra specie e
sull’evoluzione dei genomi in generale, inoltre ha reso possibile il confronto delle sequenze del
genoma umano con quelle di altri vertebrati che erano stati già sequenziati ed è nata un’altra branca
della genomica chiamata genomica comparata.
Il DNA contenuto all’interno delle 23 coppie di cromosomi umani (in realtà sono 22 coppie di
cromosomi somatici e 1 coppia di cromosomi sessuali quindi 22+y oppure 22+x) nelle cellule aploidi
cioè le cellule in cui il DNA è stato dimezzato e quindi i gameti (spermatozoi della cellula uovo che poi
si devono unire per formare i cromosomi) variano in dimensioni dal più piccolo 45 Mb (mega basi,
quindi sarebbero milioni di basi) a 279 Mb.
In totale un genoma umano è costituito da 3.286 Mb circa 3.3 x 10 9 bp = paia di basi.

Da cosa è fatto il genoma umano.


I genomi sono costituiti da 4 nucleotidi: guanina, citosina, adenina e timina.
Questi 4 nucleotidi sono importanti perché guaina e citosina sono implicate in alcune funzioni dei
genomi mentre adenina e timina si trovano di solito in alcune zone nevralgiche cioè zone in cui deve
avvenire la replicazione del DNA; questo perché l’adenina e la timina sono unite da due legami
idrogeno quindi la cellula per poter rompere questi legami e far avvenire replicazione, trascrizione
ecc. deve impiegare una certa quantità di energia.
Mentre tra guanina e citosina ci sono 3 legami idrogeno tra adenina e timina ce ne sono 2 quindi per
rompere i legami tra guanina e citosina c’è bisogno di più energia per questo avere adenina e timina
in punti nevralgici è meno dispendioso per la cellula.
I genomi eucariotici, tra cui l’uomo, mostrano una minore variabilità nel contenuto guanina-citosina
rispetto ai procariotici ma ci sono molte più zone che contengono adenina-timina per far svolgere
più rapidamente e con meno dispendi di energia le funzioni.
Infatti, la composizione del genoma umano è: 40% guanina-citosina 60% adenina-timina.
Per quanto riguarda il contenuto in guanina-citosina negli eucarioti superiori e nei vertebrati ci sono
delle regioni del genoma che hanno una composizione di guanina-citosina omogenea cioè
frammenti che contengono guanina e citosina che hanno le stesse dimensioni, queste regioni si
chiamano isocore.
Le isocore sono frammenti di DNA di varie dimensioni che contengono guanina e citosina in maniera
omogenea, nel genoma umano queste regioni sono state studiate e si sono osservate 5 classi
differenti di isocore:
 2 classi chiamate L1 e L2 dove L sta per light e sono dei frammenti di DNA e quindi isocore
povere in G-C
 3 classi chiamate H1, H2 e H3 dove H sta per heavy quindi pesanti e sono dei frammenti di
DNA ricchi di G-C
Le isocore pesanti sono anche quelle che contengono molti geni (L1 ed L2 contengono pochi geni
perché sono regioni di regolazione) tra cui i geni housekeeping che sono dei geni che devono
svolgere delle funzioni essenziali per la cellula.
Alcuni cromosomi sono poveri di geni e più del 25% della sequenza è rappresentato da DNA che non
svolge funzioni geniche ma di contenimento di informazioni che servono per produrre le proteine e
quindi vengono chiamate deserti.
I deserti sono presenti anche in cromosomi ricchi di geni dove più del 10% della sequenza può
essere rappresentata da deserti.
Facendo una media circa il 20% del genoma umano è rappresentato da zone che non contengono
geni quindi da deserti.

Organizzazione e contenuto genetico.


Circa il 75% del genoma umano è formato da sequenze intergeniche, sono regioni che si trovano tra
geni funzionali e la maggior parte di questo DNA non ha funzioni conosciute.
Queste regioni si possono suddividere in base alla loro frequenza:
 alcune di queste regioni dal punto di vista della loro struttura appaiono come regioni di
sequenze altamente ripetute (sequenza=ordine di nucleotidi) e si parla di sequenze
altamente ripetute
 altre regioni intergeniche che possono essere:
o a sequenza unica > sequenze che non hanno una funzione nota
o microsatelliti > piccole sequenze di DNA ripetute un certo numero di volte
Circa il 25% del genoma umano è formato da geni e sequenze che hanno una funzione nota e sono
divisi in:
 geni > rappresentano l’1,5%
 sequenze correlate ai geni > rappresentano il 98% e sono sequenze che fanno parte della
regione del gene, a questa sezione appartengono anche regioni non funzionali chiamate
relitti non funzionali come:
- introni, UTR (regioni non tradotte) > sono delle regioni di regolazione che servono al
gene per poter svolgere le proprie funzioni
- frammenti genici
- pseudogeni > porzioni del DNA che hanno subito delle modificazioni a causa di
mutazioni casuali oppure derivanti da errori durante la ricombinazione del DNA
Soltanto l’1% del genoma umano codifica per le proteine che sono:
 una grossa parte di funzioni sconosciute (circa il 37%)
 geni che producono proteine del citoscheletro (circa il 3%)
 geni che codificano per proteine che svolgono la funzione di enzimi (circa il 16%)
 geni che codificano per strutture extracellulari (circa il 3%)
 geni che codificano per le proteine del sistema immunitario (1,3%)
 geni che codificano per le proteine di membrana (2,4%)
 geni che codificano per varie proteine con diverse funzioni (4,5%)
 geni che codificano per proteine che legano gli acidi nucleici (circa il 10%)
 geni che codificano per recettori (circa il 5%)
 geni che codificano per le proteine di trasporto (circa il 3%)
 geni che codificano per proteine con funzione di regolazione (circa il 4%)
 geni che codificano per proteine con funzione di segnale (2,7%)
 geni che codificano per proteine che sono fattori di trascrizione (7%)

Struttura del gene umano (struttura del gene eucariotico).

Il gene è la porzione di DNA che darà luogo alla proteina.


È formato da una regione che si trova prima dell’inizio del gene stesso e si chiama promotore che è la
regione dove inizia la trascrizione (meccanismo che consente di creare un RNA messaggero).
Il promotore è riconoscibile prima dell’inizio del gene perché è formato da alcune sequenze dette
sequenze conservate perché sono sempre presenti in quella regione, in quella posizione nella stessa
specie. Il promotore viene riconosciuto dall’RNA polimerasi ma anche da una serie di fattori di
trascrizione e poi parte la trascrizione.
Nel promotore ci sono delle regioni di riconoscimento specifiche di ciascuna specie, 25-30 basi
prima dell’inizio del gene, è presente una regione che si chiama TATA box che è una regione in cui
sono presenti timina, adenina, timina, adenina perché queste regioni rappresentano il punto
nevralgico in cui si deve aprire il DNA per far iniziare tutte le reazioni che servono per copiare il DNA
con un RNA messaggero.
Circa 25-35 basi prima c’è la regione CCAAT ossia una regione con una sequenza precisa che svolge
determinate funzioni.
C’è un’altra regione chiamata CG-rich perché è ricca di citosina e guina che rappresentano un punto
di riconoscimento all’interno della regione del promotore per far in modo che le reazioni di
trascrizione inizino nel punto corretto.
Subito dopo il promotore c’è una regione UTR (parte gialla) chiamata anche sequenza leader e ha
una dimensione di circa 500 bp. Idealmente è la regione che comincia nel punto del gene dove deve
iniziare la trascrizione e finisce nel punto del gene dove deve iniziare la traduzione.
Poi ci sono delle regioni esoniche (parte arancione) che rappresentano le zone codificanti e che
quindi ritroveremo nelle proteine, queste regioni esoniche si alternano a delle regioni introniche
(parte nera) che sono le regioni che fanno da spaziatori e non ritroviamo nelle proteine.
Il gene è chiuso da un’altra sequenza UTR chiamata sequenza trailer e ha una lunghezza di 800 bp,
questa regione si trova alla fine dell’ultima tripletta amminoacidica che chiuderà la proteina.
Tutto quello che si trova dopo l’inizio del gene si dice che si trova a valle della sequenza, tutto quello
che si trova prima si dice a monte della sequenza.
Quando avviene la trascrizione noi otteniamo un RNA messaggero che è formato dalle due regioni
UTR anche se non hanno nessuna funzione, gli introni vengono rimossi perché non hanno alcun
significato codificante, gli esoni vengono uniti e questa parte rappresenta la regione codificante che
darà luogo alla proteina.
Tutti gli RNA eucariotici devono subire delle modificazioni per evitare dei danneggiamenti, per
funzioni legate alla sua traduzione e per essere facilmente identificati.
Queste modificazioni sono:
 un capping ossia l’aggiunta di una guanina in posizione 5’ > serve per proteggere l’RNA e per
far avvenire in maniera precisa l’inizio della traduzione, infatti è una forma di riconoscimento
da parte dei ribosomi
 viene aggiunta la coda di polyadenilazione > alla fine dell’RNA messaggero vengono aggiunti
fino a 250 nucleotidi di tipo adenina e vengono utilizzate per riconoscimento perché tutti gli
RNA messaggeri le hanno
La grandezza media di un gene umano è di circa 27 Kbp (mila paia di basi), con 9 esoni ciascun esone
può avere una lunghezza variabile, la media è di 145 bp e 8 introni che possono avere una lunghezza
più considerevole rispetto agli esoni fino a 3.400 bp.
Circa il 4% del DNA di un gene rappresenta la parte codificante per la proteina.

Numero dei geni umani.


Nel gene umano sono stati identificati circa 24.000 geni, rispetto a genomi di specie che hanno
dimensioni minori come mosche e vermi la differenza non è elevata (mosche 13.600), questo perché
ci sono dei meccanismi che consentono di sfruttare tutto ciò che abbiamo senza sottoporre il
genoma a stress.
Disponendo delle sequenze geniche delle varie specie possiamo capire le differenze tra specie affini
come l’uomo e lo scimpanzè, infatti in questo caso la differenza delle sequenze è piccola, si ha una
somiglianza del 99%.
Il fatto che noi abbiamo un numero limitato di geni ma che svolgono funzioni differenti deriva da
uno strumento messo in atto dagli organismi eucariotici superiori (uomo) che a partire da un certo
numero di geni produce un numero molto più elevato di proteine, questo meccanismo è lo splicing
alternativo.
Splicing: sulla base del DNA viene prodotto per trascrizione un RNA che negli eucarioti si chiama pre
mRNA perché si devono eliminare le porzioni non codificanti e quindi gli introni per poter produrre
l’RNA messaggero finale che poi sarà utilizzato per la produzione di proteine.
Lo splicing alternativo nell’uomo può
interessare il 65% dei geni, per
questo il proteoma (l’insieme delle
proteine umane) è maggiore del
numero di geni che abbiamo.
Lo splicing alternativo consiste nel
fatto che possiamo avere un pezzo
di RNA che può non essere rimosso
completamente e questo porta ad avere RNA diversi, quindi non viene rimossa la stessa zona ma
zone differenti quindi abbiamo diverse proteine.
In conclusione, lo splicing alternativo consiste nel partire da uno stesso trascritto primario di RNA
che può subire splicing differenti e quindi anche la produzione delle proteine sarà differente.
Esempio: trascritto primario > formato da 1,2,3,4,5 / splicing 1 formato da > 1,2,3,5 / splicing 2
formato da > 1,2,4,5.
Ci possono essere dei casi in cui lo splicing alternativo ha una funzione positiva e casi in cui è
correlato con delle malattie.
Esempi:

Si è capito che grazie al meccanismo messo in atto dai geni del nostro organismo è possibile che lo
splicing alternativo possa far aumentare la quantità di proteine presenti nel nostro organismo e
quindi far aumentare le dimensioni del proteoma umano fino ad 80.000-100-000 membri.
Molti geni umani in base alla loro sequenza possono essere raggruppati in famiglie, dei circa 25.000
geni umani soltanto 3.500 sono geni unici, la restante parte è rappresentata da coppie di geni o in
famiglie geniche.
Si studiano delle sequenze presenti nei geni e si utilizzano degli strumenti bioinformatici: si allineano
le sequenze e si va a vedere se ci sono delle similitudini nella sequenza, dopo si possono raggruppare
i geni per famiglie.
Per esempio, i geni che producono le proteine istoniche (proteine che servono per dare la struttura
al DNA) o i geni degli rRNA (RNA ribosomiale) fanno parte di una famiglia.
Ci sono altre famiglie geniche che sono raggruppate in quanto codificano per prodotti che hanno dei
domini altamente conservati come domini che svolgono delle funzioni vitali come quelli implicati
nello sviluppo: PAX, SOX.
Poi sono famiglie geniche che codificano per prodotti che hanno brevissime sequenze
amminoacidiche conservate, per esempio ci sono dei geni che producono delle proteine che hanno
una conformazione a dita di zinco oppure alcune che hanno 56 residui amminoacidici in cui è
presente la cisteina coinvolte nello sviluppo del citoscheletro.

Come sono distribuiti i geni nel genoma umano.


Grossa parte del genoma umano è rappresentato da DNA ripetuto il cui 45% è rappresentato da una
porzione di DNA che prende il nome di trasposoni che sono delle sequenze geniche che possono
essere attive o inattive e sono presenti all’interno del DNA in copie multiple.
Questi elementi possono spostarsi da una parte all’altra del DNA, lo spostamento può avvenire
senza che ci sia la duplicazione della stessa regione oppure duplicandosi.

Molti trasposoni non svolgono una funzione ma si pensa che alcuni geni si sono trasformati in geni
a partire da trasponi.
Molte volte però possono causare dei problemi perché spesso nella loro trasposizione possono
inserirsi all’interno di una regione codificante e alterarne la funzionalità.
I trasposoni li possiamo trovare nei lieviti, nell’uomo ecc.

Organizzazione e contenuto genoma umano (riassunto).

Una porzione molto grande del nostro genoma che fa parte della frazione ripetitiva è
rappresentata da due regioni: LINEs e SINEs.
Le LINEs sono sequenze ripetute anche 500.000 volte e hanno una funzione non del tutto nota.
Le SINEs possono codificare per una regione che deve essere trascritta ma anche questa funzione
non è ancora del tutto nota, sono grandi 500 bp e sono distribuite soprattutto nelle regioni ricche in
G-C del genoma.
Tra le SINEs la componente più importante è costituita dagli elementi ALU che sono dei trasposoni
quindi delle regioni in grado di spostarsi da una parte all’altra.
Queste regioni hanno una lunghezza media di circa 300 bp, sono chiamate così perché all’interno
della loro regione sono presenti delle sequenze (AGCT) che formano un sito per l’enzima di
restrizione Alu1.
Gli enzimi di restrizione sono stati scoperti all’interno
delle cellule batteriche che spesso sono infettate da
virus fagici; quando nella cellula batterica arriva un
ospite la cellula si difende andando a mettere in atto il
sistema di enzimi di restrizione che sono capaci di
riconoscere un acido nucleico estraneo e tagliarlo in un
punto ben preciso.
Tutti gli organismi viventi sono dotati di questo sistema
enzimatico che riconoscono una doppia elica del DNA
estraneo e lo tagliano in un punto ben preciso.
Se c’è una mutazione nella sequenza l’enzima non è
capace di riconoscere la sequenza e non la taglia.
Quindi se l’agente patogeno che entra nella cellula
subisce delle mutazioni l’organismo non si può più
difendere.
Queste sequenze ripetute ALU presenti nell’organismo umano sono presenti all’interno di geni e
possono essere correlate con delle malattie ereditarie e con la presenza di forme cancerose.
Queste sequenze sono state studiate molto sia per la loro correlazione alle malattie sia per la
genetica di popolazione ossia quella genetica che va a capire com’è organizzato il DNA in una
popolazione di una determinata specie e quindi vedere se DNA di una specie sono comuni o hanno
subito delle modificazioni nel corso dell’evoluzione della specie.

Questo è quello che viene chiamato cariotipo umano in particolare questo rappresentato è il
cariotipo di un individuo di sesso femminile perché sono presenti le 22 coppie di autosomi e la
coppia di cromosomi sessuali femminili.
Le regioni colorate in verde contengono le sequenze ALU.
Essendo capaci di spostarsi da una zona all’altra, una volta che si sono spostate le sequenze ALU
possono generare dei danni a livello del DNA come l’alterazione dell’espressione di un gene,
l’alterazione della lettura corretta del gene (reading frame) e l’alterazione del processo di splicing
cioè di rimozione delle regioni non codificanti.
Le malattie con cui sono correlate la presenza di elementi ALU sono l’ipercolesterolemia familiare, il
diabete mellito di tipo 2, il carcinoma mammario, il sarcoma di Ewing, emofilia e neurofibromatosi.
Spesso le malattie possono essere associate con singole mutazioni che possono avere ripercussioni
gravi come l’Alzheimer, il carcinoma del polmone e il tumore dello stomaco.
Un’altra parte del genoma umano è costituita da DNA ripetitivo il cui 5% è rappresentato da grandi
duplicazioni e il 3% da ripetizioni semplici.
Una parte del DNA ripetuto può essere presente in regioni terminali del DNA chiamate telomeri
oppure nelle regioni centromeriche cioè vicine al centromero.
Ci sono regioni cromosomiche duplicate e in alcuni casi possiamo trovare anche delle delezioni cioè
regioni del cromosoma che vengono perse.
Le regioni ripetute che possono essere rappresentate da geni funzionali sono correlate con dei geni
che devono svolgere funzioni importanti.
Sebbene molta parte del DNA ripetuto non abbia una funzione precisa c’è una piccola parte, il 5%
che richiede necessariamente una ripetizione delle porzioni geniche, cioè è necessario che un gene
sia presente in più copie perché deve svolgere funzioni fondamentali come i geni che codificano per i
processi digestivi, geni per i recettori dell’olfatto, geni per la risposta immunitaria ma anche gli
oncosoppressori e i geni per il metabolismo degli ormoni e dei farmaci.
I geni presenti all’interno del DNA ripetuto vengono chiamati CNV cioè copy number variation.

Esempio dei geni per l’amilasi.


Geni che producono l’amilasi, sostanza utile nei processi digestivi.
Il gene viene chiamato AMY1 e codifica per l’enzima amilasi salivare che serve a digerire l’amido.
Il genoma umano può avere da 2 a 15 copie ripetute in tandem cioè una di seguito all’altra senza
interruzioni, il numero di copie dipende dall’utilità che noi abbiamo.
Il numero di copie del gene dell’amilasi salivare è correlato positivamente con la quantità
dell’enzima prodotto.
Sulla base dello studio della presenza di quante copie sono presenti nelle varie popolazioni umane
(all’interno della popolazione umana ci sono delle etnie), si è visto che le popolazioni che utilizzano
di più l’amido nella dieta hanno un maggior numero di copie così da esprimere una maggiore
quantità di enzima e quindi digerire più facilmente cibi che contengono amido come i cereali, legumi
e patate.
Infatti, alte copie di questi geni le troviamo nelle etnie africane e basse copie nelle popolazioni
artiche che si nutrono essenzialmente di pesce.

Invece per quanto riguarda le ripetizioni semplici (DNA satellite), è la parte di DNA formata da
piccole regioni nucleotidiche ripetute n volte.
Queste regioni possono avere delle dimensioni più o meno grandi: possono essere ripetizioni molto
corte e in questo caso si chiamano microsatelliti o ripetizioni più lunghe che si chiamano
minisatelliti.
Si presume che queste ripetizioni hanno origine dagli errori che vengono fatti quando il DNA umano
si duplica.
Nelle piante questo DNA satellite è stato utilizzato per fare studi di popolazione, nell’uomo è stata
studiata la correlazione tra queste ripetizioni e alcune forme tumorali.
Altre volte possono svolgere delle funzioni di protezione del cromosoma perché spesso si trovano
nelle parti terminali del cromosoma.
È stato scoperto che i microsatelliti sono ereditari e tutti noi li abbiamo solamente che cambia il
numero di ripetizioni.
Oltre agli introni, esoni, trasposoni, ripetizioni semplici e grandi duplicazioni abbiamo una parte del
genoma rappresentata dagli pseudogeni.
Gli pseudogeni sono regioni geniche che possono aver perso la funzione, infatti sono geni inattivi
che non producono nessun prodotto genico.
Possono essere assimilati a geni ma mancano di alcune parti, per esempio possono esserci codoni di
stop quindi il prodotto genico non viene prodotto correttamente o non presentano il promotore,
quindi non possono essere copiati dall’RNA.
Si possono essere originati a causa di una duplicazione di un gene funzionale e la copia del gene
viene integrata in una nuova localizzazione genomica oppure processati cioè si parte sempre da un
gene funzionale che in seguito a trascrizione si è formato RNA che è stato trasformato in cDNA e
inserito all’interno del genoma e quindi non essendo un gene completo non ha una funzionalità.
Dopo l’integrazione gli pseudogeni accumulano un sacco di mutazioni e possono essere riconosciuti
facilmente.
L’ultima parte del genoma è rappresentata da un altro DNA intergenico che può essere
rappresentato da piccole sequenze di RNA non codificanti oppure da lunghe sequenze di RNA non
codificanti.

Genoma delle piante.


Il genoma vegetale ha delle caratteristiche legate alle funzioni che deve svolgere:
 sono DNA molto grandi e lunghi
 poliploidia > cioè all’interno di un nucleo ci sono più genomi
 sequenze ripetute > sono moltissime e questo rende difficile conoscere la vera funzione dei
geni
 famiglie geniche > geni simili strutturalmente
 trasposoni > molto frequente la loro presenza
 geni di resistenza a malattie > perché si devono difendere molto frequentemente da attacchi
di patogeni
Non di tutti i vegetali si conosce la sequenza del genoma, il primo ad essere sequenziato è stato
quello dell’arabidopsis che viene considerata una specie modello, ha dimensioni di 125 bp: ha circa
26.000 geni di cui il 35% sono geni unici e il 37,5% sono famiglie geniche ognuna con almeno 5 geni e
contiene circa 150 famiglie proteiche di cui 1/10 sono rappresentati da fattori di trascrizione. Inoltre,
il 69% dei geni ha una funzione putativa, il 9% ha funzioni note e il 30% codifica per proteine con
funzioni sconosciute.
Successivamente è stato sequenziato quello del riso, vite, pomodoro e soia.
Si è iniziato a studiare quello della cipolla che viene considerato uno dei genomi più grandi.
Il frumento non è ancora stato sequenziato completamente.
Molti geni sono caratterizzati da regioni del genoma il cui ordine viene conservato questo si chiama
sintenia.

Il genoma diploide ha un assetto cromosomico


normale come quello dell’uomo.
Quando andiamo incontro alla meiosi il
corredo cromosomico delle cellule gametiche
deve essere dimezzato e quindi diventa aploide
in modo che le cellule gametiche maschili
insieme alle cellule gametiche femminili
formano 46.
Nelle piante la situazione classica è la poliploidia cioè un numero di assetto cromosomico rispetto a
quello normale.
Questa poliploidia è stata messa in atto dall’evoluzione perché in questo modo molte piante sono
diventate fertili e non sterili.
Per esempio, il frumento tenero è esaploide cioè ha 6 cromosomi per ciascuna tipologia di
cromosomi presenti all’interno del nucleo.
Mentre il frumento duro è tetraploide quindi 4 cromosomi per ciascun cromosoma.

Potrebbero piacerti anche