PROBLEMA
L'algoritmo Needleman Wunsch considera in ogni punto la possibilit di inserire un gap e
di estenderlo. L'introduzione di un gap per non sfavorita dal sistema di punteggio. Questo
significa che si possono inserire tutti i gap possibili al fine di ottenere il punteggio pi alto
possibile. Questo non biologicamente sensato, perch data la bassa frequenza di
mutazioni, e la necessit di mantenere una certa sequenza per conservare la funzionalit
della proteina, l'allineamento migliore dovrebbe essere quello con il pi basso numero di
gap, e in generale la presenza di un gap dovrebbe essere sfavorita.
Smith Watermann
Il punteggio della casella X dipende da quelle adiacenti ad essa, e cio da quelle a
sinistra, sopra e in alto a sinistra. Nel modello pi semplice all'identit viene assegnato il
punteggio +1, al mismatch, invece, +0.
1 0
0 0
0 1
0 X
1 X
0 X
Questi sono i 3 casi principali che possono capitare. Nel primo caso il punteggio pi alto
proviene dalla cella in alto a sinistra per cui nel caso in cui nella cella X sar presente
un'altra identit il suo punteggio sar 1+1 e cio 2. Inoltre le 2 celle sono allineate in
diagonale e ci significa che in quel tratto di 2 nucleotidi, questi sono presenti nello stesso
ordine su entrambe le sequenze, cio la diagonale ha lo stesso significato che nel dot plot.
Nel secondo caso il punteggio pi alto proviene da sinistra, e ci significa che nella
sequenza di sinistra presente un gap, e cio come nel caso in cui la diagonale si
spezzasse orizzontalmente. I gap sono penalizzati e perci si sottrae 1 al punteggio di X.
Nel terzo caso il gap, per lo stesso motivo, presente nella sequenza annotata sopra.
Man mano che si completa la matrice, le celle acquisiscono un punteggio via via pi alto
se l'identit viene mantenuta, mentre invece il punteggio scende con i gap e man mano
che questi vengono estesi. Alla fine si procede a ritroso, e cio partendo dalla casella a
punteggio pi alto (sempre in basso a sinistra della matrice) si ripercorre al contrario la
matrice fino al punteggio pi basso: dalla casella X ci si sposta a quella a adiacente a
punteggio = X o = X - 1. A mano a mano che si procede, si riscrivono le 2 sequenze
allineate: lo spostamento in diagonale significa che le sequenze sono gi allineate, con lo
spostamento verso sinistra si deve aggiungere un gap nella sequenza a sinistra, e nello
spostamento verso l'alto un gap nella sequenza in alto.
Questo tipo di algoritmo adatto ad un allineamento di tipo locale.
PROBLEMA
L'algoritmo Smith-Watermann risolve il problema dei gap assegnando ad essi una
penalit. In questo modo, per, se immaginiamo un tratto di similariet successivo ad una
zona di mismatch o a un gap molto esteso, questo sar penalizzato, in quanto la zona
precedente avr cos abbassato il punteggio, che i punti riacquistati non saranno sufficienti
a farla notare. Quindi un primo miglioramento introdotto in questo algoritmo stato quello
di impedire al punteggio di ottenere valori negativi, cos che non scenda mai al di sotto
dello zero, anche se la dissimilariet continua. In questo modo le zone simili emergono
come tratti a punteggio positivo.
Questo tipo di algoritmo che individua, appunto, piccole zone di similariet adatto ad
allineamenti di tipo locale.
PROBLEMA
Gli algoritmi descritti sono capaci di individuare le identit e di valutare i gaps. In realt
bisogna tener conto che non tutti i mismatch sono deleteri. Per prima cosa se si stanno
confrontando 2 sequenze nucleotidiche codificanti non detto che una sostituzione cambi
l'amminoacido codificato, inoltre le transizioni (sostituzioni purina-purina o pirimidinapirimidina) sono pi frequenti rispetto alle trasversioni (purina-pirimidina e viceversa). Se
invece si considerano sequenze di amminoacidi, bisogna tener conto del fatto che essi
hanno un certo grado di similariet tra loro polare o sterica. Ad esempio sostituire un acido
glutammico con un acido aspartico non la stessa cosa di sostituirlo con un triptofano, in
quanto nel primo caso l'Aa sostitutivo ha comunque carica negativa netta, mentre il
triptofano altamente idrofobico e a grande ingombro sterico, quindi funzionalmente ha un
ruolo totalmente diverso.
Matrici di comparazione
Le matrici di comparazione permettono di valutare meglio i match nella matrice, e di
sorpassare il concetto di identit/diversit, tenendo conto del fatto che gli amminoacidi tra
loro hanno una certa somiglianza e quindi possono essere intercambiati con una certa
probabilit senza stravolgere la funzione della proteina.
Le pi utilizzate sono le matrici PAM e le Blosum.
Le matrici PAM (percent accepted mutation) sono basate sulla frequenza con cui un
amminoacido viene sostituito con un qualsiasi altro in gruppi di proteine
evoluzionisticamente conservate. I punteggi pi alti sono ottenuti per gli amminoacidi
conservati, pi di tutti la cisteina, che coinvolta l'unico amminoacido che pu formare
ponti disolfuro, importantissimi per la struttura proteica. Da una matrice PAM se ne
possono estrapolare altre moltiplicando ogni valore per s stesso.
Le Blosum funzionano in modo simile, ma utilizzano gruppi di proteine pi "lontani", o
meglio che superano una certa percentuale di similariet.
PROBLEMA
I metodi precedenti mantengono il numero di confronti pi basso possibile e cio n per m.
Con questo sistema si consideravano tutti i confronti possibili, ma 1 sola volta e quidi non
si perdevano dati. Questo ottimo quando si confrontano tra loro numeri di sequenze
bassi o sequenze corte. Quando, invece, si ha a che fare con ricerche in database,
bisogna ottimizzare i tempi in cui si ottengono i risultati, perch anche se si restringe al
minimo il numero di confronti (n x m) dato che si confronta la stessa sequenza con diverse
migliaia, anche un tempo molto breve e accettabile per pochi allineamenti diventa
estremamente lungo per database.
Algoritmi euristici
L'algoritmo di tipo euristico un algoritmo la cui soluzione non quella ottima per un dato
problema, ma viene scelto come strada per affrontare problemi molto difficili, perch riesce
a ricavare una soluzione approssimativamente molto vicina a quella ottima. Il vantaggio
spesso sta nel fatto che offre una soluzione disponibile in tempi ragionevoli, mentre il
"metodo ottimo" impiegherebbe troppo tempo.
Tipicamente riguardo l'allineamento di sequenze, gli algoritmi euristici si basano sulla
word-size. Settare la word-size significa preindicizzare la sequenza, solitamente
settandola a 2 Aa o 6 paia di basi. In questo modo la sequenza amminoacidica non viene
confronta amminoacido per amminoacido, ma a gruppi di 2, dimezzando la lunghezza
delle sequenze e praticamente riducendo a 1/4 il numero di confronti (n/2 * m/2 = nm/4).
Gli algoritmi euristici pi utilizzati sono FASTA e BLAST.
FASTA individua zone di similariet, le "recinta", cio individua i limiti della zona e su
questa applica un algoritmo di allineamento tradizionale. Questo sistema adatto per
allineamenti locali.
BLAST ricerca high-score segments, cio segmenti con allineamenti molto buoni, e
partendo da questi prova ad estenderne le estremit per allargare la zona di similariet.
Questo approccio valido per allineamenti locali.
PROBLEMA
I precedenti metodi sono capaci di allineare 2 sequenze, mentre talvolta potrebbe essere
utile confrontare tra loro gruppi di queste.
Clustal
E' il programma di allineamento multiplo pi semplice. Questo allinea le sequenze a 2 a 2,
risolvendo tutti gli allineamenti doppi possibili, poi procede a una clusterizzazione, e cio
raggruppa, sempre a coppie, le sequenze tra loro pi vicine e questi cluster tra loro, fino a
costruire un albero.
PROBLEMA
Le matrici di comparazione non tengono conto della posizione di un dato amminoacido
all'interno di una sequenza. L'esempio pi facile quello dell'istidina legante l'02 nella
emoglobina. Se uno considera le matrici pam, l'istidina ha alcuni punteggi, relativamente
"flessibili", ma ovvio che nell'emoglobina, conservare l'istidina legante l'ossigeno di
importanza fondamentale altrimenti la molecola perde la sua funzione. Quindi sostituire
l'istidina in quel punto dovrebbe comportare una penalit di gran lunga pi grande che
sostituire una cisteina, che in genere l'Aa pi conservato, nella stessa proteina.
Matrici di pesi - Weight Matrix
Sono costruite analizzando tot casi di varianti allineate di una stessa proteina. Per ogni
posizione nella catena di analizza la frequenza con cui presente l un certo
amminoacido, la somma delle frequenze percentuali di tutti gli amminoacidi in quella
posizione da' sempre 100.
sequenza proteica
|----------------------20|
Aa|
| weight | matrix | |
Le frequenze relative sono sostituite in modo logaritmico. Questo sistema ottimo non
solo per siti conservati in proteine ma anche per i siti di splicing e in genere tutte le
strutture non definite.
Psi-blast utilizza un sistema simile cio le position-specific scoring matrix: a partire da una
query psi-blast, tramite blast, recupera da un database un set di risultati, servendosi
inizialmente di una matrice blosum. Sulla base di questi risultati costruisce le PSSM, e le
utilizza come matrici di comparazione per rifinire il set ottenuto, ripetendo l'operazione n
volte, fino a raggiungere un punto oltre il quale ottengo sempre lo stesso pool di risultati.
PROBLEMA
Anche questo tipo di matrici non sufficiente, perch tiene conto di gruppi ristretti di
proteine che sappiamo essere relazionati tra loro, mentre, in genere, in tutte le proteine
anche non correlazionate per funzione possiamo riconoscere dei PATTERN, dei motivi,
che sono comuni a tutte, come, ad esempio, le alfa eliche e i foglietti beta, oppure
combinazioni di questi, e domini. Oppure, semplicemente, possiamo non conoscere
proteine simili alla nostra e quindi essere sprovvisti del pool sul quale costruire le nostre
matrici di pesi.
Pscan
Pscan confronta la sequenza della propria proteina query alla ricerca di motifs, domini,
elementi, pattern presenti nel database PRINTS.
La proteina viene, quindi, descritta come una sequenza di motifs ed elementi, che nel loro
insieme costituiscono il loro finger print, la signature caratteristica.
Se i "match", cio i motif individuati, sono presenti tutti e nell'ordine corretto, allora la
proteina della query molto probabilmente ortologa o la stessa di quelle ritrovate nel set di
risultati.
Se i motifs sono presenti ma alcuni di questi sono nella posizione scorretta, possiamo
e Spdv. Questi forniscono vari modi di visualizzarla, tra cui il wireframe che evidenzia solo i
legami tra gli atomi, o il backbone che mostra solo lo scheletro dei legami peptidici.
Homology modelling e allineamento di sequenze
Lhomology modelling basato sul fatto che data la similarit di 2 strutture primarie, si
otterr similarit anche a livello delle strutture terziarie. Quindi per ottenere qualcosa di
significativo necessario che le 2 strutture primarie siano effettivamente simili, e ci
stabilito tramite lallineamento di sequenza. Quindi laccuratezza del modelling dipende
direttamente dallottimizzazione dellallineamento della proteina target con le altre
omologhe.
Alla fine le 2 proteine avranno un backbone in larga parte sovrapponibile.
Superposition vs alignment
Lhomology modelling non comunque un metodo infallibile. Possono esserci casi rari per
cui sequenze anche se molto diverse ripiegano nello spazio allo stesso modo. Ci significa
che poi lallineamento ottimale ottenuto dai software descritti precedentemente non poi
quello rispecchiato nel vero. Questo pu accadere per proteine omologhe ma molto
distanti evoluzionisticamente, per cui lallineamento di sequenza d un risultato scadente.
Casi come questo sembrano inficiare il presupposto per cui le strutture primarie siano
predittive di quelle terziarie.
Sono comunque casi rari, ma probabili. Dal punto di vista evolutivo, quellallineamento,
anche se scadente, fatto bene, nel senso che rispecchia effettivamente le mutazioni
accadute, ma dal punto di vista dellattivit proteica, non importante tanto la sequenza
ma piuttosto il folding generale, poich da quello che scaturisce la funzione.
Quindi poich il mantenimento della funzione di importanza primaria, non importa che un
determinato amminoacido abbia la stessa funzione in tutti gli step evolutivi, e quindi se per
esempio in una certa proteina antenato fa parte di un alfa-elica, non detto che in una sua
discendente debba comunque farne parte, limportante che quellalfa-elica sia
conservata: la conservazione della struttura pi importante della conservazione della
sequenza. In casi come questo opportuno ricorrere al metodo di sovrapposizione delle
strutture. In questo tipo di strategia si fanno coincidere spazialmente 2 amminoacidi di 2
proteine e si verifica il grado di overlap dei modelli 3d.
Position specific gap penalties
Sequence alignment Mostra ci che accaduto evoluzionisticamente
Gktlit-----nfsqehip
Gktlisflyeqnfsqehip
Structure alignment Mostra com che accomodato strutturalmente
G|ktlitnf|sq-----ehip
G|ktlisfl|yeqnfsqehip
|-helix|
Questo tipo di esempio permette di approfondire il concetto di prima che molto
importante. Come si pu notare le 2 sequenze differiscono per uninserzione (flyeq), e ci
ben evidente dallallineamento di sequenza. Ora noi ci aspetteremmo che
quellinserzione venga trattata come un loop, ossia come un tratto di catena addizionale
senza un preciso ripiegamento in mezzo a 2 tratti che invece conservano in entrambe le
sequenze la stessa struttura, ma non cos: se si va a verificare a livello di struttura come
quellinserzione stata accomodata, si pu notare che alcuni degli Aa della precedente
alfa-elica non ne fanno parte pi, e il loro posto stato sostituito da quelli dellinserzione.
Quindi a livello di struttura stato preferibile conservare la presenza di unalfa elica di una
determinata lunghezza indipendentemente dagli amminoacidi che la componevano.
Questo possibile perch come se esistesse un pool di Aa compatibili con la
formazione di unalfa elica e quindi, poich pi importante la struttura, non importa quali
Aa siano scelti per comporla, purch siano tra quelli facenti parte del pool.
Un discorso simile possibile farlo per i loops, che, dato che non hanno un ripiegamento
rigido da rispettare, possono accettare inserzioni e delezioni di vari amminoacidi senza
che poi il folding ne risenta particolarmente.
Ne consegue quindi che considerare una penalit generica per i gap non ha senso
biologico, ma si deve tener conto di informazioni sulla struttura, poich da questo punto di
vista inserzioni o delezioni (indels) nei loop hanno molto meno peso che nelle strutture
secondarie.
Diventa perci necessario introdurre penalit posizione-specifica per i gap, questo, qualora
si conoscesse i tratti con ripiegamenti particolari, pu essere fatto con la semplice
implementazione di mask di strutture secondarie in clustal, o spostando manualmente i
gap fuori da questi tratti. Laddove invece non si conoscano a priori queste informazioni, ci
sono programmi capaci automaticamente di stimare la probabilit di sequenze di ripiegarsi
in strutture secondarie in base alla loro composizione.
Ma comunque nella totalit dei casi, ormai, tutti gli ultimi software di allineamento multiplo
supportano queste cose.
Homology modelling process
Lhomology modelling passa per alcuni step, che sono molto simili tra software diversi:
Si parte ovviamente dalla sequenza target, che viene confrontata con quelle di una
genebank non ridondante con strutture annotate, questa procedura di search viene
effettuata da un programma come per esempio psi-blast. Dal search otteniamo 2 tipi di
dati: le sequenze omologhe e le sequenze omologhe di cui conosciamo la struttura. A
questo punto si procede allallineamento multiplo di queste per esempio tramite clustal, t-
coffee e il file ricavato viene elaborato dal modulo di modelling vero e proprio basandosi
anche su database di strutture. Essenzialmente il backbone della nostra proteina target
sar molto simile a quello delle sue omologhe, per cui il programma pu basarsi, magari,
sulla media di questi backbone e ottimizzare via via questa struttura di base. Questo
modello viene completato tramite laggiunta di ligandi, substrati e aggiustando le zone
dissimili con le proteine omologhe variando leggermente la struttura in maniera da ottenere
la maggiore sovrapposizione possibile. Tale operazione fatta trattando le strutture
secondarie come elementi stabili concatenati da loop flessibili, quindi spostando gli
amminoacidi alle estremit (tip) di alfa-eliche, ecc si pu variare il folding generale entro
certi limiti. In questo modo si cercano di evitare angoli di legame troppo stretti, defidendo al
meglio proprio i loop, che sono le strutture meno definite. In genere si cerca di fare
unoperazione di smoothing del backbone, e cio di accomodare al meglio la struttura,
evitando tutte le situazioni di costrizione della struttura.
Il modello completo viene sottoposto a una fase di analisi per valutarne lattendibilit. La
valutazione della qualit del modello si basa ovviamente sulle sorgenti di errore e di
inaccuratezza pi frequenti e queste sono la correttezza dellallineamento multiplo, che
lo step limitante per eccellenza dellhomology mod; il numero di strutture temprato gi
conosciute disponibili, e i loop non-conservati.
Tra i software specifici per lhomology mod ci sono swiss model, modeller ma anche molti
altri sia free che commerciali, tutti ugualmente validi nello svolgere questo lavoro.
Un programma come questi organizzato a moduli ognuno con un compito diverso, per
esempio Swiss model affida la procedura di search a blastp2, lalignment a sim, poi crea i
file per protmod e protmodll genera le strutture 3d, infine gromos96 fa un lavoro di
minimizzazione energetica della struttura, per cui modifica il folding in modo da ottenere la
conformazione energeticamente pi favorita.
Applicabilit
Il modello ricavato tramite homology modelling non equivale a quello ricavato per
cristallografia, quindi nulla ci assicura che esso sia il vero ripiegamento che la proteina
assume in vivo, ma piuttosto pu essere pi o meno vicino ad esso, e ci sono alcuni casi
in cui veramente molto affidabile. Ovviamente come se fosse un metodo euristico e
cio non ottimale ma ragionevolmente buono per ottenere con poche risorse e poco tempo
una soluzione al problema della determinazione delle strutture 3d.
Dato che non possiamo essere sicuri dellequivalenza del modello ricavato per hom mod
con quello vero, ne consegue che dobbiamo stare attenti a non abusare del sistema per
ricavare informazioni che non si possono ottenere da esso.
Lhomology modelling serve a mappare informazioni da una sequenza allineata nello
spazio, ma non pu essere utilizzato per predire la struttura di una proteina. In questo
senso possiamo ottenere 3 tipi principali di modello:
Modelli basati su allineamenti incorretti ma i cui errori non sono localizzati in aree di
interesse primario.
elica e beta sheet. Ovviamente il numero di alfa-eliche possibili limitato e quindi limitato
anche il numero di angoli compatibili con essa, quindi in generale il numero di strutture
grande ma finito e ogni struttura ha una sua frequenza. Grazie a ci possibile ottenere
una predizione di strutture secondarie (alfa-eliche, beta-sheet, turns, random coils, ecc.).
Altri parametri tenuti in conto nella SSP sono la frequenza di certi amminoacidi allinterno
di determinati fold, lidropatia e cio la preferenza di certi amminoacidi di trovarsi sulla
superficie o allinterno della struttura per la loro polarit e affinit con lacqua, la carica,
tratti transmembrana.
AB INITIO PREDICTION
Le tecniche qui descritte cercano di predire la conformazione della proteina a priori, cio
basandosi puramente su principi e dinamiche chimico-fisiche generali e conosciute, senza
ricorrere al confronto della sequenza con altre ad essa simili. Quindi come se le variabili
necessarie al folding della proteina siano gi contenute nella sua sequenza, e in effetti
proprio cos, ma queste sono molteplici e interagiscono cos complessamente tra loro che i
nostri tentativi di riprodurre tali meccanismi possono riuscire solo parzialmente. Pertanto
sono sicuramente meno efficaci di una strategia come lhomology modelling. In genere
quello che tentano di ottenere questi programmi ricercare, a mano a mano che si
procede con il calcolare il fold, la struttura a pi basso livello energetico. Quindi il
programma procede per step e a ogni bivio possibile si crea una ramificazione delle
possibilit di ripiegamento, costruendo man mano una struttura ad albero. Pu sembrare
dispersivo ma non cos, perch progressivamente con la definizione della struttura, ogni
scelta di fold ne impedisce alcune e apre la strada solo ad certe altre.
Tale metodo, , come gi detto, meno affidabile rispetto allhomology modelling ma pu
essere utilizzato molto validamente proprio per rifinire quelle strutture semi-definite che si
ottenevano da questo.
GENE MINING
SEQUENZIAMENTO
In genetica sequenziare significa ottenere la struttura primaria di un frammento di DNA.
Conoscere la sequenza in s non serve a nulla, per costituisce un ottimo punto di
partenza, perch questa costituisce la struttura di base su cui si trovano i geni, regioni di
regolazione, ecc. Tutte le informazioni sono codificate l, quindi partendo dalla sequenza si
pu poi cercare di trovarle.
Quindi il sequenziamento non ha senso se non affiancato dall'annotazione, ossia dallo
svelare sulla sequenza, di per s, codificata, tutte le informazioni che contiene come
posizione e struttura di promotri, enhancers, introni, esoni, ecc.
Le migliorie tecnologiche introdotte negli ultimi decenni ci hanno permesso di sequenziare
in maniera sempre pi rapida ed efficiente, per cui ora non si dispone pi di singoli
frammenti di DNA, ma si conosce la struttura primaria di interi genomi, di numerosissimi
organismi modello.
Le informazioni annotate sulla sequenza poi costituiscono un'importantissima risorsa
______ _____
____
_ _ ____ _
____
_____
Frammenti sonicati
___________________
____________________
Contigs
Perci confrontandoli tra loro ci saranno tante regioni di sovrapposizione, che significher
che quei frammenti fanno parte dello stesso punto, e grazie alle quali potremo risalire alla
sequenza su larga scala ossia la consensus, assemblandoli insieme in tanti frammenti
contigui, chiamati, appunto, contigs. Questo lavoro di ricostruzione fatto tramite
software, in silico, con programmi come PHRED, PHRAP e CONSED, per cui non si deve
pensare a essi come a una molecola identificabile, ma a una sequenza pi grande
ricostruita per interpolazione delle sequenze dei singoli frammenti clonati.
CHIUDERE I GAPS
Statisticamente difficile ottenere un unico contig che copra l'intera molecola da
sequenziare per cui molto probabilmente si otterranno tanti Contigs non sovrapponibili tra
loro, si crea quindi il problema di chiudere questi gaps.
Avere un contig significa conoscerne esattamente la sequenza per cui si possono costruire
sonde che ibridino con le estremit di ciascun contig. Andando poi a screenare la nostra
libreria con queste sonde sar possibile individuare i cloni che portano il frammento della
sequenza capace di unire 2 conting tra loro. Per esempio:
contig 4
probe 7
_______
probe 7
_______
_______
_______
contig 1
probe 4
probe 4
frammento 43
Abbiamo 2 contig, il numero 4 e il numero 1 separati da un gap, costruiamo quindi delle
sonde per le loro estremit e screeniamo la nostra libreria di frammenti.
Vediamo che l'estremit 3' del contig 4 viene ibridata dal probe 7 e l'estremit 5' del contig
1 dal probe 4. Abbiamo poi un frammento, il numero 43, che ha l'estremit 5' che ibridizza
il probe7 e la 3' il probe 4. Questo significa che l'estremit 3' del contig 4 e quella 5' del
frammento 43 sono lo stesso pezzo di DNA, e un discorso simile si pu fare con l'altra
estremit. In conclusione il frammento 43 quello capace di unire i conting 1 e 4, e
abbiamo cos riempito un gap.
Questo metodo efficace per piccoli genomi, come quelli di batteri, virus, ecc, ma con
grossi genomi questo approccio praticamente impossibile.
CHROMOSOME WALKING
Il genoma umano grande circa 3 miliardi di nt, quindi per ottenere un numero sufficiente
di sovrapposizioni bisogna sequenziare qualcosa come 10^7 frammenti da 1000 bp, per
raggiungere una ridondanza sufficiente di sequenze. Ne consegue che il metodo
precedente cos com' non va bene, rende l'impresa quasi impossibile, ecco perch si
sono ideati altri metodi e uno di questi il Chromosome Walking.
Questo metodo concettualmente molto semplice: il DNA viene frammentato in pezzi
abbastanza grossi come 200 kbp, e clonato in YAC. Si parte poi da un primer plasmidico
vicino al sito di inserzione del frammento e si sequenzianole prime 1000 bp, conoscendo
la sequenza di queste, si costruisce un primer sull'estremit di questo frammento e si
sequenziano le successive 1000, e cos via, camminando lungo il cromosoma. Dei probe
al 3' di ogni frammento vengono utilizzati per identificare la successione dei frammenti per
overlap di ibridazione. Il sequenziamento procede da un lato all'altro del sito di inserzione
che sar identificabile grazie a un marker.
Questo metodo molto affidabile, ma ha grossi limiti legati al fatto che non si pu
procedere lungo il cromosoma senza conoscere prima la sequenza del frammento
precedente, pertanto un sistema molto lento.
Il chromosome walking, tuttavia, stato il sistema sfruttato per il progetto genoma umano.
SHOTGUN SEQUENCING
La metodica shotgun pu essere applicata in 2 modi diversi: un modo conservativo e uno
alternativo o whole genome shotgun. Entrambi si basano comunque sulla estrema
frammentazione del DNA e sul sequenziamento contemporaneo di tutti i frammenti per
poi assemblarli attraverso un'accurata e laborioso ricostruzione dei contig. Poich il
genoma viene direttamente frammentato, si perdono tutti i riferimenti al suo interno, per cui
necessario avere una struttura preesistente sulla quale posizionare i contig, uno scaffold,
costituito solitamente da una mappa genetica o fisica del genoma.
Il modo conservativo parte da una mappa genetica, per cui noi conosciamo marcatori,
riferimenti all'interno del genoma come STS, RFLP che servono per orientarci nel genoma.
Questo viene quindi frammentato e clonato in YAC. Tali frammenti posseggono a priori dei
marker che li assegnano a determinate posizioni sulla mappa genetica. Sono poi
ulteriormente scissi in pezzi pi piccoli, che vengono sequenziati tutti. Infine sono ricostruiti
i contig e si risale alla consensus del pezzo grosso.
Il whole genome shotgun bypassa la frammentazione del genoma in pezzi medio-grossi,
ma si ottengono direttamente piccoli frammenti subito sequenziati. In questo modo si
perde qualunque riferimento alla mappa genetica, per cui i markers andranno ricercati solo
dopo la ricostruzione dei contig.
Questo sistema molto pi veloce del chromosome walking perch il sequenziamento di
tutti i pezzi avviene contemporaneamente, e non bisogna aspettare quello dei frammenti
precedenti, per ha bisogno di una solita mappa genetica, in genere non riesce mai a
coprire l'intero genoma, e presenta inoltre alcuni problemi con le sequenze ripetitive.
SEQUENZE RIPETUTE E SHOTGUN SEQUENCING
La presenza di sequenze ripetute in un genoma un grosso problema nella metodica
shotgun e pi in generale nella ricostruzione dei contigs. Oltre tutto tali sequenze sono
particolarmente frequenti in alcuni genomi, e anche quello umano ne presenta molte.
Pensiamo ad esempio ad una tandem repeat, abbastanza lunga da non poter essere
coperta da 1 solo frammento. Avremo quindi molteplici frammenti che rappresentano vari
punti distanti nella repeat, ma essendo tutti uguali per sequenza sar per noi impossibile
capirlo, perch si sovrapporranno tutti tra loro. Quindi si corrono grandissimi rischi di
sovrastimare o sottostimare la lunghezza della regione ripetuta.
Se poi pensiamo che le stesse repeat possono essere presenti in punti diversi del
genoma, su cromosomi diversi, ecc facile immaginare che si possono collegare tra loro i
contig sbagliati. Oppure regioni comprese tra 2 uguali larghe repeat possono essere
escisse perch le 2 repeat essendo uguali overlappano.
IMPORTANZA DEI MARKERS
Abbiamo detto che lo shotgun approach ha bisogno di una mappa genetica su cui basarsi,
per ancorare i markers che sono sui contig che crea.
Le mappe genetiche sono annotazioni della posizione di markers sull'intero genoma. Un
marker qualsiasi cosa capace di rappresentare in maniera univoca una specifica
posizione lungo il genoma. Un marker pu essere quindi un gene, una sequenza specifica,
una mutazione puntiforme. In genere una sequenza ripetuta non pu essere un marker, in
quanto proprio perch presente pi volte perde di univocit.
Un gene-marker pu essere identificato per il fenotipo visibile ad occhio, per un fenotipo
Mb) e nel 95 quella delle STS (1 Mb). Dopo aver ottenuto delle solide mappe fisiche del
genoma si potuto poi affrontare il sequenziamento vero e proprio e nel 1998 si ottenuta
la sequenza del primo cromosoma umano, il pi piccolo: il 22. Nel 99 arrivata quella del
cromsoma 21, poi nel 2001 si ottenuta la prima sequenza bozza dell'intero genoma che
comprendeva quasi il 90%. Nel 2003 si avuta ufficialmente la sequenza completa.
Parallelamente al progetto genoma umano la Celera Genomics capitanata da Craig Venter
propose nel 1998 un approccio shotgun al sequenziamento del genoma umano, e
utilizzando come basi le mappe fisiche del progetto genoma umano, in soli 2 anni
contemporaneamente al PGU riusc a pubblicare nel 2001 la sequenza draft e nel 2003
quella completa.
Tuttavia l'approccio shotgun ha numerosi difetti infatti la sequenza non era veramente
completa, erano presenti numerosi gap e il sequenziamento non era accurato.
L'inaccuratezza e la necessit di una mappatura precedente sono comunque difetti
intriseci a questa metodica cos come il grande numero di sequenze richieste e l'intesa
attivit di assemblaggio computazionale dei contigs.
ANNOTAZIONE
Annotare vuol dire identificare su una sequenza gli elementi di interesse scientfico,
decodificarla, svelare quello che nasconde e cio i suoi elementi funzionali:
l elementi trascritti tRNA mRNA rRNA snRNA, ecc
l elementi strutturali esoni introni 3' e 5'-UTR ORF mutazioni promotori enhancers
splicing poliadenilazione siti di legame a proteine
l regioni di similarit
l altre cose come elementi trasponibili
l markers tipo STR RFLP ecc
L'annotazione pu essere manuale o computazionale.
L'annotazione manuale ovviamente pi accurata, basata su evidenze sperimentali, ma
molto lenta: un gruppo di ricerca pu occuparsi al massimo di un gene, e proprio perch
affidata all'uomo soggetta ad errori, e inoltre non detto che sia posta la stessa cura ed
attenzione in tutti gli aspetti dell'annotazione: ad esempio qualche gene sar pi
approfondito dal punto di vista della struttura del promotore, ma pi carente sulle
informazioni riguardo le modificazioni post-traduzionali, ecc.
L'annotazione computazionale pi obiettiva, perch affidata alla macchina, veloce, ma
non altrettanto accurata perch la struttura di un gene eucariotico non affatto definita
come quella di un gene procarioti, non esistono leggi di codifica rigide, ma anzi c' ben
poco di deterministico. Ad esempio la tata box una generica sequenza ricca in adenine e
timine, che ha un ruolo importante nel promotore, ma di pi non sappiamo: non ne
conosciamo la sequenza precisa, ma proprio perch non ce l'ha, e una ripetizione simile
pu essere presente in qualsiasi altra parte del genoma, ma non per questo una tata
box.
Quello che in genere si fa iniziare con un'annotazione automatica e poi rifinire i dati con
un'annotazione manuale.
CERCARE GENI
I geni procariotici sono piuttosto facili da cercare perch hanno una struttura semplice e
inoltre hanno gli elementi funzionali abbastanza definiti, come per esempio il promotore.
Essenzialmente la ricerca si riduce nel trovare ORF abbasanza lunghe sulla sequenza,
ORF che iniziano con un codone ATG e finiscono con un codone di stop in frame.
Un'altra cosa da tener conto che i microorganismi a causa della diversa disposizione dei
tRNA hanno una certa predilezione per i codoni sinomini, per cui nel codificare un certo
amminoacido utilizzano sempre lo stesso codone anche se virtualmente pu essere
codificato da altri. E tale discorso vale anche per gli organismi eucarioti.
La probabilit di trovare in un procariota una ORF di N codoni pari a: (1/64) x (61/64)^N x
(3/64)
1/64 la probabilit di trovare un codone d'inizio, che unico ed ATG
61/64 la probabilit di trovare uno qualsiasi dei codoni che sono 64 ma bisogna
escludere i 3 di stop
3/64 la probabilit di trovare uno qualsiasi dei 3 codoni di stop
(In realt il calcolo sbagliato perch se N il numero di codoni codificanti quando si
calcola (61/64)^N si fa un errore perch si tiene conto un'altra volta del primo codone che
abbiamo gi contato che comunque codifica per una metionina; per cui sarebbe opportuno
elevare a N-1. Se poi si vuole contare anche il codone di stop bisogna elevare a N-2.)
Tale calcolo delle probabilit non comunque applicabile agli eucarioti a causa
dell'esistenza di esoni ed introni.
E proprio per le caratteristiche di un gene eucariotico la ricerca delle ORF
completamente inutile, se non per individuare la localizzazione del primo esone. Bisogna
quindi cercare metodi alternativi e pi adatti.
Il metodo migliore consiste nel ricercare similarit con altri geni noti (BLAST, FASTA),
credo che sia chiaro a questo punto, dato che ci hanno abbuffato la capa di allineamenti.
Dico solo che se si va ad allineare sequenze derivate da proteine si perdono le
informazioni riguardanti gli introni e gli UTR, cosa che si risolve andando a confrontare
cDNA derivati da mRNA non maturati che conservano ancora gli introni e tutto.
Esistono poi metodi basati sulla genomica comparativa (PIPMAKER, VISTA)che mettono
in evidenza le regioni maggiormente conservate tra organismi diversi, basandosi sull'idea
che sono conservate perch importanti. Si possono confrontare sia organismi vicini come
uomo e topo, ma anche lontani tipo uomo e takifugu (un pesce che stranamente non ha
introni nel suo genoma), noteremo che in ogni caso gli esoni sono l'elemento pi
conservato.
Esistono infine metodi statistici, supervisionati e non (li vedremo tra poco), che cercano di
modellizzare tutto quello che conosciamo riguardo i geni eucariotici e ricercano nella
sequenza non annotata quei segnali.
GENE MINING
Con gene mining si intende quellinsieme di procedure per scoprire geni eventualmente
presenti su sequenze sconosciute. Anche in questo caso si parla di probabilit di
presenza, quindi queste tecniche non sono totalmente affidabili, ma spesso i loro risultati
sono ampiamente confermati.
Il modo pi semplice per ricercare geni per similarit con proteine conosciute, cDNA,
RNA ed EST (le EST sono sequenze parziali di mRNA ottenute per retrotrascrizione di
questi sfruttando come primer le sequenze di polyA).
La ricerca di un gene solitamente si risolve nella ricerca di un ORF e quindi una
potenzialit di coding, la probabilit e non la certezza della presenza. Ci sono varie
caratteristiche tipiche delle ORF, e sono queste che si ricercano, tra esse troviamo la
periodicit delle basi, luso di codoni, la frequenza di esameri, si possono utilizzare poi
sistemi basati su reti neurali (grail) e catene di markov (glimmer).
I risultati sono poi integrati con analisi compiute da altri programmi come Genie (markov,
ricerca promotori, siti di splicing, codon usage) o GeneScan (markov, vari segnali, esoni
subottimali), che migliorano laffidabilit dei nostri risultati.
Tutte queste strategie di ricerca non sono sufficienti di per s, ma devono tutte collaborare
tra loro, far combaciare i loro risultati fino ad ottenere il risultato pi vicino possibile al vero.
Nonostante questo enorme sforzo analitico, per, bisogna sempre tener presente che
come per il modelling si ottengono sempre probabilit, molto alte, ma non tanto alte quanto
quelle ottenute da evidenze sperimentali.
PERIODICITA DELLE BASI
Molte delle tecniche di gene mining si basano sul concetto di periodicit delle basi, e cio
sul fatto che si nota una certa ripetizione nellutilizzo di certe basi in blocchi di 3 negli esoni
o di 2 negli introni. Il numero 3 negli esoni perfettamente giustificato dal fatto che il
codone composto di 3 basi, e queste tecniche ricercano proprio questa caratteristica a
triplette o esameri per individuarli.
Ad esempio misurando in una sequenza la distanza reciproca di una certa base come
ladenina da tutte le altre basi a lei identiche, ci accorgiamo che la frequenza di
distribuzione delle distanze presenta dei picchi in tutti i multipli di 3 negli esoni e in tutti i
multipli di 2 negli introni. Quindi si pu dire che tendenzialmente una base tende ad
assumere posizioni omologhe in tutte le triplette, per cui se troviamo unadenina in
seconda posizione, questa si trover molto frequentemente in seconda posizione in tutte le
triplette successive.
CODON USAGE
Il codice genetico universale, pertanto in linea di massima le tecniche che si basano
sulla sua analisi sono applicabili a tutti gli organismi. Il codice genetico anche
degenerato, questo significa che un Aa pu essere codificato da pi codoni. Ogni
organismo ha dei codoni di preferenza che costituiscono una sorta di signature, il
fingerprint della specie, questa scelta dipende dalla frequenza di tRNA. Infatti data la
presenza di pi tRNA leganti lo stesso Aa a causa della degenerazione del codice, e
poich questi sono disponibili a concentrazioni diverse, la traduzione di un gene sar pi o
meno efficiente e pi o meno veloce a seconda se sono utilizzati codoni che si appaiano
con tRNA ad alta o bassa disponibilit. Ovviamente le sequenze codificanti subiscono una
pressione evolutiva da questo punto di vista e mutano in modo da sfruttare i tRNA a
disponibilit pi alta per essere trascritti, in questo modo tutti i geni dello stesso organismo
tenderanno ad usare gli stessi codoni per gli stessi amminoacidi.
Per lo stesso motivo le sequenze non codificanti, inclusi gli introni, non mostreranno
questa conservazione del
codon usage perch non essendo trascritte non interagiscono con i tRNA.
In sintesi si pu affermare che il codon usage diverso fra esoni ed introni, e
precisamente molto pi rispettato nei primi che nei secondi, anche se, andando a vedere
fa rigidit con cui rispettato in entrambi, si pu notare che esiste una zona di
sovrapposizione, in cui non possiamo essere sicuri se quel tratto di sequenza appartiene
ad un esone o ad un introne.
Resta comunque una caratteristica ben sfruttabile grazie alla quale sono state costruite
tabelle di frequenza dellutilizzo dei codoni, cos da poter gi in un primo momento
individuare il frame di lettura della sequenza, che molto probabilmente sar quello in cui il
codon usage pi rispettato e la localizzazione generica di esoni ed introni.
SCANNING
Lo scanning una tecnica che analizza progressivamente sulla sequenza un tratto definito
di X basi e ne registra una caratteristica, come per esempio il codon usage. In questultimo
caso a mano a mano che la finestra di scan procede lungo la catena nucleotidica si ottiene
un grafico della variazione del codon usage, possiamo poi stabilire un cut off per cui tutti i
tratti al di sopra di questo sono considerati possibili esoni perch rispettano il codon
usage, e tutti quelli al di sotto possibili introni.
La stessa operazione si pu fare con la periodicit, che allo stesso modo inquadra in
maniera abbastanza generica la posizione di esoni ed introni in base alla frequenza di
ripetizione di una base in una certa posizione della tripletta.
SITI DI SPLICING
Le tecniche precedenti ci davano solo unidea della localizzazione di esoni ed introni, anzi
la questione era molto pi vaga in quanto forniscono solo dei candidati pi che la presenza
probabile.
Per si sa che su ogni giunzione esone/introne deve essere presente un sito di splicing,
che sebbene mostra una certa variabilit nella sua costituzione, possibile comunque
riconosce un pattern consensus, che indica allo spliceosoma come orientarsi.
A tale proposito si sono adattate tecniche gi descritte in precedenza come le matrici di
peso e in particolare le weight matrix for splice donor/acceptor. Queste matrici analizzano
la frequenza di presenza di una certa base in una determinata posizione del sito di splice,
per cui sullasse delle ordinate troviamo le 4 basi azotate, sulle ascisse le posizioni relative
al sito di splice e ovviamente nella matrice annotate le frequenze.
splice
... -3 -2 -1 | +1 +2 +3
A T freq delle basi intorno C
al sito di splicing G
In questo modo si ottiene una sorta di descrizione della sequenza consensus del sito di
splicing tramite le matrici di peso, quando poi si allinea la propria sequenza con questa
matrice, si ottiene la probabilit della presenza di un sito di splicing.
ESONI CANDIDATO
Effettuando uno scanning del gene con tutte le tecniche precedenti, e integrando i dati
ottenuti si ottengono i potenziali esoni candidato. Infatti se queste tecniche, utilizzando
ognuna un approccio diverso, sono tutte discretamente valide per individuare la
localizzazione di esoni ed introni, i loro risultati combaceranno in certi tratti, che saranno di
conseguenza quelli a pi alta probabilit di essere veramente esoni od introni.
RETI NEURALI (Grail II)
Le reti neurali cercano di riprodurre il funzionamento in piccolo di un sistema nervoso.
Quindi strutturato come varie unit organizzate in una rete di interconnessioni; ogni
elemento di calcolo riceve molteplici input ed emette un solo output verso un altro nodo
della rete. Ognuno dei collegamenti ha un certo peso sul risultato, non definito
dalloperatore. Questo set up , infatti, lasciato al sistema, che trova i pesi giusti in base ai
risultati che ottiene, o costruendoli su un training set.
Il sistema quindi capace di configurare in maniera autonoma le proprie connessioni in
modo da far assegnare lo score pi alto agli esoni.
La rete neurale sulla base della presenza del training set distinta in supervisionata o non
supervisionata. Quelle supervisionate hanno un training set, e cio un certo numero di
esempi, e nella fattispecie di sequenze certamente introniche e certamente esoniche, sulla
base delle quali si autoconfigura. E poi man mano aggiunge i propri risultati al set. Nelle
reti non supervisionate il training set assente e il sistema impara solo sulla base dei
propri risultati.
Si possono riconoscere nella rete neurale pi livelli: un input layer, dal quale noi
introduciamo i dati iniziali, loutput layer che ci fornisce il risultato e un certo numero di altri
livelli interposti che elaborano i dati. Questo livello di mezzo chiamato hidden layer, e
cio livello nascosto, poich non si interagisce con esso; non n visibile n
comprensibile. Infatti poich il sistema si autoconfigura, non si pu trovare una
corrispondenza tra quei determinati pesi delle connessioni e una qualsiasi regola biologica
che spieghi perch si debbano assegnare in quel modo.
Quindi paradossalmente la rete neurale funziona anche molto bene, ma non potremo mai
sapere come e perch ottiene questi risultati.
GENIE / GENESCAN
Sono programmi capaci di integrare tutti i singoli dati ottenuti precedentemente fino ad
ottenere predizioni di geni. I risultati ottenuti da questo programma hanno comunque meno
affidabilit delle evidenze sperimentali, ma questi si rivelano il pi delle volte molto vicini al
vero al punto che i database genetici archiviano anche i geni predetti da questi software, in
attesa che i risultati siano confermati poi sperimentalmente.
STUDIO DI GENOMI
GENOMICA FUNZIONALE
Esistono vari aspetti della gnomica, finora si parlato di gnomica strutturale, che si
occupa di determinare la sequenza del genoma e del mappaggio fisico dei geni.
Esiste poi una genomica funzionale si occupa dellanalisi del ruolo dei singoli geni o di
gruppi di questi, studiandone anche la loro reciproca interazione e come lavorano
allinterno di un organismo.
Infine la genomica comparativa esegue il confronto tra genomi di diversi organismi, sia
nella sua organizzazione che nella sequenza per determinarne la funzione (non della
proteina, ma del perch il genoma in s ha quellorganizzazione).
La genomica funzionale largomento che si affronter in questa parte. Essenzialmente
cerca di rispondere a 3 quesiti fondamentali, e nello specifico si interroga su quale sia il
ruolo del gene, ossia in quale processo cellulare coinvolto (o meglio coinvolta la
proteina che codifica), a quale tipo di regolazione e in che rete di regolazione sottoposto,
e in che modo i suoi livelli di espressione variano in differenti tipi cellulari e in differenti
condizioni fisiologiche, di sviluppo, patologiche o in risposta ai farmaci.
Si pu facilmente notare che questi target passano tutti per lo studio dei livelli di
espressione genica.
rilevata, proprio perch la luminosit di uno spot dovrebbe risultare dalla somma
dellintensit del segnale pi il rumore. Il problema sta nel determinare quale sia il livello di
rumore di fondo: questo viene ottenuto rilevando la fluorescenza in spot vuoti o in cui la
sonda e il target sono esogeni, ossia provenienti da organismi diversi. Ovviamente la
luminosit proveniente da questi 2 tipi non pu essere quella dovuta ai nostri target ed
quindi rappresentativa di ibridazioni aspecifiche, che sono poi quelle che determinano il
rumore.
Normalizzazione
La normalizzazione in matematica consiste nel dividere tutti i termini di unespressione per
uno stesso fattore. Questo significa che elaboriamo ogni singola intensit luminosa rilevata
attraverso una stessa funzione, in modo da ottenere dei dati pi normali, o meglio pi
regolari, in modo che siano pi vicini a quelle che si riscontrano mediamente. In questo
modo diventa possibile confrontare le intensit fra loro allinterno di uno stesso chip e fra
esperimenti diversi.
Cruciale diventa lidentificazione di questo fattore, sulla base del quale normalizziamo i
dati.
La necessit di normalizzazione scaturisce dal fatto che esiste una grande variabilit tra gli
esperimenti, le cui sorgenti sono:
Diversa efficienza dei markers
Differenti protocolli sperimentali
Diversi parametri usati in fase di scansione
Differenze nei substrati appartenenti a lotti di produzione diversi
Per ovviare a questo problema dobbiamo usare come riferimento un gruppo di geni che
non variano tra gli esperimenti e che quindi si comportano allo stesso modo.
E possibile utilizzare tutti i geni, assumendo che quelli che subiscono una variazione
sono una parte molto piccola rispetto alla totalit, ma questo assunto non valido in caso
di campioni molto eterogenei come quelli provenienti da tessuti diversi; un gruppo di geni
housekeeping, la cui espressione si considera costante, ma solitamente hanno livelli di
espressioni molto alti, quindi non sono adatti alla normalizzazione di geni ad espressione
bassa; target speciali di cui si conosce a priori la quantit totale, per cui possiamo
regolarla in base al tipo di geni che vogliamo normalizzare, ma dato che sono aggiunti
dopo la preparazione del campione, non possibile compensare le differenze generate in
questa fase, che la causa pi comune di errore.
Una volta scelto il pool di geni su cui costruire lo schema di normalizzazione, si devono
effettivamente normalizzare i dati. Gli algoritmi pi utilizzati sono la Global Normalization e
il LOcally WEighted Scatter plot Smooth (LOWESS).
Global Normalization
La global normalization il tipo pi semplice e riprende esattamente il concetto di
normalizzazione, infatti prevede che tutti i dati vengano moltiplicati per una costante. Tale
costante K ottenuta dal rapporto tra i libelli medi di espressione nei 2 campioni, dei geni
dimostrata essere solitamente elevata per basse intensit e ridotta per alte intensit.
Unusual ratio
Questo sistema individua la soglia in modo statistico, rendendola pari alla media dei
rapporti dei livelli di espressione tra esperimento e controllo. Vengono considerati sovraespressi o sotto espressi i geni che hanno un rapporto di intensit che va oltre le 2
deviazioni standard rispetto alla media dei rapporti.
Questo sistema risolve il problema della soglia arbitraria ma come il fold change ignora il
problema riguardante la varianza dei valori di intensit.
Univariate statistics
Il metodo presuppone che i logaritmi dei rapporti dei livelli di espressione seguano una
distribuzione normale, e tramite il test t di Student assegna la probabilit che un gene
venga riportato erroneamente come differentemente espresso. Il test t si basa sullipotesi
zero secondo la quale le differenze dei livelli di espressione sono dovute al caso. I nostri
dati dovrebbero assumere rispetto a questa ipotesi una distribuzione normale ossia a
campana, con la maggior parte dei dati che variano rispetto al caso e una piccola parte
alle estremit della campana che sono quelle non dovute al caso ossia quelle significative.
Il test calcola quindi la probabilit che la differenza calcolata sia dovuta al caso, se questa
molto quei 2 geni oggetto del confronto hanno un livello di espressione
significativamente diverso.
Analysis of variance ANOVA
Il metodo si basa sullanalisi della varianza (ANOVA), una estensione del test-t e pu
essere utilizzata quando si confrontano le medie di pi di 2 gruppi (il test-t confrontava solo
2 esperimenti tra loro) sotto la stessa ipotesi nulla e con lo stesso livello di significativit.
In questo caso lipotesi zero consiste nellassunzione che la variabilit allinterno di un
gruppo pi elevata rispetto alla variabilit tra i gruppi, e di conseguenza la variabilit tra
questi probabilmente frutto solo della variabilit interna.
DATA MINING
Con data minino si intende lestrazione di informazioni significative dai dati attraverso
lindividuazione di associazioni pattern, sequenze ripetute che si trovano nascoste tra i
dati, a causa della loro variabilit e mole.
Proprio a causa di questi 2 motivi lanalisi tradizionale dei dati come il data retrieval
inadatta. Questultimo infatti cerca allinterno dei dati quelli che soddisfano le condizioni
poste nella query. Quindi presuppone lesistenza di domande precise e quindi la
conoscenza a priori delle relazioni tra i dati.
Il data mining ha il grande vantaggio di far emergere dai dati associazioni esistenti senza
la formulazione di ipotesi a priori e quindi senza query.
Le tecniche pi utilizzate sono:
Clustering
Reti neurali
Alberi di decisione
Individuazione di associazioni
Il clustering e le reti neurali non supervisionate sono tecniche capaci di segmentare i dati,
cio di invididuare gruppi omogenei di dati presentanti le stesse caratteristiche.
Gli alberi di decisione e le reti neurali supervisionate fanno utilizzo di un training set per
classificare nuovi oggetti.
Lanalisi di associazioni invece individuano regole nelle occorrenze concomitanti di pi
eventi.
Clustering
Clustering significa classificare e cio separare ci che appare diverso e unire in gruppi
omogenei ci che simile.
Gli algoritmi di clustering separano i dati in sotto-insiemi costituenti, rivelando gruppi
naturali (preesistenti). Quindi si presuppone che i dati analizzati posseggano gi una
propria distinzione in classi a noi sconosciuta, che le tecniche di clustering mettono in
evidenza.
Il clustering differisce dalla classificazione, perch in questa la struttura dei dati nota, per
cui si conosce gi il criterio in base al quale classificare.
La cluster analysis pu essere utilizzata per dedurre la funzione di geni ignoti basandosi
sulla funzione di geni noti con pattern di espressione simile (i geni coinvolti nello stesso
processo vengono attivati nello stesso momento); per identificazione di profili di
espressione associati a condizioni patologiche; per decifrare meccanismi di espressione
genica (i geni co-espressi sono anche co-regolati).
Gli algoritmi di clustering possono essere
Gerarchici
agglomerativi / divisivi
Non-gerarchici
a cluster sovrapposti / non sovrapposti
Clustering gerarchico
Il clustering gerarchico produce delle strutture ad albero, in cui i cluster dei livelli pi alti
sono aggregazioni di altri cluster, di livello pi basso. Quelli che procedono dai livelli pi alti
a quelli pi bassi eseguono un processo divisivo, viceversa si segue un processo
agglomerativo.
Tra i programmi che facevano uso di questo tipo di procedimento cera lalgoritmo UPGMA,
che creava strutture ad albero, dendrogrammi, utilizzando un clustering gerarchico
agglomerativo.
Il dendrogramma quindi la signature di questo metodo, perch rappresenta sia
operativamente che visivamente gli eventi di scissione o unione effettuati a ogni iterazione.
In particolare si notano le diverse lunghezze dei rami dellalbero, tali lunghezze riflettono le
distanze tra gli elementi del cluster e cio il loro livello di similarit/diversit.
non sovrapposti, in quanto ogni elemento viene assegnato ad un solo centroide, per cui i
chicchi, o elementi, dubbi che si trovavano nella precedente zona di sovrapposizione
vengono assegnati in maniera distinta ad un cluster preciso.
Il vantaggio di questo algoritmo che efficiente e facile da implementare, ma bisogna
stabilire a priori il numero di cluster che non possiamo conoscere, la qualit dei risultati
dipende molto dalla scelta della posizione iniziale dei centroidi, inoltre i geni devono per
forza appartenere ad un solo cluster.
Il concetto di centroide. il centroide il punto di accumulazione intorno al quale si
costruisce il cluster. In unanalisi a 2 dimensioni i cluster possono essere rappresentati
come forme libere, poligoni irregolari, il cui centroide costituito dal centro di gravit della
figura. Per individuare il centro di gravit di una forma libera, in modo pratico, molto
semplice: si immagini un pezzo di carta tagliato in modo irregolare (la nostra forma libera),
e di appenderla per un punto qualsiasi, il vincolo. La carta pender in virt della forza di
gravit, si pu disegnare quindi una linea che passa per il vincolo (il punto per cui
appesa) con la stessa direzione e orientamento della forza di gravit, e quindi una linea
dritta verso il basso. Se si ripete la stessa operazione per un qualsiasi altro punto del
foglietto, e si tira unaltra linea, le 2 linee tracciate si incontreranno in un punto. Quel punto
il centro di gravit della figura e per qualsiasi altro punto appenderemo la figura tutte le
linee passeranno sempre per quel punto.
Lo stesso vale per una figura dal peso non omogeneo in tutti i suoi punti, si pu
immaginare ad esempio che ogni punto del cluster abbia un peso e quindi se pi elementi
sono accumulati nella stessa zona, quella avr pi peso di un'altra zona del cluster con
meno elementi. Questo non cambia il modo di individuare il centroide, perch il foglietto di
carta, nel momento in cui appeso, si orienter nel modo giusto grazie alla forza di
gravit.
Altri metodi
Altri metodi di clustering possono essere distinti in supervisionati e non supervisionati.
Come le reti neurali, quelli supervisionati fanno uso di un training set, ossia un pool di
esempi guida, campioni, in base ai quali costruire i cluster, i metodi di associazione e
successivamente assegnare i nuovi elementi. Quelli non supervisionati non fanno uso del
training set.
Metodi non supervisionati
SOM (self organizing map) loperatore stabilisce i centroidi, o meglio i valori di
riferimento, rispetto ai quali i geni vengono assegnati sulla base della loro somiglianza a
tali valori.
PCA (principal component analysis) estrae dai dati i temi ricorrenti e non c necessit
di definire il numero iniziale di clusters.
Metodi supervisionati
LDA (linear discriminant analysis) usa markov chains e training set costituiti da una serie
di classi di geni di interesse. A partire da queste crea un modello per assegnare nuovi geni
alla classe appropriata.
Banche dati di profili di espressione
I risultati di esperimenti di microarrays sono archiviati in banche dati. Le pi importanti
sono GEO (ncbi), Array Express e KEGG Expression, come al solito americana, europea e
giapponese. Ogni dato suddiviso in 2 componenti principali, larray e cio le informazioni
riguardo il design e la costruzione dellarray in s, e i vari esperimenti che hanno fatto
utilizzo di quellarray, con i relativi dati ottenuti. Poi in aggiunta a questi c una terza
componente il protocollo che d informazioni su come eseguire lesperimento.
DATABASE
Il database una collezione strutturata di dati o records, per esempio un'agenda telefonica
o un libro di ricette.
Il computer-database si basa su un software per organizzare l'immagazzinamento dei dati.
Il modo in cui il software organizza la struttura del database chiamato data model.
Un data model quindi descrive in modo astratto come si accede ai dati e come si
rappresentano, uno dei tanti modi disponibili il Flat file.
GERGO DEI DATABASE
Tipo di dato = un nome che indica l'insieme dei valori che una variabile pu assumere.
(int = numero intero; char = carattere) Riga/Record/Row/Tuple = un oggeto di un
database che contiene campi o elementi ciascuno dei quali con un nome e un tipo proprio.
Tuple indica infatti una sequenza di valori, chiamati componenti del tuple.
Colonna/attributo/coloumn/Attribute = un oggetto di un database e indica il tipo di dato,
quindi una collezione di elementi di uno stesso tipo (numeri di telefono, nomi di persona,
ecc)
Campo/Field = l'elemento che compone il record, e pu contenere un dato classificato
con un determinato attributo.
Query = significa chiedere al software di recuperare dei dati dal database. La query
infatti la domanda, che ha come risposta ci che abbiamo chiesto di cercare nel
database.
FLAT FILE
Il flat file un file contenente i records, ognuno di questi descritto in una riga, per cui
rappresentato da una tabella. L'attributo flat significa piatto, come un foglio di carta, ad
esempio di un'agenda telefonica, in cui i dati sono semplicemente elencati. Infatti il tipo di
flat file pi semplice rappresentato da tabella in cui i dati sono organizzati in righe e
colonne.
A livello informatico, quindi, il flat file non altro che un insieme di dati e separatori. Il dato
costituito da ci che c' scritto, dal campo, il separatore una sequenza di uno o pi
caratteri che viene usata per specificare il confine tra i campi del record e tra i record
diversi. Un database flat un tipo di database il cui data model codificato in un flat file,
quindi l'intera collezione di dati archiviata in un solo file e non ci sono relazioni strutturali
tra i dati.
(vedi tsabella)
Questo un esempio di database flat. Bisogna tenere conto che questa per ne la
rappresentazione, e non il modo in cui sono scritti nel file. Un esempio di come possono
essere codificati usando come separatore di campo la virgola, e come separatore di
record l'indicatore di fine-linea (andare a capo), questo modo chiamato formato CSV.
Mario,Rossi,12345678,Via Roma 21,Disneyland
Antonio,Verdi,54872532,Via Torino 37,Disneyland
Anna,Bianchi,123456789, eccetera
Il software interpreta questo formato cos: Il separatore virgola interpretato dal software
come una distinzione tra i campi, per cui i dati separati da questa vengono rappresentati in
colonne successive. Il separatore end-of-line viene interpretato come fine di un record e
inizio di un altro, per cui si passa alla riga successiva. Logicamente alla fine il database
sar rappresentato dalla tabella precedente.
DATABASE RELAZIONALE
Un database relazionale utilizza un data model di tipo relazionale, formato da una parte
di dati e da schemi, che indicano la struttura del database, ossia le relazioni attraverso le
quali esso organizzato.
Quindi una collezione di relazioni, chiamate tabelle (tabella e relazione sono sinonimi).
Ogni tabella come un flat file, organizzata in righe e colonne. Le righe costituiscono i
records, e ognuno di essi ha la stessa struttura; le colonne forniscono gli attributi in base ai
quali sono organizzati i records.
Il concetto molto pi semplice ed intuitivo di quanto sembri, prendiamo, ad esempio, la
tabella precendente:
Le righe sono i records, hanno tutti la stessa struttura, ossia hanno 5 campi.
Le colonne sono gli attributi in base ai quali i records sono organizzati: l'attributo della
prima colonna nome, quello della seconda cognome, la terza numero di telefono e
poi indirizzo e citt.
DBMS
Il database management system DBMS un software creato per gestire i database sulla
base di vari data models. Il relational database management system RDBMS si riferisce a
uno software capace di gestire solo database relazionali, e non va confuso erroneamente
con un database relazionale stesso.
Solitamente questi programmi si basano su linguaggi creati apposta per la gestione e il
recupero di dati dai database, il pi famoso di questi SQL (structured query language),
utilizzato da molti management system, che infatti portano la sigla SQL nel nome: MySQL,
PostgreSQL, Oracle, FileMaker, Microsoft Access, Microsoft SQL Server.
KEYS CHIAVI
Alcune parti sono gerarchiche, ossia esistono tag che devono essere posti
necessariamente prima di altri per avere senso, questo succede nelle feature table: la
feature table nient'altro che una tabella, o meglio, la descrizione di questa in modo da
adattarla dentro la struttura del file flat dell'embl record.
Per fare ci, ovviamente, bisogna utilizzare un linguaggio standard, nella fattispecie in
EMBL esiste un tag iniziale chiamato FH che sta per feature table header, in cui vengono
dichiarate le colonne della tabella, per esempio key e location/qualifier, e poi una
sequenza di tag FT, che descrivono ognuno un rigo della tabella e che fa uso di segnali
particolari per esempio con /codon start=1 si indica che il primo nucleotide della sequenza
successiva proprio quello codificante la metionina di inzio della ORF, oppure
/organism='Homo sapiens', indica che la sequenza stata isolata dal genoma umano. Altri
esempi sono /translation='...' con la traduzione della ORF, /cell_type, /tissue_type...
Questo ovviamente un metodo abbastanza macchinoso, proprio per la sua struttura
intrinsecamente complessa e la necessit di utilizzare un linguaggio standard.
Infine questo tipo di record presenta anche una certa quantit di ridondanza, infatti tutte le
sequenze di un determinato organismo avranno sempre ripetuti i blocchi di reference
relativi a fonte di provenienza e tassonomia, o tutte le sequenze inviate da uno stesso
gruppo presenteranno il medesimo blocco di reference.
Logicamente noi non visualizziamo il record tal quale come descritto, ma un programma
elabora il file e ce lo presenta in maniera pi user-friendly e quindi pi comprensibile.
EMBL DB
Ad oggi il database EMBL contiene quasi 205 miliardi di nucleotidi in circa 128 milioni di
entries. Se osserviamo com' evoluta la quantit di dati archiviati, possiamo notare che
questa cresciuta in maniera esponenziale dal 94, e la curva molto rapida e non
accenna ad arrestarsi. Inoltre oggi la maggior parte delle sequenze non di provenienza
umana, ma homo sapiens solo uno dei molti organismi di cui si completato e si sta
completando il progetto genoma.
Si guardano sempre entries e nucleotidi per un fatto molto semplice. Se guardiamo, ad
esempio, alle classi di dati archiviati, vediamo per esempio che la quantit di nucleotidi
provenienti da Whole Genome Shotgun sono quasi il doppio rispetto alle entries, questo
perch i frammenti sequenziati per WGS sono pochi, ma molto lunghi; se invece
osserviamo il rapporto entries/nucleotides per le sequenze EST vediamo che
completamente l'opposto, e cio il numero di entries un quarto rispetto al numero di
nucleotidi, infatti le EST che essendo sequenze parziali di mRNA sono molto corte, ma
possono essere ottenute molto facilmente.
Questo costituisce un problema critico dal punto di vista informatico perch si chiede di
archiviare una quantit crescente di dati, relazionarli tra loro, e soprattutto velocizzare i
processi di ricerca all'interno del database, che come sappiamo si basano sul confronto
della nostra query con TUTTI i record del DB, il ch un problema ancora pi grande
essendo i DB biologici tutt'ora basati su file flat.
ALTRI DATABASE
Per prima cosa definiamo la differenza tra banche dati primarie e secondarie. Le banche
dati primarie sono quelle che contengono direttamente la sequenza nucleotidica o
amminoacidica, come EMBL, DDBJ, Genebank per gli acidi nucleici e SwissProt, TrEMBL
per le proteine; le banche dati secondarie sono quelle che basano le loro informazioni
recuperandole da quelle primarie come PFAM, Ensembl. La differenza non cos netta,
esistono infatti DB non facilmente classificabili come PDB che archivia strutture
tridimensionali di proteine o anche acidi nucleici: l'informazione di struttura non
direttamente evincibile dalla sequenza, per cui, se vogliamo, questa banca dati fornisce
un'informazione primaria, ma non si tratta di una sequenza, quindi dovrebbe essere
secondaria. Altri esempi sono Rebase che un DB degli enzimi di restrizione, LocusLink
un DB di loci genici.
Tra il 1965 e il 1978 nasce il primo database storico Atlas of Protein Sequences and
Structures che nell'81 diventato PIR, nel 1982 nasce Genebank. Esistono oggi circa
1000 databases. La rivista NAR nucleic acid research si specializzata nei database
biologici e nel 2008 ha rilevato 1078 DB funzionanti. Ha creato la Molecular Biology
Database Collection che praticamente una banca dati di banche dati.
SWISSPROT RECORD
E' organizzato in modo molto simile a un record di EMBL, cio un file di testo, organizzato
in righe con un tag iniziale di 2 lettere. Anche questo contiene record multilinea come OC,
organism classification, e sottorecord o gruppi di record come il blocco reference, contiene
inoltre reference incrociate e link con altri DB.
Ovviamente contiene informazioni sulla proteina, oltre la sequenza, domini
transmembrana, folding conosciuti, mutazioni conosciute; anche qui sono organizzati nella
feature table. Esiste anche un tag CC, commenti, che contiene invece informazioni
abbastanza generiche, ma, se vogliamo, utili come la funzione, localizzazione cellulare,
tessuto specificit e anche informazioni sul copyright.
TrEMBL RECORD
I record di TrEMBL derivano tutti direttamente da record EMBL. TrEMBL significa, infatti,
translated EMBL (ossia EMBL tradotto): i file invece di tenere sequenze di nucleotidi
contengono sequenze ipotetiche di amminoacidi. Queste sono in un certo senso primarie
perch sono costruite de novo, ma si tratta di un DB secondario perch queste sono
attinte da EMBL.
Se la sequenza ipotetica confermata, il recordo viene trasferito, tal quale, in SwissProt.
In un certo senso a ogni ondata di genomi sequenziati il database di TrEMBL si
ingrandisce, poi man mano che le proteine vengono studiate e ne viene confermata la
sequenza TrEMBL si accorcia.
PDB RECORD
E' stato gi descritto quando si parlato dell'homology modelling, comuque vale la pena
ricordare che anche questo tipo di record strutturato similmente a quelli gi descritti, solo
che qui i tag sono a pi caratteri.
La parte essenziale del record l'annotazione spaziale di tutti gli atomi della proteina.
CONSORZI
Le varie banche dati incominciano ad associarsi per mettere insieme le conosce, i dati e
fornire un DB unico e comprensivo di tutto. Un esempio di questi UniProt, costituito
dall'unione di SwissProt, TrEMBL e Pir. Da questa unione nato un DB con pi
componenti tra cui UniProt Knowledgebase che il central access point, per cercare
informazioni su funzione, classificazione e cross-reference, poi ci sono UniProt Nonredundant Reference (UniRef) che accelera le ricerche combinando sequenze
strettamente correlate in un singolo record, e infine UniProt Archive (UniParc) che
raccoglie la storia di tutte le sequenze proteiche.
ALTRI DB DI INTERESSE
REF SEQ
DB di sequenze ma non ridondante
LOCUSLINK
DB di loci genici
OMIM
DB di malattie genetiche a trasmissione mendeliana
SNPs
DB di polimorfismi
PUBMED
DB di reference bibliografiche
TAXONOMY
DB di tassonomia degli organismi
REBASE
DB di sequenze riconosciute da enzimi di restrizione
GENEONTOLOGY
E' un DB di definizioni di biologia ed uno dei pochissimi esempi
di DB relazionale
RELAZIONI TRA I DATABASE
Il problema principale dei flat database la ridondanza di informazioni, e quindi la mole di
queste che deve essere archiviata. Questo un problema che tutt'ora affligge molti DB,
come per esempio PIR che diviso in 2 sezioni Domini e Superfamily map che in larga
parte condividono i dati forniti come la sequenza, e spesso capita che le sequenze
annotate nelle 2 non coincidano.
Se poi ci mettiamo nei panni del ricercatore che vuole sfruttare questi DB la situazione
sconfortante. Abbiamo visto che le banche dati esistenti sono moltissime, e ognuna ha il
suo formato, quindi per prima cosa bisognerebbe prendere confidenza con ognuno di
questi.
Poi ogni database ha un suo strumento di query, che adattato sul suo formato, sul suo
data model. Questo significherebbe che se uno volesse sfuttare tot DB dovrebbe imparare
tot query tools.
Si cercato di ovviare a questi problemi integrando tra loro i dati delle differenti DB tramite
un unico tool.
Si sono tentati 3 approcci:
l View integration (K2)
l Data warehouse (Entrez)
l Link integration (SRS)
VIEW INTEGRATION (K2)
La View integration lascia le informazioni nei DB sorgente, cio non copia le informazioni,
ma costruisce attorno ad essi un ambiente che fa sembrare all'utente come facenti parte di
un unico sistema, quello che in realt l'integrazione di molteplici formati. EMBL e
GeneBank giustamente hanno formati diversi, mostrano informazioni leggermente diverse,
nell'ordine diverso, nonch con un formato diverso, ma attraverso la View integration le
informazioni diverse vengono integrate tra loro e mostrate in un'unica interfaccia, che
risulta all'utente molto pi comprensibile.
Il sistema si basa su un language processor che analizza la query, sceglie i database
necessari a soddisfare la richiesta di search, e genera tante subqueries che sono adattate
ad estrarre informazioni dai database scelti.
Recuperate le informazioni, queste vengono integrate e mostrate all'utente come un tutto
unico.
Un esempio di questo sistema K2 che era un linguaggio che permetteva di fare questo
lavoro di connettersi alle sorgenti, recuperare dati e mostrarli. La query si faceva in un sito
internet.
Non ha avuto successo per diversi motivi: per prima cosa per il fatto che non copiando i
dati dai database, ma accendendo a loro ad ogni query, nel momento in cui la rete down
(cio non funziona), non era possibile recuperare informazioni. Inoltre era un sistema
intrisencamente lento, per il modo in cui funzionava.
DATA WAREHOUSE (ENTREZ)
Questo sistema recupera tutti i dati dai DB, quindi copia la roba (ware) e la conserva in
loco (house). Questi dati sono poi accomodati in un proprio data model. Alla base ci sono
una serie di software che prendono i dati dalle banche sorgente, trasforma questi dati
adattandoli nel proprio data model e poi li caricano nella warehouse.
Questo tipo di sistema adottato da Entrez: questo integra dati di letteratura, database di
sequenze di DNA e proteine, strutture 3D, dati sui domini, studi di popolazione, studi di
espressione, informazioni tassonomiche e numerosi crosslink. Entrez scarica intere
banche dati e ne riorganizza i dati in nodi di una rete, per esempio DB come Pir,
SWISSPROT e PDB andrebbero a far parte del nodo Protein, EMBL e GenBank di quello
Nucleotide.
In quanto facenti parte di una rete, i nodi sono ovviamente interconnessi tra loro, e dato
l'alto numero di DB sorgente e di nodi, il sistema diventa talmente complesso che Entrez
non viene distribuito, non si pu downloadare interamente.
Questo significa che i risultati dipendono molto dalla qualit dei database, ma soprattutto
dalla qualit degli indici e della query, perch sapere cosa viene indicizzato dei DB e cosa
no, ti permette di fare una query intelligente chiedendo cose che sai di poter trovare negli
indici.
SUBENTRIES
Uno dei problemi che ha dovuto affrontare SRS sono le SubEntries, ossia quello che
succedeva in EMBL con i blocchi di reference. All'interno dei DB originali questo problema
non esiste, perch ognuno conosceva il proprio data-model e organizzava il blocco
reference con l'ordine prefissato.
I blocchi di reference hanno tag ripetuti tutti uguali, ma contengono informazioni
sostanzialmente diverse, per esempio se nel primo blocco reference c' l'autrice Rose che
ha scritto su Nature, e nel secondo l'autore Peppe che ha scritto su PNAS, queste sono
informazioni diverse, ma se noi facciamo una ricerca Rose&PNAS, il search ci ritorna
quelle 2 pubblicazioni perch Rose e PNAS fanno parte dello stesso record, ma il risultato
sbagliato perch in realt a noi interessava una certa Rose che ha scritto su PNAS, che
non presente nel risultato del search.
Lo stesso problema si crea nelle feature table, in cui con uno stesso Tag (FT)
immagazzinata una quantit molto varia di informazioni, come domini, tessuti di
espressione, ecc.
Il parser risolve questo problema perch conosce la struttura di questi blocchi, li legge
nel modo opportuno, li isola uno dall'altro e lo associa ad un ID artificiale, cos ogni
blocchetto di reference ha un proprio ID e ogni pubblicazione viene considerata a s.
LINK IN SRS
I links in SRS possono essere di 2 tipi:
l Hypertext links
l Indexed links (index-links & read links)
L'hypertext link il tipo collegamento internet, un link di connessione anonimo che non
lascia traccia, non si conosce n da dove viene, n dove va. Gli indexed links invece
tengono traccia di origine e destinazione, il sottotipo indexed indicizzato sia in origine
che in destinazione, il read-link indicizzato solo da una parte.
Nel lato sinistro di questa figura si pu notare un elenco di record A e B. Alcuni record A
sono relazionati con B, per esempio A1 relazionato con B3.
Inizialmente in alto a sinistra vediamo che l'ID collegato ad A1, e il DR a B3. Dopo che le
relazioni vengono indicizzate e il risultato che l'ID B3, e DR A1 e A2, infatti si vede
che A1 inziale relazionato con B3, mentre B3 relazionato con A1 e A2.
Quando facciamo una ricerca e vogliamo sapere tutti i record di B che sono relazionati ad
A (A>B o B
Se invece vogliamo sapere tutti i link di A relazionati con B (AA), otteniamo A1, A2, A3 e
A4, che sono i record da cui partono le frecce verso B.
L'indexed link creato confrontando 2 indici per esempio vengono linkati EMBL e
l
l
l
l
l
l
Il sistema ENSEMBL parte dalle sequenze genomiche, che vengono elaborate da CPU nel
database di analisi, quando poi la sequenza pronta viene caricata nel database finale,
affiancato da altri DB di supporto. Sono questi che poi l'utente consulta attraverso
l'interfaccia web chiamata MartView.
L'analisi della sequenza genomica molto accurata e richiede molto tempo, infatti per
vedere una propria sequenza inclusa nel DB di ENSEMBL sono necessari 3-6 mesi.
ENSEMBL basato su un server-database che fa uso di mySQL, e il l'ensembl databaseserver direttamente disponibile on-line.
L'interfaccia web abbastanza intuitiva si parte dalla scelta dell'organismo, poi se ne
visualizzano i cromosomi, se ne sceglie uno, e via via si pu scendere man mano a livelli
di zoom sempre pi alti fino a raggiungere la sequenza genetica interessata.
BIOMART (www.biomart.org/martview)
BioMart un search engine specializzato nel data mining. E' capace di gestire ricerche
con moltissimi parametri e porre i risultati in una tabella. Non sono richieste competenze di
programmazione e l'interfaccia abbastanza user-friendly.
Si possono scegliere il database o il gruppo di DB in cui effettuare la ricerca per esempio
ENSEMBL, chiamato data set e poi impostare numerosissimi attributi, per esempio in quali
organismi ricercare, se la sequenza conosciuta o meno, in quali cromosomi, ma ad
esempio interagisce anche con GeneOntology, per cui possibile ricercare tutti i geni
associati a una certa definizione di GeneOntology, per esempio tutti gli oncogeni, tutti i
geni coinvolti nel metabolismo di una sostanza, tutti i geni espressi in un certo tipo di
tessuto o in una certa patologia.
Si possono infine applicare filtri sul geneset ricercato.
Quindi un potentissimo strumento di ricerca che permette di decidere:
l specie di interesse (Dataset)
l cosa conoscere di un gene, tipo sequenza, ID, descrizione (Attributes)
l decidere su un geneset pi piccolo (Filters)
Il risultato finale, abbiamo detto, una tabella, in cui si possono settare gli attributi da
mostrare, tipo il nome del gene, la regione genica, ecc oltre ovviamente all'ID del gene o
del trascritto di ENSEMBL, che un vero e proprio hypertext-link cos si pu raggiungere il
direttamente il nostro target.