Sei sulla pagina 1di 46

1.

Genomi: organizzazione e complessit


Genomi sequenziati - Ensembl d accesso ad una collezione di genomi il cui sequenziamento ha raggiunto un livello adeguato di copertura. I frammenti derivati dal sequenziamento vengono assemblati, annotati e resi disponibili sotto forma di genomi. I genomi completi sono organizzati in cromosomi, quelli incompleti vengono strutturati in scaffolds, cio contigs di dimensioni piuttosto grandi, ma inferiori a quelle di un cromosoma. Puoi vedere i genomi correntemente annotati sul sito Ensembl, cercando nella pagina principale. [Attivit -> Vai al sito Ensembl: quanti genomi sono disponibili oggi? Al momento della preparazione del corso cerano 21 genomi di mammiferi 9 di altri cordati e 5 di altri eucarioti] Genomi in corso di sequenziamento: progetti di sequenziamento - I progetti di sequenziamento genomico si sono inizialmente concentrati su genomi piccoli (Haemophilus influenzae, 1.8 milioni di basi) o di particolare interesse scientifico (S. Cerevisiae e C. Elegans sono tra i primi genomi eucarioti sequenziati). I progetti di sequenziamento gi conclusi o in corso riguardano sia organismi procarioti che eucarioti. Il numero di genomi sequenziati rapidamente salito, e oggi disponibile una collezione di genomi sequenziati al sito Genomesonline. [Attivit: andando al sito Genomesonline, guarda i genomi sequenziati e valuta il rapporto tra genomi eucariotici e procariotici e la selezione di specie allinterno di gruppi omogenei. Confronta anche la selezione di genomi presenti in ENSEMBL con il totale di quelli sequenziati. Valuta inoltre il ruolo di: 1. Interesse scientifico per genomi di organismi modello. 2. Aspetti medici, relativi al ruolo in patologia. 3. Uso in ambito agrario e nellindustria agro-alimentare. 4. Implicazioni di natura ecologica e ambientale.] Quanti e quanto grandi sono i genomi? Categorie di genomi - Lo studio dei genomi richiede la scelta di genomi rappresentativi di categorie specifiche; procarioti, eucarioti semplici, insetti, vertebrati, piante hanno in genere caratteristiche diverse che corrispondono alle modalit con cui linformazione viene conservata e utilizzata. La dimensione dei genomi grossolanamente proporzionale alla posizione nella scala evolutiva, con genomi via via crescenti dai batteri agli eucarioti superiori. Esistono tuttavia eccezioni. La dimensione di un genoma dipende da: Poliploidia: i genomi eucariotici sono spesso diploidi, tuttavia esistono organismi e cellule aploidi o con grado diploidia maggiore di due; questo risulta in aumentata ridondanza pi che in un aumento dellinformazione. Per favorire il confronto tra specie diverse si usa il C-value che corrisponde alla quantit di DNA di un genoma aploide espressa in pg. Frazione di contenuto informazionale: anche in un genoma aploide, oltre alle regioni codificanti per mRNA e per altri tipi di RNA, esistono larghe zone di sequenze ripetute in tandem o comunque a pi basso contenuto informativo. [Attivit: Genome size DB. Nel sito Genomesize trova il contenuto in DNA per le seguenti specie: uomo, alligatore, riccio di mare, ape. Commenta il risultato. Nel sito trovi anche la possibilit di analizzare gruppi di specie vicine. Prova a vedere i dati su pesci mammiferi, rettili, insetti. Che variabilit hanno allinterno dei gruppi? Nello stesso sito, nel link statistics, trovi un grafico dove sono riportati i genomi di varie specie come range di dimensione. Confronta le dimensioni, quale ti sembra fuori tendenza? Come ti spieghi questa cosa?] Complessit dei genomi: effetto ipercromico - La denaturazione del DNA rende le basi pi accessibili e provoca un aumento della assorbanza a 260 nm. Questo effetto pu essere utilizzato per seguire la denaturazione, valutando la frazione di DNA denaturato come incremento di assorbanza.

% di GC e temperatura di melting - Le coppie GC, formando 3 legami idrogeno, conferiscono stabilit alla doppia elica in misura maggiore delle coppie AT. Per questo motivo la temperatura di melting risulta pi alta in funzione della quota di GC.

Curve di rinaturazione - La rinaturazione pu essere seguita allo stesso modo mediante valutazione di assorbanza in funzione del tempo. Poich la reazione bimolecolare, bisogna tenere conto anche della concentrazione. Tipicamente i risultati sono rappresentati in funzione di Cot, cio il prodotto della concentrazione per il tempo. Il Cot 1/2 definito come il valore di Cot per cui met del DNA rinaturato. Rinaturazione di DNA genomico umano - Il profilo di rinaturazione di DNA genomico umano non ha un andamento sigmoide semplice come quello descritto in precedenza, indice della presenza di componenti di caratteristiche non omogenee (fig.1).

Combinazione di 2 curve - La concomitante rinaturazione di due DNA di differenti caratteristiche pu essere descritta da una curva pi complessa, nella quale possibile vedere due fasi successive di rinaturazione, se i rispettivi Cot 1/2 sono sufficientemente lontani (fig.2)

Rinaturazione di un DNA genomico umano - La rinaturazione di un DNA genomico umano pu essere approssimata dalla combinazione di tre curve di rinaturazione (figura), corrispondenti a tre componenti, una lenta, una intermedia e una veloce. Le tre curve corrispondono ai profili di rinaturazione rispettivamente del DNA a copia singola, delle sequenze ripetitive di tipo ALU e del DNA satellite. Il DNA genomico naturalmente pi complesso a causa dellesistenza di ulteriori componenti, ma la combinazione descritta rappresenta una approssimazione accettabile della curva determinata sperimentalmente. Architettura dei genomi eucariotici: organizzazione dei genomi (visione di insieme) - Lorganizzazione dei genomi piuttosto variabile. Nel genoma umano la maggior parte della sequenza (>90%) non codificante, mentre in lievito e in E.Coli il grado di compattazione dei geni piuttosto elevato, con solo il 10% di regioni non corrispondenti a open reading frames (ORF). Negli insetti la situazione intermedia, mentre in piante, come Zea Mays, molto frequente osservare larghe regioni ripetute con scarso contenuto informativo, con dimensioni totali spesso superiori a quelle dei genomi di vertebrati (vedi sito genomesize ). Organizzazione del genoma umano Il cariotipo umano costituito da 46 cromosomi, ciascuno composto di regioni contenenti geni e di elementi strutturali coinvolti nella replicazione e divisione del patrimonio genetico, come telomeri, centromeri, origini di replicazione etc. I geni sono distribuiti in maniera diffusa, ma talvolta geni relati si ritrovano riuniti in una stessa regione, come le globine. Vari tipi di sequenze ripetitive sono classificate sulla base della frequenza e della dimensione, oltre che del tipo di ripetizione. Genoma di organelli - Mitocondri e cloroplasti hanno elementi in comune con i genomi procariotici, pur essendo tipicamente molto pi piccoli. I geni sono disposti di seguito, con spazi intergenici minimi, talvolta sovrapposti. Il numero totale di geni comunque ridotto, con molte funzioni anche essenziali trasferite sul genoma cellulare. Mitocondri di specie diverse hanno genomi che variano anche significativamente di dimensioni. Il database Gobase contiene una raccolta di genomi di organelli. Lorganizzazione dei genomi batterici - I genomi procariotici sono compatti, di dimensioni variabili da un minimo di 400 kb a circa 10 Mb. Le regioni codificanti sono raggruppate in operoni, separate da piccole regioni non codificanti. Tipicamente il genoma costituito da un unico cromosoma circolare, ma esistono genomi lineari e composti da pi catene di DNA; in alcune specie sono presenti plasmidi extracromosomiali. Complessivamente il DNA non codificante intorno al 10%, distribuito in un gran numero di regioni spaziatrici. Lorganizzazione del genoma di E. Coli: il genoma di E. Coli K12 costituito da circa 600 operoni, situati su una unica molecola di DNA circolare di 4.64 Mb. I geni sono localizzati a stretto contatto tra loro, lasciando solo piccole aree non codificanti come spaziatori. Una variet di sequenze ripetute presente nelle regioni non codificanti, ma anche in quelle codificanti. La struttura del cromosoma di E. Coli mostra ben visibili le caratteristiche indicate. Evoluzione di genomi - Il confronto fra genomi batterici viene tipicamente usato anche per lo studio di rapporti evolutivi e per la definizione di specie. Nei procarioti il flusso di informazione in verticale si associa ad un importante flusso di trasferimento genico orizzontale tra individui della stessa specie o di specie similari, che limita laffidabilit della comparazione nella definizione degli alberi evolutivi.

2. Mappatura di Genomi
Cos una mappa genomica? - La conoscenza completa della sequenza di un genoma permette di avere informazioni dettagliate su ciascuna regione cromosomica. Anche in assenza di tale informazione, per possibile ottenere mappe di elementi genomici noti (mappe genomiche), che rappresentano con un grado variabile di risoluzione, la sua organizzazione strutturale. Una mappa genomica consiste in un elenco di marcatori (marker), per i quali nota la posizione nel genoma. Le mappe possono essere utilizzate per assegnare regioni genomiche a specifiche aree del genoma completo. Cos un marcatore genomico? - Si pu definire marcatore qualunque elemento strutturale che possa essere facilmente identificabile e a cui si possa attribuire una specifica posizione lungo il genoma. Un gene tipicamente un marcatore, una specifica sequenza pu essere un marcatore, cos come una mutazione puntiforme. Una sequenza ripetuta non un buon marcatore genomico in quanto riscontrabile in punti diversi del genoma. I geni sono stati a lungo utilizzati come marcatori genomici in quanto la loro presenza in forma attiva pu essere facilmente verificata attraverso un fenotipo: - osservabile direttamente - identificabile con test biochimici - verificabile in qualsiasi altro modo I caratteri fenotipici sono stati utilizzati a lungo per determinare mappe di geni pi o meno vicini, anche prima di conoscere la natura del materiale genetico e la sua struttura molecolare. Oltre ai geni, anche altre sequenze di DNA aventi almeno due forme alleliche diverse sono utilizzabili come marcatori; esempi di tali polimorfismi sono: - RFLP (restriction fragment length polymorphism) - SSLP (simple sequence length polymorphism) - SNP (single nucleotide polymorphism) Gli RFLP (restriction fragment length polymorphism) consistono in polimorfismi a carico di un sito di restrizione, caratterizzati dalla perdita del sito. Possono essere riconosciuti con vari metodi: Southern hybridization, utilizzando un probe che riconosce uno o pi dei frammenti di restrizione in esame PCR, utilizzando primer disegnati per amplificare la regione contenente il sito di restrizione e digerendo successivamente con lenzima appropriato. Gli SSLP (single sequence length polymorphism) sono sequenze polimorfiche caratterizzate dalla ripetizione, in numero variabile di volte, di un pattern definito come ad esempio specifici di- o tri-nucleotidi. Lidentificazione degli SSLP viene eseguita mediante amplificazione per PCR della regione contenente lSSLP, seguita da corsa elettroforetica che evidenzia il polimorfismo come differenza di lunghezza. Gli SNP sono polimorfismi caratterizzati dalla mutazione di singoli nucleotidi. Essi possono essere riconosciuti mediante ibridazione, usando oligonucleotidi complementari ai diversi alleli e valutando la stabilit degli ibridi formati. In alternativa possono essere riconosciuti attraverso il sequenziamento della regione. Mappe genetiche - Le mappe genetiche sono rappresentazioni ottenute determinando la distanza tra geni vicini mediante tecniche genetiche. Si utilizzano diversi approcci sperimentali, anche in dipendenza dal tipo di organismi oggetto di studio. Tecniche di incrocio vengono utilizzate per organismi in cui la genetica ampiamente studiata: D. Melanogaster, lieviti o alcune piante. Lo studio di famiglie e dellereditariet di caratteri patologici viene utilizzato ampiamente in genetica umana. Tecniche di trasferimento genetico mediante coniugazione sono tipicamente usate nei batteri. I principi dellereditariet sono stati enunciati da nel 1865 e codificati nelle due leggi di Mendel: 1. Gli alleli segregano in modo casuale: di una coppia di alleli, ciascuno ha la medesima probabilit di essere ereditato (prima legge). 2. Coppie di alleli segregano in modo indipendente: gli alleli del gene A vengono ereditati in modo indipendente dagli alleli del gene B (seconda legge). Sulla base di questi principi possibile predire il risultato degli incroci genetici. Le leggi di Mendel si applicano correttamente a geni localizzati su cromosomi diversi. Geni localizzati sullo stesso cromosoma tendono invece a essere ereditati insieme: il fenomeno noto come linkage.

In realt un linkage completo si osserva solo per geni molto vicini, mentre geni progressivamente pi lontani mostrano il fenomeno in grado via via decrescente. Geni localizzati sullo stesso cromosoma, ma molto lontani, possono arrivare a comportarsi come se fossero su cromosomi distinti. Il grado di linkage riflette quindi la distanza fisica di due geni localizzati sullo stesso cromosoma. Il crossing-over durante la meiosi il principale evento responsabile del fenomeno. Mappe genetiche nelluomo - La determinazione di mappe genetiche nelluomo mediante calcolo delle frequenze di ricombinazione, ottenuta esaminando i genotipi di membri di generazioni successive di famiglie. Malattie a trasmissione genetica vengono spesso utilizzate come marcatori genetici essendo spesso associate ad una specifica locazione cromosomica. Tipicamente una famiglia oggetto di analisi composta da almeno tre generazioni, inoltre maggiore il numero di figli, pi affidabile sar il risultato dellanalisi. Nel pedigree riportato come esempio, lo scopo dellanalisi quello di mappare la posizione del gene responsabile della malattia studiando il suo linkage ad un microsatellite M i cui quattro alleli M1, M2, M3, M4 sono presenti nei membri viventi della famiglia in esame. Mappe genetiche nei batteri - I genomi batterici sono normalmente aploidi. Esistono per diverse modalit di trasferimento di DNA da un batterio ad un altro. Durante la coniugazione il trasferimento produce un organismo transitoriamente e parzialmente diploide che pu andare incontro a ricombinazione. Sulla base del tempo trascorso dallinizio del trasferimento possibile identificare la posizione di marcatori genetici specifici, come ad esempio geni che conferiscono caratteristiche biochimiche selettive. La risoluzione di una mappa genetica indica il numero di marker e il grado di precisione con cui possibile determinarne la posizione sul cromosoma. Essa dipende dal numero di crossing-over che possibile studiare. Nel caso di organismi di laboratorio, che si riproducono con facilit, possibile studiare molti incroci ottenendo una mappa genetica anche abbastanza dettagliata. Se per si studiano mammiferi, il numero di meiosi limitato dal tempo di riproduzione e dalle dimensioni della progenie. Inoltre la probabilit di crossing-over non uniformemente distribuita lungo il cromosoma. Il confronto tra la mappa genetica e quella fisica del cromosoma III di S. cerevisiae evidenzia discrepanze sia nellordine che nelle posizioni relative dei marcatori. Hotspot - La corrispondenza tra una mappa genetica e la reale distribuzione dei marker sul cromosoma dipende dalla probabilit di crossing-over, che dovrebbe, in condizioni ideali, essere identica in ciascuna posizione del cromosoma. Di fatto esistono regioni in cui tale frequenza pi bassa e regioni in cui pi elevata, fino ad avere frequenze particolarmente elevate in aree molto piccole, definite hotspot. Un frequenza di crossing-over pi elevata porta ad una sovrastima della distanza, viceversa con frequenze ridotte, le distanze possono essere sottostimate. In figura rappresentata la mappa di una regione di cromosoma contenente i marker A,B,C,D con i relativi eventi di crossing-over, indicati da frecce. Nella parte bassa riportata la mappa (errata) ottenuta sulla base degli eventi di ricombinazione.

Mappe fisiche - La mappatura fisica dei genomi consiste nel localizzare la posizione relativa di marcatori sul DNA, mediante tecniche in grado di determinarne direttamente la distanza. Il tipo pi semplice di mappa fisica probabilmente la mappa dei siti di restrizione di un frammento di DNA. Per genomi di grandi dimensioni, possono invece essere usate tecniche che si avvalgono della visualizzazione diretta dei cromosomi in microscopia ottica o tecniche di tipo biochimico. Le prime permettono la localizzazione diretta di marker su specifiche regioni cromosomiche, ma possono raggiungere risoluzioni limitate. Le

seconde richiedono uno sforzo sperimentale anche consistente, ma possono essere pi facilmente automatizzate e permettono di ottenere risoluzioni molto elevate. Mappe di restrizione - Le mappe di restrizione si ottengono dalla combinazione delle lunghezze dei frammenti generati per digestione totale o parziale di una molecola di DNA con uno o pi enzimi di restrizione. Lelettroforesi su gel di Agarosio dei frammenti ottenuti consente contarne il numero, valutarne la lunghezza e determinare le posizioni relative dei siti sulla base delle loro distanze. Talvolta per necessario ricorrere ad una digestione parziale, per ottenere frammenti non completamente digeriti per discriminare tra mappe alternative, egualmente possibili. La mappatura dei siti di restrizione molto utile per genomi di piccole dimensioni, come quelli virali. Per genomi pi grandi, lelevata frequenza di siti di taglio produce molti frammenti di dimensioni simili, difficili da distinguere in Agarosio e da organizzare in una mappa corretta. E tuttavia possibile scegliere enzimi con frequenze di taglio molto basse che riconoscono sequenze contenenti motivi rari. In questo caso, poich la risoluzione di un gel di Agarosio diminuisce con il crescere delle dimensioni delle molecole, necessario ricorrere a tipi speciali di corse elettroforetiche, che utilizzano campi elettrici non lineari (per esempio la OFAGE). I siti di restrizione possono essere localizzati anche mediante osservazione microscopica. Le molecole di DNA possono infatti essere distese su vetrini ricoperti di endonucleasi di restrizione inizialmente mantenute inattive. La sistemazione del DNA sui vetrini pu essere eseguita mediante gel stretching o molecular combing. Con lattivazione della reazione enzimatica e mediante utilizzo di un colorante per DNA (Dapi), i siti di restrizione vengono visualizzati al microscopio a fluorescenza come gap nella molecola di DNA distesa. FISH - La microscopia pu essere utilizzata anche per determinare direttamente la posizione di marcatori lungo una molecola di DNA mediante Fluorescent In Situ Hybridization (FISH). Geni o altre sequenze sul cromosoma, possono essere evidenziati mediante ibridazione con probe specifici e successivamente visualizzati al microscopio. La tecnica permette lassegnazione diretta di tali sequenze a specifiche regioni cromosomiche, ma ha una risoluzione limitata e non facile da applicare ad un numero eccessivamente elevato di geni. Uso di tecniche di frammentazione - Un modo alternativo di determinare le distanze consiste nelluso di metodi di frammentazione del genoma con metodiche fisiche o biochimiche. Lidentificazione contemporanea di pi marker sullo stesso frammento implica una distanza inferiore alla dimensione del frammento stesso. Nelle prime fasi del progetto genoma, la frammentazione mediante irradiazione, ha permesso di effettuare una prima mappatura a risoluzione limitata. Lirradiazione associata alla costruzione di ibridi cellulari contenenti grandi regioni genomiche. Il principio per molto pi potente, e, se applicato a frammenti di dimensioni pi contenute, ottenuti per frammentazione meccanica o enzimatica, permette di ottenere risoluzioni molto pi elevate. Luso di tecniche di frammentazione piuttosto che genetiche per la mappatura, permette di utilizzare in aggiunta ai marcatori descritti, anche altri di tipo diverso rivelabili con metodologie biochimiche: - siti di restrizione, rivelabili mediante digestione enzimatica - sequence tagged site (STS), piccole sequenze uniche nel genoma, rivelabili mediante PCR o ibridazione STS mapping - Per il sequenziamento del genoma umano sono state identificate una serie di sequenze di facile rilevazione definite STS. Si tratta di piccole sequenze caratterizzate dal solo fatto di essere presenti in singola copia nel genoma, e quindi facilmente rilevabili per ibridazione o PCR. La loro contemporanea identificazione allinterno di specifici frammenti, permette la costruzione di mappe a risoluzione elevata. La messa a punto di tecniche di clonaggio di frammenti di dimensioni elevate ha permesso di costruire librerie rappresentative dellintero genoma, da utilizzare sia per la mappatura che per il successivo sequenziamento.

3. Sequenziamento di Genomi
Metodi di sequenziamento: - Metodo chimico (Maxam e Gilbert): una tecnica non automatizzabile che prevede la marcatura delle estremit 3 del DNA con 32P, il taglio e la separazione dei due filamenti marcati. La miscela ottenuta viene suddivisa in quattro parti, ciascuna delle quali produce una miscela di frammenti dopo trattamento chimico capace di modificare e tagliare specificamente una o pi basi. I frammenti marcati prodotti hanno dimensioni specifiche e vengono analizzati per elettroforesi per determinare lordine dei nucleotidi. - Metodo enzimatico di Sanger: sintesi enzimatica parziale di una copia del DNA stampo in presenza di dideossinucleotidi (ddNTPs) che causano la terminazione dellallungamento. I frammenti ottenuti (fino a 500-1000 bps) vengono separati mediante elettroforesi su gel di poliacrilammide e visualizzati per autoradiografia. Il metodo di Sanger pu essere automatizzato mediante lutilizzo di dispositivi in grado di valutare la separazione delle specie molecolari durante la corsa elettroforetica, piuttosto che alla fine. Vengono utilizzati in questo caso ddNTPs marcati con fluorocromi. Luso di fluorocromi diversi per le quattro basi permette di separare i prodotti di elongazione mediante una singola elettroforesi capillare. Misurazioni successive della emissione in fluorescenza producono un elettroferogramma, che pu essere interpretato per ottenere la sequenza. Le letture tipiche ottenute in questo modo vanno da 300 fino a circa 1000 basi. Le tecniche di sequenziamento oggi disponibili riescono ad ottenere di norma sequenze di piccole dimensioni. Per questo motivo, DNA pi lunghi richiedono necessariamente il sequenziamento di molti frammenti pi piccoli. Il successivo assemblaggio dei frammenti permette di ricostruire la sequenza completa. Si procede quindi attraverso fasi distinte: - La generazione dei frammenti - La determinazione della sequenza - Lunione dei frammenti sequenziati - La chiusura dei gap La generazione dei frammenti - La molecola di DNA da sequenziare deve essere suddivisa in

frammenti da sequenziare separatamente. Possono essere usate tecniche diverse, ad esempio: - Digestione enzimatica, anche parziale, con endonucleasi di restrizione. - Frammentazione fisica mediante sonicazione. I frammenti ottenuti possono essere amplificati, inserendoli in vettori plasmidici o fagici.
Il sequenziamento dei frammenti - I frammenti generati vengono sequenziati, tipicamente mediante sequenziamento automatico, a partire dalle estremit utilizzando primer complementari alla sequenza del vettore. Viene cos determinata, a partire da ciascuna estremit, la sequenza di un numero di basi dipendente dalla tecnica utilizzata, tipicamente dellordine di alcune centinaia. Per frammenti di dimensioni limitate, questo pu corrispondere alla sequenza dellintero frammento. Lanalisi degli elettroferogrammi ottenuti viene eseguita da programmi specificamente sviluppati per verificare la bont del sequenziamento: Phred un programma che applica metodi statistici per valutare la qualit di ogni base sequenziata. Sulla base della posizione teorica in cui dovrebbero essere localizzati i picchi nellelettroferogramma, viene analizzata la posizione di ogni base e larea di ogni picco. Dal confronto tra le posizioni reali e quelle calcolate, si definisce un valore di affidabilit per ogni base. Lassemblaggio - Lassemblaggio della sequenza completa viene eseguito mediante ricerca di sovrapposizioni tra i singoli frammenti. In pratica la presenza di sequenze identiche, o notevolmente simili su diverse decine di basi nelle estremit consente di identificare coppie di frammenti consecutivi. La procedura di assemblaggio deve tenere conto della polarit della sequenza e del fatto che il sequenziamento pu avvenire in entrambe le direzioni. E necessario sequenziare un numero di basi pari a diverse volte la sequenza completa, per arrivare a trovare un numero di sovrapposizioni sufficiente. La ridondanza tuttavia utile, perch permette di correggere eventuali errori di sequenziamento. Diversi programmi sono disponibili per lassemblaggio dei frammenti, tra essi Phrap uno dei pi usati: il programma allinea le sequenze mediante ricerca di parole di lunghezza stabilita, come altri programmi di

allineamento, e attribuisce un punteggio sulla base della similarit delle basi e della affidabilit delle lettura. Lassemblaggio inizia a partire dagli allineamenti pi significativi e procede a mosaico costruendo tratti contigui composti da pi letture, definiti contig. Si creano cos isole non ordinate di sequenza, che nel complesso definiscono la completa regione da sequenziare. Lunione dei contig - Lunione dei contig richiede spesso una rifinitura manuale. A tale scopo necessario disporre di una interfaccia capace di visualizzare i risultati delle fasi di sequenziamento e assemblaggio. Consed un programma sviluppato per eseguire la fase di finishing durante la quale loperatore, visualizzando i risultati dellassemblaggio, potr eseguire modifiche allallineamento automatico e valutare la qualit del sequenziamento ed eventualmente decidere la ripetizione di regioni mancanti o di bassa qualit. La chiusura dei gap - La determinazione dellintera sequenza in esame richiede infine lunione di tutti i contig ottenuti dallassemblaggio. La chiusura dei gap tra contig non per semplice, anche aumentando il numero di sequenze, perch la probabilit di sequenziare in maniera casuale le regioni mancanti diviene pi bassa, man mano che si riduce il numero e lestensione dei gap. Inoltre alcuni gaps sono dovuti alla differente rappresentazione delle sequenze in libreria: non tutte le sequenze hanno uguali probabilit di essere sede di taglio o di essere amplificate. Per la chiusura dei gap si usano in genere strategie diverse, tese a identificare con metodiche sperimentali coppie di contig consecutivi e mirate a ottenere sequenze di aree definite. Tipicamente si costruiscono nuove librerie e/o si utilizzano oligonucleotidi con sequenze identiche a quelle delle estremit dei contig. Qualora due oligonucleotidi ibridassero con uno stesso clone, il sequenziamento di questo consentirebbe la chiusura del gap. Se, inoltre, una coppia di oligo genera un prodotto di PCR sul DNA genomico, la sequenza di tale prodotto chiude il gap. Sequenziamento di genomi grandi - Nel 1995, lapproccio shotgun stato utilizzato per il sequenziamento del genoma del batterio Haemophilus Influenzae (1830 kb). La strategia utilizzata ha previsto lesecuzione di 28643 esperimenti di sequenziamento; gli esperimenti andati a buon fine hanno coperto 11631 bp con una ridondanza di circa 6. Lassemblaggio dei frammenti ha prodotto 140 contig non sovrapposti, uniti mediante diverse procedure di riempimento dei gap. Lutilizzo del metodo shotgun per il sequenziamento di genomi di pi grandi dimensioni pone diversi problemi di assemblaggio: - Al crescere del numero dei frammenti aumenta enormemente il numero di overlap possibili (per n frammenti, 2n2-2n overlap), creando problemi di computazione. - La presenza di regioni ripetute pu determinare errori di assemblaggio con perdita di sequenze o unione erronea di frammenti, appartenenti anche a cromosomi diversi. - Il numero di gap finali da chiudere diviene molto alto, e non gestibile facilmente con metodiche sperimentali. A causa dei limiti descritti, lapplicazione del metodo di sequenziamento shotgun ai genomi eucariotici ha posto problemi notevoli. Lapproccio utilizzato consistito nel generare innanzitutto una mappa genetica da utilizzare come canovaccio. Una volta ottenuta la mappa, il sequenziamento stato eseguito separatamente su regioni grandi di genoma, poi assemblate facendo riferimento alla mappa. Il metodo shtogun stato invece ampiamento utilizzato per il sequenziamento delle varie regioni. Il sequenziamento del genoma umano - Di seguito sono riassunte le principali tappe del

sequenziamento del genoma umano. Le prime tappe sono state di mappatura, a risoluzione via via maggiore, poi in pochi anni stato completato il sequenziamento. 1987 RFLP map (~10 Mb) 1994 SSLP map (~.7 Mb) 1995 STS map (~.1 Mb) 1998 Chromosome 22 1999 Chromosome 21 2001 First draft (90%) 2003 Complete sequence
In parallelo con il progetto genoma, nelle ultime fasi, stato portato avanti un approccio alternativo in ambito industriale da parte di Celera Genomics, basato sul sequenziamento casuale del genoma intero.

Lapproccio divenuto possibile grazie alla disponibilit di maggiore potenza di calcolo e di metodi di sequenziamento automatizzati e ha permesso una seconda determinazione della sequenza genomica, in un tempo molto pi breve. E da notare per che la sequenza e la mappatura effettuati nellambito del progetto genoma erano disponibili ai ricercatori della Celera Genomics. Progetto Genoma Celera Genomics 1987 RFLP map (~10 Mb) 1994 SSLP map (~.7 Mb) 1995 STS map (~.1 Mb) 1998 Chromosome 22 1998 shotgun approach proposed 1999 Chromosome 21 2001 First draft (90%) 2003 Complete sequence Il sequenziamento dei genomi eucariotici - La introduzione del metodo shotgun sul genoma completo ha permesso di estendere lo studio ad altri genomi. In questo approccio, la disponibilit della sequenza completa ha favorito notevolmente lo studio di genomi simili a quello umano. Oggi sono disponibili sequenze complete per un gran numero di genomi. Metodiche come il pyrosequencing, di pi facile automazione, hanno aperto la strada a altri approcci. Il resequencing, cio il sequenziamento di molecole molto simili ad altre gi sequenziate, comincia oggi ad essere una realt comune per genomi di dimensioni limitate come quelli batterici. - Pyrosequencing: Il metodo non richiede utilizzo di ddNTPs n la separazione elettroforetica dei frammenti sintetizzati; la sintesi avviene aggiungendo i dNTPs in ordine uno dopo laltro: la non incorporazione determina limmediata degradazione del dNTP, viceversa lincorporazione di un dNTP nel filamento nascente innesca una reazione che emette chemioluminescenza la quale viene rivelata da un CCD. le letture sono tipicamente di 100-200 basi, ma molti campioni possono essere trattati in parallelo. Il metodo ha grossi vantaggi perch pu essere applicato su larga scala e consente quindi il rapido sequenziamento di regioni molto grandi, a fronte di impegno umano comunque limitato.

4. Assemblaggio e annotazione di Genomi (ENSEMBL)


Assemblaggio finale delle seqenze genomiche - L assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in condizioni ideali, costituita da tante sequenze indipendenti quanti sono i cromosomi. In realt questo risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni molto grandi non connessi tra loro. La sequenza genomica indicata come completa allineata lungo i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitivit raramente finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze cosi ottenute corrispondono in pratica alla totalit delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono contenuti. Le sequenze assemblate sono analizzate con tecniche diverse per arrivare alla identificazione di geni e altri elementi funzionali, un processo definito annotazione. Lannotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni effettuate con metodiche manuali e computazionali. Allinizio lannotazione manuale forniva dati di elevata qualit in tempi accettabili, ma con il crescere delle sequenze lannotazione con metodiche computazionali ha finito largamente per prevalere, anche se lannotazione manuale continua a garantire alcuni vantaggi in fase di rifinitura e per la realizzazione di specifici progetti. Elementi strutturali e funzionali da annotare - Gli elementi funzionali che possibile identificare

allinterno del genoma sono molti. Tra essi: - regioni codificanti - siti di splicing, promotori, terminatori - RNA non codificanti (tRNA, rRNA, snRNA)

sequenze ripetute altri elementi (telomeri, isole CpG)

Identificazione di geni - Il tipo probabilmente pi importante di annotazione consiste nella identificazione dei geni strutturali corrispondente alle diverse proteine codificate in un genoma. Il modo pi diretto consiste nella ricerca di similarit con cDNA o proteine note, ma questo permette lidentificazione solo di una frazione di essi. Altre tecniche di tipo predittivo possono essere utilizzate per la identificazione di geni non noti a partire dalla sequenza. Geni ed elementi di controllo nei procarioti - Un gene procariotico caratterizzato da una struttura piuttosto semplice, con una regione codificante continua e promotori e terminatori di solito ben definiti. La ricerca di Open Reading Frames (ORF) superiori ad una lunghezza minima definita, di solito sufficiente a identificare la maggior parte dei geni. Lannotazione completata utilizzando segnali specifici come siti di attacco per ribosomi, codoni di start e di stop e promotori. Lannotazione di genomi eucariotici pi complessa perch i geni sono codificati in genere in pi esoni, anche molto distanti tra loro, e elementi come promotori e siti di splicing non sono caratterizzati da segnali di sequenza univocamente definiti e di facile identificazione. Per questo il riconoscimento dei geni deriva spesso dalla concomitante identificazione di pi elementi nelle corrette posizioni relative. Le regioni codificanti possono essere identificate mediante allineamento con sequenze di cDNA o di proteine contenute in specifiche banche dati. Questa operazione ha la finalit di identificare sequenze gi note alle quali pu essere associata una funzione conosciuta o di ipotizzare una funzione per sequenze simili a quelle di proteine note. In alternativa possono essere utilizzate tecniche per lidentificazione diretta di sequenze codificanti attraverso il riconoscimento di caratteristiche specifiche come le frequenze relative dei codoni (codon usage) o la presenza di esameri specifici. Per una esempio di metodi per lidentificazione di geni, vedi Siti di splicing ed altri elementi - Siti di splicing, promotori, terminatori ed altre sequenze funzionali, sono caratterizzati dalla presenza di specifici motivi di sequenza, come GT e AG presenti allinizio e alla fine di un introne, che non sono per sufficientemente selettivi da poter essere trovati solo nelle giunzioni introneesone. La loro identificazione dipende perci dalluso di algoritmi specifici, che integrano conoscenze di tipo diverso e che per identificano correttamente questi elementi solo in una percentuale di casi. RNA non codificanti e sequenze ripetute - Gli RNA non codificanti (rRNA, tRNA, snRNA ed altri) possono essere identificati per similarit con quelli noti, o per la combinazione di caratteristiche comuni come la struttura secondaria e la presenza di basi conservate. In maniera simile, le sequenze ripetute possono essere identificate sulla base della similarit con consensus ottenute da sequenze gi note, o per la loro presenza in copie ripetute nel genoma. Altre caratteristiche - Altre caratteristiche da annotare sono specifici elementi funzionali come regioni di interazione con la matrice nucleare o isole CpG, ed altre strutture non geniche presenti nella sequenza genomica. Risorse online per laccesso a dati genomici - Il lavoro di mappatura, sequenziamento e annotazione dei genomi, soprattutto eucariotici, ha prodotto una notevole massa di dati, che complessivamente costituiscono una descrizione completa, strutturale e funzionale, del genoma dei diversi organismi. Questi dati possono risultare di grande aiuto alla sperimentazione, e, per facilitare laccesso, sono stati riuniti in collezioni diverse, messe a disposizione della comunit scientifica come risorse accessibili via web. Queste collezioni includono le mappe fisiche e genetiche prodotte nel corso del sequenziamento, ma anche browser genomici, sofisticati strumenti che mettono a disposizione le varie annotazioni sotto forma di pagine web in cui i vari elementi annotati sono mostrati con riferimento alla loro locazione genomica. Il lavoro di mappatura dei genomi ha prodotto mappe genomiche con varia risoluzione, disponibili, oltre che per il genoma umano, per un gran numero di altri organismi di interesse medico o industriale, o usati come sistemi modello come Drosophila, lieviti, ecc. Questi dati sono stati spesso integrati tra loro e sono disponibili sotto forma di banche dati accessibili via web. - Genome Data Base (GDB) - GDB contiene mappe generate nel corso del sequenziamento genomico umano da diversi gruppi di ricerca. Le mappe sono di tipo citogenetico, ottenute da studi di linkage, quelle prodotte a partire da ibridi di radiazione e quelle da STS. Le mappe vengono visualizzate in maniera integrata, insieme con altre annotazioni relative a segmenti genomici come geni, marker citogenetici, sequenze complementari ad EST, regioni ripetute, e a siti variabili come SNP e RFLP.

eGenome - eGenome integra mappe umane di diversa origine, riferite direttamente alla sequenza genomica oggi nota, assegnando i marker alle posizioni fisiche ogni volta che ci risulta possibile. La visualizzazione mostra in modo contestuale altre annotazioni riferite alla regione del marker, come SNP, Unigene Clusters, sequenze di DNA. MGD (Mouse Genome Database) una collezione di dati di mapping genetico del genoma di topo, uniti a sequenze ed altre informazioni sul ruolo funzionale dei geni. La collezione parte di una pi ampia banca dati, chiamata MGI (Mouse Genome Informatics), che include informazioni su sequenze genomiche, espressione genica e dati provenienti da studi sulla biologia di malattie come i tumori. In modo simile, il Rat Genome Database (RDG) include mappe genomiche di ratto assieme a dati di sequenza, geni ed altre informazioni.

Browser genomici - I browser genomici sono interfacce web collegate a banche dati contenti le sequenze prodotte dai vari progetti di sequenziamento genomico e le relative annotazioni. Attraverso di essi possibile studiare lanatomia dei genomi a vari gradi di dettaglio, fino alla sequenza, visualizzando allo stesso tempo tutte le caratteristiche strutturali e funzionali disponibili per quel tratto di genoma. In aggiunta, per ciascun tratto di DNA possibile visualizzare dati di mapping, qualora disponibili. I browser genomici pi diffusi sono: - Ensembl disponibile al sito http://www.ensembl.org - UCSC disponibile su http://genome.ucsc.edu Ensembl - Ensembl stato sviluppato a partire da un progetto a cui hanno preso parte EMBL-EBI e Sanger Institute, finalizzato alla produzione di un sistema capace di eseguire lannotazione automatica dei genomi eucariotici e di fornire la visualizzazione dei dati prodotti. Il software che esegue l annotazione concepito per seguire di pari passo la produzione dei dati di sequenziamento. Il browser consente di visualizzare ed analizzare geni, trascritti, collezioni di EST ed altri dati genomici e di analizzarne lorganizzazione sul genoma. UCSC - UCSC contiene una vasta collezione di sequenze genomiche, da quelle di vertebrati a quelle di insetti e nematodi, e include dati di espressione, di omologia e informazioni sulle mappe disponibili. Il browser consente di selezionare cromosomi e scorrere lungo le sequenze scegliendo il livello di dettaglio, di visualizzare le informazioni disponibili in modo integrato, nonch di correlare le informazioni in modi diversi evidenziando somiglianze allinterno di sottogruppi di geni.

5. Package e interfacce per la gestione di sequenze


Manipolazione di sequenze - I programmi utilizzati in bioinformatica sono molti, e variano per

funzione e tipo di esecuzione. Nel solo ambito dei programmi di manipolazione di sequenze, esempi di semplici operazioni di uso comune sono: - Editing di sequenze, calcolo della sequenza complementare - Frequenza di parole (word) di pi nucleotidi, frequenza dei codon - Traduzione - Visualizzazione grafica di Open Reading Frames (ORFs) - Ricerca di pattern, ricerca di siti di restrizione
Complemento - Il calcolo della sequenza del filamento complementare viene effettuato applicando la nota regola di appaiamento delle basi, per cui A convertita in T, C in G, G in C, T in A. Inoltre, per rispettare la polarit dei filamenti, la sequenza invertita in modo da risultare scritta in direzione 5-3.

Frequenza delle parole - Gruppi di pi nucleotidi vengono definiti word (parole). La determinazione della frequenza relativa di word di 2, 3 o pi nucleotidi permette a volte di dare una grossolana valutazione sullorigine e funzione di una sequenza; ad esempio, nellambito di sequenze genomiche umane, quelle ricche in AT, TA, AA etc, sono spesso non codificanti, mentre quelle in cui prevalgono le parole contenenti C e/o G sono spesso codificanti. Sequenze ricche in CG potrebbero indicare la presenza di isole CpG. Il calcolo viene semplicemente effettuato determinando la frequenza di ciascuna parola. E utile confrontare i valori ottenuti con quelli attesi. Ad esempio, in figura, la frequenza attesa 0,0625 (6.25%) per parole di due nucleotidi e se tutti i nucleotidi sono ugualmente rappresentati. Valori maggiori indicano una sovrarappresentazione, come per le word AA e TG in figura.

Esecuzione di programmi - Lesecuzione dei programmi pu avvenire in modalit differenti, che dipendono dalle scelte dellutilizzatore e dalle caratteristiche del programma. Ad esempio: - Programmi con interfaccia grafica per esecuzione locale possono essere installati ed eseguiti direttamente sul personal computer (PC) dellutente (in alto in figura) In questo caso i dati in ingresso vengono processati e i risultati rappresentati sullo schermo. - Programmi con requisiti specifici che risiedono su macchine remote (server), possono ugualmente essere utilizzati attraverso il PC dellutente trasferendo attraverso la rete i dati dalla macchina dellutente a quella su cui il programma risiede, e facendo ritornare allo stesso modo i risultati dopo lesecuzione. Esecuzione remota di programmi - Lesecuzione remota permette di eseguire anche programmi che non possono essere eseguiti sulla macchina locale. Esempi sono programmi di difficile installazione, che richiedono un diverso sistema operativo o che hanno bisogno di accedere a collezioni di dati e risorse hardware non disponibili sulla macchina dellutente. Lesecuzione remota amplia quindi notevolmente il panorama delle operazioni che possibile eseguire e permette ad utenti diversi di accedere, anche contemporaneamente, alle stesse risorse di calcolo, indipendentemente dalle caratteristiche hardware e dal sistema operativo disponibile sulla macchina locale. In questo modo risulta pi facile anche la gestione dei programmi, che devono essere installati e tenuti in funzione su una sola macchina. Interfacce a linea di comando - Molti programmi sono stati sviluppati in ambiente Unix, un sistema operativo molto usato in ambito scientifico, e che prevede tipicamente laccesso ai programmi attraverso uninterfaccia a linea di comando. Un esempio di esecuzione di tale tipo di programma rappresentato in prima figura. La stringa: /bioprogs/emboss/bin/transeq -sequence myseq -frame 1 -outseq my_seq.out significa esegui il comando transeq sulla sequenza myseq traducendo il frame 1 e mettendo il risultato nel file my_seq.out. Questo tipo di interfaccia pu essere utilizzata per eseguire programmi sia direttamente sulla macchina su cui sono installati, che su un server remoto, e permette anche lesecuzione in modalit interattiva: nella seconda figura riportata la stessa esecuzione della prima figura, ma questa volta il programma fa richieste per la sequenza, il frame e il file di output . Linterfaccia a linea di comando risulta per di non facile apprendimento, e richiede comunque la conoscenza degli specifici comandi necessari allesecuzione.

Interfacce web - La diffusione delle tecniche necessarie al world wide web, ha promosso lo sviluppo di interfacce grafiche che utilizzano browser come Internet Explorer o Firefox per effettuare il dialogo con lutente ed eseguire i programmi in maniera remota, senza richiedere allutente la conoscenza dei comandi come nellinterfaccia a linea di comando. Nelle figure sono rappresentati esempi di utilizzazione dello stesso programma, Translate, attraverso due diverse interfacce web, PISE (A) e CAPRI (B), sviluppata localmente e utilizzata anche per le esercitazioni nellambito del presente corso. Altri esempi sono le interfacce disponibili presso i siti web di EBI (C) e NCBI (D) per lesecuzione del programma Blast. Packages - I programmi sviluppati in ambiente Unix seguono la filosofia di effettuare una singola operazione anche se con un gran numero di modalit differenti. Per questo motivo pi programmi che complessivamente svolgono operazioni diverse ma finalizzate ad un obiettivo comune, sono riuniti in package. I programmi di uno stesso package rimangono separati, ma tipicamente utilizzano nei comandi una sintassi simile e permettono di scambiare dati con facilit. Esempi di package che contengono programmi per analisi di sequenza sono: - GCG sviluppato originariamente dal Genetics Computer Group della university of Wisconsin e poi divenuto un prodotto commerciale - Staden sviluppato presso l MRC di Cambridge, UK, nel corso dei primi progetti di sequenziamento - Emboss sviluppato allEBI nellambito di un progetto open source EMBOSS - Emboss stato sviluppato per rispondere alle esigenze tipiche della comunit scientifica in ambito di biologia molecolare. E costituito da un gran numero di programmi originali, sviluppati nellambito del progetto, ma integra anche diversi programmi generati separatamente e di uso comune. Le aree di interesse sono piuttosto ampie e sono riportate nella prima figura. Nellambito del package, i vari programmi sono organizzati in gruppi omogenei per funzione, come indicato nella seconda figura.

Il gruppo definito nucleic composition (A) costituito da programmi che analizzano la composizione in basi di una sequenza e fanno predizioni su questa base. Programmi come wordcount (B) e compseq (C) permettono di determinare le frequenze di parole costituite da due, tre o pi nucleotidi, mentre programmi come banana e btwisted sono usati per predire vari aspetti della topologia di sequenze di DNA. Dan pu essere utilizzato per la stima della temperatura di melting. La traduzione di sequenze nucleotidiche in proteine pu essere effettuata con diverse modalit attraverso il gruppo chiamato nucleic translation, ad esempio: - Traduzione contemporanea in pi frame di lettura (sixpack) - Rappresentazione grafica di Open Reading Frames (plotorf) - Estrazione delle sequenze proteiche tradotte a partire dalle ORF presenti nella sequenza nucleotidica (getorf) - Traduzione inversa (backtranseq) - Rappresentazione, in diversi formati per la pubblicazione, della sequenza tradotta assieme a quella nucleotidica, anche evidenziando siti di restrizione e altre caratteristiche. Il gruppo nucleic restriction contiene programmi utili alla ricerca di siti di restrizione come ad esempio: - restrict che esegue la ricerca di siti di restrizione in una sequenza; - remap e showseq utili alla rappresentazione della sequenza insieme ai siti di restrizione e altre caratteristiche; - redata e restover che permettono di ricercare enzimi di restrizione sulla base delle caratteristiche del sito di taglio (sequenza, overhang);

recoder e silent che consentono di progettare mutazioni che rimuovono o introducono siti di restrizione in una sequenza nucleotidica senza modificare la sequenza proteica codificata. Del gruppo display fanno parte programmi capaci di rappresentare sequenze e altri dati in forma grafica di qualit adatta alla pubblicazione. Esempi sono: - showseq, prettyseq e remap per la rappresentazione di sequenza nucleotidiche unitamente ad altre caratteristiche; - cirdna e lindna per la rappresentazione di sequenze sotto forma di mappe grafiche circolari e lineari; - showalign e prettyplot per la rappresentazione di allineamenti; - pepwheel e pepnet per la rappresentazione schematica di proteine mettendo in evidenza aspetti strutturali.

6. Programmazione e Algoritmi
Che cos un programma? - Nelle lezioni precedenti sono stati descritti numerosi programmi, sia per lassemblaggio di sequenze genomiche che per lannotazione di caratteristiche strutturali e funzionali. Alcuni di questi sono inseriti in package come Emboss discusso nella scorsa lezione. Un programma un file che contiene una lista di istruzioni che complessivamente dicono al computer cosa fare per ottenere un certo risultato. Poich i programmi sono scritti dai programmatori, ma devono essere eseguiti da una macchina, necessario che siano scritti in modo che il computer possa capire le istruzioni in maniera non ambigua ed eseguirle nellordine, in modo da ottenere il risultato atteso. E utile, anche se non necessario, che il programma sia comprensibile facilmente anche alle persone che devono scriverlo e tenerlo in funzione. Cos un algoritmo? - Un programma una cosa diversa dallalgoritmo su cui basato. Per algoritmo si intende la descrizione delle procedure necessarie per ottenere un dato risultato. Non dovendo per essere utilizzato direttamente dal computer, un algoritmo pu essere descritto in linguaggio comune, anche se luso di una sintassi rigorosa pu aiutare ad evitare ambiguit. Ad esempio, per cercare siti di restrizione allinterno di una sequenza, si pu procedere come indicato in figura:

1. la sequenza di riconoscimento cercata (nellesempio GAATTC di EcoRI), viene allineata con il primo nucleotide della sequenza in esame; 2. ciascun nucleotide della sequenza di riconoscimento viene confrontato con quello corrispondente della sequenza in esame e vengono contati quelli uguali; 3. se la conta risulta uguale a 6, la posizione viene registrata come un sito riconosciuto da EcoRI; 4. la sequenza viene ora allineata con il nucleotide successivo e la procedura si ripete a partire dal punto 2. Un algoritmo quindi una descrizione di una procedura. Come si fa a passare da un algoritmo ad un programma in grado di funzionare e di generare un risultato? E necessario trascrivere lalgoritmo in una forma utilizzabile dalla macchina usando un linguaggio di programmazione. Questa operazione pu essere eseguita da un ricercatore, anche se per programmi di una certa complessit necessaria la competenza di un programmatore. Il programma eseguito nellesempio calcola i quadrati dei primi mille numeri interi e pu essere descritto dallalgoritmo indicato in prima figura. Lalgoritmo di per s non pu essere eseguito dalla macchina, ma pu essere utilizzato per generare un programma utilizzando un linguaggio di programmazione. Lesecuzione del programma produce il risultato desiderato, come riportato in seconda figura.

Il programma in grado di generare il risultato descritto (vedi figura successiva) molto semplice e pu essere compreso con poca difficolt: - $max una variabile, cio una locazione in cui conservare un valore, e, nella prima riga, le viene assegnato il valore 1000; - listruzione for ($i=1;$i<=$max;$i++){istruzioni} significa esegui ciclicamente le istruzioni contenute tra { e } finch la variabile $i, che allinizio posta uguale a 1 e viene incrementata di 1 ad ogni ciclo, risulta <= $max; - le istruzioni nel ciclo calcolano il quadrato e stampano il risultato per ciascun valore di $i.

Che cos un linguaggio di programmazione? - Un linguaggio di programmazione consiste in una serie di regole che definiscono come scrivere il codice. Elementi tipici di ogni linguaggio sono: - Variabili (es. numeri o stringhe di caratteri) - Espressioni (es. 2+3) - Comandi (es. print, read) - Istruzioni per il controllo del flusso (es. for, if) Lesempio descritto precedentemente stato realizzato utilizzando il PHP, un linguaggio relativamente facile da usare, costituito di istruzioni in grado di eseguire operazioni anche molto complesse. Lo stesso programma riportato in figura trascritto in C, un linguaggio di pi difficile utilizzazione in quanto richiede pi istruzioni per descrivere le stesse procedure. E comunque molto facile riconoscere le corrispondenze tra le due versioni del programma.

Linguaggio macchina e assembler - In realt il processore presente in qualsiasi computer non esegue direttamente n il codice scritto in PHP n quello in C; ogni processore in grado di comprendere un solo linguaggio definito linguaggio macchina, costituito di un numero pi limitato di istruzioni molto semplici

come sposta un numero in una casella di memoria o somma due numeri. Per poter eseguire i programmi, necessario quindi convertire qualsiasi linguaggio in linguaggio macchina, questa operazione fatta da programmi definiti compilatori o interpreti che traducono il codice, istruzione per istruzione, e lo trasformano in linguaggio macchina. Nella figura riportata la traduzione del programma in C in linguaggio macchina. Le istruzioni del linguaggio macchina sono di tipo numerico, ma vengono di solito rappresentate in forma simbolica per renderle pi comprensibili, una rappresentazione chiamata Assembler. Il linguaggio macchina naturalmente di difficile comprensione, e in genere anche programmatori professionisti tendono a non usarlo direttamente se non in casi particolari in cui questo si rende necessario. Luso del C, e ancor pi del linguaggio macchina, presenta difficolt notevoli, ma ha il vantaggio di ottenere dal processore le migliori prestazioni.

Linguaggi di programmazione di alto e di basso livello - I linguaggi di programmazione possono quindi prevedere o unampia gamma di istruzioni diverse che corrispondono ad operazioni complesse, o un piccolo numero di istruzioni pi semplici. Naturalmente i primi risultano in programmi pi brevi e di pi facile comprensione, ma che richiedono traduzioni complesse per essere eseguiti e sono quindi pi lenti. I secondi risultano pi difficili da utilizzare in fase di programmazione e producono programmi pi lunghi, ma sono molto efficienti e ottengono elevate velocit di esecuzione. I linguaggi del primo tipo sono definiti di alto livello e sono indicati in alto in figura, in contrasto con quelli di basso livello riportati in basso.

7. Allineamento di sequenze mediante matrici di punti


Allineamento - Lallineamento un problema molto frequente che pu essere affrontato in modi diversi. Gli allineamenti servono in situazioni molto varie come la comparazione di geni di identica funzione in organismi diversi (ortologhi), la ricerca di sequenze di DNA o proteine in banche dati, lidentificazione di frammenti contigui parzialmente sovrapposti nella procedura di assemblaggio di sequenze, e molte altre. Due esempi di allineamenti sono riportati nelle figure:

due proteine ortologhe allineate con il programma FASTA (A)

allineamento multiplo di globine di tipo diverso (B)

Esistono vari algoritmi di allineamento che risultano utili in situazioni differenti e che portano in genere a risultati anche notevolmente diversi. Per questo motivo importante conoscere i principi su cui essi sono basati e le principali difficolt derivanti dallapplicazione di algoritmi inadatti al problema da risolvere. Un semplice algoritmo di allineamento - Due sequenze possono essere allineate in diversi modi; la figura ne mostra alcuni per le due sequenze proposte. Definiamo allineamento ottimale quello che rispetta al meglio alcuni criteri. La ricerca dellallineamento ottimale pu essere effettuata se definito: 1. linsieme di tutti gli allineamenti possibili; 2. il metodo per calcolare un punteggio, che sia rappresentativo della qualit di un dato allineamento. Se questi due aspetti sono definiti in maniera chiara, il problema facilmente risolto applicando il metodo (2) a tutti gli allineamenti indicati in (1) e scegliendo quello che d il punteggio migliore. In sintesi, il metodo proposto consiste nellallineare una delle sequenze contro laltra, in tutte le possibili posizioni, e, per ciascuna, valutare il grado di similarit, contando, ad esempio, il numero di residui identici.

Ricerca di siti di restrizione - La procedura descritta simile a quella usata, nella lezione precedente, per il riconoscimento dei siti di restrizione. Anche in quel caso si allinea la sequenza del sito in ogni posizione e si determina il punteggio contando il numero di residui identici (vedi figura). Il caso dei siti di restrizione pi semplice, perch lidentit richiesta in genere del 100%, dato che in presenza di anche una sola differenza il sito non sarebbe riconosciuto dallenzima. Per questo motivo possibile applicare alcuni miglioramenti per ottenere una esecuzione pi veloce. Ad esempio, per ogni posizione provata, nel caso si trovi una differenza di appaiamento, il confronto potrebbe essere interrotto proseguire, infatti, porterebbe comunque ad un grado di identit inferiore al 100%. Quanto veloce un metodo di allineamento - E importante avere una idea della velocit di un metodo di allineamento, perch si tratta di operazioni che, su dati di grandi dimensioni, possono facilmente portare a tempi di esecuzione di ore o giorni o, talvolta, ancora pi lunghi. Il numero di confronti effettuato un buon metodo per valutare lefficienza di un algoritmo, perch, indipendentemente dalla velocit della macchina utilizzata, un numero di confronti maggiore richieder sempre un tempo pi lungo. Per confronto intendiamo la singola operazione di confrontare due residui per vedere se sono identici oppure no. Nellalgoritmo descritto per i siti di restrizione, il numero di confronti richiesto uguale al prodotto delle lunghezze delle due sequenze. Lottimizzazione proposta riduce notevolmente questo numero: infatti, trattandosi di sequenze di DNA, in tre casi su quattro la prima base sar diversa e sar lunica ad essere confrontata perch il calcolo viene interrotto; solo in un caso su quattro le due basi saranno identiche e sar necessario procedere al confronto della seconda base. Il ragionamento si ripete identico per ciascuna delle basi del sito di restrizione. Il numero di confronti (nc) sar di poco superiore al numero delle basi della sequenza pi lunga: nc = n+1/4n+1/16n + Quanti confronti sono necessari per allineare due sequenze? - Per un generico allineamento di due sequenze lottimizzazione descritta non pu essere usata, perch sarebbe individuato il solo allineamento superiore descritto in figura A. Per identificare laltro, necessario confrontare sempre tutte le basi, il che porta il numero di confronti nc a: nc=m*n (dove m e n sono le lunghezze delle due sequenze) In realt, il numero pi alto. Se guardiamo lallineamento in alto in figura B, la seconda parte, che non appare identica, lo se si confronta ciascuna base con quella precedente della sequenza inferiore, come indicato. Questo allineamento pu essere indicato come riportato in basso introducendo un gap (-) nella sequenza inferiore, a significare che quella base assente in seguito a mutazioni o errori di sequenziamento. Prevedere questa eventualit significa per aumentare il numero di confronti di un fattore n pari alla lunghezza della seconda sequenza (nc=m*n*n). Prevedere gap pi lunghi o multipli porta ad ulteriori incrementi, con numeri che rapidamente diventano non gestibili, anche su computer di elevata potenza.

Matrici di punti - Un modo di risolvere il problema di utilizzare per la comparazione una matrice bidimensionale, come riportato in prima figura, in cui le due sequenze sono scritte una in alto, da sinistra a destra, e laltra a sinistra, dallalto in basso. La matrice viene riempita confrontando ciascuna delle basi della sequenza in alto con la prima base della sequenza di sinistra, e inserendo nella casella corrispondente il simbolo * ogni volta che le due basi sono uguali. Si procede poi come indicato nel movie (vedi webpage Federica) per generare la matrice completa. In una matrice di questo tipo, sequenze identiche sui due assi, generano una linea definita da * disposti in diagonale. Prova a cercare diagonali di similarit allinterno della matrice riportata in seconda figura. La diagonale trovata corrisponde allallineamento con gap descritto nella pagina precedente. Nota che la linea di similarit si interrompe circa a met e passa su una diagonale parallela, in corrispondenza del gap. Esercitati a vedere la corrispondenza tra lallineamento e la diagonale.

Window di dimensioni diverse - Lidentificazione della diagonale non sempre agevole perch il numero di caselle occupate piuttosto elevato, come si osserva in figura A. Leffetto dovuto al fatto che lalfabeto costituito dalle basi del DNA composto di sole quattro lettere (ACGT) e la probabilit che una data base sia identica alla corrispondente sullaltra sequenza pari a 1/4. Questo porta a riempire in maniera casuale circa un quarto delle caselle. Un modo di ampliare lalfabeto consiste nel procedere al confronto di coppie di lettere su una sequenza con coppie di lettere sullaltra. In questo modo solo 1/16 delle caselle risulter pieno in maniera casuale. Perch? E possibile usare anche gruppi di lettere (window) di dimensioni pi grandi per ridurre ulteriormente leffetto di background. Nota per che anche la diagonale si riduce anche se in maniera minore. Verifica nelle altre figure il riempimento della matrice per window di dimensioni diverse.

Confronto di una sequenza di DNA con se stessa - Nelle figure rappresentato un confronto a matrice di una sequenza di DNA di circa 800 basi con se stessa, il confronto stato eseguito mediante il programma dottup del package EMBOSS. In questo caso la similarit indicata da punti. La linea di similarit, appena visibile in A, diviene progressivamente pi evidente allaumentare (da 1 a 6) della window a causa della riduzione del background. Nota le due piccole linee parallele ai due lati della diagonale. Cosa potrebbero essere?

Mismatch e gap - Le differenze (mismatch) tra residui corrispondenti delle due sequenze vengono visualizzati come interruzioni della diagonale, mentre i gap vengono visualizzati come salti da una diagonale a una successiva. Nella figura riportato un esempio in cui una inserzione nella sequenza di DNA riportata a sinistra genera un gap nellallineamento intorno al nucleotide in posizione 400.

Duplicazioni - La presenza di tratti di diagonali parallele come quelle mostrate in figura indicano duplicazioni di sequenza: il segmento di sequenza compreso tra i residui 500 e 700 della sequenza di sinistra, presente due volte nella sequenza in basso (tra 500 e 700 e tra 700 e 900).

Matrici in EMBOSS - Il package EMBOSS, introdotto nella lezione 5, contiene, tra i programmi dedicati allallineamento di sequenze, un gruppo di programmi, mostrato in figura, per la generazione allineamenti mediante matrici di punti. Di questo gruppo fanno parte programmi come dottup, dotmatcher e polydot. Matrici di altro tipo - La tecnica di allineamento mediante matrici di punti, pur essendo stata inizialmente sviluppata con la finalit di confrontare sequenze di interesse biologico, stata applicata con successo anche allanalisi di altri tipi di sequenze, come ad esempio testi di opere letterarie, codice di programmi, liste di nomi e altre applicazioni, vista la capacit di mettere rapidamente in evidenza aree di similarit derivanti ad esempio dal riutilizzo di parole, modi di esprimersi.

10. Algoritmi dinamici di allineamento


Matrici di punti e allineamenti - Lallineamento mediante matrice di punti descritto precedentemente permette lidentificazione del path ottimale unendo segmenti di diagonale corrispondenti alle regioni di maggiore similarit (figura A). Bisogna notare per che lalgoritmo non produce direttamente lallineamento ma piuttosto una rappresentazione grafica delle similarit tra due sequenze che viene poi di fatto processata dal ricercatore; un vero algoritmo di allineamento dovrebbe invece calcolare lallineamento migliore. Questo risulta tanto pi importante quando la dimensione delle matrici cresce al crescere delle sequenze. Inoltre non sempre immediatamente evidente quale sia la o le diagonali corrispondenti allallineamento migliore. Prova a cercarlo in figura B, noterai che non tanto facile trovarlo.

Un path un allineamento - Lallineamento ha la forma di un tratto di diagonale quando esiste similarit per un numero consistente di residui consecutivi. Se per i tratti di similarit sono piuttosto corti, lallineamento assume un aspetto pi tortuoso, come quello rappresentato nella figura A. Pi generalmente, quindi, un allineamento ha la forma di un percorso (path) pi o meno tortuoso, che, partendo da un punto del margine sinistro o di quello superiore, raggiunge un punto del margine inferiore o destro della matrice. Lungo questo percorso, i tratti in diagonale rappresentano zone di allineamento, mentre i salti di diagonale, rappresentano inserzioni o delezioni in una delle sequenze (gap). E sempre possibile rappresentare un percorso di questo tipo sotto forma di allineamento. Prova a convertire in un allineamento il path indicato nella matrice e confronta il tuo risultato con quello di figura B.

Come trovare lallineamento ottimale - Nella precedente lezione sugli allineamenti, stato proposto che il modo pi semplice di trovare lallineamento ottimale consiste nel calcolare un punteggio per tutti gli allineamenti possibili e scegliere quello che ha il punteggio pi elevato. Nella matrice riportata in figura, in aggiunta allallineamento indicato nella pagina precedente, esistono naturalmente molti altri allineamenti possibili, in figura sono indicati quattro di questi e non immediatamente evidente quale di questi sia il migliore. Il primo problema infatti quello di trovare un modo per calcolare il punteggio; finora abbiamo utilizzato un metodo piuttosto semplice che consiste nel contare il numero di residui identici. Applicando questo metodo, lallineamento in alto a destra (p=6) in figura risulta migliore di quello in basso a sinistra (p=4), ma, se sottraiamo 1 punto per ogni gap (-1), i due punteggi diventano uguali, e lallineamento di sinistra diventa addirittura migliore se si stabilisce che un gap vale -2. Prova a verificare questi punteggi nella figura e a calcolare quelli degli altri due allineamenti indicati attribuendo ai gap il valore -1. Quale sia il migliore allineamento dipende quindi fortemente dai criteri utilizzati per calcolare il punteggio, ed quindi molto importante fare attenzione alla scelta di questi criteri.

Quanti sono i path? - In maniera indipendente dalla scelta dei criteri utilizzati per il calcolo del punteggio, per necessario definire la lista degli allineamenti possibili. In figura A sono rappresentati gli allineamenti gi analizzati in precedenza, ma quelli possibili sono in realt molti di pi. In figura B ne sono indicati ad esempio altri due. Nota che uno stesso residuo pu essere parte di allineamenti alternativi: in figura, due allineamenti condividono i primi due residui, altri due solo il primo. Alla luce di queste considerazioni, appare chiaro che il numero degli allineamenti possibili molto pi alto del numero di diagonali, e che cresce molto velocemente al crescere delle dimensioni della matrice. Non tutti i path per costituiscono allineamenti possibili: i due allineamenti tratteggiati in figura C non vanno considerati, perch prevedono il riutilizzo degli stessi residui in posizioni diverse. Prova a convertirli in allineamenti per capire il problema.

Path da un punto - Per una qualsiasi casella della matrice, ad esempio quella cerchiata in figura A, passano molti path; tuttavia, se ci limitiamo a pensare a quelli che proseguono a partire da quella indicata, ci rendiamo conto che essi devono tutti proseguire entrando allinterno del rettangolo indicato. In pratica il path pu continuare nella casella immediatamente in basso a destra (senza introdurre gap), oppure in una di quelle alla destra di questultima, introducendo cos uno o pi gap nella sequenza posta in verticale, oppure ancora in una di quelle sotto di essa introducendo gap nella sequenza orizzontale. Questo vero per qualsiasi altra casella della matrice, come ad esempio laltra casella cerchiata in figura B che, in maniera simile, pu continuare solo nel rettangolo posto in basso a destra di essa.

Needlemann e Wunsch - Per calcolare il punteggio utile sostituire gli asterischi con dei valori numerici, ad esempio inserendo il numero 1 al loro posto e zero o nulla negli altri (figura A). Nellalgoritmo di Needlemann e Wunsch, in ciascuna casella, questo numero viene sostituito da valori che corrispondono al punteggio del miglior path, tra quelli che, passando per quella casella, proseguono fino alla fine della matrice concludendosi sul suo margine destro o inferiore. Ricordando che i path possibili continuano solo allinterno del rettangolo posto in basso e a destra della casella stessa, basta trovare, nel rettangolo, il valore pi alto, che si trover lungo i margini alto e sinistro, e sommarlo al valore contenuto nella casella in esame, come indicato nella figura B. In questo modo questi valori possono essere calcolati per tutta le caselle della matrice, partendo dallangolo in basso a destra e proseguendo fino ai margini superiore e sinistro. Si ottiene cos la matrice in figura C.

Dal path ottimale allallineamento - Per determinare il path ottimale, si procede a partire dai margini superiore e sinistro della matrice, selezionando la casella con il punteggio maggiore che sar quella dove termina il miglior path. A partire da questa, si procede entrando nei rettangoli via via pi piccoli scegliendo

sempre il valore pi elevato e terminando in una delle caselle al margine inferiore o destro. Il path cos determinato corrisponde allallineamento ottimale. Nota che in qualche rettangolo potrebbero esserci pi caselle contenenti il valore pi elevato, in questo caso il path si ramifica ed poi possibile seguire i diversi rami; tutti questi path avranno per lo stesso punteggio che corrisponde al quello pi elevato.

Un approccio alternativo - Un modo alternativo di procedere consiste nel rappresentare i gap come un passo in verticale o in orizzontale, piuttosto che come un salto. Cos facendo il calcolo risulta notevolmente semplificato, perch basta considerare tre sole caselle, quella adiacente lungo la stessa riga, quella adiacente lungo la stessa colonna e quella ad una riga e ad una colonna di distanza. Nellesempio riportato in figura, il calcolo effettuato in maniera inversa a quella precedente, partendo dallangolo in alto a sinistra. In pratica, ogni casella pu essere raggiunta camminando in verticale o in orizzontale, con lintroduzione di un gap, o in diagonale, allungando lallineamento. Solo in questultimo caso il valore della casella potr essere sommato al punteggio accumulato finora. Dei tre punteggi ottenibili in questo modo, viene scelto quello pi elevato (vedi figura A a sinistra). Se al gap non si associa un punteggio, il risultato funzionalmente identico a quello ottenuto con il metodo precedente, figura B. Se invece si da un valore negativo allintroduzione dei gap, si sfavorisce la loro introduzione, come indicato in precedenza in questa lezione. In figura C, le stesse sequenze producono un allineamento meno tortuoso perch laggiunta del gap stata associata ad un valore di -5.

Smith e Watermann - Lintroduzione di valori negativi pone il problema di come gestire tratti relativamente lunghi privi di identit significativa. Usando i metodi descritti finora, il punteggio pu diventare anche molto inferiore allo zero. Smith e Watermann hanno introdotto un ulteriore confronto, inserendo il valore zero tra quelli da confrontare, per cercare il valore da inserire nella casella. Se gli altri punteggi sono inferiori allo zero, questo significa che la casella assumer il valore zero e non un valore negativo, in questo modo, il valore di ogni casella non dipender pi dal punteggio accumulato lungo tutto il percorso, ma solo da quello accumulato a partire da quando il punteggio ha superato lo zero. In sostanza punteggi elevati indicheranno regioni di similarit locale, piuttosto che lallineamento globale delle due sequenze.

Allineamento locale - La ricerca di allineamenti locali importante quando si cerca di identificare delle piccole regioni di similarit tra due sequenze. Se si osserva lallineamento indicato in alto in figura A, si nota che la similarit piuttosto elevata, ma limitata alla sola regione centrale. Essendo la similarit piuttosto estesa rispetto alla sequenza totale, questo allineamento sar comunque il migliore e quindi facilmente identificato. Diversamente, nel caso dei due allineamenti indicati in basso, quello superiore contiene una regione di similarit interessante, ma piuttosto piccola, che non in grado di contribuire significativamente allallineamento globale. Un algoritmo di allineamento globale preferirebbe il secondo allineamento, che ha 17 match, e perderebbe quello superiore che ne ha 14. Un algoritmo di allineamento locale, invece, identifica correttamente la regione di identit. Infatti, come si vede in figura B in basso, lazzeramento del punteggio ogni volta che questo scende sotto lo zero, permette alla regione di similarit di diventare visibile come valori positivi.

12. Matrici di punteggio


Allineamenti e punteggi - La scelta del migliore allineamento dipende, come abbiamo visto, dai criteri utilizzati per calcolare il punteggio, ed quindi molto importante fare attenzione ai criteri selezionati. Finora abbiamo lavorato dando criteri abbastanza semplici, come ad esempio: - Match = 1 - Mismatch = 0 - Gap = -1 Abbiamo inoltre provato varianti in cui il mismatch pu assumere valori negativi, oppure luso di valori molto negativi per il gap, che ne sfavorisce lintroduzione nellallineamento. In realt possibile introdurre

ulteriori complicazioni, per meglio adattare la ricerca dellallineamento al modello sperimentale, come ad esempio valori diversi per linizio di un gap o la sua estensione. Questi criteri di calcolo del punteggio implicano che le regole possono variare sulla base del tipo di sequenza (DNA, RNA o proteine) ma anche in dipendenza dal tipo di analisi che viene effettuato e dal grado di affidabilit delle sequenze stesse. Ad esempio lintroduzione di gap deve essere scoraggiata se comporta perdita di funzionalit, mentre irrilevante se la qualit delle sequenze usate scarsa, e pertanto la eventuale introduzione di gap non fa altro che compensare errori di sequenziamento Larea per nella quale probabilmente pi importante introdurre complessit quella del punteggio dato ai match e ai mismatch. Infatti questi rappresentano variazioni di diversa rilevanza: in molti casi, lipotetica sostituzione di aminoacidi o nucleotidi con altri molto diversi sarebbe causa di notevoli alterazioni nella struttura finale della molecola, mentre la sostituzione con monomeri strutturalmente simili, spesso non comporta variazioni rilevanti. Nel primo caso si tratta di un vero mismatch, mentre nel secondo un punteggio intermedio tra il match e il mismatch descriverebbe meglio la differenza tra le due molecole. Esempi di regole che tengono conto di queste considerazioni sono riportati di seguito. Regola per il calcolo del punteggio per sequenze di acidi nucleici: - Match 1 - Mismatch Purina-purina 0.5 - Mismatch Pirimidina-pirimidina 0.5 - Altri Mismatch 0 - Gap -1 - Regola per il calcolo del punteggio per sequenze di proteine - Match 1 - Mismatch Glutammico-aspartico 0.5 - Altri Mismatch 0 - Gap -1 Implementazione delle regole per il punteggio - Lintroduzione di regole complesse per il calcolo del punteggio, implica variazioni nel codice di programmi di allineamento. Il codice necessario per applicare le regole predette, assume la forma di una serie di istruzioni da eseguire solo se si presentano specifiche condizioni, come quelle indicate in figura 1. In pratica questa soluzione complica il codice, e limita i criteri di punteggio a quelli introdotti nel corso della scrittura del programma; lintroduzione di ogni nuovo criterio, richiede la creazione di una variante del codice. Inoltre non neanche molto efficiente, perch pu arrivare a richiedere un gran numero di istruzioni per ciascun confronto. Se si introduce il concetto di matrice di punteggi, il codice descritto pu essere sostituito da una sola riga: $score= $matrix[$nucA][$nucB]; In cui il punteggio viene semplicemente letto in una matrice bidimensionale di punteggi, in cui sono riportati punteggi per ciascun confronto possibile. Ad esempio in figura 2, la matrice riporta il valore 1 sulle caselle della diagonale, che corrispondono ai match fra basi identiche, mentre riporta il valore di 0,5 per le sostituzioni tra purine e tra pirimidine. La regola inizialmente indicata (match=1/mismatch=0) diviene un caso particolare di matrice, la matrice di identit, riportata in figura 3. Luso di matrici rende il codice pi efficiente, perch richiede un minor numero di operazioni, ed anche pi flessibile nelluso, perch non richiede modifiche al codice del programma.

Matrici per il confronto di proteine - Per il confronto di proteine le matrici permettono di introdurre regole anche molto complesse. In figura 1 riportata una matrice per il confronto di proteine che include le regole indicate in figura 2, che assegnano il valore di 0.5 alla sostituzione tra due aminoacidi acidi cos come a quelle tra alcuni aminoacidi neutri. Applicando regole diverse, possibile produrre matrici che rispondono a criteri differenti; esempi sono: - Matrici che riflettono la similarit biochimica tra aminoacidi, come ad esempio quella descritta sopra; naturalmente possibile tener conto anche della similarit tra aminoacidi basici, aromatici, o di altri criteri.

Matrici per similarit di codoni, che riflettono il numero di eventi mutazionali necessari per trasformare il codone per un aminoacido in quello per un altro. Matrici di questo tipo dovrebbero tener conto del fatto che un aminoacido pu essere codificato da pi codoni.

Un criterio molto usato quello statistico, che fa riferimento alle sostituzioni osservate in campioni di sequenze proteiche note, che siano rappresentativi di gruppi definiti di proteine. Esempi di matrici generate sulla base di questi criteri sono le matrici di tipo PAM e BLOSUM. Matrici PAM - Le matrici di tipo PAM si basano sul concetto di Percent Accepted Mutation (PAM). Due proteine distano 1 PAM se si differenziano per 1 aminoacido su 100 e se la mutazione accepted, cio non ha portato a perdita di funzionalit. Esempi di questo tipo sono proteine ortologhe, ma non mutazioni patologiche che si associano invece a perdita di funzionalit. Per generare una matrice PAM, si parte da proteine molto simili come quelle di figura 1, in cui lallineamento pu essere definito senza ambiguit.

A partire da queste, viene generata la matrice PAM 1 (figura 2).

Le matrici PAM di ordine superiore vengono generate per successive moltiplicazioni della matrice PAM 1 (figura 3) perch la probabilit di due eventi indipendenti pari al prodotto delle probabilit di ciascun evento singolo.

Mentre per la matrice PAM 1 vero che 1 evento mutazionale corrisponde ad una differenza dell1%, questo non vero per le matrici di ordine superiore. Infatti, le successive mutazioni hanno una probabilit via via crescente di cadere in corrispondenza di aminoacidi gi mutati. Il grado di differenza aumenta con laumentare del numero di mutazioni, ma mentre questultimo pu aumentare allinfinito, la differenza tende asintoticamente al 100%. In figura 4 riportata una rappresentazione grafica di questo fenomeno, insieme con una tabella riassuntiva che compara valori di PAM con percentuali di similarit (definita come 100-differenza percentuale).

PAM250 - La matrice PAM comunemente usata non contiene direttamente la probabilit della sostituzione di due aminoacidi, ma piuttosto il rapporto tra la frequenza osservata e la frequenza attesa, calcolata sulla base delle frequenze relative degli aminoacidi coinvolti nella sostituzione. Inoltre questi valori sono rappresentati come logaritmo del rapporto stesso, per evitare lintroduzione di numeri molto piccoli. Un vantaggio di questa operazione che il punteggio pu essere calcolato mediante somma piuttosto che per moltiplicazione. Osservando i valori riportati nelle caselle della matrice possibile notare innanzitutto che i valori pi alti si trovano lungo la diagonale della matrice, laddove non c stata sostituzione. Valori elevati si riscontrano anche per sostituzione di alcuni aminoacidi dello stesso tipo, come prevedibile: ad esempio sostituzioni lisina-arginina o glutammico-aspartico hanno valori simili a quelli presenti sulla diagonale. Valori piuttosto alti si osservano anche per sostituzioni tra aminoacidi di dimensioni simili come alanina, serina e treonina. La sostituzione di aminoacidi idrofobici tra loro non sempre porta a valori elevati. Infine anche i valori lungo la diagonale, che indicano la conservazione di un aminoacido, non sono tutti ugualmente elevati: la conservazione di aminoacidi rari come il triptofano o di difficile sostituzione come la cisteina, danno punteggi molto elevati, mentre la conservazione di aminoacidi comuni e non richiesti per funzionalit specifiche, risulta in valori piuttosto bassi.

BLOSUM - Una critica alle matrici PAM che si finisce per usare matrici derivate da proteine molto vicine tra di loro, PAM 1, per studiare il comportamento di proteine distanti, PAM250. Un modo alternativo di affrontare il problema consiste nel partire da allineamenti multipli di un gran numero di proteine, che condividono una similarit maggiore di un valore soglia. Le matrici pi comunemente usate, le BLOSUM, sono state ottenute a partire da allineamenti del genere, disponibili nel database BLOCKS. Anche queste matrici costituiscono una famiglia, in cui indici diversi indicano differente percentuale di similarit tra proteine usate per generare la matrice: per esempio BLOSUM 62, indica una matrice generata a partire da proteine aventi una similarit minima del 62%, come rappresentato in figura 1. Anche per queste matrici viene utilizzata una conversione in forma logaritmica. Un esempio riportato in figura 2.

Uso di matrici - Le matrici descritte possono essere utilizzate allinterno di qualsiasi programma che preveda il calcolo di un punteggio per lallineamento. Loriginale descrizione dellalgoritmo di Needleman e Wunsch non prevedeva lutilizzo di matrici di punteggio, tuttavia i programmi sviluppati recentemente che utilizzano lo stesso algoritmo, si avvantaggiano del loro utilizzo. Inoltre anche la maggioranza degli altri programmi di allineamento consente di selezionare il tipo di matrice di punteggio da utilizzare. Anche programmi per il calcolo di matrici di punti possono utilizzare matrici di punteggio, riportando soltanto le window che raggiungano un punteggio superiore alla soglia, come per loutput del programma dotmatcher, riportato in figura.

13. Algoritmi di allineamento di tipo Euristico


Algoritmi euristici - Nella precedente lezione sono stati descritti metodi di allineamento che procedono selezionando il migliore allineamento tra tutti quelli possibili (Needleman e Wunsch e Smith e Waterman). Per questo motivo questi metodi sono stati definiti esaustivi. Per quanto questi algoritmi per la ricerca di similarit di sequenza permettano di trovare rapidamente lallineamento migliore, comunque lapplicazione di questi metodi richiede tipicamente da qualche secondo a qualche minuto, che un tempo accettabile per il confronto di due sequenze ma diventa completamente inadatto se il confronto deve avvenire con una

banca dati che contiene da migliaia a milioni di sequenze. Allo scopo di ridurre tale impegno, possibile affrontare il problema in un modo alternativo: anzich procedere valutando tutti gli allineamenti possibili, si pu scegliere di effettuare la ricerca in modo da considerare esclusivamente quelli pi probabili. In questo modo si riduce drasticamente lampiezza del campo allinterno del quale effettuare la ricerca, con conseguente riduzione del tempo di calcolo. Gli algoritmi di allineamento che usano questo approccio vengono definiti euristici; essi, accettando di non avere la certezza di trovare sempre il migliore allineamento possibile, garantiscono per una forte riduzione del tempo necessario ad effettuare la ricerca, tanto pi importante quanto pi ampio il set di sequenze da studiare. Lapproccio euristico pu essere completato dallapplicazione di algoritmi di allineamento esaustivi ad un set ristretto di sequenze, dopo averle identificate inizialmente con lapproccio euristico, e garantendo cos allineamenti finali di buona qualit. FASTA - Lapprossimazione descritta, cio quella di eseguire la ricerca solo laddove pi probabile trovare lallineamento, richiede in primo luogo la selezione di sedi adeguate. Tale selezione sfrutta alcune assunzioni, per esempio che la sequenza cercata abbia almeno alcune basi consecutive identiche. A questo scopo si esegue prima la ricerca di cosiddette tuple, cio ennuple di sequenza che tipicamente sono di 2 aminoacidi e 6 nucleotidi. Lassunzione funziona correttamente nella maggior parte dei casi, anche perch alquanto difficile che due proteine correlate non abbiano almeno alcune coppie di aminoacidi in comune. Un minimo rischio pu esserci nel caso, ad esempio, di proteine relativamente lontane con livelli molto bassi di identit, nelle quali tutti gli aminoacidi identici sono isolati. Una seconda tecnica utilizzata per accorciare drasticamente I tempi di esecuzione, consiste nel fatto che tutti i blocchi di 2, per gli aminoacidi (400), e di 6, per i nucleotidi (4096), vengono precalcolati per una intera banca dati e conservati in un indice. Questo evita di effettuare il confronto tra la sequenza query e quelle della banca dati, perch sufficiente cercare i blocchi della sequenza query nellindice (figura). In questo modo si selezionano rapidamente un gran numero di piccole zone di similarit, come rappresentato. A questo punto il filtraggio dei match trovati, conduce alleliminazione dei match piccoli e isolati. Inoltre, nel successivo ricalcolo della similarit per quelli rimanenti, si utilizza una matrice PAM o BLOSUM. I match locali trovati vengono a questo punto connessi, selezionando, per ciascuno di essi, il migliore tra quelli alternativi. Infine, solo nellintorno dei match trovati, viene applicato un algoritmo esaustivo, per ottenere un allineamento di buona qualit.

E-value - Poich, con la ricerca in banche dati di grandi dimensioni, il numero di match trovati in genere piuttosto alto, il problema di avere uno strumento per valutarne lattendibilit. E stato dimostrato che il numero di match locali trovati funzione del prodotto della lunghezza delle due sequenze e di alcune costanti caratteristiche della libreria e della specifica sequenza query. Il numero di match di punteggio superiore ad una soglia ha una distribuzione di tipo Poisson come quella indicata in figura 1. In un tipico output di FASTA, per i match trovati viene riportata la percentuale di identit, il numero dei gap, il punteggio che tiene conto del grado di similarit e dei gap introdotti, e un valore statistico, le-value. Le-value un parametro tipicamente utilizzato come indice di attendibilit; esso indica il numero di match, di punteggio uguale o superiore a quello trovato, che si troverebbe nella stessa banca dati usando, come sequenza query, una casuale, della stessa lunghezza e composizione della sequenza in esame. Un altro parametro spesso usato il p-value, cio la probabilit di trovare un match del tipo descritto sopra. I valori del parametro e-value variano tra numeri anche molto elevati e tendono asintoticamente a 0 al crescere del punteggio (score), mentre il p-value, essendo una probabilit, pu assumere al massimo il valore di 1. Per valori inferiori a 0.1, i due valori sono essenzialmente sovrapponibili (figura 2).

Blast - Blast, come FASTA, un programma che utilizza un algoritmo di tipo euristico per la ricerca di similarit in banche dati. Come FASTA, lavora ricercando delle piccole zone di similarit di lunghezza definita (2 aminoacidi e 6 nucleotidi), utilizzando librerie indicizzate per ottenere velocit di esecuzione elevate. A differenza di FASTA, per, le regioni di similarit inizialmente trovate vengono valutate con una matrice di tipo BLOSUM, per lidentificazione di High Scoring Segment Pairs (HSPs). Queste piccole regioni, vengono poi estese allontanandosi a sinistra e a destra finch lestensione risulta in un miglioramento del punteggio globale. Le regioni di similarit trovate in questo modo, Maximal Segment Pairs (MSPs), rappresentano quindi degli allineamenti locali. Il programma, nella sua versione originale, non prevede lintroduzione di gap, tuttavia versioni pi recenti (gapped Blast), pur rimanendo programmi per la ricerca di allineamenti locali, accettano lintroduzione di un numero limitato di gap, se questi sono utili ad estendere ulteriormente i match trovati. Blast un package che include diversi programmi, specificamente adattati per la ricerca di similarit tra sequenze amminoacidiche o nucleotidiche. Inoltre, nello stesso package, sono inseriti programmi che, accoppiando traduzione e ricerca di similarit, permettono di comparare sequenze query amminoacidiche con banche dati di acidi nucleici e viceversa. Infine, il programma tblastx, consente di comparare sequenze nucleotidiche tra loro, tenendo conto della traduzione nei sei frames di entrambe le sequenze. Riepilogo - Dalle tecniche di allineamento descritte, emerge una complessa variet di algoritmi utili per rispondere a diverse esigenze sperimentali in quanto capaci di affrontare il problema da diverse angolazioni. In figura riportato un riepilogo in cui sono distinti, a destra e a sinistra, metodi per la ricerca di allineamenti locali e globali. I programmi Needle e Water, del package Emboss, sono esempi, rispettivamente, di implementazioni degli algoritmi di Needleman e Wunsch e di Smith e Waterman, ma esistono naturalmente altri programmi che introducono variazioni agli algoritmi di base. In basso in figura sono invece riportati due tipici programmi largamente in uso basati su algoritmi di tipo euristico, che eseguono ricerca di similarit in banche dati. Anche per loro possibile differenziare la capacit di identificare allineamenti di tipo globale o locale.

16. Famiglie di proteine


Definizione di famiglie di proteine - Dallallineamento di globine diverse provenienti da vari organismi, evidente che esiste un alto grado di similarit tra di loro. Questo deriva dal fatto che levoluzione dei geni tende a procedere attraverso modificazioni successive; in sostanza le soluzioni trovate vengono riutilizzate per problemi diversi, piuttosto che generare altre soluzioni. Nellesempio, si nota che le similarit sono maggiori tra alcune proteine come la globina alpha umana e di cavallo, o la beta umana e di cavallo. Questa considerazione permette di costruire un albero, che rappresenta la similarit mantenendo vicine le proteine pi simili tra di loro. Distinguiamo due situazioni: 1. proteine ortologhe, che svolgono la stessa funzione in organismi diversi, come alfa globina umana e di cavallo. Vengono generate per duplicazione dellintero genoma e modificate durante levoluzione delle specie. 2. proteine paraloghe, che svolgono funzioni simili nella stessa specie o in specie diverse, come globina alfa e beta. Vengono generate tipicamente per duplicazione genica. Hanno tipicamente un minor grado di similarit, che riflette il fatto che la duplicazione avvenuta ben prima della separazione delle specie che le contengono. Proteine simili costituiscono dei gruppi anche molto grandi che vengono definiti famiglie. Proteine appartenenti alla stessa famiglia sono quindi un gruppo monofilogenetico,e hanno un grado di somiglianza delle sequenze aminoacidiche abbastanza elevato da permettere la costruzione di un allineamento multiplo globale. Esempi di famiglie sono le globine, le proteasi a serina, le chinasi, le immunoglobuline. Attualmente il numero di famiglie di proteine note di circa 10 mila, per esempio nel database Pfam presente una lista di pi di 8000 famiglie. Come trovare famiglie di proteine - Proteine simili possono essere trovate attraverso luso dei tipici algoritmi di allineamento esaustivi, ma pi spesso, data la necessit di cercare allinterno di collezioni di dati piuttosto ampie, si ricorre alluso di programmi basati su algoritmi euristici come Fasta e Blast. La ricerca pu essere effettuata partendo da una delle proteine della famiglia e ricercando tutte le proteine con un grado di similarit superiore ad una soglia. Luso di matrici PAM o Blosum permette di tener conto della similarit funzionale tra amminoacidi, ma comunque questo approccio tende a trovare le proteine simili ad una specifica usata come query. Proteine appartenenti alla famiglia ma dissimili da quella query, possono facilmente sfuggire alla ricerca. Luso di matrici di pesi (weight matrix), consente di trovare similarit con un gruppo di proteine piuttosto che con una singola. Matrici di pesi - La matrice (un esempio riportato in figura) viene costruita a partire da un gruppo di proteine allineate e riportando, per ogni posizione, la frequenza di ciascun amminoacido. La matrice pu essere utilizzata per la ricerca di ulteriori elementi della famiglia allineandola con la collezione di sequenze da cercare. Ciascuna sequenza da esaminare viene allineata con la matrice e, per ciascuna posizione, viene assegnato il punteggio corrispondente al valore dellamminoacido allinterno della matrice. Anche in questo caso, se la matrice in forma logaritmica, sufficiente sommare i valori. Le sequenze che ottengono un punteggio superiore ad una soglia stabilita, possono considerarsi parte della famiglia.

PSI-Blast - PSI-Blast una variante di Blast che utilizza matrici di pesi per ricercare similarit allinterno di banche dati. Il programma, a partire da un gruppo di sequenze trovate, costruisce position-specific scoring matrices (PSSMs), simili alle matrici di pesi descritte nella pagina precedente, e le utilizza per effettuare una ulteriore ricerca. Il programma procede in maniera iterativa facendo successivi cicli di ricerca come indicato in figura. Il primo ciclo consiste in una corsa di Blast con una matrice standard come Blosum 62 e genera un primo gruppo di sequenze simili. A partire da questo punto, vengono effettuati cicli successivi in cui vengono utilizzate PSSM generate a partire dai risultati del ciclo precedente. Lesecuzione finisce quando stato effettuato il numero predenterminato di cicli (di solito 10), oppure viene interrotta anticipatamente se, ad un ciclo, vengono trovate le stesse sequenze del ciclo precedente. Grazie a questo meccanismo, PSIBlast pu essere molto pi sensibile di Blast e riesce a identificare sequenze che sfuggirebbero allanalisi con Blast.

HMM - Lapproccio usato da PSI-Blast consiste nel tradurre un allineamento in un modello che lo descriva; questultimo viene a sua volta utilizzato per effettuare la ricerca. Questo approccio utilizzato anche con altre metodiche, che usano per principi diversi per la generazione del modello. Le catene di Markov sono state sviluppate per lo studio di fenomeni sequenziali, e consistono nel collezionare le probabilit con cui un certo stato succede al precedente. Utilizzando le catene di Markov, lallineamento viene rappresentato come una successione di stati, uno per ciascuna posizione amminoacidica (AA1, AA2, ecc.). Per ciascuno stato vengono calcolate le probabilit per ciascun amminoacido, nonch quelle associate ad eventi di inserzione (I) o delezione (D). Linsieme di queste probabilit costituisce un modello (HMM) che viene utilizzato per la ricerca di nuove proteine che rientrino nello stesso modello. Questa tecnica permette di tenere conto anche della relazione di successione tra gli aminoacidi, a differenza di quelle precedenti, per la ricerca di nuovi membri della stessa famiglia. Allineamento multiplo: ClustalW - Lo studio di famiglie di proteine richiede la capacit di effettuare allineamenti multipli tra i membri noti e presunti della stessa famiglia. Lesecuzione di tali allineamenti secondo le procedure precedentemente illustrate richiederebbe per un numero di confronti difficile da realizzare. Il programma ClustalW utilizza un metodo in pi tempi che consiste nellallineare tutte le sequenze a coppie, costruendo successivamente lallineamento complessivo a partire da gruppi di sequenze pi simili tra di loro (cluster). Distinguiamo quattro fasi successive: 1. costruzione di una matrice di distanze, ottenuta allineando le sequenze a due a due; 2. raggruppamento delle sequenze in cluster sulla base delle distanze; 3. costruzione di un albero gerarchico dei cluster; 4. allineamento complessivo utilizzando lalbero appena costruito. La matrice di distanze viene ottenuta utilizzando uno degli algoritmi di allineamento globale descritti. I cluster vengono generati utilizzando lalgoritmo UPGMA che crea dei cluster di proteine sulla base della loro similarit, e li raggruppa ulteriormente sulla base della loro distanza media, generando cos un albero che rappresenta tutte le proteine in forma gerarchica. Lallineamento finale viene ottenuto per gradi, usando lalbero come guida, iniziando a formare coppie di proteine allineate, e inserendo successivamente i gap necessari per allineare i cluster tra loro.

18. Banche dati


Database flat e relazionali - Una banca dati una collezione di informazioni, organizzate in maniera da facilitare laccesso casuale, la ricerca ed eventualmente lutilizzo a fini statistici. Nelle banche dati pi semplici, spesso definite flat, riconosciamo una singola tabella di dati, allinterno della quale, in ciascuna riga conservato un elemento della banca (entry). Per ciascun elemento, caratteristiche differenti sono conservate in colonne successive. Questa impostazione sufficiente nei casi pi semplici, ma porta alla frequente ripetizione dello stesse informazioni in righe diverse, come si vede in figura 1.

Il modello relazionale, riportato in figura 2, supera questo limite separando le informazioni in tabelle differenti. Gli stessi dati di figura 1 sono organizzati in due tabelle corrispondenti a persone e indirizzi. Le entries presenti nelle due tabelle sono collegate da link tra identificativi numerici (id) assegnati a ciascuna entry, che vengono definiti relazioni.

In figura 3 il processo viene ripetuto introducendo una nuova tabella di citt. Questo modello evita la ripetizione dei dati e permette una migliore organizzazione dei dati, perch spinge ad identificare meglio le diverse entit presenti nella banca dati.

La banca dati EMBL - La banca dati Embl una collezione di sequenze nucleotidiche, organizzata in forma di database flat, dove ogni sequenza corrisponde ad una entry o record. La banca iniziata nel 1981 per rispondere allesigenza di collezionare in un unica sede tutte le sequenze nucleotidiche determinate sperimentalmente. Nei primi anni le sequenze contenute erano relative a cDNA completi o parziali, frammenti genomici, plasmidi, piccoli RNA, ma col passare del tempo le sequenze sono divenute progressivamente pi lunghe e interi geni o pi ampi frammenti genomici sono stati introdotti e il loro contributo alla banca dati divenuto via via pi rilevante. Il formato per la conservazione dei dati riflette lesigenza di archiviare sequenze di tipo diverso, infatti ciascun record organizzato in forma di file in cui, per ciascuna riga, un tag, costituito da una coppia di caratteri, definisce il tipo di informazione. Per ciascuna entry sono conservate diverse informazioni, relative a descrizione (DE), organismo di origine (OS, OC), referenze di letteratura (RX, RA, RL, RT), caratteristiche specifiche (FT), oltre alla sequenza stessa (SQ). Questa organizzazione presenta il vantaggio di essere molto flessibile, e di poter accomodare sequenze molto grandi o molto piccole, corredate di quantit variabile di informazione, in un sistema relativamente

semplice, compatibile con I sistemi informatici disponibili allepoca in cui la banca dati stata fatta. Questa impostazione utilizzata in diverse banche dati di sequenze, come Swissprot e Genbank. Al momento della compilazione della lezione, la banca dati contiene 109,392,890 sequenze per un totale di 191,853,649,857 nucleotidi. La dimensione media delle sequenze contenute di poco meno di 2000 basi, ma la variabilit notevole, essendo contenute nella banca dati, sia sequenze molto piccole come tRNa che sequenze di larghi frammenti genomici. Le sequenze introdotte nella banca dati sono state organizzate in sezioni chiamate divisions corrispondenti a organismi, come uomo e topo, o a gruppi di organismi, come roditori (che include i roditori diversi dal topo), mammiferi (diversi da uomo e altri contenuti in sezioni specifiche) e invertebrati. In aggiunta, altre sezioni sono state create per contenere grandi quantit di dati omogenei provenienti da progetti specifici, ad esempio EST, da sequenziamenti casuali di librerie di tag espressi, STS, per i marker utilizzati negli esperimenti di sequenziamento genomico, PAT, per sequenze contenute in richieste di brevetti. Sezioni di questo tipo sono state pi recentemente rinominate classi. INSDC - Lanno successivo (1982), allNCBI iniziato un progetto analogo per la realizzazione della banca dati Genbank. In un primo momento le due banche dati tendevano a raccogliere prevalentemente dati prodotti in Europa (EMBL), e in America (Genbank), ma abbastanza presto ha prevalso una politica di collaborazione, nella quale i dati vengono tuttora scambiati periodicamente per garantire la consistenza delle due banche dati tra di loro. I dati contenuti per ciascuna sequenza sono sovrapponibili come di pu vedere confrontando i record provenienti dallEMBL e da Genbank per la stessa sequenza. Pi recentemente una terza banca dati, DDBJ, mantenuta al National Institute of Genetics in Giappone dal 1986, si aggiunta alle prime due andando a costituire un terzo polo dedicato alla gestione congiunta della banca di sequenze. Questi accordi hanno portato alla nascita dellInternational Nucleotide Sequence Database Collaboration (INSDC), un progetto di collaborazione nel quale un comitato composto di membri delle tre organizzazioni partecipanti, si occupa di garantire il funzionamento della cooperazione. Database secondari - I database descritti contengono dati provenienti direttamente da osservazioni sperimentali, e sono disegnati per contenere in maniera efficiente le sequenze, garantendo facilit nei search, e soprattutto nella aggiunta di nuovi dati sperimentali. Non sempre risultano per ottimali per rispondere a domande specifiche: ad esempio un search per globina generer un gran numero di record, per globine di tipo diverso, sia geniche che da RNA o cDNA. Inoltre molti record conterranno sequenze parziali, ad esempio regioni geniche corrispondenti ad uno o pi esoni, o regioni non tradotte di RNA, piuttosto che sequenze complete, come potrebbe forse essere atteso. Per rispondere a esigenze di questo tipo, sono stati prodotti molti database secondari, derivati cio da dati primari, ma riorganizzati secondo specifiche esigenze scientifiche. - Refseq: una collezione non ridondante di sequenze di DNA , RNA e proteine, ottenuta a partire dai dati presenti nelle collezioni di sequenze pubblicamente disponibili. La collezione disegnata per includere sequenze di molecole definite, come genomi virali, plasmidi, RNA, genomi batterici e eucariotici. I dati derivano da GenBank e vengono organizzati riunendo pi sequenze originali in una unica entry, che corrisponde ad una molecola specifica di una data specie. Il consolidamento delle diverse sequenze in una unica entry di refseq avviene in un dato momento, ma pu essere rivisto. Nella entry sono indicati links alle sequenze di origine in GenBank. - Locuslink: una banca dati nella quale sono annotate locazioni genomiche e le informazioni relative alla funzione del prodotto genico codificato, come il codice del gene (gene symbol) e il link a gene ontology (GO), dove sono indicati i processi e le vie metaboliche in cui il prodotto genico coinvolto. La banca dati riporta inoltre link a OMIM, in cui sono conservate informazioni relative a malattie associate, varianti note e link alle sequenze in refseq. Di recente stata sostituita da entrezgene che, come locuslink, contiene informazioni su nomenclatura, locazione, prodotti genici e loro attributi, citazioni bibliografiche, variazioni ed altro, con vari miglioramenti nellambito di aspetti tassonomici e integrazione con altre banche dati NCBI. - OMIM: Online Mendelian Inheritance in Man (OMIM) una collezione di patologie genetiche a trasmissione ereditaria, che deriva da un testo, sviluppato da Victor A. McKusick e collaboratori, che ha rappresentato per anni un riferimento nel campo delle patologie ereditarie. AllNCBI il testo stato riorganizzato sotto forma di banca dati, nella quale sono confluite le parti testuali e numerose altre informazioni, oltre a link a database collegati. E possibile effettuare ricerche per

patologia e per gene. I dati sono organizzati in maniera simile al testo di origine, con campi per gene, ereditariet, diagnostica, sintomatologia, modelli sperimentali, varianti geniche note e altro. SNP: una collezione di variazioni di sequenza, osservate nel corso di progetti di sequenziamento genomico. Per ciascuna variazione, conservata la regione che la include, utilizzata per identificare il sito anche in successivi assemblaggi genomici, oltre a informazioni relative alle diverse varianti osservate. Quando disponibili, sono inoltre presenti informazioni relative alla frequenza allelica in specifiche popolazioni. I dati sono di grande aiuto per diagnostica genetica e per tipizzazione, come nel corso di indagini per attribuzione di paternit o per farmacogenomica. dbEST: lapproccio al sequenziamento su larga scala di librerie di cDNA iniziato prima del sequenziamento genomico, e continua tuttora in epoca postgenomica. Si basa sullidea di identificare piccole sequenze (expressed sequence tags o EST) da librerie di cDNA provenienti da specifiche cellule o tessuti, che risultano diagnostiche della espressione di quelle sequenze in quella particolare situazione sperimentale. Oggi esistono un gran numero di librerie di EST umane, ma anche di topo e di molte altre specie. La quantit di sequenze disponibili comparabile a quella delle sequenze genomiche ottenute da progetti di sequenziamento. Tali sequenze risultano molto utili per lannotazione genomica di regioni trascritte e per lo studio funzionale di geni. Taxonomy e REBASE: tra le banche dati disponibili troviamo anche un gran numero di informazioni di base, che hanno rilevanza in se, ma che sono anche utili per la gestione sistematica di dati presenti in altre banche dati. Esempi sono la sistematica delle specie presente in Taxonomy o le sequenze di riconoscimento che caratterizzano enzimi di restrizione. La prima spesso usata per creare link in altre banche dati piuttosto che riportare la specie come testo. REBASE anche usato da molti programmi per analisi di sequenza come collezione di siti di restrizione da ricercare allinterno di sequenze, ad esempio REMAP utilizzato in altra parte del corso. Medline contiene informazioni su articoli scientifici pubblicati su riviste specializzate in ambito medico e biologico, ed spesso indicato come riferimento per articoli citati a supporto di dati contenuti in banche dati. SRS: la grande abbondanza di banche dati disponibili, ciascuna con la propria interfaccia e con la propria modalit di ricerca, rende possibile ottenere informazioni dettagliate su sequenze, molecole, patologie, specie, elementi di regolazione, domini proteici e molto altro ancora. La possibilit di utilizzare una interfaccia univoca sarebbe un vantaggio non trascurabile, cos come la possibilit di effettuare la consultazione contemporanea di pi banche dati. SRS (Sequence Retrieval System) stato sviluppato con lintento di uniformare le interfacce per laccesso a collezioni diverse, attraverso la gestione di indici comuni. Questo meccanismo permette inoltre la ricerca contemporanea in banche diverse, anche attraverso la ricerca incrociata di caratteristiche presenti in banche differenti. In figura rappresentato un esempio di uso del sistema in cui, a partire dalla ricerca per emoglobina A di coniglio, viene trovata la sequenza proteica nella banca dati Swissprot, e successivamente vengono ottenute le sequenze genomiche e i trascritti dalla banca dati EMBL.

19. Immagini digitali


Diverse procedure utilizzate nellindagine biologica possono avvantaggiarsi della possibilit di fornire i risultati sperimentali sotto forma di immagini digitali. La digitalizzazione pu essere utile per la quantificazione mediante analisi di intensit e localizzazione di specifiche bande o spot. Lacquisizione di gel di agarosio o di acrilammide usati per lelettroforesi di acidi nucleici e proteine, produce immagini digitali in cui possibile visualizzare le bande e applicare procedure di valutazione quantitativa.

Libridazione con sonde marcate di campioni immobilizzati su filtro pu essere evidenziata mediante scansione del filtro stesso e analisi di immagini per la valutazione di bande o spot.

La presenza di specie molecolari rilevate mediante tecniche immunologiche pu essere analizzata mediante acquisizione di unimmagine digitale della piastra a pozzetti multipli (multiwell).

Cos unimmagine digitale - Unimmagine digitale una rappresentazione del mondo reale e non una copia. Tale rappresentazione caratterizzata dal fatto che, per ottenerla, necessario trasformare una immagine continua (immagine reale) in unimmagine discreta (immagine digitale). Questa trasformazione il risultato di un processo che prende il nome di campionamento. Il campionamento, schematizzato in nella figura seguente,

consiste nel dividere limmagine reale in una serie di elementi di grandezza definita caratterizzati da una precisa posizione e da un valore associato con il contenuto dellelemento stesso (colore o livello di grigio). Per quanto si possa determinare con precisione il numero di elementi sullasse x e y che descrive al meglio limmagine e per quanto si possa essere precisi nella identificazione del livello da dare a ciascuno di essi, la digitalizzazione comporta comunque la perdita di una quota di informazione.

Nonostante questo, la digitalizzazione di unimmagine ne permette la conservazione, lanalisi quantitativa e il processing mediante luso di risorse computazionali. Il campionamento: frequenza e profondit - Per capire il concetto di campionamento di unimmagine prendiamo a prestito alcuni principi del campionamento dei suoni. Il campionamento di un segnale sonoro analogico prevede che lampiezza del segnale venga misurata a intervalli regolari (msec, sec) lungo la dimensione tempo e conservata sotto forma di numeri. Il campionamento implica comunque una degradazione del segnale audio, ma se il procedimento viene applicato con cura, la forma dellonda campionata sar molto vicina a quella dellonda analogica originale. Un campionamento pu essere reso pi accurato utilizzando una elevata frequenza di campionamento, producendo cos un gran numero di campioni che descrivono londa con un buon grado di approssimazione. La granularit della scala utilizzata per descrivere le ampiezze, definita profondit o depth, e influenza la qualit del campionamento, determinando il grado di precisione usato nella definizione del livello sonoro nei diversi punti. Lo spazio necessario a contenere un suono campionato (espresso in byte), varia con la frequenza e la profondit. La frequenza determina il numero di valori da conservare per unit di tempo. Per segnali audio le frequenze tipiche sono nellordine dei kHz, vale a dire migliaia o decine di migliaia di valori per secondo. La profondit definisce il grado di precisione del campionamento per ogni punto. I valori sono in genere numeri interi e la loro conservazione richiede gruppi di bit di lunghezza fissa. Poich ogni bit in grado di assumere 2 valori, 4 bit conterranno al massimo 24= 8 valori diversi, 5 bit = 25 =32, e cos via.

Nella figura sono riportati due esempi tipici: in una comunicazione telefonica, i suoni corrispondenti al parlato hanno frequenze massime in torno an alcuni kHz, per cui e sufficiente una frequenza di campionamento di 8 kHz; i valori sono acquisiti con la profondit di 8bit, per un totale di 64 kbit/sec: Un secondo di conversazione richiede quindi 8 kByte. La registrazione di una traccia su un CD avviene invece ad una frequenza ben pi alta per garantire una adeguata riproduzione dei toni alti, e usa una profondit di 16 bit; un secondo di registrazione richiede quindi circa 176 kByte. Dal suono alle immagini - Il processo di campionamento di una immagine si pu ritenere simile a quello di un suono con la sola differenza che il suono viene campionato in una sola dimensione che il tempo, mentre una immagine richiede campionamenti in funzione dello spazio, al minimo in due dimensioni, x e y. Anche in questo caso i due parametri rilevanti per la determinazione della qualit di unimmagine sono frequenza e profondit (depth), rispettivamente numero di pixel per ogni asse e numero di valori utilizzati per definire linformazione di ciascuno di essi. Nel caso degli elementi di unimmagine, la profondit definisce il numero totale di livelli di grigio utilizzati per definire il contenuto di ognuno di essi: nel passare da 2 a 8 e poi a 10 bit, il numero di livelli di grigio passa da 4 a 1024. A parit di profondit, la frequenza di campionamento influenza drammaticamente la qualit. Allo stesso modo, a parit di frequenza di campionamento, il numero di livelli di grigio utilizzati contribuisce a riconoscere sfumature di colore e a definire nettamente i contorni delle forme rappresentate. Livelli di grigio e contrasto - La distribuzione delle frequenze dei livelli di grigio di una immagine digitale pu essere rappresentata con un istogramma dove, sullasse x sono rappresentati i livelli (0-255 per immagini a 8 bit; 0-65535 per immagini a 16 bit) e su y il numero di pixel con quel livello di grigio. In unimmagine correttamente contrastata tale distribuzione copre in maniera continua tutti i livelli rappresentati, al contrario, distribuzioni molto strette corrispondono a immagini caratterizzate da scarso contrasto. Informazioni sul colore - Unimmagine digitale a colori pu essere ottenuta campionando le intensit luminose in tre diverse bande di frequenza (canali). Cos come osservato per le immagini in scala di grigio, per ognuno dei canali di colore, possibile definire differenti profondit: 8, 10 o 16 bit. La combinazione dei tre segnali ricostruisce nellocchio dellosservatore, un colore apparentemente identico a quello originale. Ogni elemento campionato contiene quindi anche linformazione sul colore, comunemente rappresentata come set di tre valori per i canali del rosso, verde e blu (RGB), anche se sono possibili altri tipi di rappresentazione, per esempio CMY (cyan, magenta, yellow); questa combinazione, con laggiunta del nero (CMYK), tipicamente usata nella stampa a colori. Pseudocolor - Immagini digitali acquisite in scala di grigio possono essere sottoposte ad una procedura nota come pseudocoloring, che consiste nel rappresentare specifici livelli di luminosit con particolari colori. Questa tecnica utile per evidenziare particolari regioni di interesse allinterno del campo acquisito, anche considerando il fatto che locchio umano discrimina meglio diverse sfumature di colore piuttosto che livelli diversi di grigio. La tecnica dello pseudocoloring pu anche essere utilizzata per visualizzare immagini multicanale, cio immagini per cui per ogni pixel viene eseguita pi di una misurazione, ad esempio a lunghezze donda diverse. Per esempio, in microscopia a fluorescenza, lo stesso campione pu essere trattato contemporaneamente con fluorocromi diversi. Ogni fluorocromo viene rivelato separatamente irradiando il campione con la specifica lunghezza donda; le immagini digitali ottenute vengono poi visualizzate utilizzando due scale di colori primari come il rosso e il verde, permettendo cos la visualizzazione contemporanea delle due marcature. Il colore primario blu pu essere utilizzato per introdurre un terzo canale.

In questo modo, la contemporanea presenza di entrambi i fluorocromi genera una colorazione gialla derivante dalla combinazione del rosso e del verde; per esempio, le bande di un gel o gli spot di un dotplot , ibridati a due sonde diverse, possono essere rappresentati come scale di rosso e di verde. Esempi di standard a confronto - Le frequenze di acquisizione possono variare ampiamente, tuttavia nel tempo si sono affermati alcuni standard spesso legati alla visualizzazione di immagini in specifiche applicazioni. In figura sono riportati vari esempi di standard comuni: ad esempio immagini di 768576 pixel sono spesso utilizzate e derivano dallo standard PAL, ormai in uso da molti anni. I monitor in uso per i PC utilizzano misure come 1024768, mentre le macchine fotografiche digitali usano diverse combinazioni di valori per dispositivi di acquisizione di tipo diverso, (in figura indicato il valore per camere da 3 Mpixel). Videoclip e filmati possono essere prodotti attraverso luso di immagini successive.

Acquisizione di immagini - Il pi semplice sistema per lacquisizione di immagini la classica pinhole camera riportata in figura: una semplice scatola scura nella quale la luce viene convogliata e passa attraverso un singolo punto di piccole dimensioni (pinhole). Dato un oggetto, una fonte di luce e una fotocamera, limmagine si former su un piano (image plane), ciascun punto di questo piano riceve un segnale luminoso da una sola direzione che quella che passa attraverso il pinhole. Limmagine prodotta pu essere registrata su una lastra fotografica, o su un CCD, una matrice di sensori in grado di acquisire contemporaneamente tutti i pixel di unimmagine. Luso di lenti in macchine fotografiche o telecamere permette una migliore focalizzazione e la cattura di una maggiore quantit luce per ottenere sensibilit pi elevate.

Gel agarosio con etidio - Nella lezione in cui ci siamo occupati di elettroforesi abbiamo discusso di come campioni di acidi nucleici possono essere separati su agarosio e di come i frammenti possono essere colorati con bromuro di etidio, capace di intercalarsi tra le basi azotate e di emettere luce arancio se eccitato con una radiazione UV tra 254 e 306 nm. In figura riportata limmagine digitale di un gel di agarosio acquisita mediante utilizzo di un transilluminatore, che irradia il gel con luce UV, mentre la radiazione emessa viene sezionata con un filtro rosso e acquisita attraverso una camera digitale. Scansione - Per ottenere una sensibilit pi elevata possibile utilizzare, invece della matrice di sensori, un singolo elemento sensibile capace di misurare la radiazione emessa da un singolo punto del campione, se un sistema meccanico si occupa di spostare il campione in modo da permetterne la scansione progressiva. Questa tecnica permette di utilizzare dispositivi di acquisizione di elevata qualit che garantiscono alta sensibilit e linearit dellacquisizione. Luso di sensori di tipo diverso permette di rivelare fluorescenza emessa, ma anche emissioni radioattive da campioni marcati. I dati ottenuti in questo modo sono caratterizzati da elevata linearit e sono tipicamente acquisiti utilizzando scale a 16 bit per una migliore valutazione quantitativa.

Nella figura sono indicati gli andamenti dei valori registrati dal phosphorimager (uno strumento capace di effettuare la scansione di filtri o gel contenenti campioni radioattivi) in relazione alla densit ottica misurata per lo stesso campione, con esposizione su film; il sistema si mantiene lineare per almeno 4 ordini di grandezza. Analisi quantitativa - A partire da un immagine digitale come quella rappresentata in figura 1

possibile ottenere una valutazione quantitativa della intensit del segnale, che, in condizioni ottimali, risulta proporzionale alla concentrazione delle molecole in studio.

La figura 2 mostra la scansione della seconda lane dal gel di figura 1, in cui ogni picco rappresenta una delle bande. Lintegrazione dei valori di intensit per ciascun pixel di un picco corrisponde a un valore numerico rappresentativo dellintensit della banda. Lintegrazione pu avvenire anche in due dimensioni sommando i valori di tutti i pixel di una banda per ottenere i volumi che rappresentano ciascuna banda . Luso di immagini a 16 bit permette di misurare in maniera accurata bande di intensit anche molto diverse ottenute rappresentando livelli di intensit via via pi bassi con valori di grigio variabili tra zero e 255.

21. Microscopia
Losservazione di cellule al microscopio - La microscopia una risorsa indispensabile per losservazione e lo studio di campioni di natura diversa. La rappresentazione di un dito ad ingrandimento progressivamente pi elevato evidenzia come locchio umano sia in grado di percepire solo i primi due livelli di ingrandimento e che necessario un microscopio ottico per arrivare a distinguere organelli come i mitocondri, e un microscopio elettronico per dettagliare la composizione di un ribosoma. Un uso tipico della microscopia consiste nellosservazione di cellule eucariotiche che crescono adese alla superficie di coltura, come quelle rappresentate in figura. Le cellule tenute in queste condizioni sono in genere molto sottili e sono trasparenti alla luce. Per losservazione, vengono spesso utilizzate metodiche che permettono di superare questo problema. In questa lezione analizzeremo diverse tecniche capaci, in ultima analisi, di aumentare il contrasto, per esempio attraverso luso di dispositivi capaci di generare contrasto di fase o lintroduzione di coloranti che assorbono nello spettro del visibile. Analizzeremo inoltre il problema del riconoscimento di elementi subcellulari o di strutture ricorrendo alluso di anticorpi o di molecole capaci di legare specificamente strutture come il DNA o elementi citoscheletrici. Microscopio ottico - In un microscopio ottico la luce emessa da una lampada a incandescenza viene concentrata, attraverso le lenti di un condensatore, che focalizzano i raggi emessi sul piano del campione. La luce che fuoriesce dal campione, utilizzando una combinazione di due lenti, lobiettivo e loculare, viene focalizzata direttamente sullocchio dellosservatore, o su un sistema di registrazione costituito da una pellicola fotosensibile o da una telecamera. Per garantire la qualit dellimmagine necessario utilizzare lenti di buona qualit e una meccanica molto stabile, che riduca le vibrazioni. Per applicazioni a bassa luminosit si utilizzano lenti di diametro utile piuttosto ampio, che permettono di raccogliere la maggior parte della luce proveniente dal campione. In assenza di altre limitazioni, la massima risoluzione ottenibile con un microscopio ottico determinata dalla lunghezza donda della luce visibile, che pone un limite teorico di 0.2 m. Metodi fisici - A causa del ridotto spessore e della composizione acquosa, la luce che passa attraverso una cellula viva e non colorata, non viene significativamente attenuata e per questo difficile ottenere immagini dettagliate utilizzando la microscopia ottica. Tuttavia la luce che passa attraverso cellule non colorate subisce un cambio di fase che, pur non essendo riconoscibile dallocchio umano, pu essere evidenziato se trasformato in variazione di ampiezza. Luso di microscopia a contrasto di fase consente infatti di visualizzare piccole differenze di indice di rifrazione o di spessore tra diverse parti del campione come regioni pi chiare e regioni pi scure. Un metodo alternativo consiste nellosservare la luce diffusa da un oggetto illuminato lateralmente, come nellosservazione in campo scuro (dark field). Losservazione dello stesso fibroblasto con quattro diverse modalit, assenza di contrasto o bright field, contrasto di fase, contrasto interferenziale e campo scuro o dark field, evidenzia le differenze tra i vari tipi di dispositivi di osservazione utilizzati. Metodi di colorazione - Lutilizzo di alcuni pigmenti colorati consente di evidenziare componenti subcellulari capaci di legare selettivamente la molecola colorata. I coloranti possono localizzarsi in aree diverse del campione sulla base di caratteristiche chimico fisiche come basicit o acidit. Un esempio tipico costituito da colorazioni classiche come lematossilina eosina che colorano di rosso le regioni acide (citoplasma) e di blu quelle basiche (nuclei). Le colorazioni possono essere combinate con reagenti capaci di legarsi selettivamente a molecole o strutture specifiche, come gli anticorpi o molecole come la falloidina, che lega lactina polimerizzata mettendo in evidenza i microfilamenti di actina, o il dapi che lega specificamente il DNA. In aggiunta a molecole colorate, vengono spesso usati marcatori fluorescenti, caratterizzati dalla capacit di emettere radiazioni nel visibile quando irradiati con radiazioni UV o della regione del visibile a bassa lunghezza donda. Microscopio a fluorescenza - Nel microscopio a fluorescenza la luce incidente sul campione emessa tipicamente da una lampada a vapori di mercurio che emette radiazioni nella regione bassa del visibile e nel vicino ultravioletto. La radiazione viene convogliata sul campione dopo essere stata selezionata da un filtro e riflessa da uno specchio dicroico. La radiazione emessa dal campione attraversa lo specchio dicroico e viene raccolta dall obiettivo dopo essere passata attraverso un filtro. Il vantaggio delluso della fluorescenza che il campo di osservazione scuro e gli elementi fluorescenti risultano ben contrastati,

inoltre luso di lunghezze donda pi basse consente di superare il limite di risoluzione della microscopia ottica ottenendo immagini ad alta definizione. Fluorocromi comunemente utilizzati sono dapi, fluoresceina (Fitc), texasred o rodamina caratterizzati da emissioni nel blu, verde e rosso rispettivamente. Pi recentemente sono stati sviluppati fluorocromi meno dannosi per la vitalit cellulare, caratterizzati da frequenze di eccitazione e di emissione pi elevate. Analisi mediante fluorescenza - Nellanalisi biologica si fa spesso ricorso allutilizzo di molecole capaci di legarsi a specifiche strutture o proteine; spesso queste molecole sono coniugate (direttamente o indirettamente), con fluorocromi che consentono la visualizzazione della specifica struttura mediante emissione di un segnale fluorescente.

La figura 1 mostra un campione di cellule in cui i microfilamenti di actina sono stati marcati mediante utilizzo di falloidina (veleno estratto da un fungo) coniugata con fluoresceina; la colorazione verde il risultato dello pseudocoloring in quanto limmagine stata acquisita in scala di grigi.

La figura 2 riporta invece la colorazione di nuclei mediante utilizzo di dapi; alcuni di questi nuclei evidenziano, in figura 3, una colorazione specifica ottenuta mediante incorporazione di BrdU (bromodesossiuridina, base analoga alla timina) e rivelazione mediate anticorpo anti-BrdU coniugato con un fluorocromo. Colorazioni di questo tipo consentono di fare valutazioni sulla capacit della popolazione cellulare in studio, di passare dalla fase G1 alla fase S (duplicazione del DNA) del ciclo cellulare. Microscopia confocale - Unevoluzione della microscopia in fluorescenza la microscopia confocale in cui la radiazione incidente prodotta da un laser. La radiazione emessa dal laser caratterizzata da una lunghezza donda definita ed costituita da un fascio coerente che passa attraverso un pinhole e viene focalizzato su un singolo punto del campione. La fluorescenza emessa da questo punto viene focalizzata su un secondo pinhole e raccolta con un fotomoltiplicatore. Un sitema di scansione costituito da uno specchio rotante utilizzato per acquisire punti diversi del campione allo scopo di comporre limmagine finale. Poich la radiazione emessa da un singolo punto del campione non confusa con quella proveniente dalle regioni fuori fuoco, limmagine ottenuta ha un grado di definizione molto elevato. Inoltre, ogni immagine bidimensionale rappresenta una sezione orizzontale del campione di spessore minimo, ed possibile acquisire sezioni seriate che, prese tutte insieme, rappresentano il campione come volume piuttosto che come singola immagine bidimensionale. Processing e ricostruzione tridimensionale di immagini - Il processing delle immagini comprende operazioni di varia complessit che vengono eseguite sulle immagini acquisite allo scopo di mettere meglio in evidenza aspetti del campione che non risultano chiari nelle immagini direttamente prodotte dal microscopio. Variazioni di luminosit e contrasto, per esempio, sono spesso usate per accentuare il dettaglio di regioni scarsamente contrastate. Inoltre, metodi di restauro di immagini, come la deconvoluzione, permettono di migliorare ulteriormente il contrasto. Luso combinato di pi fluorocromi consente di studiare la localizzazione relativa di molecole diverse: luso di pseudocolorazione rossa e verde per i due canali consente di vedere contemporaneamente la marcatura di componenti cellulari diversi, che

vengono colorati in giallo quado colocalizzano negli stessi punti. Infine tecniche di proiezione e ray-tracing sono usate per ricostruire limmagine che si potrebbe osservare guardando il campione da varie posizioni.

22. Strutture di proteine


Tipi di strutture - La comprensione della struttura di una proteina il punto di partenza per studiare la correlazione esistente tra forma e funzione di queste molecole. La struttura primaria di una proteina la sequenza degli amminoacidi che la compongono disposti in catena e legati da legame peptidico. Per effetto della formazione di ponti idrogeno, la catena polipeptidica si organizza in strutture secondarie che, a seconda della conformazione assunta, si definiscono alfa-eliche o di beta-foglietti; queste strutture secondarie possono organizzarsi nello spazio in forme pi complesse ottenute per effetto di forze di attrazione tra a-eliche e foglietti beta. Infine, in proteine costituite da diverse catene amminoacidiche, ciascuna di esse si organizza nello spazio rispetto alle altre e la proteina intera assume una struttura cosiddetta quaternaria. Amminoacidi e legame peptidico - Gli amminoacidi si caratterizzano per il gruppo che costituisce la catena laterale e possono essere raggruppati sulla base di caratteristiche come il peso molecolare, il pk o il volume occupato. La catena polipeptidica primaria il risultato della formazione di legami peptidici tra il gruppo carbossilico di un amminoacido e il gruppo amminico dellamminoacido che lo segue nella catena; poich il legame peptidico planare, le uniche rotazioni possibili lungo la catena polipeptidica, sono quelle che descrivono gli angoli noti come phi e psi. Per ciascun amminoacido, non tutte le combinazioni di angoli sono per possibili, in quanto alcune sarebbero causa di collisioni tra catene laterali di amminoacidi successivi. Il cosiddetto grafico di Ramachandran consente di osservare che, in una proteina, alcune coppie di angoli sono presenti e altre no. Strutture secondarie - Alcune combinazioni di angoli sono pi comunemente associate a determinate conformazioni secondarie della catena polipeptidica: per esempio, le strutture ad alpha elica e quelle a foglietti beta sono ottenute per combinazioni di angoli localizzate solo in alcune aree circoscritte del grafico di Ramachandran. Per effetto della torsione a carico del Ca, la catena polipeptidica assume conformazioni spaziali che consentono la formazione di legami deboli lungo la catena, in particolare, ci rende possibile la formazione di ponti idrogeno tra gruppi carbossilici e gruppi amminici di amminoacidi della catena. Se i ponti idrogeno interessano un residuo ogni quattro, la conformazione spaziale assume la forma di un alfaelica , ma tipi diversi di elica sono possibili se i ponti idrogeno interessano un amminoacido ogni 3 (elica 310) o uno ogni 5 (elica ); se invece i ponti idrogeno coinvolgono amminoacidi di catene adiacenti, la struttura secondaria assume la forma di foglietti anche detti beta-sheet. Strutture di ordine superiore - Lorganizzazione spaziale di una proteina nelle tre dimensioni, dipende dallintervento di interazioni di natura non covalente che coinvolgono regioni differenti della catena polipeptidica; queste interazioni, note come legami deboli, comprendono legami a idrogeno, legami ionici e interazioni di Van der Waals. Sebbene ciascuno di questi legami abbia una forza molto contenuta, nellinsieme essi contribuiscono a stabilizzare la struttura tridimensionale della catena polipeptidica. I legami a idrogeno possono coinvolgere coppie diverse instaurandosi tra atomi di due catene laterali, tra catena laterale e catena principale oppure tra due atomi della catena principale. La struttura terziaria di una proteina pu essere rappresentata in modi diversi, alcuni pi semplici e altri pi complessi, tuttavia essa sempre piuttosto complessa, gi per domini come lSH2, ancora di pi naturalmente per intere proteine. Analisi di strutture mediante cristallografia - La cristallografia la tecnica che ha permesso la definizione della struttura delle prime molecole organiche complesse, e, successivamente, delle prime proteine come la insulina e la mioglobina. La tecnica consiste nellirradiare cristalli con radiazioni a bassa lunghezza donda (raggi X) e nel ricostruire la struttura a partire dal pattern di diffrazione. Luso di cristalli essenziale, perch solo in un cristallo le molecole sono garantite assumere una conformazione regolare: in sostanza le molecole in acqua assumono conformazioni e orientamenti molteplici, mentre un cristallo costituito da un gran numero di celle elementari ripetute, in cui le molecole sono sempre nella stessa posizione e orientamento, e la definizione della loro struttura diviene quindi possibile. La produzione dei cristalli

relativamente semplice per molecole inorganiche o per piccole molecole organiche, ma con il crescere della dimensione diviene via via pi difficile identificare le condizioni per la cristallizzazione. In un cristallo proteico, lunit ripetitiva contiene a volte, oltre alla proteina, anche alcune molecole diverse come ligandi o altre molecole utili alla cristallizzazione, e, di regola molecole di acqua. La crescita del cristallo inoltre diviene tipicamente una operazione molto lunga, che pu durare settimane o mesi, per proteine di dimensioni anche non eccessivamente grandi. Diffrazione con raggi X - Il cristallo viene irradiato e la diffrazione dei raggi da parte delle nuvole elettroniche contenute nel cristallo genera una figura di diffrazione, che dipende dalla disposizione spaziale degli elettroni. La figura di diffrazione ottenuta viene registrata da diverse angolazioni. Il dato sperimentale il risultato della combinazione delleffetto di un gran numero di componenti, che possono essere determinate mediante analisi del pattern con tecniche computazionali. In breve il pattern di diffrazione la combinazione di diverse componenti, che possono annullarsi se in controfase, o sommarsi se in fase. Il calcolo della trasformata di Fourier, permette di determinarle a partire dal dato sperimentale. Il risultato ottenuto una descrizione della densit elettronica allinterno della cella elementare del cristallo, che, per molecole complesse come le proteine, deve essere comparata con la struttura primaria, per arrivare alla definizione della struttura tridimensionale. Il grado di risoluzione ottenibile dipende dalla capacit di ottenere cristalli puri e immagini di elevata qualit. Risoluzioni tipiche possono andare da decine a poche unit di ngstrom: risoluzioni pi elevate permettono di definire la posizione di atomi piccoli come gli idrogeni, mentre risoluzioni pi grossolane sono utili solo per la definizione dellorientamento generale dello scheletro della proteina. NMR - La spettroscopia NMR utilizza il principio che le energie dei due orientamenti possibili di un nucleo dipendono dalla forza del campo magnetico applicato. Lassorbimento di radiazione elettromagnetica risulta nella transizione dal livello pi basso a quello pi elevato. La tecnica permette la risoluzione di strutture relativamente semplici, come quella delletanolo. La tecnica, applicata a molecole pi complesse, come una proteina, rende rapidamente complesso, e non direttamente utilizzabile il pattern ottenuto. Luso di spettroscopia bidimensionale permette lestensione del concetto a molecole pi complesse. Leffetto Overhauser (NOE), permette di identificare coppie di protoni che risultano vicini nella struttura tridimensionale della molecola. Confronto tra cristallografia e NMR - Le due tecniche descritte sono diverse. In generale la cristallografia permette di raggiungere risoluzioni elevate e pu essere applicata a molecole pi grandi, tuttavia richiede la fase di cristallizzazione che pone problemi specifici. Non sempre lottenimento di cristalli pu essere garantito, e, inoltre, le molecole sono essenzialmente congelate nella conformazione necessaria allottenimento del cristallo. La NMR pu essere applicata in soluzione e in condizioni sperimentali diverse, ed quindi immediatamente disponibile. Le informazioni ottenute sono quindi essenzialmente complementari, e, se combinate, contribuiscono entrambe alla generazione di modelli tridimensionali affidabili. Predizione di strutture secondarie - La relazione sperimentalmente dimostrata tra struttura primaria e conformazione di proteine, apre lopportunit a tecniche di predizione della struttura tridimensionale sulla base della sequenza amminoacidica. Numerose tecniche sono disponibili, che tengono conto sia di aspetti statistici che termodinamici. I metodi pi semplici si limitano ad osservare la frequenza con cui aminoacidi specifici si ritrovano in segmenti di proteina con ripiegamento ad elica alfa o in foglietti beta (figura 1).

La sola presenza di aminoacidi che prediligono luna o laltra struttura secondaria, permette di effettuare predizioni anche relativamente affidabili. In aggiunta, la presenza di pi aminoacidi idrofilici frequentemente associabile ad una ipotetica disposizione della regione in aree esterne della molecola, al contatto con lambiente acquoso, mentre il ritrovamento di regioni idrofobiche indice di tratti transmembrana o di aree interne della molecola (figura 2).