Sei sulla pagina 1di 15

Approfondimento di biologia per l' informatica: retrival di informazioni per il gene AGO2 r.vincelli@campus.unimib.

it

Software: Wolfram Mathematica ( http://www.wolfram.com/products/mathematica/index.html ) e' una famosa piattaforma software per la matematica, e tra le moltissime funzionalita' ne offre anche per la gestione di dati da database genetici (per esempio, la ricerca automatizzata sul genoma umano). L' informazione ottenuta e' quasi sempre sotto forma di dato stringa, il che apre molte possibilita'. Agli studenti di informatica e' data una licenza studente.

Fonti: Oltre alle banche dati specifiche suggerite che ho esplorato a partire da NCBI, ho ritenuto indispensabile la solita Wikipedia (inglese ma anche italiana), per ricordare e trovare definizioni.

AGO2 * Cercando da NCBI sotto GENE, AGO2 sta per Argonaute2, gene che esprime una proteina occupata principalmente nell' RNA interference: essa si lega a filamenti di RNA detti siRNA (small interfering), ed agisce per endonucleasi (informalmente spezza in due in un sito preciso) sul filamento di mRNA legatosi complementare allo siRNA. La sua attivita' nella RNAi suggerisce che sia determinante nella differenziazione cellulare e quindi critica alla vita delle stesse. Nella cellula, le proteine argonauta sono concentrate esclusivamente in particolari zone del citoplasma, gia' identificate come aree di decadimento dell' mRNA. Non si chiamano cosi' in riferimento ai marinai della nave Argo! (vedi qui)

* Da GENE appare presente nei seguenti organismi: 1. Drosophila melanogaster-moscerino frutta/aceto (AGO2) 2. Arabidopsis thaliana-arabetta comune (AGO2)

3. Apis mellifera-ape da miele (AGO2)

4. Bombyx mori-farfalla del baco da seta (AGO2)

5. Chlamydomonas reinhardtii-un' alga eucariote che non centra con la clamidia, che e' un batterio (AGO2)

6. Drosophila yakuba-altro moscerino (Dyak/AGO2)

7. Drosophila simulans-altro moscerino (Dsim/AGO2)

* AGO2 GENE/UniGene (Drosophila Melanogaster) selected overview:

isoforme: 2 (B, C) cDNA source (in pratica dove e' espresso): mista tra cui esplicitamente corpo grasso, sangue, ovarie, tessuti embrionali, gonadi, testicoli locazione genomica (cromosomi contenenti): 3L-71C3/71E5

*Analisi del gene (FLYBASE formato FASTA) Il gene AGO2 del Drosophila Melanogaster e' composto da 6929 basi e la sua locazione e' nel cromosoma 3L. Da FLYBASE abbiamo varie possibilita' di download di sequenze FastA e le piu' generiche sono: gene region (il trascritto non maturo piu' lungo per intero, senza cappello e coda ma con le utr; usare T al posto di U anche se si tratta di mRNA e' una pratica comune nei database) extended gene region (la gene region con in piu' 2kb basi precedenti l' inizio e seguenti la fine). Possiamo volerci chiedere ad esempio dove si trovi la regione promotrice. Negli eucarioti la regione e' estesa e puo' avere componenti anche varie kilobasi in upstream (ossia, ponendo 0 la posizione della prima base trascritta, molte basi a sinistra di questa in una posizione -x) e la sua individuazione precisa ed estesa impossibile. E' pero' possibile dalla sequenza estesa avere un' idea di dove si trovi il promotore o dandola in pasto a software apposito (es. BDGP) o cercando su appositi database (per il nostro gene l' entry precisa del database EPD e' questa)

Come ben sappiamo, di un gene e' effettivamente utile alla produzione solo una piccola parte ; definiamo CDS (coding sequence) quella regione contigua dell' mRNA maturo che e' difatto utilizzata per la sintesi proteica (o di altri composti). Per avere un' idea della percentuale che rappresenti all' interno dell' intero gene, basta fare il rapporto tra la sua lunghezza e quella di quest' ultimo. Selezionando Gene Region e CDS (isoforma B), premendo Get FastA si hanno le due stringhe, ed il rapporto e': 3717/7068->0.525891 Il valore e' al disotto della media junk del famoso insetto, che si attesta su oltre il 60% (vedi qui)

*Analisi delle isoforme L' isoforma di una proteina e' una seconda proteina assai simile alla prima differenziatasi per fenomeni di splicing alternativo o modificazioni post-traduzionali. Nel primo caso, le proteine sono tradotte a partire da sequenze mRNA diverse anche se molto simili. Per avere un' idea di quanto siano affini due sequenze in bioinformatica, si utilizzano algoritmi di allineamento, e vi sono varie possibilita', principalmente con una tecnica di programmazione detta programmazione dinamica. L' idea e' quella di trovare un allineamento, cioe' un modo di incolonnare le due stringhe, che massimizzi il numero di colonne dove il simbolo della prima e' uguale al simbolo della seconda. Ogni coppia che verifica questa proprieta' determinera' un punteggio definito da un' apposita funzione, che anche penalizza in caso non siano uguali o uno dei due sia un simbolo. Tipicamente: -se x1==x2, 1 punto -se x1!=x2, -1 punto -altrimenti -2 punti Per due stringhe X1 X2, il punteggio ottimo e' detto similarita' di X1 con X2. E' possibile studiare n sequenze contemporaneamente ma il calcolo e' cosi' molto rallentato. Siano B e C le due sequenze di trascritto, cioe' il pre-mRNA non ancora maturo che subira' splicing, capping e poliadenilazione dato che parliamo di eucarioti, prese da "Genomic regions, transcripts and products" di GENE. Calcoliamo allora l' allineamento con l' algoritmo wn secondo la funzione di punteggio data: NeedlemanWunschSimilarity[B,C,GapPenalty->-2]->8207 Quando studiamo con questa funzione di punteggio, il risultato si avvicina al doppio delle colonne risultate a punteggio +1, e quindi il risultato ci dice che le sequenze praticamente combaciano eccezion fatta per la lunghezza giacche': 8207/2->4103.5 StringLength[B]->4107 StringLength[C]->4116 Per avere il numero effettivo di colonne a punteggio +1 nell' appaiamento ottimale basta dare una penalita' di gap di -1: NeedlemanWunschSimilarity[B,C]->3830

Un sistema molto usato in informatica e' anche la distanza di edit, che tra due stringhe e' data dal numero di cancellazioni, sostituzioni ed inserimenti singoli per trasformare una sequenza in un' altra, A livello biologico puo' essere intesa come il numero di cancellazioni, sostituzioni ed inserimenti di componenti chimiche per passare da una struttura ad un altra (es. da un filamento di mRNA ad un altro mediante operazioni sull' alfabeto di basi {A,C,G,U} nonostante l' RNA abbia U e non T, ma questa e' la policy di NCBI) EditDistance[B,C]->177 ossia operando 177 cancellazioni+inserimenti su B si ottiene C Gli stessi indicatori si possono usare ovviamente sulle proteine B e C associate, stringhe sull' alfabeto dei 20 aminoacidi: StringLength[BP]->1231 StringLength[BC]->1234 NeedlemanWunschSimilarity[BP,BC]->1167 EditDistance[BP,BC]->42

*Conservazione (da Homologene) Il gene AGO2 si e' conservato in alcune piante, funghi ed insetti nonche' in vari eucarioti tra cui noi, cioe' possiamo pensare che da un antenato comune il gene e' arrivato in questi distinti gruppi con uno o piu' rappresentanti. In particolar modo per l' AGO2 del DM ha come omologhi putativi, ossia come geni dalla sequenza ritenuta (putativa) molto affine: AgaP_AGAP011537 (Anopheles gambiae, zanzara anofele del Gambia): codifica proteina MCG_01294 (Magnaporthe Grisae, un fungo): codifica proteina ipotetica (da accertare) NCU04730.1 (Neurospora crassa, altro fungo): codifica proteina ipotetica (da accertare)

*Malattie Non si hanno risultati significativi da OMIA, cioe' non appaiono in questo database studi circa disfunzioni genetiche in organismi che presentano geni con tale nome principale. Nondimeno, giocando questa famiglia di proteine un ruolo trascrizionale, un malfunzionamento determina quasi certamente aborto cellulare ed infatti controllando da FLYBASE la voce "Alleles & Phenotypes" si hanno varie entries (ricordiamo che un allele e' una versione modificata del gene, e che il fenotipo e' una caratteristica manifestata da un essere riconducibile ad una certa frazione del suo genotipo-patrimonio genetico). Troviamo quindi 27 alleli suddivisi in base al fenotipo che manifestano: letalita', sterilita', vario (es. immunodeficienza) e cellulare (es. cisti lipidiche intracellulari). E' inoltre possibile, per ogni allele, identificarne l' agente, se noto; nella lista occorre tra gli altri l' EMS (ethyl methanesulfonate), una sostanza molto usata in laboratorio che determina mutazioni casuali e puntuali mediante sostituzione di nucleotide, specie T->A.

*Struttura (da Gene/Structure) Non e' nota la precisa struttura 3D di AGO2/DM ma la proteina, in entrambe le isoforme, risulta presentare vari domini. Un dominio e' una sottosequenza/sottostruttura di aminoacidi indipendente dal resto della proteina. Un dominio e' a sua volta composto di vari motivi, strutture elementari non funzionalmente ma strutturalmente indipendenti. I domini conservati sono sostanzialmente tre: PAZ (Piwi-Argonaute-Zwille dai nomi delle famiglie di proteine dove lo si incontra): la funzione non e' appurata totalmente, ma nel nostro caso e' il sito cui si lega l' mRNA da silenziare

PIWI-ago_like: in due sottostrutture, una per legare il filamento siRNA/miRNA complementare all' mRNA da silenziare nell' altra sottostruttura di slice (active site).

dominio a funzione sconosciuta

Sono indicati anche i gruppi di appartenenza: PAZ superfamily, Piwi-like superfamily-Piwi (iso B). Cliccando su Summary sempre da Gene-mRNA and Proteins, si vede come questi sono mappati sulla stringa di query, che e' la proteina, e sono in questa evidenziate anche particolari aree funzionali associate ai domini.

La struttura e' percio' sufficientemente definita a partire da queste componenti citate, essendo buona parte di tutta la sequenza e determinando l' unica funzionalita' sospettata della proteina all' interno del complesso RISC (RNA-induced silencing complex). Cliccando su "Search for similar domain structures" si accede ad una lista di proteine affini alla nostra in termini di conservazione del dominio.

*Modifiche postraduzionali Non ho trovato riferimenti a specifiche modifiche della proteina AGO2 nel DM ma ragionevolmente avvengono (vedi EIF2C2)

EIF2C2 Nei mammiferi, AGO2 e' alias di EIF2C2 ed e' conosciuto con questo nome, che significa "eukaryotic translation initiation factor 2C 2". L' entry su GENE da indicazioni in questo senso, ma a partire dal nome e con una breve ricerca in rete si capisce che la proteina e' inquadrata nella piu' ampia serie di operazioni preliminari all' inizio di una traduzione ribosomale. *Da GENE appare presente nei seguenti organismi: 1. Homo sapiens 2. MUS MUSCULUS (non topo muscoloso ma topolino seguendo il diminutivo latino, e' il topo domestico)

3. Rattus Norvegicus

4. Oryctolagus cuniculus (coniglio selvatico europeo)

5. Pan troglodytes (scimpanze' comune)

6. Equus caballus (cavallo, anche qui per identificare la specie piu' comune si utilizzando due nomi latini che significano la stessa cosa)

7. Canis lupus familiaris (il Cane, es il mio bassottino Fred)

8. Xenopus laevis (rana con le zanne, presente in sudafrica)

9. Bos TAURUS (la mucca)

10. Xenopus tropicalis

* EIF2C2 GENE/UniGene (Homo sapiens) selected overview:

isoforme: 2 (1, 2) cDNA source (in pratica dove e' espresso): mista locazione genomica (cromosomi contenenti): 8q24

GenomeData[EIF2C2] (richiede connessione Internet) Quale genoma? Tutti gli organismi (aparte i gemelli identici ed i cloni) hanno un patrimonio genetico unico, e quindi mappare un genoma umano significa arrivare a codificare una serie di variazioni sul tema e combinarle, gene per gene in teoria. Grazie ad uno sforzo coordinato di vari soggetti, durato piu' d' un decennio, s'e' arrivati ad avere un genoma umano di riferimento: 24 cromosomi per 2.9

miliardi di basi, il 99% del dna contenente geni effettivi.

La localizzazione e' necessaria per discriminare tra geni dai nomi diversi che in realta' sono pero' la stessa cosa (es. geni paraloghi): GenomeData["EIF2C2","LocusString"]->8q24 con questa proprieta' abbiamo la stringa che codifica dove si trovi il gene nel genoma, sono della forma xy|w1w2.w3 dove x=<1,...,21>U<X,Y>, rappresenta il cromosoma y=<p,q>, petite o q, il braccio del cromsosoma (infatti e' diviso in due parti dal nodo centromero) w1=banda, w2: sezione, w3: sottobanda: individuano la posizione nel braccio, sul quale al microscopio si vedono bande su un paio di colori, numerate da 1 a partire dal centromero Non e' purtroppo possibile una query con piu' proprieta' GenomeData["EIF2C2","LocusList"]->{{{8,-1,24}}} Ricordiamo che in noi umani si hanno in tutto 46 cromosomi, 22 coppie di cromosomi detti autosomi ed una di cromosomi sessuali: i primi danno la sostanza del patrimonio genetico mentre i secondi i fenotipi caratteristici del sesso maschile o femminile.

GenomeData["EIF2C2","IntronSequences"] (quel che finisce in mrna ed e' spazzatura del gene) GenomeData["EIF2C2","ExonSequences"] (quel che finisce in mrna ed e' tradotto, aparte le UTR, il cappello e la coda) Esempio: percentuale basi strettamente inutilizzate a=GenomeData["EIF2C2","ExonSequences"] b=GenomeData["EIF2C2","IntronSequences"] c=StringJoin[b] (*uniamo le sequenze introniche in un' unica*) d=GenomeData["EIF2C2","SequenceLength"] (*bp(EIF2C2)*) e=StringLength[c] (*bp(c)*) N[e/d]->0.966479 Quasi tutte le basi sono inutilizzate, non male in termini di ridondanza! Quindi 1-0.966479=0.033521 e' la percentuale di DNA presente nell' mRNA maturo. Il dato e' leggermente al di sotto della media di junk dna per il genoma umano, che e' stimata al 98%

L' entropia di una stringa e' informalmente una misura di quanto sia informativa e quindi interessante (ad esempio, la coda poly-a non lo e' per nulla, mentre ACGT lo e' al massimo): GenomeData["EIF2C2"] N[Entropy[%]] (*% si riferisce all' ultimo output emesso*) Il risultato e' 1.38407

*Analisi del gene: Il gene EIF2C2 dell' uomo e' composto da 104382 basi e la sua locazione e' nel cromosoma 8. EPD entry: assente (e' presente invece un fattore della stessa famiglia, il 2b)

*Analisi delle isoforme

Compiamo le stesse operazioni portate per la AGO2: NeedlemanWunschSimilarity[i1,i2,GapPenalty->-2]->6830 StringLength[i1]->3466 StringLength[i2]->3570 EditDistance[i1,i2]->136 NeedlemanWunschSimilarity[P1,P2,GapPenalty->-2]->1639 StringLength[P1]->836 StringLength[P2]->871 EditDistance[P1,P2]->37

*Conservazione (Homologene) Il discorso di conservazione e' ovviamente lo stesso fatto sopra. Risultano per EIF2C2/HS molti omologhi putativi: EIF2C2 (Pan troglodytes, scimpanze' comune/robusto): codifica proteina EIF2C2 (Canis lupus familiaris): codifica proteina EIF2C2 (Bos Taurus): codifica proteina EIF2C2 (MUS MUSCULUS): codifica proteina EIF2C2 (Rattus Norvegicus): codifica proteina LOC570360 (Danio Rerio, pesce zebra): codifica proteina AGO1/2 (DM): codifica proteina simile ad AGO1/2 AgaP_AGAP011537 (Anopheles gambiae, zanzara anofele del Gambia): codifica proteina simile ad AGO2 alg1/alg2 (Caenorhabditis elegans, un nematode fasmidario, ossia un verme cilindrico con fasmidi che sono particolari chemio-recettori, organismo modello): codifica proteina AGO2 alg-like AGO1 (Arabidopsis thaliana). codifica proteina Os02g0672200 (Oryza sativa, riso): codifica proteina ipotetica/da accertare

*Malattie Su OMIM controlliamo i risultati per dbSNP, ossia le entries per le malattie determinate da alleli memorizzati nel database SNP (Single Nucleotide Polymorphism). Troviamo cancro alle ovarie, melanoma cutaneo maligno e cancro al seno. Considerando ad esempio la prima, scopriamo che, come prevedibile, puo' essere determinata da un numero di altri geni allelici tra cui: OPCML, una proteina che si lega agli alcaloidi oppiacei (es. morfina). PIK3CA che codifica la proteina p110alfa, sottounita' catalitica nella famiglia di enzimi chinasi PI3, responsabile tra le altre di crescita, proliferazione e differenziazione cellulare. AKT1 che codifica la proteina chinasi tp, una sostanza ad attivita' regolatrice regolabile Le referenze agli articoli principali possono essere trovate dalla sezione GENERif delle rispettive entries su Gene. Facciamo caso al fatto che le proteine interessate in scenari tumorali sono spesso quelle che giocano ruoli regolativi nella cellula e questo significa in pratica ruoli trascrizionali, come e' logico aspettarsi. E' presente l' indicazione di un luogo di suscettibilita' alla malattia: informalmente, si tratta di una porzione del genoma nella quale si potrebbe avere dna a codificare un gene soppressore del tumore. L' isolamento di simili porzioni e' effettuato valutando con indicatori opportuni, in laboratorio, aree di

genoma di pazienti malati e sani dello stesso gruppo familiare se possibile, incrociando i dati. Segue una breve descrizione del manifestarsi del cancro: l' area interessata e' quella della cavita' peritoneale, quindi l' interno dell' addome, con rare metastasi viscerali. La variante piu' comune e' l' epiteliale, ossia sviluppantesi sulla parete dell' ovaio che e' di forma epiteliale cuboidale in termini di cellule. Sono anche indicate le forme (varienti istologiche). Il paragrafo "Inheritance" si sofferma sull' indicare la malattia come ereditaria o meno. E' presentata una rassegna di casi familiari presenti in letteratura. La citogenetica e' lo studio della struttura e della funzione cellulare, ed ovviamente un tumore altera il corretto funzionamento della cellula, e quindi dell' organo, per via di anormalita' strutturali. Si presenta il fatto che il tessuto presenta una densita' cellulare troppo alta, ossia il ciclo vitale delle cellule tumorali e' breve e crescono oltremodo di numero, e che le cellule tendono ad aumentare il numero di cromosomi con il procedere della malattia (poliploidi). Nella sezione "Mapping" sono analizzati quei segmenti (loci) cromosomici cui forma/alterazione pare avere un ruolo nel determinarsi o meno della patologia. Troviamo risultati circa l' incidenza di mutazioni sia nella linea somatica sia nella germinale. Tutte le cellule sono suddivise tra quelle che prendono parte al processo di trasmissione del patrimonio genetico durante la riproduzione, nella successione di passi detta linea germinale, e quelle che non hanno tale ruolo, somatiche. Chiudono l' analisi risultati circa geni che incontrano espressione inusuale durante la malattia (patogenesi) e modelli animali della malattia, cioe' risultati in termini di induzione del male su specie modello per studiare la malattia e possibili rimedi su altri organismi differenti ma non troppo da noi (es. cavie), cosicche' possibili scoperte su questi possano essere in qualche modo portate all' ambiente uomo per quanto possibile. Segue lista riferimenti.

*Struttura (da Gene/Structure) I domini presenti sono gli stessi ma il PAZ e' mostrato appartenere ad una sottofamiglia detta argonaute-like, ed anche per i i siti di interazione c'e' sostanziale corrispondenza, perche' il ruolo biologico delle due proteine e' piu' che simile.

*Modifiche postraduzionali Una volta sintetizzata la proteina, essa puo' essere ulteriormente modificata, ed una modifica molto comune e' la fosforilazione ossia l' aggiunta del gruppo PO4, operazione catalizzata da enzimi detti

chinasi e che interessa solo un numero basso di residui (es. serina, treonina). In accordo al principio per il quale "i controllori devono essere controllati", anche la proteina EIF2C2 subisce fosforilazione ed e' cosi' indirizzata dove serve al momento (vedi qui)