Sei sulla pagina 1di 4

Continuo bioinformatica Ritorniamo sul discorso della traduzione.

Esercizio:la sequenza data era A G T T A A C e bisogna tradurla utilizzando il codice genetico,quindi,quale il primo frame? A G T T A A C,il primo codone del primo frame A G T e corrisponde alla serina;il secondo codone A G T T A A C, T A A e corrisponde a uno stop;il terzo codone non c poich resta A G T T A A C;qual il primo codone del secondo frame? A G T T A A C, G T T e corrisponde a una valina,il secondo codone del secondo frame A G T T A A C , A A C e corrisponde allasparagina.Continuando cosi per il terzo frame avremo leucina e A C ma la valina e la treonina possono essere coniugati ad A C qualsiasi sia lultimo nucleotide.Adesso mi serve la sequenza complementare alla sequenza data ma qual ?

G T T A A C T e quali sono gli aminoacidi del primo frame della sequenza complementare?valina e a asparagina;quali quelli del secondo frame? Leucina e tronina;e quelli del terzo frame?uno stop e una leucina.Il secondo problema da affrontare andare a cercare il programma che ci faccia affrontare questo mestiere. Noi apriamo internet e prendiamo un tool(slide numero 26 file corso) per fare la traduzione di DNA o di RNA perch chi risolve queste cose con il coomputer da per scontato che le sa fare sia sulluna che su unaltra cosa e tutto soltanto una questione di scelta dellalfabeto.Scegliamo il nostro tratto di DNA o di RNA e lo inseriamo nel box e dobbiamo capire dove far partire il comando per fare lanalisi.Alcuni programmi permettono di avere la stessa risposta con opzioni differenti e in questo caso abbiamo opzioni di output per avere la stessa risposta(come una windows o una percentuale) con formati di visualizzazione distinti;e questo importante perch quando saremo soli a fare il lavoro da biologi e si chieder di fare un tool dobbiamo sapere che ci sono dei programmi che non solo rispondono alla domanda ma ci rispondono nel modo che ci aggrata di pi.(esempio:complement e reverse complement affrontato precedentemente). Questi sono 3 tipi di output che possiamo selezionare (slide 26,I),potrei fare un output format con : -VERBOSE che vuol dire piccolissimo e ci dice tante cose e ci dice anche che vuol dire verbose.Verbos vuol dire che ci da met,stop e metti spazi tra i residui. -COMPATTO dove mette M,no spaces,- -INCLUDE SEQUENZE NUCLEOTIDICHE. Per primo uso loutput che include la sequenza nucleotidica perch ci fa vedere meglio la risposta e per vedere bene la corrispondenza tra vari codoni dei singoli aminoacidi.Questo(slide 26 II) loutput che include una sequenza nucleotidica allineata con una sequenza aminoacidica ottenuta con la traduzione. interessante notare che quando si passa da un frame allaltro la lettere dellaminoacido scritta sul secondo nucleotide del secondo codone e dunque viene centralizzato.Quello che dobbiamo analizzare se la sequenza corretta e se corretta la complementare ,inoltre gli aminoacidi vengono rappresentati con il codice a una lettera,di quasi tutti gli aminoacidi si capisce gi qual la lettera ma di 4 dobbiamo ricordare a memoria.Nel caso dei codoni di stop ci pu essere il trattino e la M indica la metionina e tutti gli altri amonoacidi sono indicati da una sola lettera e ogni lettera scritta in maniera compatta,ossia,abbiamo un codice con una sola lettera.Poi dobbiamo vedere come il programma chiama le diverse cornici di lettura,nel caso dellesempio delle slide abbiamo frame 1,2 o 3 ma alla prof non piace la nomenclatura del complementare poich dice 35 frame 1 e visto che il 35 non ce lo danno mai a noi risulta strano .Allora,andiamo a vedere se il programma sa fare bene la traduzione sul complementare e notiamo che fatta bene lerrore il fatto che non bisogna scrivere 35 ma 53 e nel caso in cui non c scritto niente dobbiamo SEMPRE sottintendere che si tratta di 53.Quindi,quando abbiamo la parte complementare (nelle slide) e vediamo che c scritto 35 a noi non deve piacere perch sappiamo bene che tutto quello che vediamo sempre 53.Il programmatore ha deciso di scegliere una complementare 35 in maniera sbagliata ma ha voluto solo dire:guarda che io sto lavorando sullaltro filamento. Gli altri tipi di output(detti sopra) danno lo stesso tipo di risposta,scelgo un output compact e abbiamo solo la risposta aminoacidica dove M corrisponde alla metionina e gli stop sono rappresentati da un trattino;loutput verbose lascia degli spazi tra gli aminoacidi e poi scrive met quando vede la metionina e stop quando vede gli stop ma perch?per evidenziarci dove inizia la sequenza perch la metionina lo stop ci sono utili quando vogliamo interpretare i risultati della traduzione.Alcuni programmi sono scritti in maniera soggettiva e se ci mettevamo la U in imput ci dava un errore perch era scritto per prendersi la T e a causa di questo motivo questi programmi leggono,ad esempio,la 4 frame al posto della 3 (insomma,inverte le sequenze).

Come una analisi di traduzione pu essere effettuata dal biologo per interpretare suoi risultati:il coomputer si comporta come una macchina stupida e prende una sequenza e traduce tutti i frame possibili poi sta a noi interpretare i dati e della sequenza noi non sappiamo quale sar la met iniziale o la stop finale .Cosa fa il biologo?se si ha una sequenza di cui non si sa niente la prima cosa ch pu fare fare lanalisi composizionale in particolare si pu fare lanalisi traduzionale e,ad esempio,sta cercando lm RNA di una sequenza di topo che ha la mioglobina e cosa si fa?si sequenzia questo frammento e si inizia a fare una dela prime analisi e poi si fa la traduzione e traduciamo in quale frame?in tutti e sei perch non sappiamo il frammento da quale nucleotide parte ,il frammento di un m RNA potrebbe partire da un lato,al centro,alla fine ecc,un frammento un frammento e non sappiamo bene cosa si combinato in laboratorio,anzi,il nostro frammento potrebbe essere anche un vettore e questi problemi sorgono spersso.Abbiamo il frammento di sequenza e dobbiamo capire se stiamo prendendo cantonate o siamo sulla buona strada allora traduciamo e ci aspettiamo che su un frame ci deve essere almeno una metionina e almeno uno stopo e quello che stiamo cercando nellanalisi che ci sia almeno un frame in cui lo stopo sia quasi alla fine della sequenza e una metionina abbastanza lontana,stiamo cercando una ORF(open reading frame) ossia una cornice di lettura aperta;andiamo a cercare la cornice di lettura aperta ossia quella dove c un minore numero di stop perch se ci sono molti stop vuol dire che nella sequenza non c un peptide codificato,poi la speranza di trovare a metionina iniziale e possiamo non trovarla(ma troviamo lo stop)perch la sequenza parziale,o possiamo trovare la metionina ma interna.Ma allora come si ragiona?nella prima risposta (immagine slide) c una cornice di lettura aperta?SI in quanto non ci sono stop,anche se potrei trovare almeno il codone finale, non ci sono interruzioni ma potrebbe essere un pezzetto di m RNA che codifica;nella seconda risposta abbiamo la stessa cosa in quanto non ho stop;la terza risposta lo stesso;nel primo frame della complementare,invece,non abbiamo una regione che codifica per un peptide poich continuamente interrotto da stop e anche se lo stop si introdotto da un errore di sequenziamento la probabilit di avere UN ERRORE DI SEQUENZIAMENTO CHE DIA UNO STOP 3 SU 64 ,E QUINDI BASSA;il frame due potrebbe essere la fine della regione che codifica la proteina sul nostro m RNA in quanto abbiamo un solo stop;e la stessa cosa abbiamo per il frame 3.Per so che la mioglobina del topo conservata come quella delluomo e se conosco la sequenza della mioglobina delluomo e andiamo a vedere se qualche frammento peptidico corrisponde a un tratto di proteina nota e a parte qualche cambiamento aminoacidico dovremmo trovarci;oppure,facciamo unaltra ipotesi se questo frammento una parte di C dna e se codifica per la mioglobina andiamo in una banca dati cerchiamo la sequenza della mioglobina di topo nota e il frammento su frame 3 somiglia allm RNA(abbiamo trovato lm RNA che ci interessa).Possiamo,ancora,prendere la sequena nucleotidica e confrontarla con le sequenze nucleotidiche presenti in banca dati e vedere se la sequena somiglia a un vettore o a qualche altra cosa. La bioinformatica con uno e due step ci permette di stabilire quasi sempre con che cosa abbiamo a che fare di quello che stato prodotto in laboratorio perch ci velocizza molto lanalisi. Perch il compact utile?perch se ho queste sequenze e decido di analizzare la prima,la seleziono e la incollo ma devo stare attenta a togliere la M e la T del met altrimenti mi legger anche la metionina,glutammica e tronina in pi e quella E e T in pi verrebbero considerate come lettere di aminoacidi. Alcuni programmi traducono con vari codici genetici anche se il codice genetico universale unico per ci sono alcuni organismi che usano variazione(anche mitocondri e cloroplasti quando vengono tradotte le proteine hanno un data set di rna differenti associati a dei codoni differenti e il codice,allora,non esattamente quello universale).Questo programma ci permette di analizzare ..e supponiamo che nella sequenza nucleotidica che abbiamo la open reading frame con il peptide che ci interessa che codificato da una posizione a un'altra su un frame 5,selezioniamo il 5 frame(oppure il secndo della complementare) e dalla posizione x alla y mi aspetto di trovare una sequena dalla metionina al suo stop.Un altro programma utilizza grafica colorate e ci da una sintesi di dove stanno le potenziali cornici di lettura ossia fa la visualizzazione del dato prima di noi e ci dice che ci sono due orf su un filamento uno che parte dalla prima metionina e uno che parte da unaltra e non sappiamo dove la proteina effettivamente inizia la sua sintesi perch essendoci due AUG entrambi possono essere usati come start codon(codone di inizio della traduzione).Siamo sempre a livello interpretativo,non abbiamo una risposta assoluta potremmo avere una sequenza e cercare il frammento di kozak negli eucarioti o la schine dalgarno nei procarioti. Se mettiamo il nucleotide dellalfabeto esteso come una X o una R e molti programmi non lo sanno interpretare perch il programma richiede di fare entrambi i casi ossia il caso in cui la Y uguale a C o TPIRIMIDINE (se abbiamo A Y G la traduzione la dovremmo fare considerando al posto della Y sia C o T e avremo sia A C G o A T G).I programmi o lo saltano oppure viene X e ci fa capire che c lamminoacido ma non sa quale ,se addirittura lo elimina commette un errore gravissimo in quanto un errore di frame schift e quel programma deve essere eliminato perch se togli un nuclotide che continua a tradurre ci ha ribaltato la proteina.Poi c un altro caso in cui in cui ci traduce anche sec maggiore o minore sec in quanto sec interpretava serina,glutammico e treonina.Quindi,in questo caso ci fa anche un guaio perch il programma deve essere estato correttamente.Noi siamo abituati a vedere il codice genetico come nellimmagine posta sopra per pu essere rappresentato in altre format: (nel codice genetico

non fanno altro che associare il codice genetico a una tripletta per i diversi format possono essere utili per evidenziare caratteristiche diverse delle informazioni che abbiamo) 20 Amino Acids Table Symbol 3-letter Meaning Codons IUB Depiction ------ -------- ------- ------ ------------A Ala Alanine GCT,GCC,GCA,GCG !GCX B Asp,Asn Aspartic, Asparagine GAT,GAC,AAT,AAC !RAY C Cys Cysteine TGT,TGC !TGY D Asp Aspartic GAT,GAC !GAY E Glu Glutamic GAA,GAG !GAR F Phe Phenylalanine TTT,TTC !TTY G Gly Glycine GGT,GGC,GGA,GGG !GGX H His Histidine CAT,CAC !CAY I Ile Isoleucine ATT,ATC,ATA !ATH K Lys Lysine AAA,AAG !AAR L Leu Leucine TTG,TTA,CTT,CTC,CTA,CTG !TTR,CTX,YTR;YTX M Met Methionine ATG !ATG N Asn Asparagine AAT,AAC !AAY P Pro Proline CCT,CCC,CCA,CCG !CCX Q Gln Glutamine CAA,CAG !CAR R Arg Arginine CGT,CGC,CGA,CGG,AGA,AGG !CGX,AGR,MGR;MGX S Ser Serine TCT,TCC,TCA,TCG,AGT,AGC !TCX,AGY;WSX T Thr Threonine ACT,ACC,ACA,ACG !ACX V Val Valine GTT,GTC,GTA,GTG !GTX W Trp Tryptophan TGG !TGG X Xxx Unknown !XXX Y Tyr Tyrosine TAT, TAC !TAY Z Glu,Gln Glutamic, Glutamine GAA,GAG,CAA,CAG !SAR * End Terminator TAA, TAG, TGA !TAR,T Questo meno comodo(se lo andate a vedere nelle slide fatto meglio solo per farvi capire di quale sta parlando)perch abbiamo nella prima colonna le lettere con il format a una lettera per gli aminoacidi,nella seconda colonna il codice a tre lettere e,nella terza il significato per esteso e nella quarta il codone.Quindi,mentre non ci aiuta molto per fare la traduzione velocemente ci aiuta perch ci evidenzia che il numero di codoni per aminoacido variabile.E ci evidenzia che molti aminoacidi del codice genetico hanno pi codoni che codificano perch il codice viene definito degenerato ossia ad un aminoacido possono corrispondere pi codoni ma a ogni codone corrisponde un solo aminoacido.I codoni che codificano per uno stesso aminoacido si dicono SINONIMI quelli che codificano per aminoacidi diversi sono NON SINONIMI .Esistono varie categorie allinterno degli aminoacidi sempre a seconda del numero di codoni che hanno(sempre metionina(ATG) e triptofano(TGG) hanno un solo codone,e sono gli unici due che nel codice genetico universale hanno un solo codone,poi,gli altri codici potrebbero avere varianti;poi ci sono quelli che ne hanno due di codoni e sono cisteina aspartico, glutammico ecc,quelli che ne hanno tre ed la lisoleucina e gli stop e poi ci sono quelli che ne hanno quattro e poi quelli che ne hanno sei)in base a questo numero di codoni possiamo definire gli aminoacidi li possiamo considerare come duetti,quartetti,sestetti.

COSA UN QUARTETTO/SESTETTO?UN AMINOACIDO CHE HA 4/6 CODONI SINONIMI.Questa non una cosa banale da sapere e basta ricordarsi che per i quartetti solo la terza base che cambia e insomma sono quelli veramente degenerati(qualsiasi nucleotide in terza base di un aminoacido determinato dalle prime due posizioni)e i sestetti tipo la leucina che pu avere C T su qualsiasi nucleotide alla fine oppure T T e una G o una A alla fine;questi due tipi di codoni identificano la leucina e un altro modo per rappresentare in maniera succinta questa informazione sfruttando lalfabeto esteso (vedere slide) raccontare come fatta,ad esempio,la leucina,come fatto il doppietto cisteina e quindi saper svillupare quali codono sono specifici per ciascun aminoacido. Sfruttando il fatto che i codoni usati da ogni aminoacidi possono essere pi di uno si scoperto che non sempre detto che in un organismo,ad esempio,un quartetto usi in maniera random(con la stessa frequenza)tutti e quattro i codoni.Questa cosa si scoperta con il sequenziamento di RNA da cui si ricavato quali codoni corrispondono ai singoli aminoacidi e si pu anche risalire alla frequenza di uso dei singoli codoni per aminoacido.La scelta dei codoni sinonimi detto CODON USAGE e pu essere stimato ottenedo tutte le regioni che codificano le purine e andando a stimare quali sono i codoni che si usano per un aminoacido.Come si fa?se immagino di prendere tutte le possibili regioni che codificano per la proteina che ho dir che si chiamano CDS (regioni che codificano sequenze proteiche e stiamo parlando esattamente della regione che va ad AUG a uno stop).Immaginiamo di poter collezzionare tutte le cds umane e immaginiamo di fare questo tipo di calcolo:prendo le sequenze,conto i codoni e vedo quante volte in ogni sequenza ho i codoni AUG,ossia quante volte ho tutti e 61 codoni perch gli altri tre sono di stop.Possiamo sapere facendo questo procedimento anche quante volte viene usato quellaminoacido perch se io conto quante TGG ho e per il TGG lunico che codifica il triptofano sappiamo quante volte usato il triptofano,ma se sto contando i 4 codoni dellalanina e li sommo sto vedendo quante volte ho lalanina in tutte le sequenze che analizzo. (SLIDE)In questo database ho la collezione di tutti i codoni usati per le proteine di una serie di organismi e posso scegliere in ordine alfabetico il codon usage che mi interessa (lesempio della slide Homo sapiens) e che succede quando faccio questa analisi?

RIPETIZIONE:in questo database ho lelenco di cds umane e ce ne sono 70021 (ossia sequenze umane che codificano per proteine) per un totale di 29996437 di codoni.In questo database,alla fine,ci sono tutte le regioni codificanti umane precisamente ci sono tutti i codoni di quelle regioni codificanti proteine e trascrittati tramite codice genetico. Quando faccio la ricerca per lhomo sapiens ottengo una tabella che proprio il codone usage dellhomo sapiens. Cosa c scritto nella tabella?in ogni posizione elenca il codone(tripletta) ,una frequenza per migliaia e il numero di codoni totali.Se volessi fare il calcolo,guarderei il numero di codoni totali:ESEMPIO per il CCU (CCN prolina e allora CCU uno dei codoni per la prolina)HO PRECISAMENTE 521429,il programma mi da anche la frequenza riportata in migliaia e come si ricava?si ricava in questo modo:dividendo 521429 per il numero totale dei codoni X 1000. In questo caso : 521429 /29996437 X 1000.

Che ce ne facciamo?se voglio capire quale dei quattro codoni per la proteina che abbiamo chiamato CCX pi usato e mi permette di stimare il codon usage in un organismo. Perch importante conoscere il codon usage?se vogliamo amplificare m RNA per la mioglobina del topo ,usiamo la bionformatica e troviamo la mioglobina di topo che,se siamo fortunati,troviamo nella banca dati.Data la frequenza proteica ci serve quella nucleotidica poich su quella nucleotidica dobbiamo segnare i primer e come facciamo?o andiamo in banca dati e troviamo la sequenza nucleotidica del topo oppure,se stiamo lavorando con un organismo poco conosciuto,abbiamo la sequenza proteica e vogliamo trovare a ipotizzare quale la sequenza nucleotidica;partendo dalla nucleotidica sappiamo passare alla proteica tramite la traduzione ma per passare dallaproteica alla nucleotidica incappiamo nel problema che a un aminoacido possono corrispondere pi codoni.Ma se sappiamo che uno dei 4 codoni uno molto pi utilizzato potremmo forzare loperazione di traduzione allindietro.Questa operazione di passaggio dalla proteina alla sequenza nucleotidica detta BACK TRASLATION che ovviamente ambigua perch se troviamo prolina devo mettere CCX devo mettere tutti e 4 i codoni ma se so che dei 4 uno quello pi usato posso anche trattare lipotesi usando quello pi usato.Il codone ugase importante perch grazie a esso alcuni organismi utilizzano alcuni codoni per le sequenze che devono essere tradotte rapidamente e altri per le sequenze che devono essere tradotte con minore velocit,cio come se lorganismo selezzionasse su certe sequenze che devono uscire fuori velocemente dalla sintesi proteica i codoni pi frequenti e quelli meno frequenti li riserva alle sequenze nucleotidiche che possono uscire fuori lentamente.Si anche visto che allinterno di una sequenza nucleotidica ci sono codoni pi usati per un aminoacido e che con il rallentarsi della sintesi ci siano dei codoni pi rari.Se scelgo un codone meno frequente tra i t RNA la sintesi proteica rallenta e questa lidea.Il codon usage una cosa comoda anche per il laboratorio per la scelta che un organismo fa che riflette la sua composizione media del t RNA;il codon usage anche influenzato dalla composizione media di un genoma di un organismo,ossia se abbiamo un organismo che ha CG medio per lintero genoma basso(con poche GC) mi aspetter che i codoni per GC siano meno frequenti.