Sei sulla pagina 1di 21

Manuscrito para captulo do Biowork IV

Bioinformtica aplicada Genmica


Fabrcio R. Santos1 e Jos Miguel Ortega2

1 Departamento de Biologia Geral e 2 Departamento de Bioqumica e Imunologia da Universidade Federal de Minas Gerais, Belo Horizonte, Minas Gerais, Brasil.

Autor para correspondncia: Prof. Fabrcio R. Santos Departamento de Biologia Geral, ICB, UFMG, Av. Antnio Carlos 6627, CP 486 31270-010, Belo Horizonte, MG, Brasil. Tel: +55 31 3499-2581. Fax: +55 31 3499-2570 e-mail: fsantos@mono.icb.ufmg.br

Introduo

Com o incio do Projeto Genoma Humano em 1990 e subseqente disponibilizao de seqenciadores automticos de DNA capazes de gerar dados genmicos em grande escala, os bancos de dados e ferramentas de anlise tiveram de se adaptar a este volume crescente de informaes. Seqncias de nucleotdios so adicionadas aos bancos de dados (como o GenBank) na ordem de milhares de pares de bases (pb) por segundo todos os dias. Nos servios de bioinformtica de projetos genoma, essas inmeras seqncias individuais, cada uma portando geralmente entre 400 a 1000 pb, devem ser montadas em seqncias cada vez maiores, os contigs, atravs de ferramentas que avaliam a qualidade das seqncias individuais e a superposio destas, para que finalmente sejam disponibilizados segmentos cromossmicos inteiros de alta qualidade. Para a cobertura total de um genoma com boa qualidade estima-se que este deva ser seqenciado ao equivalente a dez vezes seu tamanho em pares de bases. O dito "rascunho de trabalho" do genoma humano contm cerca de 20% da informao assim tratada e o restante com uma cobertura de cinco vezes, o que inclusive demandou um esforo bioinformtico ainda maior para sua montagem. Espera-se para 2003 o mapa completo de alta qualidade com 24 segmentos de cada tipo de cromossomo humano (1-22, X e Y). No mapa fsico de seqncias, as diferentes regies devem ser interpretadas com respeito sua funo, atravs de um processo denominado anotao genmica. A homologia existente entre genes presentes em diversos organismos utilizada na anotao de funo; assim um gene caracterizado numa levedura pode ajudar na identificao funcional do gene com a mesma funo - denominado ortlogo, no homem, por exemplo. Vrios algoritmos distintos foram desenvolvidos para facilitar o processo de anotao nas suas vrias etapas. Neste processo so identificados os vrios tipos de seqncias repetitivas (transposons, micro e minissatlites, etc.), seqncias estruturais (centrmeros, telmeros, heterocromatina, satlites, etc.), seqncias regulatrias (promotores, enhancers, etc.) e regies transcritas que correspondem aos genes de cada organismo. Vale a pena notar que a presena dos ntrons nos organismos que os contm , como no homem, dificultam em muito a anotao do genoma, sendo nestes casos muito importante a existncia de

projetos de seqenciamento do transcriptoma. Este pode ser definido como o conjunto de seqncias expressas de um genoma na forma de mRNA, que pode ser seqenciado a partir de bibliotecas de cDNAs preparadas com o auxlio da enzima transcriptase reversa que converte RNA em DNA. Diferentemente do seqenciamento do genoma, a anlise do transcriptoma exige a investigao de vrias clulas e tecidos diferentes, bem como de distintos estgios do desenvolvimento, para que se detecte o maior nmero possvel de genes. Com essas seqncias em mos, facilitada a procura de genes no DNA genmico, proporcionando tambm a correta identificao dos ntrons. Dados biolgicos advindos do conhecimento genmico so relativamente complexos em comparao aos provenientes de outras reas cientficas, dada a sua diversidade e ao seu inter-relacionamento (figura 1). A partir do conhecimento fundamental do genoma objetiva-se compreender o conjunto de peas que atuam no funcionamento complexo de todo o organismo. Porm, no momento, isso somente possvel por partes. Busca-se entender as estruturas moleculares das protenas, as interaes entre vrias protenas, bem como destas com as demais molculas biolgicas (DNA, carboidratos, lipdios, etc), as diversas vias metablicas celulares e o papel da variabilidade gentica representada pelas vrias formas de cada protena. Toda essa informao disponibilizada pela cincia genmica (figura 1) s possvel de ser organizada, analisada e interpretada com o apoio da informtica. Um novo projeto ambicioso denominado Genomes to life foi recentemente lanado pelo Departamento de Energia dos EUA (o mesmo que lanou a idia do Projeto Genoma, em 1987) e objetiva chegar a uma compreenso fundamental e sistemtica sobre a vida, atravs dos genomas que esto sendo descritos. Uma das idias deste mega-projeto reconstituir in-silico (no computador) o funcionamento de um microorganismo com todas suas funes biolgicas.

Polimorfismo variantes genticas na populao

bilhes

bilhes

Interaes Protena-Protena metabolismo Estrutura 4a

Expresso gnica nas clulas e tecidos Desenvolvimento de tecidos e rgos Novas abordagens genmicas em: Biologia Celular Bioqumica, Ecologia, Embriologia, Endocrinologia, Farmacologia, Fisiologia, Imunologia, Patologia, Neurobiologia, etc.

milhes

Protenas Estrutura 3a Estrutura 2a

MPMILGYWDIRGLAHAIRLLLEYTDSSYEEKKYT... milhares
Sequncias primrias de aminocidos nas protenas

...atcgaattccaggcgtcacattctcaattca... bilhes
Sequncias de DNA

Ex: Farmacogenmica desenvolvimento de novos medicamentos especficos para cada indivduo e doena, local de ao restrito s regies afetadas e sem efeitos colaterais.

Genoma Figura 1 Acmulo de dados biolgicos (A) e aplicaes do conhecimento genmico (B). Atualmente a bioinformtica imprescindvel para a manipulao dos dados biolgicos. Ela pode ser definida como uma modalidade que abrange todos os aspectos de aquisio, processamento, armazenamento, distribuio, anlise e interpretao da informao biolgica. Atravs da combinao de procedimentos e tcnicas da matemtica, estatstica e cincia da computao so elaboradas vrias ferramentas que nos auxiliam a compreender o significado biolgico representado nos dados genmicos. Alm disso, atravs da criao de bancos de dados com as informaes j processadas, acelera a investigao em outras reas como a medicina, a biotecnologia, a agronomia, etc (Borm e Santos, 2001).

Bancos de dados Genmicos


Devido a essa imensa quantidade de dados gerados em inmeros laboratrios de todo o mundo, faz-se necessrio organiz-los de maneira acessvel, de modo a evitar

redundncia na pesquisa cientfica e possibilitar a anlise por um maior nmero possvel de cientistas. A construo de bancos de dados para armazenamento de informaes de seqncias de DNA e genomas inteiros, protenas e suas estruturas tridimensionais, bem como vrios outros produtos da era genmica, tem sido um grande desafio, mas simultaneamente extremamente importante. O NCBI, ou Centro Nacional para Informao Biotecnolgica dos EUA, considerado o banco de dados central sobre informaes genmicas. Vrios outros bancos de dados similares esto distribudos por pases da Europa e Japo, mas todos trocam dados em um intervalo de 24 horas com o NCBI. O GenBank o principal banco de dados do NCBI e armazena todas seqncias disponveis publicamente de DNA (de seqncias pequenas a genomas inteiros), RNA e protenas. Alm do GenBank, que coleta todas as entradas de seqncias, outros bancos do NCBI apresentam as informaes organizadas de diferentes maneiras. Por exemplo, o UniGene agrupa todas as seqncias parciais do transcriptoma de um organismo em aglomerados ou clusters, onde cada aglomerado representa a seqncia consenso de um gene. Tambm no NCBI, o banco de dados RefSeq rene somente as seqncias de referncia, ou seja, a mais representativa seqncia de um transcrito, editada e inspecionada por um curador. , freqentemente, o melhor banco de dados para se evitar a redundncia natural num universo com tantas informaes. Para acesso ao RefSeq e outros bancos de seqncias curadas foi desenvolvida a ferramenta LocusLink no NCBI. Outros bancos so especficos de um organismo, tal como o OMIM (Online Mendelian Inheritance in Man) que foi criado para catalogar todos genes e alelos relacionados a doenas e outras caractersticas humanas, bem como proporcionar um detalhamento tcnico e bibliografia referente a cada caracterstica. A existncia destes bancos de dados, ditos secundrios, tm sido to importante quanto preservar os dados originais no GenBank. Vrias ferramentas desenvolvidas pela bioinformtica permitem o acesso e anlise dos dados no GenBank. A ferramenta mais popular de comparao de seqncias de DNA com os bancos de dados genmicos o BLAST ou Basic Local Alignment Search Tool. Atravs deste algoritmo podemos comparar uma seqncia de DNA ou protena (Query) qualquer com todas seqncias genmicas de domnio pblico. importante notar que o

programa BLAST no procura conduzir uma comparao da extenso total das molculas comparadas, mas apenas identificar, no banco de dados, a presena de uma seqncia suficientemente parecida com a pesquisada. Descarta, assim, rapidamente, os resultados no produtivos e estende a vizinhana da regio de homologia detectada at no mais conseguir. O resultado desta busca, que feita no GenBank ou em vrias de suas subdivises (pode-se facilmente limitar a pesquisa a seqncias de um dado organismo, por exemplo), retorna aquelas seqncias (DNA ou protenas) depositadas (Subject) com maior homologia. Desta forma vrias regies de DNA podem ser anotadas atravs do BLAST, cujo resultado pode servir para atribuir uma funo a qualquer segmento de DNA que apresenta homologia significativa a outras seqncias de DNA ou protenas previamente depositadas no GenBank com funo conhecida experimentalmente (figura 2). interessante verificar que se utilizssemos um nucleotdio, "A" por exemplo, para pesquisar seqncias humanas, a chance de encontrarmos uma regio homloga seria igual a 1 (100%). Se a nossa seqncia pesquisada fosse mais complexa, 144 bases por exemplo, a chance de encontrarmos uma seqncia perfeitamente idntica seria pequena. O valor de "E" , um parmetro calculado pelo BLAST, expressa essa dificuldade e, quanto menor seu valor, menor a chance de tal comparao ter sido encontrada por pura coincidncia.

Alignments >gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495 Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%) Query: 1 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206 Query: 61 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266 Query: 121 gggggccctggtgcaggcagcctg 144 |||||||||||||||||||||||| Sbjct: 267 gggggccctggtgcaggcagcctg 290

Figura 2 - Resultado da busca por similaridade com o programa BLAST. O segmento de DNA seqenciado (Query) demonstrou alta homologia (100%) com o gene da Insulina humana (Sbjct).

H vrias modalidades de BLAST. A mais curiosa e de grande importncia na descoberta gnica aquela onde tanto a Query como a base de dados (Subject) so seqncias de nucleotdios. Neste programa, antes de verificar a homologia, so feitas as seis tradues possveis de cada seqncia de nucleotdios, ou seja, tanto a seqncia pesquisada quanto cada uma das presentes na base de dados so transformadas em seis protenas (iniciando pela base 1, 2 ou 3 de cada fita). Essa modalidade, denominada tBLASTx, permite que seja retornado o par protena Query - protena Subject e muito vlida pois as protenas de dois organismos so mais parecidas entre si que os nucleotdios que as codificam. Nesta anlise, apenas uma das seis leituras de significado biolgico, as demais geram resultados que so desprezados. O tBLASTx foi utilizado em descoberta gnica inmeras vezes, como por exemplo na identificao da subunidade cataltica da telomerase humana assim que tal enzima foi identificada no protozorio Euplotes (Meyerson et al. 1997). Outras modalidades buscam homologia entre seqncias de nucleotdios (BLASTn), seqncias de protenas (BLASTp) ou entre seqncias de nucleotdios e protenas (BLASTx). Uma outra variedade de BLAST o PSI-BLAST, que em uma primeira busca encontra as protenas mais homlogas pesquisada - Query; procede identificando as regies conservadas dentre os melhores resultados da pesquisa e, em buscas subseqentes, mascara as regies no conservadas da Query e pesquisa levando em conta apenas as regies conservadas. Nos bancos de dados h tambm uma grande variedade de informaes sobre estruturas moleculares, expresso gnica diferencial, diversidade gentica, evoluo, etc. que podem ser extradas pela bioinformtica. Um dos grandes desafios o desenvolvimento de procedimentos pelos quais esses dados podem ser inseridos e "extrados" em bancos de dados secundrios, pelos pesquisadores. H vrias ferramentas que se encontram disponveis no prprio NCBI e em outros centros, mas h muito campo para o desenvolvimento de procedimentos especficos. Ferramentas desenvolvidas recentemente incluem bancos de genes classificados de acordo com sua histria evolutiva (COG-NCBI), algoritmos de comparao de genomas inteiros (ACT - Artemis Comparison Tool), ferramentas de busca de similaridade estrutural de protenas, independentemente da seqncia primria (VAST-NCBI), etc.

medida que feito o seqenciamento do genoma de muitas espcies, a genmica comparativa assume grande importncia e procedimentos computacionais para correlao entre organismos no nvel molecular tornam-se essenciais. Pesquisas comparativas tm sido utilizadas para estudos funcionais do genoma, por exemplo da anlise dos genes de bactrias E. coli patognicas e no-patognicas (Perna et al. 2001), para identificao de genes relacionados s doenas que estes provocam (Jimenez-Sanchez et al. 2001), para identificar seqncias de DNA e protenas que possam ser responsveis por diferenas entre espcies, tal como entre homem e chimpanz (Ebersberger et al. 2002). Dentre os procariotos foi demonstrado por genmica comparada que na histria evolutiva vrios segmentos de DNA foram trocados entre distintas espcies, num processo de transferncia horizontal. Outras aplicaes das anlises comparativas entre genomas esto emergindo: desenvolvimento de tecidos e rgos, base da resistncia a doenas infecciosas, prognstico de cncer, etc. Para cada um desses propsitos, novas ferramentas de bioinformtica so construdas e muitas delas so disponibilizadas via servidores www na Internet. Uma nova disciplina, a farmacogenmica, j possui investimentos pesados de vrias empresas para desenvolvimento de novos medicamentos a partir de anlises genmicas. Grande parte da pesquisa em farmacogenmica depende da identificao de variaes inter-individuais em humanos para a localizao de genes relacionados susceptibilidade ou resistncia a doenas ou frmacos. Algumas empresas, tal como a Orchid BioSciences, possuem bancos de dados privados contendo estas variaes genticas, na maior parte do tipo SNPs (Single Nucleotide Polymorphisms) que correspondem a variantes em uma nica posio nucleotdica. O NCBI possui um banco de dados de SNPs de diferentes organismos, sendo que na espcie humano so mais de 4 milhes catalogados. A Celera investiu fortemente na identificao de SNPs de camundongo para aplicaes na farmacogenmica. A partir das colees de SNPs pode-se estudar com mtodos de biologia molecular e ferramentas bioinformticas as associaes entre os distintos alelos e caractersticas importantes para o desenvolvimento de novos medicamentos e tratamentos mais precisos e sem efeitos colaterais.

Mapas Genmicos
Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do seqenciamento da bactria Haemophilus influenzae utilizando uma metodologia de tiro no escuro" (do ingls shotgun). Esta estratgia envolve o seqenciamento totalmente ao acaso, para posterior montagem numa seqncia contgua, ou contig (figura 3) e tem-se mostrado extremamente til para o seqenciamento de genomas simples, como o de bactrias e, mais recentemente em genomas complexos, como o da drosfila (Adams et al. 2000) e do homem (Venter et al. 2001). Na verdade, o seqenciamento executado pelo consrcio pblico do genoma humano tambm teve uma poro shotgun (figura 3). Fragmentos grandes de DNA clonados em BAC (cromossomos artificial de bactria), de cerca de 150 mil pb, previamente mapeados em lugares especficos dos cromossomos, eram enviados para centros de seqenciamento ao redor do planeta e, em cada centro, fragmentos pequenos eram gerados por quebras fsicas e seqenciados no escuro, com uma cobertura de at dez vezes. Contigs eram montados e geravam a sequncia do grande fragmento e a informao era devolvida para a montagem final do genoma. Mas o processo Shotgun utilizado pela empresa Celera foi diferente: o genoma era fragmentado em pedaos de 2 mil, 10 mil e 50 mil nucleotdios, que aps serem clonados, seqenciavam-se as extremidades destas molculas. Cada extremidade seqenciada encontrava alguma sobreposio com alguma outra seqncia da coleo, mas sabendose a seqncia das outras extremidades destas duas molculas, era possvel conferir duplamente o resultado das sobreposies. As molculas longas funcionam como ncoras, onde as extremidades das molculas maiores podem ser utilizadas no apenas para comprovar a montagem mas tambm para ligar e ordenar contigs bem como direcionar o seqenciamento para algumas reas de descontinuidade entre os contigs. A par do procedimento inteiramente shotgun, as metodologias convencionais de seqenciamento (figura 3) utilizam vrias etapas de subclonagens (hierarquia de clonagens) que dependem de mapeamentos diversos para ordenamento das seqncias feitas a partir de clones em plasmdios que so montados em segmentos contnuos de DNA (contigs), em pedaos cada vez maiores, at o cromossomo completo.

Clonagem hierrquica
cromossomo

Shotgun
cromossomo

Biblioteca de clones grandes - descobre-se a ordem certa - escolhem-se os pouco sobrepostos

Bibliotecas de plasmdios - faz-se o sequenciamentos dos plasmdios - sobreposio cria os contigs

Em cada centro de seqenciamento: - fragmenta-se os clones grandes em sub-bibliotecas de plasmdios - seqencia-se os fragmentos pequenos nos plasmdios - atravs da sobreposio das seqncias pequenas monta-se a seqncia dos clones grandes, os quais quando sobrepostos montaro a seqncia do cromossomo original.

Sobreposio dos contigs - possveis descontinuidades devem ser resolvidas com o uso de clones maiores para unir os contigs de plasmdios - o sequenciamento de extremidades de molculas de tamanho grande e conhecido vo orientando a montagem final do cromossomo.

Figura 3 - Seqenciamento por clonagem hierrquica e por tiro no escuro (shotgun) Para executar essa montagem feita pela superposio das seqncias dos vrios clones, novas ferramentas da bioinformtica foram construdas. Na figura 4, observa-se que duas dessas ferramentas, o PHRED e o PHRAP, possibilitam a anlise das milhares de seqncias de DNA geradas pelo seqenciador automtico. O PHRED verifica a qualidade do seqenciamento de cada base das vrias seqncias e junto ao PHRAP faz o alinhamento de todos os clones, construindo uma seqncia contnua, ou contig. No final, vrios contigs iro compor um grande contig que pode ser a fita de DNA completa de um cromossomo de bactria, que na maioria dos casos o seu genoma completo. Para a montagem final vrias outras ferramentas foram desenvolvidas para manipulao e ordenamento de grandes contigs, bem como a visualizao do mapa final com toda a anotao funcional (Ex: Mummy e Assembler do TIGR). Nos eucariotos, cada cromossomo possui uma molcula de DNA e, como humanos tm 24 tipos de cromossomos (1 a 22, X e Y), deve-se seqenciar completamente 24 dessas molculas, avanando-se muitas vezes por longos trechos de DNA repetitivo, que so praticamente impossveis de seqenciar com perfeio.

Sequncia do clone 1

... accgagtacatgtgtacctgagcggtt ...


Sequncia do clone 2

450 pb 677 pb

... gcggcagtccagcaaacggcgcgat...
Sequncias de vrios clones

= entre 200 e 800 pb

Verifica a qualidade do sequenciamento de DNA

PHRED

Sequncias de DNA de baixa qualidade so eliminadas

Ordena as sequncias dos clones formando um contig de DNA

PHRAP

Ordenamento feito pela superposio das sequncias dos clones

Clones ordenados Contig de DNA 10.500 pb

Figura 4 Montagem de um contig pelo PHRED e o PHRAP.

Anotao Genmica e Predio de Genes


O processo de anotao genmica envolve a atribuio de funes e identificao de padres e de genes na seqncia linear do DNA obtida do seqenciamento. Toda esta informao est disponvel nas diferentes ordens e arranjos das seqncias de DNA. Encontrar os genes a principal tarefa da anotao genmica. Para se fazer a predio de genes, vrios parmetros podem ser avaliados tais como a existncia de seqncias no DNA que possam funcionar como promotores seguidas por seqncias que possam gerar uma protena funcional, ou que tenham similaridade com genes conhecidos, etc. Diferentes algoritmos (Ex: GenScan) empregam processos estatsticos diversos para se fazer a busca por ORFs (Open Reading Frames) ou fases de leitura aberta do cdigo gentico, identificadas por um cdon iniciador e um terminador, que correspondem a

seqncias com possveis regies codificadoras. Vale notar que a ocorrncia no genoma de ORFs superiores a 100 bases um evento raro, j que um dos 64 cdons (ATG) abre a fase de leitura e trs so os terminadores (TAA, TAG e TGA), sendo que estes ltimos apareceriam com alta probabilidade (3/64), a no ser quando se trata de uma regio codificadora. H tambm vrios programas que detectam o uso no aleatrio de cdons (codon usage), o qual tpico para cada organismo. Nos projetos de anlise do transcriptoma (ver abaixo) freqentemente o cdon iniciador no est presente e programas de anlise do codon usage podem auxiliar no reconhecimento da fase de leitura da poro codificadora. O programa ESTScan um dos mais usados para esses fins. O conhecimento prvio da protena e a sua funo em qualquer outra espcie facilita bastante o processo de anotao de genes. No entanto, atualmente, grande parte dos genes so ainda hipotticos, isto , no se conhece a funo biolgica destas seqncias. Por exemplo, na bactria Escherichia coli, na planta Arabidopsis thaliana e na mosca das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados no possuem produto gnico ou funo conhecida. Provavelmente, muitos dos supostos "genes hipotticos" sero futuramente descartados enquanto outros segmentos gnicos sero identificados aps terem passado desapercebidos pelos atuais algoritmos de predio gnica. Este aparente paradoxo resulta do fato de que no existe uma identificao inequvoca de um gene. Por esta razo, vrias estimativas do nmero de genes em diferentes espcies tm sido amplamente divulgadas e freqentemente apresentavam resultados discordantes. Para o genoma humano acreditava-se at bem pouco tempo em um nmero estimado ao redor de 70-100 mil genes que foi reduzido para 30-40 mil genes com a publicao dos primeiros rascunhos de nosso genoma em 2001 (Lander et al. 2001 e Venter et al. 2001). Para facilitar a identificao e classificao funcional dos genes foi criado o consrcio Gene Ontology que pretende fornecer um vocabulrio padronizado para a descrio dos produtos gnicos.

Produto gnico Transposon

Gene hipottico

Gene Predito
Gene 1 Gene 2

Contig

....actctagt....

Dados de outros genes e genomas permitem anotar uma funo e produto para o Gene 2 com o auxlio do programa BLAST. Presena do suposto Gene 1 foi assinalada por um algoritmo que busca por ORFs signficativas. Enquanto no se conhece seu produto (protena) considerado hipottico. Regies repetitivas tais como transposons podem ser anotadas com o auxlio de programas tais como BLAST, RepeatMasker e outros.

Figura 5 Processo de anotao de genes

Anlise de Transcriptomas
O estudo do transcriptoma de cada organismo de grande importncia para a identificao de genes, mas tambm incorpora informaes sobre o funcionamento do seu genoma. As seqncias produzidas pelos projetos de seqenciamento do transcriptoma constituem-se em evidncia direta da existncia de genes com sua determinada ordem de xons. Por outro lado, a anlise de transcriptomas de diferentes espcies, inclusive a humana, tem evidenciado uma altssima freqncia de processamentos (splicing) diferenciais dos transcritos primrios. Neste caso, um gene pode apresentar uma grande variao funcional devido simplesmente ao sorteio de xons promovido pelo processamento diferencial. Para se estudar o transcriptoma no necessrio seqenciar completamente todos os genes de um tecido ou organismo. Grande parte dos genes podem ser identificados atravs da anlise de pequenas seqncias que funcionam como etiquetas. Estas seqncias chamadas ESTs, ou Expressed Seqence Tags, so resultado do seqenciamento parcial de cDNAs (figura 6). O objetivo das ESTs identificar a presena de genes expressos em um transcriptoma, associando a etiqueta ao gene (e sua funo) atravs um programa tal como o BLAST que faz busca por homologias. Freqentemente as seqncias parciais (ESTs) se originam de ambas as extremidades do cDNA, embora

alguns projetos prefiram a extremidade 3' por facilitar a gerao de seqncias consenso atravs do agrupamento de vrios ESTs, enquanto outros escolhem a extremidade 5' por estar mais prxima da regio codificadora da protena, o que facilita a identificao por homologia. Todavia, uma tecnologia recentemente desenvolvida no Brasil (Dias-Neto et al. 2000) permite o seqenciamento da regio central dos mRNAs. A tecnologia, denominada ORESTES, de Open Reading frames ESTs (figura 6) baseia-se na amplificao de cDNAs por PCR aleatrio cujos produtos so utilizados para gerar uma biblioteca. O seqenciamento desta biblioteca, contendo fragmentos aleatrios derivados de diferentes regies de cada mRNA, favorece o reconhecimento da funo do transcrito por pesquisa de homologia, pois incorpora mais freqentemente a ORF no transcrito do que as ESTs convencionais (figura 6). Os ORESTES foram responsveis pela identificao de 219 novos genes no cromossomo 22 humano (Souza et al. 2000) que no haviam sido detectados previamente por outras anlises bioinformticas. Alm disto, o agrupamento de seqncias para gerao de consensos facilitado quando so utilizados ESTs convencionais associados aos ORESTES. Estes consensos so importantes pois muitas vezes contm toda regio codificadora facilitando o processo de anotao gnica em eucariotos.

DNA genmico

GENE Transcrio

RNA

RNA mensageiro

AAAAA

Retro-transcrio + clonagem + sequenciamento EST 5 cDNA clonado


cDNA do gene

AAAAA EST 3 ~300 pb

...ACGATGGCT...

Etiquetas do gene

RNA

RNA mensageiro

AAAAA

Retro-transcrio + PCR aleatrio + clonagem dos produtos + sequenciamento Biblioteca ORESTES de cDNAs pequenos aleatrios
cDNA 1 cDNA 2 cDNA 3 cDNA 4

...ACGATGGCT...

Etiquetas do gene

Figura 6 ESTs (A) e ORESTES (B) utilizados nos projetos transcriptomas O transcriptoma pode revelar padres distintos de expresso gnica. Uma das maneiras de se evidenciar a expresso gnica diferencial analisar a freqncia de ocorrncia de um determinado transcrito numa preparao de cDNA de um tecido ou fase de desenvolvimento. Apesar da construo de bibliotecas de cDNA sempre trazer um vis, incorrendo na redundncia de alguns transcritos, a anlise de vrias bibliotecas permite alguma aproximao do padro de expresso de um tecido ou fase de desenvolvimento de um organismo. Todavia, nada se compara inverso introduzida pelos microarranjos (microarrays ou biochips) na anlise da expresso gnica. Em uma lmina de microscpio

podem ser depositados por um rob cerca de 10 a 100 mil seqncias de genes conhecidos. Sondas com fluorescncias distintas podem ser preparadas a partir de mRNA isolado de duas populaes de clulas, normais ou transformadas por exemplo, e atravs da anlise da intensidade de hibridizao pode-se comparar a expresso gnica diferencial desses mltiplos genes em um tempo extremamente reduzido. Ferramentas bioinformticas, principalmente voltadas ao processamento de imagens em uma escala micro e nanomtrica, esto surgindo para analisar a expresso conjunta de genes, detectadas em microarranjos. Uma metodologia recente incorpora um nova tcnica de biologia molecular e ferramentas de bioinformtica para anlise de expresso gnica diferencial. O SAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se baseia no uso de pequenas seqncias chamadas tags (10 a 14 pb), nicas de cada gene, que so obtidas por etapas de clivagens e ligaes com o cDNA e posteriormente co-amplificadas por PCR, formando um concatmero de tags. A quantificao da expresso gnica se d pela anlise do seqenciamento dos concatmeros atravs ferramentas especficas de bioinformtica. Desta forma puderam ser identificados vrios genes provavelmente relacionados ao processo de transformao celular nos tumores.

Bioinformtica no Brasil
No Brasil, o Laboratrio de Bioinformtica da Unicamp pioneiro nesta rea, desenvolvendo e aplicando vrias ferramentas pesquisa genmica. Este laboratrio foi responsvel pela montagem, no computador, do genoma do primeiro organismo seqenciado no Pas em 2000, a bactria Xyllela fastidiosa (Simpson et al. 2000), causadora da doena do amarelinho-da-laranja. Vrios outros centros de bioinformtica tm aflorado no Brasil com a criao de redes nacionais e regionais de seqenciamento de genomas. No Laboratrio Nacional de Computao Cientfica (LNCC) em Petrpolis, RJ, funciona o Centro de Bioinformtica do Projeto Genoma Brasileiro (figura 7), formado por iniciativa do Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq). H vrios projetos de anlise de

transcriptoma em andamento tal como o projeto Genoma Humano do Cncer da FAPESP e o projeto transcriptoma do parasita humano Schistosoma mansoni executado pela Rede Genoma de Minas Gerais. O progresso dos vrios projetos de genomas no Brasil pode ser acompanhado nesses bancos de dados dos centros de bioinformtica que so disponibilizados via Internet.

Figura 7 Logotipo do Projeto Genoma Brasileiro, uma rede nacional de seqenciamento de DNA financiada pelo CNPq, rgo de fomento pesquisa do Ministrio de Cincia e Tecnologia do Brasil. Em 2001 a bioinformtica foi considerada pela CAPES, rgo brasileiro que coordena o ensino superior, como rea prioritria para incentivo de formao na psgraduao. Em 2002 foi lanado um edital para criao de cursos de ps-graduao nesta rea no Brasil, dentro do qual foram selecionados dois programas, um da USP e outro da UFMG. O objetivo inicial seria de formar ao redor de 50 doutores at 2007, refletindo a necessidade crescente destes profissionais nas universidades e institutos de pesquisa.

Referncias online
Projetos Genomas

Bancos de dados de genomas http://www.ncbi.nlm.nih.gov/Genomes

Projeto Genoma Brasileiro http://brgene.lncc.br

Projetos Genomas da FAPESP http://watson.fapesp.br/onsa/Genoma3.htm

Projeto Genoma Humano http://www.ncbi.nlm.nih.gov/genome/guide/human

Projeto Genomes to Life http://doegenomestolife.org

Recursos de Bioinformtica Bancos de dados e ferramentas do NCBI http://www.ncbi.nlm.nih.gov

BLAST - ferramenta de busca de homologia por alinhamento local http://www.ncbi.nlm.nih.gov/BLAST

Phred, Phrap e Consed - ferramentas para anlise da qualidade de seqncias e para montagem e visualizao de contigs http://www.phrap.org

COG - Cluster of Ortolog Groups - Bancos de dados filogeneticamente referenciado. http://www.ncbi.nlm.nih.gov

UniGene - Agrupamento de seqncias em consensos de genes. http://www.ncbi.nlm.nih.gov/UniGene

LocusLink - ferramenta para recuperao de seqncias funcionais curadas. http://www.ncbi.nlm.nih.gov/LocusLink

Gene Ontology Consortium - banco de dados genmicos para categorizao dos genes de acordo com suas funes moleculares, processos biolgicos e componentes celulares. http://www.geneontology.org

Orchid BioSciences - empresa da rea farmacogenmica http://www.orchid.com

Celera - mega-empresa da rea genmica http://www.celera.com

ACT - Artemis Comparison Tool - comparao de genomas inteiros http://www.sanger.ac.uk/Software/ACT

National Center for Genome Research (USA) - ferramentas de anotao http://www.ncgr.org

European Bioinformatics Institute - ferramentas e bancos de dados http://www.ebi.ac.uk

The Biocomputing Service Group - vrias ferramentas de anlise genmica e anotao http://genome.dkfz-heidelberg.de

TIGR - ferramentas para anotao gnica e montagem final e visualizao de genomas http://www.tigr.org/software

GenScan - programa para predio de ORFs em um segmento genmico http://genes.mit.edu/GENSCAN.html

ESTScan - programa para identificao de fase de leitura atravs do codon usage http://www.ch.embnet.org/software/ESTScan.html

Laboratrio de Bioinformtica da Unicamp http://www.lbi.ic.unicamp.br

Ncleo de Bioinformtica da UFMG - ferramentas simples de anlise http://www.icb.ufmg.br/~infobio

Referncias Bibliogrficas
Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, et al. (2000) The genome seqence of Drosophila melanogaster. Science. 287: 2185-2195 Dias Neto E, Garcia Correa R, Verjovski-Almeida S, Briones MR, Nagai MA, et al. (2000) Shotgun seqencing of the human transcriptome with ORF expressed seqence tags. Proc Natl Acad Sci U S A. 97: 3491-3496 Ebersberger I, Metzler D, Schwarz C e Paabo S. (2002) Genomewide comparison of DNA seqences between humans and chimpanzees. Am J Hum Genet. 70: 1490-1497 Jimenez-Sanchez G, Childs B e Valle D. (2001) Human disease genes. Nature. 409:853855 Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (2001) Initial seqencing and analysis of the human genome. Nature. 409: 860-921 Meyerson M, Counter CM, Eaton EN, Ellisen LW, Steiner P, Caddle SD, Ziaugra L,Beijersbergen RL, et al. (1997) hEST2, the putative human telomerase catalytic subunit gene, is up-regulated intumor cells and during immortalization. Cell. 90: 785795 Perna NT, Plunkett G 3rd, Burland V, Mau B, Glasner JD, Rose DJ, Mayhew GF, et al. (2001) Genome seqence of enterohaemorrhagic Escherichia coli O157:H7. Nature. 409: 529-533 Borm A e Santos FR (2001) Biotecnologia Simplificada. Editora Suprema. Viosa, MG.

Simpson AJ, Reinach FC, Arruda P, Abreu FA, Acencio M, Alvarenga R, Alves LM, et al. (2000) The genome seqence of the plant pathogen Xylella fastidiosa. Nature 406: 151157 Souza SJ, Camargo AA, Briones MR, Costa FF, Nagai MA, Verjovski-Almeida S, et al. (2000) Identification of human chromosome 22 transcribed seqences with ORF expressed seqence tags. Proc Natl Acad Sci U S A. 97: 12690-12693. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, et al. (2001) The seqence of the human genome. Science. 291: 1304-1351 Velculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995). Serial Analysis Of Gene Expression. Science. 270: 484-487.

Potrebbero piacerti anche