Sei sulla pagina 1di 20

UNIVERSIDADE FEDERAL DE MINAS GERAIS - UFMG

INSTITUTO DE CINCIAS BIOLGICAS ICB


DEPARTAMENTO DE BIOLOGIA GERAL LABORATRIO DE GENTICA CELULAR E MOLECULAR

RELATRIO DE DE ESTGIO DE INICIAO CIENTIFICA

Programa:

__x__PIBIC/CNPq

____PROBIC/FAPEMIG

Nome do bolsista :Cssio de Jesus Faria Nmero de Matrcula: 2009024081 Nome do curso : Farmcia diurno Nome do orientador : Vasco Ariston de Carvalho Ttulo do projeto de pesquisa do orientador : Montagem e Anotao Funcional dos genomas de diferentes linhagens de Corynebacterium pseudotuberculosis Ingresso no programa em vigncia: 20/01/2010 Perodo do relatrio: 20/01/2010 a 30/07/2010 Resumo do Plano de Trabalho:Caracterizao in silico de genomas de C. pseudotuberculosis, sequenciadas utilizando a plataforma next-generation SOLiD. O presente projeto visa a obteno do pangenoma da espcie atravs da montagem, anotao funcional e genmica comparativa de diferentes isolados do patgeno oriundo de diferentes hospedeiros.

________________________________________ Orientador- Prof.Dr. Vasco Ariston de Carvalho

_______________________________________ bolsista - Cssio de Jesus Faria

Belo HorizonteMG 11/08/2010


1

PARTICIPAO EM ATIVIDADES EXTRACURRICULARES

Ouvinte da disciplina Estrutura e Funo do Genoma,com carga horria de 30hs/aula, ministrada no Instituto de Cincias Biolgicas da Universidade Federal de Minas Gerais no programa de PsGraduao em Gentica do Departamento de Biologia Geral, no primeiro semestre de 2010. Atividade de monitoria na disciplina Tpicos Especiais em Gentica e Evoluo II (Anotao de Genomas) supervisionado pelo Prof. Dr. Vasco Ariston de Carvalho, com carga horria de 30hs/aula, ministrada no Instituto de Cincias Biolgicas da Universidade Federal de Minas Gerais no programa de Ps-Graduao em Gentica do Departamento de Biologia Geral, no primeiro semestre de 2010.

Participao das atividades da II Jornada de Inverno de Qumica, realizada no Departamento de Qumica UFMG , em Belo Horizonte, no perodo de 27 a 30 de julho de 2010. Participao nos minicursos Qumica Computacional: uma ferramenta importante na pesquisa qumica, ministrado pelo Prof. Dr. Heitor Avelino de Abreu (UFMG) e pela Prof a. Dra. Luciana Guimares (UFSJ), com carga horria de 4,5 horas e Princpios bsicos da modelagem molecular e sua aplicao no desenvolvimento de novos frmacos , ministrado pela Msc. Ana Carolina de Oliveira (UFMG), com carga horria de 3 horas, durante a II Jornada de Inverno de Qumica UFMG. Participao no curso Introduo ao programa BioNumerics, plataforma de software para anlise de dados biolgicos, realizado na Universidade Federal de Minas Gerais, com durao de 8 horas e ministrada por representante da FairPort Representaes Comerciais Ltda, nos dias 24 e 25 de fevereiro de 2010.

AVALIAO PESSOAL SOBRE O ESTGIO As atividades desenvolvidas no estgio revelaram o grande potencial da bioinformtica para o desenvolvimento de projetos tcnicos-cientficos e das suas possveis aplicaes na produo industrial de frmacos e produtos biotecnolgicos, bem como a pesquisa voltada para o estudo em genmica e demais cincias micas. O desenvolvimento das ferramentas de bioinformtica pode acelerar e aumentar o alcance de projetos de pesquisa, bem como diminuir os custos com materiais por realizar anlises com razovel preciso e confiabilidade, diminuindo as chances de erro no desenvolvimento de trabalhos in vitro e in vivo. Em relao s atividades especficas desenvolvidas com anotao funcional de genomas, o uso de farramentas de bioinformtica pode contribuir para a montagem de mapas genticos, identificao de potenciais antgenos vacinais , identificao de genes associados resistncia a antibiticos, o estudo do metabolismo bacteriano submetido a estresse fisiolgico (oxidativo, mediada pela imunidade natural ou adquirida do hospedeiro, entre outros), produo de frmacos dirigidos a alvos proticos especficos e desenvolvimento de iniciadores e enzimas de restrio para clonagem. A iniciao cientfica para mim foi importante para que eu adquirisse uma melhor compreenso da sua natureza e importncia para a formao de um profissional com ampla viso do que j est sendo feito nos grandes centros de pesquisa e do que se pode fazer, com base em perspectivas e ferramentas modernas de pesquisa. Percebi uma tendncia bastante forte no sentido de aumentar o dilogo entre profissionais com variadas formaes e mesmo uma especial importncia dada ao pesquisador com uma viso multidisciplinar, que integre todas as vises particulares relativas s formaes diferenciadas de outros pesquisadores. A pouca experincia que adquiri durante a iniciao cientfica ser-me- til para anlises in silico na produo de produtos biotecnolgicos e frmacos alvo-especficos, que o campo de pesquisa no qual pretendo atuar.

Aps concluir a Graduao, pretendo : _X_Ingressar na Ps-Graduao ___Atuar no mercado de trabalho ___No definiu ainda

RELATRIO DE ATIVIDADES DESENVOLVIDAS

1. INTRODUO 1.1. C. pseudotuberculosis C. pseudotuberculosis um microrganismo pertencente ao grupo supragenrico CMN (Corynebacterium Mycobacterium- Nocardia). O grupo CMN um grupo pertencente famlia dos actinomicetos e heterogneo, que apresenta muitas espcies de interesse mdico, veterinrio e biotecnolgico. O microrganismo C.peudotuberculosis uma bactria Gram-positiva, parasita intracelular facultativa, pleomrfica (exibe formas cocides e bastes filamentosos), com um tamanho de 0,5-0,6 m de dimetro e 1,0-3,0 m de comprimento. No apresenta capacidade de esporular,no forma cpsula, possui fmbrias e alto contedo G+C. o agente etiolgico causador da patologia conhecida como linfadenite caseosa (LC) ou mal do caroo em pequenos ruminantes (WILLIAMSON, 2001). 1.1.1Aspectos Microbiolgicos

C. pseudotuberculosis um microrganismo anaerbio facultativo, que apresenta bom o crescimento 37 C em um ambiente com pH 7,0-7,2. um patgeno que exibe formas cocides e bastes filamentosos, no forma cpsula, no esporula e imvel, porm, apresenta fmbrias, tem crescimento espaado em meio Agar e se organiza em colnias opacas de crescimento concntrico e colorao creme-alaranjado. O crescimento em meio lquido desenvolve-se como depsitos granulares (MERCHANT & PACKER, 1967; DORELLA et al., 2006). O outro aspecto microbiolgico de relevncia a hemlise varivel que ocorre quando uma bactria cresce em meio Agar-sangue, onde, na presena de Rhodococcus equi, apresenta uma hemlise sinrgica. J na presena de Staphylococcus aureus, a toxina produzida por C. pseudotuberculosis inibe a ao hemoltica estafiloccica. 1.1.2. Propriedades bioqumicas C. pseudotuberculosis apresenta na parede celular o peptideoglicano do tipo mesodiaminopimlico (meso-DAP). Os acares mais aundantes so a arabinose e a galactose e h a presena de cidos miclicos de cadeia curta, denominados cidos corineiformes. Alm disso, fermentador de carboidratos,sem produo de gs e anaerbio facultativo. No fermenta amido ou trealose e a habilidade de reduzir nitrato em nitrito permite a diferenciao de dois biovares genotipicamente distintos: o biovar equi, isolado de eqinos e bovinos, redutor de nitrato; o biovar ovis, isolado de caprinos e ovinos, no possui essa habilidade (SONGER et al., 1988). 1.1.3 Genmica de C. pseudotuberculosis Os organismos do gnero Corynebacterium possuem genomas circulares, contendo em mdia 3 megabases e contedo mdio de C+G de 58% podendo ou no possuir plasmdeos. Observam-se ilhas genmicas nos genomas de todas as Corynebacterium j seqenciadas, o que ressalta o grande nmero de eventos de transferncia horizontal de genes em procariotos. O contedo gnico mdio destas Corynebacterium de aproximadamente 2.600 genes, e aparentemente existe tendncia perda de genes em espcies patognicas: C. diphtheriae e C. jeikeium possuem 2.389 e 2.165 genes, respectivamente; o que contrasta com a maior abundncia de genes em C. glutamicum e C. efficiens, com 3.057 e 2.950, respectivamente.
5

Pode-se observar tambm a presena de diversos fatores de virulncia clssicos encontrados nos membros patognicos j seqenciados, como, por exemplo, genes responsveis pela formao de fmbrias, sistemas de aquisio de ferro, sistema de sntese de siderforos, entre outros (CERDEOTRRAGA et al., 2003). De acordo com o banco de dados de protenas Entrez do NCBI (National Center for Biotechnology Information) , protenas de importncia para a patologia LC como protenas de aquisio de ferro, exotoxinas e protenas de membrana de C. pseudotuberculosis encontram-se depositadas e caracterizadas. Fosfolipase D Fosfolipase D (PLD) uma potenete exotoxina produzida por C. pseudotuberculosis, sendo considerado o principal fator de virulncia da bactria (HODGSON et al.,1999). Essa exotoxina um fator de permeabilidade que promove a hidrlise de ligaes ster na esfingomielina da membrana celular das clulas de mamferos, possivelmente contribuindo para a disperso da bactria do stio inicial de infeco para stios secundrios dentro do hospedeiro . Alm disso, a PLD provoca leses dermonecrticas e em maiores doses letal para um nmero considervel de cobaias e animaios domsticos (SONGER, 1977).

Lipdios txicos da parede celular Os lipdios txicos da parede celular de C. pseudotuberculosis foram descritos na dcada de 70 como importantes fatores que contribuem para sua patognese. A toxicidade dos lipdios extrados da parede celular foi demonstrada pela induo de necrose hemorrgica aps injeo intradrmica em cobaias Um estudo em camundongos com 25 isolados de C. pseudotuberculosis props que existe uma relao direta entre as porcentagens de lipdios de superfcie e a induo de abscessos crnicos . Aquisio de ferro Recentemente foi demonstrado que um grupo de genes envolvido na absoro de ferro tem tem um papel relevante na virulncia de C. pseudotuberculosis (BILLINGTON et al., 2002). Os quatro genes desse provvel operon foram identificados prximo ao gene pld no no genoma dessa bactria e designados como fag A, B, C e D. Considerando que C. pseudotuberculosis um patgeno intracelular, essa bactria deve ser capaz de adquirir ferro em um ambiente onde esse nutriente escasso. Embora no haja alterao na utilizao do ferro por um mutante fag B, in vitro, este possui uma habilidade diminuda em sobreviver e causar abcessos em cabras infectadas experimentalmente (BILLINGTON et al., 2002).
6

Aps o seqenciamento de C. jeikeium por Tauch et al., em 2005, diversas anlises referentes ao compartilhamento de genes entre as outras trs espcies do gnero que possuem o genoma j seqenciado foram realizadas. Essas anlises demonstraram que aproximadamente 52% dos genes deste organismo (1.089) possuem provveis ortlogos nos trs outros organismos seqenciados, podendo ser considerados como a espinha dorsal do gnero. Alm disso, 17% dos genes (367) so compartilhados por um ou dois dos organismos. Anlises de sintenia dos possveis ortlogos revelam tambm uma estrutura genmica notadamente conservada, com apenas 10 pontos de perda de sintenia, sendo que C. jeikeium ainda apresenta aparente rearranjo gnico com algumas inverses.

Tabela 01 Tabela 01: Linhagens de C. pseudotuberculosis sequenciadas :

Espcie C. pseudotuberculosis C. pseudotuberculosis C. pseudotuberculosis C. pseudotuberculosis C. pseudotuberculosis C. pseudotuberculosis C. pseudotuberculosis

Linhagem Biovar Isolado Local Origem Metodologia 1002 ovis Caprino Abcesso Bahia Sanger/454 C231 ovis Ovino Abcesso Austrlia 454/Austrlia 162 equi Camelo Abcesso Reino Unido SOLiD/Fragments 258 equi Equino Desconhecido Desconhecido SOLiD/Fragments CIP5297 equi Equino Desconhecido Blgica SOLiD/Mate-pair PAT10 ovis Ovino Abcesso Patagnia SOLiD/Mate-pair I-19 bovis Bovino Desconhecido Israel SOLiD/Mate-pair
1.1

Genmica em C. pseudotuberculosis O interesse nas Actinobactrias deve-se ao fato de que o mesmo alberga diversos gneros importantes, e um grupo de destaque merece ateno: o grupo CMN. A esse grupo supragenrico pertencem os seguintes importantes gneros: Mycobacterium, Noccardia, Rhodococcus e Corynebacterium, dentre os quais podem ser destacados microrganismos de grande interesse mdico, biotecnolgico e veterinrio. Em se tratando do gnero Corynebacterium, 81 projetos Genoma esto sendo realizados e 10 j foram completamente sequenciados. Com a disponibilizao dos dados genmicos de outras espcies do gnero, torna-se relevante a caracterizao e obteno de dados sobre a estrutura, organizao e estilo de vida do patgeno em questo, C. pseudotuberculosis, uma vez que o gnero apresenta caractersticas peculiares e conservadas. Com a finalidade de caracterizao genmica de C. pseudotuberculosis, nosso grupo desenvolveu um trabalho com a colaborao de duas redes genoma estaduais (Rede Genoma de Minas Gerais e Rede Paraense de Genmica e Protemica), as quais possuem sequenciadores de nova gerao (SOLiD Applied Biosystems). A obteno de dados genmicos vinculados a diferentes linhagens de C. pseudotuberculosis realizada pelas redes supracitadas, forneceu o mapa gentico modelo para estudo comparativo e de pangenmica, foco do trabalho. Essa abordagem comparativa de grande importncia uma vez que ainda se desconhece quais fatores levam diferentes linhagens da mesma espcie a possuir a habilidade de infectar um vasto espectro de hospedeiros (ovinos, caprinos, cameldeos bubalinos, equinos e bovinos), causando diferentes patologias (linfadenite caseosa, linfangite ulcerativa, febre do pombo e acne contagiosa).

Atualmente, estamos trabalhando na utilizao dos dados genmicos gerados de Corynebacterium pseudotuberculosis em trs vertentes copmplementares: caracterizao in silico e montagem do genomas de isolados de C. pseudotuberculosios; predio de eptopos e produo de vacinas recombinantes; proetmica de C. pseudotuberculosis e diagnstico molecular da doena LC. 2.OBJETIVOS

O presente trabalho objetiva a anotao funcional e/ ou curadoria manual de genomas de isolados de C.pseudotuberculosis , desenvolvido a partir da predio ou anotao automtica com o FgenesB e utilizando o software Artemis para a curadoria manual e o programa on line BLAST do NCBI (http://blast.ncbi.nlm.nih.gov/Blast.cgi) . Atravs dessa ferramentas diversas anlises puderam ser realizadas e aspectos do genoma desse organismo foram analisados.

3. MATERIAL E MTODOS 3.1 Anotao Genmica A anotao genmica consiste num processo de vrias passos e Stein (2001) divide-a, em trs categorias bsicas: a anoto de nucleotdeos, de protenas e de processos. A anotao de nucleotdeos feita quando existem informaes sobre o genoma completo ( ou segmentos de DNA ) de algum organismo. Assim, procura-se encontrar a localizao fsica (posio cromossmica) de cada parte da sequncia e escobrir onde esto os genes, Rnas, elementos repetitivos, etc. Na anotao de protenas, que feita quando existem informaes sobre os genes (obtidos por seqenciamento genmico ou de cDNA) de algum organismo, procura-se identificar a funo gnica. A anotao de processos procura identificar as vias de processos nos quais diferentes genes interagem, montando uma anotao funcional eficiente (PROSDOCIMI, 2003). A anotao genmica tambm pode ser dividida em anotao automtica e anotao funiconal/ curadoria manual. Nesse caso, a anotao automtica acaracterizao in silico dos elementos do genoma e no necessriamente necessita de uma curadoria manual, para manipular os resultados obtidos. Atualmente, para esse fim esto disponveis para uso acadmico gratuito, diversas ferramentas, que auxiliam na deteco de genes , tRnas, rRnas, Dna repetitivo, domnios proticos entre outros.J a anotao funcional ou curadoria manual conseqncia da anotao automtica e uma das partesfundamentais no processo de montagem e anotao de um genoma. Nesse passo todos os elementos acima identificados serviro para auxiliar o trabalho do curador de um genoma. O curador a pessoa responsvel em validar os elementos preditos e anotar para cada elemento e gene sua funo. 3.1.1. Anotao automtica de C. pseudotuberculosis PAT-10 O protocolo de construo das bibliotecas genmicas da linhagem de C. pseudotuberculosis PAT -10 seguiu o manual dos kits de montagem de biblioteca e de sequenciamento da plataforma SOLiDTM. O sequenciamento foi realizado com a utilizao de corridas de mate-pairs e de fragments.

Para a construo da biblioteca foram utilizados os seguintes reagentes: SOLiD Mate-Paired Library Sequencing Kit (Applied Biosystems), alm dos reagentes adicionais SOLiD Bead Deposition Kit, SOLiD Bead Enrichment Kit, SOLiD Buffer Kit, SOLiD DH10B Mate-Paired Library Control Kit, SOLiD Instrument Buffer Kit, SOLiD Library Oligos, SOLiD Library Titration Reagent, SOLiD Mate-Paired Library Sequencing Kit, SOLiD Sequencing Probes Kit, SOLiD Slide Kit, SOLiD ePCR. Para a montagem da biblioteca, cerca de 2 g de DNA total foram fragmentados aleatoriamente, usando o sistema HydroShearTM. As extremidades do DNA foram reparadas e ligadas a adaptadores especficos fornecidos nos kits de sequenciamento. As bibliotecas foram amplificadas, purificadas de acordo com o tamanho dos fragmentos. Para o seqenciamento dos genomas das linhagens de Corynebacterium pseudotuberculosis foram realizadas PCRs em emulso aonde as bibliotecas foram amplificadas, purificadas e as esferas contendo os fragmentos de DNA de interesse foram depositadas em lminas para seqenciamento. 3.1.1.1. Montagem das leituras short-reads oriundas do SOLID

Para a montagem do genoma foi utilizado o Corona lite (http://solidsoftwaretools.com/gf/project/corona), programa de anlise de dados off-line, que realiza montagem com uso de uma referncia. A sequencia utilizada foi o genoma montado de C. pseudotuberculosis 1002. O processamento de dados no Corona inclui: mapeamento de leituras, incluindo genomas com cromossomos mltiplos; mapeamento de dados contra bancos de dados contendo centenas de sequncias; pareamento das corridas que utilizaram biblioteca "mate-pair"; recuperao de pequenos INDefsELS (de INseres e DELees) dos dados mate-pair; anlises de polimorfismos de base nica (SNPs) e gerao de sequncias consenso.

3.1.1.2. Predio Gnica Como primeiro passo da anotao automtica foi realizada a predio de gnica, onde provveis genes pertencentes ao organismo foram preditos com o auxlio do programa FgenesB , disponvel em http://www.softberry.com. Este programa realiza a predio dita ab initio, ou seja, somente avalia as caractersticas de provveis fases de leitura abertas no genoma e com isso prope a presena de um gene naquela regio sem a utiizao de um genoma de referncia como base. Porm, apresenta a funo de ser treinado com um genoma filogeneticamente relacionado, no caso Corynebacterium diphtheriae NCTC 13129 3.1.1.7. Identificaao de DNA repetitivo in silico Para estas anlises, foi utilizado o algoritmo RepeatScout, ferramenta que estende vrias seqncias consenso simultaneamente, base a base, at definir o limite da repetio atravs de similaridade nucleotdica entre as mesmas. Como entrada para programa, utilizou-se o arquivo em formato .fasta e sua sequncia em nucleotdeos. Como sada, gerado um arquivo tabular com as provveis regies repetitivas, que podem ser incorporadas ao .embl, juntamente com a predio gnica.

3.1.1.8. Identificao de rRNA in silico A busca por RNAs ribossmicos dentro de cada genoma foi realizada utilizando o programa RNAmmer. Tal programa capaz de realizar a predio dos principais rRNAs de bactria, eucarioto e arquea, sendo: rRNA 5S, rRNA5.8s, rRNA 16S, rRNA 18s, rRNA 23S e rRNA 28S. A localizao dos rRNAs predita com alto ndice de acurcia e o programa est disponvel no web site CBS (http://www.cbs.dtu.dk/services/RNAmmer). Como entrada para o programa utlizou-se o arquivo em formato .fasta e sua sequncia em nucleotdeos. Como sada, ele gera um arquivo tabular com todos os provveis rRNAs preditos, que podem ser incorporados ao arquivo .embl, juntamente com a predio gnica.

3.1.1.9 Identificao de tRNA in silico Para a predio de RNAs transportadores (tRNAs) foi utilizado o programa tRNAscan-SE. Como entrada para o programa utilizou-se o arquivo em formato .fasta e sua sequncia em nucleotdeos. Como sada, ele gera um arquivo tabular com os provveis tRNAs preditos, que podem ser incorporados ao arquivo .embl, utilizando o (script trna2embl.pl).

3.1.1.10. Identificao de domnios, motivos e famlias proticas in silico Utilizou-se de anlises de similaridades com sequncias depositadas em bacos de dados biolgicos secundrios (tambm conhecidos como bancos de dados de padres ou de assinaturas) no intuito de corroborar para a identificao de protenas no-redundantes como tambm direcionar a inferncia de funo de protenas espcie-especfica. Tais anlises de domnios proticos foram realizadas no banco de dados Interpro atravs da ferramenta Interproscan (http://www.ebi.ac.uk/Tools/InterProscan). O InterproScan alberga vrios bancos de dados de domnios, motivos e famlias proticas tais como ProDom, SMART, TIGRFAMS, Pfam, SUPERFAMILY, PANTHER e SignalPHMM, diminuindo assim a redundncia de dados e aumentando a acurcia da predio. O Interproscan pode ser configurado tanto para organismos procariotos quanto eucariotos. Como entrada para o programa utilizado um arquivo .fasta com todo o proteoma predito de cada genoma. A sada do programa um arquivo tabular com todos os domnios conservados preditos, que podem ser incorporados ao arquivo .embl da predio gnica.

3.1.2. Curadoria Manual de C. pseudotuberculosis PAT-10, C231 e C1002 A curadoria manual de C. pseudotuberculosis PAT-10, C231 e C1002 foi realizada utilizando-se do programa Artemis disponvel em http://www.sanger.ac.uk/resources/software/artemis/. Este programa foi desenvolvido para a visualizao e anotao de sequncias de DNA e realiza anlises de sequncias nas suas seis possveis fases de leitura, resultando em dados como contedo contedo G +C e G/C skew, anlises de hidrofobicidade e uso de cdons. Ele um programa escrito na linguagem Java e que permite a visualizao e anotao de arquivos no formato EMBL e GenBank. Alm disso, programas como FASTA e BLAST podem ser executados e seus resultados vistos dentro do Artemis. Devido a sua portabilidade e a ampla gama de anlises que podem ser realizadas por seu intermdio, o Artemis amplamente utilizado em laboratrios para anotao de genomas de procariotos e eucariotos inferiores ( RUTHERFORD et al., 2000)

10

Programa Artemis

Na anotao do genoma parmetros do BLAST como e-valor e percentual de identidade foram considerados, bem como dados de domnios, famlias e motivos proticos. Atravs do algoritmo BLASTp e BLASTn o alinhamento de uma sequncia de amonocidos foi pesquisado contra um banco de dados de sequencias proticas, utilizando um valor limiar de 10 -06. De um modo geral, para sequncias com identidade acima de 50%, uma abordagem geral delineada para caracterizar a funo daquela que esconhecida transferir para esta a anotao da outra j caracterizada.Embora seja uma prtica comum a transferncia de anotaes, uma taxa de erro de 30% ou mais tem sido relatada quando realizada sem o devido cuidado. De acordo com esse princpio, cosideramos que para sequncias com identidade acima de 80% um alinhamento simples ou comparao com uma protena experimentalmente caracterizada utilizando BLAST pode ser suficiente para inferir a funo , desde que o par comparado tenha comprimentos semelhantes e se alinhem de uma pont a a outra sem grandes delees ou inseres. Para aquelas cuja identidade cai para a faixa de 50-80%, a abordagem geral para a atribuio de funo inclui a avaliao de bancos de dados de homologia com famlias de protenas e de domins proticos. Na extremidade superior desta faixa, acima de 70% de identidade, consultamos se a protena cuja funo deve ser anotada pertence ou no a uma famlia de protenas experimentalmente caracterizadas. Bancos de dados importantes utilizados para essa anlise incluem PIRSF e COGs/KOGs (grupos de protenas de grupamentos ortlogos eucariticos e procariticos). O PIRSF fornece a classificao do UniProtKB, uma banco de dados de protenas mais curado e com anotaes depositadas de maior qualidade, de sequncias principalmente de famlias homeomrficas ( similaridade de uma ponta a outra) e de subfamlias e superfamlias em nvel de domnio com base em suas relaes evolutivas. Como as famlias e subfamlias do PIRSF so baseadas na extenso total de protenas ao invs de domnios componentes, anotao baseada no alinhamento com as mesmas fornece funes genricas qumicas e biolgicas especficas, bem como a classsificao de protenas sem a necessidade de domnios completamente definidos. Por outro lado, COGs e KOGs consistem de
11

grupamentos de protenas ortlogas de genomas j completados, e nisso consiste numa das suas grandes vantagens no seu uso na anotao. J para a sequncias cujo percentual de identidade menor que 70%, na ausncia de similaridade de uma ponta a outra, a abordagem utilizada foi a avaliao dos dominos proticos pelo busca no banco de dados Pfam, que oferece uma cobertura muito abrangente (MAZUMDER & VASUDEVAN, 2008) Considerando os princpios acima delineados, a inferncia funcional foi realizada seguindo as seguintes etapas: BLAST contra o banco de dados no-redundante NCBI (nr). Trimagem da metionina inicial. Dse preferncia para transferncia de anotao de protenas da mesma espcie ou de espcies filogeneticamente prximas do organismo cuja protena quer-se inferir a funo. Observao se entre os dez primeiros hits h algum consenso ( a mesma protena identificada entre vrios deles). Se for se for esse o caso, mesmo que o melhor hit no esteja identificado assim, prefervel identificar a sequncia como similar quela do organismo que apresenta mais alto hit e que est dentro do consenso. Nos casos onde no h consenso ou quando o evalor do best hit (primeiro resultado do BLAST e que corresponde ao melhor alinhamento dentro do banco de dados pesquisado) significantemente maior do que o das sequncias a seguir, prefervel transferir a anotao do best hit (PRODOSCINI, 2003) .

Resultado do blast metionina trimada, com bom alinhamento de ponta-a-ponta

BLAST contra o banco de dados SWISS-PROT, que se apresenta mais organizado e curado do que os outros utilizados, quando o resultado da busca no banco de protenas no redundante (nr) deixa dvidas entre dois ou trs hits. Em casos de alinhamentos no significativos, o alinhamento deve ser feito com o algoritmo BLASTn, para verificar similaridades ao nvel de nucleotdios. Avaliao do alinhamento par-a-par. Verificao da textura do alinhamento ( avaliao do nmero de lacunas, extenses de lacunas e do nmero de substituies conservativas de aminocidos) .
12

Pesquisa contra banco de dados de padres de sequncia, de domnios e de classificao protica , utilizando PIRSF, COGs, Pfam, SignalP, TMHMM, entre outros.

A utilizao deste roteiro importante para inferncia funcional de protenas hipotticas, cuja existncia foi predita in silico, mas no h evidncia experimental de sua experesso in vivo. Grande parte do genes de um genoma tem sua funo inferida, mas casos h em que a protena permanece sem funo especfica, de forma que comumente anotada como hypothetical protein. Por outro lado, uma protena que no tenha sua funo predita , mas possua grande similaridade com outras protenas no preditas pode ser anotada como conserved hypothetical protein. Em outros casos, ORFs caracterizadas por uma quebra por uma quebra da protena e sua posterior mudana de fase de leitura foram identificadas como possveis pseudogenes. Quando

encontrados no genoma, a regio de quebra foi averiguada no Artemis e a qualidade das bases na regio foi avaliada. Quando possvel, a adio ou remoo de bases errneas restaurou a fase de leitura. Na ausncia de dados que justificassem a adio ou remoo de bases, os genes foram devidamente classificados como pseudogenes.

Visualizao no Artemis de pseudogenes

3.1.3 Predio de promotores em C. pseudotuberculosis C231 e C1002 Foi tambm desenvolvido a predio de promotores em C. pseudotuberculosis C231 e C1002 , linhagens com genoma j anotado, como um dos critrios para a validao dos pseudogenes e obteno de informaes de stios regulatrios nas sequncias. Para tanto foram utilizados os programas de predio de promotores em procariotos
BDGP- Neural Network Promoter Prediction(http://www.fruitfly.org/seq_tools/promoter.html) programa que utiliza rede neural de retardo de tempo, cuja sada d a sequncia de nucleotdios dos promotores preditos, os escores respevtivos e a localizao da sequncia no genoma.A predio tambm feita em matrizes de leituras inversas e h possibilidade de escolher o limiar de escore.

Sada do BDGP-Neural Network Promoter Prediction

13

Web Signal Scan(http://www-bimas.cit.nih.gov/molbio/signal/) - o programa encontra sequncias sinal existentes no genoma, sendo que a maioria so elememntos de transcrio. Os resultados mostram os nomes dos elementos encontrados, a sequncia de bases dos sinais encontrados, bem como a localizao do parde bases anterior sequncia.

Sada do Web Signal Scan

BPROM (http://linux1.softberry.com/berry.phtml?topic=bprom&group=programs&subgroup=gfindb) o algoritmo prev potenciais iniciadores e stios de transcrio de genes de bactrias regulamentadas pelo sigma70. Alm disso,descreve os motivos funcionais e comoposio de oligonucleotdios destes stios. Sua especificidade tambm cerca de 80%. A sada do programa d o nmero total de promotores preditos, as regies -10 e -35 com suas respectivas sequncias e suas localizaes ; stios de ligao a fatores transcricionais conhecidos e seus respectivos escores e localizao no genoma.

Sida do BProm As sequncias genmicas foram divididas em conjuntos de 90.000 pares, para padronizao, visto que o programa BDGP-Neural Network Promoter Prediction aceita como entrada apenas esse numero de bases. As anlises realizadas com o BDGP Promoter Predictor foram feitas utilizando-se limiares de 0.93 e 0.95, que corresponde ao escore mmimo associado ao promotor.

4.RESULTADOS E DISCUSSO
14

Anotao funcional de C.pseudotuberculosis

Cp1002 Nmero total de 2273983 bases Nmero de 53 provveis pseudogenes Nmero total de 2045 genes preditos Densidade 1111 bases por kb gnica Percentagem 85,3% codificante Percentual GC 52,94%

CpPAT-10 2297058 57

CpC231 2320019 63

2087 1095 bases por kb 86,7% 52,18%

2039 1137 bases por kb 84,7% 52,92%

Promotores preditos na linhagem Cp1002 e CpC231


Nmero de promotores Nmero de promotores peditos pelo Bprom preditos pelo BDGP
Limiar 0.93 Limiar 0.95

Cp1002

5092

4648

3339

CpC231

4984

4769

3417

15

Ao passar do limiar 0.93 para 0.95 houve eliminao de 39% do promotores preditos

Grfico- a proporo de promotores preditos para as linhagens Cp1002 e CpC231, considerando os programas de predio de promotores bacterianos Bprom e BDGP

16

Pseudogenes aparecem nos genomas como cpias inativadas de genes e so caracterizados por mudanas na fase de leitura do produto codificado em razo da insero de cdons de parada prematuros. A grande proporo de pseudogenes presentes em algumas espcies bacterianas patognicas tem sido relatada devido a uma rpida mudana no nicho ambiental, com a perda de vias metablicas e respiratrias. Um total de 53 pseudogenes foi encontrado na linhagem de C. pseudotuberculosis 1002, j na linhagem C231, foram caracterizados 66 pseudogenes. Entre eles, esto presentes provveis genes de protenas de transporte do tipo ABC, beta hidrolases, protenas de transporte, dehidrogenase e transposases. Em uma abordagem comparativa das duas linhagens com a espcie C. diphtheriae, utilizando o programa ACT: Artemis e anlise de similaridade protica, utilizando-se o programa tBLASTx - NCBI, foi observado que trs pseudogenes presentes nesse patgeno tambm esto presentes em C. pseudotuberculosis, sendo dois deles provveis transposases e o outro, uma provvel aminotransferase.

Ilustrao dos pseudogenes presentes nos genomas de C. pseudotuberculosis. Acima na figura est o genoma da linhagem 1002, abaixo o genoma da linhagem C231. As regies em vermelho e amarelo ilustram a similaridade entre os genomas. Os retngulos vermelhos destacados so os pseudogenes. Figura obtida no programa ACT: Artemis Comparison Tool.

Tratando-se de anlises comparativas entre as linhagens de C. pseudotuberculosis, os resultados demonstraram uma alta similaridade no padro de pseudogenes presentes no genoma . A porcentagem de 74,5% pseudogenes presentes na linhagem de C. pseudotuberculosis 1002 so compartilhados com o isolado C231. A alta similaridade relacionada presena de pseudogenes no genoma pode estar relacionado aquisio recente dos mesmos. O no compartilhamento de pseudogenes entre espcies e linhagens pode ser um indcio de processo de perda gnica ou refletir a particularidade de cada genoma. Em relao anotao do genoma de C. pseudotuberculosis PAT-10, a validao de 57 pseudogenes em seu genoma reflete o relacionamento filogentico com C. pseudotuberculosis 1002 (que possui 53 pseudogenes preditos) e C. pseudotuberculosis C231( que possui 63
17

pseudogenes preditos), e pode indicar tambm a diferena de nicho entre elas, visto que Cp1002 e CpC231 foram isoladas, respectivamente, de abscesso de caprino no estado da Bahia, Brasil e de abscesso de ovino da Austrlia. Comparando a anotao dos genomas de CpC231, Cp1002 e CpPAT-10, as trs linhagens possuem percentual GC e percentagem codificante muito similares, sendo mais um indcio de alta proximidade filogentica entre elas, cujo genoma anotado pode ajudar a determinar possveis mecanismos de virulncia e patogenicidade comuns, importantes para pesquisa de potenciais antgenos vacinais. Interessante notar que, ao fazer a predio de promotores para CpC231 e Cp1002, utilizando os programas Bprom e de BDGP Neural Network Promoter Prediction, o primeiro apresentou maior sensibilidade e predisse para as linhagem CpC231 4984 promotores e para Cp1002, 5092 promotores. Em relao predio pelo BDGP Neural Network Promoter Prediction, os nmeros diferem siginficativamente em relao predio feita pelo Bprom e a diferena de total de promotores preditos usando o limiar 0.93 e 0.95 constatou-se ser de 39% para ambas as linhagens, indicando possivelmente a perda significativa de informao, ao eliminar percentual considervel de promotores.

18

REFERNCIAS BIBLIOGRFICAS
1 Williamson LH. Caseous Lymphadenitis in small ruminants. Vet. Clin. North Am. Food Anim.Pract (2001) 17: pp. 359-71. 2. Merchant IA & Packer RA. The genus Corynebacterium. in: veterinary bacteriology and virology. 7th edn. the iowa state university press, iowa, usa. (1967) : pp. 425-40.

3. Dorella FA, Fachin MS, Billault A, Dias Neto E, Soravito C, Oliveira SC, Meyer R, Miyoshi A, Azevedo V (2006) Construction and partial characterization of a Corynebacterium pseudotuberculosis bacterial artificial chromosome library through genomic survey sequencing. Genet Mol Res. 5:653-63.b 4. Songer JG, Beckenbach K, Marshall MM, Olson GB, Kelley L (1988) Biochemical and genetic characterization of Corynebacterium pseudotuberculosis. Am. J. Vet. Res. 49:223226. 5. Cerdeo-Tarraga AM, Efstratiou A, Dover LG, Holden MTG, Pallen M, Bentley SD, (2003) The complete genome sequence and analysis of Corynebacterium diphthteriae NCTC13129. Nucleic Acids Res. 31:65166523.

6. Hogson AL, carter K, Tachedjian M, Krywult, J Corner LA, Mccoll, M, Cameron A (1999) Efficacy of an ovine caseous lymphadenitis vaccine formulated using a genetically inactive form of the Corynebacterium pseudotuberculosis phospholipase D. Vaccine. 17:802808.

7. Anlise dos genes mais expressos e do status atual do transcriptoma de Schistosoma mansoni utilizando ferramentas de bioinformtica [manuscrito] / 2003 Dissertaes - Acervo 375030 SANTOS, Francisco Prosdocimi de Castro; FRANCO, Glria Regina; SANTOS, Fabrcio Rodrigues dos UNIVERSIDADE FEDERAL DE MINAS GERAIS. Anlise dos genes mais expressos e do status atual do transcriptoma de Schistosoma mansoni utilizando ferramentas de bioinformtica. 2003. vi, 106 f. : Dissertao (mestrado) - Universidade Federal de Minas Gerais, Departamento de Biologia Geral.

8. Rutherford K, Parkhill J, Crook J, Horsnell T, Rice P, Rajandream M-A, Barrell B. Artemis: sequence visualisation and annotation. Bioinformatics. 2000;16:944945. doi: 10.1093/bioinformatics/16.10.944.

9. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215:403410. doi: 10.1006/jmbi.1990.9999. 10. Mazumder R, Vasudevan S Structure-guided comparative analysis of proteins: principles, tools, and applications for predicting function. PLoS Comput Biol. 2008 Sep 26;4(9):e1000151

19

20

Potrebbero piacerti anche