Sei sulla pagina 1di 65

Organização e Evolução de Genomas

Juliana de Oliveira

Roteiro

Dogmas: central e periférico

Genomas e proteomas

Espionando a transmissão da informação genética

Selecionando genes e genomas

Genomas de procariotos

Genomas de eucariotos

O genoma do Homo sapiens

Polimorfismos de um único nucleotídeo (SNPs)

Diversidade genética na antropologia

Evolução de genomas

Dogmas: central e periférico

O arquivo de informações em cada organismo é o

material genético

A replicação quase perfeita do DNA é essencial para estabilidade da herdabilidade

As imperfeições também são necessárias, gerando

informações evolutivas

A implementação da informação genética ocorre inicialmente com a síntese de RNA e proteínas

evolutivas • A implementação da informação genética ocorre inicialmente com a síntese de RNA e proteínas

Dogmas: central e periférico

O código genético é de fato uma codificação

Tripletos de letras sucessivas da sequência do DNA

especificam aminoácidos consecutivos Porção de sequências de DNA codificam sequências de aminoácidos de proteínas

Proteínas são compostas de 200 a 400 aminoácidos, o que exige de 600 a 1.200 letras de mensagens de DNA expresso para especificá-las

RNA ribossomal também é determinado pelo DNA

Dogmas: central e periférico

Nem todo DNA é expresso em proteínas ou RNA

estrutural

Muitos genes a serem transcritos apresentam sequências chamadas íntrons (sequências não

traduzidas)

Algumas regiões do DNA atuam como mecanismos de controle

Uma porção substancial do genoma dos organismos superiores aparenta ser supérflua (ainda não compreendemos sua função)

Dogmas: central e periférico

Nomenclatura e estrutura molecular

Os quatro nucleotídeos de ocorrência natural

no DNA (RNA)

a

– a adenina

adenina

g

– g guanina

guanina

c

– c citosina

citosina

t

– t timina

timina

(u

g guanina – c citosina – t timina (u uracila) 1. As moléculas de DNA são

uracila)

1. As moléculas de DNA são quimicamente similares, e a estrutura do DNA é uniforme (embora algumas interações

DNA proteína causam

distorções na estrutura do DNA

2. Proteínas e RNAs estruturais apresentam ampla variedade de conformações tridimensional,

necessárias para garantir o

desempenho de diversos papéis

funcionais

Dogmas: central e periférico

Aminoácidos

Não-polares

G glicina (Gli)

I isoleucina (Ile)

A alanina (Ala)

P prolina (Pro)

V valina (Val)

L leucina (Leu)

F fenilalanina (Phe)

M metionina (Met)

Polares

S serina (Ser)

C cisteína (Cis)

T treonina (ter)

N asparigina (Asn)

Q glutamina (Gln)

H histidina (His)

Y tirosina (Tir)

W triptofano (Trp)

Carregados

D ác. Aspártico (Asp)

E ác. Glutâmico

(Glu)

K lisina (Lis)

R arginina (Arg)

Dogmas: central e periférico

O código genético padrão

ttt

Phe

tct

Ser

tat

Tir

tgt

Cis

ttc

Phe

tcc

Ser

tac

Tir

tgc

Cis

tta

Leu

tca

Ser

taa

Parada

tga

Parada

ttg

Leu

tcg

Ser

tag

Parada

tgg

Trp

ctt

Leu

cct

Pro

cat

His

cgt

Arg

ctc

Leu

ccc

Pro

cac

His

cgc

Arg

cta

Leu

cca

Pro

caa

Gln

cga

Arg

ctg

Leu

ccg

Pro

cag

Gln

cgg

Arg

att

Ile

act

Tre

aat

Asn

agt

Ser

atc

Ile

acc

Tre

aac

Asn

agc

Ser

ata

Ile

aca

Tre

aaa

Lis

aga

Arg

atg

Met

acg

Tre

aag

Lis

agg

Arg

gtt

Val

gct

Ala

gat

Asp

ggt

Gli

gtc

Val

gcc

Ala

gac

Asp

ggc

Gli

gta

Val

gca

Ala

gaa

Glu

gga

Gli

gtg

Val

gcg

Ala

gag

Glu

ggg

Gli

Dogmas: central e periférico

Nomenclatura dos aminoácidos

Histidina, fenilalanina, tirosina e triptofano são

aromáticos e desempenham papéis estruturais especiais em proteínas de membrana

Os nomes dos aminoácidos são abreviados com as

suas três primeiras letras

Exceto: isoleucina (Ile), asparagina (Asn), glutamina (Gln), triptofano (Trp), selenocísteina (Sec)

Convenção: escreve-se

nucleotídeos com letras minúsculas (atg = adenina-timina-

guanina)

Aminoácidos em letras maiúsculas (ATG = alanina-treonina- glicina)

Dogmas: central e periférico

A sequência de aminoácidos de uma proteína determina sua

estrutura tridimensional

Para cada sequência de aminoácidos natural, há um único estado nativo estável, o qual sob condições adequadas é estabelecida sem alterações

Para leitura de uma proteína é preciso desenovelar em uma

estrutura desordenada e inativa

Quando as condições normais são restauradas, as moléculas de proteínas geralmente reassumem a sua estrutura nativa

As funções das proteínas dependem de elas adotarem a

estrutura tridimensional do seu estado nativo

Dogmas: central e periférico

Dogmas: central e periférico

Dogmas: central e periférico

O enovelamento espontâneo de proteínas para

formar seu estado nativo é o ponto em que a

natureza realiza o grande salto do mundo unidimensional em sequências dos genes e sequências de proteínas para o mundo tridimensional em que vivemos

Paradoxo

A tradução de sequências de DNA em sequências de

aminoácidos é muito simples de descrever de maneira

lógica

de sequências de DNA em sequências de aminoácidos é muito simples de descrever de maneira lógica

código genético

Dogmas: central e periférico

O enovelamento de uma cadeia polipeptídica em

uma estrutura tridimensional precisa é muito difícil

de explicar de maneira lógica

A tradução exige mecanismos moleculares

complicados do ribossomos, dos tRNAs e moléculas

associadas

Entretanto, o enovelamento ocorre espontaneamente

Dogmas: central e periférico

Características dos aminoácidos

Dependem dos componentes de suas cadeias laterais, fazem

com que possam ser reunidos em grupos específicos, como hidrofóbicos, hidrofílicos, aromáticos, alifáticos, entre outros

Um somatório de características, como grau de hidrofobicidade,

presença de enxofre, tamanho, determinam que tipo de

estrutura secundária, terciária e quaternária uma determinada sequência de aminoácidos irá formar

Sequências contendo várias diferenças em relação aos aminoácidos, podem formar proteínas semelhantes, bastando conter aminoácidos com características semelhantes em posição análogas nas sequências

Dogmas: central e periférico

Paradigma molecular

A sequência de DNA determina a sequência de proteína

sequência de proteína determina a estrutura da proteína

estrutura da proteína determina a função da proteína

Mecanismos reguladores, incluindo mas não limitado ao

A

A

controle de padrões de expressão, fornecem as

quantidades corretas das funções corretas, nos momentos

e nos locais corretos

Dogmas: central e periférico

Grande parte da atividade organizada da

bioinformática está focalizada na analise de dados

relacionados a esses processos do paradigma

Esse paradigma não inclui níveis maiores do que o da

estrutura e organização molecular

Genomas e proteomas

O Projeto Genoma é um trabalho que visa desvendar

o código genético de um organismo (animal, vegetal,

fungos, bactérias ou vírus) através do seu mapeamento

O genoma de uma bactéria se apresenta como uma única molécula de DNA

O DNA de organismos superiores está organizado em cromossomos

Células humanas contêm 23 pares de cromossomos

Genomas e proteomas

A quantidade total de informação genética por

célula, ou seja, a sequência de nucleotídeos de DNA,

é aproximadamente constante para todos os membros de uma espécie, mas varia bastante entre espécies

Genomas e proteomas

Tamanhos de alguns genomas

 

Organismo

Número de pares de bases

Número de genes

Comentário

X-174

5.386

10

Vírus que infecta E. coli

H.

influenzae

1.830.138

1.738

Bactéria causadora de infecções do ouvido médio

E. coli

4.639.221

4.377

Organismo predileto dos biólogos moleculares

C. elegans

103.006.709

20.598

Verme

D.

melanogaster

128.343.463

13.525

Mosca-das-frutas

Humanos

3.223 x 10 6

36000?

 

Trigo

16 x 10 9

30.000

 

Genomas e proteomas

Nem todo o DNA codifica proteínas

Alguns genes existe em múltiplas cópias

A quantidade de informação sobre sequências de proteínas em uma célula não pode ser facilmente estimada a partir do tamanho do genoma

Um gene que codifica uma determinada proteína corresponde a uma sequência de nucleotídeos ao longo de uma ou mais regiões de uma molécula de

DNA

Genomas e proteomas

O gene seria definido então como um segmento do

DNA contendo o código para uma determinada

proteína

Já se sabia antes de completado o genoma, que seus

elementos significativos ou região codificadora

(éxons) aparecem interrompidos na longa cadeia de DNA por sequências aparentemente inúteis ou não codificadoras (íntrons)

O código para a fabricação da proteína só será

montado na hora, num processo conhecido como união (splice)

Genomas e proteomas

Genomas e proteomas

Genomas e proteomas

Genomas e proteomas

Genomas e proteomas

O controle da informação organiza a expressão de

genes

Mecanismos de controle podem ligar ou desligar genes

Muitas regiões do DNA estão localizadas próximas a

segmentos de DNA que codificam proteínas

Que contêm sequências sinalizadoras que servem de sítio de ligação para as moléculas reguladoras que podem bloquear a transcrição

Genomas e proteomas

O Projeto proteoma é um programa em larga escala

que lida de forma integral com o padrões de

expressão de proteínas em sistemas biológicos, de modo complementar e suplementar aos projetos genoma

O objetivo principal é a descrição espaço-temporal da distribuição de proteínas no organismo

Genomas e proteomas

O sequenciamento dos aminoácidos das proteínas

pode ser realizado

A partir da tradução do DNA

Uma proteína inferida a partir da sequência de um genoma é apenas um objeto hipotético até que experimentos comprovem a

sua existência

Diretamente a partir do sequenciamento de proteínas

Espionando a transmissão da informação

genética

Como a informação hereditária é armazenada,

transmitida e implementada talvez seja o problema

fundamental da biologia

Existem três tipos essenciais de mapas

Mapas de ligações de genes

Padrões de bandeamento de cromossomos

Sequências de DNA

Esses mapas representam tipos bastante diferentes de dados

Espionando a transmissão da informação

genética

Mapas de ligações de genes

É determinado classicamente pela observação de padrões

de hereditariedade

Mapas de padrões de bandeamento de cromossomos

Os cromossomos são objetos físicos

Padrões de bandas são suas características visíveis

Espionando a transmissão da informação

genética

A sequência de DNA

Fisicamente, constitui-se da sequência de nucleotídeos em

uma molécula

Computacionalmente, é um conjunto de caracteres

A, T, G e C

Os genes são regiões da sequência, em muitos casos, interrompida por regiões não-codificadoras

Espionando a transmissão da informação

genética

Fazer conexões entre esses três tipos de dados foi a

grande conquista da biologia do século passado

As relações entre cromossomos, genes e sequências de DNA foram essenciais na identificação das

deficiências moleculares responsáveis pelas doenças

hereditárias

O sequenciamento do genoma humano modificou esta situação

Espionando a transmissão da informação

genética

Dada uma doença ocasionada por uma proteína

defeituosa

Se soubermos qual é a proteína envolvida, podemos desenvolver terapias por meio de métodos racionais

Se soubermos qual é o gene envolvido, podemos

desenvolver testes para identificar indivíduos doentes e

portadores

Em muitos casos, o conhecimento da localização

cromossômica do gene não é necessário para a terapia

nem para a detecção

É necessário apenas para a identificação do gene, criando uma ponte entre os padrões de hereditariedade e a sequência de DNA

Selecionando genes em genomas

Programas de computadores para a análise de

genomas identificam fases de leitura aberta ou ORFs

(open reading frame)

Uma ORF é uma região da sequência de DNA que

começa com um códon iniciador (ATG) e termina

com um códon de parada

Uma ORF é uma região codificadora de proteína em potencial

Selecionando genes em genomas

Técnicas para a identificação de regiões codificadoras

de proteínas combinam ou escolhem entre duas

abordagens possíveis

Detecção de regiões similares a regiões codificadoras conhecidas de outros organismos

Métodos ab initio (deste o início) que procuram identificar genes a partir de propriedades intrínsecas das sequências de DNA

Selecionando genes em genomas

O NCBI mantém um programa de busca de ORFs

O Finder ORF (Open Reading Frame Finder) é uma

ferramenta de análise gráfica que encontra todos os

quadros de leitura aberta de um tamanho mínimo selecionável em sequência de um usuário ou em uma

sequência já no banco de dados

Sequência pesquisada

Gene da fibrose cística CFTR (cystic fibrosis transmembrane

conductance regulator

Gene ID: 1080

Selecionando genes em genomas

Selecionando genes em genomas

Selecionando genes em genomas

Selecionando genes em genomas

Genomas de procariotos

A maioria das células procarióticas contém seu

material genético na forma de uma única molécula

de DNA dupla fita circular grande

As regiões codificadoras de proteínas nos genomas

bacterianos não contêm íntrons

Em muitos genomas procarióticos, tais regiões estão parcialmente organizadas em óperons genes adjacentes que são transcritos em uma única molécula de mRNA, sob o controle transcricional

Genomas de procariotos

Em bactérias, os genes de muitos óperons codificam

proteínas com funções correlatas

Um genoma procariótico típico contém apenas uma quantidade relativamente pequena de DNA não- codificador

Exemplos

Mycoplasma genitalium (NC_000908.2) (1995)

0,58x10 6 pb, 524 genes e 475 proteínas

Methanococcus jannaschii (NC_000909.1) (1996)

1,74x10 6 pb, 1.823 genes e 1.771 proteínas

Escherichia coli K-12 MG1655 (NC_000913.2) (1997)

4,64x10 6 pb, 4.496 genes e 4.146 proteínas

Gene ID: 3654480

Genomas de eucariotos

Em células eucarióticas, a maior parte do DNA está

no núcleo, separado em feixes de nucleoproteínas,

os cromossomos

Cada cromossomo contém uma única molécula de

DNA fita dupla

Quantidades menores de DNA são observadas em organelas mitocôndrias e cloroplastos

Genomas de eucariotos

As espécies eucarióticas variam quanto ao

Conteúdo de DNA

Ao número de cromossomos

Distribuição de genes entre eles

Exemplo

Os humanos possuem 23 pares de cromossomos e os chimpanzés têm 24

O cromossomo 2 humano corresponde a uma fusão dos

cromossomos 12 e 13 dos chimpanzés

Genomas de eucariotos

Exemplos

Saccharomyces cerevisiae (fermento de padeiro) (1996)

16 cromossomos, 12,16x10 6 pb, 6.352 genes e 5907 proteínas

Caenorhabditis elegans (verme) (1998)

6 cromossomos, 100,28x10 6 pb, 21.187 genes e 23.906 proteínas

Drosophila melanogaster (mosca-das-frutas) (1999)

6 cromossomos, 149,78x10 6 pb, 15.581 genes e 24.161 proteínas

Arabidopsis thaliana (planta florífera) (2000)

5 cromossomos, 119,67x10 6 pb, 33.583 genes e 35.378 proteínas

O genoma do Homo sapiens

Homo sapiens (homem) (2003)

22 pares de cromossomos, mais os cromossomos

X e Y,

3.095,69x10 6 pb

36.073 genes

32.143 proteínas

O genoma do Homo sapiens

A análise do repertório de proteínas humanas derivadas de

sequência do genoma tem se mostrado bastante complicada

pelos problemas de confiabilidade na detecção de genes

Principais categorias de proteínas, em uma classificação funcional, num total de 39 classes (subclasses), totalizando 15.683 proteínas

Ligação a ácido nucléicos (2.207)

Enzima (3.242)

Transdução de sinal (1.790)

Proteína estrutural (714)

Transporte (682)

Supressor de tumor (5)

Não classificadas (4.813)

O genoma do Homo sapiens

Uma classificação baseada na estrutura revelou os

tipos mais comuns de proteínas num total de 30

tipos

Imunoglobulina e domínio do complexo de histocompatibilidade principal (591)

Dedo de zinco tipo C2H2 (499)

Proteína cínase eucariótica (459)

Superfamília GPCR tipo rodopsina (346)

Sítio ativo da família de proteínas serina/treonina cínase

(285)

O genoma do Homo sapiens

Sequências de repetições compreendem mais de

50% do genoma

Elementos de transposição, ou repetições intercaladas

Psedogenes retropostos (cópias danificadas não-funcionais de genes)

Simples repetições de pequenos oligômeros (fragmentos curtos de DNA)

Duplicação de segmentos de blocos de ~10 a ~300 kpb

O genoma do Homo sapiens

Genes de RNA no genoma humano incluem:

497 genes de RNA transportador

Genes de RNAs ribossomais

RNAs nucleolares

snRNAs (RNAs pequenos)

Polimorfismos de um único nucleotídeo (SNPs)

Um polimorfismo de um único nucleotídeo ou SNP é

uma variação genética entre indivíduos, limitada a

um único par de bases, o qual pode ser substituído, inserido ou removido

Os SNPs estão distribuídos ao longo de todo o

genoma, ocorrendo em média a cada 5.000 pb

Muitos dos SNPs se encontram em regiões não- funcionais do genoma

Exemplo

Anemia falciforme (mutação AT)

Os alelos A, B e O dos genes para os tipos sanguíneos

Polimorfismos de um único nucleotídeo (SNPs)

Tratamentos de doenças causadas por proteínas

defeituosas ou ausentes incluem

Provisão da proteína funcional

Ajuste ao estilo de vida que tornem a proteína desnecessária

Terapia gênica para a substituição da proteína ausente ou mutante

Diversidade genética na antropologia

Antropologia é a ciência que tem como objeto o

estudo sobre o homem e a humanidade de maneira

totalizante, ou seja, abrangendo todas as suas dimensões

As informações obtidas com os SNPs são de grande utilidade na antropologia, fornecendo dados sobre variações históricas no tamanho da população e padrões de migração

Diversidade genética na antropologia

Os graus de diversidade genética são interpretáveis

em termos do tamanho da população fundadora

Fundadores são o conjunto original de indivíduos dos quais uma população inteira descende

Exemplo

Extrapolações da variação do DNA mitocondrial (é um organelo, notavelmente móvel e plástico, presente no citoplasma de células eucarióticas - O conteúdo mitocondrial das nossas células é herdado apenas por via materna) do homem contemporâneo

sugerem um único ancestral materno, o qual viveu entre 14.000 e

200.000 anos atrás

Diversidade genética na antropologia

Os SNPs específicos de uma população podem

fornecer informações sobre migrações

Sequências mitocondriais fornecem informações sobre ancestrais femininos e sequências do

cromossomo Y fornecem informações sobre

ancestrais masculinos

Exemplo

Foi sugerido que a população da Islândia descende de homens

oriundos da Escandinávia e de mulheres oriundas tanto da

Escandinávia quanto das Ilhas Britânicas

O que se comprovou através de escritos medievais islandeses

Diversidade genética na antropologia

Na descoberta de populações isoladas, a genética

antropológica fornece informações úteis na

medicina, pois o mapeamento de genes relacionados com doenças se torna fácil se as variações espontâneas forem baixas

Populações europeias geneticamente isoladas: bascos, finlandeses, islandeses, galeses e lapões

Diversidade genética na antropologia

Variações em nossa sequência de DNA nos conferem

marcas individuais, como se fosse uma impressão

digital genética

Nossas sequências de DNA mitocondrial são

geneticamente idênticas (homoplasmia)

Porém alguns indivíduos contêm mitocôndrias com sequências diferentes de DNA (heteroplasmia)

O que pode contribuir para a identificação pessoal

Diversidade genética na antropologia

Análise genética animal os recursos animais são um

aspecto integral e essencial da cultura humana

Análises das sequências de DNA esclareceram alguns aspectos do seu desenvolvimento histórico e das variedades genéticas que caracterizam as populações

modernas

Exemplo

Análises de sequências de DNA mitocondrial do gado europeu, africano e asiático sugerem que todas as raças europeias e

africanas estão mais relacionadas entre si do que cada uma delas

com as raças indianas e que estes dois grupos divergiram há cerca de 200.000 anos

Evolução de genomas

A disponibilidade de informações completas sobre

sequências de genomas alterou o rumo das pesquisas

Um desafio comum na análise de genomas é identificar algum evento interessante

A genômica comparativa é uma nova área de pesquisa que lida com questões tais como

Quais genes são compartilhados por filos diferentes?

Quais proteínas homólogas são compartilhadas por filos

diferentes?

Quais funções bioquímicas são compartilhadas por diferentes filos?

Evolução de genomas

Pesquisas da genômica comparativa entre três espécies

(H. influenzae (bactéria), M. jannaschii (arqueobactéria)

e S. crerevisiae (levedura)) levaram a uma lista de classes de funções gerais e a responderem a pergunta existem proteínas comuns com funções comuns?

Sim existem

E análises das funções compartilhadas pelos três domínios levaram os cientistas a se perguntarem se seria possível definir um organismo mínimo

Isto é, um organismo com o menor genoma possível que fosse

consistente com uma forma de vida independente e baseada no

dogma central DNARNAproteína (ou seja, excluindo-se as formas de vida livres de proteínas e baseadas apenas em RNA)

Evolução de genomas

Conclusões

A viabilidade de um organismo com estas proteínas não foi

demonstrada

Mas a pesquisa identificou uma série de funções necessariamente comuns a todas as formas de vida

O que levou a uma questão

Até que ponto diferentes formas de vida desempenham essas funções da mesma maneira?

O desafio continua sendo o de mapear funções comuns e proteínas comuns

Ou seja, um conjunto de proteínas comuns executa um conjunto

de funções comuns?

Evolução de genomas

A evolução explorou, em proporções variadas, o

vasto potencial das proteínas para diferentes tipos de

funções

Esta variação foi mais conservadora na área de

síntese de proteínas

Evolução de genomas

Ainda na genômica comparativa, mas de eucariotos

A comparação dos genomas de levedura, mosca,

verme e do homem revelou 1.308 grupos de proteínas que são comuns aos quatro organismos

Esses grupos formam um conjunto central de proteínas

conservadas para funções básicas, incluindo metabolismo, replicação e reparo do DNA e tradução

Evolução de genomas

A duplicação gênica seguida de divergência é um

mecanismo de criação de famílias de proteínas

Exemplo

Existem 906 genes e pseudogenes para receptores olfativos no genoma humano

Foram encontrados homólogos em levedura e outros fungos

Mas é a necessidade dos vertebrados de terem um olfato altamente desenvolvido que levou esta família de genes a este nível de multiplicação e especialização

Evolução de genomas

Outra área de pesquisa é a transmissão horizontal de

genes

Em geral, a transferência horizontal de genes é a aquisição de material genético de um organismo por

outro organismo, por meios naturais e não por

procedimentos, através de mecanismos que não incluam a descendência direta durante a replicação ou reprodução

Evolução de genomas

Evidências de transferência horizontal incluem

Discrepâncias entre árvores evolucionárias construídas a

partir de genes diferentes

Comparações diretas entre genes de espécies distintas

Exemplo

Pelo menos oito genes humanos são observados no genoma M. tuberculosis

Referências

LESK, A. M. Introdução a Bioinformática. 2ª Ed. Porto Alegre: Editora Artmed, 2008

GIBAS, C., JAMBECK, P., Desenvolvendo Bioinformática. Rio de Janeiro: Campus,

2001

NCBI. National Center for Biotechnology Information. Disponível em:

<http://www.ncbi.nlm.nih.gov/>. Acesso em: 09 Ago. 2012

BLAST. Basic Local Alignment Search Tool. Disponível em:

<http://blast.ncbi.nlm.nih.gov/Blast.cgi>. Acesso em: 09 Ago. 2012