Sei sulla pagina 1di 76

Bancos de dados biológicos

Prof. Leonardo M. Cruz


Núcleo de Fixação de Nitrogênio
Departamento de Bioquímica e Biologia Molecular
Universidade Federal do Paraná
Por que bancos
de dados?

A biologia se tornou uma ciência rica em
dados

Genômica, proteômica, metabolômica...

Grande quantidade de dados gerados em
experimentos

Necessidade para estocar e intercruzar
grandes conjuntos de dados

Arquivar, curar, analisar e interpretar estes
dados são um desafio

Métodos convenientes para estocar, pesquisar
e recuperar são necessários

Os bancos de dados são a forma de lidar
com esta sobrecarga de dados
Conceitos básicos

Definição mais simples

Conjunto de informações armazenadas

Conceitualmente

Uma maneira de unir dados e relacionar partes da
informação consistentemente
Tipos de bancos de dados

Flat text files

XML – Extensible Markup Language

Bancos de dados relacionais

Mantém a segurança e consitência entre os dados

RDBMS – Relational Database Management Systems
– Sistemas de gerenciamento de banco de dados relacional
– Permite pesquisa dos dados de forma eficiente
– Usa linguagem própria

SQL – Structured Query Language
Flat text files

Informação armazenada em arquivos texto

Texto é estruturado

Facilita acesso automático

Facilita legibilidade

Fácil leitura por humanos e máquinas

Ex., FASTA, Genbank
XML

Adiciona SINTAXE ao contceito de um arquivo
texto estruturado
É um texto estruturado

informação

tags
Banco de dados relacional

Conceitos importantes

Banco de dados
Tabela
Campos
Relações
Chave-primária
Arquitetura dos bancos de dados
A maioria dos bancos de dados biológicos
usa um arquitetura com três níveis (tier)

3. Interface Web com o usuário

2. Programas de acesso ao
banco de dados e servidor Web

1. Sistema de gerenciamento de banco de dados


Stein, L.D. Nature Review Genetics, 4:337-345, 2003.
Bancos de dados biológicos:
histórico

1965

Margaret Dayhoff e colegas publicaram “Atlas of Protein
Sequences and Structures” (livro)

1982

EMBL inicia o banco de dados de sequências de DNA

Seguido pelo GenBank em 1983 e DNA Database of Japan
em 1984

1988

EMBL/GenBank/DDBJ fecham acordo para formato e troca de
dados
Classificação dos bancos
de dados biológicos

Primário

Resultados experimentais diretamente no banco de dados
– Nucleotídeos: GenBank, EMBL, DDBJ, PDB
– Proteínas: UniProtKB

Secundário

Resultado de análises de bancos de dados primários
– Motivos e famílias de proteínas: PROSITE, Pfam
– Classificação de estruturas de proteínas: SCOPE, CATH

Especializado

Dedicados a um assunto de interesse abrangente, como organismo, gene, proteína, etc. em
particular, contendo diferentes fontes de dados (sequência, literatura, experimental, etc.)
– Gene/proteínas: RDP, SILVA (16S rRNA), REBASE (endonucleases de restrição)
– Organismo: RAP-DB (planta), WormBase (verme), EcoCyc (bactéria)
– OMIM (doenças humanas)

Alguns bancos de dados formam sistemas integrados de informação biológica
– Redes: STRING (interação entre proteínas), KEGG, BioCyc (redes metabólicas)

Atenção! Alguns bancos de dados possuem características de mais de um grupo
Fontes de dados em bancos de
dados primários
DNA
Fragmento Fragmentação de
específico molécula longa

RNA

cDNA Proteína

Sequenciamento de nt Sequenciamento Estrutura


de aa 3D

Montagem

Sequência curta Sequência longa EST/RNA-seq Sequência da proteína


Bancos de dados primários
Sequências de nucleotídios e aminoácidos
INSDC


International Nubleotide Sequence Database
Collaboration

DNA Data Bank of Japan
– National Institute for Genetics in Mishima, Japan

European Nucleotide Archive
– European Molecular Biology Laboratory's European
Bioinformatics Institute (EMBL-EBI), Hinxton, UK

National Center for Biotechnology Information
– Bethesda, Maryland, USA
Volume de dado acumulados
ao longo do tempo no INSDC
Cobertura taxonômica
Crescimento no no. de taxa com sequência associada
Sequências genômicas
Atualmente constituem uma porção importante dos bancos de dados
Principais portais na Web para acesso
aos bancos de dados biológicos
EBI – The European
Bioinformatics Institute

www.ebi.ac.uk
DDBJ – DNA Data Bank of Japan

www.ddbj.nig.ac.jp
NCBI – National Center for Biotechnology Information

www.ncbi.nlm.nih.gov
GenBank

Mantido pelo NCBI

É um banco de dados de sequências genéticas

Inclui sequências de: RNAm, RNAr e DNA genômico

As sequências são anotadas
– Possuem informações associadas: taxonômica, literatura, estruturais (ex., localização de
genes)

É parte do International Nucleotide Sequence Database Collaboration

Release 233 – Sayers et al., 2020 (doi: 10.1093/nar/gkz956)

Contém mais de 6,25 trilhões de bases

Mais de 1,6 bilhões de sequências nucleotídicas

Para 450.000 espécies descritas

2.467 arquivos totalizando 1.057 GB de dados
GenBank

NÃO inclui sequências de (bancos de dados separados):

TPA (Third Party Annotation) – utiliza dados
experimentais/inferenciais para anotação de sequências indiretamente
– RNAm montado a partir de sequências EST, outros RNAm parciais e
genômicas
– Sequências genômicas não anotadas agora descrita como novos genes
– É necessário que todas as novas anotações sejam determinadas
experimentalmente, direta ou indiretamente

RefSeq (Reference Sequences)
– Conjunto de sequências genômicas, transcritas e proteínas de referência

WGS (Whole Genome Shotgun)
– Projetos de sequenciamento genômico incompletos
Divisões do GenBank

Dividido em duas categorias gerais

Organismo
– Inclui sequências derivadas de organismos específicos

Funcional
– Inclui sequências derivadas de diferentes estratégias de
sequenciamento

Os registros de sequências existem em uma
única divisão

Não ocorre duplicação
Divisões do GenBank
Divisões taxonômicas

Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Sequências Bases
Bacterial sequences BCT 1.579.398 36.910.152.195
Environmental sample ENV 8.558.206 5.539.031.783
Invertebrate sequences INV 7.048.656 17.023.144.613
Other mammalian sequences MAM 497.064 3.868.318.292
Phage sequences PHG 12.256 333.250.155
Plant and Fungal sequences PLN 4.522.176 16.616.158.367
Primate sequences PRI 865.517 7.957.285.803
Rodent sequences ROD 534.974 4.516.833.264
Synthetic and Chimeric sequences SYN 268.140 1.171.294.750
Unannotated sequences UNA 334 209.439
Viral sequences VRL 2.293.121 3.420.250.236
Other vertebrate sequences VRT 2.737.420 7.073.571.810
Divisões do GenBank

Divisões funcionais
Sequências Bases
Expressed sequence tags sequences EST 76.442.503 42.639.352.272
Genome survey sequences GSS 40.242.400 25.972.114.144
Sequence tagged sites sequences STS 1.346.868 640.875.196
High throughput genomic sequences HTG 175.972 27.646.512.139
High-throughput cDNA HTC 622.440 696.510.850
Transcriptome shotgun assembly TSA 16.594.734 13.904.678.499
Patent PAT 37.321.389 19.067.818.816

Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Flat text files no GenBank

O banco de dados GenBank disponibiliza os
dados em dois principais flat text files

Formato FASTA
– Sequência de DNA ou proteína
– Pouca informação adicional

ex., taxonomia, genes, publicações, etc.

Formato GenBank
– Sequência de DNA ou proteína
– Informações adicionais

ex., taxonomia, genes, publicações, etc.
Formato FASTA
MARCAÇÃO DO INÍCIO Formato universal

TÍTULO
SEQUÊNCIA
>alpha-D DNA ou proteína
ATGCTGACCGACTCTGACAAGAAGCTGGTCCTGCAGGTGTGGGAGAAGGTGATCCGCCAC
CCAGACTGTGGAGCCGAGGCCCTGGAGAGGTGCGGGCTGAGCTTGGGGAAACCATGGGCA
AGGGGGGCGACTGGGTGGGAGCCCTACAGGGCTGCTGGGGGTTGTTCGGCTGGGGGTCAG
CACTGACCATCCCGCTCCCGCAGCTGTTCACCACCTACCCCCAGACCAAGACCTACTTCC
CCCACTTCGACTTGCACCATGGCTCCGACCAGGTCCGCAACCACGGCAAGAAGGTGTTGG
CCGCCTTGGGCAACGCTGTCAAGAGCCTGGGCAACCTCAGCCAAGCCCTGTCTGACCTCA
GCGACCTGCATGCCTACAACCTGCGTGTCGACCCTGTCAACTTCAAGGCAGGCGGGGGAC
GGGGGTCAGGGGCCGGGGAGTTGGGGGCCAGGGACCTGGTTGGGGATCCGGGGCCATGCC
GGCGGTACTGAGCCCTGTTTTGCCTTGCAGCTGCTGGCGCAGTGCTTCCACGTGGTGCTG
GCCACACACCTGGGCAACGACTACACCCCGGAGGCACATGCTGCCTTCGACAAGTTCCTG
TCGGCTGTGTGCACCGTGCTGGCCGAGAAGTACAGATAA

DEVE SER SALVO COMO UM ARQUIVO “SOMENTE TEXTO” (ASCII)

LibreOffice Productivity Suite 27


Formato GenBank
Além da sequência, contém também sua anotação

Cabeçalho

Contém informação sobre


organismo, publicações,
acesso, etc.

ACCESSION

No. de registro no banco de dados


Único para cada sequência

LibreOffice Productivity Suite 28


Formato GenBank
Marca o início da seção de características
Tabela de características

Contém anotação de blocos


de interesse na sequência
Início e fim da
(ex., genes)
característica na
sequências de DNA
característica

qualificador

LibreOffice Productivity Suite 29


Formato GenBank
Marca o início da sequência
Sequência

Seção que contém a


sequência de DNA

DEVE SER SALVO COMO


UM ARQUIVO “SOMENTE
TEXTO” (ASCII)

Marca o final do arquivo


LibreOffice Productivity Suite 30
Feature table

Mantido pelo INSDC

Fornece um extenso vocabulário para descrever características de
uma forma flexível para sua manipulação

Uma grande variedade de características podem ser representadas:

Função biológica

Afetam ou não o resultado da expressão de uma função biológica

Interage com outras moléculas

Afeta a replicação de uma sequência

Afeta ou são resultado de recombinação de diferentes sequências

Representam uma unidade repetitiva

Possui estrutura secundária ou terciária

Exibe variação ou foi revisada ou corrigida

http://www.insdc.org/documents/feature_table.html
Feature table
(Tabela de carcaterísticas)

Formato

Tabular

Contém os itens:
– Feature key (características chave)

Palavra única ou abreviação indicando um grupo funcional
– Location (localização)

Instruções para encontrar a cracterística
– Qualifiers (qualificadores)

Informação auxiliar sobre a característica
Feature table – exemplo
Feature key Location/Qualifiers
CDS 23..400 Trata-se de uma região
codificadora iniciando na base
23 e terminando na base 400
/product=”alcohol dehydrogenase” A região codifica para a enzima
álcool desidrogenase
/gene=”adhI” Nome do gene

Exemplos de “feature keys”


key description
CDS Sequência codificadora para proteína
RBS Sítio de ligação ao ribossomo
rep_origin Origem de replicação
protein_bind Sítio de ligação de proteína ao DNA
tRNA RNA transportador
GenBank WGS division

Whole Genome Shotgun (WGS) Sequences

Inclui sequências de genomas incompletos

Sequências podem ou não conter anotação

Os registros não contém sequências

Contém os no de acesso para as sequências que
compõem o WGS

O conjunto de sequências associadas ao registro
representam sequências contíguas (contigs)

Benson et al. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070


Registro na divisão WGS
Cada projeto WGS está associados
a um “BioProject” e um “BioSample”

Não contém sequências


Identificação para as sequências
Third Party Annotation (TPA)
database

Contém sequêcias derivadas ou montadas a partir do GenBank

Contém sequências de nucleotídios geradas a partir de dados primários
existentes (ex., GenBank), mas re-anotadas

Inclui dois tipos de registros

Experimental: anotação suportada por evidências experimentais

Inferencial: anotação inferida e não submetida a análise experimental

Faz ligação entre o GenBank e RefSeq

Permite re-anotação das sequências a partir de novas evidências experimentais

Os registros podem ser identificados através…

da linha de definição (DEFINITION line)
– Inicia com a identificação “TPA”

Do campo “keywords”
– Possui a identificação “Third Party Annotation; TPA”

https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Registro na divisão TPA do GenBank

Referência do registro
original no GenBank
Relação entre os bancos de dados

GenBank
. Dados de sequências TPA
(primários) enviados . Sequências depositadas
no GenBank
. Sequências anotadas por
quem gerou os dados . Sequências re-anotadas a
partir de dados experimentais
. Sequências não podem ser ou inferenciais
re-anotadas por terceiros

RefSeq
O banco de dados TPA (Third . Sequências de referência
Party Annotation) faz a para genomas
ligação entre os bancos de
dados GenBak e RefSeq . Sequências re-anotadas

https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
RefSeq

Banco de dados de sequências


de referência para genomas

Apresenta uma única cópia para


cada gene no genoma

Dividido em genoma, cDNA e


proteína (NC, NM e NP)

Inclui vírus, bactérias, arquéias


e eucariotos
GenBank vs. RefSeq
Ambos os bancos de dados são mantidos pelo NCBI

https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Nucleotide Database
http://www.ncbi.nlm.nih.gov/nucleotide/

Nucleotide

GenBank TPA

RefSeq PDB

Agrupa todos os dados de


sequências fundamentais para a
pesquisa e descoberta biomédica:
genomas, transcritos e genes
Bancos de dados gerenciados pelo
ENTREZ

Para ver a lista dos bancos atualizada


www.ncbi.nlm.nih.gov
No campo de busca
all[sb]

Sayers et al., 2020 (doi: 10.1093/nar/gkz899)


Encontrando Informação

A busca por informação nos bancos de dados
pode ser feita através:

Busca a partir de palavras chave

Busca a partir da comparação entre sequências
Bancos de dados de sequências de proteínas
UniProt
De onde vem as sequências de
aminoácidos das proteínas

Reigiões codificadoras do DNA


(genômica, metagenômica) ~95%
Sequências de Bancos de dados
Aminoácido de sequências
das proteínas de aminoácidos
Estrutura de proteína ~5%
(difração de raio X, RNM, etc.)

Sequenciamento de proteína
(degradação de Edman,
espectrometria de massa)
Histórico
Atlas of Protein PIR
Sequence and Structure 1984
1965-1978 (NBRF)

Swiss Prot
1986 UniProt
(SIB) 2002

TrEMBL
19??
(EBI)

NBRF = National Biomedical Research Foundation


SIB = Swiss Institute of Bioinformatics
EBI = European Bioinformatics Institute
Protein Database
http://www.ncbi.nlm.nih.gov/protein/

Banco de dados de sequências de


proteínas

Inclui sequências de diversas


fontes:
- Dos bancos de dados do NCBI
+ Tradução de regiões
codificadoras de sequências de
DNA no GenBank
+ RefSeq
+ TPA
- Outros bancos de dados
+ SwissProt
+ PIR
+ PRF
+ PDB
www.uniprot.org

Consórcio mantenedor
→ EMBL-EBI – Europa
→ PIR – EUA
→ SIB – Suiça
UniProt vs. GenBank e RefSeq

UniProt GenBank e RefSeq

Consórcio SIB, EBI e PIR INSDC e NCBI

Sequências Somente proteínas Proteínas e ácidos nucleicos

Divisão Curada Swiss-Prot RefSeq

Divisão Automática TrEMBL GenBank

https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Organização dos bancos de dados
UniProt

UniProt é formado pelas divisões

UniParc
– Banco de dados mais abrangente
– Release 2019_04: 268.856.261

UniProtKB
– Contém as divisões Swiss-Prot e TrEMBL
– Release 2019_04: 560.118 (Swiss-Prot) / 156.077.686 (TrEMBL)

UniRef
– Banco de dados de grupos de sequências de proteínas
– Release 2019_04:

189.887.671 (100%) / 95.339.637 (90%) / 35.763.834 (50%)
Divisões no UniProt

http://www.uniprot.org/help/about
Fluxo de anotação no UniProt
Banco curado vs. automático

UniProtKB release curado

Maio de 2019

Entradas no Swiss-Prot

560.118 http://www.uniprot.org/statistics


Entradas no TrEMBL

156.077.686
automático

http://www.uniprot.org/statistics
Crescimento do UniProt

Remoção de sequências
redundantes (dentro de
uma mesma espécie)

doi: 10.1093/nar/gky1049
Distribuição taxonômica

http://www.uniprot.org/statistics/TrEMBL; release 2019_04


Estatísticas sobre proteínas

Mais curta = C4PYW0 com 2 aa O banco de dados UniProt é muito


Mais longa = A0A1V4K6M4 com 36.991 aa abrangente em relação ao tipo de
proteína e a taxonomia

→ Informações gerais sobre as


proeínas podem ser obtidas

http://www.uniprot.org/statistics/TrEMBL
Evidências para as proteínas

A anotação no banco de dados UniProt inclui informações


sobre as evidências para a existência das proteínas

Evidência No no TrEMBL Descrição


Nível de proteína 129.607 Evidência experimental (sequenciamento de
Edman, espectrometria de massa, difração
de raioX, etc.) para a existência da proteína
Nível de transcrito 1.086.717 Existência da proteína indiretamente
provada através de transcrito (cDNA, RT-
PRC, etc.)
Inferência por homologia 21.458.867 Provável existência da proteína devido a
ocorrência de ortólogos em espécies
relacionadas
Predição 65.357.735 Sem evidência em nível de proteína,
transcrito ou homologia
http://www.uniprot.org/statistics/TrEMBL
Bancos de dados de agrupamentos (clusters) de
proteínas
Agrupamento de proteínas
Sequências de proteínas

Conjunto de proteínas de diversas


funções e diversos organismos

As proteínas são agrupadas por


Agrupamento 1 Agrupamento 2 Agrupamento 3 similaridade nas sequências

→ A similaridade pode não


refletir ancestralidade comum
Proteínas similares em cada grupo → Sequências com baixa
similaridade podem não ser
incorporadas
Cada agrupamento representa uma entrada no banco
DIMINUI O TAMANHO DO BANCO DE DADOS
ID1 ID2 ID3 Um agrupamento pode conter
→ várias proteínas
→ diferentes espécies
→ proteínas com função relacionada
UniProt Reference Clusters (UniRef)

1. Banco de dados UniRef100

Combina sequências idênticas (de qualquer organismo) em um único registro

Cada cluster possui uma sequência representativa

2. Banco de dados UniRef90

Gerado a partir das sequências representativas no UniRef100
– 90% de identidade
– 80% de cobertura da sequência representativa do cluster

Reduz o banco de dados ~58%

3. Banco de dados UniRef50

Gerado a partir das sequências representativas no UniRef90
– 50% de identidade
– 80% de cobertura da sequência representativa do cluster

Reduz o banco de dados ~79%
Estratégia do UniRef
UniProtKB
Agrupamentos Referências
1 2 3 4 5 6

100% 90%
UniParc 7 8 9 10 11 12

UniRef100

Agrupamentos Referências Agrupamentos


1 2 3 4

50% 1 2 3
5 6 7 8

UniRef90 UniRef50
NCBI – Protein Clusters

https://www.ncbi.nlm.nih.gov/proteinclusters

→ Mantido pelo NCBI Julho de 2017


→ Proteínas a partir de genomas completos Clusters 820.545
→ Grupos taxonômicos limitados Proteínas 15.767.981
+ Arquéia
+ Bactéria
+ Plantas
+ Fungos
+ Protozoários
+ Vírus

Os clusters de proteínas são gerados automaticamente


e não fazem distinção entre ortólogos/parálogos
Exemplo de entrada no banco
Protein Clusters

PCLA_5029913 glycosyl hydrolase


Proteins 31
Conserved in Terrabacteria group

Total genera 7

Total organisms 28

Locuses SacC, sacC1

COG functional category Carbohydrate transport and metabolism


Banco de dados de estruturas
Níveis estruturais das proteínas

SEQUÊNCIA ESTRUTURA FUNÇÃO


PDB – Protein Data Bank

www.pdb.org/pdb
Evolução do PDB

132,055

Total
Yearly

http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
O banco de dados PDB

PDB (Protein Data Bank)

Coordenadas atômicas

Informações que descrevem proteínas e outras
macromoléculas

É um banco de dados curado

Diferentes métodos são usados para determinar as
coordenadas atômicas

Cristalografia de raio X

Ressonância Magnética Nuclear (RMN)

Microscopia crio-eletrônica

http://www.rcsb.org/pdb/101/static101.do?p=education_discussion/Looking-at-Structures/intro.html
Origem dos dados no PDB

http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
X-ray vs. NMR

X-ray NMR

PDB ID 2H35

PDB ID 1C7C

Deoxyhemoglobin (alpha chain) Hemoglobin alpha subunit


Exemplo de registro no PDB
Difração de raio-X
Cristal obtido para uma proteína

Padrão de difração de
raio-X de uma proteína

Parte de um mapa de
densidade eletrônica

https://en.wikipedia.org/wiki/X-ray_crystallography
http://www.xtal.iqfr.csic.es/Cristalografia/parte_07-en.html
Formato PDB
ATOM 1 N MET A 1 21.209 48.051 38.701 1.00 43.54 N
ATOM 2 CA MET A 1 20.652 46.739 38.287 1.00 42.21 C
ATOM 3 C MET A 1 21.670 45.963 37.454 1.00 39.93 C
ATOM 4 O MET A 1 22.518 46.540 36.821 1.00 40.22 O
ATOM 5 CB MET A 1 19.294 46.787 37.576 1.00 43.51 C
ATOM 6 CG MET A 1 18.214 47.214 38.604 1.00 46.88 C

ATOM 4314 C VAL F 112 66.948 44.827 35.817 1.00 75.64 C


ATOM 4315 O VAL F 112 67.730 45.514 35.116 1.00 77.25 O
ATOM 4316 CB VAL F 112 68.343 45.284 37.871 1.00 77.84 C
ATOM 4317 CG1 VAL F 112 67.508 46.521 38.131 1.00 82.64 C
ATOM 4318 CG2 VAL F 112 68.834 44.664 39.174 1.00 76.88 C
x y z
Número Resíduo Número ocupância Tipo de
do átomo de aa do resíduo átomo

Nome do Cadeia Fator B


átomo polipeptídica http://www.proteinstructures.com/Structure/Structure/proteinstructure-databases2.html

Fator B – descreve o deslocamento das posições atômicas


Normalmente varia de 15 a 30 (Ângstrons); valores maiores indicam regiões mais flexíveis
Ocupância – indica o número de conformações assumidas por um grupo; 1.00 indica que há
somente uma conformação; para conformações alternativas, poderá aparecer como 0.5/0.5,
para duas conformações igualmente ocupadas
Visualização da estrutura
3D das proteínas

O arquivo de coordenadas permite a manipulação interativa da


estrutura 3D das proteínas por auxílio de programas de computador

Potrebbero piacerti anche