Databasespart1 PDF

Bancos de dados biológicos
Prof. Leonardo M. Cruz

Núcleo de Fixação de Nitrogênio
Departamento de Bioquímica e Biologia Molecular
Universidade Federal do Paraná
Por que bancos
de dados?
●
A biologia se tornou uma ciência rica em
dados
●
Genômica, proteômica, metabolômica...
●
Grande quantidade de dados gerados em
experimentos
●
Necessidade para estocar e intercruzar
grandes conjuntos de dados
●
Arquivar, curar, analisar e interpretar estes
dados são um desafio
●
Métodos convenientes para estocar, pesquisar
e recuperar são necessários
●
Os bancos de dados são a forma de lidar
com esta sobrecarga de dados
Conceitos básicos
●
Definição mais simples
●
Conjunto de informações armazenadas
●
Conceitualmente
●
Uma maneira de unir dados e relacionar partes da
informação consistentemente
Tipos de bancos de dados
●
Flat text files
●
XML – Extensible Markup Language
●
Bancos de dados relacionais
●
Mantém a segurança e consitência entre os dados
●
RDBMS – Relational Database Management Systems
– Sistemas de gerenciamento de banco de dados relacional
– Permite pesquisa dos dados de forma eficiente
– Usa linguagem própria
●
SQL – Structured Query Language
Flat text files
●
Informação armazenada em arquivos texto
●
Texto é estruturado
●
Facilita acesso automático
●
Facilita legibilidade
●
Fácil leitura por humanos e máquinas
●
Ex., FASTA, Genbank
XML
●
Adiciona SINTAXE ao contceito de um arquivo
texto estruturado
É um texto estruturado
informação
tags
Banco de dados relacional
Conceitos importantes
Banco de dados
Tabela
Campos
Relações
Chave-primária
Arquitetura dos bancos de dados
A maioria dos bancos de dados biológicos
usa um arquitetura com três níveis (tier)
3. Interface Web com o usuário
2. Programas de acesso ao
banco de dados e servidor Web
1. Sistema de gerenciamento de banco de dados

Stein, L.D. Nature Review Genetics, 4:337-345, 2003.
Bancos de dados biológicos:
histórico
●
1965
●
Margaret Dayhoff e colegas publicaram “Atlas of Protein
Sequences and Structures” (livro)
●
1982
●
EMBL inicia o banco de dados de sequências de DNA
●
Seguido pelo GenBank em 1983 e DNA Database of Japan
em 1984
●
1988
●
EMBL/GenBank/DDBJ fecham acordo para formato e troca de
dados
Classificação dos bancos
de dados biológicos
●
Primário
●
Resultados experimentais diretamente no banco de dados
– Nucleotídeos: GenBank, EMBL, DDBJ, PDB
– Proteínas: UniProtKB
●
Secundário
●
Resultado de análises de bancos de dados primários
– Motivos e famílias de proteínas: PROSITE, Pfam
– Classificação de estruturas de proteínas: SCOPE, CATH
●
Especializado
●
Dedicados a um assunto de interesse abrangente, como organismo, gene, proteína, etc. em
particular, contendo diferentes fontes de dados (sequência, literatura, experimental, etc.)
– Gene/proteínas: RDP, SILVA (16S rRNA), REBASE (endonucleases de restrição)
– Organismo: RAP-DB (planta), WormBase (verme), EcoCyc (bactéria)
– OMIM (doenças humanas)
●
Alguns bancos de dados formam sistemas integrados de informação biológica
– Redes: STRING (interação entre proteínas), KEGG, BioCyc (redes metabólicas)
●
Atenção! Alguns bancos de dados possuem características de mais de um grupo
Fontes de dados em bancos de
dados primários
DNA
Fragmento Fragmentação de
específico molécula longa
RNA
cDNA Proteína
Sequenciamento de nt Sequenciamento Estrutura

de aa 3D
Montagem
Sequência curta Sequência longa EST/RNA-seq Sequência da proteína

Bancos de dados primários
Sequências de nucleotídios e aminoácidos
INSDC
●
International Nubleotide Sequence Database
Collaboration
●
DNA Data Bank of Japan
– National Institute for Genetics in Mishima, Japan
●
European Nucleotide Archive
– European Molecular Biology Laboratory's European
Bioinformatics Institute (EMBL-EBI), Hinxton, UK
●
National Center for Biotechnology Information
– Bethesda, Maryland, USA
Volume de dado acumulados
ao longo do tempo no INSDC
Cobertura taxonômica
Crescimento no no. de taxa com sequência associada
Sequências genômicas
Atualmente constituem uma porção importante dos bancos de dados
Principais portais na Web para acesso
aos bancos de dados biológicos
EBI – The European
Bioinformatics Institute
www.ebi.ac.uk
DDBJ – DNA Data Bank of Japan
www.ddbj.nig.ac.jp
NCBI – National Center for Biotechnology Information
www.ncbi.nlm.nih.gov
GenBank
●
Mantido pelo NCBI
●
É um banco de dados de sequências genéticas
●
Inclui sequências de: RNAm, RNAr e DNA genômico
●
As sequências são anotadas
– Possuem informações associadas: taxonômica, literatura, estruturais (ex., localização de
genes)
●
É parte do International Nucleotide Sequence Database Collaboration
●
Release 233 – Sayers et al., 2020 (doi: 10.1093/nar/gkz956)
●
Contém mais de 6,25 trilhões de bases
●
Mais de 1,6 bilhões de sequências nucleotídicas
●
Para 450.000 espécies descritas
●
2.467 arquivos totalizando 1.057 GB de dados
GenBank
●
NÃO inclui sequências de (bancos de dados separados):
●
TPA (Third Party Annotation) – utiliza dados
experimentais/inferenciais para anotação de sequências indiretamente
– RNAm montado a partir de sequências EST, outros RNAm parciais e
genômicas
– Sequências genômicas não anotadas agora descrita como novos genes
– É necessário que todas as novas anotações sejam determinadas
experimentalmente, direta ou indiretamente
●
RefSeq (Reference Sequences)
– Conjunto de sequências genômicas, transcritas e proteínas de referência
●
WGS (Whole Genome Shotgun)
– Projetos de sequenciamento genômico incompletos
Divisões do GenBank
●
Dividido em duas categorias gerais
●
Organismo
– Inclui sequências derivadas de organismos específicos
●
Funcional
– Inclui sequências derivadas de diferentes estratégias de
sequenciamento
●
Os registros de sequências existem em uma
única divisão
●
Não ocorre duplicação
Divisões taxonômicas
Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Sequências Bases
Bacterial sequences BCT 1.579.398 36.910.152.195
Environmental sample ENV 8.558.206 5.539.031.783
Invertebrate sequences INV 7.048.656 17.023.144.613
Other mammalian sequences MAM 497.064 3.868.318.292
Phage sequences PHG 12.256 333.250.155
Plant and Fungal sequences PLN 4.522.176 16.616.158.367
Primate sequences PRI 865.517 7.957.285.803
Rodent sequences ROD 534.974 4.516.833.264
Synthetic and Chimeric sequences SYN 268.140 1.171.294.750
Unannotated sequences UNA 334 209.439
Viral sequences VRL 2.293.121 3.420.250.236
Other vertebrate sequences VRT 2.737.420 7.073.571.810
Divisões funcionais
Sequências Bases
Expressed sequence tags sequences EST 76.442.503 42.639.352.272
Genome survey sequences GSS 40.242.400 25.972.114.144
Sequence tagged sites sequences STS 1.346.868 640.875.196
High throughput genomic sequences HTG 175.972 27.646.512.139
High-throughput cDNA HTC 622.440 696.510.850
Transcriptome shotgun assembly TSA 16.594.734 13.904.678.499
Patent PAT 37.321.389 19.067.818.816
Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Flat text files no GenBank
●
O banco de dados GenBank disponibiliza os
dados em dois principais flat text files
●
Formato FASTA
– Sequência de DNA ou proteína
– Pouca informação adicional
●
ex., taxonomia, genes, publicações, etc.
●
Formato GenBank
– Sequência de DNA ou proteína
– Informações adicionais
●
ex., taxonomia, genes, publicações, etc.
Formato FASTA
MARCAÇÃO DO INÍCIO Formato universal
TÍTULO
SEQUÊNCIA
>alpha-D DNA ou proteína
ATGCTGACCGACTCTGACAAGAAGCTGGTCCTGCAGGTGTGGGAGAAGGTGATCCGCCAC
CCAGACTGTGGAGCCGAGGCCCTGGAGAGGTGCGGGCTGAGCTTGGGGAAACCATGGGCA
AGGGGGGCGACTGGGTGGGAGCCCTACAGGGCTGCTGGGGGTTGTTCGGCTGGGGGTCAG
CACTGACCATCCCGCTCCCGCAGCTGTTCACCACCTACCCCCAGACCAAGACCTACTTCC
CCCACTTCGACTTGCACCATGGCTCCGACCAGGTCCGCAACCACGGCAAGAAGGTGTTGG
CCGCCTTGGGCAACGCTGTCAAGAGCCTGGGCAACCTCAGCCAAGCCCTGTCTGACCTCA
GCGACCTGCATGCCTACAACCTGCGTGTCGACCCTGTCAACTTCAAGGCAGGCGGGGGAC
GGGGGTCAGGGGCCGGGGAGTTGGGGGCCAGGGACCTGGTTGGGGATCCGGGGCCATGCC
GGCGGTACTGAGCCCTGTTTTGCCTTGCAGCTGCTGGCGCAGTGCTTCCACGTGGTGCTG
GCCACACACCTGGGCAACGACTACACCCCGGAGGCACATGCTGCCTTCGACAAGTTCCTG
TCGGCTGTGTGCACCGTGCTGGCCGAGAAGTACAGATAA
DEVE SER SALVO COMO UM ARQUIVO “SOMENTE TEXTO” (ASCII)
LibreOffice Productivity Suite 27

Formato GenBank
Além da sequência, contém também sua anotação
Cabeçalho
Contém informação sobre

organismo, publicações,
acesso, etc.
ACCESSION
No. de registro no banco de dados

Único para cada sequência

Formato GenBank
Marca o início da seção de características
Tabela de características
Contém anotação de blocos

de interesse na sequência
Início e fim da
(ex., genes)
característica na
sequências de DNA
característica
qualificador

Formato GenBank
Marca o início da sequência
Sequência
Seção que contém a

sequência de DNA
DEVE SER SALVO COMO

UM ARQUIVO “SOMENTE
TEXTO” (ASCII)
Marca o final do arquivo

Feature table
●
Mantido pelo INSDC
●
Fornece um extenso vocabulário para descrever características de
uma forma flexível para sua manipulação
●
Uma grande variedade de características podem ser representadas:
●
Função biológica
●
Afetam ou não o resultado da expressão de uma função biológica
●
Interage com outras moléculas
●
Afeta a replicação de uma sequência
●
Afeta ou são resultado de recombinação de diferentes sequências
●
Representam uma unidade repetitiva
●
Possui estrutura secundária ou terciária
●
Exibe variação ou foi revisada ou corrigida
http://www.insdc.org/documents/feature_table.html
Feature table
(Tabela de carcaterísticas)
●
Formato
●
Tabular
●
Contém os itens:
– Feature key (características chave)
●
Palavra única ou abreviação indicando um grupo funcional
– Location (localização)
●
Instruções para encontrar a cracterística
– Qualifiers (qualificadores)
●
Informação auxiliar sobre a característica
Feature table – exemplo
Feature key Location/Qualifiers
CDS 23..400 Trata-se de uma região
codificadora iniciando na base
23 e terminando na base 400
/product=”alcohol dehydrogenase” A região codifica para a enzima
álcool desidrogenase
/gene=”adhI” Nome do gene
Exemplos de “feature keys”

key description
CDS Sequência codificadora para proteína
RBS Sítio de ligação ao ribossomo
rep_origin Origem de replicação
protein_bind Sítio de ligação de proteína ao DNA
tRNA RNA transportador
GenBank WGS division
●
Whole Genome Shotgun (WGS) Sequences
●
Inclui sequências de genomas incompletos
●
Sequências podem ou não conter anotação
●
Os registros não contém sequências
●
Contém os no de acesso para as sequências que
compõem o WGS
●
O conjunto de sequências associadas ao registro
representam sequências contíguas (contigs)
Benson et al. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070

Registro na divisão WGS
Cada projeto WGS está associados
a um “BioProject” e um “BioSample”
Não contém sequências

Identificação para as sequências
Third Party Annotation (TPA)
database
●
Contém sequêcias derivadas ou montadas a partir do GenBank
●
Contém sequências de nucleotídios geradas a partir de dados primários
existentes (ex., GenBank), mas re-anotadas
●
Inclui dois tipos de registros
●
Experimental: anotação suportada por evidências experimentais
●
Inferencial: anotação inferida e não submetida a análise experimental
●
Faz ligação entre o GenBank e RefSeq
●
Permite re-anotação das sequências a partir de novas evidências experimentais
●
Os registros podem ser identificados através…
●
da linha de definição (DEFINITION line)
– Inicia com a identificação “TPA”
●
Do campo “keywords”
– Possui a identificação “Third Party Annotation; TPA”
https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Registro na divisão TPA do GenBank
Referência do registro
original no GenBank
Relação entre os bancos de dados
GenBank
. Dados de sequências TPA
(primários) enviados . Sequências depositadas
no GenBank
. Sequências anotadas por
quem gerou os dados . Sequências re-anotadas a
partir de dados experimentais
. Sequências não podem ser ou inferenciais
re-anotadas por terceiros
RefSeq
O banco de dados TPA (Third . Sequências de referência
Party Annotation) faz a para genomas
ligação entre os bancos de
dados GenBak e RefSeq . Sequências re-anotadas
RefSeq
Banco de dados de sequências

de referência para genomas
Apresenta uma única cópia para

cada gene no genoma
Dividido em genoma, cDNA e

proteína (NC, NM e NP)
Inclui vírus, bactérias, arquéias

e eucariotos
GenBank vs. RefSeq
Ambos os bancos de dados são mantidos pelo NCBI
Nucleotide Database
http://www.ncbi.nlm.nih.gov/nucleotide/
Nucleotide
GenBank TPA
RefSeq PDB
Agrupa todos os dados de

sequências fundamentais para a
pesquisa e descoberta biomédica:
genomas, transcritos e genes
Bancos de dados gerenciados pelo
ENTREZ
Para ver a lista dos bancos atualizada

www.ncbi.nlm.nih.gov
No campo de busca
all[sb]
Sayers et al., 2020 (doi: 10.1093/nar/gkz899)

Encontrando Informação
●
A busca por informação nos bancos de dados
pode ser feita através:
●
Busca a partir de palavras chave
●
Busca a partir da comparação entre sequências
Bancos de dados de sequências de proteínas
UniProt
De onde vem as sequências de
aminoácidos das proteínas
Reigiões codificadoras do DNA

(genômica, metagenômica) ~95%
Sequências de Bancos de dados
Aminoácido de sequências
das proteínas de aminoácidos
Estrutura de proteína ~5%
(difração de raio X, RNM, etc.)
Sequenciamento de proteína
(degradação de Edman,
espectrometria de massa)
Histórico
Atlas of Protein PIR
Sequence and Structure 1984
1965-1978 (NBRF)
Swiss Prot
1986 UniProt
(SIB) 2002
TrEMBL
19??
(EBI)
NBRF = National Biomedical Research Foundation

SIB = Swiss Institute of Bioinformatics
EBI = European Bioinformatics Institute
Protein Database
http://www.ncbi.nlm.nih.gov/protein/
Banco de dados de sequências de

proteínas
Inclui sequências de diversas

fontes:
- Dos bancos de dados do NCBI
+ Tradução de regiões
codificadoras de sequências de
DNA no GenBank
+ RefSeq
+ TPA
- Outros bancos de dados
+ SwissProt
+ PIR
+ PRF
+ PDB
www.uniprot.org
Consórcio mantenedor
→ EMBL-EBI – Europa
→ PIR – EUA
→ SIB – Suiça
UniProt vs. GenBank e RefSeq
UniProt GenBank e RefSeq
Consórcio SIB, EBI e PIR INSDC e NCBI
Sequências Somente proteínas Proteínas e ácidos nucleicos
Divisão Curada Swiss-Prot RefSeq
Divisão Automática TrEMBL GenBank
Organização dos bancos de dados
UniProt
●
UniProt é formado pelas divisões
●
UniParc
– Banco de dados mais abrangente
– Release 2019_04: 268.856.261
●
UniProtKB
– Contém as divisões Swiss-Prot e TrEMBL
– Release 2019_04: 560.118 (Swiss-Prot) / 156.077.686 (TrEMBL)
●
UniRef
– Banco de dados de grupos de sequências de proteínas
– Release 2019_04:
●
189.887.671 (100%) / 95.339.637 (90%) / 35.763.834 (50%)
Divisões no UniProt
http://www.uniprot.org/help/about
Fluxo de anotação no UniProt
Banco curado vs. automático
●
UniProtKB release curado
●
Maio de 2019
●
Entradas no Swiss-Prot
●
560.118 http://www.uniprot.org/statistics
●
Entradas no TrEMBL
●
156.077.686
automático
http://www.uniprot.org/statistics
Crescimento do UniProt
Remoção de sequências
redundantes (dentro de
uma mesma espécie)
doi: 10.1093/nar/gky1049
Distribuição taxonômica
http://www.uniprot.org/statistics/TrEMBL; release 2019_04

Estatísticas sobre proteínas
Mais curta = C4PYW0 com 2 aa O banco de dados UniProt é muito

Mais longa = A0A1V4K6M4 com 36.991 aa abrangente em relação ao tipo de
proteína e a taxonomia
→ Informações gerais sobre as

proeínas podem ser obtidas
http://www.uniprot.org/statistics/TrEMBL
Evidências para as proteínas
A anotação no banco de dados UniProt inclui informações

sobre as evidências para a existência das proteínas
Evidência No no TrEMBL Descrição

Nível de proteína 129.607 Evidência experimental (sequenciamento de
Edman, espectrometria de massa, difração
de raioX, etc.) para a existência da proteína
Nível de transcrito 1.086.717 Existência da proteína indiretamente
provada através de transcrito (cDNA, RT-
PRC, etc.)
Inferência por homologia 21.458.867 Provável existência da proteína devido a
ocorrência de ortólogos em espécies
relacionadas
Predição 65.357.735 Sem evidência em nível de proteína,
transcrito ou homologia
http://www.uniprot.org/statistics/TrEMBL
Bancos de dados de agrupamentos (clusters) de
proteínas
Agrupamento de proteínas
Sequências de proteínas
Conjunto de proteínas de diversas

funções e diversos organismos
As proteínas são agrupadas por

Agrupamento 1 Agrupamento 2 Agrupamento 3 similaridade nas sequências
→ A similaridade pode não

refletir ancestralidade comum
Proteínas similares em cada grupo → Sequências com baixa
similaridade podem não ser
incorporadas
Cada agrupamento representa uma entrada no banco
DIMINUI O TAMANHO DO BANCO DE DADOS
ID1 ID2 ID3 Um agrupamento pode conter
→ várias proteínas
→ diferentes espécies
→ proteínas com função relacionada
UniProt Reference Clusters (UniRef)
●
1. Banco de dados UniRef100
●
Combina sequências idênticas (de qualquer organismo) em um único registro
●
Cada cluster possui uma sequência representativa
●
●
Gerado a partir das sequências representativas no UniRef100
– 90% de identidade
– 80% de cobertura da sequência representativa do cluster
●
Reduz o banco de dados ~58%
●
●
Gerado a partir das sequências representativas no UniRef90
– 50% de identidade
– 80% de cobertura da sequência representativa do cluster
●
Reduz o banco de dados ~79%
Estratégia do UniRef
UniProtKB
Agrupamentos Referências
1 2 3 4 5 6
100% 90%
UniParc 7 8 9 10 11 12
UniRef100
Agrupamentos Referências Agrupamentos

1 2 3 4
50% 1 2 3
5 6 7 8
UniRef90 UniRef50
NCBI – Protein Clusters
https://www.ncbi.nlm.nih.gov/proteinclusters
→ Mantido pelo NCBI Julho de 2017

→ Proteínas a partir de genomas completos Clusters 820.545
→ Grupos taxonômicos limitados Proteínas 15.767.981
+ Arquéia
+ Bactéria
+ Plantas
+ Fungos
+ Protozoários
+ Vírus
Os clusters de proteínas são gerados automaticamente

e não fazem distinção entre ortólogos/parálogos
Exemplo de entrada no banco
Protein Clusters
PCLA_5029913 glycosyl hydrolase

Proteins 31
Conserved in Terrabacteria group
Total genera 7
Total organisms 28
Locuses SacC, sacC1
COG functional category Carbohydrate transport and metabolism

Banco de dados de estruturas
Níveis estruturais das proteínas
SEQUÊNCIA ESTRUTURA FUNÇÃO

PDB – Protein Data Bank
www.pdb.org/pdb
Evolução do PDB
132,055
Total
Yearly
http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
O banco de dados PDB
●
PDB (Protein Data Bank)
●
Coordenadas atômicas
●
Informações que descrevem proteínas e outras
macromoléculas
●
É um banco de dados curado
●
Diferentes métodos são usados para determinar as
coordenadas atômicas
●
Cristalografia de raio X
●
Ressonância Magnética Nuclear (RMN)
●
Microscopia crio-eletrônica
http://www.rcsb.org/pdb/101/static101.do?p=education_discussion/Looking-at-Structures/intro.html
Origem dos dados no PDB
http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
X-ray vs. NMR
X-ray NMR
PDB ID 2H35
PDB ID 1C7C
Deoxyhemoglobin (alpha chain) Hemoglobin alpha subunit

Exemplo de registro no PDB
Difração de raio-X
Cristal obtido para uma proteína
Padrão de difração de
raio-X de uma proteína
Parte de um mapa de
densidade eletrônica
https://en.wikipedia.org/wiki/X-ray_crystallography
http://www.xtal.iqfr.csic.es/Cristalografia/parte_07-en.html
Formato PDB
ATOM 1 N MET A 1 21.209 48.051 38.701 1.00 43.54 N
ATOM 2 CA MET A 1 20.652 46.739 38.287 1.00 42.21 C
ATOM 3 C MET A 1 21.670 45.963 37.454 1.00 39.93 C
ATOM 4 O MET A 1 22.518 46.540 36.821 1.00 40.22 O
ATOM 5 CB MET A 1 19.294 46.787 37.576 1.00 43.51 C
ATOM 6 CG MET A 1 18.214 47.214 38.604 1.00 46.88 C
ATOM 4314 C VAL F 112 66.948 44.827 35.817 1.00 75.64 C

ATOM 4315 O VAL F 112 67.730 45.514 35.116 1.00 77.25 O
ATOM 4316 CB VAL F 112 68.343 45.284 37.871 1.00 77.84 C
ATOM 4317 CG1 VAL F 112 67.508 46.521 38.131 1.00 82.64 C
ATOM 4318 CG2 VAL F 112 68.834 44.664 39.174 1.00 76.88 C
x y z
Número Resíduo Número ocupância Tipo de
do átomo de aa do resíduo átomo
Nome do Cadeia Fator B

átomo polipeptídica http://www.proteinstructures.com/Structure/Structure/proteinstructure-databases2.html
Fator B – descreve o deslocamento das posições atômicas

Normalmente varia de 15 a 30 (Ângstrons); valores maiores indicam regiões mais flexíveis
Ocupância – indica o número de conformações assumidas por um grupo; 1.00 indica que há
somente uma conformação; para conformações alternativas, poderá aparecer como 0.5/0.5,
para duas conformações igualmente ocupadas
Visualização da estrutura
3D das proteínas
O arquivo de coordenadas permite a manipulação interativa da

estrutura 3D das proteínas por auxílio de programas de computador

Databasespart1 PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Databasespart1 PDF

Caricato da

Copyright:

Formati disponibili

Bancos de dados biológicos

Prof. Leonardo M. Cruz

3. Interface Web com o usuário

1. Sistema de gerenciamento de banco de dados

Sequenciamento de nt Sequenciamento Estrutura

Sequência curta Sequência longa EST/RNA-seq Sequência da proteína

DEVE SER SALVO COMO UM ARQUIVO “SOMENTE TEXTO” (ASCII)

LibreOffice Productivity Suite 27

Contém informação sobre

No. de registro no banco de dados

LibreOffice Productivity Suite 28

Contém anotação de blocos

LibreOffice Productivity Suite 29

Seção que contém a

DEVE SER SALVO COMO

Marca o final do arquivo

Exemplos de “feature keys”

Benson et al. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070

Não contém sequências

Banco de dados de sequências

Apresenta uma única cópia para

Dividido em genoma, cDNA e

Inclui vírus, bactérias, arquéias

Agrupa todos os dados de

Para ver a lista dos bancos atualizada

Sayers et al., 2020 (doi: 10.1093/nar/gkz899)

Reigiões codificadoras do DNA

NBRF = National Biomedical Research Foundation

Banco de dados de sequências de

Inclui sequências de diversas

UniProt GenBank e RefSeq

Consórcio SIB, EBI e PIR INSDC e NCBI

Sequências Somente proteínas Proteínas e ácidos nucleicos

Divisão Curada Swiss-Prot RefSeq

Divisão Automática TrEMBL GenBank

http://www.uniprot.org/statistics/TrEMBL; release 2019_04

Mais curta = C4PYW0 com 2 aa O banco de dados UniProt é muito

→ Informações gerais sobre as

A anotação no banco de dados UniProt inclui informações

Evidência No no TrEMBL Descrição

Conjunto de proteínas de diversas

As proteínas são agrupadas por

→ A similaridade pode não

Agrupamentos Referências Agrupamentos

→ Mantido pelo NCBI Julho de 2017

Os clusters de proteínas são gerados automaticamente

PCLA_5029913 glycosyl hydrolase

Locuses SacC, sacC1

COG functional category Carbohydrate transport and metabolism

SEQUÊNCIA ESTRUTURA FUNÇÃO

Deoxyhemoglobin (alpha chain) Hemoglobin alpha subunit

ATOM 4314 C VAL F 112 66.948 44.827 35.817 1.00 75.64 C

Nome do Cadeia Fator B

Fator B – descreve o deslocamento das posições atômicas

O arquivo de coordenadas permite a manipulação interativa da

Potrebbero piacerti anche