Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
informação
tags
Banco de dados relacional
Conceitos importantes
Banco de dados
Tabela
Campos
Relações
Chave-primária
Arquitetura dos bancos de dados
A maioria dos bancos de dados biológicos
usa um arquitetura com três níveis (tier)
2. Programas de acesso ao
banco de dados e servidor Web
RNA
cDNA Proteína
Montagem
●
International Nubleotide Sequence Database
Collaboration
●
DNA Data Bank of Japan
– National Institute for Genetics in Mishima, Japan
●
European Nucleotide Archive
– European Molecular Biology Laboratory's European
Bioinformatics Institute (EMBL-EBI), Hinxton, UK
●
National Center for Biotechnology Information
– Bethesda, Maryland, USA
Volume de dado acumulados
ao longo do tempo no INSDC
Cobertura taxonômica
Crescimento no no. de taxa com sequência associada
Sequências genômicas
Atualmente constituem uma porção importante dos bancos de dados
Principais portais na Web para acesso
aos bancos de dados biológicos
EBI – The European
Bioinformatics Institute
www.ebi.ac.uk
DDBJ – DNA Data Bank of Japan
www.ddbj.nig.ac.jp
NCBI – National Center for Biotechnology Information
www.ncbi.nlm.nih.gov
GenBank
●
Mantido pelo NCBI
●
É um banco de dados de sequências genéticas
●
Inclui sequências de: RNAm, RNAr e DNA genômico
●
As sequências são anotadas
– Possuem informações associadas: taxonômica, literatura, estruturais (ex., localização de
genes)
●
É parte do International Nucleotide Sequence Database Collaboration
●
Release 233 – Sayers et al., 2020 (doi: 10.1093/nar/gkz956)
●
Contém mais de 6,25 trilhões de bases
●
Mais de 1,6 bilhões de sequências nucleotídicas
●
Para 450.000 espécies descritas
●
2.467 arquivos totalizando 1.057 GB de dados
GenBank
●
NÃO inclui sequências de (bancos de dados separados):
●
TPA (Third Party Annotation) – utiliza dados
experimentais/inferenciais para anotação de sequências indiretamente
– RNAm montado a partir de sequências EST, outros RNAm parciais e
genômicas
– Sequências genômicas não anotadas agora descrita como novos genes
– É necessário que todas as novas anotações sejam determinadas
experimentalmente, direta ou indiretamente
●
RefSeq (Reference Sequences)
– Conjunto de sequências genômicas, transcritas e proteínas de referência
●
WGS (Whole Genome Shotgun)
– Projetos de sequenciamento genômico incompletos
Divisões do GenBank
●
Dividido em duas categorias gerais
●
Organismo
– Inclui sequências derivadas de organismos específicos
●
Funcional
– Inclui sequências derivadas de diferentes estratégias de
sequenciamento
●
Os registros de sequências existem em uma
única divisão
●
Não ocorre duplicação
Divisões do GenBank
Divisões taxonômicas
Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Sequências Bases
Bacterial sequences BCT 1.579.398 36.910.152.195
Environmental sample ENV 8.558.206 5.539.031.783
Invertebrate sequences INV 7.048.656 17.023.144.613
Other mammalian sequences MAM 497.064 3.868.318.292
Phage sequences PHG 12.256 333.250.155
Plant and Fungal sequences PLN 4.522.176 16.616.158.367
Primate sequences PRI 865.517 7.957.285.803
Rodent sequences ROD 534.974 4.516.833.264
Synthetic and Chimeric sequences SYN 268.140 1.171.294.750
Unannotated sequences UNA 334 209.439
Viral sequences VRL 2.293.121 3.420.250.236
Other vertebrate sequences VRT 2.737.420 7.073.571.810
Divisões do GenBank
Divisões funcionais
Sequências Bases
Expressed sequence tags sequences EST 76.442.503 42.639.352.272
Genome survey sequences GSS 40.242.400 25.972.114.144
Sequence tagged sites sequences STS 1.346.868 640.875.196
High throughput genomic sequences HTG 175.972 27.646.512.139
High-throughput cDNA HTC 622.440 696.510.850
Transcriptome shotgun assembly TSA 16.594.734 13.904.678.499
Patent PAT 37.321.389 19.067.818.816
Benson et al. Nucleic Acid Res. 45(Database issue):D37-D42, 2016 doi: 10.1093/nar/gkw1070
Flat text files no GenBank
●
O banco de dados GenBank disponibiliza os
dados em dois principais flat text files
●
Formato FASTA
– Sequência de DNA ou proteína
– Pouca informação adicional
●
ex., taxonomia, genes, publicações, etc.
●
Formato GenBank
– Sequência de DNA ou proteína
– Informações adicionais
●
ex., taxonomia, genes, publicações, etc.
Formato FASTA
MARCAÇÃO DO INÍCIO Formato universal
TÍTULO
SEQUÊNCIA
>alpha-D DNA ou proteína
ATGCTGACCGACTCTGACAAGAAGCTGGTCCTGCAGGTGTGGGAGAAGGTGATCCGCCAC
CCAGACTGTGGAGCCGAGGCCCTGGAGAGGTGCGGGCTGAGCTTGGGGAAACCATGGGCA
AGGGGGGCGACTGGGTGGGAGCCCTACAGGGCTGCTGGGGGTTGTTCGGCTGGGGGTCAG
CACTGACCATCCCGCTCCCGCAGCTGTTCACCACCTACCCCCAGACCAAGACCTACTTCC
CCCACTTCGACTTGCACCATGGCTCCGACCAGGTCCGCAACCACGGCAAGAAGGTGTTGG
CCGCCTTGGGCAACGCTGTCAAGAGCCTGGGCAACCTCAGCCAAGCCCTGTCTGACCTCA
GCGACCTGCATGCCTACAACCTGCGTGTCGACCCTGTCAACTTCAAGGCAGGCGGGGGAC
GGGGGTCAGGGGCCGGGGAGTTGGGGGCCAGGGACCTGGTTGGGGATCCGGGGCCATGCC
GGCGGTACTGAGCCCTGTTTTGCCTTGCAGCTGCTGGCGCAGTGCTTCCACGTGGTGCTG
GCCACACACCTGGGCAACGACTACACCCCGGAGGCACATGCTGCCTTCGACAAGTTCCTG
TCGGCTGTGTGCACCGTGCTGGCCGAGAAGTACAGATAA
Cabeçalho
ACCESSION
qualificador
http://www.insdc.org/documents/feature_table.html
Feature table
(Tabela de carcaterísticas)
●
Formato
●
Tabular
●
Contém os itens:
– Feature key (características chave)
●
Palavra única ou abreviação indicando um grupo funcional
– Location (localização)
●
Instruções para encontrar a cracterística
– Qualifiers (qualificadores)
●
Informação auxiliar sobre a característica
Feature table – exemplo
Feature key Location/Qualifiers
CDS 23..400 Trata-se de uma região
codificadora iniciando na base
23 e terminando na base 400
/product=”alcohol dehydrogenase” A região codifica para a enzima
álcool desidrogenase
/gene=”adhI” Nome do gene
https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Registro na divisão TPA do GenBank
Referência do registro
original no GenBank
Relação entre os bancos de dados
GenBank
. Dados de sequências TPA
(primários) enviados . Sequências depositadas
no GenBank
. Sequências anotadas por
quem gerou os dados . Sequências re-anotadas a
partir de dados experimentais
. Sequências não podem ser ou inferenciais
re-anotadas por terceiros
RefSeq
O banco de dados TPA (Third . Sequências de referência
Party Annotation) faz a para genomas
ligação entre os bancos de
dados GenBak e RefSeq . Sequências re-anotadas
https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
RefSeq
https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Nucleotide Database
http://www.ncbi.nlm.nih.gov/nucleotide/
Nucleotide
GenBank TPA
RefSeq PDB
Sequenciamento de proteína
(degradação de Edman,
espectrometria de massa)
Histórico
Atlas of Protein PIR
Sequence and Structure 1984
1965-1978 (NBRF)
Swiss Prot
1986 UniProt
(SIB) 2002
TrEMBL
19??
(EBI)
Consórcio mantenedor
→ EMBL-EBI – Europa
→ PIR – EUA
→ SIB – Suiça
UniProt vs. GenBank e RefSeq
https://www.ncbi.nlm.nih.gov/books/NBK21105/#ch1.Appendix_GenBank_RefSeq_TPA_and_UniP
Organização dos bancos de dados
UniProt
●
UniProt é formado pelas divisões
●
UniParc
– Banco de dados mais abrangente
– Release 2019_04: 268.856.261
●
UniProtKB
– Contém as divisões Swiss-Prot e TrEMBL
– Release 2019_04: 560.118 (Swiss-Prot) / 156.077.686 (TrEMBL)
●
UniRef
– Banco de dados de grupos de sequências de proteínas
– Release 2019_04:
●
189.887.671 (100%) / 95.339.637 (90%) / 35.763.834 (50%)
Divisões no UniProt
http://www.uniprot.org/help/about
Fluxo de anotação no UniProt
Banco curado vs. automático
●
UniProtKB release curado
●
Maio de 2019
●
Entradas no Swiss-Prot
●
560.118 http://www.uniprot.org/statistics
●
Entradas no TrEMBL
●
156.077.686
automático
http://www.uniprot.org/statistics
Crescimento do UniProt
Remoção de sequências
redundantes (dentro de
uma mesma espécie)
doi: 10.1093/nar/gky1049
Distribuição taxonômica
http://www.uniprot.org/statistics/TrEMBL
Evidências para as proteínas
100% 90%
UniParc 7 8 9 10 11 12
UniRef100
50% 1 2 3
5 6 7 8
UniRef90 UniRef50
NCBI – Protein Clusters
https://www.ncbi.nlm.nih.gov/proteinclusters
Total genera 7
Total organisms 28
www.pdb.org/pdb
Evolução do PDB
132,055
Total
Yearly
http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
O banco de dados PDB
●
PDB (Protein Data Bank)
●
Coordenadas atômicas
●
Informações que descrevem proteínas e outras
macromoléculas
●
É um banco de dados curado
●
Diferentes métodos são usados para determinar as
coordenadas atômicas
●
Cristalografia de raio X
●
Ressonância Magnética Nuclear (RMN)
●
Microscopia crio-eletrônica
http://www.rcsb.org/pdb/101/static101.do?p=education_discussion/Looking-at-Structures/intro.html
Origem dos dados no PDB
http://www.rcsb.org/pdb/static.do?p=general_information/pdb_statistics/index.html
X-ray vs. NMR
X-ray NMR
PDB ID 2H35
PDB ID 1C7C
Padrão de difração de
raio-X de uma proteína
Parte de um mapa de
densidade eletrônica
https://en.wikipedia.org/wiki/X-ray_crystallography
http://www.xtal.iqfr.csic.es/Cristalografia/parte_07-en.html
Formato PDB
ATOM 1 N MET A 1 21.209 48.051 38.701 1.00 43.54 N
ATOM 2 CA MET A 1 20.652 46.739 38.287 1.00 42.21 C
ATOM 3 C MET A 1 21.670 45.963 37.454 1.00 39.93 C
ATOM 4 O MET A 1 22.518 46.540 36.821 1.00 40.22 O
ATOM 5 CB MET A 1 19.294 46.787 37.576 1.00 43.51 C
ATOM 6 CG MET A 1 18.214 47.214 38.604 1.00 46.88 C