Sei sulla pagina 1di 15

Modelo de Dados do Banco de Dados de Genoma NCBI

Leonardo Figueiroa e Silva


Universidade Federal Rural de Pernambuco
Departamento de Estatstica e Informatica
leonardofigueiroa@live.com

Abstract

Lidar com esse volume complexo de dados de forma


sistematica e eficiente nao e simples, e, tecnicas que
talvez fossem suficientes no passado serao gradualmente uma barreira para a analise e integraca o efetiva
de resultados experimentais no futuro [2].
Pensando nisso, o NCBI fez consideraveis investimentos de tempo e energia para assegurar que os dados
e ferramentas nao estejam tao rigorosamente presos a
uma plataforma computacional ou alguma tecnologia
de banco de dados, mas ainda mantendo um certo rigor de um sistema formal que foi designado para prover conceitos unificadores que cruzam um grande intervalo de domnios, descrevendo, assim, um modelo
particular de bancos de dados de sequencia e ferramentas de software.

Grandes repositorios centralizados de dados tais


como SWISS-PROT e o Genbank, gerenciados atraves
de tecnicas de manutenca o de dados, sao exemplos do
desafio que e manusear dados em grande escala que os
laboratorios enfrentam. Pensando nisso, o NCBI fez
consideraveis investimentos de tempo e energia para
criar e descrever um modelo de dados que pudesse codificar dados de forma confiavel e que permitisse que
computadores e sistemas de software de todos os tipos pudessem trocar informaco es de forma confiavel.
As consequencias desse modelo de dados sao muito
convenientes para os pesquisadores pois permite que
eles possam interagir com informaco es de diferentes
a reas, fazendo com que os bancos de dados cientficos
passem de um papel de curadores de dados para facilitadores de informaco es.

2. Fundamentos do Tema
Para criar e descrever esse modelo de dados, o
NCBI resolveu utilizar a ASN.1 (ISO 8824, 8825) ou
Abstract Syntax Notation 1 (Notaca o Sintatica Abstrata 1, em portugues) que traz definico es de como descrever os objetos e as funco es que operam nestes objetos. O modelo do NCBI tem como estrutura principal
uma sequencia biologica (Bioseq) que possui diversos
marcadores e indicadores.
Quando sao definidas, as sequencias agregam diversos dados tais como locus, definico es, origem,
publicaco es em que aparecem e caractersticas, dentre
outros campos que compreendem a sequencia como
um todo, sendo alguns desses opcionais. Veremos em
detalhes o campos obrigatorios de uma sequencia, o
que eles significam, e que informaco es eles contem.

1. Introduca o
Existem duas razoes principais para se colocar
dados [biologicos] em um computador: recuperaca o
e descoberta.(BAXEVANIS, 2001)[1]. Grandes repositorios centralizados de dados tais como SWISSPROT e o Genbank, gerenciados atraves de tecnicas
de manutenca o de dados, sao exemplos do desafio
que e manusear dados em grande escala que os laboratorios enfrentam. A avalanche de dados gerada,
particularmente de sequencias biologicas e, mais recentemente, de dados estruturais e transcripcionais,
interaco es, e genetica, levou a uma adoca o de ferramentas de analise nao-supervisionada e automatizada
de dados biologicos durante a decada de 90 [3, 4].

Bioseq ::= SEQUENCE {


id SET OF Seq-id , identificadores equivalentes
descr Seq-descr OPTIONAL , descritores
inst Seq-inst , dados da sequencia
annot SET OF Seq-annot OPTIONAL}

2.1. ASN.1 Abstract Syntax Notation 1


As notaco es que embaseiam o modelo de dados do
NCBI vem do ASN.1 que e um padrao criado pelo
ISO para descrever objetos estruturados que codificam
dados de forma confiavel e que permitem que computadores e sistemas de software de todos os tipos
possam trocar informaco es acerca da estrutura e do
conteudo das entradas. Analoga a uma linguagem de
programaca o (C, por exemplo), o ASN.1 e a linguagem no qual o modelo esta escrito e nao o modelo em
si; ele descreve como o modelo esta estruturado, mas
nao o que o modelo faz ou o que ele representa.
Em ASN.1 o tipo do dado comeca com uma letra maiuscula. O smbolo ::= significa esta definido como, e os tipos primitivos que compoem o
modelo estao, tambem, em letra maiuscula. Os tipos primitivos sao usados na definica o da sequencia
e seus campos. Os campos tambem devem ter letras maiusculas em seus nomes e devem conter o tipo
ao qual pertecem, assim como uma tag OPTIONAL
caso sejam opcionais. Para finalizar, a estrutura e envolvida em chaves ({ }). Sendo assim, os dados da
sequencia podem ser vistos como uma simples, e relativamente bem definida armaca o onde pode-se introduzir dados de varias fontes. Ao associar dados diversos na sequencia, podemos fazer conexoes e cruzar as
informaco es com outras sequencias dentro da base de
dados, possibilitando, assim, a descoberta de propriedades ou similaridades entre os dados associados [6].
Um exemplo de especificaca o ASN.1 pode ser encontrado no Apendice I, juntamente com o codigo em C
que define as funco es da especificaca o.

Fig. 1 Definica o de uma Bioseq em ASN.1.

Onde apenas os campos seq-id e seq-inst sao obrigatorios. O primeiro compreende informaco es mais
biologicas e de controle, enquanto que o segundo possui informaco es de representaca o da molecula e suas
propriedades fsicas, como estrutura e tamanho.
2.2.1

Seq-Id

Sao identificadores que agregam informaco es como


o locus, accession number, e o gI number. Toda
bioseq deve ter pelo menos um identificador e pode
ter anotaco es agregadas assim como descritores, que
irao prover informaco es adicionais sobre o organismo
do qual a molecula foi obtida [1].
Locus name. Em genetica, locus significa a
posica o exata do gene em questao no cromossomo ou
na sequencia. O locus de um gene diz muito sobre
o organismo pois ele determina uma caracterstica
biologica. No modelo do NCBI originalmente ele
era utilizado como um identificador u nico e tambem
como mnemoico da funca o e do organismo de um
registro no GenBank. Restrito a` dez ou menos
caracteres, o campo contem varios elementos descritos nesse codigo de caracteres: os tres primeiros
geralmente descrevem o organismo; o quarto e o
quinto sao usados para mostrar outras designaco es
de grupo tal como o produto genico; para registros
de sequencias segmentadas, o u ltimo caractere e
um de uma serie de inteiros sequenciais. O campo
comecou a entrar em desuso devido ao nome do
locus mudar a` medida que se descobria que aquele
locus nao condizia com uma certa caracterstica e o
tamanho restrito a` dez caracteres nao ser suficiente
para representar o locus a` medida que a base de dados
foi ficando mais complexa; mas ainda e bastante
utilizado apenas para evitar a quebra do formato estabelecido, com a u nica restrica o de que ele seja u nico.

2.2. BIOSEQ
A estrutura principal do modelo do NCBI e uma
sequencia biologica, ou Bioseq. Ela compreende uma
simples e contnua molecula de um a cido nucleico ou
de uma protena. Ela tambem possui informaco es do
tipo fsico da molecula (DNA, RNA ou protena) e sao
completamente instanciaveis (ou seja, temos os dados de todo o resduo) ou apenas parcialmente instanciaveis (exemplo: sabemos que o fragmento tem
tamanho de 10 kilobases, mas, so temos os dados de
apenas 1 kilobase). Em notaca o ASN.1 essa estrutura
esta definida da seguinte forma:

Accession number. O numero de entrada e outro


identificador (unico) para um registro de sequencia.
2

Raw. e a representaca o tradicional que conhecemos. Sabendo o DNA, a fita dupla, o tamanho, e
a sequencia.

O numero de entrada aplica-se para todo o registro ja


que ele e uma combinaca o de letras e numeros. Ele
nao muda, mesmo que a informaca o no registro tenha
mudado. Algumas vezes, no entanto, ele pode se
tornar um secundario de um novo numero, se o autor
fizer uma nova submissao que combina sequencias
anteriores.[6]

Segmented. e quando temos parte da sequencia


e seu complemento esta em outras Bioseqs no
banco de dados.

gI Number. GenInfo Identifiere um numero de


identificaca o de sequencia genetica. Se uma sequencia
muda de alguma forma, um novo numero gI e assinalado. Um numero tambem e separado para cada
traduca o de protena dentro de uma sequencia de
nucleotdeos, e um novo numero e assinalado se a
traduca o da protena mudar.

Constructed. e uma montagem a` partir de outras


Bioseqs. A representaca o construda servira para
fazer um tracking para um merge de sequencias.

2.2.2

Map. e parecido com uma Bioseq virtual. Ele


e o mapa genetico de estruturas ou organismos
que contem todas as informaco es recuperadas de
Bioseqs anteriores.

Seq-inst

O outro campo obrigatorio de uma bioseq e o Seq-inst.


Ele e uma instancia da propria sequencia, guardando
informaco es sobre a estrutura da molecula: e um
DNA, RNA, ou uma protena; Circular ou linear; Fita
dupla ou fita simples; e tamanho, que sao propriedades
inerentes dos a cidos nucleicos.
Dentro dessa sequencia ha tambem as informaco es
de representaca o da molecula. Ela envolve a estrutura particular dos dados para representar o
conhecimento que temos sobre a molecula. O campo
repr indica o tipo de representaca o usada. O objetivo da representaca o e dar suporte a informaca o
expressando-a em diferentes formas de objetos baseados em sequencia, de cromossomos a` fragmentos
restritos, de mapas geneticos a` protenas, todos dentro
de um u nico modelo de armazenamento. Essa capacidade de representaca o confere uma grande vantagem
para ferramentas de software, armazenamento de dados e busca, e o cruzamento de sequencias e dados de
mapas geneticos de diferentes domnios cientficos [6].

Para melhor visualizar as diferentes formas de


representaca o, ha uma figura demonstrativa no
Apendice II.
Tamanho (lenght). O numero de pares de bases
(bp) de um nucleotdeo (ou resduos de aminoacidos)
no registro da sequencia. Nao existe um limite fixo
maximo para o tamanho da sequencia que pode ser
submetida no GenBank, podendo-se submeter todo um
genoma caso se tenha todo o fragmento contguo da
sequencia de um tipo molecular. No entanto, existe
um limite de 350kb fixo para um registro que pode ser
submetido ao GenBank (com algumas exceco es). Esse
limite ficou acordado atraves de colaboraco es internacionais de o rgaos responsaveis por bancos de dados
de sequencia para facilitar o manuseio dos dados da
sequencia por varios softwares. O tamanho mnimo
permitido para uma submissao e de 50 pares de bases
(bp).

Representaca o
As formas de representaca o disponveis para o modelo
sao divididas em:

Tipo da molecula (mol). Representa o tipo da


molecula que foi sequenciada. Cada registro no GenBank deve conter dados de uma sequencia contgua
de um u nico tipo molecular. Os tipos moleculares
estao descritos na documentaca o do Sequin e podem
incluir DNA genomico, RNA genomico, RNA precursor, mRNA (cDNA), RNA ribossomal, RNA de transferencia, RNA nucleico, e RNA citoplasmatico.

Virtual. que e a representaca o utilizada para descrever a sequencia sobre a qual sabemos detalhes
tais como o DNA ou o tamanho, mas sem ter a
sequencia de fato.

Seq-inst ::= SEQUENCE {


repr ENUMERATED {
not-set (0) ,
virtual (1) ,
raw (2) ,
seg (3) ,
const (4) ,
ref (5) ,
consen (6) ,
map (7) ,
other (255) } ,
mol ENUMERATED {
not-set (0) ,
dna (1) ,
rna (2) ,
aa (3) ,
na (4) ,
other (255) } ,
length INTEGER OPTIONAL ,
fuzz Int-fuzz OPTIONAL ,
topology ENUMERATED {
not-set (0) ,
linear (1) ,
circular (2) ,
tandem (3) ,
other (255) } DEFAULT linear ,
strand ENUMERATED {
not-set (0) ,
ss (1) ,
ds (2) ,
mixed (3) ,
other (255) } OPTIONAL ,
seq-data Seq-data OPTIONAL ,
ext Seq-ext OPTIONAL ,
hist Seq-hist OPTIONAL }

critores para o conjunto. Ela e uma forma conveniente de empacotar toda a informaca o de coleco es
de sequencias sem a necessidade de identificadores
estaveis, como na sequencia simples. Apos os primeiros campos, sua estrutura e bastante similar ao da bioseq simples.
Existem descritores que definem aspectos da coleca o e
as bioseqs dentro da coleca o. A regra geral desses descritores e que eles aplicam-se para tudo abaixodos
primeiros campos de descritores, isso quer dizer, e
como um top level das sequencias que fazem parte de
uma coleca o. A seguir, a definica o da bioseq-set.
Bioseq-set ::= SEQUENCE{
id Object-id OPTIONAL ,
coll Dbtag OPTIONAL ,
level INTEGER OPTIONAL ,
class ENUMERATED
not-set (0) ,
nuc-prot (1) ,
segset (2) ,
conset (3) ,
parts (4) ,
gibb (5) ,
gi (6) ,
genbank (7) ,
pir (8) ,
pub-set (9) ,
equiv (10) ,
swissprot (11) ,
pdb-entry (12) ,
other (255) DEFAULT not-set ,
release VisibleString OPTIONAL ,
date Date OPTIONAL ,
descr Seq-descr OPTIONAL ,
seq-set SEQUENCE OF Seq-entry ,
annot SET OF Seq-annot OPTIONAL}

Fig. 2Definica o de uma Seq-inst.

2.3. Bioseq-set

Fig. 3Definica o de uma Bioseq-set.

Por questoes de conveniencia, e natural que as


sequencias sejam agrupadas. Por exemplo, uma bioseq segmentada e as bioseqs que compoem suas partes, uma sequencia de DNA e suas protenas traduzidas, cadeias separadas de uma molecula multi-cadeia,
entre outros. Entao, podemos dizer que uma Bioseqset e uma coleca o de bioseqs.
Ao inves de um id como na bioseq simples, a
bioseq-set possui uma serie de identificadores e des-

2.4. Aplicaco es e Exemplos


Como ilustraca o e exemplificaca o da aplicaca o
dos conceitos previamente descritos, a bioseq de
exemplo escolhida foi retirada da base de dados do
NCBI(especificamente do GenBank) utilizando a ferramenta Entrez. Ela e o gene responsavel por codificar
a glicoprotena da membrana plasmatica do organismo
Saccharomyces cerevisiae (levedura), que e um fungo
4

Essa integraca o entre a reas e a geraca o de


visualizaca o de alto nvel dos dados e contnua e automaticamente disponibilizada para todos os usuarios
e pode ser atualizada imediatamente assim que novos
dados sao gerados, sem a intervenca o humana. Isso
faz com que os bancos de dados cientficos passem
de um papel de curadores de dados para facilitadores de informaco es para os pesquisadores. Assim, a
identificaca o de potenciais conexoes atraves das diferentes a reas de pesquisa se torna um processo automatico, ao inves de uma analise dolorosa por um
grupo centralizado, levando a vantagem da crescente
torrente de informaco es sobre biologia molecular, fazendo com que seu volume e diversidade sejam vantagens ao inves de desvantagens [5].

encontrado em fermentos. O exemplo pode ser encontrado no Apendice III.


As consequencias desse modelo de dados sao
muito convenientes para os pesquisadores e ferramentas interagirem e para construir bancos de dados de
sequencias. Assumindo que as seq-ids apontam para
sistemas coordenados estaveis, e facil considerar que
o conjunto completo de dados, em conforme com o
modelo, pode funcionar como um bando de dados distribuido e heterogeneo. Por exemplo, vamos supor que
duas bioseqs simples com as ids Ae Bestao publicadas em literatura cientfica e aparecem em grandes
bancos de dados de sequencia publicos. Elas sao ambas sequencias de a cidos nucleicos genomicos de humanos, cada uma encodificando uma protena.
Um pesquisador e um especialista em inicializaca o
de transcripca o. Ele acha informaco es experimentais
adicionais envolvendo um trabalho detalhado sobre a
inicializaca o da regiao de reposica o da sequencia A.
Ele pode, entao, submeter uma tabela com a sntese
desses dados, sem precisar contatar o autor original da
sequencia Aou precisar editar a entrada do registro
de A, sendo necessario apenas colocar um annotation mostrando a caracterstica modificada.
Um outro pesquisador, que e um geneticista interessado em consequencias medicas das mutaco es na
sequencia B, pode adicionar annotations que possuem um conteudo diferente do que o que foi posto
pelo especialista de inicializaca o e submeter os dados
para o banco da mesma forma.
Um terceiro grupo, que pode estar fazendo sequenciamento em lotes do cromossomo humano onde as
sequencias Ae Bestao, produzem uma terceira
sequencia C, que, descoberta pela similaridade e dados de mapeamento, sobrepoe Ae B. O grupo
pode nao so submeter a sequencia Cmas a relaca o
com Ae Bpara o banco de dados como parte de
sua publicaca o.
O banco de dados agora possui informaco es de
cinco fontes diferentes, especialistas de diversas a reas,
utilizando computadores e sistemas diferentes e que
nao conhecem, em muitos casos, os trabalhos uns dos
outros e que em um esforco conjunto, criaram toda
essa informaca o correlacionada atraves do uso do modelo compartilhado e das ids que funcionam como coordenadas para o sistema estavel.

Referencias
[1] B. F. O. Andreas D. Baxevanis. Bioinformatics: A
Practical Guide to the Analysis of Genes and Proteins.
John Wiley & Sons, Inc., second edition, 2001.
[2] N. W. P. Erich Bornberg-Bauer. Conceptual data modelling for bioinformatics. In BRIEFINGS IN BIOINFORMATICS, volume 3 of 2. Henry Stewart Publications, jun 2002.
[3] E. M. et all. Agents in bioinformatics, computational
and systems biology. In BRIEFINGS IN BIOINFORMATICS, volume 8 of 1. Oxford University Press, may
2006.
[4] S. C. Gaasterland T. Fully automated genome analysis that reflects user needs and preferences. A detailed
introduction to the magpie system architecture. Biochimie, first edition, 1996.
[5] NCBI, ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt.
[6] NCBI, www.ncbi.nlm.nih.gov/IEB/DATA.HTML.

Apendice I
Especificaca o ANS.1 de uma Bioseq-set seqset.asn
--$Revision: 2.1 $
--**********************************************************************
--- NCBI Sequence Collections
-- by James Ostell, 1990
---**********************************************************************
NCBI-Seqset DEFINITIONS ::=
BEGIN
EXPORTS Bioseq-set, Seq-entry;
IMPORTS Bioseq, Seq-annot, Seq-descr FROM NCBI-Sequence
Object-id, Dbtag, Date FROM NCBI-General;
--*** Sequence Collections ********************************
--*
Bioseq-set ::= SEQUENCE {
-- just a collection
id Object-id OPTIONAL ,
coll Dbtag OPTIONAL ,
-- to identify a collection
level INTEGER OPTIONAL ,
-- nesting level
class ENUMERATED {
not-set (0) ,
nuc-prot (1) ,
-- nuc acid and coded proteins
segset (2) ,
-- segmented sequence + parts
conset (3) ,
-- constructed sequence + parts
parts (4) ,
-- parts for 2 or 3
gibb (5) ,
-- geninfo backbone
gi (6) ,
-- geninfo
genbank (7) ,
-- converted genbank
pir (8) ,
-- converted pir
pub-set (9) ,
-- all the seqs from a single publication
equiv (10) ,
-- a set of equivalent maps or seqs
swissprot (11) ,
-- converted SWISSPROT
pdb-entry (12) ,
-- a complete PDB entry
other (255) } DEFAULT not-set ,
release VisibleString OPTIONAL ,
date Date OPTIONAL ,
descr Seq-descr OPTIONAL ,
seq-set SEQUENCE OF Seq-entry ,
annot SET OF Seq-annot OPTIONAL }

Seq-entry ::= CHOICE {


seq Bioseq ,
set Bioseq-set }
END

Estruturas e definico es de uma Bioseq-set em C objsset.h


/* objsset.h
* ===========================================================================
*
PUBLIC DOMAIN NOTICE
*
National Center for Biotechnology Information
*
*
* This software/database is a "United States Government Work" under the
* terms of the United States Copyright Act. It was written as part of
* the authors official duties as a United States Government employee and
* thus cannot be copyrighted. This software/database is freely available
* to the public for use. The National Library of Medicine and the U.S.
* Government have not placed any restriction on its use or reproduction.
*
* Although all reasonable efforts have been taken to ensure the accuracy
* and reliability of the software and data, the NLM and the U.S.
* Government do not and cannot warrant the performance or results that
* may be obtained by using this software or data. The NLM and the U.S.
* Government disclaim all warranties, express or implied, including
* warranties of performance, merchantability or fitness for any particular
* purpose.
*
* Please cite the author in any work or product based on this material.
*
* ===========================================================================
*
* File Name: objsset.h
*
* Author: James Ostell
*
* Version Creation Date: 4/1/91
*
* $Revision: 2.0 $
*
* File Description: Object manager interface for module NCBI-Seqset
*
* Modifications:
* -------------------------------------------------------------------------Name
Description of modification
* Date
* ------- ---------- ----------------------------------------------------*
7

*
* ==========================================================================
*/
#ifndef _NCBI_Seqset_
#define _NCBI_Seqset_
#ifndef _ASNTOOL_
#include <asn.h>
#endif
#ifndef _NCBI_General_
#include <objgen.h>
#endif
#ifndef _NCBI_Seq_
#include <objseq.h>
#endif
#ifdef __cplusplus
extern "C" {
#endif
typedef ValNodePtr SeqEntryPtr;
/*****************************************************************************
*
loader
*
*
*****************************************************************************/
extern Boolean SeqSetAsnLoad PROTO((void));
/*****************************************************************************
*
internal structures for NCBI-Seqset objects
*
*
*****************************************************************************/
/*****************************************************************************
*
BioseqSet - a collection of sequences
*
*
*****************************************************************************/
typedef struct seqset {
ObjectIdPtr id;
DbtagPtr coll;
Int2 level;
/* set to INT2_MIN (ncbilcl.h) for not used */
Uint1 _class;
CharPtr release;
DatePtr date;
8

ValNodePtr descr;
SeqEntryPtr seq_set;
SeqAnnotPtr annot;
} BioseqSet, PNTR BioseqSetPtr;
BioseqSetPtr BioseqSetNew PROTO((void));
Boolean BioseqSetAsnWrite PROTO((BioseqSetPtr bsp, AsnIoPtr aip, AsnTypePtr atp));
BioseqSetPtr BioseqSetAsnRead PROTO((AsnIoPtr aip, AsnTypePtr atp));
BioseqSetPtr BioseqSetFree PROTO((BioseqSetPtr bsp));
/*****************************************************************************
*
SeqEntry - implemented as an ValNode
*
choice:
*
1 = Bioseq
*
2 = Bioseq-set
*
*
*****************************************************************************/
SeqEntryPtr SeqEntryNew PROTO((void));
Boolean SeqEntryAsnWrite PROTO((SeqEntryPtr sep, AsnIoPtr aip, AsnTypePtr atp));
SeqEntryPtr SeqEntryAsnRead PROTO((AsnIoPtr aip, AsnTypePtr atp));
SeqEntryPtr SeqEntryFree PROTO((SeqEntryPtr sep));
SeqEntryPtr PNTR SeqEntryInMem PROTO((Int2Ptr numptr));
/*****************************************************************************
*
Options for SeqEntryAsnRead()
*
*
*****************************************************************************/
SeqEntryPtr SeqEntryAsnGet PROTO((AsnIoPtr aip, AsnTypePtr atp, SeqIdPtr sip,
Int2 retcode));
#define SEQENTRY_OPTION_MAX_COMPLEX 1

/* option type to use with OP_NCBIOBJSSET */

/* values for retcode, implemented with AsnIoOptions */


#define SEQENTRY_READ_BIOSEQ 1
/* read only Bioseq identified by sip */
#define SEQENTRY_READ_SEG_SET 2
/* read any seg-set it may be part of */
#define SEQENTRY_READ_NUC_PROT 3
/* read any nuc-prot set it may be in */
#define SEQENTRY_READ_PUB_SET 4
/* read pub-set it may be part of */
typedef struct objsset_option
SeqIdPtr sip;
Int2 retcode;
Boolean in_right_set;
Uint1 working_on_set;

{
/* seq-id to find */
/* type of set/seq to return */
/* 2, if in first set of retcode type */
/* 1, if found Bioseq, but not right set */
9

/* 0, if Bioseq not yet found */


} Op_objsset, PNTR Op_objssetPtr;

#define IS_Bioseq(a) (a->choice == 1)


#define IS_Bioseq_set(a) (a->choice == 2)
/*****************************************************************************
*
loader for ObjSeqSet and Sequence Codes
*
*
*****************************************************************************/
extern Boolean SeqEntryLoad PROTO((void));

#ifdef __cplusplus
}
#endif
#endif

10

Apendice II
Ilustraca o das diferentes formas de representaca o de uma sequencia ou coleca o de sequencias

11

Apendice III
Exemplo de uma Bioseq-set Entrez: U49845
LOCUS
DEFINITION

SCU49845
5028 bp
DNA
linear
PLN 23-MAR-2010
Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION
U49845
VERSION
U49845.1 GI:1293613
KEYWORDS
.
SOURCE
Saccharomyces cerevisiae (bakers yeast)
ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Dikarya; Ascomycota; Saccharomycotina;
Saccharomycetes; Saccharomycetales; Saccharomycetaceae;
Saccharomyces.
REFERENCE
1 (bases 1 to 5028)
AUTHORS
Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE
Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
JOURNAL
Genes Dev. 10 (7), 777-793 (1996)
PUBMED
8846915
REFERENCE
2 (bases 1 to 5028)
AUTHORS
Roemer,T.
TITLE
Direct Submission
JOURNAL
Submitted (22-FEB-1996) Biology, Yale University, New Haven, CT
06520, USA
FEATURES
Location/Qualifiers
source
1..5028
/organism="Saccharomyces cerevisiae"
/mol_type="genomic DNA"
/db_xref="taxon:4932"
/chromosome="IX"
mRNA
<1..>206
/product="TCP1-beta"
CDS
<1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
gene
<687..>3158
/gene="AXL2"
mRNA
<687..>3158
/gene="AXL2"
/product="Axl2p"
CDS
687..3158
/gene="AXL2"
12

/note="plasma membrane glycoprotein"


/codon_start=1
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
VDFSNKSNVNVGQVKDIHGRIPEML"
complement(<3300..>4037)
/gene="REV7"
complement(<3300..>4037)
/gene="REV7"
/product="Rev7p"
complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
LISGDDKILNGVYSQYEEGESIFGSLF"

gene
mRNA

CDS

ORIGIN
1
61
121
181
241
301
361
421
481
541

gatcctccat
ccgacatgag
ctgcatctga
gaaccgccaa
ccacactgtc
agacgcgaaa
attttggcaa
aatacccatc
gagtcgccct
tttactctca

atacaacggt
acagttaggt
agccgctgaa
tagacaacat
attattataa
aaaaaagaac
cttatgtttc
gtaggtatgg
cctttgtcga
catcctgtag

atctccacct
atcgtcgaga
gttctactaa
atgtaacata
ttagaaacag
aacgcgtcat
ctcttcgagc
ttaaagatag
gtaattttca
tgattgacac
13

caggtttaga
gttacaagct
gggtggataa
tttaggatat
aacgcaaaaa
agaacttttg
agtactcgag
catctccaca
cttttcatat
tgcaacagcc

tctcaacaac
aaaacgagca
catcatccgt
acctcgaaaa
ttatccacta
gcaattcgcg
ccctgtctca
acctcaaagc
gagaacttat
accatcacta

ggaaccattg
gtagtcagct
gcaagaccaa
taataaaccg
tataattcaa
tcacaaataa
agaatgtaat
tccttgccga
tttcttattc
gaagaacaga

601
661
721
781
841
901
961
1021
1081
1141
1201
1261
1321
1381
1441
1501
1561
1621
1681
1741
1801
1861
1921
1981
2041
2101
2161
2221
2281
2341
2401
2461
2521
2581
2641
2701
2761
2821
2881
2941
3001
3061
3121
3181
3241
3301
3361

acaattactt
cgtatatcaa
ctactatatc
aacaataccc
cctataaatc
gctggctttc
tatctgatgc
acagcacgtc
tatcgtcaga
acgctctgaa
ctaacgaaga
ccaattggct
actcggcgat
gattttctgc
ctattcaaaa
ctctaaacta
acttattgga
cagatgaatt
cttatggtga
ttagttctct
cttctcagtt
aagaccatga
agaatttcga
tatattttaa
caacgtccac
acactgcaaa
cagcagccaa
ctatcccatt
gaagggaaaa
atcctgcaaa
atgcttcctc
aattggataa
ctctatcagg
tagcaaaacc
cttctgtgta
tgtcaccagt
aaaaactttt
tgtcttcact
caccatcacc
ctcaaagcgg
ttgttccggt
gaccaagtaa
ttaaggacat
taattttatt
agtttttata
taaaacaaag
attttgtcgt

aatagaaaaa
gaagcattca
actactccat
cccagtggca
gtctgtagac
gtttgactct
gaacaccacg
tttgaacaat
tttcaatcta
actagatcct
atccattgtg
gttcttcgat
tgctccagaa
cgttgaggta
tagtttgata
tgtttatctc
tgctccagac
actcggtaag
tgtgatttat
tcccaatatt
tacagactac
ctgggtgaaa
caagctttca
catcattggc
aagaagttct
aatttcttct
taaaacttca
aggcgttatc
tccagacgat
taaaccaaat
gtacgatgat
ccactctgcc
tatgaataca
cccagtacag
tatggatagt
ctctgatatt
cgatttagaa
ggacccttgg
atataacgta
taaaaacgga
taaagatggt
gaaaaggtta
tcacggacgc
ttcctgtttt
cttagagaca
atccaaaaat
caccgctgat

ttatatcttc
cttaccatga
ctagtagtgg
agagtcaatg
aagacagctc
agttctagaa
ttgtatttca
acataccaat
ttggcgttgt
aatgaagtct
tcgtattacg
tctggcgagt
acaagctaca
gaattcgaat
atcaacgtta
gatgacgatc
tgggtggcat
aactccaatc
ttcaacttcg
aacgctacaa
gtgaatacaa
ttccaatcat
ttaggtttga
atggattcaa
caccactcca
acctccgctg
tctcacaata
ctagtagctc
gaaaacttac
caagaaaacg
acttcaatag
actgaatctg
tacaatgatc
cctccagaga
gaaccagcag
gtcagagaca
gcaccagaga
aacagcaata
acgaagcatc
atcactccca
gaaaattttt
gtagattttt
atcccagaaa
attttttatt
tttaatttta
gctctcgccc
taatttttca
14

ctcgaaacga
cacagcttca
ccacgcccta
aatcgtttac
aaataacata
cgttctcagg
atgtaatact
ttgttgttac
taaaaaacta
tcaacgtgac
gacgttctca
tgaagtttac
gttttgtcat
tagtcatcgg
ctgacacagg
ctatttcttc
tagataatgc
ctgccaattt
aagttgtctc
ggggtgaatg
acgtttcatt
ctaatttaac
aagcgaacca
agataactca
cctcaacaag
ctgctacttc
aaaaagcagt
tcatttgctt
cgcatgctat
ctacaccttt
caagaagatt
atatttccag
agttccaatc
gcccgttctt
taaataaatc
gttacggatc
aggaaaaacg
ttagcccttc
gtaaccgcca
caacaatgtc
gctgggtcca
caaataagag
tgctgtgatt
agtggtttac
attccattct
tcttcatatt
ctaaactgat

tttcctgctt
gatttcatta
tgaggcatat
atttcaaatt
caattgcttc
tgaaccttct
cgagggtacg
aaaccgtcca
tggttatact
ttttgaccgt
gttgtataat
tgggacggca
catcgctaca
ggctcaccag
taacgtttca
tgataaattg
taccatttcc
ttctgtgtcc
cacaacggat
gttctcctac
agagtttact
attagctgga
aggttcacaa
ctcaaaccac
ttcttacaca
ttctgctcca
agcaattgcg
cctaatattc
tagtggacct
gaacaacccc
ggctgctttg
cgtggatgaa
ccaaagtaaa
tgacccacag
ctggcgatat
acaaaaaact
tacgtcaagg
tcccgtaaga
cttacaaaat
aacttcatct
tagcatggaa
taatgtcaat
atacgcaacg
agatacccta
tcaaatttca
gagaatacac
gaataatcaa

ccaacatcta
ttgctgacag
cctatcggaa
tccaatgata
gacttaccga
tctgacttac
gactctgccg
tccatctcgc
aacggcaaaa
tcaatgttca
gcgccgttac
ccggtgataa
gacattgaag
ttaactacct
tatgacttac
ggttctataa
gggtctgtcc
atttatgata
ttgtttgcca
tattttttgc
aattcaagcc
gaagtgccca
tctcaagagc
agtgcgaatg
tcttctactt
gcagcgctgc
tgcggtgttg
tggagacgca
gatttgaata
tttgatgatg
aacactttga
aagagagatt
gaagaattat
aataggtctt
actggcaacc
gttgatacag
gatgtcacta
aaatcagtaa
attcaagact
tctgacgatt
ccagacagaa
gttggtcaag
atattttgct
tattttattt
tttttgcact
tccattcaaa
aggccccacg

3421
3481
3541
3601
3661
3721
3781
3841
3901
3961
4021
4081
4141
4201
4261
4321
4381
4441
4501
4561
4621
4681
4741
4801
4861
4921
4981

tcagaaccga
aaattttcat
tccaaactat
ttaataactg
ataatcaaac
tgatcgtctt
aaatcgttct
agaacatcca
acgaactgcg
acatttctat
tctacccatc
tcagtcgtcg
gtttatatta
atattaagaa
ctgtttatgt
tttggtaaag
cttagttcat
ccatctgtca
agcgcgtttg
tccaatgaat
tcttcgcact
atttgctcag
tcactgtctt
gatctcaagt
ttctccactt
ttttcagtgt
tgccatgact

ctaaagaagt
cttcttgaca
cgaccctcct
cttcaaatgt
tatttaagga
tatccacatg
ttttattaat
gtataagttc
gcaagttgaa
aaaataaaat
tattcataaa
caaaaacgta
gttaaacagg
agtggaaatt
ttctacgtac
gtgaaagcat
cttttttcca
gcaacatcag
tcgtttgtat
tagcaatttc
tcttttccca
agttcaaatc
ctagctgttg
tattggagtc
cactgtcgag
tagattgctc
cagattctaa

gagttttatt
tttaacccag
gtttctgtcc
tattgtgtca
agatcggaat
ttgtaattca
aatgcagatg
ttctatatag
tgactggtaa
caaattaatg
gctgacgcaa
taccttcttt
gtctagtctt
aaattagtag
ttttgattta
aatgtaaaag
aaaagcaccc
ttgtgtgagc
cttccgtaat
gtccaattct
ttcatctctt
ggcctctttc
ttctagatcc
ttcagccaat
ttgctcgttt
taattctttg
ttttaagcta

//

15

ttaggaggtt
tttgaatccc
aacttatgtc
tcgttgactt
tcgtcgaaca
ctaaaatcta
gaaaatctgt
tcaattaaag
gtagtgtagt
tagcatttta
cgattactat
ttccgacctt
agtgtgaaag
tgtagacgta
tagcaagggg
ctagaataaa
aatgataata
aataataaaa
tttagtctta
ttttgagctt
tcttcttcca
agtttatcca
tggtttttct
tgctttgtat
ttagcggaca
agctgttctc
ttcaatttct

gaaaaccatt
tttcaatttc
ctagttccaa
taggtaattt
cttcagtttc
aaacgtattt
aaacgtgcgt
caggatgcct
cgaatgactg
agtataccct
tttttttttc
ttttttagct
ctagtggttt
tatgcatatg
aaaagaaata
atggacgaaa
actaaaatga
tcatcacctc
tcaatgggaa
cttcatattt
aagcaacgat
ttgcttcctt
tggtgtagtt
cagacaattg
aagatttaat
tcagctcctc
ctttgatc

attgtctggt
tgctttttcc
ttcgatcgca
ctccaaatgc
cgtaatgatc
ttcaatgcat
taatttagaa
attaatggga
aggtgggtat
cagccacttc
ttcttggatc
ttctggaaaa
cgattgactg
tatttctcgc
catactattt
taaagagagg
aaaggatttg
cgttgccttt
tcataaattt
gctttggaat
ccttctaccc
cagtttggct
ctcattatta
actctctaac
ctcgttttct
atatttttct

Potrebbero piacerti anche