Sei sulla pagina 1di 100

FUNDAO DE ENSINO EURPIDES SOARES DA ROCHA

CENTRO UNIVERSITRIO EURPIDES DE MARLIA UNIVEM


CURSO DE BACHARELADO EM CINCIA DA COMPUTAO

LUCAS SALVIANO ROMANI

ANLISE E IMPLANTAO DE REPOSITRIO DIGITAL


UTILIZANDO SOFTWARE LIVRE DSPACE

MARLIA
2009

LUCAS SALVIANO ROMANI

ANLISE E IMPLANTAO DE REPOSITRIO DIGITAL UTILIZANDO


SOFTWARE LIVRE DSPACE

Trabalho de Concluso de Curso apresentado


ao Curso de Bacharelado em Cincia da
Computao da Fundao de Ensino
Eurpides Soares da Rocha, mantenedora do
Centro Universitrio Eurpides de Marlia
UNIVEM, como requisito para obteno do
grau de Bacharel em Cincia da Computao.

Orientador: Prof. Ms. ELVIS FUSCO

MARLIA
2009

Romani, Lucas Salviano.

Anlise e Implantao de Repositrio Digital utilizando


Software Livre DSpace / Lucas Salviano Romani;
orientador: Elvis Fusco. Marlia, SP: [s.n.], 2009.
98 f.
Trabalho de Concluso de Curso Curso de Bacharelado em
Cincia da Computao, Fundao de Ensino Eurpides Soares da
Rocha, mantenedora do Centro Universitrio Eurpides de Marlia
UNIVEM, Marlia, 2009.
1.Repositrio Digital 2.Metadados 3.DSpace 4.Interoperabilidade
5.Software Livre
CDD: 004.21

A Deus, pois sem suas bnos nada se


torna possvel.
A meu pai Argemiro e minha me
Snia.
A minha famlia e verdadeiros amigos.

AGRADECIMENTOS
Agradeo a Deus, por me permitir e me abenoar na conquista de mais um
objetivo da minha vida.
Agradeo a meus pais, Argemiro e Snia, pelo apoio, pela presena, sacrifcios e
pacincia em todos os momentos da minha vida, e pelo amor e apoio nestes
quatro duros anos e tambm em todos os outros da minha vida. Serei
eternamente grato a vocs.
Agradeo ao amigo Mrio Cleber, por ter me incentivado e apoiado tanto para
que se tornasse possvel a concluso da minha graduao.
Agradeo ao meu irmo Thiago, por ter me apoiado durante estes anos de estudo
de todas as formas possveis e me orientado sempre com as palavras necessrias
de se ouvir.
Agradeo ao meu orientador Elvis, pelo interesse e apoio no desenvolvimento
deste projeto.
Agradeo aos verdadeiros amigos, pelo apoio e por entenderem as ausncias
devido ao comprometimento a este trabalho e aos meus estudos, em especial
agradeo Fabiana, Jenni, Eliana, Diego, Marlia, Marcelle, Giovane, Vanessa,
Omoto, Cyntia, Fogo, Mateus, Marina, Winkel, Tarsila e Cida.
Agradeo aos docentes do meu curso, pelos valiosos ensinamentos.
E agradeo a todos mais que estiveram presentes de forma positiva em minha
vida durante estes anos de estudos, me apoiando e incentivando.
MUITO OBRIGADO A TODOS!

"A vida para quem topa qualquer parada,


e no para quem pra em qualquer topada."
Bob Marley

ROMANI, Lucas Salviano. Anlise e Implantao de Repositrio Digital utilizando


Software Livre DSpace. 2009. 98f. Trabalho de Concluso de Curso de Bacharelado em
Cincia da Computao Centro Universitrio Eurpides de Marlia, Fundao de Ensino
Eurpides Soares da Rocha, Marlia, 2009.
RESUMO
O uso de meios computacionais para gerao de documentos digitais, o mais usado hoje em
dia em todos os tipos de instituies, mas ocorre que grande parte destes documentos deixa de
ser disponibilizado para aquelas pessoas as quais eles interessam. Este trabalho tem como
objetivo o estudo dos repositrios digitais, com o intuito do desenvolvimento de um
repositrio digital capaz de fazer com que o conhecimento gerado pelo Grupo de Pesquisa
Novas Tecnologias em Informao do Programa de Ps-Graduao em Cincia da Informao
da UNESP de Marlia seja preservado no tempo e disponibilizado a todos os interessados de
maneira eficiente e, a partir deste estudo, demonstrar o uso de repositrios digitais na gesto
de documentos digitais em empresas e instituies de ensino e pesquisa.

Palavras-Chave: Repositrio Digital. Metadados. Dspace. Interoperabilidade.

ROMANI, Lucas Salviano. Anlise e Implantao de Repositrio Digital utilizando


Software Livre DSpace. 2009. 98f. Trabalho de Concluso de Curso de Bacharelado em
Cincia da Computao Centro Universitrio Eurpides de Marlia, Fundao de Ensino
Eurpides Soares da Rocha, Marlia, 2009.
ABSTRACT
The use of computational methods to generate digital documents, is the most widely used
today in all types of institutions, but it happens that great part of these documents is no longer
available for those people whom it matters. This work has as purpose the study of the digital
repositories, aiming the development of a digital repository able to ensure that the knowledge
generated by the Research Group Novas Tecnologias em Informao from the Programa de
Ps-Graduao em Cincia da Informao da Unesp de Marlia can be preserved in time and
efficiently available to all interested, and after this study, demonstrate the use of digital
repositories on the management of digital documents in companies and educational and
research institutions.
Keywords: Digital Repository. Metadata. Dspace. Interoperability.

LISTA DE ILUSTRAES
FIGURA 1 - Grfico com a quantidade de repositrios desenvolvidos por cada sistema ....... 54
FIGURA 2 - Exemplo de representao dos metadados bsicos no DSpace ........................... 60
FIGURA 3 - Processo de workflow no DSpace........................................................................ 62
FIGURA 4 - Funcionamento do Dspace .................................................................................. 63
FIGURA 5 - Extraindo o arquivo apache-maven-2.1.0-bin para o disco local .................... 73
FIGURA 6 - Alterando as variveis de ambiente ..................................................................... 74
FIGURA 7 - Criando as novas variveis do sistema ................................................................ 74
FIGURA 8 - Abrindo o prompt de comando do Windows (cmd) ............................................ 75
FIGURA 9 - Resultados esperados na checagem das variveis de ambiente ........................... 75
FIGURA 10 - Abrindo o pgAdmin III do PostgreSQL ............................................................ 76
FIGURA 11 - Conectando ao banco de dados PostgreSQL ..................................................... 77
FIGURA 12 - Criando um novo Login Role no PostgreSQL .............................................. 77
FIGURA 13 - Configurando o novo Login Role chamado dspace ...................................... 77
FIGURA 14 - Criando um novo Banco de Dados .................................................................... 78
FIGURA 15 - Configurando o novo Banco de Dados chamado dspace .................................. 78
FIGURA 16 - Conferindo o novo login role e o novo banco de dados criados ....................... 79
FIGURA 17 - cone na rea de notificao e opo de parar o servio do servidor web Tomcat
.................................................................................................................................................. 79
FIGURA 18 - Pasta dspace-1.5.2-src-release extrada para disco local e pasta dspace
criada pelo usurio no disco local (C:) .................................................................................... 80
FIGURA 19 - Criando do pacote de instalao do DSpace ..................................................... 81
FIGURA 20 - Criao do pacote de instalao concluda com sucesso ................................... 81
FIGURA 21 - Realizando a instalao do DSpace .................................................................. 81
FIGURA 22 - Instalao do DSpace concluda com sucesso ................................................... 81
FIGURA 23 - Criando a conta do administrador do repositrio .............................................. 82
FIGURA 24 - Copiando as pastas jspui e xmlui do Dspace para o Apache Tomcat ............... 83
FIGURA 25 - Acessando http://localhost:8080/jspui ............................................................... 83
FIGURA 26 - Acessando http://localhost:8080/xmlui ............................................................. 84
FIGURA 27 - Diviso de uma pgina do DSpace .................................................................... 85
FIGURA 28 - Novo banner e o link Sobre o software DSpace ............................................. 85
FIGURA 29 - Linhas a serem eliminadas do arquivo header-default.jsp para que o link
Sobre o software DSpace deixar de ser mostrado ................................................................. 85

FIGURA 30 - Alterando a cor de fundo dos quadros centrais da Page Content ...................... 86
FIGURA 31 - Resultado aps as customizaes realizadas no styles.css ............................ 87
FIGURA 32 - Link na Navigation Bar para acessar a interface de administrador e a interface
de administrador ....................................................................................................................... 88
FIGURA 33 - Estrutura das Comunidades e Colees do repositrio ..................................... 89
FIGURA 34 - Elementos do input-forms.xml traduzidos para o portugus ......................... 90
FIGURA 35 - Atualizando os arquivos do diretrio C:\dspace ............................................ 90

LISTA DE SIGLAS
AACR2: Anglo American Cataloguing Rules Edition 2
AIFF: Audio Interchange File Format
API: Application Programming Interface
ASCII:American Standard Code for Information Interchange
BSD: Berkeley Software Distribution
CDSWare: CERN Document Server Software
CERN: European Organization for Nuclear Research
CQL: Common Query Language
DCMI: Dublin Core Metadata Initiative
DOI: Digital Object Identifier
DP: Data Provider
DSpace: Digital Space Institucional Digital Repository System
DTD: Data Type Document
EXIF: Exchangeable Image File
GDBM: GNU Database Manager
GPL: General Public Licence
GP-NTI: Grupo de Pesquisa - Novas Tecnologias em Informao
HP: Hewllet-Packard
HTML: Hypertext Markup Language
IBICT: Instituto Brasileiro de Informao em Cincia e Tecnologia
ID3: IDentify an MP3
IPR: Intellectual Property Rights
ISBN: International Standard Book Number
ISO: International Standard Organization
JPEG: Joint Photographic Experts Grou
MARC: Machine Readable Cataloging
METS: Metadata Encoding and Transmition
MIT: Massachussets Institute of Technology
MP3: MPEG - 1/2 Audio Layer 3
NGO: Non-governmental Organization
NISO: National Information Standards Organization

OAI: Open Archives Initiative


OAI-PMH: Open Archives Initiative Protocol for Metadata Harvesting
OAMS: Open Archives Metadata Set
PDF: Portable Document Format
RI: Repositrio Institucionai
RTF: Rich Text Format
SGML: Standard Generalized Markup Language
SP: Service Provider
SRW: Search Retrieval Webservice
TIFF: Tagged Image File Format
UNESCO: United Nations Educational, Scientific and Cultural Organization
URI: Uniform Resource Identifier
URL: Uniform Resource Locator
W3C: World Wide Web Consortium
WWW: World Wide Web
XML: Extensible Markup Language

LISTA DE TABELAS
TABELA 1 - Exemplo de descrio de um recurso usando o padro Dublin Core ................. 41
TABELA 2 - Qualificadores do padro Dublin Core ............................................................... 43
TABELA 3 - Atendimento dos requisitos obrigatrios para o repositrio digital proposto nos
aplicativos analisados ............................................................................................................... 52
TABELA 4 - Atendimento dos requisitos desejveis para o repositrio digital proposto nos
aplicativos analisados ............................................................................................................... 53

SUMRIO
INTRODUO ........................................................................................................................ 14
CAPTULO 1 REPOSITRIOS DIGITAIS ......................................................................... 16
1.1 Funes Principais .............................................................................................................. 18
1.2 Pblico Alvo e Benefcios .................................................................................................. 18
CAPTULO 2 METADADOS .............................................................................................. 20
2.1 Definies ........................................................................................................................... 21
2.2 Caractersticas ..................................................................................................................... 22
2.3 Funes ............................................................................................................................... 24
2.4 Padres de Metadados ........................................................................................................ 24
2.4.1 Padro MARC (Machine Readable Cataloging)............................................................. 27
2.4.2 Padro METS (Metadata Encoding and Transmition) ................................................... 29
2.4.3 Padro Dublin Core ......................................................................................................... 30
2.4.3.1 Especificaes do Padro Dublin Core ........................................................................ 34
CAPTULO 3 INTEROPERABILIDADE ............................................................................ 44
3.1 Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) ...................... 46
3.2 Protocolo Z39.50 ................................................................................................................ 49
CAPTULO 4 ANLISE DAS FERRAMENTAS DE CONTRUO DE REPOSITRIOS
DIGITAIS ................................................................................................................................. 51
4.1 Comparao de Aplicativos ................................................................................................ 52
4.2 Anlise Detalhada da Ferramenta DSpace ......................................................................... 54
4.2.1 Metadados e Interoperabilidade no DSpace .................................................................... 58
4.2.2 Estrutura e Funcionamento do DSpace ........................................................................... 58
4.2.3 Processo de Depsito e Workflow no DSpace ................................................................ 61
4.2.4 Buscas e Navegao no DSpace ...................................................................................... 63
4.3 Anlise Detalhada da Ferramenta Greenstone.................................................................... 65
4.4 Anlise Detalhada da Ferramenta CDSWare ..................................................................... 66
4.5 Anlise Detalhada da Ferramenta Nou-rau ........................................................................ 69
4.6 Escolha do Sistema a ser usado para o Desenvolvimento do Repositrio Digital Proposto
.................................................................................................................................................. 71
CAPTULO 5 IMPLANTAO E CUSTOMIZAO DO REPOSITRIO DIGITAL ... 73
5.1 Instalao dos Componentes e do DSpace ......................................................................... 73
5.2 Customizao do Repositrio Digital ................................................................................. 84
5.3 Customizao do Repositrio Digital a partir da interface de administrador..................... 88
5.4 Traduo dos componentes do DSpace .............................................................................. 89
CONCLUSO .......................................................................................................................... 92
REFERNCIAS ....................................................................................................................... 94

14

INTRODUO

Com o uso intenso de meios computacionais para criao de produes cientficas e


documentos de uso geral, muita informao tem sido gerada, mas grande parte deixa de ser
disseminada para aquelas pessoas e instituies as quais ela interessa e tambm documentos
acabam sendo perdidos e precisam ser refeitos, sendo que poderiam ser facilmente
reutilizados, provendo assim economia de tempo e pessoal nas organizaes.
Atualmente muitas instituies de ensino e de pesquisa utilizam sistemas
computacionais para gerenciar suas produes cientficas, as quais so criadas nos mais
diversos tipos de arquivos, como arquivos de texto (artigos, dissertaes, relatrios, livros,
teses, entre outros), planilhas eletrnicas, softwares, imagens, cdigos fonte, arquivos de
udio, arquivos de vdeo, pginas web, entre outros, mas tais produes muitas vezes no so
geridas adequadamente, o que leva a no serem preservadas no tempo e no serem
disponibilizadas aqueles que possuem interesse em acessar tais produes, o que diminui as
possibilidades de se ter maior proveito e consequentemente maior visibilidade desses
documentos digitais.
Tais informaes necessitam serem armazenadas para que no sejam perdidas no
tempo, para que possam ser acessadas pelos interessados e para que sejam preservadas a fim
de se permitir o reuso dos documentos criados pelas instituies. Desta maneira, faz-se
necessrio o uso de sistemas capazes de suprir estas necessidades, e para tais necessidades so
apresentados os repositrios digitais, sistemas capazes de armazenar, gerir, disseminar e
preservar as produes de uma instituio qualquer (LEWIS; YATES, 2008).
O Grupo de Pesquisa - Novas Tecnologias em Informao (GP-NTI) do Programa de
Ps-Graduao em Cincias da Informao, da UNESP de Marlia possui tais necessidades,
ou seja, necessita de uma forma eficiente e segura de preservar e disseminar suas produes
cientficas para todos que se interessarem por elas, atravs de sistemas que sejam acessveis a
partir da internet e que sejam gratuitos.
Este trabalho tem como objetivo fazer uso de sistemas computacionais para que as
produes cientficas e os documentos gerados pelas instituies e organizaes sejam
disponibilizados ao pblico interessado e que este pblico tenha facilidade em acess-los.
Para isso pretende-se demonstrar o desenvolvimento e a customizao de um repositrio
digital utilizando softwares livres para atender as necessidades de armazenamento e
disseminao das produes cientficas geradas pelo GP-NTI.

15

Alm de permitirem que os conhecimentos gerados em instituies de ensino e


pesquisa sejam de fato capazes de se tornarem conhecimentos explcitos para fins de
pesquisas e de criao de novos conhecimentos, os repositrios digitais tambm encontram
utilidade em empresas de modo geral, pois possuem a capacidade de transformar
conhecimento tcito em conhecimento explcito, ou seja, empresas que utilizem repositrios
digitais para armazenar, preservar e disponibilizar seus documentos digitais, deixaro de ter
seus documentos no amplamente divulgados e pouco utilizados pelos interessados e por
aqueles os quais tais documentos muito ajudariam, portanto os documentos digitais criados
por seus membros, mas que no so socializados, podero passar a serem socializados, ou
seja, tornaram-se conhecimentos explcitos, pois iro permitir que outros membros da
instituio alm dos criadores dos documentos os usem e com isso aumentem o conhecimento
geral da organizao e consecutivamente melhorias em seus processos e maior ganho de
tempo e agilidade nos cumprimentos de tarefas poderiam ser alcanados.
A pesquisa se apresenta como sendo exploratria, descritiva e explicativa, com base
em reviso bibliogrfica e desenvolvimento de um repositrio digital utilizando software
livre. A anlise ser feita de modo qualitativo e a redao se dar de modo interpretativo.
A reviso bibliogrfica contar com estudo da teoria dos repositrios digitais, dos
metadados e de interoperabilidade. Tambm iro ser estudados os softwares a serem
utilizados no processo de desenvolvimento e customizao do repositrio digital.

16

CAPTULO 1 REPOSITRIOS DIGITAIS


Com a evoluo da tecnologia, o suporte s informaes modificou-se muito e as
produes cientficas passaram a ser desenvolvidas em sua grande maioria atravs do uso de
meios computacionais, surgiu ento a necessidade de se desenvolver sistemas capazes de
armazenar tais produes, estando elas em qualquer dos formatos existentes, tais como
arquivos de texto, vdeos, imagens, sons, entre tantos outros, e tambm preserv-los no tempo
e prover acesso a todos os interessados.
O grande aumento da capacidade de armazenamento dos computadores e a evoluo
da Internet e das redes, tornou possvel pensar-se em repositrios digitais capazes de permitir
o acesso ao contedo integral das obras em formato digital. Barton (2005, p.10) define
repositrios institucionais como sendo um banco de dados com um conjunto de servios para
capturar, armazenar, indexar, preservar e distribuir a pesquisa de uma instituio de ensino em
formatos digitais.
Repositrios digitais so conjuntos de obras em vrios formatos diferentes, mas
digitais, disponveis para serem acessadas atravs de meios computacionais, podendo serem
acessados a partir de redes de computadores locais ou pela internet. O contedo dos
repositrios digitais no possui limitaes, podendo existir repositrios institucionais, que
agrupam projetos de pesquisas, teses de ps-graduao, trabalhos diversos desenvolvidos
pelos membros da instituio, monografias, entre outros, e tambm repositrios para qualquer
tipo de arquivos em formato digital que se deseje.
Tratando-se de repositrios institucionais de universidades Lynch (2003, p.02) os
define como sendo um conjunto de servios que uma instituio de ensino oferece aos
membros de sua comunidade, objetivando o gerenciamento e disseminao eficiente dos
materiais digitais gerados pela instituio e pelos membros de sua comunidade.
Tambm segundo Lynch (2003, p.02) um compromisso da instituio a
preservao a longo prazo dos materiais digitais armazenados em seus repositrios digitais,
quando tal preservao for apropriada, bem como tambm sua organizao adequada e o
acesso ou distribuio deste materiais.
Os repositrios digitais institucionais, segundo definio do glossrio elaborado pelo
IBICT (Instituto Brasileiro de Informao em Cincia e Tecnologia) (REPOSITRIO...,
2007),
So sistemas de informao que armazenam, preservam, divulgam e do
acesso produo intelectual de comunidades universitrias. Ao faz-lo,

17

intervm em duas questes estratgicas: contribuem para o aumento da


visibilidade e o valor pblico das instituies, servindo como indicador
tangvel da sua qualidade; permitem a reforma do sistema de comunicao
cientfica, expandindo o acesso aos resultados da investigao e reassumindo
o controle acadmico sobre a publicao cientfica.

Repositrios institucionais so conjuntos de servios oferecidos pelas instituies


para gerenciamento e disseminao dos materiais digitais criados pela instituio e pelos
membros da sua comunidade, provendo acesso aos materiais digitais tanto para os membros
internos da instituio quanto para os externos, atravs da internet, que tambm possuam
interesse em tais materiais.
Rodrigues et al. (2006), Lynch (2003) e Crow (2002) afirmam que os repositrios
digitais institucionais permitem que grande parte do conhecimento de uma instituio seja
reunido, preservado e disseminado de forma eficiente, contribuindo desta maneira para o
aumento da visibilidade das produes da instituio.
Afirmam que dentro dos ltimos anos o nmero de repositrios digitais disponveis
tem crescido consideravelmente, especialmente na comunidade universitria, com objetivos
focados no gerenciamento, na preservao, no armazenamento e tambm na divulgao das
produes intelectuais desta comunidade. Instituies de ensino e pesquisa possuem interesse
que seus membros disponibilizem suas produes cientficas em tais repositrios digitais
institucionais, uma vez que ao disponibilizarem tais produes, esto contribuindo
diretamente para que as instituies tenham a possibilidade de ganhar mais prestgio e
tambm credibilidade dento da comunidade cientfica, alm de contribuir efetivamente com o
progresso cientfico.
Para Leite e Costa (2005, p.8):
Os repositrios institucionais (RI) possuem uma diversidade de tipologia de
contedos e formatos que podem ser armazenados nos RI, tais como: artigos
cientficos, livros eletrnicos, captulos de livros, preprints, postprints,
relatrios tcnicos, textos para discusso, teses, dissertaes, trabalhos
apresentados em conferncias, palestras, material de ensino (slides,
transparncias, texto resumo, resenhas, trabalhos apresentados, entre outros),
arquivos multimdia etc.

A necessidade de se preservar digitalmente documentos, que antes se encontravam


apenas em papel, e permitir que os mesmos estejam acessveis a qualquer pessoa, tem levado
determinadas organizaes, como universidades e bibliotecas, entre outras, a criar os seus
prprios repositrios (SANTOS; TEIXEIRA; PINTO, 2005).
Segundo Barton (2005, p.16) um sistema de repositrio institucional no somente
definido pelo software e pelo banco de dados que contm as colees digitais. Um repositrio
institucional um conjunto de servios para aqueles que depositam material para as

18

comunidades de pesquisa e escolares envolvidas e para os usurios finais. Portanto um


repositrio institucional constitudo pelo software, pessoal responsvel pelo gerenciamento
do repositrio e pelo seu contedo.

1.1 Funes Principais


As principais funes de um repositrio digital segundo identificao do autor so:
Armazenamento de produes e documentos criados pelas instituies e seus
membros;
Preservao a longo prazo das produes;
Publicao eletrnica eficiente das produes;
Gerenciamento do conhecimento existente na instituio;
Aumento da visibilidade das produes criadas pela instituio e seus
membros;
Prover a interoperabilidade entre repositrios atravs do uso de padres de
metadados e do protocolo OAI-PMH (Open Archives Initiative Protocol for
Metadata Harvesting);
Prover acesso livre a documentos e/ou arquivos de produes cientficas;
Armazenamento de documentos gerados dentro das instituies para
gerenciamento prprio, como atas, relatrios, manuais, regulamentos, entre
outros.

1.2 Pblico Alvo e Benefcios


Os repositrios digitais possuem como pblico alvo qualquer instituio, sendo ela
uma universidade, uma empresa de pesquisa ou qualquer outro tipo de instituio que deseje
armazenar, gerenciar e preservar suas produes de maneira eficiente.
Segundo citado por diversos autores, a maioria dos repositrios digitais existentes
so criados para instituies de ensino, mas tambm existem repositrios criados para
diversos outros fins, como por exemplo, a Biblioteca Digital Jurdica (BDJur) do Superior

19

Tribunal de Justia1, a Biblioteca Digital do Senado Federal 2e a Biblioteca Digital sobre


Corrupo3.
Entre os mais importantes motivos e benefcios que levam uma instituio a criar seu
prprio repositrio digital, segundo Noerr (2003) podem estar:
Promoo a instituio perante seus concorrentes e potenciais clientes;
Possibilidade de gerao de renda, cobrando-se pelo acesso ao contedo do
repositrio;
Participao em uma comunidade que produz conhecimento e o compartilha;

Outros benefcios identificados no uso de repositrios digitais pelas instituies so:


Prover o acesso fcil e eficiente a toda produo da instituio;
Garantir a preservao digital dos arquivos presentes no repositrio;
Aumentar a visibilidade das produes da instituio, devido ao uso de padres
de metadados usados internacionalmente, o que facilita que estas produes
sejam localizadas nos mais diversos mecanismos de busca existentes.
Aumentar o interesse dos membros da instituio em criar novas produes,
uma vez que sabero que as mesmas tero maior visibilidade tanto para os
membros da instituio quanto para os interessados de fora da instituio.
Aumentar o prestigio da instituio, uma vez que todo seu material de pesquisa
estar sendo disponibilizado a todos interessados, fazendo com que esses
saibam o potencial e o foco das pesquisas da instituio;
Compartilhar colees com outros repositrios institucionais atravs do uso de
padres de interoperabilidade, aumentando ainda mais a visibilidade da
instituio e aumentando tambm o material disponvel a ser usado pelos
membros da instituio;
Implantao de ambientes de gesto de conhecimento, persistindo e
socializando os documentos digitais criados nas organizaes, num ambiente
centralizado.

Os repositrios digitais utilizam-se de metadados para permitir a busca e recuperao


de seus objetos digitais e possibilitar a interoperabilidade com outras bases de dados.
1

Ver http://bdjur.stj.gov.br/xmlui/
Ver http://www2.senado.gov.br/bdsf/
3
Ver http://bvc.cgu.gov.br/bvc.jsp
2

20

CAPTULO 2 - METADADOS
A internet o meio de maior utilizao dos computadores e dos meios eletrnicos de
armazenamento, e da busca e recuperao de informaes armazenadas em meio eletrnico e
com o seu desenvolvimento acelerado, capacidade de armazenamento e o aumento da
quantidade de recursos disponibilizados levam necessidade de ferramentas capazes de
gerenciar, organizar e armazenar os recursos disponveis em meios eletrnicos. Por recursos
entende-se obras em quaisquer formatos, seja eles digitais ou no.
Pode-se compreender como recurso toda informao armazenada em meios
eletrnicos que possa ser recuperada e acessada atravs da internet, no dependendo do seu
formato, que pode ser texto, imagem, vdeo, som, entre muitos outros existentes.
Os mecanismos de busca disponveis na internet, como Google 1, o Yahoo!2, o Bing3
entre vrios outros, recuperam muita informao, mas normalmente no com toda a preciso e
qualidade que o usurio, a qual as informaes disponibilizadas se destinam, deseja, ou seja,
retornam resultados com pouca preciso.
A discusso terica dos conceitos de preciso da informao no o objetivo maior
deste projeto, mas podem-se citar que o conceito de preciso para avaliao de fontes
eletrnicas na internet fica muito prximo do conceito de avaliao de fontes impressas,
definidos pelos bibliotecrios. Ento preciso seria a relao entre a quantidade de
documentos relevantes recuperados e a quantidade total de documentos recuperados.
Para que uma busca tenha qualidade e aproxime-se do resultado esperado pelo
usurio, os recursos disponveis na internet necessitariam de possuir dados suficientes para
descreverem seu contedo de forma mais adequada, mas esta eficincia na descrio dos
recursos disponveis em meios eletrnicos pouco encontrada.
Por exemplo, pode-se usar as ferramentas de busca para localizar documentos que
contenham referncias a determinado autor, entretanto no possvel buscar somente os
documentos que foram criados por este autor. Isto nos mostra que o resultado da busca traz
muitos documentos que no so relevantes para o usurio, levando o mesmo a gastar tempo
extra a procura dos documentos que realmente tenham interesse para sua pesquisa.

Ver http://www.google.com.br
Ver http://www.yahoo.com.br
3
Ver http://www.bing.com
2

21

O uso de metadados para descrio destes documentos permite realizar pesquisas de


documentos escritos exatamente pelo autor determinado, do tipo autor = nome_do_autor
_determinado.
Metadados so a chave para garantir que os recursos vo sobreviver e continuar a
ser acessveis no futuro (NISO, 2004, p.01).

2.1 - Definies
Normalmente chamados de dados sobre dados ou informaes sobre informaes, o
termo metadados pode ser definido como conjuntos de dados chamados de elementos, que
possuem nmero varivel de acordo com o padro, e que descrevem o contedo de um
recurso, permitindo aos usurios ou ferramentas de busca recuperar este recurso. Estes
elementos descrevem informaes diversas a respeito do recurso, tais como nome, formato,
data de criao, formato de arquivo, entre diversas outras, que aumentam ainda mais a
eficincia da descrio de um recurso e aumentam o nmero de campos possveis para
pesquisas.
O termo metadados possui diferentes conceitos e significados dependendo da rea
que o profissional que o define trabalha, mas o foco principal dos metadados a descrio da
informao visando sua recuperao.
Segundo Niso (2004, p.01), metadados so informaes estruturadas que
descrevem, explicam localizam ou seno facilitam a recuperao, uso ou o gerenciamento de
um recurso informacional.
Alvarenga (2003) refere-se aos metadados como sendo dados que descrevem a
essncia, atributos e contexto de emergncia de um recurso (documento, fonte, etc) e
caracteriza suas relaes, visando ao acesso e ao uso potencial.
J Souza; Vendrusculo e Melo (2000) os definem da seguinte maneira: catalogao
do dado ou descrio do recurso.
Gill (1998) os descreve como dados que servem para descrever grupos de dados que
poderamos chamar de objetos informatizados ou descries estruturadas de um objeto
informatizado.
Como pode-se observar existem diversas definies para os metadados, mas aps
extensa pesquisa, metadados poderiam ser definidos como um conjunto de elementos que

22

descrevem um dado recurso, visando manter uma uniformidade nas descries, com o
objetivo principal de possibilitar sua busca e recuperao atravs dos mecanismos existentes.
Pode-se concluir que um conjunto de elementos que possua informaes para
identificar o contedo e de descrio de um dado recurso, possibilitando sua recuperao em
meios eletrnicos pode ser chamado de metadados.

2.2 - Caractersticas

Tratando-se dos repositrios digitais, os elementos que formam os metadados devem


conter dois tipos distintos de informaes:
elementos descritivos, que so aqueles que se referem as caractersticas
explicitas do recurso, como autor, ttulo, formato de arquivo, data de criao,
entre outros;
e elementos temticos, que possuem contedo intelectual, ou seja, expressam o
contedo do recurso, como as palavras-chave e as referncias cruzadas.
Estes elementos de preferncia devem usar esquemas de codificao que sejam
comuns, como por exemplo, o uso de vocabulrios controlados, esquemas de classificao e
formatos de descries formais, o que permite que esses metadados sejam trocados entre
diferentes sistemas.
O uso de metadados facilita a busca e recuperao em bases de dados, pois a busca
ganha eficincia e relevncia, uma vez que se torna possvel definir quais campos a serem
pesquisado e quais valores procurar dentro de cada campo, o que no seria possvel numa
busca full-text, que procura exatamente pelo texto indicado na busca, sem se definir a que se
refere tal texto, como ttulo, autor ou outro elemento.
Na comparao entre ferramentas de busca utilizadas na internet, que utilizam
indexao automtica, com a busca por elementos de metadados descritos por seres humanos,
diz que o uso de elementos de metadados trs resultados normalmente pequenos, mas bastante
significativos quanto a relevncia e detalhamento (KNIGHT, 2004, p.1-2).
De acordo com Niso (2004) o uso de metadados traz entre seus benefcios e
funcionalidades permitir que os recursos sejam encontrados a partir de elementos relevantes,
agrupamento de recursos similares e como conseqncia separar recursos com caractersticas
distintas, alm de tambm fornecer informaes sobre a localizao dos recursos.

23

Alm de elementos descritivos de um recurso, os metadados podem possuir


elementos que visem representar o contexto no qual ele est inserido, como localizao de
recursos, o tipo do recurso e sua relao com outros recursos.
Metadados podem ser usados para representar vrios recursos, dependendo do
domnio em que se encontram. Por exemplo, em um provedor web podem ser usados para
localizar pginas na internet, podem ser usados para descrever as informaes contidas em
imagens oriundas de digitalizaes, tambm em documentos criados em meio eletrnico, a
fim de descrever a informao contida nos mesmos.
Gilliland-Swetland (1998) define que metadados podem ser divididos em cinco tipos
distintos, relacionados com suas funcionalidades dentro do sistema que so usados:
Metadados administrativos: so usados na administrao de recursos;
Metadados descritivos: so usados para descrever as informaes sobre
recursos;
Metadados de conservao: esto diretamente relacionados com a conservao
de recursos;
Metadados tcnicos: so relacionados com comportamento dos metadados e
tambm com o funcionamento de sistemas;
Metadados de uso: so relacionados ao tipo e ao nvel do uso dos recursos.
Gilliland-Swetland (1998) tambm define atributos chave para os metadados, que
so: fonte, que define que metadados podem ser criados no momento da criao do recurso ou
posteriormente; mtodos de criao, que definem como os metadados podem ser criados, por
mecanismos computadorizados ou manualmente; carter, que define que os metadados podem
ser criados tanto por especialista quanto pelo responsvel pelo dado recurso; situao, que
define que os metadados podem ser de caracterstica estticos, ou seja, que nunca se alteram
ou dinmicos, que podem sofrer alteraes e de larga e curta durao; estrutura, que definem
que metadados podem ser estruturados, como por exemplo Dublin Core ou MARC (Machine
Readable Cataloging) ou no estruturados; semntica, que definem que metadados podem ou
no utilizar de vocabulrios controlados para descrio dos seus elementos; e nvel que define
que metadados podem ser relacionados a objetos nicos ou a colees inteiras de objetos.
Cole (2002, p.63-64) relata que os princpios a seguir ajudam na criao de
metadados com boa qualidade:
Devem ser apropriados aos materiais armazenados, usurios do acervo e uso
pretendido para o acervo;

24

Devem dar suporte para o gerenciamento a longo prazo dos objetos digitais;
Devem ser confiveis e
Devem dar suporte a interoperabilidade.

Outra caracterstica muito importante a cerca dos metadados que os mesmos podem
ser representados dentro do prprio recurso ou separadamente, como em uma base de dados
de metadados.

2.3 - Funes
Segundo Niso (2004) os metadados possuem as mesmas funes na busca de
recursos do que os bons catlogos fazem, que so:
Permitir que os recursos sejam recuperados atravs de critrios relevantes;
Identificar recursos;
Agrupar recursos similares;
Distinguir recursos no similares; e
Oferecer informaes sobre localizao de recursos.

2.4 - Padres de Metadados


Padro de metadados pode ser entendido como um conjunto de elementos que
descrevem um recurso seguindo um determinado conjunto de conceitos e requisitos, visando a
descrio de recursos contidos em domnios especficos (FUSCO, 2009).
Sendo que cada obra de tipos diferentes pode possuir um esquema mais adequado
para sua descrio, foram sendo desenvolvidos vrios padres, cada um mais especfico para
determinada reas do que para outras. Um exemplo destas diferenas de descries seria o
elemento que especifica o nmero de pginas de um recurso, elemento que seria muito til
na descrio de livros e artigos, mas sem sentido algum para uma imagem, um som ou um
vdeo. Em contrapartida o elemento ttulo til para praticamente todas as obras.
Esta profundidade na descrio desejada por um profissional ir influenciar
diretamente a escolha de um padro de metadados, pois quanto maior for o detalhamento da
descrio desejada, mais elemento o padro escolhido deve possuir.

25

Assim como Cole (2002) relata, a capacidade de interoperabilidade depende do


padro de metadados. Caso duas bibliotecas distintas possuem a mesma obra em seu acervo,
de fato desejvel e tambm possvel que apenas uma delas faa o processo de descrever a
obra. Partindo do pressuposto que os sistemas de informtica das duas bibliotecas usem o
mesmo padro de metadados, ou caso no usem o mesmo padro, ofeream possuam suporte
para que traduo entre padres seja realizada, a descrio realizada por uma das bibliotecas
poder ser exportada para a base de dados da outra, facilitando o trabalho da mesma.
Caso em um ambiente digital, como um repositrio digital, dentro dos elementos do
padro de metadados encontre-se a localizao eletrnica da obra, apenas importar os
metadados j seria suficiente, e no haveria a necessidade de se importar a obra em si. Desta
maneira quem procura pela obra poder receber um endereo, que a localizao eletrnica
da obra que estar sendo mantida em uma base de dados distinta da local onde o usurio esta
realizando a busca pela obras, desta maneira ambientes digitais como os repositrios digitais
podem possuir uma qualidade e quantidade de contedo maior, sem a necessidade de
armazenar a obra. Dessa maneira poderiam existir repositrios sem nenhuma obra
armazenada, mas apenas com registros relacionados determinada rea de interesse e que
seus metadados direcionem para a obra, que estar armazenada em outro local.
Os elementos dos esquemas de metadados recebem seus nomes de acordo com o
contexto que esto inseridos, como compositor para uma msica e autor para livros, e tambm
recebem os valores, que so o contedo de cada elemento do esquema de metadados, como
por exemplo o nome propriamente dito do autor. Portanto os elementos dos metadados so
preenchidos com valores. Existem regras que tratam da sintaxe dos elementos e tambm
interessante que se hajam regras para especificao dos valores dos elementos, para que se
possa ajudar a garantir a interoperabilidade, tpico que ser tratado mais a frente.
A necessidade de padronizao no preenchimento dos valores dos elementos dos
metadados pode ser observada no seguinte exemplo. Caso uma obra possua dois ttulos em
sua capa, qual deles dever ser usado para preencher o elemento ttulo da obra? Caso no haja
nenhuma regra neste preenchimento, duas pessoas que sejam responsveis por preencher os
valores dos elementos de metadados podem atribuir diferentes ttulos para esta obra. A mesma
observao vale para o tratamento do assunto da obra, elemento que ainda mais fcil de
ocorrer interpretaes diferentes por pessoas diferentes.
Metadados, quando representados dentro do prprio recurso, para tratamento da
sintaxe dos elementos dos metadados normalmente esto inserdos em pginas Web
desenvolvidas em SGML (Standard Generalized Markup Language), em HTML (Hypertext

26

Markup Language) ou em XML (Extensible Markup Language), que so linguagens de


marcao.
Tais linguagens de marcao foram desenvolvidas com a necessidade de manter uma
maior interao e troca de informaes entre os usurios de computadores e os computadores,
que cresce cada vez mais com o aumento do nmero de computadores, com as novas
tecnologias de comunicao e com o surgimento da WWW (World Wide Web) (BAX, 2001).
O SGML foi criado em torno de 1970, sendo uma linguagem que possibilita definir
qualquer conjunto de marcas, portanto auto-descritiva. Um documento SGML carrega
consiga sua prpria especificao, o que se chama de DTD (Data Type Document). Ento
podemos disser que a linguagem SGML usada para definir outras linguagens (BAX, 2001).
A partir do SGML surgiu o HTML, linguagem que possui um conjunto de marcas
pr-definidas, criado com objetivo de organizar as informaes que sero disponibilizadas
atravs da internet. O tornou-se um dos padres mais utilizados na internet, devido a
existncia das marcas pr-definidas.
Com o rpido avano da internet e das necessidades dos seus usurios, foi criado o
XML, resultado das pesquisas dos especialistas do W3C (World Wide Web Consortium), que
no ano de 1996 disponibilizaram uma linguagem de marcao mais simples que o SGML e
mais flexvel que o HTML, criando assim uma linguagem de marcao voltada para as reais
necessidades da internet. O XML tem como um de seus objetivos descrever o que os dados
significam, alm de descrever de qual maneira eles devem ser mostrados.
O XML apontado como uma linguagem ideal para armazenamento de informaes,
pois possui a facilidade de no ser necessrio o uso de aplicaes especficas de software para
interpretar seus dados e quaisquer alteraes na estrutura dos dados XML

ou em seu

contedo fcil de realizar e no necessita que sejam feitas alteraes nas aplicaes que as
tratam.
Essas linguagens de marcao e suas respectivas caractersticas viabilizam a
existncia de interoperabilidade entre diferentes sistemas e ambientes, permitindo a troca de
informaes estruturadas.
Tratando-se dos repositrios digitais, duas maneiras distintas de se armazenar
metadados podem ser utilizadas: ligar os metadados ao documento que eles descrevem ou
armazenar os metadados dentro do arquivo do documento. Pginas em linguagem HTML so
ideais para armazenarem os metadados internamente o documento, sendo que as mesmas
possuem a tag META, marca que tem a funo de armazenar os metadados. Outros formatos
de arquivos tambm possuem campos para metadados, como os arquivos de udio no formato

27

MP3 (MPEG - 1/2 Audio Layer 3) que possuem as tags ID3 (IDentify an MP3), os arquivos
de imagem no formato JPEG (Joint Photographic Experts Group) que possuem informaes
EXIF (Exchangeable Image File), entre muitos outros. Porm existem vrios tipos de
arquivos que no permitem o armazenamento interno de metadados, ou suas possibilidades
para tais descries so muito limitadas, nestes casos necessrio organizar os metadados
externamente aos documentos. Para isso necessrio ligar os documentos a seus respectivos
metadados, proporcionando maior flexibilidade, visto que podem ser exportados ou
importados apenas os bancos de metadados, e no os documentos em si.

2.4.1 Padro MARC (Machine Readable Cataloging)


O formato MARC foi criado na dcada de 60 nos Estados Unidos pela Library of
Congress (Biblioteca do Congresso Norte Americano), que a instituio mais confivel
quando se trata de catalogao nos Estados Unidos, portanto uma instituio com prestgio e
reconhecimento internacional nesta rea. Considerou-se que computadores no so capazes de
fazer a leitura diretamente das fichas catalogrficas, criadas seguindo as normas do AACR2
(Anglo American Cataloguing Rules Edition 2). Portanto era necessrio a criao de um
formato legvel por computadores (LIBRARY OF CONGRESS HELP DESK, 2009),
permitindo assim a troca de registros catalogrficos e bibliogrficos e entre bibliotecas, com o
uso de computadores.
Segundo Library of Congress Help Desk (2009) a estrutura do padro de metadados
MARC descrita da seguinte forma: os registros bibliogrficos so formados por diversos
campos como ttulo, autor, assunto, entre outros. A estrutura do padro MARC
resumidamente a seguinte: cada campo do registro est associado a um nmero com trs
dgitos, que chamado de tag MARC. Desta maneira cada tag identifica um campo, portanto
o computador pode identificar a partir destas tags a que campo pertence o valor que segue.
A tag MARC formada pelos trs dgitos seguida por mais dois dgitos decimais que
so usados como indicadores e so escritos juntos, mas no so dependentes, ou seja, no so
um nmero com dois dgitos, mas sim dois dgitos seguidos (LIBRARY OF CONGRESS
HELP DESK, 2009). Um exemplo seria a tag de ttulo (tag 254) acompanhada de um
indicador que tivesse a funo de fazer com que o computador ignora-se determinada parte do
ttulo no momento de fazer a ordenao dos registros, assim poderia ser indicado para que

28

ignora-se a primeira letra do ttulo O Alquimista, ttulo no qual a parte interessante para
ordenao seria apenas Alquimista.
Alguns campos podem no possuir nenhum indicador, ou at mesmo possuir apenas
um indicador definido. Para identificar indicadores indefinidos utiliza-se o caracter especial
#, que significa espao em branco.
Os campos deste formato podem ser divididos em subcampos, onde sero
armazenadas informaes pertinentes ao contedo do campo a qual estes subcampos so
relativos, como por exemplo, um ttulo, subttulo e ttulo alternativo, que so situaes aceitas
no AACR2. Outro exemplo seria o campo que descreve a responsabilidade intelectual de uma
obra, campo que pode possuir vrias recorrncias, como autor, editor, tradutor, revisor, entre
outros.
Os subcampos so referenciados por um delimitador, formado por uma seqncia de
caracteres, como por exemplo $a ou $b.
Utilizando os trs conceitos vistos sobre o padro MARC (subcampos, campos e
indicadores), um registro do campo ttulo, ou como usado no AACR2 rea de ttulo, poderia
ser representado em formato MARC da seguinte maneira:
245 14 $a A ascenso do excludo
$b a histria verdica de Joo Pedro Alcntara.
Neste exemplo o nmero 245 a tag MARC que representa a rea de ttulo, campo
que pode conter ttulo principal, ttulo alternativo, subttulo, entre outros. O nmero 1 o
indicador de que deve existir uma ficha no catlogo de ttulos convencional para a obra que
esta sendo descrita e o nmero 4 um indicador que faz com que o computador ignore os dois
primeiros caracteres do campo no momento da ordenao, neste caso o caractere A mais um
espao em branco. E por ltimo os subcampos $a que o ttulo principal e $b que o
subttulo da obra.
Mesmo no tendo sido desenvolvido especificamente para tratamento de objetos
digitais, o formato MARC, mesmo sendo um padro antigo, muito robusto e flexvel o
bastante para ser adaptados, alem de j ser estabelecido (BRANTON, 2004), porm por
possurem um conjunto de elementos complexos e bastante rgidos, necessitam de
especialistas para a descrio de elementos, o que dificulta seu uso como um padro para
descrio de recursos disponveis na internet, pois para este fim so necessrios padres que
possam ter as descries feitas pelos prprios autores do recurso ou por administradores de
sites.

29

2.4.2 Padro METS (Metadata Encoding and Transmition)


Em bibliotecas convencionais o fato de no se manter os metadados estruturais a
respeito de uma obra no propriamente um problema, visto que caso os metadados sejam
perdidos, o conjunto da obra no ser perdido. Porm, tratando-se de obras digitais, caso as
mesmas no possuam metadados estruturais, corre-se o risco de as mesmas se
desintegrarem, ou seja, de no possurem ligaes entre as partes que a compem. Outro
tipo de problema causado pela falta de metadados estruturais em obras digitais seria o caso de
uma obra digitalizada que no possui-se os metadados tcnicos sobre o processo de
digitalizao, ento pode ocorrer a perda de informaes importantes a respeito da obra
original, como por exemplo um livro que tenha sido produzido em uma prensa de Guttenberg
e tenha sido digitalizado, a omisso desta informao nos elementos dos metadados da obra
digital far com que ela perca muito de seu valor para os pesquisadores (LIBRARY OF
CONGRESS, 2006).
Essas necessidades levaram a Library of Congress (Biblioteca do Congresso Norte
Americano) a desenvolver o padro de metadados METS (Metadata Encoding and
Transmition Padro de Codificao e Transmisso de Metadados) que possuem segundo
Library of Congress (2006) elementos administrativos e estruturais para trabalhos textuais e
baseados em imagens.
Tambm segundo Library of Congress (2006) o METS disponibiliza um formato
XML capaz de codificar os metadados necessrios tanto para a gesto de objetos de
bibliotecas digitais num repositrio quanto para a troca destes objetos entre repositrios, ou
ainda entre repositrios e seus usurios.
Para Gartner (2002, p.03) o padro METS um padro emergente, desenvolvido
para codificar os metadados necessrios para a realizao de descries completas de objetos
digitais em bibliotecas digitais.
Um documento no padro METS uma aplicao XML, no proprietria e
independente de software especifico (NISO, 2004, p.04).
O METS descreve os recursos digitais de uma biblioteca digital e formado por sete
sees principais, descritas resumidamente a seguir segundo Library of Congress (2006) e
Niso (2004, p.05):

30

1.

Cabealho: contm metadados descrevendo o documento METS em si,


incluindo informao como o autor, editor, ttulo, etc;

2.

Metadados Descritivos: a seo de metadados descritivos pode apontar para


metadados descritivos externos ao documento METS, inclusive em formatos
diferentes do METS, como por exemplo um registro MARC, ou pode conter os
metadados descritivos internamente, ou ambos. Mltiplas instncias de
metadados descritivos, tanto internas como externas, podem ser includas na
seo de metadados descritivos;

3.

Metadados Administrativos: a seo de metadados administrativos oferece


informao sobre como os arquivos foram criados e armazenados, direitos de
propriedade intelectual (copyright), metadados sobre o objeto original a partir do
qual o objeto digital foi criado, e informaes sobre a provenincia dos arquivos
que compem o objeto digital. Tal como os metadados descritivos, os
metadados administrativos podem ser tanto externos ao documento METS, ou
codificados internamente;

4.

Seo de Arquivos: lista todos os arquivos que formam a verso eletrnica do


objeto digital;

5.

Mapa Estrutural: apresenta uma estrutura hierrquica entre os componentes do


objeto digital e faz a ligao entre estes componentes e os arquivos e metadados
dos mesmos;

6.

Ligaes Estruturais: armazena a existncia de hiperlinks entre os ns da


estrutura hierrquica do Mapa Estrutural e

7.

Comportamento: pode ser utilizada para associar comportamentos executveis


ao contedo do objeto METS. Possibilita que se registrem informaes a
respeito de como os componentes do objeto digital sero renderizados para o
usurio, incluindo os aplicativos que devero ser utilizados ou os parmetros
necessrios para a renderizao do arquivo.

2.4.3 Padro Dublin Core


O padro de metadados Dublin Core tem sua raiz na 2 Conferncia Internacional
sobre WWW onde membros de instituies que tratavam de informtica e internet

31

conduziram uma discusso sobre semntica e web. A partir desta discusso foi organizado um
evento com o propsito de se discutir como um conjunto semntico para recursos digitais
baseados na web poderia ser extremamente til para busca e recuperao de recursos na
internet. Este evento, que contou com a participao de profissionais das mais diversas reas,
como cincia da computao, bibliotecrios, profissionais da informao on-line,
catalogadores, e diversos outros que trabalhavam com tratamento de dados e informaes nos
mais diversos ambientes, tinha como principal objetivo definir um conjunto mnimo de
elementos para a web.
Segundo Desai (1997) pretendia-se tratar o problema da catalogao de recursos na
internet, com a adoo, a extenso ou a modificao de padres existentes e dos protocolos
capazes de facilitar sua recuperao e acesso, atendendo assim as vrias comunidades que
utilizassem os metadados.
Para se chegar a um consenso sobre esse conjunto de elementos, foram definidas
algumas suposies a serem seguidas durantes as discusses, que segundo Desai (1997) foram
as seguintes:
chegar a um conjunto de elementos comuns;
todos elementos deveriam descrever o recurso por si prprio, com exceo do
elemento fonte;
os elementos precisariam descrever um documento como um objeto;
os elementos precisariam suportar a recuperao dos recursos da rede;
nenhuma suposio deveria ser feita para dizer se o recurso descrito era
acessvel pela rede ou se era especificamente um recurso eletrnico;
todos os elementos de metadados poderiam ser repetitivos;
todos elementos deveriam ser opcionais;
os elementos deveriam descrever as caractersticas intrnsecas ao recurso e;
elementos que no fossem includos no seriam obrigatoriamente excludos.
Vrios dos participantes do evento admitiram a dificuldade de se trabalhar com
padres que fossem constitudos por muitos elementos e ento procuraram determinar um
conjunto de elementos no exaustivo para descrever os recursos, tornando-se um consenso
entre todos os participantes que o conjunto de elementos no poderia ser extenso.
Ao conjunto de elementos criados deram o nome de Padro de Metadados Dublin
Core, pois o evento ocorreu na cidade de Dublin, Ohio, nos Estados Unidos.

32

Alm do conjunto de elementos criado no evento, tambm foi constituda a Dublin


Core Metadata Initiative (DCMI) que Iniciativa dos Metadados Dublin Core, uma
organizao que possui os objetivos de promover a adoo de padres de metadados e o
desenvolver vocabulrios especializados de metadados com a funo de descrever recursos
que facilitem a recuperao dos mesmos na internet.
O DCMI aberto para a participao de qualquer pessoa ou instituio interessada
em participar da busca contnua de um consenso mnimo no desenvolvimento de vocabulrios
de metadados.
Segundo o DCMI (2009A) as atividades principais do DCMI so:
Desenvolvimento de padres de metadados para a recuperao de informao
nos domnios da internet;
Definio de estruturas para a interoperabilidade de conjuntos de metadados;
Organizao de eventos internacionais e grupos de trabalho para o
desenvolvimento e manuteno das recomendaes do DCMI;
Disponibilizao de ferramentas, servios e infraestrutura em metadados e;
Alcanar

outras

comunidades

de

desenvolvimento

de

metadados,

desenvolvendo a interao entre o DCMI e elas.


O DCMI estruturado para realizar todas estas atividades composto segundo
DCMI (2009B) da seguinte maneira:
um Conselho de Administradores, que possui a funo de aconselhar os
membros da Diretoria nas questes estratgicas e de utilizao de recursos
financeiros, possuindo membros de vrios paises;
uma Diretoria, que formada por um Diretor Executivo e um Diretor
Administrativo, que supervisionam o gerenciamento e a coordenao das
atividades dos Grupos de Trabalho;
um Conselho Consultivo, que formado pelos presidentes dos Grupos de
Trabalho, dando consultoria a Diretoria e;
vrios Grupos de Trabalho, que so criados de acordos com as necessidade
percebidas e compostos por voluntrios, que trabalham no resoluo de
problemas especficos.

33

O DCMI organiza vrias listas de discusso e mantm informaes a seus respeito


em sua pgina web1.
Segundo Hansen (1999) o formato Dublin Core foi criado com o objetivo de
descrever um recurso eletrnico, tornar simples a sua descrio, possibilitar a indexao,
tornar mais fcil a pesquisa de recursos e o acesso a estes recursos e garantir a qualidade do
gerenciamento dos recursos.
Hansen (1999) cita que a principais razes para se adotar o formato Dublin Core so:
facilidade de criao;
simplicidade de indexao;
indexao com mais preciso do que as buscas full-text e;
capacidade de interoperabilidade.

O padro de metadados Dublin Core um conjunto formado por quinze elementos,


que possuem como objetivo descrever um recurso eletrnico. Niso (2004, p.03) diz que a
simplicidade do Dublin Core vem do fato de seus quinze elementos serem opcionais,
passiveis de repetio e podem ser codificados em XML.
O padro de metadados Dublin Core possui as seguintes caractersticas segundo
DCMI (2008B) e DCMI (2005):
Simplicidade: como a maioria dos seus elementos possui um entendimento
semntico bem simples, o padro Dublin Core pode ser criado facilmente pelo
responsvel pelo documento, sem a necessidade de treinamentos e
especializaes para tal objetivo;
Interoperabilidade Semntica: modelos com diferentes descries interferem
na habilidade das busca entre reas distintas, no entanto com a existncia de
um modelo comum de descrio ocorre o aumento da possibilidade de
interoperabilidade entre estas reas distintas;
Consenso Internacional: como ocorre a participao de mais de vinte paises
no DCMI para a busca de um escopo internacional na internet e de uma
infraestrutura adequada ocorre uma contribuio para que haja um consenso
internacional;
Extensibilidade: o padro Dublin Core um modelo de descrio
simplificado, mas que possui extensibilidade e flexibilidade na elaborao de
1

ver http://www.dublincore.org

34

modelos, ou seja, permite que elementos sejam acrescentados para atender


necessidades especificas de descrio de recursos. Os elementos padres do
Dublin Core mais os novos elementos permitem que diversas comunidades de
reas distintas utilizem o padro, troquem informaes entre si e tenham acesso
a elas;
Flexibilidade: os elementos opcionais podem ser repetidos dependendo das
necessidades da descrio e modificados fazendo-se uso de qualificadores, que
sero mostrados neste captulo.

2.4.3.1 Especificaes do Padro Dublin Core


Para compreender-se o funcionamento do padro Dublin Core, ser feita a anlise da
verso 1.1, que composta por quinze elementos.
Cada elemento do conjunto de elementos do padro Dublin Core definido usando
um conjunto de dez atributos padres para a descrio dos elementos de dados (DCMI,
2008B).
Os dez atributos padres so os seguintes:
Nome: o nome atribudo ao elemento;
Identificador: o identificador nico dado ao elemento;
Verso: a verso atual do elemento;
Registro de Autoridade: a entidade autorizada a registrar o elemento;
Lngua: o idioma no qual o elemento est especificado;
Definio: a declarao que representa de maneira clara o conceito e a
natureza essencial do elemento;
Obrigao: indica se o elemento obrigatrio ou no;
Tipo de dado: indica o tipo de dado que se pode representar no contedo do
elemento;
Mxima Ocorrncia: indica o limite para a repetio dos elementos;
Comentrio: uma observao sobre a aplicao dos elementos.
Desses dez atributos, seis possuem valor nico e comum para todos os elementos do
Dublin Core. Segundo DCMI (2008B) so os seguintes:
Verso: 1.1;
Registro de Autoridade: Dublin Core Metadata Iniciative (DCMI);

35

Lngua: Ingls;
Obrigao: Opcional;
Tipo de dado: String de caracteres;
Mxima Ocorrncia: ilimitada.
O atributo Identificador permanece na lngua original, a inglesa, pois neste formato
que o mesmo deve ser mostrado na descrio de um recurso.
A descrio detalhada de cada um dos quinze elementos padres do Dublin Core
segundo DCMI (2008B) segue abaixo. Em cada um sero analisados os atributos que no so
comuns para todos, que so os atributos Nome, Identificador, Definio e Comentrio. Para
fins de exemplo sero usados o site do Dublin Core e um artigo retirado da internet:
Elemento 1 Ttulo
Nome: Ttulo
Identificador: Title
Definio: um nome dado a um recurso.
Comentrio: ser o nome pelo qual o recurso formalmente conhecido.
Exemplos:
Site do Dublin Core: Dublin Core Metadata Initiative
Artigo: Understandig Metadata
Elemento 2 Autor
Nome: Autor ou Criador
Identificador: Creator
Definio: a entidade responsvel pela criao do contedo do recurso;
Comentrio: exemplos de autores incluem pessoas, organizaes ou servios.
Exemplos:
Site do Dublin Core: Dublin Core Metadata Initiative
Artigo: NISO National Information Standards Organization
Elemento 3 Assunto
Nome: Assunto ou Palavras-chave
Identificador: Subject
Definio: o tema, objeto ou ponto principal do contedo do recurso, ou seja, do que
se trata o recurso.

36

Comentrio: normalmente o assunto ser expresso por palavras-chaves, frases-chav


ou cdigos de clasiificao que descrevem o tema do recurso. A prtica mais aconselhvel
escolher os valores de vocabulrios controlados ou de esquemas de classificao formais.
Exemplos:
Site do Dublin Core: Dublin Core, Metadados, Informao, Interoperabilidade.
Artigo: Metadados, Padres de Metadados, Interoperabilidade.
Elemento 4 Descrio
Nome: Descrio
Identificador: Description
Definio: uma descrio do contedo do recurso.
Comentrio: descries podem incluir, mas no so limitadas a, resumos, tabela de
contedos, referncias para representaes grficas do contedo ou textos livres de descrio
do contedo.
Exemplos:
Site do Dublin Core: The Dublin Core Metadata Initiative is an open forum
engaged in the development of interoperable online metadata standards that support a
broad range of purposes and business models. DCMI's activities include consensusdriven working groups, global workshops, conferences, standards liaison, and
educational efforts to promote widespread acceptance of metadata standards and
practices.
Artigo: Understanding Metadata is a revision and expansion of Metadata Made
Simpler: a guide for libraries published by NISO Press in 2001. NISO extends its
thanks and appreciation to Rebecca Guenther and Jacqueline Radebaugh, staff
members in the Library of Congress Network Development and MARC Standards
Office, for sharing their expertise and contributing to this publication.
Elemento 5 Editor
Nome: Editor
Identificador: Publisher
Definio: a entidade responsvel por tornar o recurso disponvel.
Comentrio: Exemplos de editores incluem pessoas, organizaes ou servios.
Exemplos:

37

Site do Dublin Core: DCMI (Dublin Core Metadata Initiative)


Artigo: NISO - National Information Standards Organization
Elemento 6 Colaborador
Nome: Colaborador
Identificador: Colaborator
Definio: entidade responsvel por fazer contribuies para o contedo do recurso;
Comentrio: exemplos de colaboradores incluem pessoas, organizaes ou servios.
Exemplos:
Site do Dublin Core: W3C
Artigo: Association of Information and Dissemination Centers
Elemento 7 Data
Nome: Data
Identificador: Date
Definio: uma data associada a um determinado evento no ciclo de vida do recurso.
Comentrio: normalmente a data ser associada a criao ou a disponibilizao do
recurso. Recomenda-se o uso do formato YYYY-MM-DD, onde YYYY o ano, MM o ms
e DD o dia para representar datas no Dublin Core.
Exemplos:
Site do Dublin Core: 1995
Artigo: 2004
Elemento 8 Tipo
Nome: Tipo do recurso
Identificador: Type
Definio: a natureza ou espcie do contedo do recurso.
Comentrio: Tipo inclui termos descrevendo categorias gerais, funes, espcies ou
nveis de agregao para o contedo. Recomenda-se o uso de valores retirados de
vocabulrios controlados. Para descrio do formato fsico ou digital do recurso deve-se usar
o elemento Formato.
Abaixo segue a lista sugerida pelo DCMI (2008C) para identificar o elemento tipo do
recurso:

38

1. Collection: usada para definir uma agregao de itens;


2. Dataset: usado para definir dados codificados em estruturas definidas, Alguns
exemplos so: listas, banco de dados e tabela;
3. Event: usado para definir a ocorrncia baseada em tempo. Alguns exemplos so:
Conferencias e Workshops;
4. Image: usado para definir recursos que so representaes visuais. Alguns
exemplos so: fotografias, desenhos, filmes, vdeos, mapas, entre diversos outros;
5. Interactive Resource: usado para definir recursos que requerem interao com o
usurio. Um dos exemplos de recursos interativos so as pginas web;
6. Service: usado para definir sistemas que agregam valores para o usurio final,
como por exemplo os servios de autenticao, servios de banco, e diversos outros;
7. Software: usado para definir um programa de computador compilado ou um
arquivo fonte;
8. Sound: usado para definir recursos cujo contedo composto de udio. Alguns
exemplos so os sons, msicas, CDs de udio, gravaes de voz, etc;
9. Text: usado para definir recursos compostos de caracteres para leitura, como
livros, artigos e diversos outros;
Exemplos:
Site do Dublin Core: Interactive Resource
Artigo: Text
Elemento 9 Formato
Nome: Formato
Identificador: Format
Definio: a formato digital ou fsico que o recurso se encontra.
Comentrio: normalmente o formato do recurso inclui o tipo de mdia ou dimenses
do recurso. O formato pode ser usado para definir o software, hardware ou outro equipamento
necessrio para mostrar ou operar o recurso. Exemplos de dimensos incluem tamanhos e
duraes. Recomenda-se o uso de valores retirados de vocabulrios controlados.
Exemplos:
Site do Dublin Core: text/html
Artigo: text/pdf

39

Elemento 10 Identificador
Nome: Identificador de recurso
Identificador: Identifier
Definio: uma referncia no ambgua para um recurso dentro de um dado contexto.
Comentrio: recomenda-se a identificao do recurso pelo significado de uma String
ou nmero conforme um sistema de identificao formal. Exemplos de sistemas de
identificao formal incluem o Identificador de Recursos Uniforme (Uniform Resource
Identifier URI), o Localizador de Recursos Uniforme (Uniform Resource Locator URL), o
Identificador de Objetos Digitais (Digital Object Identifier DOI) e o Nmero Internacional
Normalizado para Livros (International Standard Book Number ISBN).
Exemplos:
Site do Dublin Core: http://dublincore.org
Artigo: http://www.niso.org/publications/press/UnderstandingMetadata.pdf
Elemento 11 Fonte
Nome: Fonte
Identificador: Source
Definio: uma referncia para um recurso do qual o presente recurso derivado.
Comentrio: o presente recurso pode ser derivado da fonte do recurso inteira ou
apenas em parte.
Exemplos:
Artigo: A Framework of Guidance for Building Good Digital Collections,
disponvel em http://www.niso.org/framework/forumframework.html
Elemento 12 Lngua
Nome: Lngua
Identificador: Language
Definio: a lngua do contedo intelectual do recurso.
Comentrio: Recomenda-se o uso de um cdigo com quatro caracteres dispostos da
seguinte maneira LL-CC, onde os dois primeiros (LL) indicam a lngua e os dois ltimos
(CC), que so opcionais, indicam o pas.
Exemplos:
Site do Dublin Core: en-us (Ingls- Estados Unidos)

40

Artigo: en-us
Elemento 13 Relao
Nome: Relao
Identificador: Relation
Definio: uma referncia para um recurso relacionado, como traduo de um ou
parte de um trabalho.
Comentrio: recomenda-se o uso de String ou nmero conforme um sistema de
identificao formal.
Exemplos:
baseado na obra de Jorge Amado;
traduo da cano de Jim Morrison.
Elemento 14 Cobertura
Nome: Cobertura
Identificador: Coverage
Definio: o mbito ou o escopo do contedo do recurso.
Comentrio: Cobertura normalmente ir incluir localizaes espaciais, como nome
de locais ou suas coordenadas geogrficas, tambm perodo temporais, como um rtulo de
tempo, uma data ou um perodo de tempo ou tambm jurisdies, como o nome de uma
entidade administrativa.
Exemplos:
Site do Dublin Core:1995-2009
Artigo: Estados Unidos
Elemento 15 Direitos
Nome: Gerenciamento de Direitos
Identificador: Rights
Definio: informaes a respeito dos direitos do recurso.
Comentrio: normalmente um elemento de Direitos ir conter uma declarao dos
direito do recurso ou referncias para servios que providenciam tais informaes.
Informaes de direitos normalmente tratam de Direito de Propriedade Intelectual

41

(Intellectual Property Rights IPR), Copyright e vrios outros direitos de propriedade. Se o


elemento Rights vazio, nenhuma suposio sobre a situao deste recurso pode ser feita.
Exemplos:
Site do Dublin Core: Copyright 1995-2009 DCMI All Rights Reserved.
Artigo: Copyright 2004 National Information Standards Organization.

Segue na Tabela 1, um exemplo de descrio de um recurso utilizando o padro


Dublin Core. Para fins de ilustrar este exemplo ir ser feita a descrio da pgina web do
DCMI como sendo o recurso.
Tabela 1 Exemplo de descrio de um recurso usando o padro Dublin Core.

Elemento do Padro Dublin Core


DC.Title
DC.Creator
DC.Subject
DC.Subject
DC.Subject
DC.Description

DC.Publisher
DC.Data
DC.Type
DC.Fomat
DC.Identifier
DC.Language
DC.Coverage
DC.Rights

Contedo
Dublin Core Metadata Initiative DCMI
DCMI
Dublin Core
Metadados
Informao
The Dublin Core Metadata Initiative is an
open forum engaged in the development of
interoperable online metadata standards that
support a broad range of purposes and
business models. DCMI's activities include
consensus-driven working groups, global
workshops, conferences, standards liaison,
and educational efforts to promote
widespread acceptance of metadata standards
and practices.
DCMI
1995
Text
text/html
http://dublincore.org
en-us
1995-2009
Copyright 1995-2009 DCMI All Rights
Reserved.
Fonte: prprio autor.

Este esquema que apresenta apenas os quinze elementos padres do Dublin Core
normalmente conhecido como Dublin Core no-qualificado (Unqualified Dublin Core). Com
a necessidade de se representar de maneira mais detalhada os recursos descritos pelos
elementos Dublin Core, o DCMI desenvolveu qualificadores para o conjunto de elementos do
padro Dublin Core.

42

Estes qualificadores desenvolvidos foram estudados e baseados sobre vocabulrios


controlados e sistemas de classificao formais existentes e no pretendem ser um conjunto
rgido.
Estes qualificadores podem ser livremente utilizados ou no, dependendo apenas das
necessidades especificas de cada usurio do padro Dublin Core.
Duas classes de qualificadores foram definidas pelo DCMI:
1 Elemento de refinamento: tais qualificadores aumentam a especificidade de um
elemento, aumentando desta maneira seu detalhamento.
2 Esquema de codificao: estes qualificadores identificam esquemas para o valor
do elemento. Neles incluem-se vocabulrios controlados e notaes formais de
representao, que so os sistemas de classificao formais.
Os qualificadores desenvolvidos so mostrados de forma resumida na Tabela 2,
tabela na qual pode-se observar que os elementos Creator, Publisher, Contributor e Rights
no possuem qualificadores de nenhuma das classes.
Cada qualificador Dublin Core possui cinco atributos, que so definidos abaixo:
Nome: smbolo nico atribudo ao qualificador e utilizado, por exemplo, em
uma representao em HTML;
Rtulo: um rtulo legvel dado ao qualificador para que possa ser feita a
leitura humana;
Definio: uma declarao que representa a natureza e tambm o conceito do
qualificador;
Comentrio: informaes adicionais associadas ao qualificador, que so
descritas caso existam;
Veja tambm: link para mais informaes a respeito do qualificador, que
inserido caso existir.

Todos os qualificadores do padro de metadados Dublin Core so representados


junto com os elementos padres do Dublin Core, tanto separados dos recursos quanto dentro
deles, podendo-se a traves do uso dos mesmos tornar as descries dos recursos digitais mais
detalhadas e mais especificas, dependendo das necessidades e polticas das instituies que os
implementem.

43

O padro de metadados Dublin Core utlizado pela plataforma de construo de


repositrio digital que mais adiante foi escolhida para desenvolvimento de repositrio
proposto no trabalho e permite que tal plataforma possua interoperabilidade com outros
sistemas.
Tabela 2 Qualificadores do padro Dublin Core

Fonte: http://dublincore.org/documents/dcmes-qualifiers/

44

CAPTULO 3 INTEROPERABILIDADE
Interopervel significa Capaz de operar em conjunto.
Segundo a International Standard Organization (ISO) a interoperabilidade a
habilidade de dois ou mais sistemas (de computadores, meios de comunicao, redes,
softwares e outros componentes de tecnologia da informao) de interagir e de intercambiar
dados de acordo com um mtodo definido, de forma a obter os resultados esperados
O Concise Oxford Dictionary define interoperabilidade como a capacidade de um
sistema ou produto trabalhar com outro sistema ou produto sem requerer esforo especial por
parte do cliente
J dentro da literatura sobre engenharia de software considera a interoperabilidade
como "o esforo exigido para se acoplar um sistema a outro", um fator de garantia de
qualidade de software, conjuntamente com manutenibilidade, portabilidade, integridade,
confiabilidade, etc. (PRESSMAN, 1995).
Segundo Arms (2002), o objetivo da interoperabilidade desenvolver servios
coerentes para os usurios, a partir de recursos informacionais que so tecnicamente
diferentes e gerenciados por diferentes organizaes. Isto requer acordos de cooperao em
trs nveis:
Nvel Tcnico: O nvel tcnico nos proporciona a interoperabilidade
tecnolgica;
Nvel de Contedo: remete a interoperabilidade semntica, onde a
representao e organizao do conhecimento so reas chaves a serem
estudadas;
Nvel Organizacional: se refere a interoperabilidade poltica, quando
organizaes se renem com intuito de alcanar a interoperabilidade,
implementando padres e tecnologias que cooperem com este objetivo. A
interoperabilidade poltica viabiliza a gesto articulada entre as organizaes e
os sistemas de informao.

Um dos aspectos importantes para que ocorra a interoperabilidade de informaes a


organizao do conhecimento e representao da informao. Segundo Oliveira (2005, p.34)
para que duas pessoas, duas bases de dados ou duas instituies possam trocar informaes de
forma eficaz necessrio que ocorra o entendimento dos cdigos utilizados por ambas as

45

partes e que eles tenham o mesmo entendimento quanto ao significado destes cdigos. Para
isto necessria a implementao de padres e normas que possibilitem o entendimento entre
eles, desenvolvendo e reforando trabalhos cooperativos.
A busca da interoperabilidade um objetivo perseguido com afinco, especialmente
aps o desenvolvimento da internet como conhecemos hoje.
Para viabilizao do compartilhamento de informaes, diversos padres e
metodologias foram desenvolvidas, tanto no campo de metadados, como o padro MARC e o
Dublin Core, como no campo dos protocolos de comunicao, como o OAI-PMH e o Z39.50.
Para Marcondes e Sayo (2002, p.42):
[...] com o advento da exploso informacional na metade do sculo XX, a
sada encontrada pelas bibliotecas foi a cooperao (...) Desde a inveno do
computador na dcada de 50 as tecnologias de informao passaram a ser
usadas pelas bibliotecas para prover acesso no s a documentos dos seus
prprios acervos, mas tambm aos armazenados em acervos de outras
bibliotecas.

Estas estratgias de cooperao possibilitavam que as bibliotecas fossem capazes de


operar em conjunto, isto , fossem interoperveis, ampliando os servios aos usurios
(OLIVEIRA, 2005).
Segundo Alves (2005, p.81-82) a interoperabilidade na rea da computao
definida da seguinte maneira:
Interoperabilidade a capacidade de compartilhamento de informaes em
diferentes sistemas e que, por meio de algumas ferramentas como linguagem
de marcao adequada, uso de metadados e arquiteturas de metadados, estas
informaes registradas e armazenadas em diferentes estruturas e em
diferentes comunidades do conhecimento podero ser intercambiadas e
trocadas nestes sistemas, fazendo com que haja um trabalho conjunto entre
sistemas.

Interoperabilidade dividida em trs nveis de aplicao, sendo eles os seguintes:


Interoperabilidade

Semntica:

Segundo

Alves

(2005,

p.82-83)

interoperabilidade semntica permite a compreenso do significado de cada


elemento que descreve o recurso, incluindo as associaes nele embutidas. O
uso de padres de metadados e vocabulrios especficos so essenciais e sem
eles no possvel se garantir este nvel de interoperabilidade.
Interoperabilidade Estrutural: tambm segundo Alves (2005, p.83-84) a
interoperabilidade estrutural define cada um dos elementos que compem um
padro de metadados, descrevendo seus tipos, as escalas de valores possveis
para tais elementos e os mecanismos utilizados para se agrupar e relacionar tais
elementos a fim de que possam ser processados automaticamente, Quanto

46

maior o nvel de complexidade da estrutura do padro de metadados, mais


complexo deve ser o modelo de dados empregado para sua descrio.
Exemplos: Padro Dublin Core e MARC 21.
Interoperabilidade Sinttica: a interoperabilidade sinttica, segundo Alves
(2005, p.84), determina como os metadados devem ser codificados para que
ocorra a transferncia de informaes entre os sistemas.

Para que haja interoperabilidade semntica, necessrio que haja acordos quanto
utilizao destes descritores, isto , que um termo tenha o mesmo significado que o utilizado
em outra base (OLIVEIRA, 2005).
O uso de padres de metadados, apresentados no captulo anterior, visa garantir a
interoperabilidade entre sistemas nos trs nveis existentes.

3.1 Open Archives Initiative Protocol for Metadata Harvesting (OAIPMH)


No ano de 1991 o fsico Paul Ginsparg, do laboratrio de Los Alamos no Novo
Mxico criou o primeiro repositrio de documentos eletrnicos, o ArXiv1. A partir de ento
os pesquisadores passaram a criar arquivos eletrnicos de preprints e posprints como
alternativa para a publicao direta de seus trabalhos em texto completo (OLIVEIRA, 2005,
p.43 apud MARCONDES, 2003, p.43). Tais arquivos foram chamados de open archives.
No ano de 1999 durante a Conveno de Santa F2, no Novo Mxico surgiu a Open
Archives Initiative (OAI), a iniciativa dos arquivos abertos, com objetivo de apoiar o
desenvolvimento da publicao eletrnica e tornar os repositrios interoperveis.
Durante a conveno foram definidos os princpios bsicos de uma nova filosofia de
publicao cientfica. Entre estes princpios, segundo Triska e Caf (2001, p.92) pode-se citar
como principais os seguinte: o auto-arquivamento, a reviso pela comunidade e a
interoperabilidade.
O auto-arquivamento o direito de o prprio autor de uma obra a enviar para
publicao sem o intermdio de terceiros. O objetivo deste princpio tornar as obras
disponveis o mais rpido possvel e oferecer acesso gratuito e tambm democrtico as obras

1
2

Ver http://arxiv.org/
Ver http://www.openarchives.org/sfc/sfc_entry.htm

47

publicadas eletronicamente. Esta necessidade surgiu pelo fato de as grandes editoras deterem
anteriormente o monoplio sobre as publicaes cientficas, o que diminua a visibilidade das
obras e o interesse dos pesquisadores, pois muitas vezes quando se conseguia publicar uma
pesquisa, tais informaes j haviam se tornado menos importantes devido ao grande tempo
que foi levado para serem publicadas.
A reviso pela comunidade o principio que possui como propsito a transparncia
das criticas e sugestes feitas as obras depositadas em repositrios (TRISKA E CAF, 2001).
Desta maneira, repositrios que permitem a reviso pela comunidade, permitem que toda ela
tenha acesso aos processos de reviso e aceitao das obras.
Para Triska e Caf (2001, p.93) a interoperabilidade a palavra-chave para a
criao dos arquivos abertos.
Segundo Triska e Caf (2001, p.93) a Conveno de Santa F estabeleceu os
seguintes aspectos como mecanismos para atingir a interoperabilidade:
definio de um conjunto mnimo de metadados;
concordncia no uso de uma sintaxe comum XML para representao e
transporte tanto do OAMS (Open Archives Metadata Set) como os conjuntos
de metadados especficos de cada repositrio;
definio de um protocolo comum Open Archives Dienst Subset para
possibilitar a extrao do OAMS e dos metadados especficos dos repositrios
participantes.

Para tais objetivos foi criado na conveno de Santa F a Open Archives Initiative
(OAI) que a iniciativa dos arquivos abertos, um conjunto de especificaes tcnicas e
princpios organizacionais bastante simples, porm potencialmente poderosos e de grande
alcance, no objetivo de integrao desses arquivos (OLIVEIRA, 2005, p.44-45 apud
MARCONDES, 2003, p.46).
O open de open archives no significa que tais arquivos tenham acesso gratuito e
ilimitado, mas refere-se arquitetura da proposta, pois o protocolo dos open archives que
aberto (CUSIN; ELVIS, 2007).
A base da iniciativa o OAI-PMH que o protocolo para coleta de metadados da
iniciativa dos arquivos abertos, que permite aos sistemas que adotem tal padro realizarem a
troca e compartilhamento de seus metadados. O protocolo OAI-PMH segue o padro Dublin
Core (Item 2.5.3).

48

Os sistemas participantes da iniciativa se dividem nos seguinte grupos (GARCIA;


SUNYE, 2007, p.03):
Provedores de Dados (Data Providers ou DP): mantm repositrios de
documentos digitais que implementam o OAI-PMH como forma de expor os
metadados de seus documentos.
Provedores de Servios (Service Providers ou SP): oferecem busca a os
metadados mantidos nos provedores de dados e outros servios que visem
agregar valor a iniciativa.

O OAI-PMH introduz o conceito de Metadata Harvesting (coleta de metadados), um


processo considerado unilateral, no qual os provedores de servios, a partir da lista de
repositrios, os provedores de dados, registrados na OAI, realizam buscas a estes servidores
de dados periodicamente, colendo os metadados para exibio sob a forma de consultas
realizadas por usurios do servio.
A coleta de metadados pode ser total ou seletiva. As coletas seletivas so baseadas
em dois critrios de coleta do Harvesting do OAI-PMH que so os seguintes (GARCIA;
SUNYE, 2007, p.04):
Date-based (baseado em data): apenas os metadados includos ou alterados
aps um data especificada sero coletados;
Set-based (baseado em conjuntos): apenas metadados referentes a conjuntos
da hierarquia do repositrio, especificados na requisio, sero coletados.
Um provedor de servios pode utilizar os seis verbos previstos no OAI para coletar
metadados de um documento do provedor de dados. Estes seis verbos, segundo Oliveira
(2005) e Garcia e Sunye (2007) so os seguintes:
Identify: este verbo utilizado para recuperar as informaes sobre o provedor
de dados. A resposta mnima que se espera desta requisio o nome do
provedor de dados, o endereo do repositrio, a verso do protocolo
implementada e o endereo eletrnico (e-mail) do administrador do repositrio;
ListMetadataFormats: este verbo recupera os formatos de metadados
disponveis no provedor de dados. O formato padro o Dublin Core,
representado no protocolo por oai_dc;

49

GetRecord: recupera apenas um nico registro do repositrio. Deve ser


especificados o formato dos metadados e o identificador do registro que se
deseja recuperar na utilizao deste verbo.
ListRecords: este verbo colhe os metadados do repositrio, coleta que pode
ser feita de maneira seletiva, baseada em conjuntos ou em datas. Tambm
obrigatrio especificar o formato de metadados na sua utilizao;
ListIdentifiers: uma verso menor do verbo ListRecords, que retorna apenas
os cabealhos dos registros do repositrio. Tambm pode ser realizada a coleta
de maneira seletiva, baseada em conjuntos ou em datas. Tambm obrigatrio
especificar o formato de metadados na sua utilizao;
ListSets: este verbo lista a estrutura do conjunto do repositrio, ou seja lista a
hierarquia do repositrio.

3.2 Protocolo Z39.50


O protocolo Z39.50, conhecido formalmente como information retrieval protocol
(protocolo de recuperao de informao) segundo Rosetto (1997):
[...] um protocolo de comunicao entre computadores desenhados para
permitir pesquisa e recuperao de informao documentos co m texto
completos, dados bibliogrficos, imagens, multimeios em redes de
computadores distribudos.

A necessidade de mecanismos capazes de normalizar a comunicao entre sistemas


de computadores levou a NISO (National Information Standards Organization) estabelecer
um comit para elaborao de um protocolo para recuperao de informao. Os estudos
deste comit iniciaram-se a partir dos estudos realizados nos anos 70 pela Library of Congress
(Biblioteca do Congresso Norte Americano) (ROSETTO, 1997).
A primeira verso do protocolo Z39.50 data de 1988.
O protocolo Z39.50 funciona da seguinte maneira: um usurio consultando atravs
de um programa cliente tem a impresso que os diversos catlogos consultados, gerenciado
por programas-servidores em diferentes bases de dados, sejam um nico catlogo.
O protocolo executa buscas imediatas as diferentes bases de dados, [...] a interface
de busca distribui a consulta (broadcast search) a diferentes sites [...] identificados como
capazes de fornecer respostas satisfatrias, e os resultados so consolidados e integrados
.(OLIVEIRA, 2005, p.42 apud MARCONDES, 2003, p.27).

50

O protocolo Z39.50 possibilita que seja feita consultas unificadas a catlogos que
esto distribudos, atravs de uma rede e gerenciados de maneira descentralizada
(OLIVEIRA, 2005, p.41 apud MARCONDES, 2003).
Rosetto (1997) esclarece que o protocolo Z39.50,
[...] pode ser implementado em qualquer plataforma. Isso significa que
permite a interoperacionalizao de diferentes sistemas de computao com
diferentes sistemas operacionais, equipamentos, formas de pesquisa,
sistemas de gerenciamento de bases de dados. Uma implementao Z39.50
habilita uma interface nica para conexo com mltiplos sistemas de
informao, permitindo ao usurio final um acesso quase transparente para
outro sistema. Novos comandos e tcnicas de busca no tm de ser
aprendidos, pois os resultados da pesquisa so apresentados no sistema local
novamente, em formatos e estilos com os quais os usurios esto
acostumados. Esse sistema extremamente vantajoso para bibliotecas que
querem uma interface nica para o usurio, a fim de realizar pesquisas no
catlogo on-line local e em bases de dados refernciais e remotas.

O protocolo Z39.50 funciona seguindo a arquitetura de cliente-servidor, onde


mquinas servidores prestam servios a mquinas clientes. Para que haja a interoperabilidade
entre os sistemas que utilizam o protocolo Z39.50 necessrio que todas as mquinas
envolvidas, tanto as clientes quanto as servidoras, utilizem o protocolo.
As mquinas servidoras utilizam um programa servidor Z39.50 e mquinas cliente
utilizam um programa cliente Z39.50. Esta utilizao por ambas as partes um pr-requisito
para que o protocolo Z39.50, que um protocolo distribudo, funcione corretamente.
Uma evoluo existente do Z39.50 o SRW (Search Retrieval Webservice1), um
protocolo criado para realizar consultas a vrias bases de dados disponveis via internet.
Tambm conhecido como protocolo Z39.50 de nova gerao, o SRW tem o objetivo de
incorporar novas tecnologias no existentes no surgimento do Z39.50, que ocorreu no ano de
1988, e desde ento muitas tecnologias eficientes e necessria foram desenvolvidas e devem
ser adotadas, como a linguagem de marcao XML.
O SRW prope um protocolo menos complexo e mais fcil de implementar do que o
Z39.50 e tambm baseia-se na arquitetura cliente-servidor. As suas solicitaes de pesquisa e
as resposta so codificadas usando XML (OLIVEIRA, 2005, p.43).
A consulta no SRW formulada atravs de uma linguagem padronizada, chamada de
CQL (Common Query Language), que utiliza o conjunto de elementos do padro Dublin Core
(Item 2.5.3) para especificao dos ndices das bases de dados.

Ver http://www.loc.gov/z3950/agency/zingsrw

51

CAPTULO 4 ANLISE DAS FERRAMENTAS DE CONSTRUO DE


REPOSITRIOS DIGITAIS
Este captulo trata da anlise das ferramentas open source, ou softwares livres,
disponveis para implementao de repositrios digitais.
Todas as ferramentas analisadas possuem interface web e so softwares livres, por
isso tais caractersticas no sero tratadas repetidamente, apesar de ocorrem comentrios a
respeito dos tipos de licenas destes softwares e tambm dos layouts de suas interfaces.
Alguns requisitos de software so indispensveis para o repositrio digital proposto e
portanto sero analisados individualmente, enquanto que os requisitos apenas desejveis sero
analisados e comentados durante as descries de cada ferramenta.
A anlise e descrio dos aplicativos levaro em conta os seguintes aspectos:
Histrico de desenvolvimento e uso do software;
Estrutura do repositrio;
Formatos de arquivos suportados;
Opes e mtodos de busca;
Processo de submisso de arquivos:
Opo de navegao pelas colees existentes;
Interao com o usurio;
Documentao existente;
Processo de incluso dos metadados dos arquivos;
Protocolos de comunicao e interoperabilidade suportados;
Mtodos de importao e exportao de metadados.
Os seguintes softwares no tiveram uma anlise mais aprofundada de suas funes
devido ao fato de a documentao dos mesmos ter demonstrado de maneira clara que no
teriam as funcionalidades necessrias para suprir as necessidades de um repositrio digital
para o objetivo que est sendo proposto, que seria um repositrio digital para um grupo de
pesquisas. Seguem listados e acompanhados dos motivos que os levaro a serem descartados:
GNU/E-Prints1: possui como objetivo principal a literatura cinzenta, que so
apenas teses, monografias, relatrios, e outros tipos de textos. Permite a

Ver http://www.eprints.org

52

incluso de alguns outros tipos de objetos digitais, mas como poucas opes e
funcionalidades, devido ao fato de ter o foco principal na literatura cinzenta.
Fedora1: por possuir um grau de detalhamento de metadados muito alto, seu
uso torna-se altamente complexo para os usurios finais do repositrio
proposto. um software flexvel para suportar diversos formatos de objetos
digitais, porem no possui uma interface prpria com o usurio, podendo ser
utilizado como suporte para outras aplicaes.
Open Journal Systems2: seu foco principal so as publicaes peridicas,
como revistas e jornais.

4.1 Comparao de Aplicativos


A Tabela 3 demonstra a lista dos requisitos necessrios para que o software atenda as
necessidades do repositrio digital proposto.
Estes requisitos sero cruciais na escolha do software para desenvolvimento do
repositrio digital proposto, pois o no cumprimento de algum destes requisitos por algum
dos softwares analisados ir elimin-lo automaticamente da lista de possveis softwares a
serem utilizados, pois sem o cumprimento integral destes requisitos obrigatrios, muito
provavelmente o uso deles implicar problemas tanto na fase de desenvolvimento quanto para
os usurios finais do repositrio digital.
Tabela 3 Atendimento dos requisitos obrigatrios para o repositrio digital proposto nos
aplicativos analisados.

Requisitos obrigatrios
Software livre
Interface web
Permite incluso de mais um formato de
arquivo por obra
Utilizao simples e intuitiva
Possibilita criao de colees distintas
Possibilita navegao pelos campos autor,
ttulo, assunto ou data.
Permite busca por autor, ttulo, assunto e por
palavras-chave
Permite submisso pelo prprio autor
A incluso de metadados segue algum
1
2

Ver http://www.fedora.info
Ver http://pkp.sfu.ca/ojs

DSpace

Softwares
CDSWare Nou-Rau

Greenstone

A
A

A
A

A
A

A
A

NA

A
A

A
A

A
A

A
A

A
A

A
A

A
A

NA
A

53

padro aceito internacionalmente


Permite importao e exportao de obras e
A
A
A
metadados
Possui interao com usurio, atravs de eA
A
A
mail e informaes no repositrio
Documentao existente satisfatria
A
A
NA
A = atende requisito;
NA = no atende requisito

A
NA
A

Fonte: Prprio Autor

A Tabela 4 apresenta uma lista dos requisitos desejveis, mas no obrigatrios dos
softwares analisados. Estes requisitos no so obrigatrios, mas tem peso importante na
escolha do software a ser utilizado no desenvolvimento do repositrio digital.
Tabela 4 Atendimento dos requisitos desejveis para o repositrio digital proposto nos
aplicativos analisados.

Requisitos desejveis
No precisar de plugins instalados na
mquina do usurio final
Possui comportamentos distintos para
tratamento de colees distintas
Interface
agradvel
ao
usurio
e
personalizvel segundo as necessidades
Possui hierarquia entre as colees do
repositrio
Possibilidade de navegao por vrios
campos, alm de autor, ttulo, assunto ou
data.
Permiti buscas avanadas fazendo a
combinao de elementos de metadados e
texto-integral (full-text).
Possui mecanismos de workflow bsicos
Permite a interoperabilidade de maneira
automtica com outros sistemas na mesma
base ou em bases distintas
Permite configurao de uso de vocabulrios
controlados
Permitir exportao de colees ou parte
delas para consulta local do usurio.
Permite
utilizao
de
protocolos
automatizados para realizao de troca de
registros
Permite uso de identificadores persistentes
Permite gerar relatrios de estatsticas de
utilizao
Permite interao no estilo de portais, onde
usurios cadastrados possuem acesso

DSpace

Softwares
CDSWare Nou-Rau

Greenstone

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

NA

54

personalizado aos servios


A = atende requisito;

NA = no atende requisito

Fonte: Prprio Autor

4.2 Anlise Detalhada da Ferramenta DSpace


Dspace um sistema de repositrios digitais Open Source, baseado no modelo de
licena BSD (Berkeley Software Distribution), desenvolvido pelo MIT1 (Massachussets
Institute of Technology) em parceria com a HP2 (Hewllet-Packard) e est disponvel no
prprio site do DSpace3. Seu nome completo Digital Space Institucional Digital
Repository System (Espao Digital Sistema de Repositrios Digitais Institucionais).
Atualmente a ferramenta para construo de repositrios digitais institucionais
mais usada internacionalmente, segundo dados do OpenDOAR4 e do ROAR5, sites
responsveis por indexar os repositrios digitais existentes em todo o mundo e fornecer
dados, nmeros e grficos a respeito do uso dos mesmos. A Figura 1 mostra o nmero de
repositrios criados em vrias ferramentas disponveis diferentes disponveis, e refora a
afirmao de que o DSpace a mais usada entre elas.
Figura 1 Grfico com a quantidade de repositrios desenvolvidos por cada sistema

Fonte:http://roar.eprints.org/index.php?action=generate_chart&country=&version=&type
=&chart_field=version&chart_type=pie&submit=Generate+Chart

Segundo os prprios desenvolvedores do sistema, o DSpace captura, distribui e


tambm preserva objetos digitais (LEWIS; YATES, 2008).
1

Ver http://web.mit.edu
Ver http://www.hp.com
3
Ver http://www.dspace.org
4
Ver http://www.opendoar.org/index.html
5
Ver http://roar.eprints.org/index.php
2

55

Lewis e Yates (2008) relatam que o DSpace uma plataforma que permite capturar
itens em qualquer formato em texto, vdeo, udio e dados, os distribui atravs da web,
indexa o trabalho, ento usurios podem procurar e recuperar os itens, e ele preserva os
trabalhos digitais a longo prazo.
Lewis e Yates (2008) tambm relacionam que o DSpace possui trs objetivos
principais, que so os seguintes:
Facilitar a captura e insero dos materiais, incluindo os metadados sobre os
materiais;
Facilitar o acesso fcil ao material, tanto por listagens quanto por buscas;
Facilitar a preservao a longo prazo dos materiais.

Segundo a documentao do DSpace as idias que motivaram seu desenvolvimento


baseiam-se nas seguinte premissas:
Muito dos materiais que nasceram digitais j esto perdidos;
A maior parte do que ainda no foi perdido, corre risco de ser;
melhor realizar a preservao digitalmente, do que perder completamente;
necessrio capturar tanta informao quanto for possvel, para se suportar a
preservao funcional;
Relao custo/beneficio favorvel.

O DSpace o sistema mais usado para desenvolvimento de repositrio digitais em


todo o mundo devido ao fato de ser desenvolvido em parceria por uma das instituies de
ensino e um dos laboratrios de pesquisa mais respeitados em todo o mundo, formando assim
o conceito de que o DSpace ir sempre se manter atualizado e com qualidade crescente,
sempre atendendo as necessidades que forem surgindo e implementando as mais novas
tecnologias existentes em suas funcionalidades. O DSpace encontra-se atualmente na verso
1.5.2, atualizao lanada no ano de 2009. Sua primeira verso, a 1.0 foi lanada em
novembro de 2002 e a partir da a cada ano foi lanada uma nova verso, sendo a verso 1.1
em maio de 2003, a verso 1.2 em agosto de 2004, a verso 1.3 em agosto de 2005, a verso
1.4 em julho de 2006 e no nico caso que passou do perodo de um ano em maro de 2008 foi
lanada a verso 1.5. Uma nova verso, a 1.6 j encontra-se em fase de estudos.
Outro fator importante para este sistema ser o mais adotado pelas instituies e
universidades do mundo este prprio fator, ou seja, como possui uma comunidade muito

56

grande de usurios e desenvolvedores e seu cdigo ser aberto, tais desenvolvedores


contribuem continuamente para melhorias e atualizaes das funcionalidades do DSpace e
tambm na correo dos possveis problemas que possam vir a surgir como o seu uso.
Tambm pode se disser que uma das maiores vantagens do DSpace o fato de ele
suportar todos os tipos de formatos digitais. Alguns exemplos so:
Documentos (artigos, preprints, relatrios tecnicos, dissertaes);
Livros;
Teses;
Visualizaes, simulaes e outros modelos;
Softwares;
Publicaes multimdia;
Imagens;
Arquivos de udio;
Arquivos de vdeo;
Pginas web;
E muitos outros.

A DSpace Foundation (Fundao DSpace) uma fundao sem fins lucrativos


fundada em 2007 para prover o crescimento da comunidade de instituies que adotam o
DSpace. A misso da fundao liderar o desenvolvimento colaborativo do software open
source para possibilitar o permanente acesso as produes digitais.
Os principais objetivos da DSpace Foundation so:
Desenvolver e gerenciar uma forte rede de provedores de servios e recursos de
treinamento;
Promover o DSpace atravs de newsletters mensais, atravs da pgina web do
DSpace, atravs de materiais de marketing e diversas outras aes;
Construir e manter uma comunidade ativa de desenvolvedores e usurios;
Garantir a integrao do DSpace usando padres abertos;
Administrar e coordenar a plataforma DSpace e os lanamentos de softwares.

O DSpace formado por diversos componentes, distribudos por trs camadas


distintas:

57

A Storage Layer que responsvel pelo armazenamento fsico dos metadados


e dos contedos;
A Business Logic Layer que trata da gesto dos contedos do arquivo, dos
utilizadores, das polticas de autorizao e do workflow e;
A Application Layer que contm os componentes que comunicam com o
mundo exterior, como por exemplo a interface web do utilizador e o servio de
suporte ao protocolo de coleta de metadados da OAI.

Cada camada da arquitetura invoca apenas a camada imediatamente inferior, por


exemplo, a Application Layer no pode invocar diretamente a Storage Layer. Cada
componente da Business Logic Layer e da Storage Layer possuem uma API (Application
Programming Interface).
Estas APIs so classes, objetos e mtodos em Java. O conjunto das APIs pblicas
dos diversos componentes de cada camada, forma aquilo que se designa por Layer API e
possui as designaes de Storage API e DSpace Public API.
Umas das grandes vantagens conhecidas em arquiteturas por camadas a de permitir
que o desenvolvimento de novas funcionalidades, o melhoramento da eficincia das existentes
e a adaptao a outros ambientes (Sistemas Operacionais) possa ser feito apenas em uma
camada, desde que se assegure que sua API mantenha o suporte a todas as funcionalidades
anteriores ao desenvolvimento.
Esta preocupao em manter a arquitetura de trs camadas do DSpace est presente
na prpria organizao do cdigo fonte, que est coerentemente repartido em trs pacotes, que
correspondem estritamente a cada uma das camadas. O pacote org.dspace.app que
implementa a Application Layer, o pacote org.dspace.Business que implementa a Logic Layer
e o pacote org.dspace.storage que implementa a Storage Layer.
Para seu correto funcionamento, o DSpace na verso mais recente, a 1.5.2, necessita
dos seguinte pr-requisitos de softwares:
Sistema Operacional: Windows ou UNIX-like.
Servidor Web: Apache Tomcat 5.X ou mais novo.
Banco de Dados: PostgreSQL 8.X ou mais novo ou Oracle 9 ou mais novo.
Adicionais: Apache ANT 1.6.2 ou mais novo, Java SDK 1.5 ou mais novo e
Apache Maven 2.0.8 ou mais novo.

58

4.2.1 Metadados e Interoperabilidade no DSpace

O Dspace mantm trs tipos de metadados a respeito dos seus recursos, os metadados
descritivos, os administrativos e os estruturais.
Para descrio dos recursos, o DSpace utiliza o padro de metadados Dublin Core,
padro aberto e amplamente aceito internacionalmente. Apenas trs elementos do padro
Dublin Core so obrigatrios nas descries de recursos no DSpace, o ttulo (title), idioma
(language) e data de deposito (date), mas todos os outros campos do Dublin Core podem ser
preenchidos, dependendo apenas das necessidades.
Os metadados administrativos referem-se preservao, provenincia e polticas de
autorizao. O Dspace contempla tambm outros elementos do Dublin Core, como o tamanho
em bytes do bitstreams.
Os metadados estruturais incluem informao sobre como apresentar um item ou os
seus bitstreams, ao usurio final bem como as relaes entre as partes que formam o recurso.
O DSpace adota o protocolo de comunicao OAI-PMH para compartilhamento de
recursos e capacidade de interoperabilidade, o que permite a coleta automtica de metadados
de documentos armazenados em arquivos eletrnicos.
O DSpace tambm possui mdulos para exportao no formato METS, o que
possibilita que as o que contedo digital das colees armazenadas no DSpace juntamente
com seus metadados possam ser exportados e compartilhadas tanto com repositrios DSpace
quanto com repositrios que utilizem outras plataformas alem do DSpace mas que sejam
compatveis com o OAI-PMH.
4.2.2 Estrutura e Funcionamento do DSpace

A estrutura do DSpace dividida da seguinte maneira:


Comunidades: so o nvel mais alto da hierarquia de contedos do DSpace.
Podem ser departamentos, centros de pesquisa, laboratrios, etc. Fazem relao
ao grupo de pessoas que submetem contedo base. Possuem metadados
descritivos a respeito delas mesmos e das colees inseridas nelas.
Colees: so os conjuntos de itens pertencentes s comunidades. Colees
podem pertencer a uma comunidade ou a varias. Como as comunidades, as
colees possuem metadados descritivos a respeito delas mesmos e dos itens
inseridos nelas.

59

Itens: so os documentos, ou objetos digitais, em si. So a representao dos


arquivos e dos metadados unidos para formar uma unidade atmica.
Normalmente o que os usurios esto buscando.
Bitstreams: cada arquivo submetido ao DSpace ou criado por ele considerado
um bitstream. Um bitstream refere-se ao fato de cada arquivo ser um fluxo de
bits (0s e 1s) armazenados em um meio de armazenamento fsico.

Resumindo a base de dados DSpace composta por comunidades que representam as


divises da instituio. Cada comunidade possui suas colees, que so compostas por itens.
Cada item formado por um ou mais arquivos em formatos diversos, chamados de
biststreams. Cada item tambm possui metadados do padro Dublin Core, descrevendo as
informaes necessrias a respeito dos recursos.
Outra caracterstica muito importante e que encontrada entre as ferramentas
analisadas apenas no DSpace o uso de identificadores persistentes, que so endereos de
internet baseados no sistema CNRI Handle System1 que garantem que o recurso armazenado
ser sempre encontrado atravs do endereo eletrnico correspondente, o que permitir a
pesquisa e recuperao dos recursos em um futuro distante. A Figura 2 representa um
exemplo da exibio dos metadados bsicos de um recurso no DSpace. A informao
http://hd1.handle.net/2160/617 o identificador persistente, portanto caso queira citar este
item em uma referncia bibliogrfica, pode-se utiliz-lo com certeza de que este endereo ser
sempre referente ao documento The DSpace Course - An Introduction to DSpace.
O DSpace identifica dois nveis de preservao digital, que servem para garantir a
preservao do material digital a longo prazo. Os dois tipos de preservao so os seguintes:
Preservao de bits: assegura que um arquivo continua exatamente igual ao
longo do tempo, no sendo modificado um nico bit, enquanto que o meio
fsico que o rodeia e armazena evolui;
Preservao funcional: vai alm da preservao de bits. O arquivo no se
modifica ao longo do tempo para que possa ser imediatamente usado na sua
forma original, enquanto o formato digital e o meio fsico evoluem ao longo do
tempo.

Ver http://www.handle.net

60

Figura 2 Exemplo de representao dos metadados bsicos no DSpace.

Fonte: http://cadair.aber.ac.uk/dspace/handle/2160/617

Alguns formatos de arquivos podem ser preservados funcionalmente usando-se


formatos de migrao direta, como as imagens TIFF (Tagged Image File Format) e os
documentos XML. Outros formatos de arquivos, por diversas razes, so mais complexos de
serem funcionalmente preservados. A previso de que tipo de formatos uma instituio ir
usar para a criao de seus documentos no sempre possvel, ento usam-se ferramentas de
acordo com os fins pretendidos e os repositrios recebem todos eles. Por esta razo existem
trs nveis de preservao definidos para um determinado formato: suportado, conhecido ou
no suportado. Abaixo segue detalhamento deste trs nveis:
Formatos suportados sero funcionalmente preservados atravs do uso do
formato de migrao ou tcnicas de emulao conhecidas. Exemplos deste
formato so os arquivos TIFF, SGML, XML, AIFF (Audio Interchange File
Format) e PDF (Portable Document Format).
Formatos conhecidos so aqueles que no se pode prometer a sua preservao,
como os formatos proprietrios ou binrios, mas que so to usuais que verses
de migrao podero surgir e ajudar na migrao destes formatos. Os exemplos

61

incluem arquivos do Microsoft Word, Excel e PowerPoint, Ltus 1-2-3 e


WordPerfect.
Formatos no suportados so aqueles que ainda no h conhecimento suficiente
para ser feito algum tipo de preservao funcional. Incluem alguns formatos
proprietrios ou de software nico.

Para os trs nveis o DSpace realiza a preservao de bits.


As equipes de desenvolvimento do DSpace esto trabalhando continuamente em
parceria com diversas instituies para desenvolverem novos procedimentos de upload para
converter formatos no suportados ou conhecidos em suportados, e melhorar a capacidade do
DSpace de preservar os metadados e proceder com as migraes peridicas de formatos.

4.2.3 Processo de Depsito e Workflow no DSpace


O DSpace a primeira ferramenta de repositrio digital open source apresentar uma
soluo para resolver o complexo problema de como integrar e implementar os diferentes
processos de submisso de itens necessrios em sistemas multidisciplinares. As diversas
comunidades, representando departamentos, centros de pesquisa, laboratrios, entre outros,
possuem diferentes idias de como, por quem, e com que restries os materiais devem ser
depositados no repositrio. Questes como, quem deve ter permisso para submeter itens?
Que tipo de documentos podem ser submetidos? Quem pode rever ou aprovar o depsito? Em
que coleo um usurio pode submeter materiais? Quem pode ter acesso aos documentos no
repositrio? So respondidas pelos responsveis de cada comunidade, e posteriormente
definidas e configuradas no sistema.
Isto possvel devido a definio de papis com determinadas permisses que so
atribudas aos usurios do sistema. Estas permisses podem ser definidas individualmente
para comunidades, colees e documentos. Podem ser definidos os papis de submitters,
reviewers e metadata editors.
O workflow o processo de reviso a que um depsito sujeito, pode ser composto
por trs passos. Cada coleo poder ter grupos de usurios para executar cada um destes
passos. Se um passo no estiver associado a nenhum grupo, esse passo ignorado e passa-se
ao passo seguinte, e se uma coleo no tiver grupos associados a nenhum dos passos de
workflow, os itens a ela submetidos so inseridos diretamente no repositrio.

62

Desta maneira o workflow de submisso de documentos constitudo pela seguinte


seqncia: depois da coleo receber um pedido de submisso examinado o passo 1 do
workflow da coleo. Se algum grupo estiver associado ao passo 1, o grupo notificado e o
passo 1 invocado. Seno o passo 1 pulado, passando ento a ser examinado o passo 2, que
tambm s invocado se algum grupo estiver associado a ele, e por fim o mesmo ocorrer
com o passo 3.
Quando um passo invocado, as tarefas correspondentes a ele so colocadas no pool
de tarefas do grupo respectivo. Cada membro deste grupo pode ento aceitar essa tarefa,
sendo ento esta removida do pool, para evitar que outro elemento do grupo a aceite.
Conforme o passo do workflow invocado, o usurio que aceitou a tarefa tem as
seguintes aes para executar:
Passo 1: aceitar a submisso, e deixar o material ser incluso no repositrio ou rejeitlo.
Passo 2: editar os elementos de metadados fornecidos pelo autor durante a realizao
do processo de submisso, aceitar a submisso ou rejeita-la.
Passo 3: no tem a capacidade de rejeitar a submisso, ento obrigado a aceita-la,
mas antes pode editar os metadados fornecidos pelo autor.
Caso um revisor rejeite a submisso de um item, a razo para esta rejeio poder ser
enviada por e-mail pessoa que realizou a submisso. O usurio que pretende depositar o
item pode, a partir de sua pgina pessoal retomar o deposito do item, fazer as alteraes
necessrias e aconselhadas e voltar a submeter o mesmo, o que dar inicio a um novo
workflow. A Figura 3 demonstra o processo de workflow no DSpace.
Figura 3 Processo de workflow no DSpace

Fonte: Adaptado da imagem disponvel em http://wiki.dspace.org/static_files/thumb/b/b8/Workflowold.png/700px-Workflow-old.png

63

A Figura 4 resume os processos e o funcionamento do DSpace para cada um de seus


usurios.
Figura 04 Funcionamento do Dspace

Fonte: Adaptado da imagem disponvel em


http://www.dspace.org/images/stories/dspace-diagram.pdf

A Figura 4 mostra que um usurio pode realizar submisses, que so transformadas


em itens, armazenadas dentro de colees e relacionadas a comunidades. O administrador
gere a aceitao e polticas de acesso aos documentos submetidos e novamente usurios
podem realizam consultas a base de dados.

4.2.4 Buscas e Navegao no DSpace


Pesquisas em repositrios DSpace podem ser realizadas de diversas maneiras
diferentes.

64

O usurio pode pesquisar diretamente digitando os termos que deseja buscar ou pode
optar por navegar pelas comunidades e colees presentes no repositrio. Pode ainda escolher
navegar por ttulo, autor e data, que so os elementos obrigatrios a serem preenchidos na
descrio dos metadados de um recurso, e por isso possvel que seja feita a navegao por
tais elementos, pois todo recurso no repositrio obrigatoriamente possuir estes trs elementos
preenchidos.
Um usurio possui a opo de se cadastrar no repositrio, a fim de receber por e-mail
informaes sobre novos depsitos em cada coleo, e tambm quando recursos forem
alterados.
O repositrio possui dois tipos de reas, as reas livres que podem ser acessadas por
qualquer usurio que acesse a pgina do repositrio e a reas de acesso controlado, onde
somente usurios autorizados podero ter acesso. A submisso de itens, como j descrito
anteriormente, tambm s pode ser realizada por usurios autorizados.
Como citado acima, existe a opo de navegar pelas comunidades e colees, por
ttulos, autores e datas. Tambm existe a opo de se digitar termos para uma busca geral e
uma opo muito interessante, que a de se digitar termos para buscar apenas dentro de
colees definidas de determinadas comunidades do repositrio.
Nas buscas em que se digitam termos, sejam eles especficos por comunidades ou
gerais, a pesquisa realizada seguindo algumas regras, conforme definido a seguir:
O asterisco usado para fazer o truncamento, dessa maneira a busca trab* ir
retornar os resultados para trabalho, trabalhando, etc;
Frases devem ser delimitadas por aspas duplas;
Algumas palavras so ignoradas durante a busca. Na base em ingls algumas
das palavras ignoradas so: a, as, are, and, to, etc;
O smbolo + adicionado aps uma palavra indica que obrigatoriamente ela
deve constar nos resultados da busca. Dessa forma, a busca +repositrios
digitais indica que repositrios deve aparecer nos resultados e digitais
opcional;
O smbolo - usado para negao;
Os operadores booleanos AND, OR e NOT so suportados nas buscas, mas
para isso devem ser escritos em caixa alta;

65

Podem ser utilizados parnteses para combinar estratgia de busca, como por
exemplo,

(repositrios

digitais

OR

repositrios

institucionais)

AND

(metadados OR Dublin Core);


As palavras tm seus finais expandidos para os finais que so mais comuns,
com o objetivo de retornar mais resultados.

Com relao a interface com o usurio, pode se disser que bastante simples,
intuitiva e funcional, no acarretando problemas ou dificuldades maiores para os usurios
finais do DSpace. O layout das pginas extremamente agradvel, embora razoavelmente
simples, mas ainda assim muito agradvel e conta muito para tornar a experincia no uso do
DSpace para os usurios finais muito mais fcil.

4.3 Anlise Detalhada da Ferramenta Greenstone


O Greenstone um sistema Open Source, baseado no modelo de licena GPL
(General Public Licence), desenvolvido e distribudo pelo Projeto Biblioteca Digital da Nova
Zelndia, na universidade de Waikato em parceria com a UNESCO (United Nations
Educational, Scientific and Cultural Organization) e a Human Info NGO (Humanitarian
Information Non-governmental Organization) da Blgica e est disponvel no prprio site do
Greenstone1.
Segundo Greenstone (2009), o Greenstone uma ferramenta que visa construir e
distribuir colees em bibliotecas digitais.
O ambiente do Greenstone dividido em duas interfaces distintas: uma disponvel
atravs do browser e que trata da interao com o usurio e uma interface grfica baseada em
Java, destinada ao administrador do sistema, onde o mesmo pode coletar itens para o acervo,
adicionar metadados, projetar as funcionalidade de navegao e pesquisa que a coleo vai
oferecer ao usurio final e construir e disponibilizar as colees.
A construo de colees tambm pode ser realizada na interface de administrao,
que uma interface web que possui uma quantidade menor de funcionalidade que a interface
Java.
O padro de metadados Dublin Core o nativo do Greenstone, mas novos padres
podem ser adotados atravs do uso de plugins.
1

Ver http://greenstone.sorceforge.net

66

Os plugins tambm podem ser usados para a submisso de documentos no sistema,


sendo que para documentos de texto existem plugins que do suporte a diversos formatos de
arquivos de texto. Tambm existem os plugins para os documentos multimdia, que do
suporte para diversos formatos de imagens, arquivos de udio e tambm vdeo.
A documentao disponvel sobre o Greenstone ampla e conta at com exemplos
completos de como construir uma coleo desde o inicio.
O processo de submisso realizado a partir da interface Java, que inclui sees para
coleta dos documentos, tanto a partir da internet quanto localmente. Tambm possui sees
para definio de metadados para cada um dos documentos adicionados ao sistema, seleo
das opes das colees, como por exemplo quais documentos sero suportados, e a criao e
disponibilizao das colees na interface web do usurio.
Para seu correto funcionamento, o Greenstone necessita dos seguinte pr-requisitos
de softwares:
Sistema Operacional: Windows ou UNIX-lik ou MAC-OSX.
Servidor Web: Apache.
Banco de Dados: GDBM (GNU Database Manager).
Adicionais: PERL, Java SDK e plugins para padres de metadados e formatos
de arquivos adicionais.

4.4 Anlise Detalhada da Ferramenta CDSWare

O CDSWare um sistema de repositrios digitais Open Source, baseado no modelo


de licena GNU General Public Licence, desenvolvida pelo CERN (European Organization

for Nuclear Research), que a Organizao Europia para Pesquisas Nucleares e est
disponvel no prprio site do CDSWare1. Seu nome completo CERN Document Server
Software (CERN Software Servidor de Documentos).
Pepe et al (2005) afirma que o CDSWare um conjunto de aplicativos que
proporciona um ambiente e ferramentas para construir e gerenciar um servidor de biblioteca
digital autnomo. Cada um de seus mdulo uma entidade independente que incorpora um
aspecto especifico de fluxo de trabalho de uma biblioteca digital.
A organizao do CDSWare feita de maneira a prover que seus vrios mdulos
interajam entre si e com as camadas de interface e de armazenamento de dados. Os
1

Ver http:// cdsware.cern.ch/cdsware/download.html

67

documentos so organizados em colees que so estruturadas pelo administrador do sistema


em formato de rvores reais ou virtuais para facilitar a navegao dos usurios.
A submisso de recursos realizada pelo prprio usurio e no momento da
submisso o usurio deve informar a qual coleo o documento pertencer. Aps a realizao
da submisso de um documento, o mesmo passar por um processo de workflow que pode
possuir ou no as etapas de reviso e aceitao.
Todos os formatos de arquivos aceitos podem ser submetidos ao repositrio pelos
usurios autorizados por e-mail ou atravs da interface web disponvel. A maneira como tais
arquivos sero exibidos pode ser personalizado, podendo assim existir comportamentos
diferentes de acordo com o tipo de coleo. Tambm permitido definir o tamanho mximo e
mnimo de uma arquivo a ser adicionado obra.
Os usurios podem criar cestas de documentos, nas quais iro constar os resultados
das buscas realizadas por eles e tambm podero compartilhar estas cestas entre grupos de
usurios. O CDSWare tambm possui a funcionalidade de permitir que os usurios realizem
comentrios a respeito dos documentos existentes no repositrio, funcionalidade que ajuda
muito os usurios, pois os mesmos podero contar com dicas e opinies sobre a qualidade dos
documentos inseridos no repositrio.
O mecanismo de busca do CDSWare trabalha como uma sintaxe semelhante a usada
pelo Google e permite que se combine busca nos metadados com buscas por texto-integral
(full-text). O sistema possui uma opo de ordenao por freqncia de palavras, que
possibilita recuperar registros similares e tambm um mtodo de ranking baseado nos valores
especficos dos metadados.
O CDSWare tambm possui um mdulo de indexao e ranking que possibilita
classificar os resultados das buscas pela quantidade de downloads ou pelo nmero de citaes
dos registros. As buscas podem ser simples ou avanadas, sendo que os resultados das buscas
podem ser agrupados tambm por coleo.
A interface de busca pode ser personalizada e encontra-se traduzida para diversas
lnguas, incluindo o portugus.
O CDSWare adota como padro de metadados o MARC 21, e todos os metadados
adicionados a ele so automaticamente convertidos para este padro interno do software.
O padro MARC 21 foi adotado por tratar de um formato j aceito e estabelecidos
entre as bibliotecas do mundo, por possuir a caracterstica de se integrar bem com as
linguagens de marcao modernas, como o XML, flexvel o suficiente para garantir que

68

dure por muito tempo e pode ser estendida para se adaptar a qualquer estrutura de metadados
existente (PEPE et al, 2005, p.04).
O CDSWAre adotou o padro MARCXML, padronizado pela Library of Congres
(Biblioteca do Congresso Norte Americano), padro que pode ser adotado por completo ou
apenas em pequenos conjuntos de elementos especficos, dependendo apenas das
necessidades de cada implementao. Normalmente quanto mais heterognea for uma
coleo, maior ser o nmero de elementos de metadados que utilizar.
O padro MARCXML usado no CERN possui atualmente mais de 150 elementos de
metadados (PEPE et al, 2005, p.04)
O CDSWare tambm adota o protocolo OAI-PMH, portanto os metadados podem ser
coletados de maneia automtica e todos os metadados que so includos num repositrio
CDSWare so transformados para o formato nativo do software, para depois ficarem
disponveis. Um dos mdulos existentes no CDSWare possui a funo de traduzir os formatos
recebidos, como Dublin Core, METS ou MARC 21 para o formato nativo do software no
momento de realizar a exportao.
O CDSWare, dentro dos padres estabelecidos pela OAI pode atuar tanto como
sendo um provedor de dados quanto como sendo um servidor de servios e possui a
capacidade de fazer e tambm atender requisies a partir do protocolo OAI-PMH.
Segundo Pepe et al (2005) o CDSWare pode ser utilizado tanto como uma soluo
genrica de gerenciamento de documentos quanto como um sistema de biblioteca digital ou
um repositrio digital que pretende atender a acervos com mdios e grandes portes.
A documentao disponvel sobre o CDSWare ampla e abrange caractersticas
gerais e aprofundadas do sistema, porm algumas funcionalidades e diversos aspectos do
funcionamento do CDSWare ainda no constam na documentao disponvel.
Para seu correto funcionamento, o CDSWare necessita dos seguinte pr-requisitos de
softwares:
Sistema Operacional: UNIX-like.
Servidor Web: Apache.
Banco de Dados: MySQL.
Adicionais: Python, PHP, WML, GNUplot, Implementao de Commom LISP
(CLISP, SBCL ou CMUCL) e conversores de formatos de arquivos para
realizao de indexao full-text.

69

4.5 Anlise Detalhada da Ferramenta Nou-rau


O Nou-rau um sistema de repositrios digitais Open Source baseado no modelo de
licena GPL, desenvolvido pelo Instituto Vale do Futuro em parceria com o Centro de
Computao da Unicamp e est disponvel no prprio site do Nou-rau1.
O software tem como objetivo implementar um sistema online para arquivamento e
indexao de documentos, provendo acesso controlado e mecanismos eficientes de busca
(AKIMURA, 2005).
Os objetivos do sistema Nou-rau segundo Akimura (2005) so os seguintes:
Armazenar qualquer tipo de documento;
Manter sempre informaes bsicas e quando necessrio informaes
especificas sobre cada documento;
Permitir pesquisas tanto nos metadados quanto em texto-integral (fulltext);
Permitir que haja um controle sobre as submisses aos acervos;
Possibilitar a verificao externa de vrus nos documentos;
O Nou-rau dividido dentro da seguinte organizao funcional:
Documentos: so os arquivos submetidos ao sistema e tambm seus
metadados. Os documentos so armazenados, e quando necessrio, so
comprimidos internamente ao sistema, sendo retornados em sua forma original
aos usurios;
Tpicos: so os agrupamentos de documentos relacionados por assuntos
especficos. Cada tpico do sistema possui um responsvel por seu
gerenciamento e podem ser organizados de forma hierrquica;
Categorias: so os tipos de documentos aceitos, portanto podem-se definir
quais tipos de documentos sero aceitos por cada categoria separadamente. O
tamanho mximo que um documento pode ter tambm pode ser indicado por
cada categoria separadamente;
Formatos: Cada categoria do sistema aceita um ou mais formatos de arquivo.
Podem ser definidos os formatos mais utilizados e que j so predefinidos pelo
sistema e tambm podem ser criados grupos de formatos, contendo neles os
formatos desejados e dando um nome que deseje e que torne fcil a
identificao dos formatos aceitos.
1

Ver http://www.rau-tu.unicamp.br/nou-rau/

70

Alm do software bsico necessrio para o funcionamento do sistema, preciso que


sejam instalados conversores adicionais para indexar o contedo dos documentos para cada
formato de arquivo, como PDF.
As buscas no Nou-rau so implementadas atravs da ferramenta Dig1, que realiza a
indexao dos documentos a partir da informaes enviadas pelo sistema Nou-rau.
Atualmente so suportados pelo Nou-rau os seguintes formatos de arquivos: ASCII
(American Standard Code for Information Interchange), HTML (Hyper Text Markup
Language), RTF (Rich Text Format), SGML, WML, XML, documentos do Office Word,
Excel e PowerPoint, PDF , PostScript, TeX, Ltex e DVI.
Os usurios do Nou-rau podem assumir um ou mais papis, dependendo dos seus
objetivos no uso do repositrio. Os papis existentes so os seguintes:
Visitante: acessa o repositrio apenas com o objetivo de realizar consultas;
Colaborador: possui a permisso para submeter documentos ao repositrio,
tornando-se ento dono dos mesmos;
Responsvel: possui a funo de administrar os tpicos do repositrio e
tambm de aprovar ou no as submisses realizadas a estes tpicos;
Administrador: no nvel hierrquico de usurio do Nou-rau o usurio com
papel de nvel mais alto, sendo responsvel pela manuteno do sitema, criao
dos tpicos do repositrio, manuteno das categorias e formatos de
documentos e tambm a funo de delegar funes aos outros usurios do
sistema.

O processo de submisso em um sistema Nou-rau ocorre da seguinte forma: um


upload realizado por um colaborador, depois ocorre a avaliao pelo responsvel do tpico
ao qual o documento foi submetido e depois a possvel verificao de vrus nestes
documentos realizada pelo administrador. Caso um documento seja rejeitado em qualquer
destas etapas, o mesmo excludo da base de dados do sistema e um aviso enviado ao
colaborador que submeteu o documento.
As buscas podem ocorrer tanto nos metadados quanto no texto-integral (full-text) das
obras que j foram indexadas. O sistema no permite realizar buscas apenas em um certo
elemento dos metadados, como por exemplo realizar uma busca apenas por ttulo ou autor.

Ver http://www.htdig.org/

71

O Nou-rau possui uma interface semelhante a do DSpace, sendo tambm intuitiva e


de fcil utilizao, possuindo uma grande vantagem sobre as outras ferramentas: no
necessrio o trabalho em cima de tradues, pois o sistema desenvolvido por brasileiros.
A documentao disponvel a respeito do sistema muito pequena e percebe-se por
pesquisas e acesso ao site do sistema que pouco tem sido realizado para melhorar as
funcionalidades e muito menos no sentido de desenvolver novas verses que implementem as
novas e importantes tecnologias existentes.
Para seu correto funcionamento, o Nou-rau necessita dos seguintes pr-requisitos de
softwares:
Sistema Operacional: UNIX-like.
Servidor Web: Apache.
Banco de Dados: PostgreSQL.
Adicionais: PHP, FILE, HTDIG, PERL e conversosres de formatos de
arquivos para indexao full-text.

4.6 Escolha do Sistema a ser usado para o Desenvolvimento do


Repositrio Digital Proposto
Aps estudo dos softwares disponveis, das teorias de metadados, interoperabilidade
e dos repositrios digitais e tambm anlise dos requisitos e necessidades do sistema proposto
juntamente aos integrantes do Grupo de Pesquisas Novas Tecnologias em Informao
ficaram definidos os seguintes padres e caractersticas necessrias no repositrio proposto, e
partindo destas definies ocorreu a definio de qual ferramenta utilizar como sistema para o
repositrio digital proposto.
O padro de metadados adotado para descrio dos objetos digitais do repositrio foi
o Dublin Core e os motivos que levaram a esta escolha foram os seguintes:
O nvel de detalhamento dos metadados dos recursos submetidos ao repositrio
proposto no precisam ser excessivamente aprofundados;
A utilizao do padro Dublin Core simples e bastante intuitiva, o que torna
fcil o entendimento dos profissionais das diversas reas abrangidas pelo
repositrio, que estaro submetendo itens no repositrio;
O padro Dublin Core o padro para as trocas de informaes e capacidade
de interoperabilidade previstas pela OAI (NSDL, 2005).

72

A adoo do padro METS foi levado em considerao, mas apesar de o mesmo ser
completo e considerado excelente pelos profissionais da informao, inclusive os
profissionais pertencentes ao Grupo de Pesquisas Novas Tecnologias em Informao, o
mesmo muito complexo para os usurios do repositrio e portanto necessitariam de
treinamento muito maiores do que para a utilizao do Dublin Core.
Os softwares Nou-rau e o Greenstone foram eliminados devido ao fato de no
atenderem a todos os requisitos obrigatrios (Tabela 3).
Alm de o Greenstone no preencher tais requisitos, tambm fortaleceu a deciso de
elimin-los devido ao fato de a interface do administrador do sistema ser uma interface
baseada em Java no podendo ser executada diretamente do browser e a submisso inicial dos
documentos precisa ser realizada tambm pelo administrador do sistema, o que no seria
possvel de ser atendido no repositrio proposto.
No Nou-rau existe tambm a dificuldade da escassez de documentao tcnica e
percebe-se que o desenvolvimento de atualizaes e novas verses para melhoria do sistema
no tem recebido a ateno necessria, pois sistemas web precisam estar em constante
atualizao e melhoria para que atendam as necessidades dos usurios. Outra dificuldade
encontrada no Nou-rau o fato de cada obra poder conter apenas um arquivo associado.
Portanto restaram apenas o DSpace e CDSWare como candidatos para adoo no
desenvolvimento do repositrio proposto, pois ambos atenderam todos os requisitos
obrigatrios propostos. O CDSWare possui como grande vantagem seu mecanismo de busca
muito poderoso e a existncia de muitas opes de interao com o usurio do sistema.
O DSpace possui como grandes diferenciais o constante desenvolvimento e melhoria
de seus sistemas, a utilizao de identificadores persistentes, uma documentao extensa e
uma comunidade de desenvolvedores e de instituies de ensino e empresas superior em
quantidade a qualquer outro sistema analisado (Figura 1).
Uma desvantagem do DSpace sobre o CDSWare seria seu sistema de busca mais
simples, mas que no simples para os objetivos do repositrio proposto e atenderia
perfeitamente suas necessidades.
Os pontos fortes do DSpace, em principal o fato de ser o sistema de repositrios
digital mais utilizado no mundo e de o mesmo possuir mais recursos que o CDSware, pesaram
muito na escolha e portanto o DSpace foi o software escolhido para a realizao do
desenvolvimento do repositrio digital proposto.

73

CAPTULO

IMPLANTAO

CUSTOMIZAO

DO

REPOSITRIO DIGITAL
Para desenvolvimento do repositrio digital foi escolhida a plataforma DSpace
(Captulo 4). Foi utilizada a verso mais recente atualmente do software, a verso 1.5.2. A
instalao e configurao do DSpace e o desenvolvimento do repositrio digital foi realizada
no sistema operacional Windows XP, com Service Pack 3.
Os componentes necessrios para o correto funcionamento do repositrio digital e
sua respectivas verses usadas so citadas abaixo:
Servidor Web: Apache Tomcat 6.0.18
Banco de Dados: PostgreSQL 8.3.5.
Adicionais: Apache ANT 1.7.1, Apache Maven 2.1.0 e Java JDK 6u12.

5.1 Instalao dos Componentes e do DSpace


Primeiramente foi instalado o Java JDK 6u12 com todas as configuraes padres
fornecidas pelo instalador.
Depois extraiu-se o contedo dos arquivos zipados apache-ant-1.7.1-bin e apachemaven-2.1.0-bin para o disco local (C:), conforme mostrado na Figura 5
Figura 5 Extraindo o arquivo apache-maven-2.1.0-bin para o disco local

Fonte: Prprio autor.

Aps a instalao do Java JDK e da extrao do Apache Maven e do Apache Ant foi
preciso configurar as variveis de ambiente do computador, e para isto foi selecionada a
opo Propriedades do item Meu computador. Na tela aberta aps ter sido clicado sobre a

74

opo Propriedades clicou-se sobre a aba Avanado e ento clicou-se sobre o boto
Variveis de ambiente. J na caixa das variveis de ambiente foi selecionada a varivel de
sistema chamada Path e ento clicado na opo editar. Ento adicionou-se ao campo Valor
da varivel os caminhos C:\Arquivos de programas\Java\jdk1.6.0_12\bin , C:\apache-ant1.7.1\bin e C:\apache-maven-2.1.0\bin, todos seguidos por ponto e virgula (;) e sendo o
primeiro destes aps o ltimo j existente no campo, conforme mostrado na Figura 6.
Figura 6 Alterando as variveis de ambiente.

Fonte: Prprio autor.

Aps adicionados os trs caminhos foi necessrio criar duas variveis do sistemas, a
JAVA_HOME e a ANT_HOME. Para isso na mesma caixa das variveis de ambientes, parte
inferior, relativas as variveis do sistema clicou-se em Nova, ento foi preenchido o campo
Nome da varivel com JAVA_HOME e o campo Valor da varivel com o caminho
C:\Arquivos de programas\Java\jdk1.6.0_12 e outra com o nome de ANT_HOME e o
caminho C:\apache-ant-1.7.1, conforme mostrado na Figura 7.
Figura 7 Criando as novas variveis do sistema

Fonte: Prprio autor.

75

Aps criadas as novas variveis de ambiente realizou-se a checagem das variveis


Path, JAVA_HOME e ANT_HOME. Para isso foi preciso abrir o prompt de comando
do Windows, digitando cmd no executar, presente no Iniciar, conforme mostrado na
Figura 8. Dentro do prompt de comando digitou-se os comandos mvn version e tambm
ant version, e os resultados esperados e ocorridos so demonstrados na Figura 9.
Figura 8 Abrindo o prompt de comando do Windows (cmd)

Fonte: Prprio autor.

Figura 9 Resultados esperados na checagem das variveis de ambiente.

Fonte: Prprio autor.

Os resultados exibidos na Figura 9 significam que as variveis de ambientes foram


configuradas corretamente.
O prximo passo foi a instalao do sistema de banco de dados PostgreSQL, verso
8.3.5. Para isto foi executado o arquivo postgresql-8.3 e ento o instalador foi iniciado.
Primeiramente foi selecionada a lngua de preferncia e clicado no boto Start. Na prxima
tela do instalador foi avisado sobre a recomendao de se fechar todos os programaa antes de
continuar. Foram todos fechados e ento clicou-se no boto Prximo. Na tela seguinte foi
clicado novamente no boto Prximo. Na tela que veio a seguir foi configurado quais
componentes desejava-se instalar. Foram selecionadas as opes que eram consideradas teis
na utilizao do banco de dados, mas no foi retirado nenhum dos componentes padres da

76

instalao. Na realizao deste passo, foi selecionado a instalao dos componentes de


suporte para idioma nacional e PL/Java.
Na tela seguinte foi preciso informar a senha do servio do banco de dados, a qual foi
definida como admin pelo autor. Ao clicar no boto Prximo uma caixa de dialogo surgiu
dizendo que o usurio no foi encontrado e perguntando se desejava-se que o mesmo fosse
criado. Foi escolhida a opo Sim e ento uma nova caixa de dilogo surgiu dizendo que a
senha informada (admin) parecia fraca e se desejava-se que fosse gerada uma senha aleatria.
Foi selecionado a opo No. Na tela que segue foi informada a senha do usurio, definida
como postgres pelo autor e alterada a codificao para UTF-8. Aps realizar as alteraes
clicou-se em Prximo e nas duas telas seguintes apenas clicou-se em Prximo tambm.
Na tela seguinte foi mostrado diversos recursos que podem ser instalados, mas para o
funcionamento do DSpace apenas necessrio deixar a opo default selecionada
(Adminpack) e ento foi clicado em Prximo e a instalao foi iniciada e se concluiu
automaticamente, e aps a mesma apenas se clicou em Concluir na ltima tela do
instalador.
Aps instalado o sistema de banco de dados foi aberto pgAdmin III do postgreSQL,
conforme mostrado na Figura 10, com o pgAdmin III aberto conectou-se ao banco de dados.
Para isso foi clicado sobre PostgreSQL Database Server 8.3 (localhost:5432) e selecionada
a opo conectar, conforme mostrado na Figura 11.
Figura 10 Abrindo o pgAdmin III do postgreSQL

Fonte: Prprio autor.

Aps conectado ao banco de dados foi ento criado um novo o Login Role,
chamado de dspace e com a senha dspace. Para isso clicou-se com o boto direito sobre
Login Roles e ento selecionou-se a opo Nova Role de Login..., conforme mostrado na
Figura 12 e ento foi configurada a nova Login Role, conforme mostrado na Figura 13.

77

Figura 11 Conectando ao banco de dados PostgreSQL

Fonte: Prprio autor.


Figura 12 Criando um novo Login Role no PostgreSQL

Fonte: Prprio autor.

Figura 13 Configurando o novo Login Role chamado dspace

Fonte: Prprio autor.

Aps criado o novo Login Role foi criado um novo banco de dados chamado
dspace, que teve como dono o dspace e codificao UTF-8. Para criar o novo banco de dados

78

foi clicado com o boto direito sobre Bancos de Dados e selecionada a opo Novo Banco
de Dados... conforme mostrado na Figura 14, e configurado o mesmo conforme mostrado
na Figura 15.
Figura 14 Criando um novo Banco de Dados

Fonte: Prprio autor.

Figura 15 Configurando o novo Banco de Dados chamado dspace

Fonte: Prprio autor.

Aps criado tambm o novo banco de dados, expandiu-se os itens Banco de Dados
e Login Roles do pgAdmin III e ento conferiu-se que o novo login role e o novo banco de
dados foram criados corretamente, conforme mostrado na Figura 16.
O prximo passo foi a instalao do servidor web Apache Tomcat. Para isso foi
executado o instalador apache-tomcat-6.0.18 e seguidas todas as opes padres da
instalao, informando a senha admin na tela que foi pedido uma senha para o servidor web.
Aps concluda a instalao do Apache Tomcat, o monitor do Tomcat passou a ser
mostrado na rea de notificao, na lateral inferior direita da tela, logo ao lado do relgio.

79

Neste cone pode se parar o servio do Tomcat e tambm inici-lo, conforme demonstrado na
Figura 17.
Figura 16 Conferindo o novo login role e o novo banco de dados criados

Fonte: Prprio autor.

Figura 17 - cone na rea de notificao e opo de parar o servio do servidor web Tomcat
(Stop Service)

Fonte: Prprio autor.

Aps instalados todos os componentes foi extrado o contedo do arquivo zipado


dspace-1.5.2-src-release para o disco local (C:), de modo que foi criada uma pasta no
mesmo chamada de dspace-1.5.2-src-release.
Em seguida foi criada uma pasta chamada dspace na raiz do disco local (C:), ento
o disco local passou a mostrar as pastas do DSpace conforme mostrado na Figura 18.
Aps criada a nova pasta foi iniciado o servio do PostgreSQL, clicando sobre o
menu Iniciar, depois sobre Todos os programas, depois PostgreSQL 8.3 e finalmente
sobre o atalho Iniciar Servio, e ento o servio do banco de dados PostgreSQL se iniciou.
Antes de continuar foi necessrio configurar o arquivo dspace.cfg, que encontra-se
no diretrio C:\dspace-1.5.2-src-release\dspace\config. Neste arquivo foi alterada
primeiramente a linha dspace.dir = /dspace para dspace.dir = C:/dspace.

80

Figura 18 Pasta dspace-1.5.2-src-release extrada para disco local e pasta dspace criada pelo
usurio no disco local (C:)

Fonte: Prprio autor.

Aproveitando a configurao do dspace.cfg foi alterado o idioma padro do


repositrio, que no repositrio proposto foi definido como portugus do Brasil e tambm os
idiomas que sero aceitos, que no caso do repositrio proposto foram o portugus do Brasil e
o ingls. Para isso foram realizadas as seguintes alteraes no arquivo dspace.cfg:
default.language = en_US para default.language = pt_BR;
default.locale = en para default.locale = pt_BR;
e adicionada a linha webui.supported.locales = pt_BR no arquivo.

Tambm foi alterado o nome do repositrio digital, alterando a linha com o comando
dspace.name = DSpace at My University para dspace.name = Repositrio Digital do
Grupo de Pesquisas Novas Tecnologias em Informao.
Aps configurado o dspace.cfg foi gerado ento o pacote de instalao do DSpace.
Para isso devia-se estar conectado a internet e ento abrir o prompt de comando do Windows
(Figura 8), e executar o comando mvn package de dentro do diretrio C:\dspace-1.5.2src-release\dspace, conforme mostrado na Figura 19. Ento muitos pacotes comearam a ser
baixados e o pacote de instalao do DSpace foi criado dentro do caminho C:\dspace-1.5.2src-release\dspace\target\dspace-1.5.2-build.dir. Depois de concluda a montagem do pacote
de instalao do DSpace, ir mostrou no prompt de comando a mensagem BUILD
SUCCESFUL, conforme mostrado na Figura 20.
Esta mensagem significa que todos os pacotes necessrios para a instalao do
DSpace foram baixadas para o computador que executou o comando mvn package e
ento pode se dar inicio a instalao do DSpace.

81

Figura 19 Criando do pacote de instalao do DSpace

Fonte: Prprio autor.


Figura 20 Criao do pacote de instalao concluda com sucesso

Fonte: Prprio autor.

Antes de iniciar a instalao do DSpace foi preciso conectar-se ao banco de dados


PostgreSQL, atravs do pgAdmin III, conforme demonstrado nas Figuras 10 e 11.
Aps conectado ao banco de dados foi possvel ento instalar o DSpace para a pasta
dspace, no diretrio C:\dspace, executando a partir do prompt de comando do Windows
(veja Figura 8) o comando ant fresh_install de dentro do diretrio C:\dspace-1.5.2-srcrelease\dspace\target\dspace-1.5.2-build.dir, conforme mostrado na Figura 21, comando que
fez com que a instalao do DSpace ocorresse para dentro da diretrio C:\dspace. A
mensagem BUILD SUCCESFULL foi novamente mostrada, mas desta vez indicando a
concluso da instalao do DSpace, conforme demonstrado na Figura 22.
Figura 21 Realizando a instalao do DSpace

Fonte: Prprio autor.


Figura 22 Instalao do DSpace concluda com sucesso

Fonte: Prprio autor.

82

Aps instalado o Dspace foi criada a conta do administrador. Para isso foi novamente
aberto o prompt de comando do Windows (Figura 8) e ento aberto o diretrio bin do
DSpace

(C:\dspace\bin).

Ento

foi

utilizado

comando

dsrun

org.dspace.administer.CreateAdministrator para dar incio ao processo de criao da


conta de administrador do DSpace. Neste processo o autor, que neste caso o administrador,
informou primeiramente o e-mail do administrador (e-mail address), depois o primeiro nome
(First name), depois o ltimo nome (Last name) e ento informou a senha (Password), ento
foi novamente inserida a senha para confirmar e o processo perguntou se as informaes
estavam corretas, e como estavam foi digitado y (yes - sim) e apertado Enter e a conta do
administrador foi criada. Caso algum dado digitado estivesse incorreto deveria ter sido
digitado n (no no) e recomeado. Todo este processo encontra-se na Figura 23.
Figura 23 Criando a conta do administrador do repositrio

Fonte: Prprio autor.

O prximo passo foi copiar as pastas jspui e xmlui, que se localizam no diretrio
C:\dspace\webapps

para o diretrio C:\Arquivos de programas\Apache Software

Foundation\Tomcat 6.0\webapps, conforme mostrado na Figura 24.


Esta foi a ltima etapa para que ento pudesse-se rodar o DSpace. Para isto foi
reinicado o Tomcat e abriu-se o browser do computador, que no caso foi usado o Internet
Explorer, e ento acessou-se o endereo http://localhost:8080/jspui, que abriu a pgina
inicial

do

repositrio

digital.

Tambm

pode

ser

aberto

endereo

http://localhost:8080/xmlui, que abriu o sistema Manakin.


Acessando o Dspace localmente no endereo http://localhost:8080/jspui obteve-se o
primeiro contato como o repositrio, que no caso das configuraes descritas no processo de
instalao do DSpace o mostrado a Figura 25.

83

Acessando a partir do endereo http://localhost:8080/xmlui obeteve-se o resultado


demonstrado na Figura 26, que a interface do Manakin dos repositrios digitais criados pelo
DSpace, interface mais recente nas implementaes do DSpace e usada para customizaes
visuais mais ricas e avanadas.
Figura 24 Copiando as pastas jspui e xmlui do Dspace para o Apache Tomcat.

Fonte: Prprio autor.


Figura 25 Acessando http://localhost:8080/jspui

Fonte: Prprio autor.

84

Figura 26 Acessando http://localhost:8080/xmlui

Fonte: Prprio autor.

5.2 Customizao do Repositrio Digital


Neste tpico so apresentadas algumas das configuraes realizadas no repositrio a
fim de customiz-lo para atender as necessidades do Grupo de Pesquisa Novas Tecnologias
em Informao, grupo para qual o repositrio digital foi desenvolvido.
O primeiro procedimento foi a troca do banner original do DSpace pelo banner do
repositrio digital proposto. Para isto primeiramente foi criado pelo autor o referido banner e
o mesmo foi copiado para o diretrio C:\Arquivos de programas\Apache Software
Foundation\Tomcat 6.0\webapps\jspui\image com o nome de BannerGPNTI01.jpg.
vlido saber que as pginas do DSpace so divididas em cinco partes, que so elas:
Header, que o cabealho da pagina; Footer, que a parte inferior da pgina; Navigation Bar,
que a parte esquerda da pgina; Sidebar, que a parte direita da pgina; e a parte central do
repositrio, que chamada de Page Contents. A Figura 27 mostra estas divises de maneira
facilitada.
Aps copiado o novo banner para o diretrio adequado, o arquivo headerdefault.jsp, localizado no diretrio C:\Arquivos de programas\Apache Software
Foundation\Tomcat 6.0\webapps\jspui\layout, diretrio no qual os arquivos que tratam dos
layouts das pginas do DSpace se encontram, foi alterado. Dentro do arquivo o nome do
arquivo que referente ao banner do repositrio foi alterado de dspace-blue.gif, que era o

85

arquivo do banner original do Dspace, para BannerGPNTI01.jpg, e a largura e altura


tambm foram atualizadas com as configuraes da nova imagem (400x80) e a partir de ento
o novo banner comeou a ser mostrado no lugar do original.
Figura 27 Diviso de uma pgina do DSpace.

Fonte: Prprio autor.

Foi decidido retirar o link Sobre o software DSpace do cabealho da pgina e para
isso o mesmo arquivo header-default.jsp da alterao anterior foi modificado. Para que o
link no fosse mais mostrado duas linhas tiveram de ser apagadas do arquivo. A Figura 28
mostra o novo banner e tambm qual link esta sendo tratado aqui e Figura 29 mostra quais as
linhas que foram eliminadas do arquivo header-default.jsp para que o link no aparecesse
mais.
Figura 28 Novo banner e o link Sobre o software DSpace

Fonte: Prprio autor.


Figura 29 Linhas a serem eliminadas do arquivo header-default.jsp para que o link Sobre o
software DSpace deixar de ser mostrado

Fonte: Prprio autor.

86

Para realizar alteraes de cores de fontes, cores de fundo e propriedades referentes a


esttica da pgina foi alterado o arquivo styles.css, que fica localizado no diretrio
C:\Arquivos de programas\Apache Software Foundation\Tomcat 6.0\webapps\jspui.
Abaixo seguem alguns dos comandos alterados neste arquivo, mas no todos, devido
ao fato de serem muitos. Apenas tais alteraes j so suficientes para se entender o que foi
realizado para que as alteraes ocorressem.
Foi decidido alterar a cor da barra lateral esquerda (Navigation Bar) para o amarelo
com cdigo de cor #ffffcc. Para isto os seguintes comandos foram alterados.
No item .navigationBar, que contm as configuraes da Navigation Bar em si, o
background foi alterado para #ffffcc. No item .navigationBarSublabel, que possui as
configuraes dos ttulos da Navigation Bar, que so Percorrer: e Entrar: o background
tambm foi alterado para #ffffcc e no item .navigationBarItem que altera as configuraes
dos itens mostrados na Navigation Bar tambm foi alterado o background para #ffffcc.
Para alterar a cor de fundo da parte central do DSpace deve-se alterar o background
do item .pageContents, trocando assim a cor de fundo do Page Content, que como
mencionado anteriormente a parte central da pgina. Na customizao do repositrio digital
proposto o plano de fundo central manteve-se o mesmo, ou seja, branco.
No item .evenRowEvenCol o background foi alterado para #ffff99, fazendo com
que a cor de fundo dos quadros centrais da Page Content ficasse amarelo, s que numa
tonalidade mais forte que a da Navigation Bar. A Figura 30 mostra esta alterao, mostrando
para isso o trecho de cdigo original do arquivo e depois alterado.
Figura 30 Alterando a cor de fundo dos quadros centrais da Page Content

Fonte: Prprio autor.

87

Os resultados destas alteraes podem ser visualizados na Figura 31.


A caixa que indica qual usurio esta logado no sistema tambm foi alterada, ficando
com o fundo (background) do item .loggedIn na cor laranja (cdigo #ff9900), mantendo a
fonte com cor preta e alterando o alinhamento do texto para centralizado, adicionando a linha
text-align: center; dentro do item.
Figura 31 Resultado aps as customizaes realizadas no styles.css

Fonte: Prprio autor.

Alteraes nas cores e tamanhos das fontes apresentadas no repositrio, cores de


fundo, famlias de fontes aceitas, configuraes de margens e bordas de tabelas, alinhamentos,
estilos das fontes e demais configuraes referentes a customizao da esttica do repositrio
devem ser realizadas neste arquivo, o styles.css, que como dito anteriormente encontra-se
no

diretrio

C:\Arquivos

de

programas\Apache

Software

Foundation\Tomcat

6.0\webapps\jspui.

Todas as modificaes e customizaes realizadas no repositrio digital proposto foram


testadas nos trs navegadores mais usados atualmente, o Internet Explorer, na verso 8, o
Mozilla Firefox, na verso 3.5.5 e o Google Chrome, na verso 3.0.195.33, e em todos os
navegadores os resultados foram considerados satisfatrios, sem fornecer perca alguma das
caractersticas e funcionalidades do repositrio proposto.

88

5.3 Customizao do Repositrio Digital a partir da interface de


administrador.
Para realizao de alteraes no repositrio digital a partir da interface de
administrador, o usurio deve estar logado no sistema com a conta de administrador,
configurada anteriormente (Figura 23). Logado como administrador foi acessada a rea de
Administrador, mostrada na Figura 32, e a partir desta interface podem ser realizadas aes
como: criao das comunidades, sub-comunidades e colees do repositrio, cadastro de
novos utilizadores do sistema, criao de novos grupos de usurios do sistema, dividindo os
com relao as suas funes, alterao de registros (Handle), alterao dos metadados padro
do Dublin Core, alterao dos formatos de bitstreams conhecidos, acessar os processos de
workflow pendentes, administrar as polticas de permisses do repositrio, editar as noticias,
tanto as laterais quanto as superiores, editar o arquivo de licena padro do repositrio, alterar
as ordens de administrao dos supervisores e visualizar as estatsticas, quando estas
estiverem disponveis no repositrio.
Figura 32 Link na Navigation Bar para acessar a interface de administrador e a prpria interface de
administrador

Fonte: Prprio autor.

A partir dos requisitos apresentados pelos membros do Grupo de Pesquisas Novas


Tecnologias em Informao foram criados quatro comunidades iniciais para o repositrio
proposto e para cada uma delas foram criadas algumas colees ditas como necessrias pelos
membros. A Figura 33 mostra o boto que leva a tela de criao de novas comunidades e
tambm a hierarquia que se formou no repositrio aps a criao das comunidades e de suas
respectivas colees.

89

Tambm foram alteradas as notcias, atravs da interface do administrador do


DSpace (Figura 32), na opo Editar notcias. Notcias no so nada mais do que os textos
apresentados na parte lateral direita do repositrio, que so as noticias da barra lateral e
tambm na parte superior da Page Contents, que a parte central da pgina do repositrio,
que so as notcias principais. As notcias laterais so normalmente usadas para apresentar
novas informaes a respeito do repositrio e de seus usurios, mas pode-se apresentar
qualquer texto desejado.
As notcias principais foram usadas para apresentar informaes sobre o prprio
grupo de pesquisa para qual o repositrio foi criado.
Figura 33 Estrutura das Comunidades e Colees do repositrio.

Fonte: Prprio autor.

5.4 Traduo dos componentes do DSpace


Este ltimo captulo trata de uma configurao de extrema importncia realizada no
repositrio, a traduo de seus componentes. Este passo de extrema importncia, visto que
os textos padres do DSpace so em lngua inglesa.
Estes componentes so os seguintes: o arquivo input-forms.xml, localizado no
diretrio C:\dspace-1.5.2-src-release\dspace\config, que trata da apresentao dos
metadados Dublin Core para o usurio do repositrio, que so mostrados na Figura 34 j
traduzidos e tambm os doze arquivos localizados no diretrio C:\dspace-1.5.2-srcrelease\dspace\config\emails, que apresentam os textos enviados por e-mail aos usurios
cadastrados no repositrio.

90

Aps a atualizao destes arquivos no idioma traduzido, foram reconstrudos os


pacotes do DSpace, utilizando o comando mvn package de dentro do diretrio C:\dspace1.5.2-src-release\dspace utilizando o prompt de comando do Windows (Figura 19) e ento
acessando

diretrio

C:\dspace-1.5.2-src-release\dspace\target\dspace-1.5.2-build.dir,

tambm a partir do prompt de comando do Windows, e utilizado o comando ant update,


que ao invs do comando ant fresh_install utilizado na instalao do DSpace, que criou os
arquivos no diretrios C:\dspacc, este comando apenas atualizou os necessrios. Tal
procedimento demonstrado na Figura 35.
Figura 34 Elementos do input-forms.xml traduzidos para o portugus.

Fonte: Prprio autor.


Figura 35 Atualizando os arquivos do diretrio C:\dspace

Fonte: Prprio autor.

Para finalizar foi alterado o nmero mximo de respostas a uma requisio ao


protocolo OAI-PMH do repositrio, com o objetivo de diminuir o tamanho mximo desta
resposta, que com o valor padro (100) seria muito grande, ento o mesmo foi alterado para
trinta (30). Para realizar tal alterao foi necessrio alterar o contedo do arquivo Java
DSpaceOAICatalog,

localizado

no

diretrio

oai\dspace-oai-api\src\main\java\org\dspace\app\oai.

C:\dspace-1.5.2-src-release\dspaceO

comando

private

final

int

91

MAX_RECORDS = 30; foi adicionado ao arquivo para que esta alterao ocorresse.
Novamente o DSpace precisou ter seus pacotes reconstrudos (Figura 19) e ento atualizados
(Figura 34).
Aps finalizadas as customizaes necessrias, que foram definidas a partir das
necessidades e polticas do grupo ao qual o repositrio proposto, o repositrio digital pode
ser ento hospedado em um servidor na internet para que possa ento passar a ser utilizado
pelos interessados e passar tambm a gerar o conhecimento explicito que o GP-NTI mostrou
ter necessidade, pois a partir do desenvolvimento e hospedagem deste repositrio, o grupo
passar a ter controle de seus documentos desenvolvidos e poder conforme o uso e
disseminao deste novo sistema, passar a ter maior visibilidade de suas produes, podendo
assim aumentar seu prestigio e renome perante outros grupos de pesquisadores, e tambm
perante outras instituies.

92

CONCLUSO
Considerando-se a pesquisa realizada durante o desenvolvimento deste trabalho e o
desenvolvimento do repositrio digital proposto para atender as necessidades de
armazenamento e disseminao das produes cientficas geradas pelo Grupo de Pesquisa Novas Tecnologias em Informao, pode-se disser que todos os objetivos pr-definidos foram
atendidos.
O estudo detalhado dos usos e modos de desenvolvimento de repositrios digitais
um assunto pouco abordado, principalmente tratando-se de texto em lngua portuguesa.
Mesmo tais sistemas sendo eficientes no objetivo de conservarem, gerirem e disseminarem as
produes cientficas e documentos gerados por instituies de fins diversos ocorre tal falta de
literatura.
O fato de existir literatura um tanto escassa a respeito dos repositrios digitais
enfatiza a importncia e relevncia deste trabalho, uma vez que o mesmo cumpre com os
objetivos pr-definidos de estudar os repositrios digitais de forma a conhecer seus pontos
positivos e negativos, levando em conta sempre o uso em qualquer tipo de instituio que
produza documentos digitais. Tambm torna-se relevante devido ao fato de a documentao
especfica da ferramenta DSpace, que como citado no contedo deste trabalho a mais usada
em todo o mundo para desenvolvimento de repositrio digitais, no aborda profundamente,
novamente em especial em lngua portuguesa, a instalao e customizao do mesmo, sendo a
instalao do sistema uma das maiores dificuldades encontradas pelo autor no
desenvolvimento deste trabalho.
O estudo dos metadados e da interoperabilidade abriu ainda mais o leque de
objetivos deste trabalho, uma vez que abordado o uso dos metadados de vrios padres e
tambm como se tornar possvel que sistemas funcionando na internet tornem-se
interoperveis.
O repositrio desenvolvido foi apresentado aos interessados no mesmo e tais
pesquisadores demonstraram que realmente ele tem a capacidade de suprir as necessidades
especificadas por eles antes do incio deste trabalho, que so o armazenamento e distribuio
eficiente e confivel das produes do GP-NTI. Portanto pode-se enfatizar que os repositrios
digitais so sim capazes, atravs do seu correto uso e divulgao, de transformar os
conhecimentos tcitos em conhecimentos explcitos, ou seja, fazer com que conhecimentos
gerados passem a serem socializados para desenvolvimento de novos conhecimentos, fazendo

93

com que os documentos digitais gerados estejam sempre disponveis aos interessados de uma
maneira prtica e eficiente e que tambm sejam preservados com o passar do tempo.
Tambm concluiu-se que os repositrios digitais podem ser muito eficazes dentro de
instituies que no produzam produes cientficas, mas que produzam documentos digitais
referentes administrao e controle das instituies, pois com o uso eficaz destes sistemas,
tais documentos podem ser preservados, o que permite o reuso dos mesmos, o que pode evitar
muito trabalho extra, e tambm permite que tais documentos estejam centralizados, algo que
muitas organizaes procuram, devido ao fato de muito do que se produzido por seus
membros ficar armazenados em lugares nicos, ou seja, no sendo disponibilizados a outros
membros da organizao que poderiam fazer bom uso dos mesmos, tornando os processos da
organizao cada vez mais eficientes.
O uso dos metadados em sistemas computacionais imprescindvel quando deseja-se
que documentos digitais armazenados em base de dados sejam encontrados facilmente, pois
os elementos de metadados so capazes de criar descries realmente precisas dos contedos
de cada documento digital, podendo viabilizar a busca precisa e a fcil recuperao dos
mesmos.
Tambm pode-se prover a interoperabilidade entre sistemas na internet, sejam eles os
repositrios digitais, ou tambm outros sistemas capazes de implementar os protocolos de
interoperabilidade existentes. A implementao de tais protocolos possibilita que bases de
dados distintas possam trocar informaes, ou seja, uma base de dados pode fazer requisies
ao banco de dados de metadados de outra base de dados, possibilitando assim o maior
aproveitamento dos documentos digitais descritos nestas bases de dados.
A partir deste trabalho pode-se se entender o funcionamento real dos repositrios
digitais e conhecer os benefcios que os mesmos podem oferecer as instituies que os
implementem, ento pode-se pensar a partir daqui no desenvolvimento de repositrios digitais
para todas aquelas instituies que desejem desenvolver um sistema eficiente e que ser
capaz, a partir de um bom desenvolvimento e boa divulgao, de armazenar seus documentos
digitais, preservando-os no tempo e podendo aumentar significantemente a visibilidade e
tambm a relevncia de tais documentos.

94

REFERNCIAS
AKIMURA, C.I. Cadastro de Documentos para o Sistema Nou-Rau do DC-UEL.
Londrina. 2005. Disponvel em: <http://www2.dc.uel.br/nourau/document/?code=286>.
Acesso em 25 mai. 2009.

ALVARENGA, L. Representao do conhecimento na perspectiva da Cincia da


informao em tempo e espaos digitais. Encontros Bibli, 1er. Semestre, n. 15,
Universidade
Federal
de
Santa
Catarina,
2003.
Disponvel
em:
<redalyc.uaemex.mx/redalyc/pdf/147/14701503.pdf>. Acesso em 21 mai. 2009.

ALVES, R. C. V. Web semntica: uma anlise focada no uso de metadados. 2005.


Dissertao (Mestrado em Cincia da Informao) - Faculdade de Filosofia e Cincias Universidade
Estadual
Paulista,
Marlia,
2005.
Disponvel
em:
<http://www.marilia.unesp.br/Home/PosGraduacao/CienciadaInformacao/Dissertacoes/alves_
rcv_me_mar.pdf>. Acesso em 17 abr. 2009.

BARTON, M. R. Creating an institutional repository: LEADIRS workbook. CambridgeMIT Institute, 2005. Disponvel em: <www.ugr.es/~afporcel/construccion.pdf>. Acesso em
08 abr. 2009.

BAX, M. P. Introduo s linguagens de marca. Ci. Inf., Braslia, v. 30, n. 1, p. 32-38,


2001. Disponvel em: <http://cuba.paradigma.com.br/paradigma/artigos/artigos_02.pdf>.
Acesso em 18 mai. 2009.

BRANTON, A.; CHEN-GAFFEY, A. MARC 21 Tutorial. University of Southern


Mississippi;
Slippery
Rock
University,
2004.
Disponvel
em:
<http://www.lib.usm.edu/legacy/techserv/marc21_tutorial_ie/marcintroIE.htm>. Acesso em
28 mai. 2009.

CROW, R. The case for institutional repositories: a SPARC position paper. The Scholarly
Publishing
and
Academic
Resources
Coalition,
2002.
Disponvel
em:
<http://www.arl.org/sparc/bm~doc/ir_final_release_102.pd>. Acesso em 24 mar. 2009.

CUSIN, C. A.; FUSCO, E. Seminrio - Interoperabilidade. Programa de Ps-Graduao em


Cincia da Informao, Universidade Estadual Paulista - UNESP, Marlia, 2007.

DCMI.
Using
Dublin
Core.
2005.
Disponvel
http://www.dublincore.org/documents/usageguide/>. Acesso em 15 mai. 2009.

em:

<

95

DCMI.
DCMI
Metadata
Terms.
2008A.
Disponvel
http://dublincore.org/documents/dcmes-qualifiers>. Acesso em 15 mai. 2009.

em:

<

DCMI. Dublin Core Metadata Element Set, Version 1.1. Dublin Core Metadata Initiative,
2008B. Disponvel em: <http://dublincore.org/documents/dces/ >. Acesso em 15 mai.
2009.

DCMI.

DCMI

Type

Vocabulary.

2008C.

Disponvel

em:

<

http://dublincore.org/documents/dcmi-type-vocabulary/>. Acesso em 15 mai. 2009.


DCMI.
About
the
Initiative.
2009A.
<www.dublincore.org/about/organization>. Acesso em 08 mai. 2009.

Disponvel

em:

DCMI. Principles and Operation of the Dublin Core Metadata Initiative. 2009B.
Disponvel em: <www.dublincore.org/about/organization>. Acesso em 15 mai. 2009.

DESAI, B. C. Supporting discovery in virtual libraries. Journal of the American Society


for Information Science, v. 48, n. 3, p. 190-204, 1997.

FUSCO, E. Construo de Modelos Conceituais e o Processo da Catalogao: Perspectiva


de uso dos FRBR Orientado a Objetos. Qualificao (Doutorado em Cincia da Informao),
Universidade Estadual Paulista UNESP, Marlia. 2009.
GARCIA, P. de A. B.; SUNYE M. S. O protocolo OAI-PMH para Interoperabilidade em
Bibliotecas
Digitais.
2007.
Disponvel
em:
<http://conged.deinfo.uepg.br/~iconged/Artigos/artigo_09.pdf>. Acesso em 22 mai. 2009.

GARTNER, R. METS: Metadata Encoding and Transmission Standard. Oxford University


Library Services, 2002. Disponvel em: <www.jisc.ac.uk/uploaded_documents/tsw_0205.pdf>. Acesso em 30 mai. 2009.

GILL, T. Los metadatos y la World Wide Web. In: BACA, M. (Ed.). Introduccin a los
metadatos vas a la informacon digital, Los Angeles, 1998. p. 10-20.

GILLILAND-SWETLAND, A. J. La definicin de los metadatos. In: BACA, M. (Ed.).


Introduccin a los metadatos vas a la informacon digital, 1998. p. 1-9.

GREENSTONE. The Greenstone digital library


<http://www.greenstone.org>. Acesso em 18 abr. 2009.

software.

Disponvel

em:

96

HANSEN, P. User Guidelines for Dublin Core Creation. Nordic Metadata Project, 1999.
Disponvel em: <http://www.sics.se/~preben/DC/DC_guide.html>. Acesso em 15 mai. 2009.

KNIGHT, G. An introduction to metadata requirements for an eprint repository.


SHERPA
Arts
&
Humanities
Data
Service,
2004.
Disponvel
em:
<http://www.sherpa.ac.uk/documents/D2-6_Report_on_Metadata_Issues.pdf>. Acesso em 21
mai. 2009.

LEITE, F. C. L.; COSTA, S. M. de S. Repositrios institucionais sob a perspectiva da


gesto
do
conhecimento
cientfico.
2005.
Disponvel
em:
<http://repositorio.bce.unb.br/bitstream/10482/1018/1/EVENTO_RepositorioInstitucionalSob
Perspectiva.pdf>. Acesso em 28 mar. 2009.

LEWIS, S.; YATES, C. The DSpace Course - Introduction to Dspace. CADAIR, 2008.
Disponvel em: <http://cadair.aber.ac.uk/dspace/handle/2160/617>. Acesso em 22 abr. 2009.

LIBRARY OF CONGRESS. METS: Introduo e tutorial. The Library of Congress,


Washington, 2006. Disponvel em: <http://www.loc.gov/standards/mets/METSOverview.v2_
port.html>. Acesso em 18 mai. 2009.
LIBRARY OF CONGRESS. MARC Standards. Library of Congress Network
Development
and
MARC
Standards
Office,
2009.
Disponvel
em
<http://www.loc.gov/marc/>. Acesso em 18 mai. 2009.

LIBRARY OF CONGRESS HELP DESK. What is a Marc Record,


and why is it Important? The Library of Congress, Washington, 2009. Disponvel em:
<http://www.loc.gov/marc/umb/um01to06.html>. Acesso em 18 mai. 2009.

LYNCH, C. A. Institutional repositories: essential infrastructure for scholarship in the


digital age. Association of Research Libraries, n. 226, 2003. Disponvel em:
<www.arl.org/bm~doc/br226ir.pdf>. Acesso em 23 abr. 2009.

MARCONDES, C. H. e SAYO, L. F. Documentos digitais e novas formas de cooperao


entre sistemas de informao em C&T. Ci. Inf., Braslia, v.31, n.3, p.42-54, 2002.
Disponvel em: < http://www.scielo.br/pdf/ci/v31n3/a05v31n3.pdf>. Acesso em 12 mai. 2009.

NISO (National Information Standards Organization). Understading Metadata. NISO Press,


2004. Disponvel em: < http://www.niso.org/publications/press/UnderstandingMetadata.pdf>.
Acesso em 15 mar. 2009.

97

NISO (National Information Standards Organization). A Framework of Guidance for


Building Good Digital Collections. National Information Standards Organization - NISO, 3
Edio, 2007 Disponvel em: < http://www.niso.org/publications/rp/framework3.pdf>. Acesso
em 08 abr. 2009.

NOERR, P. The Digital Library Toolkit. Sun Microsystems, 3 edio, 2003. Disponvel
em: <http://www.ncsi.iisc.ernet.in/raja/is214/is214-2006-01-04/digital_library_toolkit-ed3.pdf
>. Acesso em 08 abr. 2009.

NSDL. Summary of OAI Metadata Best Practices. Digital Library Federaton, 2005.
Disponvel em: <http://www.diglib.org/architectures/oai/imls2004/training/MetadataFinal.pdf
>. Acesso em 30 mai. 2009.

OLIVEIRA, V. S. Buscando Interoperabilidade entre diferentes bases de dados: O caso


da Biblioteca do Instituto Fernandes Figueira. Dissertao (Mestrado em Gesto da
Informao e Comunicao em sade). Escola Nacional de Sade Pblica Srgio Arouca
FIOCRUZ, Rio de Janeiro, 2005. Disponvel em: <http://bases.bireme.br/cgibin/wxislind.exe/iah/online/?IsisScript=iah/iah.xis&src=google&base=LILACS&lang=p&nex
tAction=lnk&exprSearch=494903&indexSearch=ID>. Acesso em 08 mai. 2009.

PEPE, A. et al. CERN Document Server Software: the integrated digital library. CERN,
Geneva, 2005. Disponvel em <http://cdsware.cern.ch/cdsware/doc/elpub2005.pdf>. Acesso
em 17 abr. 2009.

PRESSMAN, R. Engenharia de Software. So Paulo, Makron Books, 1995.

REPOSITRIO institucional. In: GLOSSRIO. Instituto Brasileiro de Informao em


Cincia
e
Tecnologia
(IBICT),
Braslia,
2007.
Disponvel
em:
<http://dspace.ibict.br/index.php?option=com_content&task=view&id=43&Itemid=77>.
Acesso em 07 abr 2009.

RODRIGUES, E. et al. RepositriUM: criao e desenvolvimento do Repositrio


Institucional da Universidade do Minho. Servios de Documentao da Universidade do
Minho, Braga, 2004. Disponvel em: <http://repositorium.sdum.uminho.pt/handle/1822/422>.
Acesso em 02 abr. 2009.

ROSETTO, M. Uso do Protocolo Z39.50 para recuperao de informao em redes


eletrnicas. Cincia da Informao. Print ISSN 0100-1965. Ci. Inf. vol.26, n.2, Braslia,
1997. Disponvel em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019651997000200004>. Acesso em 23 mai. 2009.

98

SANTOS, J.; TEIXEIRA, C.; PINTO, J. S. EABC: um repositrio institucional virtual. 2005.
Disponvel em: <http://www.iadis.net/dl/final_uploads/200508P001.pdf>. Acesso em 02 abr.
2009.

SOUZA, M. I. F.; VENDRUSCULO L. G.; MELO G. C. Metadados para a descrio de


recursos de informao eletrnica: utilizao do padro Dublin Core. Ci. Inf., Braslia,
v.29, n.1, p.93-102, 2000. Disponvel em: <http://www.scielo.br/pdf/ci/v29n1/v29n1a10.pdf>.
Acesso em 18 mai. 2009.

TRISKA, R.; CAF, L. Arquivos abertos: subprojeto da Biblioteca Digital Brasileira.


Cincia da Informao. Ci. Inf., Braslia, v.30, n.3, p.92-96, 2001. Disponvel em:
<http://www.scielo.br/scielo.php?pid=S0100-19652001000300012&script=sci_arttext&tlng=
pt>. Acesso em 15 abr. 2009.

Potrebbero piacerti anche