Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estudo comparativo
entre sistemáticas de
digitalização de
documentos:
formatos HTML e PDF
André Raabe INTRODUÇÃO a digitalização de documentos e sua
Omer Pohlmann Filho disponibilização por meio da Internet.
A Pontifícia Universidade Católica do
Rio Grande do Sul (PUCRS), median- Para tanto, o Laboratório de Biblioteca
te convênio com a IBM, participa do Digital voltou-se inicialmente para a
projeto IBM Global Campus, que prevê pesquisa de software e desenvolvimen-
a colaboração entre instituições de en- to de sistemáticas para a captura e
sino superior de diferentes países, no transformação de documentos do for-
sentido de pesquisar e desenvolver mato tradicional (papel), para o forma-
políticas, abordagens, metodologias e to digital. Foram avaliadas duas siste-
recursos tecnológicos para projetar e máticas distintas para realização do tra-
implantar universidades com campus balho, uma delas baseada no reconhe-
de abrangência global. cimento ótico dos caracteres e conver-
são para HTML detalhada em (Pohl-
A proposta de trabalho do projeto Cam- mann 1); a outra baseada no formato
pus Global PUCRS visa a desenvolver digital Portable Document Format
estudos sobre universidade virtual, cen- (PDF).
trando seu foco de atenção em pesqui-
Resumo
sas sobre metodologias e recursos tec- DIRETRIZES DE TRABALHO
nológicos na área de educação à dis-
Este artigo apresenta o resultado de tância. Neste contexto, trabalha-se com Dentre as alternativas pesquisadas
experimentos realizados pelo Laboratório de
Biblioteca Digital da PUCRS voltados para a o conceito de Educação à Distância para o processo de digitalização de
captura e conversão de documentos a partir (EAD), como uma forma de educação documentos, avaliaram-se duas diretri-
do formato tradicional (papel) para o formato na qual alunos e professores se encon- zes genéricas:
digital. São apresentadas e avaliadas as tram separados fisicamente, sendo o
principais etapas envolvidas no processo de
digitalização utilizando duas sistemáticas processo de interação multidirecional, 1. digitalização da obra como imagens
diferentes: uma baseada na conversão para apoiado por tecnologia de comunica- e conversão destas em textos median-
HTML; a outra baseada na geração de ção, em que o aluno é o protagonista te reconhecimento óptico de caracte-
arquivos PDF usados pelo software Adobe de seu aprendizado e o professor um res (OCR);
Acrobat Reader.
São abordados também fatores essenciais facilitador deste.
aos trabalhos de digitalização tais como 2. criação de arquivos de imagens
tecnologias de Reconhecimento Óptico dos Tendo em vista esta proposta, o proje- (JPG), contendo as páginas da obra e
Caracteres (OCR) e avaliação das to Campus Global foi estruturado a par- mantendo o leiaute original da publica-
características do acervo a ser digitalizado.
tir de quatro frentes de pesquisa, a sa- ção, sem conversão para texto.
Por fim, é realizado um comparativo entre as
duas sistemática estudadas, apontando ber, educação à distância e colaborati-
pontos positivos e negativos que devem ser va, bibliotecas digitais, trabalho coope- A escolha do formato de arquivo JPG
considerados na escolha de uma diretriz de rativo, gerência de recursos Internet. deveu-se ao fato de este possuir uma
trabalho. alta taxa de compressão, permitindo o
Palavras-chave Neste contexto, o Laboratório de Biblio- armazenamento de imagens com qua-
teca Digital vem pesquisando o desen- lidade em arquivos de tamanhos redu-
Conversão de documentos do formato volvimento de tecnologias para permi- zidos, sendo, por este motivo, ampla-
tradicional para o digital; Sistemáticas de mente utilizado na rede Internet.
conversão para HTML; Geração de arquivos
tir o acesso a informações de conteú-
PDF; Tecnologias de reconhecimento óptico do bibliográfico à distância. Uma das
dos caracteres. alternativas pesquisadas aponta para
3
Para realização dos trabalhos voltados 4 R e v is ã o e C o rre ç ã o A rq u i v o
d o t e x to T e x to
à definição de uma sistemática de cap- C o n v e rsã o p a r a
tura e conversão de documentos para HTM L M S - W o r d 6 .0 .D O C
o formato HTML, foi utilizado como N etsc ape C om po s er
instrumento de testes a publicação da
Faculdade de Medicina da PUCRS
denominada Acta Médica Volume 1. A rq u i v o
HTM L
Os trabalhos foram realizados median-
te os recursos disponíveis, ou seja, .H T M
scanner HP Scanjet II, software de
OCR (Reconhecimento Ótico de Carac-
teres) OmniPage Pro 5.0, editor de In se r çã o d e Im a g e n s n o
textos MS- Word 6.0 e o conjunto de C o m p o siçã o te x to c o m c o n v e r s ã o
F in a l d a O b ra a u t o m á t ic a p a r a
softwares do Netscape Communicator D ig ita l fo r m a to J P G
4.0 (Pohlmann1 ). O b r a D i g it a l
N etsc ape C om po s er
.H T M
Dando continuidade ao trabalho, dese- Observação: Cumpre salientar que estes tempos foram estimados contando com a participação de
java-se verificar a utilização de uma duas pessoas para sua realização. Obviamente, quanto maior a equipe, menor o tempo consumi-
versão mais atual do software, o Omni do. Também os recursos de hardware utilizados, principalmente o scanner que não possuía
Page Pro 8.0, a fim de identificar me- recurso ADF (Automatic Document Feeder), não são os recomendados para este tipo de trabalho.
A utilização de recursos mais apropriados tende a melhorar as performances observadas, princi-
lhorias no processo de reconheci- palmente nas etapas de captura de imagens, revisão e correção de texto, que são críticas neste
mento de caracteres que reduzissem processo.
o trabalho de revisão e correção a
patamares aceitáveis, dentro do esco- Outra característica a ser salientada é Após realizado o processo, os arquivos
po de um projeto de digitalização em a alta qualidade (qualidade laser) de de saída contento o texto reconhecido
larga escala. impressão do informativo, bem como a pelo OCR foram salvos no formato
utilização de fontes padrão (arial), o DOC do MS-Word 6.0, por ser comum
Para realização deste trabalho compa- que, segundo (Caere3), levaria o Omni a ambas as versões e permitir a utiliza-
rativo, escolheu-se um informativo de Page Pro 8.0 a atingir uma taxa de acer- ção de um dicionário ortográfico comum
publicação interna na PUCRS chama- to no reconhecimento dos caracteres na detecção dos erros de reconheci-
do “PUCRS Informação”. O mesmo foi superior a 99%. mento dos caracteres. A comparação
escolhido por possuir uma diagrama- entre as taxas de reconhecimento atin-
ção elaborada, com fotos e textos dis- O “PUCRS Informação”, composto de gidas pelas versões 5.0 e 8.0 do Omni-
tribuídos de forma não-linear, permitin- 20 páginas, foi digitalizado e armaze- page Pro partiu de uma análise destes
do a comparação entre os procedimen- nado como imagem para posterior re- arquivos.
tos de definição automática das zonas conhecimento dos caracteres e zonas
de texto de ambas as versões do de texto em ambas as versões do Om- Realizou-se a contagem do número to-
OmniPage Pro. niPage. Para tanto, foi utilizado o Omni tal de palavras na obra. A seguir, reali-
Page Pro 5.0 e um scanner de mesas zou-se a contagem das palavras que
O processo de definição de zonas HP Scanjet II, gerando um arquivo de possuíam incorreções na grafia origi-
de texto pode ser realizado de for- saída no formato proprietário MET con- nadas por um erro no reconhecimento
ma manual, conforme descrito em tendo as 20 páginas digitalizadas. Este dos caracteres. De posse deste valo-
(Pohlmann1), produzindo um resultado arquivo foi aberto em ambas as versões res, calculou-se o percentual de acer-
melhor em termos de fidelidade ao 5.0 e 8.0, onde foi realizado o reconhe- tos atingido pelo reconhecimento dos
leiaute da obra original, no entanto cimento óptico dos caracteres (OCR) caracteres em ambas as versões. Cum-
esta atividade envolve muita intera- e a definição automática das zonas de pre salientar que os dados obtidos re-
ção do usuário tornando o processo texto, uma vez que ambas as versões lacionados à taxa de reconhecimento
lento. A utilização da definição auto- possuem esses recursos. do processo de OCR consideraram as
mática das zonas do texto é uma ten- 20 páginas do informativo na íntegra.
tativa de reproduzir o leiaute da obra A tabela 3, a seguir, ilustra os resulta-
original sem a interação do usuário. dos obtidos.
No entanto, os resultados ficam
aquém dos esperados.
Digitalização por meio da captura de O tempo levado para digitalização dos 2) quando da aplicação do OCR nas
documentos dois volumes da História da PUCRS páginas da obra, os arquivos reduziram
está explicitado na tabela 4. o seu tamanho em aproximadamente
Para a definição de uma sistemática de quatro vezes;
digitalização por meio da captura de do- Um dos objetivos previstos era a pos-
cumentos utilizando o software Adobe sibilidade de realização de pesquisas Dado a inviabilidade de realização do
Acrobat, escolheu-se, como objeto de full-text na obra. Para tanto, seria ne- OCR nas páginas da História da PU-
teste, a obra história da PUCRS. Esta cessário que as imagens digitalizadas CRS, alguns dos objetivos traçados no
escolha deveu-se a adequação da obra passassem por um processo de reco- início da pesquisa precisaram ser aban-
ao trabalho que estava proposto e pela nhecimento ótico de caracteres (OCR), donados. Em especial a possibilidade
liberação dos direitos autorais da obra ou seja, a transformação da imagem em de realização de pesquisas no texto
por parte dos autores, permitindo aliar texto. desta obra.
sua disponibilização à comemoração
do cinqüentenário da universidade, A realização de OCR em arquivos no Neste momento, decidiu-se dar se-
ocorrida em 1998, época em que esta formato PDF é feita pelo software qüência ao trabalho de digitalização
pesquisa estava em andamento. Adobe Acrobat Exchange, o qual pos- mantendo as páginas da obra como
sui uma interface adequada para a ta- imagens, pois julgou-se importante ava-
A obra possui somente uma coluna de refa, sendo possível a realização do liar as características e o comportamen-
texto, as letras são Times New Roman processo sobre todas as páginas de to dos arquivos PDF contendo imagens
de tamanho 12. São encontradas foto- uma vez só. das páginas digitalizadas.
grafias e ilustrações em meio ao texto,
no entanto nenhuma utiliza cores, so- No entanto, foi frustrante descobrir que Partiu-se, então, para a exploração de
mente tons de cinza. o software em sua versão 3.01 não recursos do formato PDF que permi-
possui dicionário para reconhecimento tiriam aprimorar a navegabilidade e
Para digitalização da História da das palavras e caracteres da língua aparência da obra, tais como a criação
PUCRS, foi utilizado o scanner HP portuguesa, o que inviabilizou a reali- de links e bookmarks, a separação dos
Network Scanner 5, destacando-se zação do OCR e, por conseqüência, a capítulos, a adequação do tamanho e
pela velocidade de digitalização e pela transformação da imagem capturada da visualização das páginas da obra.
presença de uma bandeja para entra- via scanner em um texto. Estes ajustes foram realizados utilizan-
da automática de papel ADF (Automa- do o Adobe Acrobat Exchange. Uma
tic Document Feeder), apesar de su- Apesar disso, duas características in- descrição detalhada deste procedimen-
portar somente a digitalização de ima- teressantes relacionadas ao OCR apli- tos pode ser encontrada em
gens em tons de cinza, fato que não cado pelo Acrobat Exchange devem ser http:\\www.cglobal.pucrs.br\
atrapalhou a definição da sistemática. ressaltadas: bibdigital\kits\kit3.html.
* Observação: Cumpre salientar que o tempo relacionado a sistemática HTML foi determinado,
com o trabalho sendo realizado por duas pessoas. Principalmente, a etapa de revisão e correção
de texto pode ser agilizada agregando-se mais uma pessoa à equipe de trabalho.
Tais características indicam maior fa- A disponibilização das obras na Inter- Como prosseguimento deste trabalho,
cilidade de formação de um acervo con- net será feita, em primeiro momento, será realizado, em conjunto com a Fa-
tendo documentos recentes (que teori- pelo software ALEPH, que gerencia a culdade de Biologia e com o suporte
camente já existem em meio digital), catalogação e consulta do acervo da da Biblioteca Central, a digitalização de
possibilitando inclusive a realização de Biblioteca Central. obras de formatos diversos tais como
pesquisas full-text nos arquivos que fotografias, sons, textos e imagens.
foram convertidos a partir do formato O ALEPH possui uma interface que Esses recursos serão utilizados para a
texto, além de favorecer a padroniza- permite a realização de consultas pela elaboração de materiais didáticos, ser-
ção das publicações digitais e, por con- Internet, possibilitando aos usuários vindo como fonte de pesquisa para a
seqüência, o posterior armazena- verificar a existência das obras no acer- avaliação das características do Ado-
mento, recuperação e manipulação. vo, bem como a sua disponibilidade be Acrobat Reader para suporte a es-
para empréstimo. Os recursos de pes- tas mídias, comparando-as com a utili-
Deve-se registrar que os problemas quisa do ALEPH baseiam primariamen- zação da linguagem HTML para o mes-
que impõem dificuldades à realização te em autores, títulos e assuntos, mas mo propósito.
do OCR, sejam eles causados pelo es- é possível realizar consultas avança-
tado de conservação do acervo, tais das acessando qualquer informação A continuidade deste trabalho objetiva
como manchas, amassados, riscos e constante no registro de cadastramen- definir novas sistemáticas que sejam
anotações, ou ligados a ineficiência dos to da obra. Pode-se ainda combinar di- adequadas à digitalização de obras e
softwares de OCR para tratamento de versos argumentos de pesquisa me- materiais existentes nos mais diversos
características, como fórmulas mate- diante a utilização de lógica booleana. formatos, servindo assim para orientar
máticas, figuras, trechos manuscritos, a estruturação do núcleo de digitaliza-
letras muito pequenas ou borradas, po- No caso de as obras já existirem no for- ção de documentos e produção de
dem ser contornados pela digitalização mato digital, o ALEPH fornece um link materiais digitais de cunho didático.
utilizando a sistemática PDF. Para tan- para acesso ao documento na íntegra,
to, basta que as obras sejam digitaliza- permitindo assim que o usuário possa
das como imagens, e será possível ler a obra digital pela Internet, sem pre-
realizar a leitura das mesmas, por meio cisar se deslocar até a biblioteca.
de um arquivo PDF, conforme a apa-
rência original no momento da digitali- As pesquisas full-text serão realizadas
zação. com recursos de pesquisa do Adobe
Acrobat Reader, uma vez que o
Neste sentido, é importante que se de- ALEPH não consegue indexar os tex-
senvolvam ferramentas para realização tos existentes no formato PDF. No en-
de tratamento óptico nos arquivos de tanto, para acessar os recursos de pes-
imagens PDF, que filtrem automatica- quisa full-text, o usuário deve realizar
mente as características indesejáveis o download do documento (copiá-lo
– adulterações, manchas, amassados para sua máquina) e abri-lo por meio
entre outros –, melhorando a aparên- do Adobe Acrobat Reader, pois a con-
cia das obras. sulta ao arquivo PDF realizada com
auxílio do browser não oferece o recur-
CONSIDERAÇÕES FINAIS so de pesquisa full-text .
REFERÊNCIAS BIBLIOGRÁFICAS
Abstract