Sei sulla pagina 1di 11

ARTIGOS

Estudo comparativo
entre sistemáticas de
digitalização de
documentos:
formatos HTML e PDF
André Raabe INTRODUÇÃO a digitalização de documentos e sua
Omer Pohlmann Filho disponibilização por meio da Internet.
A Pontifícia Universidade Católica do
Rio Grande do Sul (PUCRS), median- Para tanto, o Laboratório de Biblioteca
te convênio com a IBM, participa do Digital voltou-se inicialmente para a
projeto IBM Global Campus, que prevê pesquisa de software e desenvolvimen-
a colaboração entre instituições de en- to de sistemáticas para a captura e
sino superior de diferentes países, no transformação de documentos do for-
sentido de pesquisar e desenvolver mato tradicional (papel), para o forma-
políticas, abordagens, metodologias e to digital. Foram avaliadas duas siste-
recursos tecnológicos para projetar e máticas distintas para realização do tra-
implantar universidades com campus balho, uma delas baseada no reconhe-
de abrangência global. cimento ótico dos caracteres e conver-
são para HTML detalhada em (Pohl-
A proposta de trabalho do projeto Cam- mann 1); a outra baseada no formato
pus Global PUCRS visa a desenvolver digital Portable Document Format
estudos sobre universidade virtual, cen- (PDF).
trando seu foco de atenção em pesqui-
Resumo
sas sobre metodologias e recursos tec- DIRETRIZES DE TRABALHO
nológicos na área de educação à dis-
Este artigo apresenta o resultado de tância. Neste contexto, trabalha-se com Dentre as alternativas pesquisadas
experimentos realizados pelo Laboratório de
Biblioteca Digital da PUCRS voltados para a o conceito de Educação à Distância para o processo de digitalização de
captura e conversão de documentos a partir (EAD), como uma forma de educação documentos, avaliaram-se duas diretri-
do formato tradicional (papel) para o formato na qual alunos e professores se encon- zes genéricas:
digital. São apresentadas e avaliadas as tram separados fisicamente, sendo o
principais etapas envolvidas no processo de
digitalização utilizando duas sistemáticas processo de interação multidirecional, 1. digitalização da obra como imagens
diferentes: uma baseada na conversão para apoiado por tecnologia de comunica- e conversão destas em textos median-
HTML; a outra baseada na geração de ção, em que o aluno é o protagonista te reconhecimento óptico de caracte-
arquivos PDF usados pelo software Adobe de seu aprendizado e o professor um res (OCR);
Acrobat Reader.
São abordados também fatores essenciais facilitador deste.
aos trabalhos de digitalização tais como 2. criação de arquivos de imagens
tecnologias de Reconhecimento Óptico dos Tendo em vista esta proposta, o proje- (JPG), contendo as páginas da obra e
Caracteres (OCR) e avaliação das to Campus Global foi estruturado a par- mantendo o leiaute original da publica-
características do acervo a ser digitalizado.
tir de quatro frentes de pesquisa, a sa- ção, sem conversão para texto.
Por fim, é realizado um comparativo entre as
duas sistemática estudadas, apontando ber, educação à distância e colaborati-
pontos positivos e negativos que devem ser va, bibliotecas digitais, trabalho coope- A escolha do formato de arquivo JPG
considerados na escolha de uma diretriz de rativo, gerência de recursos Internet. deveu-se ao fato de este possuir uma
trabalho. alta taxa de compressão, permitindo o
Palavras-chave Neste contexto, o Laboratório de Biblio- armazenamento de imagens com qua-
teca Digital vem pesquisando o desen- lidade em arquivos de tamanhos redu-
Conversão de documentos do formato volvimento de tecnologias para permi- zidos, sendo, por este motivo, ampla-
tradicional para o digital; Sistemáticas de mente utilizado na rede Internet.
conversão para HTML; Geração de arquivos
tir o acesso a informações de conteú-
PDF; Tecnologias de reconhecimento óptico do bibliográfico à distância. Uma das
dos caracteres. alternativas pesquisadas aponta para

300 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Para exemplificar a relação entre for- FIGURA 1 FIGURA 2


mato de arquivo e espaço de armaze-
nagem, foi realizado um teste compa-
rativo permitindo verificar a relação en-
tre os tamanhos dos arquivos gerados
no contexto estudado – digitalização de
documentos a partir do formato papel.
É importante salientar que foram utili-
zadas rigorosamente as mesmas con-
figurações de compressão e qualidade
disponíveis em formatos de arquivos
como o JPG e GIF.

No teste, foram utilizadas uma página


do livro História da PUCRS ilustrada na
figura 1, por esta ser composta de ima-
gem e texto sem cores, e a capa da
mesma obra, por ser colorida, figura 2.

A tabela 1 apresenta, a seguir, os re-


sultados do teste comparativo conside-
rando os formatos de arquivos de ima-
gens mais utilizados.

Para avaliar as vantagens e desvanta-


Páginas utilizada como teste comparativo
gens relacionadas a cada uma das di-
retrizes estudadas (conversão para tex-
to e disponibilização como imagem), TABELA 1
tomou-se como base (Haigh2 ), que con- Comparativo entre os tamanhos de arquivo
sidera, para a escolha do processo de
digitalização, os seguintes pontos: Formato do Arquivo Pagina P&B Capa (reduzida)
11,50 cm X 17,80 cm 7,14 cm X 10,68 cm
• necessidade de reutilização, edição
ou reformatação do texto;
JPG (Joint Picture Experts Group) 34 Kb 16 Kb
• disponibilidade do texto para pesqui- TIF (Tagged Image File) 74 Kb 43 Kb
sas full-text ; GIF (Graphics Interchange Format) 76 Kb 40 Kb
PDF (Portable Document Format) 76 Kb 34 Kb
• posterior codificação do texto no for- PSD (PhotoShop) 82 Kb 62 Kb
mato HTML; PCX (Zsoft Paintbrush) 97 Kb 64 Kb
BMP (Windows Bitmap) 280 Kb 60 Kb
• recursos disponíveis para realização
WMF (Windows Meta File) 282 Kb 61 Kb
do processo;
EPS (Encapsuled Post Script) 573 Kb 135 Kb
• tamanho dos arquivos para armaze-
nagem e transmissão. – necessita pouco espaço para arma- No contexto geral do projeto, a realiza-
zenagem das obras digitalizadas. ção de pesquisa full-text se faz ne-
Pela análise realizada, chegou-se às cessária e é um objetivo a ser alcança-
seguintes conclusões sobre cada um • Disponibilização como imagem: do. Além disso, outro fator determinan-
dos processos: te a favor da conversão para texto é
– impossibilidade de edição e manipu- que a velocidade de transmissão de
• Com conversão para texto: lação do texto das obras; dados no Brasil ainda não atinge os
padrões desejados para transferência
– possibilidade de edição e manipula- – impossibilidade de realização de pes-
de arquivos de imagem. No caso dos
ção do texto das obras; quisas full-text ;
arquivos texto, a velocidade de trans-
– processo de digitalização simplifica- missão não é um fator crítico, pois es-
– possibilidade de realização de pes- tes possuem tamanho bem inferior.
quisas full-text; do e rápido;

– ocupa grande espaço para armaze-


– processo de digitalização é demora-
nagem da obra digitalizada (aproxima-
do e trabalhoso;
damente 20 vezes mais que textos).

Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 301


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Portanto, decidiu-se proceder inicial- FIGURA 3


mente à digitalização de obras me- Representação Esquemática do Processo de Digitalização HTML
diante o reconhecimento ótico dos ca-
racteres (OCR) e posterior transforma- D i g i t a li z a ç ã o d o t e x t o e T r a n s f o r m a ç ã o e m a r q u iv o H T M L
ção no formato HTML. 1 2
C a p tu ra d e Im a g e m
d o s te x to s OCR
SISTEMÁTICA DE DIGITALIZAÇÃO
HTML O m n i P a g e 5 .0 O m n i P a g e 5 .0

3
Para realização dos trabalhos voltados 4 R e v is ã o e C o rre ç ã o A rq u i v o
d o t e x to T e x to
à definição de uma sistemática de cap- C o n v e rsã o p a r a
tura e conversão de documentos para HTM L M S - W o r d 6 .0 .D O C
o formato HTML, foi utilizado como N etsc ape C om po s er
instrumento de testes a publicação da
Faculdade de Medicina da PUCRS
denominada Acta Médica Volume 1. A rq u i v o
HTM L
Os trabalhos foram realizados median-
te os recursos disponíveis, ou seja, .H T M
scanner HP Scanjet II, software de
OCR (Reconhecimento Ótico de Carac-
teres) OmniPage Pro 5.0, editor de In se r çã o d e Im a g e n s n o
textos MS- Word 6.0 e o conjunto de C o m p o siçã o te x to c o m c o n v e r s ã o
F in a l d a O b ra a u t o m á t ic a p a r a
softwares do Netscape Communicator D ig ita l fo r m a to J P G
4.0 (Pohlmann1 ). O b r a D i g it a l
N etsc ape C om po s er
.H T M

Inicialmente, são apresentadas as prin-


cipais características das Actas Médi-
D i g i t a li z a ç ã o d e F i g u r a s
cas, para que se possa ter uma idéia
do contexto estudado e da adequação C a p tu ra d e Im a g e m
dos recursos utilizados. d a s fig u ra s A rq u i v o
de I m ag em
D e s k S c a n II
Como um compilado de artigos de alu- .B M P
nos (trabalhos de conclusão), estas
publicações começaram a ser editadas
em 1977. Em sua maioria, são docu- – notas de rodapé; 4) conversão para formato HTML.
mentos antigos que precisam passar
pela função de criação e captura, ou – subdivisão de itens por meio de cha- A descrição detalhada de cada uma
seja, conforme (Pohlmann1 ) são docu- ves; destas etapas pode ser vista no ende-
mentos que têm de ser necessariamen- reço
te digitalizados. – manchas de tinta e falhas na impres-
são; http://www.cglobal.pucrs.br/
O objeto inicial desta pesquisa foi a pri- bibdigital/artigos/art3.htm.
meira edição da Acta Médica, editada – textos e figuras somente na cor preta
em 1977. Este documento possui um ou tons de cinza. Para cada capítulo do livro, foi criado
leiaute de texto complexo contendo: um arquivo HTML diferente para facili-
Descrição do Processo de tar a posterior ligação com indexado-
– texto dividido em duas colunas; Digitalização res, hiperlinks e softwares de gerência
de bibliotecas.
– tamanho de letra muito pequeno O objetivo do processo foi a transfor-
(aproximadamente tamanho times new mação da obra para formato digital e O espaço total em disco, ocupado pe-
roman 10); sua publicação em formato HTML. Para los 16 capítulos digitalizados, conten-
tanto, dividiu-se o trabalho em quatro do 241 páginas de texto e 72 figuras,
– fórmulas matemáticas manuscritas etapas: foi de 2,41 megabytes , comprovando
em meio ao texto; eficiência em termos de economia de
1) leitura ótica das páginas da obra; espaço de armazenagem e conseqüen-
– seqüência de texto não linear (em al- te agilidade no acesso aos documen-
guns capítulos, o texto inicia pela colu- 2) reconhecimento do texto por meio tos full-text, via Internet.
na da direita); de software de OCR;
Um resumo deste processo é apre-
– figuras e imagens; 3) revisão e correção do texto por inter- sentado, acima, esquematicamente, na
médio de editor de texto; (MS-Word 6.0); figura 3.

302 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Na tabela 2 são apresentados também TABELA 2


os tempos médios verificados na exe- Tempos médios para realização das etapas
cução de cada uma destas etapas. Os
tempos apresentados são para um nú-
ETAPAS TEMPO MÉDIO
mero padrão de 50 páginas e 12 figu-
ras. Captura das imagens dos textos e execução
do programa de reconhecimento ótico de 65 minutos
Busca de melhores resultados no caracteres – OCR (com a criação do arquivo texto)
OCR
Revisão e correção do texto 400 minutos
A elaboração da sistemática HTML foi
feita com a utilização do software de Conversão dos arquivos texto para arquivos HTML 15 minutos
OCR Omni Page Pro 5.0. Os resulta-
Captura de imagens e criação de arquivos BMP 20 minutos
dos deste experimento apontaram um
tempo total de conversão muito alto, Inserção de imagens no texto e composição final da obra 10 minutos
principalmente pela necessidade de
realização de uma revisão e correção Tempo médio para transformação de um texto de
meticulosa dos erros gerados pelo pro- 50 páginas, com 12 figuras, do formato convencional 510 minutos
cesso de reconhecimento óptico dos (em papel), para o formato digital, segundo a (aprox. 8,5 horas)
caracteres (OCR). sistemática proposta

Dando continuidade ao trabalho, dese- Observação: Cumpre salientar que estes tempos foram estimados contando com a participação de
java-se verificar a utilização de uma duas pessoas para sua realização. Obviamente, quanto maior a equipe, menor o tempo consumi-
versão mais atual do software, o Omni do. Também os recursos de hardware utilizados, principalmente o scanner que não possuía
Page Pro 8.0, a fim de identificar me- recurso ADF (Automatic Document Feeder), não são os recomendados para este tipo de trabalho.
A utilização de recursos mais apropriados tende a melhorar as performances observadas, princi-
lhorias no processo de reconheci- palmente nas etapas de captura de imagens, revisão e correção de texto, que são críticas neste
mento de caracteres que reduzissem processo.
o trabalho de revisão e correção a
patamares aceitáveis, dentro do esco- Outra característica a ser salientada é Após realizado o processo, os arquivos
po de um projeto de digitalização em a alta qualidade (qualidade laser) de de saída contento o texto reconhecido
larga escala. impressão do informativo, bem como a pelo OCR foram salvos no formato
utilização de fontes padrão (arial), o DOC do MS-Word 6.0, por ser comum
Para realização deste trabalho compa- que, segundo (Caere3), levaria o Omni a ambas as versões e permitir a utiliza-
rativo, escolheu-se um informativo de Page Pro 8.0 a atingir uma taxa de acer- ção de um dicionário ortográfico comum
publicação interna na PUCRS chama- to no reconhecimento dos caracteres na detecção dos erros de reconheci-
do “PUCRS Informação”. O mesmo foi superior a 99%. mento dos caracteres. A comparação
escolhido por possuir uma diagrama- entre as taxas de reconhecimento atin-
ção elaborada, com fotos e textos dis- O “PUCRS Informação”, composto de gidas pelas versões 5.0 e 8.0 do Omni-
tribuídos de forma não-linear, permitin- 20 páginas, foi digitalizado e armaze- page Pro partiu de uma análise destes
do a comparação entre os procedimen- nado como imagem para posterior re- arquivos.
tos de definição automática das zonas conhecimento dos caracteres e zonas
de texto de ambas as versões do de texto em ambas as versões do Om- Realizou-se a contagem do número to-
OmniPage Pro. niPage. Para tanto, foi utilizado o Omni tal de palavras na obra. A seguir, reali-
Page Pro 5.0 e um scanner de mesas zou-se a contagem das palavras que
O processo de definição de zonas HP Scanjet II, gerando um arquivo de possuíam incorreções na grafia origi-
de texto pode ser realizado de for- saída no formato proprietário MET con- nadas por um erro no reconhecimento
ma manual, conforme descrito em tendo as 20 páginas digitalizadas. Este dos caracteres. De posse deste valo-
(Pohlmann1), produzindo um resultado arquivo foi aberto em ambas as versões res, calculou-se o percentual de acer-
melhor em termos de fidelidade ao 5.0 e 8.0, onde foi realizado o reconhe- tos atingido pelo reconhecimento dos
leiaute da obra original, no entanto cimento óptico dos caracteres (OCR) caracteres em ambas as versões. Cum-
esta atividade envolve muita intera- e a definição automática das zonas de pre salientar que os dados obtidos re-
ção do usuário tornando o processo texto, uma vez que ambas as versões lacionados à taxa de reconhecimento
lento. A utilização da definição auto- possuem esses recursos. do processo de OCR consideraram as
mática das zonas do texto é uma ten- 20 páginas do informativo na íntegra.
tativa de reproduzir o leiaute da obra A tabela 3, a seguir, ilustra os resulta-
original sem a interação do usuário. dos obtidos.
No entanto, os resultados ficam
aquém dos esperados.

Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 303


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Concluiu-se que a utilização de uma TABELA 3


versão mais atual do software Omni Comparativo dos resultados do OCR
Page Pro não promoveu significativa
melhoria nos resultados do processo de Total de palavras Palavras com erro Taxa de
reconhecimento dos caracteres que pu- reconhecimento
desse acelerar significativamente os
trabalhos de digitalização de um acer- Versão 5.0 4833* 308 93,6%
vo em larga escala, uma vez que a ne- Versão 8.0 4785 168 96,5%
cessidade de revisão do texto perma-
* A diferença observada no número total de palavras deve-se ao fato de a versão 5.0 dividir algu-
neceu necessária. mas palavras ao meio, gerando duas novas.

Diretrizes para busca de uma nova


sistemática A integração de dicionários ortográficos Aliado a estes fatores, pode-se mencio-
ao processo de reconhecimento dos nar também o fato de que a maioria das
Segundo (Haigh2), a taxa de reconhe- caracteres, como o procede o Omni- obras é composta não somente de tex-
cimento de um OCR para conversão de Page Pro, auxilia a identificação das tos. Também contêm figuras, fórmulas
documentos deve ser superior a 98%. palavras consideradas suspeitas. No e esquemas gráficos cujos softwares
Caso contrário, é mais eficiente reali- entanto, dada a impossibilidade de se de OCR atuais não oferecem um trata-
zar a redigitação do documento. construir um dicionário eletrônico que mento adequado, sendo necessária a
abranja todos os termos técnicos es- utilização de um outro software para
Esta taxa de reconhecimento é medi- pecíficos de cada área, nos diversos captura das imagens e posterior inte-
da considerando o número de edições idiomas contemplados pelo acervo da gração. Tal procedimento exige muita
necessárias (inserções, deleções, biblioteca da PUCRS, persiste a neces- interação do usuário e torna o tempo
substituições) diante do número total de sidade de realização de uma leitura de digitalização de uma obra muito alto,
caracteres. Recomenda-se, no entan- cuidadosa, pois uma palavra assinala- considerando a amplitude do trabalho
to, que este dado não seja utilizado da como suspeita pode estar correta ou desejado.
como referência para trabalhos de di- não.
gitalização em larga escala, pois des- Tais informações levaram os pesquisa-
considera todo o trabalho de localiza- Como um agravante, muitas das obras dores do laboratório de biblioteca digi-
ção de erros no texto, que muitas ve- do acervo da Biblioteca Central da PU- tal da PUCRS a buscar outras alterna-
zes demanda uma leitura completa da CRS (aproximadamente 300 mil obras) tivas de digitalização que envolvessem
obra. Além disso, quando o vocabulá- não apresentam um estado de conser- menor interação do usuário, viabilizan-
rio utilizado é eminentemente técnico, vação adequado à realização da digi- do a realização do trabalho em larga
pode ser necessária a confrontação talização por meio de softwares de escala.
com a obra original em papel, para iden- OCR, tais como:
tificação da grafia correta de uma pala- Desta forma, iniciou-se o trabalho de
vra. • obras com páginas riscadas e com definição de uma nova sistemática de
anotações a lápis e a caneta; digitalização utilizando o software da
O que deve ser considerado efetiva- empresa Adobe, denominado Adobe
mente é o volume de tempo despendi- • obras com papéis com gramatura mui- Acrobat. Este software foi cedido pela
do por um usuário, ao realizar a corre- to fina (50 gr/m²), fazendo com que o empresa ao Laboratório de Biblioteca
ção/conferência de um texto reconhe- texto de um lado da página seja visível Digital da PUCRS para a realização de
cido pelo OCR. do outro lado; testes por um período de 60 dias. Se-
gundo (Adobe4), tem como caracterís-
Enquanto os software de OCR não atin- • obras com páginas amassadas, man- ticas:
girem uma taxa de reconhecimento de chadas, sujas, deterioradas por mofo,
100%, será necessária meticulosa re- traças, ou mesmo pela própria utiliza- • facilidade de criação e publicação de
visão da obra para localização e corre- ção. documentos on-line;
ção dos erros, atividade essa que tor-
na a realização de trabalhos de digitali- Apesar de possuir um setor específico • mantém o leiaute original das obras
zação em larga escala altamente cus- para recuperação do acervo, muitos digitalizadas;
tosos, sendo necessária a utilização de dos problemas são irrecuperáveis, e,
grandes equipes com numerosos recur- com uma movimentação diária de 2 600 • utiliza o formato de arquivo PDF (Por-
sos para que o trabalho não se torne empréstimos, a tendência é que tais table Document Format), que permite
excessivamente demorado. problemas não sejam eliminados. a criação de documentos multiplatafor-
ma que podem ser visualizados inclu-
sive em browsers (software de nave-
gação na Internet);

304 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

• possibilidade de captura e conversão TABELA 4


de grandes volumes de documentos Tempo para digitalização das obras utilizando o Scanner HP Network 5
com um baixo nível de interação do
usuário. Volume 1 159 páginas 16 minutos

Estas características se mostraram Volume 2 295 páginas 36 minutos


bastante adequadas ao tipo de traba-
lho que se tinha para realizar. Total 454 páginas 52 minutos

Média: 8,73 páginas por minuto


SISTEMÁTICA PDF

Digitalização por meio da captura de O tempo levado para digitalização dos 2) quando da aplicação do OCR nas
documentos dois volumes da História da PUCRS páginas da obra, os arquivos reduziram
está explicitado na tabela 4. o seu tamanho em aproximadamente
Para a definição de uma sistemática de quatro vezes;
digitalização por meio da captura de do- Um dos objetivos previstos era a pos-
cumentos utilizando o software Adobe sibilidade de realização de pesquisas Dado a inviabilidade de realização do
Acrobat, escolheu-se, como objeto de full-text na obra. Para tanto, seria ne- OCR nas páginas da História da PU-
teste, a obra história da PUCRS. Esta cessário que as imagens digitalizadas CRS, alguns dos objetivos traçados no
escolha deveu-se a adequação da obra passassem por um processo de reco- início da pesquisa precisaram ser aban-
ao trabalho que estava proposto e pela nhecimento ótico de caracteres (OCR), donados. Em especial a possibilidade
liberação dos direitos autorais da obra ou seja, a transformação da imagem em de realização de pesquisas no texto
por parte dos autores, permitindo aliar texto. desta obra.
sua disponibilização à comemoração
do cinqüentenário da universidade, A realização de OCR em arquivos no Neste momento, decidiu-se dar se-
ocorrida em 1998, época em que esta formato PDF é feita pelo software qüência ao trabalho de digitalização
pesquisa estava em andamento. Adobe Acrobat Exchange, o qual pos- mantendo as páginas da obra como
sui uma interface adequada para a ta- imagens, pois julgou-se importante ava-
A obra possui somente uma coluna de refa, sendo possível a realização do liar as características e o comportamen-
texto, as letras são Times New Roman processo sobre todas as páginas de to dos arquivos PDF contendo imagens
de tamanho 12. São encontradas foto- uma vez só. das páginas digitalizadas.
grafias e ilustrações em meio ao texto,
no entanto nenhuma utiliza cores, so- No entanto, foi frustrante descobrir que Partiu-se, então, para a exploração de
mente tons de cinza. o software em sua versão 3.01 não recursos do formato PDF que permi-
possui dicionário para reconhecimento tiriam aprimorar a navegabilidade e
Para digitalização da História da das palavras e caracteres da língua aparência da obra, tais como a criação
PUCRS, foi utilizado o scanner HP portuguesa, o que inviabilizou a reali- de links e bookmarks, a separação dos
Network Scanner 5, destacando-se zação do OCR e, por conseqüência, a capítulos, a adequação do tamanho e
pela velocidade de digitalização e pela transformação da imagem capturada da visualização das páginas da obra.
presença de uma bandeja para entra- via scanner em um texto. Estes ajustes foram realizados utilizan-
da automática de papel ADF (Automa- do o Adobe Acrobat Exchange. Uma
tic Document Feeder), apesar de su- Apesar disso, duas características in- descrição detalhada deste procedimen-
portar somente a digitalização de ima- teressantes relacionadas ao OCR apli- tos pode ser encontrada em
gens em tons de cinza, fato que não cado pelo Acrobat Exchange devem ser http:\\www.cglobal.pucrs.br\
atrapalhou a definição da sistemática. ressaltadas: bibdigital\kits\kit3.html.

Para a inserção das páginas da obras 1) as palavras ou conjuntos de carac-


na bandeja de entrada de papel, foi teres não reconhecidos foram mantidos
necessário realizar um corte rente a como imagens, de forma que a leitura
parte onde as folhas estão presas para do texto continuou sendo possível;
que estas se soltassem. Ao final, a apli-
cação cliente do scanner gera automa-
ticamente um arquivo contendo as pá-
ginas digitalizadas como imagens, ou
seja, uma imagem para cada página,
agrupadas em um só arquivo PDF.

Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 305


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A seguir, será apresentado o resumo Figura 4


esquemático do trabalho de digitaliza- Esquema de digitalização da história da PUCRS
ção da História da PUCRS (figura 4).
Digitalização da história
Históriada
daPUCRS
PUCRS
São apresentados também os tempos
médios verificados na execução de Captura e manipulação
Manipulação das
das imagens
Imagens
cada uma destas etapas. Os tempos
apresentados correspondem à digitali- 1 2
zação do primeiro volume da obra, com
Captura de imagem Separação em
159 páginas (tabela 5).
dos textos capítulos
Digitalização e da conversão de
documentos HP ScanJet 5 Utility Acrobat exchange

Tendo em vista a inadequação do OCR,


decidiu-se pesquisar alternativas que 3 4
tornassem possível a realização de
Inserção
pesquisas full-text. Uma possibilidade Inserção de links
encontrada foi a conversão de docu-
de bookmarks Arquivos
mentos já existentes no formato digital Acrobat exchange
para o formato PDF, evitando, dessa Acrobat exchange
forma, a necessidade de reconheci- .PDF
mento óptico dos caracteres, uma vez
que o documento original não é gerado 5 6
mediante a captura de imagens com
Cortes nas Configuraçã
uso de um scanner.
páginas (crop) da visão inicial
Para a realização deste novo trabalho,
foi escolhido como instrumento de tes- Acrobat exchange Acrobat exchange
tes a dissertação de mestrado do pro-
fessor Omer Pohlmann Filho, co-autor
deste artigo, pela facilidade de nego- TABELA 5
ciação dos direitos autorais e pela ade- Os tempos de realização das etapas do processo de digitalização
quação da obra ao trabalho proposto.
ETAPAS TEMPO MÉDIO
A dissertação em questão consiste de
um conjunto de arquivos digitais com Captura da imagens dos textos no scanner criação dos 16 minutos
247 páginas divididos entre textos ela- arquivos PDF (159 páginas)
borados no Word 2.0 contendo grande
Separação dos Arquivos em capítulos 30 minutos
número de tabelas, fórmulas e figuras,
e oito tabelas elaboradas no Excel 3.0. Criação dos índices link no índice da obra 40 minutos*
Pelas características das tabelas, se- Criação das bookmarks 30 minutos*
ria muito trabalhoso realizar a conver- Cortes nas páginas (crop) 20 minutos*
são para HTML, uma vez que os recur- Configuração da visão inicial 1 minuto
sos de tabela disponíveis na linguagem Tempo médio para transformação de um texto do formato 137 minutos
não são satisfatórios para tanto.
convencional (em papel) para o formato digital, segundo a (2 horas e 17 min.)
O trabalho de conversão consistiu na sistemática proposta (PDF)
carga destes arquivos, por meio da uti-
* Estas etapas são opcionais ao processo de digitalização e podem variar de acordo com as
lização de versões mais recentes do características da obra.
Word e do Excel, e posterior impres-
são dos mesmos utilizando o driver de
impressão denominado Adobe PDF
Writer. Este driver se encarrega de cap-
turar a impressão e convertê-la para um
arquivo PDF.

Foi necessário agrupar estes arquivos


em um só, baseando-se na ordenação
encontrada na publicação original (em
papel).

306 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A conversão produziu um resultado FIGURA 5


considerado excelente. Sem maiores Esquema de conversão da dissertação de mestrado
dificuldades, foi possível agrupar todas
as partes que formavam a dissertação Conversão da dissertação
Dissertação de
demestrado
Mestrado
(arquivos de Word e Excel) em um Documento digital
Digitalna
na forma
formade
de texto
Textopara
paraarquivo
arquivoPDF
PDF
mesmo arquivo no formato digital, sem
preocupações maiores com as versões 1 2
dos softwares utilizados.
Carga e impressão Captura do arquivo
A seguir, será apresentado o resumo do documento de impressão
esquemático do trabalho de conversão
da dissertação de mestrado (figura 5). Word / Excel Acrobat PDF writer

São apresentados também os tempos


médios verificados na execução de 3 4
cada uma destas etapas (tabela 6).
Agrupamento em Configuração
COMPARATIVO ENTRE AS
um só arquivo Arquivos da visão inicial
SISTEMÁTICA APRESENTADAS
Acrobat exchange Acrobat exchange
Ao final deste trabalho, foram conside- .PDF
rados positivos os resultados obtidos
com a sistemática PDF, uma vez que,
na comparação com a sistemática TABELA 6
HTML pesquisada anteriormente, esta Os tempos de realização das etapas do processo de conversão
apresentou vantagens significativas
conforme ilustra a tabela 7. Os tempos ETAPAS TEMPO MÉDIO
apresentados são para um número pa-
Carga e solicitação de impressão dos arquivos 10 minutos*
drão de 50 páginas e 12 figuras.
(1 Texto em MS-Word e 8 tabelas em MS-Excel)
O principal ponto a favor da sistemáti- Captura da Impressão e Conversão para PDF 10 minutos*
ca PDF é o tempo total demandado Agrupamento dos arquivos 15 minutos*
para transformação de maneira total- Configuração da visão inicial 1 minuto
mente confiável, de uma obra em pa- Tempo total de conversão 36 minutos
pel para o formato digital. Este ponto
merece especial importância, pois tor- * Tempos que podem variar de acordo com as características da obra.
na viável a realização do processo em
larga escala influenciando também na
TABELA 7
quantidade de recursos humanos ne-
Comparativo entre a Sistemática HTML e as Sistemáticas PDF
cessários para estruturação de um nú-
cleo para realização desta tarefa.
Sistemática Sistemática Sistemática
5 Característica HTML PDF – Captura PDF – Conversão
Segundo (Pohlmann ), no contexto do
Captura (imagem) (texto)
projeto de criação de uma biblioteca
digital na PUCRS, está prevista a es-
truturação de um núcleo de digitaliza- Mantém o leiaute original da obra Não Sim Sim
ção de documentos. Este núcleo terá Possibilidade de manipulação do Sim Não Sim
por objetivo a produção de acervo digi- texto
tal para a biblioteca digital da PUCRS, Possibilidade de realização de Sim Não Sim
devendo contemplar os recursos ne- pesquisas full-text
cessários para a realização desta tare- Espaço de armazenagem Pequeno (texto) Aproxim. Aproxim.
fa incluindo hardware , software, insta- 7 vezes maior 4 vezes maior
lações e recursos humanos. Tais recur- Revisão e correção do texto *400 min Não há Não há
sos humanos receberão treinamento e Tempo de transmissão via rede Baixo 7 vezes maior 4 vezes maior
orientações a partir dos resultados
Tempo total aproximado de 510min 46min 6min
apontados por esta pesquisa.
transformação de uma obra de
50 páginas e 12 figuras

* Observação: Cumpre salientar que o tempo relacionado a sistemática HTML foi determinado,
com o trabalho sendo realizado por duas pessoas. Principalmente, a etapa de revisão e correção
de texto pode ser agilizada agregando-se mais uma pessoa à equipe de trabalho.

Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 307


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

A seguir, apresenta-se uma sugestão TABELA 8


de recursos mínimos necessários e os Recursos para estruturação do núcleo
respectivos custos iniciais envolvidos
para a formação de um núcleo de digi-
Sistemática HTML Sistemáticas PDF
talização de documentos. Isto visa a (Digitalização e Conversão)
permitir a comparação entre as siste-
máticas apresentadas, levando em Recurso Especificação Preço* Especificação Preço*
conta também a questão financeira. As
sistemáticas de digitalização e conver- 01 Computador: 01 Computador:
são de documentos baseadas no for- Pentium II 400 Mhz , Pentium II 400 Mhz ,
mato PDF necessitam dos mesmos re- 64 Mb RAM , HD 6,2 64 Mb RAM , HD 6,2
cursos e foram, por este motivo, agru- Gb IDE, CD 24x, 6.158,00 Gb IDE, CD 24x, 6.158,00
Monitor 17", Placa de Monitor 17", Placa de
padas na mesma coluna. Os recursos
Rede 10/100 Mbps, Rede 10/100 Mbps,
indicados, bem como custos envolvidos, Porta USB, Windows Porta USB, Windows
consideram a realidade da PUCRS. NT 4.0 WS NT 4.0 WS
Hardware
Verifica-se que os valores diferem so- 01 Scanner: HP 01 Scanner: HP
mente na aquisição das licenças dos ScanJet 6250: conexão ScanJet 6250: conexão
software e ainda assim possuem valo- USB, Bandeja ADF, 1.598,00 USB, Bandeja ADF, 1.598,00
res aproximados. No entanto, deve-se Resolução 1200X Resolução 1200X
realizar uma comparação relevando o 999.999 DPI 999.999 DPI
custo relativo aos recursos humanos
01 Licença Windows Incluída no 01 Licença Windows Incluída no
envolvidos na realização da tarefa nas computador
NT 4.0 computador NT 4.0
diferentes sistemáticas, uma vez que a Software
principal diferença identificada foi o tem- 01 Licença Caere 549,00 01 Licença Adobe 500,00
po dispendido. Omni Page 8.0 Acrobat 3.01

Utilizando o mesmo exemplo da tabela 01 Aparelho de Ar 1.177,51 01 Aparelho de Ar 1.177,51


7, é possível verificar o custo dos re- Condicionado 18.000 Condicionado 18.000
cursos humanos envolvidos. Para tan- btus btus
to, foi calculado o valor da hora traba-
02 mesas para 188,00 02 mesas para 188,00
lhada do profissional considerando 160
microcomputadores microcomputadores
horas mensais (R$ 2.255,90 por pro- Instalações
fissional / 160 horas/mês = R$ 14,10/ 02 luminárias de 03 100,00 02 luminárias de 03 100,00
hora por profissional) lâmpadas com lâmpadas com
refletores refletores
Os pontos negativos da sistemática
PDF são menos críticos para um pro- 02 pontos de rede 166,00 02 pontos de rede 166,00
jeto em larga escala, tais como o espa-
ço de armazenagem, tempo de trans- 02 cadeiras com 156,00 02 cadeiras com 156,00
rodízios rodízios
missão em rede, impossibilidade de
realização de pesquisas full-text (so-
Recursos 02 Remuneração com 02 Remuneração com
mente para o caso da captura) e mani- Humanos Encargos Sociais 4.511,80 Encargos Sociais 4.511,80
pulação do texto. (Bibliotecário Júnior) (Bibliotecário Júnior)

A possibilidade de realização de con- Total 14.604,31 14.555.31


versões de documentos já existentes
no formato digital para o formato PDF * Os valores de referência estão em Reais, cotados na época a 1,71 em relação ao dólar americano
mostrou-se muito eficaz, em especial
pelo fato de reproduzir o conteúdo dos TABELA 9
documentos exatamente como estes Comparativo entre despesas com recursos humanos
seriam impressos e por facilitar a mes-
Sistemática Sistemática
clagem de documentos, constituídos de
Sistemática PDF – Captura PDF – Conversão
diversos arquivos de software diferen-
HTML Captura (imagem) (texto)
tes, gerando um só arquivo PDF.
Tempo dispendido 510min 46min 6min

Cálculo R$ 14.10 X 8.5 R$ 14.10 X 0.76 R$ 14.10 X 0.1 horas


horas X 2 pessoas horas X 2 pessoas X 2 pessoas
Despesa com
recursos humanos R$ 239,70 R$ 21,43 R$ 2,82

308 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

Tais características indicam maior fa- A disponibilização das obras na Inter- Como prosseguimento deste trabalho,
cilidade de formação de um acervo con- net será feita, em primeiro momento, será realizado, em conjunto com a Fa-
tendo documentos recentes (que teori- pelo software ALEPH, que gerencia a culdade de Biologia e com o suporte
camente já existem em meio digital), catalogação e consulta do acervo da da Biblioteca Central, a digitalização de
possibilitando inclusive a realização de Biblioteca Central. obras de formatos diversos tais como
pesquisas full-text nos arquivos que fotografias, sons, textos e imagens.
foram convertidos a partir do formato O ALEPH possui uma interface que Esses recursos serão utilizados para a
texto, além de favorecer a padroniza- permite a realização de consultas pela elaboração de materiais didáticos, ser-
ção das publicações digitais e, por con- Internet, possibilitando aos usuários vindo como fonte de pesquisa para a
seqüência, o posterior armazena- verificar a existência das obras no acer- avaliação das características do Ado-
mento, recuperação e manipulação. vo, bem como a sua disponibilidade be Acrobat Reader para suporte a es-
para empréstimo. Os recursos de pes- tas mídias, comparando-as com a utili-
Deve-se registrar que os problemas quisa do ALEPH baseiam primariamen- zação da linguagem HTML para o mes-
que impõem dificuldades à realização te em autores, títulos e assuntos, mas mo propósito.
do OCR, sejam eles causados pelo es- é possível realizar consultas avança-
tado de conservação do acervo, tais das acessando qualquer informação A continuidade deste trabalho objetiva
como manchas, amassados, riscos e constante no registro de cadastramen- definir novas sistemáticas que sejam
anotações, ou ligados a ineficiência dos to da obra. Pode-se ainda combinar di- adequadas à digitalização de obras e
softwares de OCR para tratamento de versos argumentos de pesquisa me- materiais existentes nos mais diversos
características, como fórmulas mate- diante a utilização de lógica booleana. formatos, servindo assim para orientar
máticas, figuras, trechos manuscritos, a estruturação do núcleo de digitaliza-
letras muito pequenas ou borradas, po- No caso de as obras já existirem no for- ção de documentos e produção de
dem ser contornados pela digitalização mato digital, o ALEPH fornece um link materiais digitais de cunho didático.
utilizando a sistemática PDF. Para tan- para acesso ao documento na íntegra,
to, basta que as obras sejam digitaliza- permitindo assim que o usuário possa
das como imagens, e será possível ler a obra digital pela Internet, sem pre-
realizar a leitura das mesmas, por meio cisar se deslocar até a biblioteca.
de um arquivo PDF, conforme a apa-
rência original no momento da digitali- As pesquisas full-text serão realizadas
zação. com recursos de pesquisa do Adobe
Acrobat Reader, uma vez que o
Neste sentido, é importante que se de- ALEPH não consegue indexar os tex-
senvolvam ferramentas para realização tos existentes no formato PDF. No en-
de tratamento óptico nos arquivos de tanto, para acessar os recursos de pes-
imagens PDF, que filtrem automatica- quisa full-text, o usuário deve realizar
mente as características indesejáveis o download do documento (copiá-lo
– adulterações, manchas, amassados para sua máquina) e abri-lo por meio
entre outros –, melhorando a aparên- do Adobe Acrobat Reader, pois a con-
cia das obras. sulta ao arquivo PDF realizada com
auxílio do browser não oferece o recur-
CONSIDERAÇÕES FINAIS so de pesquisa full-text .

Inicialmente, os trabalhos de constru- Com o crescimento do acervo digital,


ção do acervo da Biblioteca Digital da torna-se necessário a utilização de ou-
PUCRS serão realizados com a utiliza- tros softwares que possuam recursos
ção do software Adobe Acrobat para di- mais adequados à recuperação e aces-
gitalização das obras existentes no for- so a este acervo, permitindo a utiliza-
mato tradicional (papel) e também para ção de técnicas avançadas de pesqui-
conversão dos documentos já existen- sa com a utilização de linguagem natu-
tes em um formato digital diferente do ral, utilização de parâmetros fonéticos
HTML. Os documentos que já estive- e técnicas de inteligência artificial. Para
rem no formato HTML serão mantidos, tanto, está prevista a utilização do
pois este formato permite a realização software IBM Digital Library, que recen-
de pesquisas full-text, possui tamanho temente foi disponibilizado e encontra-
inferior ao PDF e atende às diretrizes se em fase de instalação em nosso la-
definidas para este trabalho apontadas boratório.
no item Diretrizes de Trabalho.

Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 309


Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF

REFERÊNCIAS BIBLIOGRÁFICAS

1. POHLMANN, Omer F. Campos, Márcia B.


Raabe, André L. John, Fabiana. Viera,
Sônia. Em Direção a Criação de uma
Biblioteca Digital na Pontifícia
Universidade Católica do Rio Grande do
Sul: - Uma experiência Prática. II
Seminário Internacional de Bibliotecas
associadas a UNESCO, Cienfuegos –
Cuba. 23 a 27 de maio de 1998.

2. HAIGH, Susan. Optical Character Recognition


(OCR) as a Digitization Technology.
[Citado em 10 jan. 1998]. Disponível em
WWW: [http://collection.nlc-bnc.ca/100/
201/301/netnotes/netnotes-h/
notes37.htm]

3. CAERE Corporation. A Quantum Leap in


Accuracy. [Citado em 11 jan. 1998].
Disponível em WWW: [http://
www.caere.com/live/content/products/
amaretto/amaretto.htm]

4. ADOBE Acrobat 3.0 Product Information.


[Citado em 14 jul. 1998]. Disponível em
WWW: [http://www.adobe.com/prodindex/
Acrobat/prodinfo.html]

5. POHLMANN, Omer F. Raabe, André L. Direito


Autoral no Contexto de Bibliotecas
Digitais. III Congresso Internacional de
(Tele) Informática Educativa, Santa Fe –
Argentina. 14 a 17 de abril de 1999.

Comparative study between


systematics of digitisation of
documents: Formats HTML and
PDF

Abstract

This article presents the resulting experience


of Digital Library Group of PUCRS University,
for the process of capture and conversion of
existing documents from traditional format
(paper) to a digital format. The major steps of
the process are presented and evaluated
using two different systematics: one based on
HTML conversion; and other based on the
creation of PDF files for Adobe Acrobat
Reader software.
Critical issues such as Optical Character
André Luís Alice Raabe
Recognition (OCR) and characteristics
evaluation of the collection to be converted
Bacharel em Informática, PUCRS, 1997.
are approached also.
Mestrando em Informática, PUCRS 1998.
At the end, is presented a comparative study
between the two systematics, identifying
Omer Pohlmann Filho
positive and negative characteristics to be
considered for choosing a work direction.
Bacharel em Administração de Empresas,
PUCRS, 1979. Especialista em Análise de Sis-
Keywords
temas, PUCRS, 1981. Mestre em Informática,
PUCRS, 1996.
Conversion of documents from the traditional
to the digital format; Systematics of
{araabe, omer}@cglobal.pucrs.br
conversion to HTML; Creation of PDF files;
OCR technologies.

310 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998

Potrebbero piacerti anche