Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lancaster
Indexao e resumos
Teoria e prtica
Desde sua primeira edio em 1991, este livro encontrou excelente acolhida entre os
profissionais da informao. Sua traduo brasileira inaugurou as atividades editoriais de
Briquet de Lemos / Livros, em 1993. Esta terceira edio, cujo original foi publicado nos EUA
em 2003, foi inteiramente revista e atualizada, tendo sido includos dois novos captulos: sobre
bases de dados de imagens e sons, e indexao na internet.
Trata-se de texto que alcanou a categoria de clssico na matria e que recomendado
praticamente em todos os cursos de biblioteconomia e cincia da informao. Alm disso, sua
utilidade incontestvel para profissionais que, entre outras atividades, trabalhem na
produo e manuteno de bases de dados, construo de portais na internet, intranets e em
programas de gesto do conhecimento. A parte sobre resumos reveste-se de particular
interesse no apenas para produtores de bases de dados, mas tambm para editores de
peridicos cientficos.
F. W. Lancaster professor emrito da Graduate School of Library and Information
Science da University of Illinois (EUA). Reconhecido internacionalmente como um dos maiores
expoentes da biblioteconomia e cincia da informao, teve a primeira edio desta obra
premiadas, em 1992, pela American Society for Information Science, como o melhor livro de
cincia da informao. Premiao que voltou a ser concedida a trs outros ttulos de sua
autoria.
Parte 1
Teoria,
princpio
se
aplica
es
Parte 2
Prtica
Apndic
es
Captulo
Ttulo
Pgina
Inicial
Pgina
Final
Introduo
Princpios da indexao
23
A prtica da indexao
24
49
ndices pr-coordenados
50
67
Coerncia da indexao
68
82
Qualidade da indexao
83
99
100
112
A redao do resumo
113
134
Aspectos da avaliao
135
157
10
158
185
11
186
198
12
199
213
13
214
248
14
Buscas em textos
249
283
15
284
338
16
A indexao e a internet
339
357
17
358
368
18
Exerccios de indexao
369
382
19
383
391
392
393
394
396
Sumrio
Prefcio................................................................................................................6
Agradecimentos..................................................................................................7
Uma nota sobre terminologia (e a redescoberta da roda)...................................8
Lista de figuras..................................................................................................11
Parte 1 Teoria, princpios e aplicaes............................................................14
Captulo 1 - Introduo...................................................................................14
Captulo 2 Princpios da indexao...............................................................17
Extenso do registro........................................................................................................... 17
Etapas da indexao de assuntos.......................................................................................18
Atinncia............................................................................................................................. 21
Traduo.............................................................................................................................. 24
Vocabulrios controlados..................................................................................................... 25
Indexao como classificao............................................................................................. 25
Especificidade do vocabulrio............................................................................................. 26
Previsibilidade................................................................................................................... 109
Atualidade......................................................................................................................... 111
Normas.............................................................................................................................. 112
Outros aspectos concernentes avaliao.......................................................................112
Recursos de recuperao..................................................................................................233
Metadados......................................................................................................................... 236
Resumos na Rede.............................................................................................................. 238
Spamming de ndice e outras trapaas.............................................................................239
Vinculao de hipertexto/hipermdia.................................................................................240
Classificao na internet................................................................................................... 241
Portais............................................................................................................................... 242
Parte 2 Prtica...............................................................................................250
Captulo 18 Exerccios de indexao..........................................................250
Itens a serem indexados................................................................................................... 250
Indexao e explicaes do autor.....................................................................................253
Prefcio
A primeira edio desta obra, que recebeu o prmio de melhor livro do ano sobre cincia
da informao, outorgado pela American Society for Information Science, foi publicada em
1991; a segunda foi lanada em 1998. Ambas foram bem-recebidas pelos crticos, e o livro tem
sido amplamente utilizado como texto didtico na Amrica do Norte, no Reino Unido e em
outros pases.
Entre 1991 e 1998 este campo passou por mudanas notveis, o que suscitou a
necessidade de novos captulos, principalmente sobre a internet e a indexao e elaborao de
resumos para bases de dados de imagens e sons. As mudanas verificadas a partir de 1998
foram menos marcantes. No entanto, ocorreram avanos que definiam a necessidade de uma
terceira edio.
Todo o texto foi atualizado, embora os captulos iniciais, que tratam mais de princpios
bsicos, permaneam bem similares aos da segunda edio. Em compensao, alguns dos
captulos finais foram substancial ou completamente reescritos. Refiro-me aos captulos 13-17
que tratam, respectivamente, de bases de dados de imagens e sons, buscas em textos,
indexao automtica e atividades afins, indexao e a internet, e o futuro da indexao e da
redao de resumos.
No alterei muitas das figuras porque acho que as que foram utilizadas na segunda
edio ainda continuam totalmente vlidas para ilustrar os aspectos que desejo mostrar. Isso
ainda mais verdadeiro no que tange ao captulo 10, sobre servios impressos de indexao e
resumos. Embora pudesse ter atualizado as pginas apresentadas como amostras, pareceu-me
bastante desnecessrio faz-lo.
Embora a indexao e redao de resumos fossem antigamente tidas como processos
que somente interessavam a bibliotecas e a algumas editoras, sua relevncia e utilidade so
reconhecidas hoje em dia de modo muito mais amplo, pois, obviamente, encontram aplicao
em todos os tipos de recursos de informao em formato digital. Assim, esta edio, embora
continue sendo destinada fundamentalmente ao uso como texto didtico em escolas de
biblioteconomia e cincia da informao (e programas afins), ainda se reveste de interesse
para um pblico muito maior: produtores de bases de dados de todos os tipos, bem como
aquelas pessoas interessadas em outras reas, como o projeto de intranets, desenvolvimento
de portais, sistemas de gerenciamento da informao, e gesto do conhecimento em geral.
Acho que devo dizer algo acerca das fontes citadas. O autor de uma recenso da primeira
edio criticou-me por continuar citando fontes antigas. Apesar de ter feito um esforo para
atualizar por completo as fontes citadas (at o comeo de 2003), no tenho por que me
desculpar por continuar citando material antigo e at muito antigo. Para mim inconcebvel
que um livro sobre este assunto deixe de citar (por exemplo) Cutter (1876) e Ranganathan
(dcada de 1930). Ademais, muitas pessoas que hoje escrevem sobre esses temas parecem
no ter interesse nem conhecer as primeiras contribuies feitas a este campo. Acredito que
seja importante, principalmente para os estudantes, compreender como este campo se
desenvolveu e reconhecer que muitas das idias atualmente apresentadas como novas podem
ser encontradas, de fato, na literatura de trinta ou mais anos passados, em forma um tanto
similar.
Do mesmo que nas edies anteriores, esta no procura lidar com os ndices de livros
isolados, que aparecem no final dos livros impressos. Trata-se de assunto bem estudado em
outras obras escritas por pessoas com muito mais experincia do que eu nessa rea especfica.
Esta edio deve ainda ser vista como um texto de natureza introdutria. Embora creia
que os captulos 1-12 sejam bastante abrangentes, j sobre os temas focalizados nos captulos
13-15 foram escritos livros completos, de modo que esses captulos, em particular, devem ser
lidos como introdues a esses temas.
F.W. LANCASTER
Urbana, Illinois (EUA)
Maro de 2003
Agradecimentos
Encontra-se consignada nas legendas das figuras a permisso para utilizao de vrias
figuras de diferentes fontes. Alm disso, quero agradecer a: Elsevier Science pela permisso
para citar alguns trechos extensos de textos publicados em Information Processing and
Management; OCLC Inc. pela permisso para reproduzir longas passagens de um artigo de
ONeill et al. (2001); John Wiley and Sons pela permisso para citar vrios trechos extensos de
material publicado no Journal of the American Society for Information Science and Technology
(e seus antecessores); Information Today Inc. (<www.infotoday.com> pela permisso para
reproduzir extensas citaes de Rock (2001), de EContent e de Online; IBM pela permisso para
reproduzir uma longa citao do IBM Systems Journal; Thomas Craven pela permisso para
reproduzir citaes de vrios de seus artigos; Getty Research Institute por extensas citaes de
Layne (2002); IOS Press pela permisso de reproduzir urna extensa citao de Nielsen (1997);
e ACM Publications pela permisso de fazer citao de Wactlar et al. (2002).
Os termos e definies extrados da iso 5963:1985 so reproduzidos com a permisso da
International Organization for Standardization (ISO). Esta norma pode ser obtida junto a
qualquer membro da 150 e no stio na Rede da secretaria central da ISO no seguinte endereo:
<www.iso.org>. O detentor do direito autoral a ISO.
Por fim, quero agradecer a vrias pessoas por sua ajuda nesta edio: Bella Weinberg por
ter me chamado a ateno para algumas fontes que, de outra forma, me teriam passado
despercebidas; Bryan Heidorn por ter lido um primeiro rascunho do captulo 13; Susanne
Humphrey e Lou Knecht por atualizarem as informaes de que dispunha acerca da National
Library of Medicine; June Silvester, do Center for Aero Space Information; Chandra Prabha pelas
informaes do OCLC; o pessoal da Library and Information Science Library da University of
Illinois (e especialmente Sandy Wolf), por sua paciente ajuda na localizao de material para
mim, e Kathy Painter pelo seu trabalho, tradicionalmente excelente, de colocar a reviso do
texto em formato eletrnico.
F.W. LANCASTER
Urbana, Illinois
Abril de 2003
[...] o que pensamos que sejam inovaes muitas vezes so meras repeties [...] nossa
profisso pode desenvolver-se de modo mais rpido e melhor por meio de inovaes
cumulativas, construindo sobre os alicerces de seu passado ao invs de ignor-lo (p. 144).
Ele afirma que, em particular, as obras de Vannevar Bush e Hans Peter Luhn, que datam
de 40 ou 60 anos, contm idias que desde ento so reinventadas.
Minha pior experincia com esse problema especfico ocorreu h vrios anos, quando
deparei com um artigo escrito por um cientista europeu, essencialmente um matemtico,
acerca de assunto sobre o qual eu publicara anteriormente. Quando escrevi para mostrar que
ele deixara de citar meu trabalho anterior, e diversos outros de autoria de outros
pesquisadores, ele contestou, folgadamente, para dizer que nunca pesquisava na literatura, a
no ser que estivesse escrevendo um artigo de reviso! Que espcie de no-cincia egosta
essa?
Outro resultado da multiplicidade de profisses que agora contribuem para a literatura de
anlise temtica/recuperao da informao est na substituio, sem necessidade, da
terminologia, apropriada e reconhecida, da profisso bibliotecria. Exemplo bvio
metadados. O Oxford English Dictionary (em linha) registra 1968 como o ano do aparecimento
dessa palavra. Na poca foi usada para designar dados que descreviam conjuntos de dados
(numricos ou estatsticos). Desde ento tornou-se praticamente um substituto para descrio
bibliogrfica, denominao esta perfeitamente razovel, com a qual convivamos h muitos e
muitos anos e que aceita em normas internacionais. Algum, claro, poderia argumentar
que bibliogrfico aplica-se apenas a livros. Sua extenso, porm, a outras formas
documentrias (como em base de dados bibliogrficos e referncia bibliogrfica) convive
conosco h muito tempo.
Alguns autores, com certeza, chamaram ateno para o mesmo problema. Milstead e
Feldman (1999), por exemplo, argumentam convincentemente:
Quer o chamemos de catalogao. indexao ou metadados. o conceito familiar aos
profissionais da informao. Agora, o mundo eletrnico por fim o descobriu. Faz alguns anos,
somente uns poucos filsofos haviam ouvido falarem metadados. Hoje em dia, difcil
encontrar uma publicao sobre recursos eletrnicos que ignore essa palavra. [...] Como o
personagem que passou toda a vida escrevendo prosa sem saber que o fazia, 1 os
bibliotecrios e indexadores vm h sculos produzindo e normalizando metadados.
Ignorando este legado, uma imensa variedade de outros atores ingressaram recentemente
nesse campo, e muitos deles no tm qualquer idia de que algum mais antes deles j
tenha estado ali, feito aquilo. Sistemas diferentes esto sendo desenvolvidos para tipos
diferentes e s vezes os mesmos de informao, disso resultando uma atmosfera catica de
normas conflitantes (p. 25).
Dentre os termos que ele destaca para serem desprezados esto data warehouse
[armazm de dados] e data inart [mercado de dados] em vez de data- base [base de dados].
Uma palavra que enfrento cena dificuldade em aceitar inining [minerao] (como em
data inining, text mining, speech inining ou Web mining [minerao de dados, minerao de
texto, minerao de fala ou minerao da Rede], que amide usada como sinnimo de
knowledge discovery [descoberta de conhecimento]. Meu pai passou muitos anos da vida
numa mina de carvo do norte da Inglaterra, trabalhando como cavouqueiro. Eram longas
horas de trabalho, e durante a maior parte do ano s lhe era possvel ver a luz do dia uma vez
por semana. Muitas vezes, cavoucava o carvo num veio molhado, deitado na gua, de costas
ou de lado, numa galeria de teto muito baixo. No tenho certeza de que esse tipo de extrao
trabalhosa, na semi-escurido, seja a analogia que os data miners [mineradores de dados]
queiram realmente usar.
Minha maior queixa, porm, o fato de o substantivo 'classiflcation haver sido
praticamente substitudo por (pasme-se!) taxonomy (pasme-se duas vezes!!), ontology ou
at (pasme-se trs vezes!!!) taxonoinized set of terms [conjunto taxonomizado de termos]. A
maneira como estes termos so definidos em artigos recentes mostra claramente que so
empregados como sinnimos de classification scheme [esquema de classificao].
Caracterstico disso um artigo de Hovy (2003) que define:
[...] uma ontologia simplesmente como um conjunto taxonomizado de termos, que variam
desde termos muito gerais na parte superior [...] at termos muito especializados na parte
inferior (p. 48).
11
Lista de figuras
Figura 1 A funo da elaborao de ndices e resumos no quadro mais amplo da recuperao
da informao........................................................................................................................... 15
Figura 2 O problema da recuperao de itens pertinentes de uma base de dados.................15
Figura 3 Efeito da extenso do registro sobre a recuperabilidade...........................................18
Figura 4 Exemplo de um documento indexado segundo diferentes pontos de vista...............19
Figura 5 Anlise conceitual traduzida em trs vocabulrios controlados.................................27
Figura 6 As duas dimenses da indexao de um documento................................................31
Figura 7 Rendimentos decrescentes na indexao..................................................................33
Figura 8 Sistema de recuperao da informao representado como uma matriz..................38
Figura 9 Formulrio de indexao utilizado antigamente pela National Library of Medicine. . .39
Figura 10 Formulrio caracterstico da indexao de Mooers..................................................40
Figura 11 Parte de vocabulrio especializado sobre computadores digitais utilizado pelo U. S.
Patent and Trademark Office..................................................................................................... 41
Figura 12 Seo do microtesauro do Air Pollution Technical Information Center......................42
Figura 13 Tela de etiquetas no DCMS......................................................................................43
Figura 14 Registro de indexao pronto no DCMS...................................................................44
Figura 15 Exemplo de entradas de Medical subject headings annoted alphabetic list (2003)
.................................................................................................................................................. 44
Figura 16 Exemplo de entradas de Tumor key, um vocabulrio de entradas especializado
antigamente utilizado pela National Library of Medicine...........................................................45
Figura 17 Entradas de um ndice SLIC.....................................................................................47
Figura 18 Entradas de ndice baseado na alternao sistemtica (modelo da Excerpta Medica)
.................................................................................................................................................. 48
Figura 19 Exemplo de entradas de um ndice KWIC................................................................49
Figura 20 Amostra das entradas de um ndice KWOC.............................................................50
Figura 21 Formato alternativo de um ndice KWOC usado no Diabetes-Related Literature
Index, suplemento de Diabetes, volume 12, 1960.....................................................................51
Figura 22 Exemplo de entradas do British Technology lndex...................................................55
Figura 23 Sistema de relaes de Farradane...........................................................................56
Figura 24 Termos (04 - J) atribudos ao mesmo documento por cinco indexadores diferentes (a
- e)............................................................................................................................................. 58
Figura 25 Possveis fatores que influem na coerncia da indexao.......................................59
Figura 26 Relao entre coerncia e quantidade de termos atribudos...................................60
Figura 27 Efeito da quantidade de termos atribudos sobre a coerncia do indexador (dois
indexadores).............................................................................................................................. 61
Figura 28 Dois enfoques diferentes na indexao de um artigo intitulado..............................64
Figura 29 Dois enfoques diferentes na indexao de um artigo intitulado..............................64
Figura 30 Dois enfoques diferentes na indexao de um artigo intitulado..............................65
Figura 31 Dois enfoques diferentes na indexao de um artigo intitulado..............................65
Figura 32 Diferenas na anlise conceitual de um artigo intitulado........................................66
Figura 33 Fatores que influem nos resultados de uma busca numa base de dados................68
Figura 34 Exemplo da perda de um item importante por causa de mera omisso do indexador
.................................................................................................................................................. 69
Figura 35 Fatores que podem afetar a qualidade da indexao..............................................70
Figura 36 Coerncia do indexador relacionada aos interesses dos usurios...........................72
Figura 37 Padro de indexao para um artigo mdico, mostrando escores relativos
atribuio de vrios tipos de termos.......................................................................................... 75
Figura 38 Escores de dois indexadores em comparao com o padro da figura 37...............75
Figura 39 Resumo indicativo................................................................................................... 78
Figura 40 Resumo informativo................................................................................................79
Figura 41 Exemplo de um resumo crtico................................................................................80
Figura 42 Gabarito para um resumo estruturado....................................................................81
Figura 43 Resumo em diagrama de bloco de um artigo hipottico junto com um resumo
convencional para comparao............................................................................................... 82
Figura 44 Resumos modulares................................................................................................ 83
Figura 45 Entradas de ndices modulares................................................................................83
Figura 46, Parte 1 Comparao de minirresumo, resumo de autor e resumos publicados em
Chemical Abstracts e Biological Abstracts (ver a parte 2 da figura)..........................................84
Figura 46, Parte 2...................................................................................................................... 84
Figura 47 Princpios para redao de resumos, do Defense Documentation Center (1968)....87
12
14
Os termos utilizados podem, genericamente, ser designados como termos de indexao, embora, muitas vezes, seja
tambm empregada a palavra descritores, em particular quando ns estamos referindo a termos de um tesauro.
Neste livro, ambas as expresses so usadas de modo l:l(uivaknlc.
15
problema est em recuperar tantos itens teis quantos for possvel, e o menor nmero possvel
de itens inteis.
O menor dos dois retngulos internos da figura 2 representa os resultados de uma busca
realizada na base de dados, que recuperou 57 itens, seis dos quais foram teis e 51 inteis. A
relao entre itens teis e o total de itens recuperados (6/57 ou cerca de 10% neste caso)
comumente denominada coeficiente de preciso. O ndice empregado habitualmente para
expressar a extenso com que todos os itens teis so encontrados o coeficiente de
revocao. No presente exemplo, o coeficiente de revocao de 6/11 ou cerca de 54%.
Nessa situao, provavelmente seria preciso, para melhorar a revocao, fazer uma
busca mais genrica. Essa busca representada pelo maior dos dois retngulos internos. Ao
fazer a busca de modo mais genrico, aumentou-se a revocao para 8/11 (73%), mas a
preciso caiu ainda mais para 8/112, ou cerca de 7%. Uma caracterstica lamentvel, inerente
16
Uma busca que classifique os resultados em ordem de relevncia provvel exige uma medida um tanto diferente, a
qual, com efeito, compara a classificao [ranking] obtida com uma classificao ideal.
17
Em certo sentido, essa lista de termos pode ser vista como uma espcie de minirresumo.
Serviria a tal propsito se todos os termos fossem reunidos num ndice publicado, copiados
pela impressora ou mostrados na tela para representar um item recuperado numa base de
dados, como resultado de uma busca em linha.
De modo mais evidente, os termos atribudos pelo indexador servem como pontos de
acesso mediante os quais um item localizado e recuperado, durante uma busca por assunto
num ndice publicado ou numa base de dados eletrnica. 1 Assim, num ndice impresso, convm
que se possa encontrar o item hipottico mencionado anteriormente sob qualquer um dos seis
termos. Num sistema de recuperao informatizado, evidentemente, seria natural encontr-lo
sob qualquer um desses termos ou, de fato, sob qualquer combinao deles.
A diferena entre indexao e redao de resumos est se tornando cada vez mais
difusa. Por um lado, uma lista de termos de indexao pode ser copiada pela impressora ou
mostrada na tela de modo a constituir um minirresumo. Por outro lado, o texto de resumos
pode ser armazenado num sistema informatizado de modo a permitir a realizao de buscas
por meio da combinao de palavras que ocorram nos textos. Esses resumos podem ser
utilizados no lugar de termos de indexao, permitindo o acesso aos itens, ou complementar os
pontos de acesso proporcionados pelos termos de indexao. Em certa medida isso modifica a
funo do resumidor, que deve agora preocupar-se no s em redigir uma descrio clara e de
boa qualidade do contedo do documento, mas tambm em criar um registro que seja uma
representao eficaz para fins de recuperao.
Se a indexao e a redao de resumos fossem consideradas como atividades
inteiramente complementares, a natureza da atividade de indexao sofreria algum tipo de
mudana. Por exemplo, o indexador se concentraria na atribuio de termos que
complementassem os pontos de acesso existentes no resumo. Tal complementaridade, porm,
deve ser inteiramente reconhecida e compreendida pelo usurio da base de dados. Do
contrrio, um conjunto de termos de indexao isolados daria uma imagem bastante
equivocada do contedo de um item.
Extenso do registro
Uma das propriedades mais importantes de uma representao de contedo temtico
sua extenso. O efeito da extenso do registro acha-se exemplificado na figura 3. No lado
esquerdo da figura, encontram-se vrias representaes do contedo de um artigo de
peridico na forma de texto narrativo; no lado direito, esto duas representaes na forma de
listas de termos de indexao.
1
Outros autores empregam terminologia diferente para designar a indexao e os termos de indexao sem que isso
altere de modo relevante o significado adotado neste livro. Por exemplo, Anderson (1985) v os termos como
indicadores de contedo; indexao como o processo de indicar o contedo e caractersticas afins de um
documento. OConnor (1996) prefere o termo apontamento [pointing]: os termos de indexao so apontadores;
indexao a tarefa de atribuir apontadores teis a fontes de informao.
18
O ttulo contm uma indicao geral sobre aquilo de que trata o artigo. O resumo breve
oferece mais detalhes, indicando que o artigo apresenta resultados da pesquisa e identificando
as principais questes analisadas. O resumo ampliado vai mais alm, identificando todas as
questes focalizadas na pesquisa e informando sobre o tamanho da amostra utilizada no
estudo.
Quanto mais informaes so apresentadas, mais claramente a representao revela o
alcance do artigo, tornando-se mais provvel que venha a indicar para o leitor se esse artigo
satisfaz ou no a uma necessidade de informao. Por exemplo, algum talvez esteja procura
de artigos que mencionem as atitudes norte-americanas em relao a vrios lderes rabes. O
ttulo no traz indicao alguma de que esse tpico especfico seja analisado, e o resumo
breve, ao focalizar outros tpicos, sugere que talvez isso no acontea. somente o resumo
ampliado que mostra que o artigo inclui informaes sobre esse assunto.
Tambm, quanto maior a representao, mais pontos de acesso ela proporciona. Se as
palavras do ttulo fossem os nicos pontos de acesso, esse item provavelmente no seria
localizado em muitas buscas para as quais poderia ser considerado uma resposta vlida.
medida que se aumenta a extenso da representao tambm se aumenta a recuperabilidade
do item. provvel que somente com o resumo ampliado fosse possvel recuperar esse item
durante uma busca de informaes sobre as atitudes norte-americanas em face dos lderes
rabes.
Ttulo
Pesquisa nacional de opinio pblica sobre as atitudes
norte-americanas a respeito do Oriente Mdio
Indexao (seletiva)
OPINIO PBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MDIO
Resumo (breve)
Uma pesquisa realizada por telefone em 1985 apresenta
opinies sobre tpicos como: a ajuda norte-americana a
Israel e ao Egito; se os EUA devem tomar o partido de
Israel, das naes rabes, ou de nenhum destes; se a
OLP deve participar de uma conferncia de paz; e se um
Estado palestino independente um pr-requisito para
a paz.
Indexao (exaustiva)
OPINIO PBLICA
PESQUISAS POR TELEFONE
ESTADOS UNIDOS
ATITUDES
ORIENTE MDIO
ISRAEL
EGITO
NAES RABES
ORGANIZAO PARA A LIBERTAO DA
PALESTINA
CONFERNCIAS DE PAZ
PAZ
ESTADO PALESTINO
AJUDA EXTERNIA
LDERES POLTICOS
Resumo (ampliado)
Em 1985 foram feitas entrevistas por telefone com uma
amostra probabilstica de 655 norte-americanos.
Obtiveram-se respostas s seguintes questes: o
estabelecimento de um Estado palestino essencial
para a paz; deve ser reduzida a ajuda norte-americana
a Israel e ao Egito; os EUA devem participar de uma
conferncia de paz que inclua a OLP; os EUA no devem
favorecer nem Israel nem as naes rabes, mas, sim,
manter relaes amistosas com eles? Tambm se
expressaram opinies sobre os principais lderes do
Oriente Mdio (Hussein, Arafat, Peres, Mubarak, Fahd,
Assad), especialmente seus esforos pela paz, e se os
entrevistados achavam que possuam ou no
informaes suficientes sobre os diversos grupos
nacionais da regio.
Figura 3 Efeito da extenso do registro sobre a recuperabilidade
A mesma situao aplica-se indexao. A indexao seletiva, que inclua apenas cinco
termos, apresenta uma indicao muito geral daquilo de que trata o artigo (aproximadamente
equivalente, neste caso, ao ttulo) e um nvel de acesso muito limitado. A indexao mais
19
exaustiva proporciona uma indicao muito melhor do assunto especfico de que trata o artigo,
bem como possibilita muito mais pontos de acesso.
Etapas da indexao de assuntos
A indexao de assuntos envolve duas etapas principais:
1. Anlise conceitual, e
2. Traduo.
Intelectualmente so etapas totalmente distintas, embora nem sempre sejam
diferenadas com clareza e possam, de fato, ocorrer de modo simultneo.
A anlise conceitual, em primeiro lugar, implica decidir do que trata um documento - isto
, qual o seu assunto. Os termos que aparecem na lista direita, na figura 3, representam a
anlise conceitual de um artigo feita por este autor aquilo que, segundo sua opinio, constitua
o assunto do artigo.
Esta afirmativa sobre anlise conceitual est bastante simplificada. A indexao de
assuntos normalmente feita visando a atender s necessidades de determinada clientela - os
usurios de um centro de informao ou de uma publicao especfica. Uma indexao de
assuntos eficiente implica que se tome uma deciso no somente quanto ao que tratado num
documento, mas tambm por que ele se reveste de provvel interesse para determinado grupo
de usurios. Em outras palavras, no h um conjunto correto de termos de indexao para
documento algum. A mesma publicao ser indexada de modo bastante diferente em
diferentes centros de informao, e deve ser indexada de modo diferente, se os grupos de
usurios estiverem interessados no documento por diferentes razes.1
O indexador, ento, deve formular vrias perguntas sobre um documento:
1. De que trata?
2. Por que foi incorporado a nosso acervo?
3. Quais de seus aspectos sero de interesse para nossos usurios?
Esta situao acha-se bem exemplificada na figura 4. Esse exemplo hipottico refere-se a
relatrio publicado pela National Aeronautics and Space Administration (NASA) a respeito de
um vo espacial tripulado. Ao incorporar esse relatrio sua prpria base de dados, a NASA
provavelmente estar interessada em todas as suas facetas e o indexar exaustivamente,
procurando abranger todos os seus aspectos, talvez em nvel razoavelmente genrico. Uma
parte do relatrio refere-se ao traje usado pelos astronautas, mencionando alguns compostos
novos de borracha sinttica empregados em partes desse traje. Isto faz com que o relatrio
seja interessante para uma fbrica de borracha. Ao ser incorporado ao acervo de documentos
dessa fbrica, o relatrio ser indexado, porm, de modo bastante diferente. Sero usados
termos altamente especficos para indexar os compostos novos, e o termo genrico TRAJES
ESPACIAIS talvez seja empregado para indicar determinada aplicao para esses compostos.
Uma empresa metalrgica poder interessar-se pelo mesmo relatrio por um motivo diferente:
ele menciona uma nova tcnica de soldagem desenvolvida para unir certas ligas na construo
do veculo espacial. Neste caso, ser indexado sob os termos relativos a soldagem, os termos
apropriados para metais e talvez o termo de aplicao genrica VECULOS ESPACIAIS. A fbrica
de borracha indexa o relatrio de forma muito diferente daquela adotada pela empresa
metalrgica, e nenhum desses conjuntos de termos se assemelha lista mais exaustiva
adotada pela prpria NASA.
E assim porque assim tem que ser. Quanto mais especializada a clientela de um centro
de informao maior a probabilidade de que a indexao possa e deva ser feita sob medida,
ajustando-se com preciso aos interesses do grupo. Somente entre instituies de carter mais
genrico, como, por exemplo, bibliotecas universitrias gerais, que existe a possibilidade de
uma delas indexar um documento exatamente da mesma forma que outra. Fidel (1994)
emprega a expresso indexao centrada no usurio para designar o princpio da indexao
que se baseia nos pedidos que so esperados de determinada clientela.
Dabney (1986a) admitiu isso ao fazer uma distino entre indexao orientada para o documento e indexao
orientada para a consulta. Acha-se tambm implcito no mtodo chamadogedanken proposto por Cooper (I978).
20
Hjorland (2001) concorda que a indexao deve ser moldada para se ajustar s
necessidades de determinada clientela:
Uma vez que qualquer documento pode, em princpio, proporcionar respostas a uma
infinidade de questes, as anlises de assuntos devem estabelecer prioridades baseadas nos
grupos de usurios especficos atendidos (ou servios especficos proporcionados na ecologia
da informao). O assunto de um documento assim relativo ao objetivo do servio de
informao especfico. Defino assunto [...] como os potenciais epistemolgicos ou
informativos dos documentos. A melhor anlise temtica a que faz o melhor prognstico
quanto ao uso futuro do documento (p. 776).
Mai (2001), que se vale da semitica na anlise do processo de indexao temtica, faz
uma descrio lcida das dificuldades que caracterizam o esforo de reconhecer por que
determinado documento viria a ter interesse para futuros usurios:
Seria quase impossvel, naturalmente, para qualquer pessoa ou, neste caso, qualquer
indexador, precisar todas as idias e significados que estivessem associados a qualquer
documento, posto que sempre haver idias e significados potenciais que diferentes pessoas
em diferentes momentos e lugares podero descobrir nesse documento. Alm do que, seria
quase impossvel prever com exatido quais das inmeras idias e significados que
estivessem associados ao documento seriam especificamente teis para os usurios ou
dariam ao documento alguma utilidade duradoura. da mxima importncia reconhecer e
aceitar essa indefinio fundamental. O indexador deve compreender, desde o incio, que
jamais descobrir todas as idias e significados que estariam associados ao documento e
que, portanto, no possvel descrever todas essas idias e significados (p. 606).
21
Para certos tipos de materiais, a indexao orientada para o usurio pode at ser mais
importante do que o no caso de artigos de peridicos, livros ou relatrios tcnicos. Por
exemplo, certos autores, como Shatford (1986) e Enser (1995), salientam que diferentes
grupos de usurios podem ver os acervos de imagens de modo bastante diferente. O que levou
Brown et al. (1996) a sugerirem a necessidade de um tratamento democrtico da indexao,
em que os usurios acrescentariam aos registros termos de sua prpria escolha, quando isso
fosse necessrio e apropriado.
Hidderleye Rafferty (1997) apresentam um mtodo de tratamento democrtico da
indexao. Uma amostra de usurios recebe um objeto (livro, aI1igo, imagem) junto com uma
indexao desse objeto que reflete uma viso pblica (por exemplo, um conjunto de termos
extrados de um tesauro por indexadores experientes). Os usurios alteram a viso pblica de
modo a refletir sua prpria viso particular. Com base em mltiplas vises particulares de um
conjunto de objetos, surge uma nova viso pblica. Adota-se um processo de. harmonizao
para chegar viso pblica final. Esse processo leva em conta quantos usurios associaram
determinado termo a determinado objeto. Em especial, os autores defendem um tratamento
democrtico da indexao de obras de fico porque, como salientam, o texto ficcional pode
ser lido de muitas maneiras diferentes.
Mtodos colaborativos ou democrticos so, no mais das vezes, recomendados para o
caso da indexao de imagens (ver o captulo 13).
Os mtodos colaborativos de indexao so, obviamente, mais viveis em ambiente de
biblioteca digital. Isto , usurios de uma biblioteca podem oferecer novos termos de
indexao aos itens que consultam, e esses termos fornecidos pelos usurios sero ento
armazenados em novo campo do registro. Villarroel et al. (2002) propem um enfoque em que
os usurios destacam sees do texto digital que consideram importantes, e esse destaque
pode levar reviso dos pesos (ver captulo 11) relativos aos termos de indexao ou
palavras do texto.
H uma importante lio a tirar dos princpios da indexao orientada para o usurio.
preciso que os indexadores saibam muito mais do que os princpios da indexao. Devem, em
especial, estar inteiramente a par dos interesses da comunidade atendida e das necessidades
de informao de seus membros. Na realidade, recomenda-se, usualmente, que o indexador
no fique nos bastidores, mas que tambm procure desempenhar outras atividades, inclusive
a de bibliotecrio de referncia, onde participam de buscas nos registros que criaram.
Pode-se avanar ainda mais com o princpio da indexao orientada para o usurio ao
sustentar que, em relao a determinado acervo de documentos e determinado grupo de
usurios, qualquer conjunto ideal de termos de indexao ser ideal somente em determinado
ponto no tempo. Passados alguns anos, o mesmo grupo de usurios poder precisar de acesso
ao mesmo acervo (ou outro bastante semelhante) a partir de perspectivas diferentes. Um
exemplo bvio seria uma coleo de relatrios tcnicos dentro de uma instituio de pesquisa:
as mudanas de prioridades e os interesses de pesquisa da instituio podem alterar a forma
como a coleo til para a comunidade. Isso pode ser verdade, em especial, no caso de
pesquisas interdisciplinares. De fato, pode-se alegar que, num mundo ideal, um acervo seria
organizado (isto , indexado) em torno dos interesses de determinado projeto de pesquisa.
Quando o projeto mudasse, o acervo seria reorganizado em torno das novas exigncias.
Naturalmente, o custo da reindexao e reorganizao em geral torna essa proposta
economicamente pouco atraente. Weinberg (1992) salientou a impermanncia do acesso
temtico e o fato de ser relativo. No entanto, ela baseia essa afirmao no fato de que os
vocabulrios (por exemplo, cabealhos de assuntos, classificaes) mudam e no no fato de
que as necessidades e interesses dos usurios mudam.
Mai (2000) tambm adverte que a indexao orientada para o usurio somente pode
estar voltada para determinado conjunto de usurios em determinado ponto no tempo:
Se se focalizar exclusivamente o aspecto da representao, ignorando os usurios futuros,
corre-se o risco de representar os documentos de uma forma que no ter qualquer serventia
para os usurios. Um indexador que no d muita ateno aos usurios poder optar por
representar assuntos de documentos que no tenham interesse para eles, ou usar um
vocabulrio diferente do vocabulrio deles, ou representar o assunto em nvel que seja muito
genrico ou muito especfico para eles. No entanto, se o indexador der excessiva ateno aos
usurios do sistema, poder representar os documentos numa forma tal que a representao
temtica dos documentos somente atenda aos usurios atuais e s necessidades de
informao atuais (p. 294).
22
Atinncia
Nas consideraes anteriores no se fez qualquer tentativa para definir a expresso de
que trata um documento: a expresso de que trata era simplesmente um sinnimo para tem
por assunto. Ou seja, usou-se de que trata um documento para designar o mesmo que os
assuntos de um documento. Estas expresses talvez no sejam muito precisas e no fcil
definir trata de e tem por assunto. Apesar disso, so expresses que soam aceitveis para a
maioria das pessoas, sendo por elas compreendidas. No pretendo partir para uma discusso
filosfica sobre o significado de trata de ou atinncia. 1 Vrios autores j o fizeram. E nem
assim conseguiram esclarecer a situao, pelo menos no que tange atividade da indexao
de assuntos. Beghtol (1986) e Hutchins (1978) recorrem ambos lingstica do texto ao
examinar esta questo; Maron (1977) adota um enfoque probabilstico, e Swift et al. (1978) so
cautelosos ao salientar que a atinncia na indexao talvez no coincida com a atinncia que
as pessoas que esto em busca de informaes tm em mente. Wilson (1968) chega ao ponto
de sugerir que a indexao de assuntos se defronta com problemas intratveis, visto ser to
difcil decidir do que trata um documento.
Moens et al. (1999) afirmam que um texto no possui uma atinncia intrnseca, mas que
tambm possui diferentes significados de acordo com o uso particular que uma pessoa pode
fazer da atinncia em dado momento.
Layne (2002) faz distino entre de-ncia [of-ness] e atinncia [aboutness] no caso de
imagens artsticas:
Menos bvio do que a de-ncia [of-ness] de uma obra de arte, mas muitas vezes mais
instigante, aquilo de que trata a obra de arte o [...] s vezes, a atinncia [about-ness] de
uma obra de arte relativamente bvia, como na Alegoria da justia, de Georg Penczo [...]
Essa a imagem de [of] uma mulher despida que segura uma espada e uma balana, mas o
ttulo nos diz que a imagem uma figura alegrica que representa a justia ou, em outras
palavras, que a imagem trata do [is about] conceito abstrato de justia. No desenho de
Goya Despreciar los insultos [...] a atinncia um pouco menos bvia, mas claro que essa
obra possui algum significado alm simplesmente do que mostra de. De fato, uma descrio
do que contm - um homem, talvez o prprio Goya, gesticulando para dois anes
uniformizados - no basta realmente para dar sentido imagem; ela simboliza algo mais,
trata de algo mais: a relao entre Espanha e Frana no incio do sculo XIX ou, mais
especificamente, a atitude pessoal de Goya em relao ocupao da Espanha pela Frana
(p. 4).
Ela acredita que essa distino vlida e que, na recuperao, deveria ser possvel
separar uma da outra:
[...] possibilita recuperar, por exemplo, exatamente aquelas imagens que sejam da morte e
excluir as que tratam da morte. Tambm permite a subdiviso de grandes conjuntos de
imagens recuperadas com base nessas distines. Por exemplo, uma pesquisa sobre morte
como assunto recuperaria imagens subdivididas em grupos baseados em se a imagem
representa explicitamente a morte ou se trata do tema da morte (p. 13).
Bruza et al. (2000) focalizam a atinncia de uma perspectiva lgica. Tentam formalizar a
relevncia lgica mediante a formalizao de propriedades do senso comum que descrevem a
relao de atinncia o Tambm trabalham com a no-atinncia e a interao entre atinncia
e no-atinncia. No contexto da recuperao da informao, a no-atinncia constitui
realmente uma situao mais simples porque a grande maioria dos itens em qualquer base de
dados evidentemente no guarda qualquer relao possvel com qualquer consulta ou
necessidade de informao (isto , so naturalmente itens no-atinentes).
O tema da atinncia est relacionado muito de perto com o da relevncia isto , a relao
entre um documento e uma necessidade de informao ou entre um documento e um
enunciado de necessidade de informao (uma consulta). O tema da relevncia/pertinncia
produziu um grande volume de debates e publicaes. Encontra-se em Mizzaro (1998) um
apanhado muito completo. Hj01land (2000) salienta que a relevncia dependente dos
pressupostos tericos que orientam o comportamento da pessoa que busca informao.
Conforme Harter (1992) ressaltou, no entanto, um documento pode ser relevante para
uma necessidade de informao sem tratar dessa necessidade de informao. Por exemplo,
se escrevo sobre o tema das barreiras comunicao, uma histria do latim talvez tenha
alguma relevncia, principalmente se lidar com a utilizao atual do latim pela Igreja Catlica e
1
O autor emprega os termos ingleses about e aboutness o primeiro traduzimos por trata de e o segundo por
atinncia o Outros traduzem aboutness por tematicidade, temtica, acerca-de, ser acerca-de, ser sobre algo,
etc. (N.T.)
23
comas instituies que hoje em dia se esforam para promover seu uso mais amplo. No
obstante, ainda que possa inspirar-me nessa fonte ao escrever meu artigo, poucas pessoas
alegariam que ele trata da comunicao internacional, sendo improvvel que venha a ser
indexado desta forma, a menos que o autor faa meno explicitamente ao aspecto da
comunicao internacional.
Wong et al. (2001) tratam atinncia como sendo mais ou menos sinnimo de
relevncia:
[...] se um dado documento. O trata do pedido Q, ento existe uma alta probabilidade de que
D ser relevante em relao necessidade de informao associada. Assim, o problema da
recuperao da informao se reduz deciso acerca da relao de atinncia entre
documentos e pedidos (p. 338).
habitual da indexao, como, por exemplo, o emprego de subcabealhos pela National Library
of Medicine.
Breton (1981) alega que os engenheiros pouco recorrem s bases de dados porque os
indexadores rotulam os documentos com os nomes de materiais ou dispositivos, enquanto
mais provvel que os engenheiros precisem fazer as buscas a partir dos atributos ou das
funes desempenhadas por esses materiais ou dispositivos. Em outras palavras, eles
gostariam de localizar um material ou dispositivo que satisfizesse a algum requisito atual
(quanto resistncia, condutividade, resistncia corroso, ou coisa que o valha) sem terem
de nome-lo. Isso no constitui uma condenao da indexao de assuntos de per si, mas das
polticas de indexao adotadas pela maioria dos produtores de bases de dados. Se se diz que
um novo material ou uma liga descrita num relatrio possui certa resistncia trao, esta
propriedade pode ser indexada (por exemplo, atribuindo o termo RESISTNCIA TRAO),
porm o valor especfico dessa propriedade (isto , a resistncia alcanvel) no seria
indexado pela maioria dos produtores de bases de dados, embora se possa mencion-lo no
resumo. Naturalmente, no h razo para que os valores no sejam indexados (por exemplo, o
termo RESISTNCIA TRAO poderia ser subdividido em vinte termos mais especficos, cada
um representando uma ordem de valores de resistncia trao) e eles estariam em algumas
bases de dados, assim como os ndices de uma empresa para seus prprios arquivos de
contratos, ndices de compilaes de dados, ou certas bases de dados de patentes. Algumas
das objees de Breton, ento, seriam contestadas mediante a indexao em nvel muito mais
alto de especificidade. Tambm possvel indexar as funes, desde que as que possivelmente
se apliquem a um dispositivo sejam identificadas pelo autor e haja termos apropriados no
vocabulrio da base de dados. Porm, totalmente irracional alimentar a expectativa de que o
indexador seja capaz de reconhecer aplicaes que no foram especificamente afirmadas pelo
autor.
Posteriormente, Breton (1991) relatou pesquisas sobre um sistema de indexao que
concretizava suas idias e pretendia ajudar no processo de inveno. O sistema experimental
resultou da indexao de milhares de produtos industriais segundo as funes que
desempenham e seus atributos distintivos. Os atributos incluam coisas como mais leve,
mais barato, mais seguro e mais forte.
Alguns autores sugerem que possvel melhorar a recuperao em certos contextos por
meio da indexao somente de determinadas caractersticas de um texto. Por exemplo, Oh
(1998) sugere que, em psicologia, a indexao apenas de fatos empricos (nomes de
variveis, valores de correlao e informao sobre o nvel de significncia) melhoraria as
condies de recuperao. Embora uma indexao altamente especializada como essa seja
justificvel em raras situaes, improvvel que seja uma exigncia da maioria e
provavelmente ser muito mais dispendiosa do que uma abordagem mais convencional.
Virou moda nos ltimos anos considerar o problema da recuperao da informao como
sendo fundamentalmente uma questo de comparar o estado anmalo de conhecimento de
um consulente com o estado de conhecimento mais coerente dos autores (ver, por exemplo,
Belkin et al., 1982), implicando isso que os problemas residem mais na sada do sistema
(busca) do que na entrada. H um certo equvoco nisso. Se aceitamos que a indexao mais
eficiente quando se orienta para as necessidades de determinado grupo de usurios, a funo
do indexador ser prever os tipos de pedidos para os quais determinado documento ser
provavelmente uma resposta til. Talvez isso ainda seja mais difcil do que prever quais os
tipos de documentos que tm probabilidade de corresponder de modo til a determinado
pedido, o que constitui, em certo sentido, a funo de quem faz a busca. Poder-se-ia argir,
ento, que o estado anmalo de conhecimento aplica-se mais ao lado de entrada do sistema
de recuperao do que sua sada. Olafsen e Vokac (1983) vem essa particularidade com
clareza:
O indexador tem de fazer conjeturas sobre quais consultas sero formuladas pelo futuro
usurio do sistema. Independentemente do grau de habilidade aplicada a esse exerccio de
adivinhao, ainda assim sero conjeturas, e o usurio recorre ao sistema levando sua
prpria questo concreta, e as associaes que faz podem ser diferentes das do indexador
(p. 294).
Em algumas aplicaes da indexao talvez seja possvel ser bastante mais preciso no
que se refere ao que deva ser consideradoindexvel. Ao tratar da indexao de uma
enciclopdia; Preschel (1981) oferece as seguintes diretrizes:
Toda informao textual de natureza substantiva deve ser indexada. Define-se como
substantiva a informao que abranja de 8 a 10 linhas de texto ou que seja singular ou
notvel e que quase com certeza no ocorra em outro lugar da enciclopdia (p. 2). 1
ISRAEL
EGITO
AJUDA
PAZ
Esta citao de um texto indito reproduzida com autorizao de Funk & Wagnalls.
26
3. Reunir ou ligar termos cujos significados apresentem uma relao mais estreita
entre si. Dois tipos de relaes so identificados explicitamente: as hierrquicas e
as no-hierrquicas (ou associativas). Por exemplo, o termo MULHERES
OPERRIAS relaciona-se hierarquicamente com MULHERES (como uma espcie
deste termo) e com DONAS DE CASA (tambm uma espcie do termo MULHERES),
bem como est associado a outros termos, como EMPREGO ou FAMLIAS
MONOPARENTAIS, que aparecem em hierarquias bem diferentes.
So trs os tipos principais de vocabulrios controlados: esquemas de classificao
bibliogrfica (como a Classificao Decimal de Dewey), listas de cabealhos de assuntos e
tesauros. Todos procuram apresentar os termos tanto alfabtica quanto sistematicamente.
Nas classificaes, o arranjo alfabtico secundrio, na forma de um ndice que remete para o
arranjo principal, que hierrquico. No tesauro, o arranjo explcito dos termos alfabtico, mas
existe uma estrutura hierrquica implcita, incorporada lista alfabtica por meio de
remissivas. A tradicional lista de cabealhos de assuntos similar ao tesauro por ser de base
alfabtica, mas difere dele porque incorpora uma estrutura hierrquica imperfeita e por no
distinguir claramente as relaes hierrquicas das associativas. Os trs tipos de vocabulrio
controlam sinnimos, distinguem homgrafos e agrupam termos afins, mas empregam
mtodos um tanto diferentes para alcanar estes objetivos.
Um estudo mais completo dessas questes encontra-se em Lancaster (1986).
Indexao como classificao
Na bibliografia de biblioteconomia e cincia da informao, faz-se, s vezes, uma
distino entre as trs expresses indexao de assuntos, catalogao de assuntos e
classificao. Catalogao de assuntos refere-se comumente atribuio de cabealhos de
assuntos para representar o contedo total de itens bibliogrficos inteiros (livros, relatrios,
peridicos, etc.) no catlogo das bibliotecas. Indexao de assuntos expresso usada de
modo mais impreciso; refere-se representao do contedo temtico de partes de itens
bibliogrficos inteiros, como o caso do ndice de final de livro. Assim, uma biblioteca pode
catalogar um livro sob o cabealho de assunto CES, para indicar seu contedo temtico
global; o contedo pormenorizado somente revelado pelo ndice de assuntos no final do livro.
A distino entre as expresses catalogao de assuntos e indexao de assuntos, uma delas
referindo-se a itens bibliogrficos inteiros e a outra a partes de itens, artificial, enganosa e
incongruente. O processo pelo qual o contedo temtico de itens bibliogrficos representado
em bases de dados publicadas - em formato impresso ou eletrnico - quase invariavelmente
chamado de indexao de assuntos, quer se estejam examinando itens total ou parcialmente.
Assim, o ndice de assuntos, por exemplo, do Chemical Abstracts remete a livros ou relatrios
tcnicos inteiros, bem como a partes de itens bibliogrficos (captulos de livros, trabalhos
publicados em anais de eventos, artigos de peridicos). Por outro lado, as bibliotecas podem
optar por representar em seus catlogos partes de livros (por exemplo, captulos ou artigos); a
isto se denomina comumente catalogao analtica. Quando aplicada ao contedo temtico,
esta atividade seria a catalogao analtica de assuntos.
A situao fica ainda mais confusa ao se examinar o termo classificao. Os bibliotecrios
costumam empregar esta palavra para designar a atribuio de nmeros de classificao
(extrados de um esquema de classificao - por exemplo, o Decimal de Dewey (CDD), o
Decimal Universal (CDU), o da Library of Congress (LC) - a itens bibliogrficos, especialmente
com a finalidade de arrum-los nas estantes das bibliotecas, em mveis de arquivo, etc. O
catlogo de assuntos de uma biblioteca, porm, pode ser organizado alfabeticamente
(catlogo alfabtico de assuntos ou catlogo,dicionrio) ou organizado segundo a seqncia de
um esquema de classificao (catlogo sistemtico). Suponhamos que o bibliotecrio tome um
livro e decida que trata de aves. Ele lhe atribui o cabealho de assunto AVES.
Alternativamente, pode atribuir o nmero de classificao 598. Muitos se refeririam primeira
operao como catalogao de assuntos e segunda como classificao, uma distino
totalmente absurda. A confuso ainda maior quando se percebe que indexao de assuntos
pode envolver o emprego de um esquema de classificao ou que um ndice impresso de
assuntos pode a.dotar a seqncia de um esquema de classificao.
Estas diferenas termino lgicas so muito inexpressivas e s servem para confundir (ver
Acton, 1986, para um exemplo tpico). O fato que a classificao, em sentido mais amplo,
permeia todas as atividades pertinentes ao armazenamento e recuperao da informao.
Parte dessa confuso terminolgica se deve incapacidade de distinguir entre as etapas de
anlise conceitual e de traduo na indexao.
27
28
Este exemplo ilustra dois aspectos importantes. Primeiro, o tipo de vocabulrio controlado
(esquema de classificao, cabealhos de assuntos, tesauro) no o fator mais importante a
influir na etapa de traduo da indexao. Muito mais importantes so o alcance (abrangncia)
e a especificidade do vocabulrio. Neste exerccio de indexao, os trs vocabulrios podem
abranger o assunto muito bem, embora de modo um tanto diferente. O segundo aspecto que o
exemplo ilustra que, embora a especificidade seja uma propriedade muito importante de um
vocabulrio controlado, pode ser obtida de diferentes formas em diferentes vocabulrios.
importante considerar, em especial, as propriedades de combinaes de termos de indexao
mais do que as propriedades de termos isolados.
Anlise
conceitual
Classificao Decimal
de Dewey
Robs
industriais
Inteligncia
artificial
670.427263
Inteligncia artificial
aplicada a robs em
operaes de
fabricao
Operaes de
fabricao
Library of Congress
Subject Headings
INSPEC Thesaurus
ROBOTS, INDUSTRIAL
INDUSTRIAL ROBOTS
ARTIFICIAL
INTELLIGENCE
ARTIFICIAL
INTELLIGENCE
MANUFACTURING
PROCESSES
AUTOMATION
MANUFACTURING
PROCESSES
Manuseio de
materiais
621.86 Equipamento
de manuseio de
materiais
MATERIALS HANDLING
MATERIALS HANDLING
Locomoo
531.112 Cinemtica
ROBOTS - MOTION
KINEMATICS
29
Sumrio;
Todos esses elementos devem ser examinados e avaliados pelo indexador durante a anlise
que faz do documento. No recomendvel fazer a indexao a partir exclusivamente do
ttulo, e, se houver um resumo, no deve ser visto como um substituto satisfatrio do exame
do texto. Os ttulos podem ser enganosos; tanto os ttulos quanto os resumos podem ser
inadequados; em muitos casos nenhum dos dois uma fonte confivel do tipo de informao
que o indexador requer (p. 2).
Ver Milstead (1984) para outras consideraes sobre como examinar um texto para identificar sua matria
indexvel.
31
Isso foi demonstrado em numerosas ocasies; por exemplo, por Boyce e McLain (1989).
32
Na realidade, naturalmente, isso um exagero de simplificao. Quando tem em mos um documento prolixo, o
indexador talvez precise de mais tempo para incluir de modo exaustivo seu contedo. Em outros casos, talvez seja
mais rpido usar muitos termos ao invs de tentar selecionar alguns poucos de um grupo em que eles podem estar
estreitamente relacionados ou serem coincidentes. Em geral, no entanto, quanto mais termos forem usados, mais
dispendioso ser dar-lhes entrada na base de dados e process-las subseqentemente. Alm disso, aumentar a
quantidade de termos aumentar substancialmente os custos dos ndices em formato de fichas ou impressos.
33
Os mtodos de indexao e redao automticas de resumos (ver captulo 15) baseiamse grandemente em critrios estatsticos (a contagem de ocorrncias de palavras no texto), de
modo que possvel aplicar medidas de densidade (isto , o nmero de termos de indexao
ou a extenso do resumo em relao extenso do texto). Connolly e Landeen (2001)
propem e aplicam medida similar (nmero de entradas do ndice em relao ao nmero total
de linhas de texto) aos ndices do final de livros.
bvio que, medida que as bases de dados crescem de tamanho, a quantidade de
itens que aparecem sob qualquer termo tambm tende a crescer. Torna-se necessrio,
portanto, indexar com o emprego de mais termos (e tambm torn-los cada vez mais
especficos) de modo que a indexao seja mais discriminativa para possibilitar pesquisas em
que se alcance um nvel adequado de revocao com nvel tolervel de preciso.
Lamentavelmente, isso no tem sido levado em conta na prtica da catalogao de assuntos
entre a comunidade bibliotecria dos EUA. O contedo temtico dos livros representado em
nvel muito genrico e superficial (em mdia, menos de duas combinaes de cabealho de
assunto/ subcabealho por item, conforme ONeill e Aluri, 1981). Mesmo que isso fosse
aceitvel h 50 anos, quando os acervos eram bem menores, e ainda o seja no caso de
acervos muito pequenos, hoje praticamente intil em catlogos que abranjam vrios milhes
de itens. A converso de catlogos em fichas para catlogos em linha proporcionou aos
usurios uma grande vantagem potencial - a possibilidade de fazer buscas com termos em
combinaes lgicas. O valor potencial disso, porm, reduz-se grandemente devido ao baixo
nvel de exaustividade das representaes constantes do catlogo. Por conseguinte, as
pesquisas em linha nos catlogos de grandes bibliotecas universitrias freqentemente
resultam na recuperao de centenas de itens, a maioria dos quais talvez seja totalmente
imprestvel para o consulente (Lancaster et al., 1991). Esse fenmeno da recuperao
volumosa estimulou a realizao de muitas experincias sobre como fazer buscas em grandes
catlogos de forma mais discriminativa (ver, por exemplo, Prabha, 1991), tais como a
delimitao por data, lngua e outros critrios. O fato de a maioria dos catlogos permitir
buscas nas palavras dos ttulos (e s vezes nos nmeros de classificao), bem como nos
cabealhos de assuntos, parece ter tido, surpreendentemente, reduzido efeito na
exaustividade da representao, uma vez que as palavras dos ttulo, os cabealhos de
assuntos e os nmeros de classificao em geral se repetem (Xu e Lancaster, 1998).
34
Vrios estudos examinaram a extenso com que os cabealhos de assuntos nos catlogos
em linha de acesso pblico [OPACS] repetem as palavras-chave dos ttulos dos livros. Voorbij
(1998), por exemplo, analisou essa questo num contexto holands. De fato, ele procurava
comprovao de que a atribuio de descritores aos livros, um processo dispendioso, valia a
pena. Ou seja, em que eles contribuem que as palavras-chave do ttulo no o faam? Os
descritores de assuntos conseguiram recuperar quase duas vezes mais itens relevantes do que
as palavras-chave. No s muitos ttulos so indicadores inadequados daquilo de que trata um
livro, mas, salienta Voorbij, o mesmo assunto pode aparecer nos ttulos representado de muitas
maneiras diferentes. O controle de vocabulrio imposto pelos cabealhos de assuntos
importante. Esse estudo foi realizado nas humanidades e cincias sociais, que podem, em
mdia, apresentar ttulos menos descritivos ou completos do que acontece nas cincias rgidas.
A figura 7 mostra a lei dos rendimentos decrescentes aplicada indexao. No exemplo
hipottico desse servio de informao, a atribuio em mdia de X termos satisfar a cerca de
80% das necessidades dos usurios. A fim de elevar esse percentual para 90-95% seria preciso
uma exaustividade muito maior na indexao. A posio do ponto X nessa curva e o que X
representa em nmero de termos dependero muitssimo de questes especficas do sistema.
Os gestores do servio de informao elaboram diretrizes sobre exaustividade da indexao
que resultam do seu conhecimento das necessidades dos usurios. Essas diretrizes costumam
basear-se na intuio, embora seja possvel realizar experimentos controlados em que se
comparem amostras de necessidades de informao com uma coleo de documentos
indexados com quantidades variadas de termos.
disso. Obviamente, quase certo que a quantidade de itens recuperados venha a declinar
medida que mais termos forem combinados numa relao do tipo e, numa estratgia de busca.
claro que a extenso com que os termos podem ser combinados com xito numa busca
depende grandemente da quantidade de termos usados na indexao. Tomando-se um
exemplo trivial, a combinao de trs termos (A. B. C) pode recuperar um grande nmero de
itens quando se emprega na indexao uma mdia de 20 termos por item, mas improvvel
que recupere muitos deles numa base de dados em que somente trs termos sejam atribudos
em mdia a cada item. (Devido a razes antes mencionadas, no recuperaria muitos, se que
recuperaria algum, numa busca feita num catlogo de biblioteca em linha.) Quanto mais
seletiva for a indexao mais necessidade haver de combinar termos numa relao do tipo
ou, a fim de melhorar a revocao. As interaes entre exaustividade de indexao e as
caractersticas das estratgias de busca foram estudadas por Sparck Jones (1973). Estudos
sobre o efeito da exaustividade em mtodos mais automticos de recuperao (ver captulo
15) encontram-se em Shaw (1986, 1999a,b) e Burgin (1991,1995).
Em muitos servios de informao a indexao visa a duas finalidades um tanto
diferentes: a) permitir que se tenha acesso a um item num ndice impresso, e b) permitir que
se tenha acesso a esse mesmo item numa base de dados eletrnica. Nessas circunstncias,
exige-se do indexador que indexe de acordo com certo nvel de exaustividade preestabelecido
para a segunda das finalidades acima, e que selecione um subconjunto dos termos de
indexao (talvez entre dois e quatro) assim atribudos, os quais serviro de pontos de acesso
no ndice impresso. Os termos desse subconjunto sero aqueles que o indexador considerar
como os que melhor representam os aspectos mais importantes do documento. Isto pode ser
visto como uma forma tosca de indexao ponderada: um termo recebe um de dois pesos principal (contedo temtico fundamental, para o ndice impresso) ou secundrio (todos os
outros termos). No captulo 11 examina-se mais detidamente a indexao ponderada.
Princpio da especificidade
O princpio que, isoladamente, o mais importante da indexao de assuntos, e que
remonta a Cutter (1876), aquele segundo o qual um tpico deve ser indexado sob o termo
mais especfico que o abranja completamente. Assim, um artigo que trate do cultivo de
laranjas ser indexado sob LARANJAS e no sob FRUTAS CTRICAS ou FRUTAS.
Normalmente, seria melhor utilizar vrios termos especficos, ao invs de um termo que
seja mais genrico. Se um artigo descreve o cultivo de limes, limas e tangerinas ser mais
bem indexado sob os trs termos especficos do que sob o termo mais genrico FRUTAS
CTRICAS. O termo FRUTAS CTRICAS ser usado apenas para artigos que tratem das frutas
ctricas em geral, e para aqueles que tratem praticamente de todas as frutas ctricas. Esta
diretriz pode ser estendida situao na qual se trata de vrias frutas ctricas, mas no com
muitos detalhes (a juzo do indexador) que justifiquem o emprego dos termos especficos. Em
alguns casos, tambm, a clientela atendida pelo indexador pode estar interessada apenas em
determinadas frutas. Nesta situao seria vlido indexar apenas estas e no incluir termos
correspondentes s outras frutas.
Alguns estudantes de indexao cometem o equvoco de indexar de modo redundante.
Tendo indexado um artigo sobre laranjas sob o termo LARANJAS, sentem necessidade de
tambm atribuir-lhe o termo FRUTAS CTRICAS e at mesmo FRUTAS. No h necessidade
disso. Na verdade, trata-se de uma prtica de indexao medocre. Se os termos genricos
forem atribudos toda vez que for utilizado um termo especfico, ficar difcil diferenar artigos
genricos de artigos especficos. Por exemplo, o usurio que consulta um ndice sob o termo
FRUTAS espera encontrar itens sobre frutas em geral, e no sobre frutas especficas.
Nos sistemas manuais de recuperao que antecederam os sistemas informatizados, de
fato era preciso desdobrar as entradas dos termos especficos para os genricos respectivos;
por exemplo, o emprego do termo LARANJAS ao se indexar um item implicava que tambm lhe
seriam atribudos os termos FRUTAS CTRICAS, FRUTAS e talvez at mesmo PRODUTOS
AGRCOLAS. A razo disso era permitir as buscas genricas. Se no fosse assim, seria
praticamente impossvel realizar uma busca completa sobre, por exemplo, todas as frutas.
Quando, no entanto, se projeta um sistema informatizado de modo apropriado, torna-se
desnecessrio esse desdobramento para os nveis genricos, pelo menos quando se utiliza um
vocabulrio controlado. Convm, por exemplo, que haja a possibilidade de solicitar ao
computador que faa uma busca sobre o termo FRUTAS e tudo que estiver abaixo dele na
estrutura hierrquica (todos os termos especficos, TES, no caso de um tesauro).
Em geral, portanto, no se deve contar com que os termos FRUTAS CTRICAS e LARANJAS
sejam aplicados ao mesmo item. A nica situao que justificaria esta combinao seria aquela
36
onde houvesse um artigo que tratasse de trutas ctricas em geral, mas que inclusse extensas
consideraes sobre laranjas, ou outro que tratasse de frutas ctricas e em que as laranjas
fossem o exemplo (por exemplo, a irrigao de frutas ctricas com exemplos tomados da
irrigao de laranjais).
O indexador deve ter em mente que possvel conseguir especificidade mediante
combinaes de termos. Se no houver nenhum termo que sozinho possa representar o tpico,
busca-se uma combinao apropriada de termos no vocabulrio controlado. Eis alguns
exemplos hipotticos:
Literatura Francesa Medieval
indexado sob LITERATURA MEDIEVAL e LITERATURA FRANCESA
Bibliotecas Mdicas
indexado sob BIBLIOTECAS ESPECIALIZADAS e CINCIAS MDICAS
Literatura Canadense
indexado sob LITERATURA e CANAD
leo de Amendoim .
indexado sob LEOS VEGETAIS e AMENDOIM
Observe-se que o indexador deve procurar a combinao mais apropriada para cada
caso. Teoricamente, Literatura Medieval Francesa seria expresso por meio de LITERATURA
MEDIEVAL e FRANA, mas a combinao de LITERATURA MEDIEVAL e LITERATURA FRANCESA
exprime a idia de modo mais exato. Da mesma forma, combinou-se CINCIAS MDICAS com
BIBLIOTECAS ESPECIALIZADAS e no com BIBLIOTECAS, para expressar a idia de bibliotecas
mdicas, pois estas so evidentemente especializadas, e combinou-se AMENDOIM com LEOS
VEGETAIS e no com LEOS, uma vez que o leo de amendoim um leo vegetal.
s vezes, o vocabulrio controlado no inclui um termo no nvel de especificidade exigido
por determinado documento. Nesse caso o indexador adotar o termo mais especfico
existente (por exemplo, FRUTAS CTRICAS, ao invs de FRUTAS, para um artigo sobre laranjas).
Ele pode tambm sugerir equipe responsvel pela manuteno do tesauro que existe a
necessidade de termos mais especficos nessa categoria.
Outras diretrizes
O processo da indexao de assuntos parece ser refratrio a regras rigorosas. Alm do
princpio da especificidade, no foram desenvolvidas regras verdadeiras sobre a atribuio de
termos, apesar de haver muitas acerca do que fazer com os termos de indexao depois de
atribudos (por exemplo, como estabelecer a seqncia em que so listados, a fim de formar
cabealhos num ndice impresso).
Muitas teorias sobre indexao foram formuladas, algumas das quais passadas em
revista por Borko (1977), porm, costumam no ser teorias de verdade, e oferecem pouca
ajuda prtica para o indexador.
Fugmann (1979, 1985) apresentou vrios axiomas sobre indexao e proviso de
informao, mas nem todos tm relao direta com a indexao como tal. O nico princpio de
indexao verdadeiro at agora formulado, denominado indexao compulsria, afirma que o
indexador deve utilizar os termos mais apropriados de que disponha para descrever o contedo
temtico de um documento. Como isso significa, normalmente, os termos mais especficos,
trata-se essencialmente de uma reiterao do princpio da especificidade. A maior parte dos
axiomas de Fugmann corresponde realmente a fatores que influem no desempenho de
sistemas de recuperao da informao e no a elementos de uma teoria da indexao,
embora vrios deles tenham implicaes para a indexao. Por exemplo, o axioma da
definibilidade tem relao com a capacidade de definir clara e inequivocamente uma
necessidade de informao. Isso pode, evidentemente, ser estendido capacidade de definir o
contedo temtico de documentos de modo claro. e inequvoco. O axioma da previsibilidade
diz que o xito de uma busca num sistema de recuperao depende grandemente da
previsibilidade com que descrito o contedo temtico, o que aponta para a importncia da
coerncia na indexao. O axioma da fidelidade diz que outro fator que influi no desempenho
a capacidade de definir com rigor e exatido o contedo temtico (das necessidades de
informao e, por extenso, dos documentos), que tem a ver mais com o vocabulrio usado
para indexar do que com a prpria indexao.
No consegui, de fato, encontrar uma teoria verdadeira, qualquer que fosse, aplicvel ao
processo de indexao, embora haja algumas (ver, por exemplo, Jonker (1964)) relativas s
caractersticas dos termos de indexao. Ademais, creio ser possvel identificar apenas duas
37
regras bsicas da indexao: uma, que se refere etapa de anlise conceitual, e a outra,
etapa de traduo, a saber:
1.
Inclua todos os tpicos reconhecidamente de interesse para os usurios do
servio de informao, que sejam tratados substantivamente no documento.
2.
Indexe cada um desses tpicos to especificamente quanto o permita o
vocabulrio do sistema e o justifiquem as necessidades ou interesses dos usurios.
Estas regras esto, naturalmente, sujeitas a interpretao. Por exemplo, o que
substantivamente de fato significa? Uma orientao possvel diria que o assunto X deve ser
indexado quando se supe que a maioria dos usurios que buscam informaes sobre X
considerariam esse item como sendo de interesse. claro que substantivamente no uma
propriedade que possa ser expressa ou medida com rigor. Se um dado assunto merece ou no
ser indexado algo que depender grandemente de trs fatores: a) a quantidade de
informaes apresentadas sobre o assunto, b) o grau de interesse no assunto, e c) a
quantidade de informaes j existentes sobre o assunto: uma meno breve e isolada de um
composto merece ser indexada se sabe que esse composto bastante recente; anos depois
seria necessrio um volume muito maior de informaes para justificar sua incluso.
A expresso necessidades ou interesses dos usurios, na segunda regra, implica que o
princpio da especificidade pode e deve ser modificado quando se sabe que os usurios de um
sistema ou ferramenta de informao, em certas circunstncias, seriam mais bem servidos por
meio da indexao de determinado tpico em nvel mais genrico. Por exemplo, numa base de
dados de medicina os artigos de veterinria aplicada a ces seriam indexados sob os nomes
das respectivas raas caninas. Por outro lado, artigos sobre o uso de ces em experincias de
laboratrio seriam simplesmente indexados sob CES, mesmo quando a raa especfica fosse
mencionada.
Um corolrio da primeira regra acima que assuntos que no sejam examinados no
documento no devem ser considerados pelo indexador. Embora isso parea bvio e banal, no
necessariamente assim. Alguns indexadores, principalmente os que se consideram
especialistas num assunto, podem sentir-se tentados a ver num documento coisas que jamais
passaram pelas intenes do autor (por exemplo, aplicaes de um dispositivo que extrapolam
as alegadas no documento). Embora uma das funes importantes de certos especialistas em
informao (como os que atuam na indstria) seja chamar a ateno dos usurios do servio
de informao para aplicaes potenciais, isso, de fato, no constitui funo do indexador.
muito melhor que se atenha ao texto e s afirmaes do autor. O ERIC processing manual de
1980 traz bons conselhos a respeito disso:
Indexe o documento que tem em mos, no o documento que o autor gostaria de ter escrito
ou pretende escrever no futuro. No confunda suposies ou menes a implicaes e
possibilidades com o verdadeiro contedo (p. VII-13).
Resultados no alegados pelo autor no devem, claro, ser confundidos com resultados
negativos, pois estes comumente merecem ser indexados. Por exemplo, se um estudo mostra
que certo material no se presta para ser utilizado em determinada aplicao, a aplicao
mencionada deve ser definitivamente includa na indexao, caso sejam contemplados outros
critrios (por exemplo, o volume de informaes fornecidas).
Em aplicaes mais especializadas, os indexadores podem ser estimulados a buscar
inferncias. Por exemplo, Schroeder (1998), reportando-se a experincia no General Motors
Media Archives, ressalta a importncia de uma camada de inferncia na indexao de
imagens. Por exemplo, uma fotografia de determinado veculo pode mostr-lo atravessando
um terreno acidentado, sendo ento necessrio identificar no somente o veculo mas tambm
empregar termos que indiquem sua capacidade de desempenho em locais pedregosos.
Klement (2002) faz uma distino entre indexao de sistema aberto e indexao de
sistema fechado. A ltima (cujo exemplo mais evidente so os ndices de final de livro) referese a ndices de um nico item; esses ndices so no-contnuos. A indexao de sistema
aberto, ao contrrio, aplica-se a inmeros itens e contnua, como o caso da indexao de
artigos de peridicos em bases de dados como, por exemplo, o MEDLINE. Quando a indexao
se aplica a muitos itens, e contnua, os termos adotados nas entradas do ndice devem ser
padronizados. A padronizao no constitui de fato um problema na indexao de sistema
fechado, embora seja obviamente necessrio utilizar uma terminologia uniforme, coerente, em
toda a extenso do ndice. A indexao de sistema fechado pode usar termos que so nocontnuos: Leonardo da Vinci, morre pode ser perfeitamente apropriado nesse tipo de ndice,
38
sendo improvvel que aparea num ndice de sistema aberto (embora Leonardo da Vinci
aparea).
ndices ps-coordenados
O contedo temtico objeto de um documento e representado pelos termos de indexao
que lhe so atribudos possui carter multidimensional. Vejamos, por exemplo, um artigo que
trate da migrao de mo-de-obra de Moambique para as minas da frica do Sul e que
indexado sob os seguintes termos:
MOAMBIQUE
FRICA DO SUL
TRABALHADORES MIGRANTES
MINEIROS
RELAES ECONMICAS
Convm recuperar esse documento durante uma busca que envolva qualquer um dos
termos tomados isoladamente ou qualquer combinao entre eles: quaisquer dois termos,
quaisquer trs, quaisquer quatro, ou todos os cinco Um sistema de recuperao da informao
que permite que uma busca combine os termos de qualquer maneira freqentemente
denominado ps-coordenado (outras denominaes empregadas tm sido ps-combinao ou
manipulatrio).
Os sistemas ps-coordenados surgiram na dcada de 1940, quando foram implantados
com a utilizao de vrios tipos de fichas. Um sistema informatizado moderno, funcionando em
linha, pode ser visto como um descendente direto desses sistemas manuais. Pode-se imaginlo conceitualmente como uma matriz semelhante mostrada na figura 8.
Os arquivos de um sistema em linha incluem dois elementos principais:
1. Um conjunto completo de representaes de documentos: a referncia bibliogrfica
acompanhada normalmente de termos de indexao ou um resumo, ou ambos.
2. Uma lista de termos que mostra quais os documentos indexados sob eles (s vezes
chamada arquivo invertido ou arquivo de lanamentos). Os documentos so
identificados por nmeros de registro como mostra a figura 8.
Pode-se demonstrar o que se passa durante uma busca em linha consultando a matriz da
figura 8. Suponhamos que quem faz a busca entra com MOAMBIQUE num terminal e que este
termo representado por P no diagrama. O sistema responde indicando que sete itens foram
indexados sob tal termo. A pessoa entra com TRABALHADORES MIGRANTES (L no diagrama) e
recebe a informao de que quatro itens aparecem sob este termo. Se ela pedir agora que seja
feita a combinao de L com P, o sistema comparar os nmeros dos documentos nas duas
listas e indicar que trs itens satisfazem a esse requisito. Atendendo solicitao do
interessado, o computador localiza esses registros pelos seus nmeros de identificao (4, 8,
10) e os mostra na tela do monitor ou os imprime.
Esse processo permanece o mesmo independentemente de quantos termos se achem
envolvidos e quais sejam as relaes lgicas especificadas por quem faz a busca. Se for pedido
F ou G, o sistema indicar que cinco itens satisfazem condio. Quem faz a busca solicita
ento que esta lista de cinco itens seja combinada com a lista sob N - isto , (F ou G) e N - do
39
que resulta a recuperao de trs itens. A respeito dos sistemas ps-coordenados possvel
afirmar que:
1. Os termos podem ser combinados entre si de qualquer forma no momento em que se
faz a busca.
2. Preserva-se a multidimensionalidade das relaes entre os termos.
3. Todo termo atribudo a um documento tem peso igual nenhum mais importante do
que outro (embora a indexao ponderada, estudada em captulo posterior, possa ser
utilizada).
Estas caractersticas no se aplicam a ndices pr-coordenados, que sero objeto do
prximo captulo.
Instrumentos auxiliares da indexao
O indexador precisa contar com alguma forma de anotao dos resultados da operao
de indexao. So quatro as possibilidades:
1. Anotao no prprio documento
2. Preenchimento de algum tipo de formulrio impresso em papel
3. Gravao numa fita de udio
4. Preenchimento de um formulrio mostrado na tela de um monitor em linha
Embora hoje em dia a norma seja indexar diretamente em linha, com o emprego de
algum tipo de tela estruturada, antigamente eram comuns outras possibilidades que ainda so
adotadas em certos lugares.
Em certas instituies o indexador simplesmente marca o documento que tem em mos,
e um datilgrafo transcreve o que ele marcou. Esta forma de trabalho s convm,
normalmente, se adota um mtodo de indexao relativamente simples, como, por exemplo,
enriquecimento de ttulos associado incluso de uma quantidade relativamente pequena de
termos ou cdigos de indexao.
At que os sistemas em linha se tornassem comuns, era corriqueiro o indexador dar
entrada aos termos num formulrio impresso. A figura 9, por exemplo, mostra uma verso do
formulrio que era adotado pela National Library of Medicine. Observe-se o emprego de
etiquetas [checktags], que so termos potencialmente aplicveis a inmeros documentos da
base de dados.
40
41
trabalho de reviso muito cuidadoso. Alguns indexadores no conseguem trabalhar bem dessa
maneira porque tm dificuldades em se lembrar quais foram os termos que j atriburam a um
item.
Hoje em dia, porm, a maioria dos produtores de bases de dados adota processos de
indexao em linha. Assim, aparecem no monitor vrias telas formatadas e o indexador vai
inserindo os dados nos campos apresentados. Essa modalidade de operao oferece grandes
vantagens em relao s suas predecessoras: o indexador pode receber vrios tipos de
mensagens, alguns de seus equvocos podem ser reconhecidos por programas de deteco de
erros que o advertem imediatamente, alm de dispensar a etapa rotineira intermediria,
quando se converte o trabalho do indexador para formato eletrnico. Ademais, existe a
possibilidade de o indexador passar do modo de entrada de dados para o de recuperao, e
assim valer-se de casos precedentes para se orientar quanto a certas decises concernentes
indexao. Quer dizer, o indexador acessa a base de dados, para verificar como um termo foi
usado antes ou como um documento mais antigo, afim a outro que est sendo examinado, foi
indexado.
43
Um tpico sistema de indexao em linha, conhecido como DCMS (Data Creation and
Maintenance System), utilizado pela National Library of Medicine para entrada de dados na
base MEDLINE. O trabalho do indexador consiste em preencher vrias telas no monitor. Ver,
por exemplo, a figura 13, que mostra uma tela com a verso atual das etiquetas. Observe-se
que o indexador ticou (I) as etiquetas que se aplicam a esse artigo do American Journal of
Human Genetics, a saber, adult, middle age, aged, human, male, e female. A figura 14 mostra
a tela seguinte com as etiquetas selecionadas pelo indexador. Vrios descritores (cabealhos
de assuntos sozinhos ou com subcabealhos) foram selecionados pelo indexador. O sistema
44
45
Por exemplo, a National Library of Medicine (NLM) lana mo de vrias ferramentas, ricas
em componentes de vocabulrio de entradas e diretrizes para indexao. A mais bvia o
navegador eletrnico MeSH Browser. Esta ferramenta, feita para a Rede, destina-se a ser usada
por indexadores, catalogadores de assuntos e especialistas em buscas e muito mais
elaborada do que os Medical Subject Headings, que tem por finalidade servir de guia no uso do
Index Medicus impresso. Outra ferramenta, em formato impresso, Medical Subject Headings Annotated Alphabetic List. A figura 15 mostra algumas entradas desta verso anotada. Essa
ferramenta bastante complexa possui componentes de vocabulrio de entradas (por exemplo,
depth intoxication [intoxicao profunda] remete para inert gas narcosis [narcose por gs
inerte] bem como outras diretrizes ou instrues para indexao: termos relacionados (ver, por
exemplo, o fato de que depressive disorder [transtorno depressivo] deve ser diferenado de
depression [depresso], termos que eram usados antigamente (por exemplo, no perodo de
1973-1990 o termo dermacentor somente existia para buscas em linha; para impresso no
Index Medicus esse organismo devia ser indexado tambm sob o cabealho mais genrico
ticks [carrapatos]) mesmo algumas definies (ver, por exemplo, dermabrasion
[dermabraso]).
46
Entre os vocabulrios de entradas mais especficos desenvolvidos pela NLM est o Tumor
key [Chave de tumores], que orientava sobre indexao de doenas neoplsicas. A figura 16
mostra entradas desse vocabulrio. Observe-se como pode ser considerado um verdadeiro
vocabulrio de entradas que inclui tanto remissivas unidirecionais quanto multidirecionais. Por
exemplo, cisto teratide [teratoid cyst] deve ser indexado sob teratoma, porm
cistoadenocarcinoma do ducto biliar [bife duct cystadenocarcinoma] ser indexado sob
cystadenocarcinoma
[cistoadenocarcinoma]
e
tambm
sob
cholangiocarcinoma
[colangiocarcinoma]. Esses vocabulrios especializados no so mais mantidos pela NLM.
47
48
ou mesmo
Moambique - Relaes Econmicas - frica do Sul
mais provvel que entradas detalhadas como essa apaream em ndices impressos do
que em catlogos em fichas. A este respeito, os ndices impressos so considerados
ferramentas de recuperao mais eficientes do que os catlogos convencionais de bibliotecas.
Em certos ndices impressos, o usurio percorreria as entradas sob Moambique para verificar
se alguma delas tambm menciona a frica do Sul. Exemplos de vrias formas de ndices
impressos encontram-se no captulo 10.
Mas uma entrada como essa do exemplo apresenta um problema bvio: ela proporciona
acesso ao documento somente para quem estiver procurando sob o termo MOAMBIQUE, sem
dar acesso numa busca relativa frica do Sul, mineiros ou trabalhadores migrantes. Para que
sejam oferecidos pontos de acesso adicionais preciso criar mais entradas no ndice.
No existe maneira alguma pela qual um ndice impresso possa proporcionar, de forma
econmica, o mesmo nvel de acesso ao documento que proporcionado por um sistema de
recuperao ps-coordenado. Conforme mostramos anteriormente, um sistema pscoordenado permite o acesso por meio de qualquer combinao de termos atribudos ao
documento. O nmero de combinaes 2n-1, onde n representa o nmero de termos. Assim,
para um item indexado sob cinco termos, haver 25-1 combinaes, ou seja, um total de 31.
1
Por isso, esse tipo de indexao s vezes chamado indexao em seqncia [string indexing] (Craven, 1986).
49
O mtodo SLIC engenhoso, pois permite todas as justaposies teis de termos, pelo
menos enquanto estes forem mantidos em ordem alfabtica. Mas tambm tem suas
desvantagens: ainda gera um nmero bastante grande de entradas; o consulente, para usar o
ndice com eficincia, deve reorganizar mentalmente os termos de busca em ordem alfabtica
(por exemplo, encontrar Trabalhadores Migrantes, Moambique, mas no Moambique,
Trabalhadores Migrantes); perde o contexto para os termos situados perto do incio da ordem
alfabtica (por exemplo, quem procurasse todas as entradas sob frica do Sul no teria idia
alguma sobre o assunto deste item).
Outros ndices baseiam-se num conjunto de entradas que se obtm sistematicamente
mediante alternao [cycling], rotao ou deslocamento [shunting]. Na alternao, cada termo
numa seqncia movido para a posio mais esquerda, a fim de se tornar um ponto de
entrada, sendo os demais termos listados depois dele:
ABCOE
BCOEA
COEAB
OEABC
EABCO
sucesso de termos numa seqncia no precisa dispor-se segundo uma ordem evidente,
embora estejam freqentemente ordenados alfabeticamente e possam ser ordenados
sistematicamente (como se ver adiante).
A rotao essencialmente o mesmo que a alternao, exceto que o termo de entrada
ressaltado de alguma forma (por exemplo, grifado ou sublinhado), em vez de ser deslocado
para a posio mais esquerda:
ABCOE
ABCOE
ABCDE
ABCDE
ABCOE
Tanto a alternao quanto a rotao proporcionam um certo contexto para um termo,
mas as relaes entre alguns dos termos ainda permanecem obscuras ou ambguas. Um ndice
baseado no deslocamento emprega uma apresentao em duas linhas na tentativa de reduzir
a ambigidade (isto , ser mais preciso ao mostrar como um termo se relaciona com outro),
como nos exemplos:
A
B.A
B.C.D
C.D
A terminologia relativa a ndices pr-coordenados no se acha realmente padronizada. Por exemplo, Craven (1986)
parece que no faz distino entre alternao e rotao.
51
O ndice KWOC similar ao KWIC, exceto que as palavras-chave que se tornam pontos de
acesso so repetidas fora do contexto, comumente destacadas na margem esquerda da pgina
(figura 20) ou usadas como se fossem cabealhos de assuntos (figura 21). Faz-se s vezes uma
diferena entre ndices KWOC e ndices KWAC (keyword and context [palavra-chave e
contexto]). Quem adota essa distino chama de ndices KW AC os ndices mostrados nas
figuras 20 e 21. Um ndice KWOC seria ento aquele em que a palavra-chave usada como
ponto de entrada no se repete no ttulo mas substituda por um asterisco (*) ou outro
smbolo. difcil justificar essa prtica inslita (empregar um smbolo para substituir a palavrachave), de modo que a distino entre KWOC e KW AC no muito til. H diversas variantes
de KWIC/KWOC, inclusive o KWIC duplo (Petrarca & Lay, 1969). Afins famlia KWIC/KWOC so
os ndices de termo permutado, mais bem exemplificados pelo ndice Permuterm, relacionado
aos ndices de citaes produzidos pelo Institute for Scientific Information. No ndice Permuterm
52
cada palavra-chave do ttulo ligada, uma por vez, com outra palavrachave nesse ttulo, por
exemplo:
CRISTAIS
ALUMNIO
20071
ANLISE
18024
COBALTO
00409
CRESCIMENTO 20071
DESLOCAES 04778
EQUILBRIO
17853
FERRITE
04778
HEXAGONAIS
30714
Com esse tipo de ndice fcil associar palavras-chave durante a busca, ao percorrer, por
exemplo, a coluna de cristais para verificar se algum dos ttulos pode tratar de cristais de
cobalto. Note-se que todas as palavras-chave do ttulo aparecem reunidas em pares (por
exemplo, o documento que tem em comum o nmero 04778 indica que os termos cristais,
deslocaes e ferrite ocorrem no mesmo ttulo) e cada palavra-chave torna-se ponto de
entrada no ndice: alumnio ser ponto de entrada, e tambm anlise, equilbrio e assim por
diante.
De certo modo afim ao grupo de ndices KWIC/KWOC/permutado tem-se o ndice
articulado de assuntos, exemplificado pelo ndice de assuntos do Chemical Abstracts. Este tipo
de ndice usa uma breve descrio narrativa do documento para gerar as entradas. Esta
descrio pode ser um enunciado redigido pelo indexador ou, em seu lugar, um ttulo ou frase
extrada do texto. Certas palavras ou frases que aparecem nesse enunciado so selecionadas
como pontos de entrada no ndice, mantendo-se o restante do enunciado como um modificador
que proporciona o contexto necessrio.
Armstrong e Keen (1982) descrevem o processo de elaborao de entradas para um
ndice articulado da seguinte forma:
Os termos de entrada so reordenados de tal modo que cada um deles se liga a seu vizinho
original por meio de uma palavra funcional ou pontuao especial, conservando-se assim a
estrutura similar de uma frase, ainda que muitas vezes disposta em ordem diferente (p.6).
53
54
Craven elabora este princpio simples com o acrscimo de outros smbolos e convenes
a serem utilizados pelo indexador para criar entradas de ndice que sejam coerentes e
inequvocas, alm de teis. O trabalho de Armstrong e Keen (1982) nos d uma idia das
possibilidades deste mtodo de indexao relativamente simples. Bastante semelhante ao
NEPHIS o sistema PASI (Pragmatic Approach to Subject Indexing [Mtodo Pragmtico de
Indexao de Assuntos]) descrito por Dutta e Sinha (1984).
55
56
Evidentemente, o usurio desse tipo de ndice deve fazer a busca obedecendo tambm a
uma seqncia predefinida de termos. Por exemplo, se estivesse procurando informaes sobre
roupas na Alemanha no sculo XIX, de pouca valia lhe seria esse ndice ao consultar o termo
roupas.
Ao determinar a seqncia em que os nmeros de classificao so combinados num
esquema de classificao analtico-sinttico (freqentemente denominado, um tanto
equivocadamente, facetado), Ranganathan chegou a cinco categorias fundamentais e a uma
frmula de reuni-las. As categorias, Personalidade, Matria, Energia, Espao e Tempo, so
combinadas nesta seqncia e a formula s vezes denominada simplesmente PMEST [onde
o S corresponde letra inicial de space, espao em ingls].
O modo mais fcil de descrever a Personalidade como a coisa em si. Matria o
material de que a coisa composta. Energia a ao realizada na ou pela coisa. Espao
onde a ao se verifica, e Tempo quando ela ocorre. A seqncia AbCfHYqZh obedece
ordem PMEST. Por conseguinte, a entrada num ndice em cadeia de um item categorizado
dessa forma ser o inverso dessa ordem.
A seqncia lgica das facetas estabelecida por Ranganathan para a construo de
nmeros pode ser tambm adotada em catlogos e ndices alfabticos de assuntos. Poder-sela, assim, elaborar uma entrada de ndice lgica, de acordo com a frmula PMEST, da seguinte
forma:
Roupas: Artigos de L: Confeco: Alemanha:
Sculo XIX
Alega-se que a lgica disso est em que cada termo essencialmente dependente do
termo que o antecede imediatamente. Assim, treinamento aplica-se somente ao contexto de
pessoal, pessoal aplica-se somente ao contexto da indstria algodoeira, e esta se aplica
somente ao contexto da ndia.
57
Isso justificado com o argumento de que proporciona uma forma prtica de mostrar,
simultaneamente, a relao entre o termo empregado como ponto de entrada no ndice e os
termos que so: a) de contexto mais amplo, e b) de contexto mais restrito. No exemplo acima,
Pessoal modificado por Indstria algodoeira e ndia a fim de mostrar o contexto mais
amplo, enquanto Treinamento apresentado como um dependente de Pessoal.
Como se v neste exemplo, uma entrada PRECIS contm trs componentes:
que representa a substituio do oxignio pelo flor no vidro. Utiliza-se uma apresentao
bidimensional, quando necessrio, como em:
Beterrabas / - Armazenamento.
/;
O armazenamento de beterrabas
lavadas
Lavagem
59
Rato /*
{Sucrose}
Farradane (1977) comparou seu sistema de indexao relacional com o PRECIS, o NEPHIS
e o POPSI, aos quais se refere de modo impreciso como capazes de produzir ndices
permutados. Alega ser possvel converter por computador seus diagramas bidimensionais em
entradas de ndices alfabticos permutados.
ACTH
Hyp
ACTH + TX
Outros indicadores de funo mostram outras relaes. Por exemplo, o smbolo < usado
para indicar contedo ou componente (Glu < B representa acar no sangue) e os dois pontos
(:) para a funo de comparao. Contedos temticos bastante complexos podem ser
representados de modo conciso e inequvoco neste sistema, conforme mostram os seguintes
exemplos:
R
(B/Rb
R/DUCK)/Rat
(Injeo de substncia renal do pato no sangue de coelho e injeo do soro assim obtido
em ratos, produzindo alteraes renais)
Glu < B (:Ur)
CON
Finalmente, a pessoa que faz a busca pode combinar termos livremente em relaes
lgicas, como, por exemplo, recuperar itens indexados sob CRESCIMENTO POPULACIONAL /
ESTATSTICA e tambm sob AMRICA DO SUL:
Ocorre, ento, uma certa coordenao (de conceitos ou termos que os representam) nas
caractersticas do vocabulrio, e mais alguma coordenao talvez ocorra no momento da
indexao. Pode-se considerar isso como formas de pr-coordenao, uma vez que a
coordenao est incorporada nos registros que do entrada numa base de dados. O nvel final
de coordenao aquele que se realiza por meio da manipulao de termos quando da
realizao de uma busca (isto , ps-coordenao).
Embora este captulo tenha apresentado exemplos de vrios tipos de ndices prcoordenados, certamente no esgotou todas as possibilidades. Encontra-se uma anlise mais
completa das caractersticas dos ndices pr-coordenados em Keen (1977a) e Craven (1986).
Keen (1977b) tambm examina o tema da estratgia de busca aplicada a esses ndices.
ndices de final de livro
Ainda que muitos dos princpios examinados neste livro sejam vlidos para ndices de
todos os tipos, sua ateno se concentra principalmente na indexao destinada a bases de
dados de itens bibliogrficos - indexao ps-coordenada para bases de dados em formato
eletrnico, e indexao pr-coordenada para aquelas em forma impressa. No se tentou
apresentar instrues minuciosas sobre a indexao de livros como peas isoladas. Este tpico
encontra-se bem estudado em outras publicaes (por exemplo, Mulvany, 1994; Guidelines for
indexes, 1997). Diodato (1994) apresenta resultados de estudo sobre preferncias dos usurios
em matria de ndices de livros; so comparadas as opinies de bibliotecrios e pessoal
docente.
Os estudos mais completos sobre ndices de livros parecem ser os relatados por Bishop et
al. (1991) e Liddy et al. (1991). Nesse par de estudos afins, o primeiro analisa as caractersticas
de uma amostra de ndices (formato, arranjo e questes similares), enquanto o segundo
examina as polticas das editoras (por exemplo, quem elabora o ndice, exigncias formais);
este artigo tambm inclui algumas informaes sobre caractersticas dos ndices e concluses
relativas ao projeto como um todo. Liddy e Jrgensen (1993a) usaram estudantes como
voluntrios, a fim de verificar como realmente utilizavam o ndice de um livro.
ndices pr-coordenados versus ndices ps-coordenados
Os ndices impressos do tipo que foi examinado neste captulo podem ser muito eficazes
na localizao de um ou alguns itens sobre um assunto de modo bem rpido. Alguns autores,
porm, parecem exagerar ao louvar as virtudes dos ndices pr-coordenados. Criticam a
recuperao ps-coordenada com o argumento de que seus resultados so medocres (ver
Weinberg, 1995, por exemplo), como, por exemplo, excessiva irrelevncia, embora isso possa
ocorrer com todos os mtodos, e que muitos usurios tm dificuldade para compreender a
lgica das buscas. Essa ltima alegao certamente verdadeira, mas tambm verdade que
muitas pessoas enfrentam enorme dificuldade para entender e usar o mais simples dos ndices
impressos (ver, por exemplo, Liddy e Jrgensen, 1993a,b). Diante da opo, os usurios das
bibliotecas parecem preferir, de modo esmagador, as buscas ps-coordenadas em bases de
dados eletrnicas em comparao com o uso dos ndices impressos (ver, por exemplo, Massey
- Burzio, 1990), embora, de fato, possam obter resultados muito inferiores em suas buscas (ver
p. 121-127 de Lancaster e Sandore, 1997).
61
b
A
B
E
F
c
A
C
f)
E
F
G
d
A
B
C
f)
H
e
A
B
f)
E
F
G
I
J
que variavam de 10% a 80%. Para os seis estudos em que pde recalcular os valores a partir
dos dados fornecidos (para ter certeza de que a coerncia seria calculada da mesma forma
para cada um), os resultados variaram de 24% a 80%.
Praticamente todos os estudos sobre coerncia interindexadores at hoje realizados
tratam cada termo como igual, embora, conforme sugerido antes, fosse mais sensato atribuir
um peso maior coerncia na atribuio dos termos mais importantes. Outra complicao
est no fato de que, com certos tipos de vocabulrios controlados e procedimentos de
indexao, seria possvel a ocorrncia de uma coincidncia parcial. Por exemplo, dois
indexadores concordariam com o mesmo cabealho principal, mas no com o subcabealho.
Vejamos o exemplo a seguir em que as letras maisculas representam cabealhos e o asterisco
marca os cabealhos que o indexador considera mais importantes:
Indexador 1
*A/b
*B/b/c
c/f
D/f
E
Indexador 2
* A/C
*B/C
c/f
D/r
F
G
Indexador 3
*A/b
B/C
*D/f
F
*H/q
I
Trata-se de uma situao realista. Por exemplo, ela se assemelha de perto prtica de
indexao da National Library of Medicine onde mais de um subcabealho pode ser atribudo a
um termo e os descritores principais so diferenados dos menos importantes.
claro que esse tipo de indexao apresenta problemas importantes na realizao de
estudos de coerncia. Aqui deixa de ter significado o mtodo simples do par de coerncia. Na
indexao desse tipo, dever-se-ia dar mais crdito a uma perfeita concordncia entre dois
indexadores. Por exemplo, os indexadores 1 e 3 mereceriam grande crdito pelo fato de ambos
concordarem com a combinao A/b de cabealho principal/subcabealho e de que este seria
um descritor principal. Embora seja possvel desenvolver um mtodo de pontuao numrica
para expressar a coerncia (5 pontos para uma perfeita concordncia cabealho
principal/subcabealho, 10 pontos para uma concordncia de cabealho principal/subcabealho
se ambos os indexadores o utilizarem como descrito r mais importante, e assim por diante);
difcil chegar a um acordo sobre qual seria o escore, e mais difcil ainda interpretar o que o
escore realmente significa. mais provvel que esse tipo de pontuao seja aplicvel a
estudos de qualidade de indexao, que objeto do prximo captulo.
Fatores que influem na coerncia
Essa variabilidade nos escores da coerncia leva a se indagar quais so os fatores que
tm maior efeito na determinao da coerncia na indexao? Na figura 25 procuram-se
identificar possveis fatores.
J se mencionou a quantidade de termos atribudos. Se se pedisse aos indexadores que
atribussem termos, em ordem de importncia percebida, ao contedo temtico do
documento, provavelmente obter-se-ia razovel grau de concordncia no que concerne aos
termos do alto da lista. Na medida em que se descer nessa lista, essa concordncia certamente
diminuir. Em outras palavras, certo que haver mais concordncia quanto aos tpicos do
documento considerados principais do que quanto aos tpicos considerados de menor
importncia que meream ser includos.
Isso, porm, talvez seja um pouco simplista. A figura 26 sugere uma relao possvel
entre coerncia e quantidade de termos atribudos. Supondo que os termos sejam atribudos
em ordem de prioridade, levanta-se a hiptese de que a concordncia atingir o ponto mais
alto no nvel de dois termos e em seguida comear a cair gradualmente at o ponto onde
tenham sido atribudos tantos termos que a concordncia voltar a aumentar. Isto
exemplificado na figura 27.
1. Quantidade de termos atribudos.
2. Vocabulrio controlado versus indexao com termos
livres
3. Tamanho e especificidade do vocabulrio.
4. Caractersticas do contedo temtico e sua
terminologia
5. Fatores dependentes do indexador
63
Essa figura apresenta listas ordenadas segundo a importncia dos termos atribudos
pelos indexadores a e b. Isto , a acha que A o termo mais importante, B o que se segue
em ordem de importncia, e assim por diante. Outra forma de examinar isso dizer que, se o
indexador a pudesse atribuir somente um termo ao documento, esse termo seria A. Cada
indexador finalmente atribui 16 termos. Observe-se que, embora os indexadores concordem
com os dois termos do alto da lista, eles no concordam com o primeiro desses termos. Isso
no constitui surpresa. Muitos documentos envolvem uma relao entre dois conceitos
principais. Talvez seja possvel estar de acordo sobre quais so esses conceitos, mas no
concordar com qual deles assumir precedncia. Por exemplo, num artigo sobre soldagem de
titnio, o metal ou o processo que deve assumir precedncia? ( claro que decises como
essa tm muito a ver com as caractersticas da base de dados. Numa que seja dedicada
exclusivamente ao titnio, o termo titnio tem pouco ou nenhum valor.) Isso se parece um
pouco com apostar em ces (ou cavalos) de corrida: amide mais fcil adivinhar quais os dois
animais que terminaro nas primeiras duas posies do que adivinhar qual ser o primeiro.
Depois que todos os 16 termos foram atribudos alcanou-se uma perfeita concordncia.
Isto se deve a um efeito de saturao. H somente um nmero determinado de termos que se
aplicariam de modo plausvel a qualquer item, pelo menos se esses termos forem extrados de
um vocabulrio controlado. Se forem atribudos termos em nmero suficiente, acabar-se- por
alcanar uma elevada coerncia. Observe-se, contudo, que a coerncia baixa entre o nvel de
dois termos e o nvel de dezesseis termos. Por exemplo, depois de cinco termos, o PC 5/6
(0,83), depois de dez termos de 6/14 (0,43), e assim sucessivamente.
A relao apresentada na figura 26 parece, portanto, plausvel, embora no haja sido
confirmada experimentalmente. Pelo menos a forma da curva plausvel, se se levam em
considerao os resultados alcanados por muitos indexadores. No caso de poucos
indexadores, naturalmente, o declnio da coerncia seria provavelmente menos suave (por
exemplo, haveria maior coerncia com quatro termos do que com trs).
Harris et al. (1966) relatam resultados que diferem um pouco dos formulados
hipoteticamente na figura 26. A coerncia foi maior depois de 10 termos do que depois de
64
cinco, mas declinou nos nveis de 20 e 30, voltando a aumentar quando foram atribudos 40
termos. Afirmam que encontraram poucos indcios de algum efeito de saturao, mas seus
indexadores utilizavam palavras-chave no-controladas e no as selecionavam de um conjunto
limitado de termos controlados. Fried e Prevel (1966) descobriram um declnio da coerncia
com a quantidade de termos atribudos, mas Leonard (1975) encontrou indicaes
inconclusivas sobre este ponto - verdadeiro para uma base de dados, mas no para outra.
Num estudo sobre coerncia em bases de dados agrcolas, Reich e Biever (1991)
encontraram prova do efeito da exaustividade sobre a coerncia: numa amostra de artigos
indexados com uma mdia de 8-9 termos de um tesauro, a coerncia foi de 24%; chegou a
45% numa amostra que possua uma mdia de 5-6 termos do tesauro.
O segundo fator que influi sobre a coerncia (figura 25) o tipo de vocabulrio utilizado
na indexao. Uma das principais vantagens proclamadas para se adotar um vocabulrio
controlado que ele melhorar a coerncia na representao do contedo temtico.
Entretanto, a relao entre controle de vocabulrio e coerncia do indexador no to
imediata quanto pareceria primeira vista. Suponhamos que eu rena alguns artigos de
medicina e pea a um grupo de estudantes de nvel mdio que os indexem. Primeiro, exijo que
faam a indexao extraindo palavras e frases dos prprios documentos. Eu pressuporia que
haveria neste caso um razovel nvel de coerncia. Provavelmente, os estudantes se
comportaro mais ou menos da mesma forma que um computador se comportaria ao realizar
essa tarefa: procuraro palavras ou frases que ocorrem freqentemente e/ou aparecem no
ttulo ou em outros lugares de destaque.
Numa segunda etapa desse exerccio, peo aos estudantes que traduzam a indexao
que fizeram com termos livres para termos selecionados no Medical subject headings (MeSH)
da National Library of Medicine. Quase com certeza haver uma queda da coerncia. Nesta
situao, o vocabulrio controlado ter um efeito contrrio. Isso se d porque as expresses
textuais selecionadas nem sempre sero idnticas aos termos controlados. Os estudantes tero
dificuldade em selecionar os termos controlados apropriados porque carecem de
conhecimentos suficientes de medicina e de sua terminologia e porque alguns dos termos
controlados tero adquirido um significado especial (indicado em nota explicativa) atribudo
pelos compiladores do vocabulrio. Um vocabulrio controlado deve melhorar a coerncia da
indexao a longo prazo, mas somente pode ser aplicado de modo coerente por indexadores
experientes que dominem o contedo temtico e estejam totalmente familiarizados com os
termos.
Outra coisa para a qual preciso atentar que um vocabulrio controlado deve melhorar
a coerncia da indexao em relao a um grupo de documentos, mas bem possvel que a
diminua no nvel de um nico documento. Quer dizer, a terminologia adotada num artigo
reveste-se de uma coerncia interna -- o autor costuma no empregar uma variedade de
termos para descrever o mesmo tpico, pelo menos em artigos de natureza tcnica ou
especializada. bastante possvel, contudo, que haja divergncia entre dois indexadores a
respeito de qual o termo controlado a ser adotado para representar esse tpico. Por outro lado,
autores diferentes empregam terminologias diferentes, e, desse modo, o vocabulrio
65
Assinale-se que eles parecem considerar coerncia e qualidade como mais ou menos
equivalentes. Este aspecto ser estudado no captulo seguinte.
natural que os vocabulrios prescritivos resultem em maior coerncia. De fato, parece
provvel que se alcance o mximo de coerncia com a atribuio de termos pr-impressos
num formulrio de indexao (como o caso das etiquetas da National Library of Medicine)
que lembrem ao indexador que devem ser utilizados sempre que forem aplicveis. Leonard
66
(1975) apresentou algumas indicaes que corroboram isso, do mesmo modo que Funk et al.
(1983).
Leininger (2000), baseando-se em 60 itens acidentalmente indexados em duplicata na
base de dados PsyCINFO, verificou 66% de coerncia na atribuio de etiquetas, enquanto a
coerncia total (considerados todos os termos) foi de apenas 55%. O resultado mais
surpreendente foi que s houve 44% de coerncia na atribuio de cdigos genricos de
classificao. Com s 22 classes e 135 subclasses, e uma mdia de apenas 1,09 atribuies
por registro (a maioria dos +.registros classificada apenas numa nica classe e poucos num
mximo de duas), seria natural que houvesse maior coerncia. A explicao mais provvel
que muitos artigos de psicologia parecem igualmente relevantes para duas ou mais categorias:
embora indexadores diferentes concordem em qual de duas ou trs categorias classificar um
documento, haveria muito menor concordncia quanto nica melhor categoria. De novo as
corridas de galgos e cavalos.
O quarto fator identificado na figura 25 corresponde natureza do contedo temtico do
documento e, mais particularmente, sua terminologia. de se supor que ocorra maior
coerncia na indexao de tpicos mais concretos (por exemplo, objetos fsicos, pessoas
designadas pelo nome), e que ela declinar medida que se lidar cada vez mais com
abstraes. Tibbo (1994) salienta que os autores da rea de humanidades tendem a ser
imprecisos em sua terminologia, preferindo textos densos ao invs de legveis. Entretanto,
Zunde e Dexter (1969a) no verificaram aumento da coerncia com a facilidade de leitura do
documento. Certos materiais podem suscitar problemas especiais no que tange coerncia da
indexao. No caso de obras de criao, como livros de fico, filmes de longa-metragem e
alguns tipos de fotografias, provvel que haja um nvel excepcionalmente elevado de
desacordo em relao quilo de que trata a obra e como index-la. Diferentes grupos de
pessoas tero interesses bem distintos por esses materiais. Por exemplo, estudiosos das artes
e do cinema talvez queiram uma indexao que seja bastante diferente daquela desejada pelo
pblico em geral. Markey (1984) e Enser (1995) apresentam indcios que sugerem que a
indexao de imagens pode produzir nveis de coerncia excepcionalmente baixos.
O quinto fator tem a ver com os indexadores como indivduos. quase certo que dois
indexadores com formao bastante similar (educao, experincia, interesses) tenham mais
probabilidade de concordar com o que deve ser indexado do que dois outros com formao
muito diferente. Relacionados a isso esto o tipo e a durao do treinamento. Se todos os
indexadores participam do mesmo programa rigoroso de treinamento, isso contribui para
reduzir a importncia da formao prvia como fator que influi na coerncia. Tambm
importante o conhecimento do contedo temtico com que se lida. Se dois indexadores
tiverem quase o mesmo nvel de conhecimento especializado, sero mais coerentes entre si do
que se um deles for muito entendido na matria e o outro tiver apenas um conhecimento
superficial do contedo temtico. Mais importante do que o conhecimento especializado em si
mesmo seria, contudo, o conhecimento minucioso das necessidades e interesses dos usurios
a serem servidos.
Jacobye Slamecka (1962) encontraram maior coerncia entre indexadores experientes do
que entre iniciantes que trabalhavam com patentes; os experientes tambm usavam menor
quantidade de termos. Leonard (1975) constatou que a coerncia aumentava com a
experincia dos indexadores, mas no achou correlao positiva entre coerncia e formao
educacional. Quer dizer, maior conhecimento do contedo temtico (presumido a partir da
formao educacional) no aumentava a coerncia. Korotkin e Oliver (1964), em experimento
com resumos de psicologia, no descobriram diferenas significativas na coerncia entre dois
grupos de indexadores, sendo que um deles dominava o contedo temtico e o outro no.
Neste caso, porm, o estudo ocorreu sob vrias restries artificiais que iriam influir no
resultado: no foi usado vocabulrio controlado, foram empregados resumos e no artigos
completos, e os indexadores foram instrudos a atribuir exatamente trs termos (nem mais,
nem menos) a cada item.
Um estudo posterior, de Bertrand e Cellier (1995), tambm examinou o efeito da
experincia do indexador. Inclua, porm, tantas variveis que se torna difcil interpretar seus
resultados.
Dados encontrados em Stubbs et al. (1999) ilustram o efeito que um indexador radical
(isto , atpico) pode provocar nos escores de coerncia.
Outro fator apontado na figura 25 refere-se aos instrumentos auxiliares utilizados pelo
indexador. Se um grupo de indexadores compartilhar o mesmo conjunto de ferramentas de
indexao (dicionrios, glossrios, manuais), haver uma tendncia de que estes instrumentos
contribuam para melhorar a coerncia no grupo. O mais importante seria algum tipo de
67
vocabulrio de entradas, elaborado pelo prprio centro de informao, que servisse para
correlacionar os termos que ocorrem nos documentos com os termos controlados apropriados.
Finalmente, a extenso do item indexado influi na coerncia: quanto menor o item,
menor ser a quantidade de termos que a ele se aplicaro de modo plausvel. No causa
espcie que Harris et al. (1966) hajam verificado que a coerncia era maior na indexao de
questes (breves enunciados textuais) do que na indexao de artigos de peridicos. Rodgers
(1961), Fried e Prevel (1966), Leonard (1975), e Hork (1983) tambm encontraram indcios de
coerncia declinante com a extenso do documento, enquanto Tell (1969) constatou que a
coerncia quando se indexava a partir do texto integral dos artigos era menor do que quando
se indexava a partir dos ttulos ou dos resumos.
Coerncia na anlise conceitual versus coerncia na traduo
O tipo de estudo de coerncia examinado neste captulo empana a distino, que se faz
na indexao, entre as etapas de anlise conceitual e de traduo. Preschel (1972), porm,
procurou separar essas duas etapas, a fim de determinar se era mais provvel os indexadores
concordarem com sua anlise conceitual do que com a traduo em termos de indexao. Os
resultados de sua pesquisa indicaram que era muito mais provvel que os indexadores
concordassem com o que seria indexado (anlise conceitual) do que como os conceitos seriam
descritos (traduo). importante, porm, reconhecer que, nesse estudo, os indexadores no
usaram um vocabulrio controlado, mas criaram seus prprios rtulos verbais para os tpicos.
Resultados bem diferentes seriam alcanados se a influncia normalizadora de um vocabulrio
controlado houvesse estado presente.
As figuras 28-31 mostram exemplos de conjuntos de termos de indexao atribudos a
artigos por dois indexadores diferentes. Em todos os casos o vocabulrio adotado foi o
Thesaurus of ERIC descriptors. Todos so exemplos reais de enfoques alternativos na
indexao. A indexao foi feita, como dever de casa, por alunos da Graduate School of Library
and Information Science da University of Illinois. Os exemplos foram selecionados de um
conjunto maior reunido pelo autor ao longo de anos. Os alunos tinham a liberdade de escolher
os artigos que quisessem indexar, e era uma obra de puro acaso mais de um estudante
escolher o mesmo artigo. Eles so aqui transcritos porque exemplificam alguns dos problemas
que ocorrem na busca da coerncia entre indexadores.
68
da leitura, gosto pela literatura versus crtica literria, materiais de leitura versus seleo de
materiais de leitura.
69
Fidel (1985) tambm verificou que experientes especialistas em buscas mostravam pouca concordncia na seleo
de termos a serem empregados em buscas complexas. Anteriormente, Lilley (1954) e Bates (1977) mostraram que
usurios de catlogos em fichas tambm costumam no concordar muito quanto aos termos a serem utilizados na
consulta a esses catlogos.
2
Katzer et al. (1982) constataram que representaes diferentes de documentos faziam com que fossem recuperados
diferentes conjuntos, os quais apresentavam pouca duplicidade mesmo quando as representaes eram muito
similares.
70
Bates (1986) sugere que a indexao indeterminada e probabilstica e que isso mais
ou menos inevitvel, estando arraigado na natureza da mente humana. Ao invs de lamentar
o fato de que talvez jamais seja provvel alcanar um elevado nvel de coerncia na indexao,
pelo menos quando nela esto envolvidos indexadores human9s, devemos concentrar ateno
na compensao disso na etapa final do processo, ou seja, no momento da busca. A busca no
deve basear-se na coincidncia exata de termos, mas em mtodos que ordenem os
documentos segundo o grau com que coincidem com alguma forma de enunciado de busca. A
pessoa que executa as buscas deve dispor de diversos instrumentos auxiliares que lhe
permitam selecionar dentre uma variedade de mtodos para gerao de associaes
semnticas entre termos.
Embora muitos estudos sobre coerncia hajam sido realizados ao longo dos anos, muito
poucas pesquisas foram feitas sobre por que diferentes indexadores selecionam diferentes
termos, o que sabidamente um tipo mais difcil de investigao. Dois artigos correlatos, de
David et al. (1995) e Bertrand-Gastaldy et al. (1995), versam sobre este problema, mas
chegam a concluses bastante nebulosas.
Indexao coerente no necessariamente o mesmo que indexao de alta qualidade. A
qualidade da indexao ser examinada no prximo captulo, onde tambm se faz uma
comparao entre qualidade e coerncia.
71
Ele usa aqui a palavra utilidade mais ou menos como sinnimo de benefcio.
Conforme as relaes esquematizadas na figura 1 do a entender, diversos subsistemas
interagem no controle do desempenho de um sistema de recuperao da informao. Outro
modo de examinar isso em termos de uma seqncia de eventos que regem o desempenho
da busca. Isso exemplificado na figura 33.
Na situao tpica de um centro de informao, uma necessidade de informao
desponta na mente de um usurio desse centro e ele vai conversar sobre ela com um
especialista em informao. Podemos nos referir ao resultado desse dilogo como um pedido
(isto , o entendimento por parte do especialista daquilo que o usurio realmente precisa).
Com base nesse pedido, o especialista em informao prepara uma estratgia de busca,
valendo-se para isso de termos de indexao, palavras do texto ou uma combinao de ambos.
A estratgia de busca ento confrontada com a base de dados ( claro que, em muitos casos,
a estratgia de busca e o cotejo com a base de dados estaro entrelaados, pois a estratgia
ser desenvolvida interativamente em linha). Como resultado da busca certos itens so
recuperados. Estes so peneirados pelo especialista em informao, a fim de eliminar todo
item que lhe parea evidentemente irrelevante, sendo entregue ao usurio um conjunto final
de documentos ou referncias.
O diagrama, naturalmente, representa buscas delegadas, ou seja, aquelas em que os
clientes solicitam a um especialista em informao que localize para eles certas informaes.
Embora isso fosse a norma h uns vinte anos, cada vez mais deixa de ser assim, pois
crescente o nmero de pessoas que realizam suas prprias buscas em bases de dados
acessveis em linha, principalmente naquelas fontes acessveis na Rede.
Com exceo do primeiro e ltimo passos, porm, o diagrama ainda representa os fatores
importantes que afetam o desempenho de uma busca temtica numa base de dados. No caso
de buscas no-delegadas, a necessidade de informao diretamente convertida numa
estratgia de busca num terminal sem passar pela etapa intermediria do pedido.
V-se claramente, no diagrama, que muitos fatores influem na qualidade da busca,
medida, por exemplo, pela revocao e preciso. Antes de mais nada, o especialista em
informao precisa entender o que que o usurio realmente precisa. Se o pedido for uma
representao imperfeita da necessidade de informao, passa a ser quase irrelevante que
todos os demais elementos vocabulrio, estratgia de busca, indexao, etc. - sejam
satisfatrios.
Admitindo-se que o pedido se aproxime razoavelmente da necessidade de informao, o
fator seguinte a influir no desempenho ser a qualidade da estratgia de busca. As principais
influncias a este respeito so experincia, inteligncia e criatividade do especialista que faz a
busca. O vocabulrio da base de dados, contudo, tambm essencial. Se for adotado um
vocabulrio controlado, no se poder realizar uma busca que seja mais especfica do que o
vocabulrio permite, embora se possa alcanar especificidade adicional com o emprego de
palavras do texto. Infelizmente, difcil imaginar todos os termos necessrios consecuo de
uma busca completa. O problema em todas as buscas tentar manter o equilbrio entre
revocao e preciso. O que se precisa comumente obter o mximo de revocao, porm
mantendo um nvel aceitvel de preciso.
Quando a estratgia de busca cotejada com a base de dados, a qualidade da prpria
base torna-se, evidentemente, um dos fatores principais a influir no desempenho. neste
ponto, obviamente, que a qualidade da indexao se torna fundamental. Os elementos do
vocabulrio tambm influem na indexao, pois o indexador no pode lanar mo de termos
que no existam no vocabulrio.
72
Figura 33 Fatores que influem nos resultados de uma busca numa base de
dados
74
2.
3.
4.
5.
Para cada documento elabore, digamos, trs questes para as quais o item seja
considerado uma resposta importante. Uma das questes se basearia no tema
central do documento enquanto as outras estariam centradas nos temas secundrios,
mas ainda assim importantes.
Faa com que experientes analistas de buscas elaborem estratgias de busca para
cada uma dessas questes. claro que esses analistas no devem ser as mesmas
pessoas cuja indexao estar sendo examinada.
Faa com que os itens sejam indexados da forma rotineira.
Compare a indexao com as estratgias de busca, a fim de determinar se os itens
relevantes so recuperveis ou no com os termos atribudos.
75
maior ou menor facilidade que o indexador ter para descobrir de que trata o documento: o
ttulo preciso ou enganador, existe um resumo ou algum outro tipo de sumarizao que
reflita integralmente o contedo do item?
natural que os fatores ligados ao vocabulrio tambm influam na qualidade da
indexao. Quanto mais especfico o vocabulrio, mais minuciosos sero os matizes de
significado que permite expressar; e quanto mais minuciosos os matizes de significado, mais
difcil ser estabelecer diferenas entre termos muito afins e empregar estes termos de modo
coerente. Elementos sintticos adicionais, como subcabealhos ou indicadores de funo,
aumentam a especificidade e complicam o trabalho de indexao.
Termos que sejam ambguos ou imprecisos (que caream de contexto adequado ou notas
explicativas) so difceis de interpretar e empregar corretamente, alm do que o vocabulrio
deve contar com uma estrutura suficientemente completa (por exemplo, a estrutura. TG/TE/TR
do tesauro convencional) que guie o indexador at o termo mais .adequado para representar
determinado tpico. As dimenses e a qualidade do vocabulrio de entradas 1 tambm sero
importantes, do mesmo modo que a disponibilidade de diversos instrumentos auxiliares afins,
como dicionrios ou glossrios especializados.
Outros fatores que influem na qualidade tm a ver com o prprio processo de indexao.
Alguns tipos de indexao, como a extrao de palavras ou expresses do texto, no exigem
muita concentrao, esforo intelectual ou experincia, enquanto outros tipos, principalmente
os que exigem o estabelecimento de relaes conceituais precisas (mediante indicadores de
funo ou relacionais), encontram-se na extremidade oposta do leque de dificuldades. Em
geral, quase certo que os indexadores tenham desempenho mais eficaz quando recebem
regras e instrues precisas do que quando trabalham em condies de completa liberdade. A
produtividade exigida outro fator importante. Se for exigido do indexador que d conta de
certo nmero de itens por dia, ele poder sentir-se pressionado e isso levar a erros por
descuido, especialmente se a instituio tiver uma expectativa excessiva de produo diria.
Alm disso, a indexao exaustiva demanda mais tempo do que a indexao seletiva.
Por fim, a indexao requer concentrao, e condies ambientais desfavorveis tm um
efeito negativo sobre a exatido dessa tarefa intelectual.
Outra maneira de analisar os fatores que influem na qualidade da indexao diz respeito
s dificuldades que os indexadores defrontam. Oliver et al. (1966), em levantamento baseado
em entrevistas, que abrangeu 61 indexadores, observaram que tomar decises sobre como
melhor descrever o contedo dos documentos era (o que no surpreende) o problema
mencionado com mais freqncia. Infelizmente, este problema geral, difuso e refratrio a
solues fceis. Outros problemas importantes mencionados foram entender material novo ou
desconhecido e falta de termos apropriados nos vocabulrios controlados. Chu e OBrien
(1993) estudaram a etapa de anlise conceitual da indexao, em pesquisa da qual
participaram mais de uma centena de indexadores principiantes (estudantes), mas sua
pesquisa baseou-se em somente trs breves artigos, de modo que difcil, a pm1ir de seus
dados, chegar a uma concluso slida.
A qualidade est relacionada coerncia?
Qualidade e coerncia no so a mesma coisa: pode-se ser coerentemente ruim bem
como coerentemente bom! Apesar disso, percebe-se intuitivamente que deve haver uma
relao entre coerncia e qualidade. Por exemplo, se trs indexadores costumam concordar
entre si, porm um quarto indexa de forma bastante diferente, a tendncia da gente
acreditar no consenso.
Cooper (1969), em artigo polmico, questiona o valor da coerncia como indicador de
qualidade. O aspecto por ele suscitado exemplificado com referncia figura 36. Um centro
de informao emprega quatro indexadores A-D. B e C so bastante coerentes entre si, porm
A e D tm ambos suas idiossincrasias. No entanto, por essa ou aquela razo, a viso de mundo
de D est mais prxima da dos usurios do centro, e os termos que atribui refletem melhor os
interesses deles. Presume-se que sua indexao seja a melhor, pelo menos para essa clientela
especfica. Neste caso, ento, os indexadores que so mais coerentes entre si no produzem o
melhor trabalho, embora no sejam to ruins quanto A cuja indexao se distancia ainda mais
dos interesses dos usurios.
Um vocabulrio de entradas uma lista de termos no-preferidos, que ocorrem na literatura, que remetem para os
termos preferidos apropriados mediante o emprego de remissivas do tipo ver ou usar. A importncia disso examinada
alhures (por exemplo, em Lancaster, 1986).
77
Conquanto essa situao seja plausvel, talvez no seja assim to exagerada. difcil
compreender por que B e C seriam mais coerentes entre si, a menos que isso refletisse o fato
de serem os indexadores mais experientes. Se o so, a lgica sugere que so esses dois os que
deveriam ter mais conhecimento acerca dos usurios. So muito poucos os estudos que se
relacionam de alguma forma com os argumentos de Coopero. No entanto, Diodato (1981)
verificou, de fato, que a coerncia entre autores de artigos de matemtica e indexadores
profissionais era maior do que a coerncia entre autores e leitores dos artigos.
Leonard (1975) empreendeu o nico esforo srio visando a estudar a relao entre
qualidade e coerncia na indexao. Qualidade foi definida em termos de eficcia de
recuperao - a capacidade de recuperar o que desejado e de evitar o que no desejado.
Leonard trabalhou com duas colees separadas de dados, que eram subconjuntos de estudos
de avaliao anteriores. Essas colees compreendiam documentos, pedidos, estratgias de
busca e avaliaes de relevncia. Para cada pedido conheciam-se os itens que haviam sido
julgados relevantes e quais os que no haviam sido considerados relevantes. Os conjuntos de
termos atribudos aos documentos pelos indexadores que participaram do estudo podiam
assim ser comparados com estratgias de busca construdas anteriormente, permitindo ao
pesquisador identificar se determinado documento seria ou no recuperado com determinada
estratgia.
A comparao entre coerncia e eficcia de recuperao mostrou-se mais difcil do que
fora antecipado. Um problema importante se deve ao fato de que a eficcia da indexao
normalmente associada ao trabalho de um nico indexador, enquanto a coerncia, por
definio, uma medida que se refere ao trabalho de dois ou mais indexadores (Leonard
mediu a coerncia do grupo bem como a coerncia de par de indexadores). Leonard combinou
os escores de eficcia para dois (ou mais) indexadores e em seguida comparou este escore
com a medida de coerncia para estes indexadores. O escore de eficcia leva em conta a
quantidade de documentos relevantes recuperados e a de documentos irrelevantes
recuperados, e estes escores podem ser combinados determinando-se a mdia dos resultados
para os dois indexadores ou agregando-os. Se se empregar o mtodo de agregao, somente
sero contados itens singulares, o que, com efeito, considera os dois indexadores como se
fossem um indivduo nico.
Leonard observou uma relao positiva de moderada a forte entre coerncia e eficcia
de recuperao, com uma relao positiva claramente definida entre coerncia e o coeficiente
de revocao.
A utilidade dos estudos de coerncia
A pesquisa realizada por Leonard (1975) sugere que de fato existe uma relao positiva
entre coerncia e qualidade da indexao, onde qualidade refere-se eficcia de
recuperao. Mesmo que nenhuma relao houvesse sido descoberta, os estudos de coerncia
ainda teriam alguma utilidade. Hooper (1966) sugeriu vrias aplicaes, inclusive:
1. Na seleo ou treinamento de indexadores. A indexao feita por treinandos
comparada com algum padro preestabelecido.
2. No controle permanente da qualidade das atividades de indexao. 1
Stubbs et al. (1999) examinam como os estudos sobre coerncia interindexadores podem ser utilizados no
monitoramento permanente da indexao numa instituio. Eles combinam clculos de coerncia com o emprego de
cartas-controle adotadas em engenharia industrial.
78
3.
4.
5.
Neste captulo, aceitou-se que qualidade de indexao significa o mesmo que eficcia de
recuperao da indexao. Nem todos a definem desta forma. Rolling (1981), por exemplo,
afirma que: Pode-se definir qualidade de indexao como o grau de concordncia entre os
termos atribudos pelo indexador e um grupo de termos ideais ou timos. Em seguida,
ressalta que a melhor maneira de alcanar o ideal mediante alguma forma de consenso entre
especialistas. O trabalho do indexador comparado com o consenso, e ele seria penalizado
se no utilizasse termos sobre os quais os especialistas houvessem concordado, bem como se
usasse termos sobre os quais no tivesse havido concordncia. Rolling, que parece
desconhecer o trabalho de Leonard, afirma que medidas de eficcia no so praticveis,
enquanto os estudos de coerncia no so confiveis. Ele defende estudos de qualidade,
baseados no mtodo do consenso, empregando-se os estudos de coerncia apenas para
pesquisar influncias e tendncias. Mais no final deste captulo encontra-se um exemplo da
pontuao da indexao baseada nas sugestes de Rolling.
Vrios outros pesquisadores procuraram avaliar a indexao fora do contexto do sistema
de recuperao em que ela ocorre. Por exemplo, White e Griffith (1987) descrevem uma
abordagem na qual so adotados mtodos externos ao sistema de indexao que esteja sendo
estudado, a fim de estabelecer um conjunto de documentos considerados similares em
contedo. Empregando conjuntos desse tipo (eles os denominam aglomerados de documentos
que servem de critrio) como base para avaliao, examinam trs caractersticas dos termos
de indexao atribudos a itens do conjunto em determinada base de dados:
1. A extenso com que os termos unem itens afins. A medida bvia disso a quantidade
de termos que foram aplicados a todos ou maioria dos itens do conjunto. Os itens
sero tidos como intimamente unidos se vrios termos de assuntos houverem sido
aplicados a todos eles.
2. A extenso com que os termos discriminam entre esses conjuntos na base de dados.
A medida mais bvia disso a freqncia com que termos que se aplicam maioria
dos documentos do conjunto ocorrem na base de dados como um todo 1. Termos
muito comuns no so bons discriminadores. Por exemplo, no MEDLINE, o termo
humano pode aplicar-se a cada item num conjunto, mas tem pouca utilidade para
separar este conjunto de outros, uma vez que se aplica a inmeros outros itens da
base de dados. Por outro lado, termos que ocorrem muito raramente na base de
dados como um todo sero teis em buscas altamente especficas, porm tero
pouca serventia na identificao de conjuntos um pouco maiores.
3. A extenso com que os termos discriminam minuciosamente entre documentos
distintos. Aqui tambm a raridade uma medida aplicvel. Do mesmo modo a
exaustividade da indexao: um termo pode aplicar-se a todos os itens de um
conjunto, mas no pode discriminar entre seus membros; quanto mais termos
adicionais forem atribudos a cada membro, mais diferenas individuais sero
identificadas.
Para examinar a qualidade dessa forma, deve-se primeiro estabelecer os conjuntos de
teste, recuperar registros para os membros de cada conjunto de uma base de dados, e estudar
as caractersticas dos termos atribudos. White e Griffith empregaram essa tcnica para
comparar a indexao de seus conjuntos de teste em diferentes bases de dados. Comparar
bases de dados dessa maneira confirmar o pressuposto de que os itens do conjunto de teste
so de fato similares em seu contedo. White e Griffith empregaram a co-citao como base
para estabelecer seus conjuntos de teste, embora outros mtodos, inclusive o acoplamento
bibliogrfico, tambm possam ser utilizados.
A utilidade desse trabalho limitada pelo fato de que somente foram empregados
aglomerados muito pequenos (na faixa de trs a oito itens). Alm disso, a validade do mtodo
1
Ajiferuke e Chu (1988) criticam o ndice de discriminao adotado por White e Griffith porque no leva em
considerao o tamanho da base de dados; propem uma medida alternativa que leve isso em conta. Em artigo
relacionado a esse (Chu e Ajiferuke, 1989), aplicam os critrios de avaliao de White/Griffith, com seu prprio ndice
de discriminao modificado, na avaliao da indexao em bases de dados de biblioteconomia.
79
como teste da indexao feita por seres humanos depende inteiramente de se estar disposto a
aceitar um aglomerado de co-citaes como sendo um padro legtimo. Poder-se-la apresentar
um argumento convincente, segundo o qual faria mais sentido empregar indexadores
especialistas como padro para aferir a legitimidade do aglomerado de co-citaes.
White e Griffith afirmam que o mtodo til para um produtor de bases de dados aferir a
qualidade da indexao, e apresentam exemplos de termos que talvez devessem ter sido
utilizados pelos indexadores do MEDLINE ou acrescentados ao vocabulrio controlado. Essas
aferies de qualidade podem, entretanto, ser feitas de modo mais simples: conjuntos de
itens definidos por um termo ou termos determinados (por exemplo, supercondutores ou
supercondutividade, que ocorram como termos de indexao ou palavras do texto) so
recuperados de diversas bases de dados e sua indexao comparada sem o emprego da cocitao como padro. Com efeito, este tipo de estudo tambm foi feito pelo mesmo grupo de
pesquisadores (McCain et al., 1987). Para 11 pedidos formulados por especialistas nas cincias
mdicas comportamentais, foram feitas buscas comparadas nas bases MEDLINE, Excerpta
Medica, PSYCINFO, SCISEARCH e SOCIAL SCISEARCH. Nas trs primeiras as buscas foram feitas
com: a) termos controlados, e b) linguagem natural, e nas bases de citaes foram feitas: a)
empregando a linguagem natural dos ttulos, e b) empregando citaes de itens relevantes
conhecidos como pontos de entrada. Embora o objetivo da pesquisa fosse estudar a qualidade
da indexao do MEDLINE, pouco descobriu que se traduzisse em recomendaes National
Library of Medicine quanto prtica da indexao, embora se fizessem recomendaes sobre o
alcance da indexao.
As concluses mais importantes do estudo foram: 1) a incorporao de mtodos de
linguagem natural nas estratgias de busca resultou em melhoramentos significativos da
revocao em comparao com o emprego somente de termos controlados, 2) a recuperao
de citaes deve ser considerada um complemento importante para a recuperao baseada
em termos porque podem ser encontrados itens relevantes adicionais com o emprego do
mtodo de citaes, e 3) nenhuma base de dados pode sozinha fornecer uma cobertura
completa de uma bibliografia multidisciplinar complexa.
A qualidade medida com o emprego de um padro
Em estudo realizado para a National Library of Medicine (Lancaster et al., 1996),
desenvolvi um mtodo para avaliar a qualidade da indexao para o MEDLINE, seguindo a
orientao proposta por Rolling (1981), que consistia em comparar o trabalho dos indexadores
com um padro, que seria um conjunto de termos estabelecido de comum acordo por
indexadores altamente experientes. A figura 37 mostra o exemplo do padro para um artigo e
a figura 38 mostra os termos selecionados por dois indexadores diferentes para este mesmo
artigo.
exemplo, TOMOGRAFIA COMPUT ADORIZADA POR RAIOS X, foi selecionado como um termo
mais importante, do mesmo modo que a combinao BAO/ANORMALIDADES. Note-se que o
asterisco aplicado a um subcabealho automaticamente transportado para o cabealho ao
qual se acha ligado.
pela atribuio de termos que no sejam do padro. Quando o indexador acerta exatamente o
padro para um termo, o escore para esse termo transferido para o escore do indexador.
Qualquer desvio resulta num escore reduzido ou, o que pior, num escore negativo.
A pontuao completa a seguinte:
Coincidncia exata com o padro: transportar o escore do padro
-7 para cabealho com asterisco fora do padro
-4 para subcabealho com asterisco fora do padro
-3 para cabealho sem asterisco fora do padro
-1 para subcabealho sem asterisco fora do padro
4 para um cabealho com asterisco colocado pelo indexador, porm sem asterisco no
padro (ao contrrio do 6 se o asterisco no fosse atribudo pelo indexador)
8 para um cabealho com asterisco no padro, mas no colocado pelo indexador (ao
contrrio de 15 se o asterisco fosse atribudo corretamente)
-1 para subcabealho com asterisco no padro, mas que o indexador no atribuiu.
Muito embora isso parea bastante complexo, no bem assim porque, uma vez definido
o mtodo de pontuao, possvel escrever programas bem simples (e alguns j foram
escritos) tanto para pontuar o padro quanto para pontuar o trabalho dos indexadores em
comparao com o padro.
A aplicao de escores indexao da National Library of Medicine mais complexa do
que o seria em muitas outras situaes, devido ao emprego de subcabealhos e distino
entre descritores mais e menos importantes, de modo que fica tambm mais difcil alcanar
um acordo sobre quais devam ser os escores. Ainda que os escores numricos verdadeiros
usados nesses exemplos (reais) sejam considerados um tanto arbitrrios, eles de fato refletem
a enormidade percebida de vrios tipos de erro indexado.
Se tiver havido acordo quanto aos escores, esse mtodo de avaliao da indexao
bastante discriminativo. Isto , reflete claramente os desvios em relao ao padro. Embora,
nesse exemplo especfico, nem o indexador A nem o indexador B tenham se sado muito bem,
evidente que A ficou mais perto do padro do que B, e os escores refletem isso. B perdeu por
ter deixado de fora por completo um termo considerado importante pelo padro e tambm
porque introduziu vrios termos externos ao padro.
Como foi antes salientado neste captulo, a qualidade da indexao mais bem avaliada
no contexto de uma avaliao completa do sistema de recuperao no qual so utilizados
pedidos de usurios reais, como aconteceu no estudo sobre o MEDLARS (Lancaster, 1968a).
No obstante, a utilizao do mtodo do padro-ouro pode ser eficaz, especialmente na
avaliao do progresso de indexadores em fase de treinamento e na comparao do trabalho
de um grupo de indexadores com o de outro grupo.
Esse nico exemplo ilustra tambm como a concordncia quanto ao uso de etiquetas
muito mais fcil de alcanar do que a concordncia quanto a outros termos, e que quanto mais
refinada for a indexao (mediante o emprego de mltiplos subcabealhos e asteriscos) mais
difcil fica alcanar acordo total.
Susanne Humphrey (1995), da National Library of Medicine, props um mtodo de
pontuao que usa escores de qualidade para medir a coerncia da indexao. Nesse mtodo,
depois que os indexadores hajam sido pontuados em cotejo com o padro, o trabalho pontuado
que cada um executou num artigo torna-se o padro em comparao com o qual cada um dos
indexadores ser avaliado, cada um por seu turno, no que tange coerncia. O emprego desse
mtodo pode ser ilustrado por meio de um exemplo simples, como o seguinte:
Indexador A
A/a
B/c/d
C/*c
6+3
6+3+3
15+5
Total
41
Indexador B
A/a
C/*c
D/d
E
Total
6+3
15+5
6+3
6
44
Se A for o padro, o indexador B faz 29 pontos (os escores para os termos em que B
concorda com A), de modo que a coerncia expressa como 29/41, ou 70,7. Se B for o padro,
o escore de A de 29/44, ou 65,9. Quando as duas comparaes (A com B, B com A) so
combinadas, a mdia alcanada de 68,3. Embora engenhoso, no fica totalmente claro qual o
verdadeiro significado do escore. Basicamente, embora os escores de qualidade hajam sido
preservados, a qualidade no est sendo medida diretamente (pois o escore de nenhum dos
indexadores comparado com o padro). Trata-se simplesmente de uma medida alternativa de
coerncia que, conforme foi sugerido no captulo anterior, tem pelo menos o mrito de levar
82
em conta a importncia relativa dos termos. Isto , se um indexador deixar de usar uma
combinao de alta pontuao utilizada por outro indexador, isso reduzir o escore de
coerncia entre eles muito mais do que o faria a falta de concordncia quanto a um termo de
baixo escore.
83
Alm de tudo, o campo da indexao e recuperao de vdeo costuma empregar anotao ao invs de indexao,
o que imperdoavelmente enganoso.
84
Isso no est isento de perigos. Por exemplo, Haynes et al. (1990) apresentam indcios que sugerem que os mdicos
s vezes tomam decises sobre o tratamento dos pacientes baseados em leituras que no alcanam a totalidade do
texto dos artigos mdicos. Esse risco agravado pelo tato de estudos recentes mostrarem que os resumos nas revistas
mdicas, mesmo as mais importantes, tendem a ser muito deficientes (ver captulo 9).
85
um estudo mostrou que bem pouca inclinao para um assunto ocorre em servios de resumos
em formato impresso (Herner, 1959).
Outro tipo de resumo o resumo critico. Trata-se, com efeito, de uma recenso crtica
condensada. Aplicado a relatrios, artigos de peridicos e outros itens relativamente breves, o
resumo crtico serve quase ao mesmo propsito de uma recenso crtica de livro. O resumo
crtico avaliador. O resumidor opina sobre a qualidade do trabalho do autor e pode at
compar-lo com o de outros. Por exemplo, um resumo crtico do item mostrado na figura 3
mencionar as deficincias da metodologia utilizada - a maneira como se obteve a amostra da
populao, o tamanho da amostra, a maneira com as questes foram formuladas - ou
comparar os resultados com os de pesquisas anteriores. Como os redatores devem ser
especialistas de fato, os resumos crticos so bastante raros.
Duas publicaes que anunciam a caracterstica de incluir resumos crticos so
Mathematical Reviews e Applied Mechanics Reviews (AMR). A figura 41 mostra um resumo
crtico real reproduzido da ltima dessas publicaes. Note-se que o resumo assinado e
combina elementos descritivos e crticos. Uma anlise da AMR revela, porm, que resumos
verdadeiramente crticos sempre foram muito mais a exceo do que a regra, e hoje em dia
eles no aparecem nessa revista, que somente se acha disponvel em formato eletrnico em
linha.
Atualmente, os resumos aparecem freqentemente em peridicos cientficos junto com
os artigos a que se referem; so comumente redigidos pelos autores dos artigos. Em muitos
casos esses resumos so reproduzidos pelos servios de ndices e resumos. Alguns peridicos
incluem resumos em mais de uma lngua. Por exemplo, muitos peridicos russos e japoneses
incluem resumos em ingls.
Finalidade dos resumos
Poderamos mencionar muitas e diferentes finalidades dos resumos. A mais importante,
talvez, que os resumos facilitam a seleo. Ou seja, ajudam o leitor a decidir se determinado
item apresenta a possibilidade de satisfazer a seu interesse. Desse modo, poupam tempo ao
leitor, evitando, por exemplo, que obtenha artigos que no teriam interesse para ele. Em
alguns casos, tambm, um bom resumo informativo pode realmente substituir a leitura de um
item que seja de interesse para o usurio. Os resumos so particularmente teis para
esclarecer o contedo de documentos escritos em lnguas que o leitor desconhea. Janes
(1991) descobriu, o que no causou surpresa, que os resumos eram mais eficientes do que
outras partes do registro, como ttulos e termos de indexao, na avaliao da relevncia de
um item.
86
Na cincia, salientam eles, os resumos esto ficando mais extensos e mais orientados
para os resultados.
Para certas finalidades, o resumo estruturado prefervel a um resumo em formato de
texto narrativo. Um exemplo hipottico do gabarito de um resumo estruturado mostrado na
figura 42. O contedo temtico de que trata irrigao. Neste caso, o resumidor solicitado a
87
88
89
Craven (1987) analisa um mtodo modular bastante diferente. Neste caso, um analista
marca e codifica um texto para formar uma representao intermediria que pode ento ser
usada, de modo sem i-automtico, para produzir resumos talhados s necessidades de
diferentes pblicos.
91
Minirresumos
O termo minirresumo bastante impreciso. Significaria simplesmente um resumo curto.
Da forma como foi empregado por Lunin (1967), no entanto. o termo refere-se a um resumo
altamente estruturado destinado essencialmente a buscas feitas em computador. Trata-se, com
efeito, de um tipo de cruzamento entre um resumo e uma entrada de ndice, e Lunin o define
como um ndice-resumo legvel por computador. Os termos utilizados no resumo so
extrados de um vocabulrio controlado e reunidos numa seqncia especificada. Por exemplo,
o enunciado Existe um decrscimo da quantidade de zinco no sangue de seres humanos com
cirrose do fgado seria escrito assim:
/DECR/ZINCO/SANGUE/HUMANOS/CIRROSE/FGADO
92
claro que isso pouco acrescenta ao ttulo, exceto a data. Note-se como os resumos das
ilustraes 3, 39 e 40 partem do ttulo sem repeti-la.
O. resumidor tambm deve omitir informaes que o leitor provavelmente j conhea ou
no lhe interessem diretamente. Isso inclui informaes sobre antecedentes ou fatos de teor
histrico, como, por exemplo, o motivo que levou realizao do estudo ou dados sobre a
experincia da empresa que o executa. Borko e Bernier (1975) salientam que cabe ao
resumidor indicar o que o autor fez e no o que tentou fazer, mas no conseguiu ou o que
pretende fazer no futuro.
Quanto menor, melhor ser o resumo, desde que o sentido permanea claro e no se
sacrifique a exatido. Palavras desnecessrias como o autor ou o artigo so omitidas. Por
exemplo, corta-se Este artigo examina... para Examina.... Abreviaturas e siglas
convencionais so usadas sempre que for provvel que os leitores as conheam (por exemplo,
OLP). Em outros casos, pode-se usar uma abreviatura desde que seu significado seja
explicitado. Por exemplo:
[...] no quadro da Cooperao Poltica Europia (CPE). As realizaes [...] por parte da CPE
[...]
mas que a passiva pode ser utilizada para enunciados indicativos e mesmo para enunciados
informativos em que se deva destacar o receptor da ao. 1 Esta restrio muito imprecisa e
melhor esquec-la: na maioria dos casos o tempo verbal preferido ser bvio por razes de
estilo. Borko e Chatman (1963) e Weil (1970) sugerem que se empreguem os verbos no
pretrito para a descrio de processos e condies experimentais e no presente para
concluses resultantes das experincias. O que lgico: as atividades relatadas por um autor
so coisas do passado, enquanto os resultados e as concluses ainda pertencem ao presente.
Borko e Bernier (1975) so mais explcitos ao recomendar a voz ativa e o pretrito para
resumos informativos, e a voz passiva e o presente para resumos indicativos.
At hoje foram elaborados muitos conjuntos de regras sobre redao de resumos. Talvez
o conjunto mais conciso de princpios destinados elaborao de resumos seja o produzido
pelo Defense Documentation Center (1968), reproduzido na figura 47. Em poucos e breves
enunciados sintetiza as regras adotadas pelo centro sobre o que incluir, o que no incluir, qual
a extenso que o resumo deve ter e qual o tipo de terminologia a ser adotado. Uma exposio
mais completa, mas tambm concisa, encontra-se em relatrio de Payne et al. (1962), e
reproduzida no apndice 1 deste livro.
Contedo e formato
O que se deve incluir num resumo depende muito, claro, do tipo de publicao que se
tem em mira. Um longo resumo indicativo de um tipo de relatrio de pesquisa mencionaria os
objetivos da pesquisa, os procedimentos experimentais e de outra natureza adotados, os tipos
de resultados obtidos (um resumo informativo conteria os prprios resultados, pelo menos de
forma condensada), e as concluses do autor quanto importncia dos resultados. O
tratamento a ser dado a um artigo de histria, por outro lado, seria bem diferente. O resumo,
por exemplo, daria nfase tese ou concluses do autor, tomando o cuidado de mencionar os
perodos, localidades geogrficas e personalidades envolvidos. 2
Em reas temticas especializadas, o resumidor pode receber instrues sobre certas
coisas a serem procuradas nos artigos e destac-las com clareza nos resumos. Isso pode incluir
itens to diversos quanto dosagem de um medicamento, condies climticas, idade dos
indivduos, tipos de solo, equaes empregadas ou o elemento componente de uma liga. Os
resumos costumam ser de redao mais fcil quando o contedo temtico trata de objetos
concretos, e so de redao mais difcil quanto mais abstrato ou nebuloso for o assunto.
A maioria dos resumos apresentada no formato convencional de referncias
bibliogrficas seguidas do texto do resumo. Em algumas publicaes, no entanto, o resumo
precede a referncia bibliogrfica, e sua primeira linha realada de alguma forma, como no
exemplo seguinte:
1
A norma brasileira sobre resumos - NBR 6028, da Associao Brasileira de Normas Tcnicas (ABNT) - tambm
preceitua o emprego da voz ativa, sem trazer meno ao uso da voz passiva (N.T.)
2
Tibbo (1992) mostrou que as normas publicadas relativas redao de resumos so muito mais pertinentes s
cincias do que s humanidades.
94
Esta uma forma de apresentao mais atraente, muito parecida com o cabealho de
uma matria de jornal, e que pode captar a ateno do leitor sem grande esforo. Weil et al.
(1963) referem-se a isso como resumo orientado para o leitor, resumo de tpico frasal em
primeiro lugar ou resumo orientado para resultado (embora o ttulo no tenha de ser
necessariamente relacionado aos resultados). Se for adequado, o ttulo do artigo poder
transformar-se nesse cabealho, vindo em seguida um tpico frasal que o desenvolva.
Considera-se um resumo completo como sendo composto de trs partes: a referncia,
que identifica o item resumido; o corpo do resumo (o texto); e a assinatura. Este ltimo
elemento a atribuio da origem do resumo: as iniciais do resumidor ou a indicao de que o
resumo foi elaborado pelo autor do item, de que se trata de um resumo modificado de autor,
ou deriva de uma fonte diversa, como, por exemplo, outro servio de resumos.
Muitos resumos parecem situar-se na faixa de 100-250 palavras, mas, como se disse
antes natural que a extenso varie de acordo com certos fatores, como o tamanho do prprio
documento, o alcance de seu contedo temtico, a importncia que lhe atribuda, sua
disponibilidade fsica e acessibilidade intelectual (por exemplo, itens de difcil localizao, como
trabalhos apresentados em eventos, ou em lnguas pouco conhecidas, seriam resumidos com
mais detalhes do que outros itens). Borko e Bernier (1975) sugerem que os resumos da
literatura cientfica deveriam ter comumente entre um dcimo e um vigsimo da extenso do
original, embora Resnikoff e Dolby (1972) indiquem que um trigsimo talvez seja mais comum.
Borko e Bernier (1975) nos do um conselho til para a seqncia do contedo:
O corpo do resumo pode ser ordenado de modo a poupar o tempo do leitor. A colocao das
concluses em primeiro lugar satisfaz ao leitor e poder dispens-lo de continuar a leitura.
Ele pode aceitar ou rejeitar as concluses sem que precise conhecer os resultados em que se
basearam. O desenvolvimento das informaes vir em ltimo lugar. Verificou-se ser
desnecessrio rotular cada parte do resumo, como, por exemplo, concluses, resultados ou
mtodos; normalmente os leitores sabem qual a parte que esto lendo. A ordenao das
partes do corpo do resumo feita com a mesma finalidade com que se organizam as partes
de uma matria de jornal - para comunicar a informao de modo mais rpido.
No convm abrir pargrafos. O resumo breve; deve exprimir um raciocnio homogneo e
ser redigido como um nico pargrafo (p. 69).
Mesmo que os resumos estruturados desse tipo possam ter seus mritos, muitas vezes
suas pretenses so exageradas. Por exemplo, Haynes et al. (1990) alegam que eles podem
facilitar a avaliao pelos pares antes da publicao, ajudar os leitores que exercem a clnica a
encontrar artigos que sejam tanto cientificamente corretos quanto aplicveis prtica
profissional, alm de permitir buscas bibliogrficas informatizadas mais precisas, embora nem
todas essas alegaes sejam documentadas.
interessante que, quase na mesma poca em que a literatura mdica descobria esse
tipo de resumo, Trawinski (1989) examinava mtodos similares de redao de resumos em
cincia da informao. Ele tambm comparou as caractersticas dos resumos assim redigidos
com resumos da base de dados INSPEC.
A literatura sobre resumos estruturados continua a crescer. Hartley (1998) defende a
mais ampla adoo desses resumos em peridicos cientficos. Ele (Hartley, 2000b) tambm
argumenta que preciso alguma forma de resumo estruturado junto s revises sistemticas
da literatura mdica. Alega que tais resumos devem ser mais fceis de ler do que os resumos
de artigos de pesquisa mdica porque as revises sistemticas tm como alvo um pblico mais
amplo.
RESUMO
ANTECEDENTES: Os resumos estruturados, que, como este, contm vrios entre ttulos, substituram
os resumos tradicionais na maioria dos peridicos mdicos. Estudos de avaliao mostraram que
esses resumos normalmente oferecem mais informaes, so de melhor qualidade, facilitam a
avaliao pelos pares e, em geral, so bem-aceitos. OBJETIVO: O objetivo dos estudos aqui reportados
foi investigar uma outra possvel vantagem dos resumos estruturados, a saber, se neles as buscas so
ou no so mais fceis de executar.
MTODO: So relatados dois estudos. No estudo 1, efetuado numa base de dados eletrnica, solicitouse a 52 leitores que encontrassem as respostas a duas perguntas feitas a cada um de oito resumos
em um formato (digamos, tradicional) seguidas de duas questes para cada um de oito resumos
compostos no outro formato. Foram automaticamente registrados os dados de tempo e erros. No
estudo 2, efetuado numa base de dados impressa, solicitou-se a 56 leitores que encontrassem cinco
resumos que relatassem determinado tipo de estudo (por exemplo, estudos com escolares e testes de
leitura) e depois achassem mais cinco outros que relatassem outro tipo de estudo. Alm disso, a
ordem e apresentao do formato foram compensadas. Os dados de tempo e erro foram registrados
manualmente. .
RESULTADOS: No estudo 1, os participantes tiveram desempenho significativamente mais rpido e
cometeram significativamente menos erros com os resumos estruturados. Houve, contudo, alguns
inexplicveis efeitos da prtica. No estudo 2, os participantes novamente tiveram desempenho
significativamente mais rpido e cometeram significativamente menos erros com os resumos
estruturados. No estudo 2, contudo, houve efeitos de transferncia assimtricos: participantes que
responderam primeiro aos resumos estruturados responderam mais rapidamente aos resumos
tradicionais seguintes do que o fizeram os participantes que responderam primeiro aos resumos
tradicionais.
CONCLUSES: Em geral, os resultados, apesar de certas ressalvas, apiam a hiptese de que mais
fcil para os leitores fazer buscas em resumos estruturados do que em resumos tradicionais.
Figura 48 Exemplo de resumo altamente formatado
Reproduzido de Hartley et al. (1996) com permisso do Journal of Information Science
Artigos originais
1. Objetivo: a(s) questo (es) exata(s) abordada(s) pelo artigo
2. Delineamento experimental: o delineamento bsico do estudo
3. Ambiente: a localizao e o nvel da assistncia clnica
4. Pacientes ou participantes: o modo de seleo e o nmero de pacientes ou participantes que
iniciaram e chegaram ao fim do estudo
5. Intervenes: o tratamento ou interveno exata, se houve algum
6. Principais medidas de resultado: a medida fundamental de resultado do estudo planejada antes de
iniciada a coleta de dados
7. Resultados: os principais achados
8. Concluses: as principais concluses inclusive aplicaes clnicas diretas.
Artigos de reviso
1. Finalidade: o objetivo fundamental do artigo de reviso
2. Fontes de dados: um apanhado sucinto das fontes dos dados
3. Seleo dos estudos: o nmero de estudos selecionados para a reviso e como foram selecionados
4. Extrao dos dados: regras para o resumo dos dados e como foram aplicadas
96
Uma das objees aos resumos estruturados, expressa por editores de peridicos, que
ocupam mais espao. Essa questo foi estudada por Hartley (2002). Ele concluiu que os
resumos estruturados realmente ocupam mais espao (normalmente seu tamanho 21% (s
vezes mais) maior do que os resumos tradicionais), porm isso somente afetaria aquelas
revistas (relativamente raras) em que os artigos se sucedem um em seguida ao outro e no os
peridicos em que cada artigo abre uma nova pgina.
Os tipos de erros mais evidentes que ocorrem na indexao de assuntos tambm
ocorrem na redao de resumos: aspectos que deveriam ser includos no o so, e outros que
so includos ficariam melhor se fossem omitidos. Tambm podem ocorrer erros de transcrio,
principalmente quando se trata de frmulas ou valores numricos. Sempre conferir e submeter
reviso editorial por parte de algum mais experiente o trabalho de resumidores
inexperientes. Borko e Bernier (1975) confirmam a utilidade de um bom editor de resumos:
Os editores de resumos parecem desenvolver um sexto sentido que os faz saber quando est
faltando uma parte importante do contedo. Eles procuram, e esperam encontrar, certas
categorias de informao, como os mtodos e equipamentos utilizados, os dados coletados e
as concluses (p. 12).
Os ttulos e descries da planilha aqui exemplificada baseiam-se nos utilizados no projeto de resumos modulares de
Herner and Company (Lancaster et al., 1965).
97
claro que nem todas essas categorias sero aplicveis a todo item a ser resumido e as
trs ltimas somente a resumos crticos. Solovev (1971) estuda o uso, na redao de resumos,
deste mtodo baseado em questionrio.
Hoje, naturalmente, provvel que alguma forma de auxlio ao processo de redao do
resumo, em linha e interativo, seja mais atraente do que a adoo desse tipo de enfoque
estruturado, ainda que exibido em linha na tela. Craven (1996) desenvolveu um prottipo de
sistema destinado a assistir os resumidores e chegou a test-lo pelo menos em carter
preliminar. O auxlio redao de resumos inclui um tesauro como um dos componentes
(Craven, 1993).
Alguns autores procuraram desenvolver diretrizes para redao de resumos de certos
tipos de documentos. Por exemplo, Solovev (1981) sugere que resumos de teses de doutorado
focalizem os seguintes pontos: importncia atual do assunto, problema tratado e objetivo da
pesquisa, novidade cientfica, metodologia, resultados e concluses (inclusive implementao
dos resultados).
Embora de modo um tanto confuso e, por isso, com trechos de difcil interpretao, o
Centro de Documentao sobre Refugiados do Alto Comissariado das Naes Unidas para os
Refugiados (UNHCR) condensou os fundamentos da redao de resumos num nico diagrama
(figura 50). So particularmente teis os critrios de avaliao esquerda do diagrama. Notese que o resumo deve ser avaliado com base em sua linguagem e contedo, sua obedincia ao
estilo da casa (extenso, estrutura, convenes ortogrficas e de pontuao) e, o que mais
importante, o grau com que ele atende s necessidades do usurio.
Resumidores
Os resumos podem ser preparados pelos prprios autores dos documentos, por outros
especialistas dos respectivos assuntos ou resumidores profissionais. Muitos peridicos
cientficos exigem que os autores preparem resumos que acompanhem seus artigos.
crescente o aproveitamento destes resumos pelos servios de resumos impressos, que assim
no precisam redigi-los de novo.
Igual ao que acontece na indexao, o resumidor precisa ter conhecimento do contedo
temtico tratado no documento, embora no precise ser um especialista. Requisito importante
a capacidade de redigir e editorar textos, e um trunfo precioso para o resumidor a aptido
de ler e compreender com rapidez.
Borko e Bernier (1975) advertem que os autores no necessariamente redigem os
melhores resumos dos prprios artigos. Os autores comumente no possuem formao e
experincia em redao de resumos, bem como carecem do conhecimento das regras
adotadas nessa atividade. As publicaes de resumos mais prestigiosas comumente
conseguem recrutar como resumi dores especialistas numa rea, que aceitam o encargo de
redigir resumos em sua especialidade sem remunerao ou a troco de honorrios modestos.
Borko e Bernier afirmam que: Quem aprendeu a redigir resumos e tambm especialista num
campo do conhecimento redige os melhores resumos, afirmao contra a qual difcil
argumentar. Como os especialistas comumente so voluntrios, talvez seja difcil deles obter
pontualidade na redao dos resumos. O resumidor profissional custa caro, mas pontual e
pode fazer um excelente trabalho quando lida com reas do conhecimento que no lhe sejam
totalmente desconhecidas.
Atualmente autores e editoras contam com poucos incentivos para enfeitar os resumos
de modo a tornar o trabalho que isso envolve mais atraente do que de fato . Price (1983)
argumentou que isso poderia tornar-se um perigo num ambiente completamente eletrnico
(ver captulo 16). As editoras gostariam de estimular o uso dos resumos porque provavelmente
seriam remuneradas com base nisso. Os autores gostariam de ampliar sua utilizao, se este
fator se tornasse, o que no seria impossvel, um critrio a ser adotado em decises relativas
promoo e estabilidade no emprego. O vocbulo spoofing ou spamming foi usado para
designar o enfeitamento de pginas da Rede de modo a aumentar sua recuperabilidade
(captulo 16).
A redao de resumos e a indexao so atividades intimamente relacionadas e h fortes
razes para que sejam reunidas. pequena a distncia entre a etapa de anlise conceitual da
indexao e a preparao de um resumo aceitvel. Alm disso, a disciplina adicional imposta
pela redao do resumo ajuda na deciso sobre o que deve ser includo e o que pode ser
omitido na indexao. O fato de ambas as atividades envolverem uma combinao de leitura e
passar de olhos outro motivo pelo qual eficiente reuni-las, delas se incumbindo uma mesma
pessoa, sempre que isto for vivel.
Qualidade e coerncia na redao de resumos
Jamais dois resumos do mesmo documento sero idnticos se forem redigidos por
pessoas diferentes ou pela mesma pessoa em momentos diferentes: o contedo descrito ser
o mesmo, mas a forma de descrev-lo ser diferente. A qualidade e a coerncia so um pouco
mais vagas quando se aplicam a resumos do que quando se aplicam indexao.
Aparentemente existem duas facetas principais concernentes qualidade:
1. Os argumentos essenciais do documento so postos em relevo no resumo?
2. Esses argumentos so descritos exata, sucinta e inequivocamente?
Em certa medida, portanto, a qualidade da redao de resumos aferida segundo
critrios que so muito similares aos adotados na avaliao da indexao. A primeira etapa da
redao de resumos corresponde, realmente, como na indexao, anlise conceitual - quais
os aspectos a realar? - e a segunda etapa corresponde traduo dessa anlise conceitual em
frases (normalmente).
A qualidade da anlise conceitual pode ser aferi da, provavelmente, em cotejo com as
instrues relativas a contedo baixadas pela instituio para a qual o resumo redigido. Por
exemplo:
1. Foram includos o mbito e a finalidade do trabalho?
2. Os resultados foram indicados ou resumidos?
3. As concluses do autor foram resumidas?
99
O teste definitivo de um bom resumo consiste simplesmente em perguntar: ser que ele
permite ao leitor prever com exatido se um item resumido ou no relevante para seus
interesses atuais? No que tange a um leitor especfico e uma necessidade de informao
especfica, possvel testar isso com base, digamos, em 50 resumos copiados na impressora
em resposta a uma busca em linha. Os resultados do estudo seriam os mostrados na figura 51:
os resumos sugeriam que 15 itens seriam relevantes, mas apenas 12 se confirmaram como tal.
Alm disso, se se constatar que nem todos os 12 considerados relevantes a partir do texto
foram tambm julgados relevantes a partir dos resumos, estes teriam falhado de ambos os
modos: sugeriram que alguns itens eram relevantes quando no o eram, e que outros no
eram relevantes quando o eram.
Esse tipo de estudo, naturalmente, um tanto difcil de fazer. Ademais, seus resultados
aplicam-se apenas a determinado usurio e determinada necessidade de informao; mude-se
o usurio ou a necessidade de informao e os resultados mudaro. A maioria dos usurios de
servios de resumos, ou bases de dados em linha, j ter passado pela situao, talvez com
relativa freqncia, quando um resumo desperta o apetite por um documento que acaba sendo
muito diferente do que se esperava. Ento, os resumos frustraram esses usurios, embora
talvez tivessem atendido de modo bastante adequado a outros usurios.
A utilidade dos resumos na previso da relevncia de documentos para determinado
usurio ser examinada com mais detalhes no captulo seguinte. Embora tenham sido
realizados vrios estudos de previsibilidade de relevncia, so muito poucas as pesquisas sobre
as atividades dos resumidores. Com efeito, j foram realizados mais estudos sobre avaliao de
extratos do que de resumos. Por exemplo, tanto Rath et al. (1961 b) quanto Edmundson et al.
(1961) descobriram que as pessoas no eram muito coerentes (com os outros ou consigo
mesmas) ao selecionar de um texto as frases que consideravam como os melhores indicadores
de seu contedo.
Edmundson et al. (1961) sugerem vrios mtodos de avaliao de resumos:
1. Julgamento intuitivo, subjetivo;
2. Comparao com um resumo ideal;
3. Determinao da medida em que perguntas de teste sobre um documento podem ser
respondidas pelo resumo;
4. Recuperabilidade do documento pelo resumo.
claro que os resumos so avaliados pelos editores e outras pessoas que trabalham nos
centros de informao ou nas editoras, provavelmente utilizando o mtodo intuitivo. provvel
que, quanto mais se utilizar a busca em texto livre em lugar da indexao feita por seres
humanos, crescer a importncia do mtodo de avaliao baseado na recuperabilidade. Os
critrios para aferir a recuperabilidade de um resumo no so necessariamente os mesmos
utilizados para avali-lo com base na previsibilidade da relevncia (ver as consideraes sobre
Questes de compatibilidade).
Vinsonhaler (1966) prope mtodos comportamentais para avaliar a qualidade de
resumos com base na validade de contedo ou validade previsvel. Num estudo de validade
de contedo, os sujeitos julgam o grau com que o documento e o resumo so similares,
empregando talvez uma escala de similaridade de sete pontos. Alternativamente, pode-se
100
Tcnica e teste de leitura em que, num texto, so omitidas palavras propositalmente e segundo um padro definido
(por exemplo, toda quinta palavra). Os espaos em branco deixados sero preenchidos pelos sujeitos que estiverem
sendo avaliados. (N.T.)
2
O escore de facilidade de leitura de Flesch [Flesch Reading Ease (R.E.)] considera a extenso das frases e a extenso
das palavras no texto. A frmula original R.E. = 206,835 - 0,846w - 1,0 15s (onde w o nmero mdio de slabas em
100 palavras e s o nmero mdio de palavras por frase). Os escores normalmente situam-se na faixa 0-100 em que
os valores menores refletem maior dificuldade (Hartley, 2000c).
101
2.
3.
4.
5.
6.
7.
8.
medida que a norma NISO (ANSI) ou outra norma respeitada (que tambm tida
como um componente principal do mtodo de avaliao recomendado por Mathis
(1972).1
A incluso de informaes importantes e a excluso de informaes sem importncia.
Ausncia de erros.
Coerncia de estilo elegibilidade.
Previsibilidade da relevncia.
Capacidade de servir como substituto do original (resumos informativos).
Adequao como fonte de termos de indexao.
Esta lista, evidentemente, representa vrios nveis de critrios. Por exemplo, todos os
critrios do terceiro ao quinto provavelmente seriam levados em conta em qualquer
classificao global. Um mtodo de avaliao da medida em que um resumo pode servir em
lugar do original (critrio 7) consiste em comparar a capacidade de grupos de indivduos
responderem a questes baseadas em: a) nos resumos, e b) no texto integral. Payne et al.
(1962) relataram estudos desse tipo.
Com efeito, os estudos de Payne englobavam trs mtodos de avaliao diferentes:
1. Coerncia. Foram utilizados especialistas de assunto para comparar resumos com
base na similaridade da quantidade de informaes apresentadas.
2. A quantidade de reduo de texto obtida.
3. Utilidade. Os estudantes responderam a questes tcnicas baseadas nos artigos de
sua rea de especializao. Alguns deles liam os artigos, outros apenas os resumos.
As respostas dos dois grupos eram comparadas. Este mtodo foi tambm usado por
Hartley et al. (1996) para comparar diferentes tipos de resumos: a concluso foi que
os resumos estruturados (formatados em diferentes pargrafos, cada um com seu
entre ttulo) podiam ser usados de modo mais eficiente.
No programa TIPSTER (ver captulo 14), so empregados dois mtodos de avaliao de
resumos: 1) utilizao do resumo para julgar a relevncia dos documentos, e 2) utilizao do
resumo como base para a classificao dos documentos (isto , classificao baseada no
resumo em comparao com a classificao baseada nos textos completos).
As avaliaes da qualidade dos resumos publicadas nos ltimos anos tm se
concentrado, na maior palie, em resumos estruturados. Hartley e Benjamin (1998)
compararam resumos tradicionais e estruturados redigidos por autores de artigos submetidos a
quatro peridicos britnicos de psicologia. Estudantes de psicologia participaram da avaliao.
Os resumos estruturados foram julgados significativamente mais legveis, significativamente
mais longos e significativamente mais informativos.
Poucos trabalhos foram realizados para avaliar resumos publicados em comparao com
os textos a que se referem. No entanto, um til estudo desse tipo foi relatado por Pitkin et al.
(1999). Eles avaliaram, dessa forma, 88 resumos publicados em seis importantes revistas
mdicas. Os resumos eram considerados deficientes quando incluam dados diferentes dos
dados constantes do prprio artigo ou deixavam de incluir dados por completo. Com base
nesses critrios, uma quantidade significativa de resumos foi considerada deficiente, cerca de
18% na revista que correspondia ao melhor caso e 68% no pior caso.
Em decorrncia desse estudo o JAMA (Journal of the American Medical Association)
introduziu um programa de melhoria de qualidade (Winkler, 1999). Foram adotados os
seguintes critrios:
1. Os entre ttulos do resumo so coerentes com o formato de resumo estruturado.
2. Os dados no resumo so coerentes com o texto, tabelas e figuras.
3. Os dados ou informaes do resumo esto presentes no texto, tabelas ou figuras.
4. Fornece os anos de estudo e a durao do acompanhamento.
5. Os resultados das Principais Medidas de Resultados so apresentados na seo de
Resultados (evitar informaes seletivas).
6. Os resultados so quantificados com numeradores, denominadores, odds ratios
[razes de chances, razes de diferenas] e intervalos de confiana, onde isso for
apropriado.
7. Apresentam-se sempre que possvel, diferenas absolutas e no diferenas relativas
(por exemplo, A mortalidade baixou de 6% para 3% ao invs de A mortal idade
baixou 50%.
8. No caso de ensaios randomizados, a anlise identificada como intentto-treat ou
anlise de paciente avalivel.
1
102
9.
palavra cidos. Em muitos sistemas este item ser recuperado durante uma pesquisa sobre
precipitao de cidos , embora nada tenha a ver com este assunto.
Os miniresumos de Lunin (1967) (ver captulo anterior), ao contrrio do resumo
convencional, destinam-se basicamente a facilitar as buscas por computador. Embora possam
ser interpretados por usurios inteligentes, so definitivamente mais difceis de ler e entender,
e se ignora como um enunciado esquemtico como esse seria aceito pelos usurios de um
sistema de recuperao.
Tudo isso aponta para o fato de que um resumo ideal para o leitor pode no ser ideal
para as buscas informatizadas. Mas, at onde se pode prever, os resumos continuaro a servir
a ambas as finalidades. Mesmo que a importncia dos servios impressos venha a declinar, os
resumos ainda sero necessrios como um produto intermedirio em buscas informatizadas.
Uma das implicaes disso que as editoras de servios secundrios tero de rever suas
instrues, para que os resumidores passem a criar resumos que, na medida do possvel,
sejam sucedneos eficazes tanto para a realizao de buscas quanto para a leitura.
Fidel (1986) prestou um grande servio ao analisar as instrues para redao de
resumos de 36 produtores de bases de dados. A sntese que ela fez das instrues que
parecem ser relevantes para as caractersticas de recuperabilidade dos resumos reproduzida
na figura 52. Mais que tudo, sua sntese revela algumas divergncias de opini9: utilize a
linguagem do autor, no utilize a linguagem do autor; utilize linguagem idntica linguagem
dos termos de indexao atribudos, utilize linguagem que complemente os termos atribudos,
e assim por diante. A regra mais sensata talvez seja a que especifica que o resumo deve incluir
termos relevantes que faltem nos descritores e no ttulo. Muitas vezes, esses sero termos
mais especficos do que os do vocabulrio controlado.
Booth e ORourke (1997) estudaram resumos estruturados de medicina num contexto de
recuperao da informao. Por meio da importao de registros do MEDLINE, conseguiram
criar duas bases de dados em que podiam fazer buscas, sendo uma de resumos completos e a
outra de resumos segmentados em vrios componentes (objetivos, delineamento, concluses,
e assim por diante) da estrutura. As buscas feitas na base de dados segmentadas,
naturalmente, obtiveram maior preciso, porm menor revocao. Os consulentes tambm
tiveram dificuldade para decidir em quais segmentos fazer as buscas.
Nomoto e Matsumoto (2001) defendem a avaliao da qualidade de resumos produzidos
automaticamente (na realidade, extratos) em termos de quo satisfatria seria a possibilidade
de substituir os textos integrais nas tarefas de recuperao da informao. Eles parecem
acreditar que esta idia se originou com eles, quando, de fato, bastante antiga.
O boletim interno
O fato de haver bases de dados bibliogrficos em praticamente todos os campos do
conhecimento e de em alguns deles haver vrias bases de dados concorrentes no elimina
inevitavelmente a necessidade de um boletim de resumos destinado clientela interna de uma
instituio. O centro de informaes de uma empresa ou outro tipo de organizao em que
haja um forte programa de pesquisas pode almejar produzir seu prprio boletim em virtude de:
1. Os peridicos de resumos existentes no serem suficientemente atuais na cobertura
de materiais fundamentais e do maior interesse para a instituio.
2. Nenhuma base de dados, isoladamente, em formato impresso ou eletrnico abranger,
provavelmente, todos os materiais de interesse para a instituio. Na realidade,
muitas bases de dados so relevantes para os interesses da instituio quando se
tem em conta a diversidade de contedo temtico e de formas documentais.
3. Nenhuma base de dados externa abranger certos materiais de importncia e, de
modo mais evidente, os relatrios internos da prpria instituio literatura de
fabricantes, material publicitrio dos concorrentes, etc.
Para otimizar os procedimentos empregados na produo do boletim interno, ser preciso
identificar os materiais que sero resumidos diretamente. Estes certamente incluiro os
relatrios internos da prpria empresa e materiais externos considerados de especial
importncia. Por exemplo, algum pertencente ao quadro de pessoal do centro poder
examinar todas as patentes novas e preparar resumos daquelas que se revistam de possvel
interesse para a empresa - o que em si mesmo, uma arte. Valendo-se dos mtodos a serem
examinados no captulo seguinte, ser identificada uma lista bsica de peridicos que quase
com certeza, so extraordinariamente produtivos no que concerne aos interesses da
instituio. Esses peridicos tambm sero resumidos diretamente.
104
possvel que as fontes analisadas dessa forma regularmente produzam por hiptese, de
80 a 90% da bibliografia a ser includa no boletim interno. Para elevar essa cobertura bem
acima do nvel de 90% ser preciso utilizar fontes impressas de carter mais genrico. Os
membros da equipe que analisa os peridicos pertencentes lista bsica procura de artigos
de interesse devem tambm examinar os servios de indexao/resumos em formato impresso
que forem apropriados. Isto revelar outros itens relevantes, como, por exemplo, os que
aparecem em fontes que no so adquiridas por assinatura diretamente. Uma fonte
abrangente no campo cientfico, como o Chemical Abstracts, particularmente til para a
localizao de itens de interesse potencial.
Pode-se perguntar por que, em 2003, algum consultaria servios secundrios impressos
ao invs de regularmente fazer buscas em linha nas bases de dados apropriadas. Este seria o
modo de atuao preferido de uma instituio cujos interesses estivessem claramente
delimitados e que pudessem ser expressos de forma bastante abrangente numa estratgia de
busca. Algumas organizaes, porm, tm tal diversidade de interesses heterogneos que se
torna muito difcil localizar itens de interesse potencial, salvo mediante consulta a amplas
sees de fontes publicadas. Ademais, a serendipidade desempenha aqui importante papel:
um bom especialista em informao pode identificar itens relevantes para uma empresa que
talvez estejam fora de seu perfil de interesse, como, por exemplo, uma nova aplicao
potencial para um produto da empresa.
De qualquer modo, o boletim interno ser compilado mediante a anlise tanto de fontes
primrias quanto secundrias, estas complementando a cobertura das anteriores. Num grande
centro de informao, a equipe responsvel pela anlise da literatura incluiria algumas pessoas
que teriam como tarefa principal o exame de materiais estrangeiros, a redao de resumos no
vernculo e a realizao de tradues integrais de itens julgados bastante importantes.
105
Quanto redao mesma dos resumos, as pessoas incumbidas disso economizaro muito
tempo ao fazerem marcaes no texto do prprio documento, a fim de que a entrada de dados
seja feita diretamente da publicao. Em alguns casos ser possvel utilizar diretamente os
resumos de autor, ou necessitaro de alguma alterao, como cortes ou acrscimos. Em outros
casos, pode-se elaborar um resumo perfeitamente satisfatrio extraindo-se pores do texto,
talvez da parte correspondente s concluses ou resultados. Naturalmente, sempre haver
alguns itens que exigiro a redao de resumos originais, seja porque no exista um resumo
satisfatrio, seja porque o processo de elaborao do extrato inadequado, ou porque algum
aspecto de grande interesse para a empresa, porm de interesse secundrio para o autor,
precisa ser ressaltado.
Os resumos preparados para uso interno podem ser disseminados de vrios modos.
Destes, o mais comum um boletim duplicado mecanicamente e que seja editado com
regularidade. Tendo em vista que o mesmo pode ser considerado como um instrumento de
informao da maior importncia para a empresa, deveria, se possvel, ser editado
semanalmente. Os resumos seriam organizados em sees que permaneceriam mais ou menos
constantes, ao longo das semanas, de modo a facilitar a consulta. Seria includo um sumrio
analtico, com indicao de sees e subsees. Um boletim desse tipo pode conter de 80 a
150 resumos. A cada resumo atribudo um nmero exclusivo para fins de identificao e
ordenao. Deve haver um formulrio apenso ao boletim para que seus destinatrios
encaminhem pedidos dos documentos resumidos.
O boletim de resumos ser distribudo para os nomes constantes de uma lista de
destinatrios. Para certos nomes-chave da organizao, o centro de informao poder fazer
algo mais, afixando um memorando capa do boletim, que chamar a ateno de cada uma
dessas pessoas para itens que talvez sejam especialmente relevantes. A forma convencional
de expressar isso seria mais ou menos a seguinte: Se seu tempo s for suficiente para
examinar poucos itens, provvel que os seguintes sejam de seu particular interesse.
Uma alternativa ao boletim como tal , evidentemente, disseminar os resumos como
itens separados. Isso requer que os disseminadores possuam uma imagem ntida e abrangente
dos interesses individuais, de modo que cada pessoa receba somente itens que lhe sejam
potencialmente pertinentes, ou que algum programa de computador seja utilizado para cotejar
caractersticas dos resumos com perfis de interesses individuais.
Realmente no recomendvel a distribuio de resumos separados. Isso exige muito
mais trabalho de parte do centro de informao e elimina a possibilidade de o usurio
encontrar outras informaes percorrendo as pginas a esmo. Um boletim bem-organizado
um instrumento de disseminao mais eficaz. Chamar a ateno para itens selecionados do
boletim, com o objetivo de poupar tempo a pessoas-chave, um substituto eficaz da
disseminao de resumos separados.
Ao criar um boletim interno, o centro de informao estar, evidentemente, formando
uma base de dados. Alm disso, trata-se de uma base de dados que ser de grande utilidade
potencial para a instituio. Dever ser acessvel em linha dentro da empresa, de uma forma
que se preste a buscas eficazes. Cada resumo pode ser indexado (pela prpria pessoa que o
redige), seu texto prestar - se a buscas ou o sistema de recuperao adotar uma combinao
de termos de indexao com expresses do texto.
claro que a intranet da prpria instituio pode ser usada para disseminar resumos
eletronicamente para as pessoas e/ou tornar o boletim acessvel na ntegra para consultas em
linha. No obstante, ainda h muitos argumentos favorveis utilidade para consulta de um
boletim distribudo em formato impresso.
Inclinao para um assunto
Mencionou-se a inclinao para um assunto no captulo anterior. Quando uma publicao
de resumos projetada para ser utilizada por um grupo de pessoas que possuem interesses
claramente definidos e especializados (como seria o caso de um boletim interno),
conveniente, sem dvida, que cada resumo seja moldado aos interesses precisos do grupo.
Isso foi reconhecido no projeto de anlises de contedo modulares (Lancaster et al., 1965)
descrito no captulo 7. Para que essas anlises tivessem 9 mximo de utilidade para um grupo
diversificado de servios secundrios, props-se que incorporassem mdulos temticos. Uma
anlise de contedo incluiria um resumo bsico mais pargrafos suplementares, cada um dos
quais seria moldado aos interesses de determinado grupo. As entradas de ndice fornecidas
tambm refletiriam essa diversidade de interesses. O apndice 2 exemplifica o mtodo: o
resumo bsico sobre contato de chama complementado com pargrafos que relacionam o
106
107
ali se encontram 142/200, o que nos d uma cobertura estimativa de 71%. O fato de os
2001tens no serem todos os itens publicados sobre supercondutores no importante; tratase, em certo sentido, de um conjunto representativo de itens sobre supercondutores e
constitui uma amostra perfeitamente legtima para se usar na estimativa de cobertura.
Seria possvel, obviamente, fazer o percurso inverso, empregando itens extrados do
Engineering Index para avaliar a cobertura do Physics Abstracts. Dessa forma tambm se
determina o grau de duplicidade e exclusividade de dois (ou mais) servios, como se acha
representado no diagrama no final deste pargrafo. Obtm-se esses resultados extraindo-se de
A uma amostra aleatria de itens sobre supercondutores e cotejando-os com B, e extraindo-se
de B uma amostra aleatria de itens sobre supercondutores e cotejando-os com A. Essas
amostras nos permitiriam estimar a cobertura de A (181/200 ou cerca de 90% no exemplo
hipottico acima), a cobertura de B (168/200 ou cerca de 84%), o grau de duplicidade entre os
servios (149/200 ou cerca de 75%), e a exclusividade (cerca de 16% dos itens includos por A,
ou seja, 32/200, aparecem exclusivamente nesse servio enquanto a cifra comparvel para B
est um pouco abaixo de 10% (19/200)). O mesmo tipo de resultado seria alcanado, e sob
certos aspectos mais facilmente, se extrassemos uma amostra de uma terceira fonte, c, para
estimar a cobertura, a duplicidade e a exclusividade de A e B.
Por exemplo, Thorpe (1974), ao estudar a literatura de reumatologia, obteve uma estimativa de cobertura para o
Index Medicus com base nos ttulos de peridicos que foi um tanto diferente daquela baseada nos artigos dos
peridicos. Brittain e Roberts (1980) tambm apresentam indicaes sobre a necessidade de estudar a cobertura e a
duplicidade no mbito dos artigos.
110
111
porm no garantido. No caso da AIDS, por exemplo, existem atualmente novos peridicos
dedicados exclusivamente a este assunto e que provavelmente viro a aparecer entre os dez
do topo da lista durante o perodo de 1987 em diante, talvez at ocupando o primeiro lugar. No
entanto, bastante provvel que todos os peridicos da figura 59 continuaro entre os mais
produtivos sobre AIDS ainda por algum tempo. Os peridicos na faixa intermediria da
distribuio (isto , aproximadamente os do meio da tabela da figura 57) so muito menos
previsveis podero ou no continuar publicando artigos relacionados AIDS. OS ttulos que
aparecem no p da tabela so bastante imprevisveis: um peridico que tenha publicado
somente um artigo sobre AIDS em cinco ou seis anos talvez nunca mais venha a publicar outro
artigo sobre o mesmo assunto.
Ao procurar formar uma base de dados especializada em AIDS, portanto, o centro de
informao cobrir uma parte dessa literatura por meio de assinatura direta - talvez uns 100
peridicos, mais ou menos - e identificar os outros itens que tratam de AIDS mediante buscas
sistemticas em outras bases de dados de mais amplo alcance: MEDLINE, BIOSIS, etc.
Martyn (1967) e Martyn e Slater (1964) realizaram os estudos clssicos sobre cobertura
de servios de indexao/resumos, porm h, na bibliografia, muitos outros trabalhos sobre
cobertura ou duplicidade. Por exemplo, Goode et al. (1970) compararam a cobertura do
Epilepsy Abstracts, um produto da Excerpta Medica Foundation, com a do Index Medicus,
enquanto Wilkinson e Hollander (1973) compararam a cobertura do Index Medicus e do Drug
Literature Index.
Dois estudos fizeram uma comparao entre Biological Abstracts, Chemical Abstracts e
Engineering Index e seus equivalentes em formato eletrnico: Wood et al. (1972) compararam
a cobertura das trs fontes em termos de ttulos de peridicos, enquanto Wood et al. (1973) as
compararam em termos de artigos de peridicos selecionados para cobertura.
Talvez o maior estudo sobre duplicidade foi o relatado por Bearman e Kunberger (1977),
que analisaram 14 servios diferentes e quase 26 000 peridicos por eles indexados, tendo
tratado da duplicidade e exclusividade de cobertura.
Embora o Index Medicus tenha sido analisado mais vezes do que qualquer outra fonte, a
Bibliography of Agriculture foi tema do estudo mais intensivo sobre cobertura. Em dois
113
relatrios afins, Bourne (1969a, b) comparou a cobertura dessa fonte com a de 15 outros
servios e calculou sua cobertura de tpicos especficos, empregando para isso as bibliografias
que acompanham os captulos de anurios de reviso da literatura.
Montgomery (1973) estudou a cobertura da literatura de toxicologia em Chemical
Abstracts, Biological Abstracts, Index Medicus, Excerpta Medica, Chemical Biological Activities e
Science Citation Index. Este foi um estudo inusitado, pois coletou um conjunto de 1873
referncias da literatura de toxicologia (1960-1969) junto a 221 membros da Society of
Toxicology e as utilizou como base para comparao das diversas fontes.
OConnor e Meadows (1968) estudaram a cobertura de astronomia no Physics Abstracts,
Gilchrist (1966), a cobertura da literatura de documentao (especificamente itens sobre a
avaliao de sistemas de informao) em seis servios, e Fridman e Popova (1972), a cobertura
de primatologia experimental no Referativnyi Jurnal. Brittain e Roberts (1980) tratam da
duplicidade no campo da criminologia, e Robinson e Hu (1981) comparam a cobertura de bases
de dados no campo da energia. Edwards (1976) incluiu a cobertura como um aspecto de seu
estudo sobre ndices em biblioteconomia e cincia da informao. La Borie et al. (1985)
estudam a duplicidade em quatro servios secundrios em biblioteconomia / cincia da
informao, baseando-se em ttulos de peridicos, e comparam os ttulos cobertos por esses
servios com aqueles cobertos por seis servios nas cincias, inclusive cincias sociais. Outros
pesquisadores estudaram a cobertura de determinados tipos de publicaes (por exemplo,
Hanson e Janes (1961) realizaram uma pesquisa sobre a cobertura, por parte de vrios
servios, de trabalhos apresentados em eventos, e Oppenheim (1974) examinou a cobertura
de patentes pelo Chemical Abstracts), ou a cobertura de um assunto altamente especfico (por
exemplo, o estudo de Smalley (1980) sobre a comparao de duas bases de dados do ponto de
vista de sua cobertura da bibliografia sobre condicionamento operante).
Os estudos de cobertura so menos comuns hoje em dia, mas de vez em quando aparece
algum na literatura. Brown et al. (1999), por exemplo, comparam a cobertura do Current Index
to Journals in Education com o Education Index.
Estudos de cobertura ou duplicidade no so necessariamente meros exerccios
intelectuais. Alguns so realizados visando a objetivos definidos, dos quais o mais evidente
como melhorar a cobertura de algum servio. Outra finalidade desses estudos a identificao
de uma lista bsica de peridicos em determinado campo, identificados pelo fato de serem
todos considerados merecedores de indexao por vrios servios diferentes. Um exemplo de
um estudo desse tipo relatado por Sekerak (1986), que conseguiu identificar uma lista bsica
de 45 peridicos no campo da psicologia a partir de um estudo sobre duplicidade entre cinco
servios da rea de psicologia/ateno sade.
Recuperabilidade
Para quem estiver procurando informaes sobre determinado assunto, ser importante a
cobertura de uma base de dados sobre esse assunto, principalmente se tiver de fazer uma
busca exaustiva. Evidentemente, a recuperabilidade tambm importante; considerando que
uma base de dados inclui n itens sobre um assunto (o que se pode estabelecer por meio de um
estudo de cobertura), quantos desses itens ser possvel recuperar ao fazer uma busca na
base de dados?
Isso comprovado mediante um estudo que complementar a uma pesquisa sobre
cobertura. Suponhamos que queremos estudar a cobertura e a recuperabilidade de uma
variedade de assuntos que se situam no mbito da base de dados AGRICOLA. Para cada um de
dez assuntos, temos um conjunto de itens bibliogrficos (estabelecido por um dos mtodos
antes descritos) e, para cada conjunto, sabemos quais os itens que se acham e os que no se
acham includos no AGRICOLA. Para cada assunto teramos uma busca realizada por um
especialista em informao conhecedor do AGRICOLA, e aferiramos a recuperabilidade com
base na proporo de itens conhecidos que o especialista conseguir recuperar. Por exemplo, na
primeira busca sobre insetos daninhos soja, sabemos que existem 80 itens sobre este tpico
que se acham includos no AGRICOLA. O especialista, contudo, somente conseguiu encontrar
60 desses itens, ou seja, uma revocao (ver captulo 1) de apenas 75%.
claro que este tipo de estudo testa no apenas a base de dados e sua indexao, mas
tambm a capacidade da pessoa que faz a busca. O efeito desta varivel pode ser atenuado
fazendo-se com que a mesma busca seja feita de modo independente por vrios especialistas
em informao, a fim de determinar que resultados em mdia podem ser esperados de uma
busca sobre o assunto. Os resultados poderiam ser tambm considerados como probabilidades:
por exemplo, 50/80 foram encontrados por todos os trs especialistas (probabilidade de
recuperao 1,00), 6/80 por dois dos trs especialistas (probabilidade de recuperao 0,66),
114
4/80 por apenas um dos especialistas (probabilidade de recuperao 0,33), e 20/80 por
nenhum deles (probabilidade de recuperao zero).
Observe-se que a recuperabilidade (revocao) avaliada somente tendo em conta os
itens conhecidos por antecipao como relevantes para o assunto da busca e que se acham
includos na base de dados. A busca sobre pragas de insetos que atacam a soja pode recuperar
um total de 2001tens, dos quais, digamos, 150 parecem relevantes. Se apenas 60 dos 80 itens
conhecidos como relevantes forem recuperados, a estimativa de revocao de 0,75 o que
implica que os 150 itens recuperados representam aproximadamente 75% do total de itens
relevantes presentes na base de dados.
O coeficiente de revocao, evidentemente, refere-se apenas a uma dimenso da busca.
A fim de estabelecer um coeficiente de preciso (ver captulo 1), seria preciso que todos os
itens recuperados fossem de algum modo, avaliados quanto sua relevncia (por exemplo, por
um grupo de especialistas no assunto). Uma alternativa seria medir a relao custo-eficcia,
determinando-se o custo por item relevante recuperado. Por exemplo, o custo total de uma
busca em linha (inclusive o tempo do especialista em buscas) seria de 75 dlares. Se forem
recuperados 150 itens relevantes, o custo por item relevante ser de 50 centavos.
Existe um modo alternativo de estudar a recuperabilidade de itens de uma base de
dados, o qual envolve uma espcie de simulao. Suponhamos que sabemos existirem numa
base de dados 80 itens relevantes sobre o assunto X e que podemos recuperar e imprimir
registros que mostrem como esses itens foram indexados. Podemos, ento, por assim dizer,
simular uma busca registrando o nmero de itens recuperveis sob vrios termos ou
combinaes de termos. Um exemplo hipottico disso mostrado na figura 60. Nesse caso,
38/80 itens conhecidos como relevantes para o assunto supercondutores aparecem sob o
termo SUPERCONDUTORES, enquanto 12 outros so encontrados sob SUPERCONDUTlVIDADE.
No se encontram itens adicionais sob esses dois termos, mas somente sob os termos A-J.
Conclui-se, a partir de uma anlise desse tipo, que 50/80 itens so facilmente recuperveis e
que 62/80 seriam localizados por um especialista sagaz porque os termos A e B ou esto
relacionados de perto com supercondutores, ou esto explicitamente ligados ao termo
SUPERCONDUTORES por intermdio de remissivas na base de dados. Conclui-se ainda que
18/80 provavelmente no seriam recuperados porque aparecem somente sob termos que no
tm relao direta com supercondutores (por exemplo, podem representar aplicaes do
princpio da supercondutividade).
Albright (1979) realizou minucioso estudo desse tipo empregando o Index Medicus.
Buscas simuladas, feitas sobre dez assuntos diferentes, revelaram que, em mdia, teriam de
ser consultados 44 termos diferentes para recuperar todos os itens que se sabia serem
relevantes para determinado assunto. Embora alguns estivessem ligados, por meio da
estrutura hierrquica ou de remissivas do vocabulrio do sistema, muitos no apresentavam
essa ligao, e seria improvvel que mesmo um especialista em buscas, persistente e
habilidoso, viesse a consult-los. A figura 61 mostra um exemplo do trabalho de Albright. Na
realidade, somente um especialista em buscas que fosse muito inteligente e persistente
obteria alta revocao numa busca sobre esse tpicos no Index Medicus.
Assim como os artigos esto dispersos pelos ttulos de peridicos, os itens sobre um assunto
includos numa base de dados esto dispersos sob muitos termos diferentes. o que mostra
graficamente a figura 62. possvel que, para determinado assunto, se encontre uma
percentagem relativamente alta de itens relevantes sob um pequeno nmero de termos
bvios (por exemplo, SUPERCONDUTORES ou SUPERCONDUTIVIDADE numa busca sobre
supercondutores). Acrescentando outros termos bastante afins, talvez ligados aos termos na
estrutura do vocabulrio da base de dados, eleva-se a revocao para, digamos, 70-80%. Ainda
sobrariam, neste caso hipottico, uns 20 a 30% de itens esquivos que o especialista em buscas
provavelmente no conseguiria encontrar.
115
Esta anlise sobre simulaes foi deliberadamente simplificada pelo fato de, em grande
parte, ter suposto que uma busca teria apenas uma nica faceta ou, pelo menos, seria uma
busca feita num ndice impresso onde s se pode consultar um termo de cada vez. A simulao
de uma busca numa base de dados em linha, que comumente envolve mais de uma faceta,
ser um pouco mais complicada. Por exemplo, numa busca sobre pragas de insetos que
atacam a soja, temos de admitir que s se recuperaria algum item se ele estivesse indexado
sob um termo designativo de inseto bem como sob um termo que indicasse soja.
Albright (1979) realizou o estudo de recuperabilidade mais completo, utilizando, porm,
uma nica fonte, o Index Medicus. Martyn (1967) e Martyn e Slater (1964) examinaram a
1
Para a traduo destes termos, ver Descritores em Cincias da Sade (DeCS) em http://decs.bvs.br/.
116
Registro apresentado
Ttulo do artigo
Ttulo do artigo mais ttulo do peridico
Ttulo do artigo (e do peridico) mais
lista de termos de indexao
Ttulo do artigo (e do peridico) mais
resumo
Ttulo do artigo (e do peridico) mais
resultado e termos de indexao
Texto integral dos artigos
Itens
apresentados
Itens
considerados
nitidamente
irrelevantes
Itens
considerados
relevantes ou
possivelmente
relevantes
30
30
12
13
18
1
30
15
15
30
18
12
30
18
12
30
16
120
121
Esta citao serve como um bom intrito ao captulo 10, que trata das caractersticas de
vrios servios impressos de indexao e resumos.
122
Na realidade, estas ferramentas impressas so muito menos utilizadas hoje em dia do que o eram quando foram
publicadas as edies anteriores deste livro. Muitas bibliotecas cancelaram as assinaturas das verses impressas,
dando preferncia ao acesso em linha e, em alguns casos, as edies impressas, ou partes delas, foram interrompidas
pelas respectivas editoras.
123
remissivas do tipo see. Diferem do Index Medicus por adotarem muito mais remissivas see also
[ver tambm] para ligar termos semanticamente relacionados, tornando um tanto mais fcil a
realizao de buscas genricas que envolvam vrios cabealhos diferentes. Por exemplo (ver
figura 67), o usurio que consulte o termo MAGNETOHYDRODYNAMICS (no Applied Science and
Technology lndex) informado de que deve procurar tambm sob PLASMA, PLASMA WAVES e
SYNCHROTRON RADIATION.
O Engineering Index tambm organizava suas entradas sob cabealhos especficos e
subcabealhos e inclua tanto remissivas do tipo see quanto do tipo see also. Hoje, porm, as
referncias so arranjadas sob descritores sem subcabealhos (ver figura 68).
124
da figura 68, proporcionando acesso a este item sob o ponto de acesso alternativo BEAM
PLASMA INTERACTIONS.
Muitos dos ndices impressos (mas de modo algum todos) baseiam-se em alguma forma de
vocabulrio controlado - um tesauro ou uma lista de cabealhos de assuntos. O vocabulrio
utilizado pelo Engineering Index o Engineering Index thesaurus. Tais vocabulrios controlados
so de grande valia para quem estiver consultando o ndice impresso, principalmente em casos
onde o prprio ndice inclui pouca estrutura de remissivas, como acontece no Index Medicus.
125
126
ndices classificados
Existem basicamente dois tipos de ndices classificados. Num deles, as entradas
aparecem sob nmeros de classificao altamente especficos extrados de um esquema de
classificao geral ou especializado. Este foi o mtodo adotado pelo Library and Informaton
Science Abstracts (LISA) at 1993. No LISA as entradas eram dispostas segundo um esquema
de classificao facetada dedicado ao campo especializado da biblioteconomia e cincia da
informao. A figura 70 mostra algumas entradas relativas a cederrom. Observe-se como a
notao relativa a bases de dados em formato de cederrom (Zjjc) subdividida por meio de
notaes de outras partes da classificao (Rn, Vtic), a fim de oferecer maior especificidade, e
como uma legenda textual empregada para explicar cada notao especfica. A figura 71
apresenta exemplos de entradas do ndice alfabtico de assuntos, inclusive algumas relativas
aos itens mostrados na figura 70. Observe-se como os termos empregados como legendas
textuais na figura 70 tornam-se pontos de entrada no ndice de assuntos. O princpio adotado
o da indexao em cadeia (ver captulo 4); cada nvel da cadeia hierrquica indexado a partir
do mais especfico at o mais genrico:
127
128
129
130
131
132
Outros ndices
A maioria dos outros servios de indexao/resumos em formato impresso so variaes
dos tipos j exemplificados. O Sociology of Education Abstracts, diferentemente do Library and
Information Science Abstracts e do Chemical Abstracts, simplesmente lista os resumos em
ordem numrica sem agrup-los sob categorias genricas de assuntos. O ndice de assuntos,
descrito como um ndice de palavras-chave modificado, indexa os resumos sob palavraschave ou expresses que aparecem no ttulo ou no prprio resumo. Tambm so indexados os
nomes prprios. A figura 78 mostra exemplos de dois resumos, e a figura 79 apresenta
exemplo de entradas de ndice, inclusive algumas correspondentes aos resumos da figura 78
(por exemplo, black dropouts [evaso escolar entre negros], class cutting [cbula na escola],
compulsory education [ensino compulsrio]).
133
134
135
136
Por exemplo, o antigo British Technology Index (BTI), conforme foi descrito no captulo 4,
utilizava entradas de ndice formadas por uma cadeia de termos controlados numa ordem
sistemtica. Veja-se exemplo disso na figura 22 (captulo 4). Uma referncia bibliogrfica
aparecia somente em um nico lugar do ndice, o qual era determinado pela seqncia em que
os termos eram combinados. Outras possibilidades eram criadas mediante um mecanismo
sistemtico de remissivas baseado nos princpios da indexao em cadeia. Por exemplo,
usaram-se remissivas do tipo see [ver] para gerar pontos de acesso alternativos para os itens
sobre fabrics [tecidos] exemplificados na figura 22 (a partir de termos como finishing
[acabamento], dyeing [tingimento], laminating [laminao], etc. Note-se tambm como este
ndice liga entre si termos considerados semanticamente relacionados (related headings
[cabealhos relacionados]). Embora os princpios em que se baseia a indexao tenham
permanecido os mesmos, uma verso posterior dessa publicao, denominada Current
Technology Index (CTI), adotou um mtodo algo diferente de apresentao das referncias.
Esta modificao foi adotada para economizar espao e evitar as pginas com uma
composio muito sobrecarregada que eram caractersticas do BTI. As diferenas de leiaute
entre o BTI e o CTI so exemplificadas na figura 81.
137
Este ndice encontra-se hoje em seu terceiro formato, que inclui resumos, e o ttulo atual
Abstracts in New Technologies and Engineering. A incluso de resumos exigiu uma grande
138
mudana de formato, e a publicao agora se assemelha muito com o formato atual do Library
and Information Science Abstracts.
139
ndices de citaes
O Institute for Scientific Information (ISI) publica atualmente trs ndices de citaes: o
Science Citation Index, o Social Sciences Citation Index e o Arts and Humanities Citation Index.
Em virtude de serem bastante diferentes dos outros ndices impressos descritos neste captulo,
merecem ateno parte.
A utilidade fundamental de um ndice de citaes encontrar para determinado item
bibliogrfico, que seja do conhecimento de quem faz a busca, itens posteriores que o citaram.
A figura 83 apresenta alguns exemplos de entradas do Social Sciences Citation Index (os outros
ndices de citaes obedecem aos mesmos princpios). Suponhamos que sabemos que um
artigo de W.E. Lambert, que comea na pgina 44 do Journal of Abnormal and Social
Psychology, volume 60, 1960, altamente relevante para um interesse de pesquisa atual.
Buscando no SSCI sob o nome do autor (figura 83) localizamos esse artigo e encontramos
outros, posteriores a ele, que o citaram. Neste exemplo o artigo citado por dois outros itens
publicados em 1989 (por Hogg e por Spears).
A figura 83 foi extrada da seo Citation Index [ndice de citaes] do Social Sciences
Citation Index. Observe-se que, sob o nome de cada autor, as entradas aparecem em ordem de
data de publicao. Para os itens citantes apresentam-se apenas sucintas informaes
bibliogrficas. Para conseguir dados bibliogrficos mais completos devemos nos dirigir a outra
seo do SSCI, o Source Index [ndice de fontes]. Por exemplo, o item citante da autoria de
Spears foi publicado no European Journal of Social Psychology, volume 19, 1989, e comea na
pgina 101. Para obter informaes bibliogrficas mais completas (ttulo e nmeros de pginas
completos) temos de procurar sob seu nome no Source Index.
Os ndices de fontes do Social Sciences Citation Index e do Arts and Humanities Citation
Index (porm no do Science Citation Index) fornecem, para cada item includo, uma lista das
referncias bibliogrficas que aparecem no final do artigo (ver, por exemplo, a figura 84).
Nos ndices de citaes, uma forma original de ndice de palavras-chave oferece uma
abordagem temtica dos itens citantes (fontes). Denominado Permuterm Subject Index [ndice
de assuntos Permuterm], baseia-se em palavras-chave que ocorrem nos ttulos dos itens
citantes. A figura 85 mostra um exemplo de entrada sob termos que comeam com a raiz
debt [dvida], conforme aparecem nos ttulos de diversos itens citantes. Note-se que so
empregadas algumas palavras compostas (por exemplo, debt-financed [financiado pela
dvida], bem como palavras simples. Cada entrada mostra, em ordem alfabtica, outras
palavras-chave que tenham ocorrido junto com ela nos ttulos dos itens citantes. Assim, um
item sob DEBTS (de autoria de Giguere) trata das dvidas do Terceiro Mundo, outro (de autoria
de Garfield) trata das dvidas intelectuais, e assim por diante. Observe-se que as entradas se
repetiro sob cada palavra-chave importante do ttulo (por exemplo, uma entrada sob a
palavra-chave Third World [Terceiro Mundo] ser modificada pelo termo debts [dvidas].
140
evidente que a eficcia deste tipo de ndice de assuntos depende inteiramente da qualidade
descritiva dos ttulos usados na sua gerao e da habilidade de quem faz a busca, uma vez que
no se adota nenhuma forma de controle de vocabulrio.
141
As vrias partes que compem esses ndices de citaes fazem com que sejam poderosas
ferramentas de busca bibliogrfica. Eles ensejam diferentes mtodos de busca. Pode-se iniciar
uma busca com a referncia bibliogrfica de um item sabidamente de interesse ou come-la
com uma palavra-chave. As palavras-chave levam a outras palavras-chave possveis e os
ttulos dos itens citantes tambm sugerem palavras-chave adicionais que seriam teis na
busca. Tomando-se um exemplo hipottico, uma busca por palavra-chave no SSCI de 1996
levaria a um item altamente relevante que seria investigado visando identificao de itens
posteriores que o tivessem citado. Estes, por sua vez, poderiam sugerir outras palavras-chave
que levariam a outros documentos que tambm seriam investigados em busca de citaes
posteriores, e assim sucessivamente numa srie de iteraes. Nos ndices de citaes em que
o ndice de fontes inclui as referncias bibliogrficas (ver figura 84), so possveis outras
formas de iterao. Por exemplo, uma busca sobre um item sabidamente de alta relevncia
pode levar a um item citante altamente relevante. Algumas das referncias no item citante
sero ento investigadas para localizar outros itens que as citem, e assim sucessivamente.
Os ndices de citaes impressos possuem bases de dados equivalentes em formato
eletrnico. Estes e muitos outros ndices mencionados neste captulo, so hoje acessveis pela
Rede. O princpio da citao - um item bibliogrfico que cita (referencia) um anterior - tambm
pode ser adotado para ligar publicaes por outros meios - mediante acoplamento bibliogrfico
ou co-citao (ver captulo 15).
Outro produto bastante conhecido do Institute for Scientific lnformation o Current,
Contents, publicao semanal, editado em vrias sees que abrangem diferentes assuntos,
que reproduz as pginas de sumrios de uma ampla gama de peridicos. A figura 86 mostra
um exemplo. Cada fascculo do Current Contents inclui um ndice de palavras-chave bastante
simples, como mostra a figura 87; um dos termos desse exemplo (glucose) [glicose] tem
relao com um dos itens da figura 86. Observe-se que o ndice inclui algumas expresses e
nomes, bem como palavras-chave simples. Cada entrada leva a uma pgina do Current
Contents e a um nmero de pgina do peridico ali representado. Por exemplo, uma das
entradas sob glucose remete ao item que comea na pgina 3214 do fascculo de dezembro
de 1989 de Applied and Environmental Microbiology (figura 86). Este ndice simples usado de
duas formas. Evidentemente, pode-se simplesmente investigar todas as referncias a
determinada palavra-chave. No entanto, um especialista em buscas mais experiente, que
estiver procurando informaes mais especficas, poder optar por combinar palavras-chave.
Por exemplo, se algum estivesse buscando artigos sobre glicose no contexto de leveduras,
compararia os nmeros que aparecem sob o termo glucose [glicose] com os que aparecem sob
yeast e yeasts [levedura, leveduras], para verificar se algum nmero ocorre sob ambos os
termos. Em caso positivo, talvez esse nmero se refira a itens que tratam precisamente do
tpico da busca, inclusive um dos artigos que aparecem na figura 86. Isso corresponde,
basicamente, a uma variante do sistema Uniterm (ou pelo menos a implementao desse
142
sistema na prtica), conforme se mencionou no captulo 2. O sistema Uniterm foi uma das
primeiras formas de sistema de recuperao ps-coordenado.
Concluso
Neste captulo foram exemplificados diferentes mtodos de implementao de um
servio de indexao/resumos em formato impresso. Embora umas pessoas prefiram um
mtodo e outras pessoas prefiram outro, nenhum mtodo , ipso facto, melhor do que o resto.
Isso depende muito de como o servio ser utilizado.
143
145
como descritor mais importante. Alternativamente, obtm-se uma ordenao incipiente dos
resultados, como em:
M*M
M*m
m*m
Isto , itens em que dois termos, usados por quem faz a busca numa relao e, e sendo
ambos descritores mais importantes (M), viro em primeiro lugar, seguidos daqueles em que
apenas um dos dois seja um descritor mais importante, e depois por aqueles em que ambos
sejam somente descritores menos importantes (m).
Alguns servios de informao ultrapassaram uma escala de ponderao de dois pontos.
No BIOSIS, por exemplo, houve poca em que eram atribudos cabealhos conceituais [Concept
Headings] em qualquer um de trs nveis de nfase: primrio (o item aparece sob este
cabealho em ndices impressos), secundrio (nfase comparativamente forte), e tercirio
(nfase secundria) (VledutsStokolov, 1987).
Observe-se que a indexao ponderada, de fato, oferece a quem faz a busca a
capacidade de variar a exaustividade da indexao. Voltando figura 3, possvel que os
primeiros cinco termos listados sejam considerados descritores mais importantes, e os nove
restantes sejam considerados menos importantes. Nesse caso, a estratgia de busca que
especificasse apenas descritores mais importantes equivaleria, com efeito, a fazer a busca em
nvel de indexao menos exaustivo.
importante reconhecer a diferena entre indexao ponderada, do tipo aqui descrito, e
busca com termos ponderados. Esta ltima nada tem a ver com a indexao ponderada. Ao
contrrio, refere-se elaborao de uma estratgia de busca cuja lgica orientada por pesos
numricos e no por operadores booleanos. Por exemplo, a estratgia de busca assumiria o
seguinte formato:
Termo
A
B
C
D
E
F
Peso
10
10
2
2
1
1
Limiar = 20
O menor peso aceitvel 20, o que significa que os termos A e B devem estar. ambos
presentes num registro antes de ser recuperado. No entanto, um registro pode exceder o peso
mnimo (limiar) de modo que, compreensivelmente, alguns registros tero um escore de 26 (se
todos os seis termos estiverem presentes), outros, 25, e assim por diante. Esses itens com
escores elevados viriam em primeiro lugar numa sada impressa. Tem-se assim uma sada
ordenada por escores, mesmo sem usar qualquer ponderao dos termos de indexao. Este
mtodo de busca em bases de dados foi muito comum em sistemas de processamento em
lotes, principalmente nos voltados para a Disseminao Seletiva de Informaes (DS1). ,
porm, muito menos indicado para buscas no modo em linha.
O mtodo ideal de ponderao implicaria que uma equipe fizesse a indexao (ver
captulo 5) e os termos com que concordassem todos os indexadores teriam peso maior, e os
que fossem atribudos por um indexador teriam peso menor. Villarroel et al. (2002) propem
esse mtodo num ambiente de biblioteca digital. Isso pressupe um registro de texto completo
com um campo destinado a termos atribudos pelos usurios. Os usurios do registro poriam
em destaque partes do texto digital que julgassem importantes e isso levaria reviso dos
pesos relativos aos termos de indexao (ou, de fato, as prprias palavras do texto).
Muitos sistemas automticos incluem formas de ponderao que permitem a ordenao
da sada segundo um critrio. Sistemas desse tipo so examinados no captulo 15. Na maioria
dos casos, os sistemas de processamento automtico ponderam segundo critrios de
freqncia: freqncia de ocorrncia de um termo num texto e/ou de ocorrncia numa base de
dados como um todo; ou outros mtodos que foram experimentados, inclusive o emprego de
critrios posicionais (por exemplo, a qual distncia um do outro se encontram dois termos num
texto). Keen (1991) comparou diferentes mtodos e concluiu que a associao de mtodos
combinados provavelmente oferea melhores resultados.
147
148
149
Ainda mais elaborado do que o mtodo de indexao do EJC, que emprega elos e
funes, era o mtodo de cdigo semntico na recuperao introduzido pelo Center for
Documentation and Communication Research da Western Reserve University (Perry e Kent,
1958; Vickery, 1959). O cdigo semntico foi aplicado a um sistema de recuperao
informatizado, na rea de metais, projetado e operado pela Western Reserve para a American
Society for Metals.
O sucedneo do documento era um resumo telegrfico. Este era redigido segundo um
formato padronizado, obedecendo a um conjunto de regras, para eliminar variaes e
complexidades da estrutura fraseolgica do ingls. Foram feitos formulrios especiais para
anlise de assuntos, para ajudar o indexador no registro de aspectos importantes do contedo
temtico na forma de resumo telegrfico. Nele, os termos eram codificados mediante um
dicionrio de cdigos semnticos. A base do cdigo semntico era um radical semntico. Os
radicais (havia cerca de 250 no sistema) representavam conceitos relativamente genricos.
Cada radical recebia um cdigo de quatro dgitos formado por trs caracteres com um espao
para interpolao de um quarto caractere, como nestes exemplos:
C-TL Catalyst [Catalisador]
C-TR Container [Recipiente]
C-TT Cutting and drilling [Corte e perfurao]
D-DD Damage [Dano]
D-FL Deflection [Desvio]
Os termos particulares eram formados pela insero do infixo de uma letra no radical
semntico e talvez o acrscimo de um sufixo numrico. Por exemplo, DADD representava tanto
wound [leso] quanto decay [deteriorao], onde DDD o radical semntico de damage
[dano] e o infixo A simplesmente representa is a [ um]. Em outras palavras, leso um tipo
de dano. Acrescenta-se um sufixo numrico apenas para distinguir termos que possuam
radicais e estrutura de infixos idnticos; o sufixo no tem em si mesmo importncia semntica.
Na figura 89 est a lista completa de infixos. O uso deles com um radical permite
expressar vrios matizes de significado. Por exemplo, bag [saco] e barrel [barril] eram
ambos representados por CATR, onde o infixo A indica que so tipos de recipientes. Side wall
[parede lateral] era representado por CITR, onde o infixo f indica parte de recipiente. Um
conceito complexo especfico formado a partir de vrios fatores semnticos. Por exemplo, o
assunto telefone expresso por
DWCM.LQCT.MACH.TURN.001
onde
D-CM representa Informao
L-CT representa Eletricidade
M-CH representa Dispositivo T-RN representa Transmisso
E 001 o sufixo exclusivo que distingue o termo de outros (por exemplo, o telgrafo) que
tenham os mesmos fatores semnticos. Pode-se combinar at quatro cdigos semnticos para
formar o cdigo de um conceito especfico.
A
E
I
O
Q
U
V
W
X
Y
Z
150
um
feito de
parte de
feito de vrios
faz uso de, produzido, por meio de
usado para, produz (amide usado [em ingls] para verbos terminados em ing)
age sobre
causa, influenciado por, sofre a ao de (freqentemente usado [na lngua inglesa]
para verbos que terminam em ed)
caracteriza-se pela ausncia de
est ligado a, caracterizado por, caracteristicamente
assemelha-se a, mas no
P
M
cristal
metal
liga
berlio
hexagonal muito
denso
elstico
Que indica que cristais de ligas metlicas, especificamente o berlio, esto de algum
modo sendo processados, e suas propriedades so hexagonais muito densos e elsticos.
Note-se o emprego, neste sistema, de funes companheiras. KOV e KWV so funes
companheiras ou emparelhadas. Se uma atribuda a um termo, quase certo encontrarmos
sua companheira atribuda a um segundo termo, para lig-los e indicar a exata relao entre
eles. Assim, indica-se que cristal, segundo a funo KOV, tem uma propriedade que lhe foi
atribuda. Essas propriedades atribudas so elstico e hexagonal muito denso, conforme
indicado pela funo KWV.
Alm dos indicadores de funo, o sistema adotava um mtodo altamente elaborado de
ligao dos termos (e funes) nos resumos telegrficos. Essa ligao era obtida por meio de
vrios nveis de pontuao:
1. Sublocuo. Termo ao qual se anexava um ou mais indicadores de funo.
2. Locuo. Conjunto de termos proximamente relacionados em determinada relao.
Admite-se um nmero finito de padres de locuo. Por exemplo:
KAM
KQJ
KAH
(processo)
(meio de processo)
(condio de
processo)
material processado
componente principal
componente secundrio
propriedade atribuda a
propriedade atribuda
processo
meio de processo
condio de processo
propriedade influenciada ou determinada por
processo
propriedade influenciada por KAL
fator que influencia KAP
151
KWJ
produto
152
PROJETO DE AERONAVES
154
156
157
A fico em particular
Embora a maioria dos exemplos usados at agora estivesse relacionada a filmes, os
mesmos argumentos e princpios so aplicveis a romances e outras obras de fico em
formato impresso. Apesar de alguns autores, notadamente Pejtersen (ver Pejtersen, 1979,
1984); Pejtersen e Austin, 1983, 1984) terem realizado experimentos com a indexao de
fico, ao longo de muitos anos, o interesse pelo tema aumentou notavelmente na ltima
dcada, a ponto de ter levado a American Library Association a publicar diretrizes sobre a
questo (Guidelines on subject access, 2000).
Pejtersen (1992), entre outros, chamou ateno para a anomalia relativa ao fato de que
os bibliotecrios geralmente pouco fizeram para melhorar o acesso s obras de fico, muito
embora elas representem a metade do acervo das bibliotecas pblicas e mais da metade das
que so retiradas por emprstimo.
Sapp (1986) e Baker e Shepherd (1987) estudam a classificao de obras de fico nas
estantes das bibliotecas e as limitaes dos esquemas de classificao bibliogrfica ou das
listas de cabealhos de assuntos existentes, que pouco contemplam o acesso temtico s
obras de criao. Baker (1988) descreve os resultados de experincias com a classificao de
obras de fico em bibliotecas pblicas. Sapp (1986) tambm examina os mtodos adotados
em certas fontes impressas, como o Short Story Index, o Cumulated Fiction Index e o Fiction
Catalog. Embora essas publicaes realmente indexem os enredos sob mais de um cabealho,
padecem das desvantagens dos ndices impressos em geral no permitem ao usurio
combinar cabealhos numa busca. Assim, seria possvel identificar histrias policiais e histrias
que se passam na China, mas seria muito mais difcil identificar histrias policiais que se
passam num ambiente chins.
Olderr (1991) salientou por que a indexao de obras de fico importante para as
bibliotecas:
Nunca fcil responder a perguntas do tipo voc tem algum romance policial que se passe
em Iowa? ou existe algum romance atual sobre a morte? ou voc poderia me sugerir um
romance sobre o esforo de guerra em territrio ingls durante a Segunda Guerra Mundial?
(p. xiii).
Guard (1991) tambm analisa as formas de abordar a fico de que precisam os usurios
tpicos de uma biblioteca, e Hayes (I 992b) apresenta os resultados de algumas experincias
sobre acesso melhorado ao catlogo de obras de fico em bibliotecas, detendo-se
principalmente no tempo destinado catalogao e nos tipos de cabealhos necessrios.
Ranta (1991) apresenta uma perspectiva diferente, argumentando que o acesso temtico a
obras de fico necessrio para facilitar vrias modalidades de estudos literrios.
Um mtodo avanado para indexao de literatura de fico foi descrito por Pejtersen
(por exemplo, 1979, 1984) e Pejtersen e Austin (1983, 1984). Baseando-se numa anlise sobre
como os usurios de bibliotecas pblicas caracterizam o contedo dos livros, Pejtersen
identificou quatro dimenses principais da obra de fico: contedo temtico, referencial
(poca, lugar, meio social, profisso), inteno ou atitude do autor, e acessibilidade. A partir
disso, ela criou um esquema de indexao que envolvia as seguintes dimenses e categorias:
1. Contedo temtico
a. ao e curso dos acontecimentos
b. desenvolvimento e descrio psicolgica c. relaes sociais
2. Referencial
a. poca: passado, presente, futuro
b. lugar: geogrfico, meio social, profisso
3. Inteno do autor
a. experincia emocional
b. cognio e informao
4. Acessibilidade
a. legibilidade
b. caractersticas fsicas
c. forma literria
O esquema foi adotado, na Dinamarca, na indexao de vrias bases de dados em linha,
e mais recentemente no catlogo interativo em linha conhecido como Book House. Permite
fazer buscas a partir de dados bibliogrficos, palavras-chave controladas, termos de
classificao, e palavras/expresses constantes de uma anotao em linguagem natural. A
figura 93 (extrada de Pejtersen, 1992) mostra uma entrada completa do Book House. A figura
158
De fato, o folheto da ALA no serve a nenhum propsito til, pois as diretrizes so muito
vagas e h um tesauro mais completo e melhor (Olderr, 1991).
Em novembro de 1991, o OCLC e a Library of Congress deram incio a uma experincia de
catalogao cooperativa de assuntos em textos de fico, dramaturgia e outras obras de
criao. Vrias bibliotecas pblicas e universitrias participaram do OCLC/LC Fiction Project
contribuindo para a complementao de registros MARC de um conjunto de itens selecionados.
Foram a eles acrescentados termos relativos tanto a gnero quanto a assunto (cabealhos de
assuntos LC). Mais de 15 000 registros LCMARC foram complementados pelo OCLC e as
bibliotecas participantes. Alm disso, foram tambm complementados registros bibliogrficos
feitos por algumas das bibliotecas participantes, e muitas propostas de cabealhos de assuntos
foram submetidas Library of Congress, que aprovou mais de mil dessas propostas, em sua
maioria cabealhos para personagens de fico (Westberg, 1997). O projeto foi concludo em
1999.
Em 1997, a British National Bibliography passou a incluir entradas de obras de fico com
cabealhos de assuntos tpicos, bem como cabealhos de gnero e forma baseados nas
diretrizes da ALA (MacEwan, 1997).
provvel que as obras de fico apresentem dificuldades maiores para o indexador do
que outros tipos de publicaes. A coerncia provavelmente ser at menor, a menos que seja
adotado um vocabulrio controlado de termos genricos, bem pequeno, principalmente se o
indexador tiver de expressar o ponto de vista do autor. A indexao da literatura de fico
(por exemplo) parece inerentemente mais subjetiva do que a indexao de peridicos ou livros
especializados que tratam de fico. Outro problema que no absolutamente fcil, para os
objetivos da indexao, fazer a leitura por alto de obras de fico, e o indexador no conta com
o auxlio dos ttulos e entre ttulos temticos, que quase certamente encontra em muitos outros
tipos de publicaes (Jonak, 1978).
Olderr (1991) identifica os problemas com bastante clareza:
A catalogao de obras de fico exige imaginao. Uma obra de no-fico, mesmo que no
traga dados de Catalogao na Publicao (CIP) no verso da folha de rosto, possui um
sumrio, um ndice, ttulos temticos dos captulos e outras caractersticas que ajudaro o
catalogador. At o ttulo normalmente reflete com preciso o contedo. Se o livro for sobre a
inveja, assim haver de declarar; se for sobre cime, tambm o dir. Uma obra de fico, por
outro lado, pode tratar da inveja ou do cime e jamais empregar no texto uma dessas
palavras. E depois que o catalogador houver identificado o tema, ainda haver o problema de
lembrar qual a diferena entre inveja e cime. Isso, para comear, no algo que seja do
pleno conhecimento de todos... (p. xiv).
160
bibliotecrios (Saarti, 2000a,b). Saarti (1999) trata de tesauros para a indexao de fico e,
em particular, do tesauro finlands.
Este exame da questo partiu da hiptese de que as obras ficcionais so indexadas em
alguma forma de base de dados. Bradley (1989) examina uma situao afim a essa: a
necessidade de ndices nas prprias obras de fico. Embora seja defensvel a incluso de
ndices no final de certas obras, como, por exemplo, clssicos renomados, certos romances
histricos e outros trabalhos ficcionais que possam ser objeto de pesquisas cientficas, o estudo
de Bradley mostrou que foi pouco o interesse demonstrado por romancistas, crticos, leitores
ou editoras.
Bell (1991b) identifica os problemas especiais implcitos na elaborao de ndices de
romances. Ela salienta que dar a entender a sutileza e complexidade da inteno de um
romancista muito mais difcil do que expressar de que trata uma obra de no-fico.
Redao de resumos
As obras de fico, tanto quanto outros tipos de publicaes, precisam ser resumidas
(quando no seja, para facilitar sua indexao), porm as caractersticas dos respectivos
resumos ou sinopses so bastante diferentes das caractersticas dos resumos de publicaes
cientficas examinados anteriormente neste livro. Um bom resumo deve conter os aspectos
fundamentais do enredo ou ao, indicando o ambiente (geogrfico, cronolgico) e as emoes
descritas, quando isto for apropriado. A sinopse pode ser estruturada como no exemplo da
figura 93 ou adotar a forma de uma narrativa simples, como no exemplo da figura 95. Embora
as caractersticas da sinopse sejam bastante diferentes das caractersticas do resumo, sua
finalidade principal semelhante - indicar para o leitor se ele precisa ou no ler ou ver o item
descrito. Alm disso, aplicam-se igualmente sumarizao de obras de fico os mesmos
princpios bsicos que orientam a redao de resumos: exatido, brevidade, clareza.
Esta anlise comea com um resumo dos principais elementos do enredo da obra e continua
com sees separadas que a examinam em profundidade. A seo Os Personagens examina
as motivaes e o desenvolvimento das pessoas retratadas; Temas e Significados examina
as preocupaes maiores da obra; e Contexto Crtico avalia o lugar da obra na tradio
literria norte-americana e sintetiza qual foi sua recepo. Cada verbete termina com uma
bibliografia comentada que orienta o leitor para outras fontes recentes de estudo (p. v).
Pejtersen (1994) admite trs estruturas lingsticas bsicas para identificar e expressar o
contedo de obras ficcionais (ver figura 97). Esse esquema pode ser empregado para orientar
a redao de anotaes, como no exemplo apresentado, e essas anotaes so uma fonte
bvia de termos de indexao teis. Ela adverte, no entanto, que uma descrio completa do
contedo temtico pode exigir a combinao de vrias estruturas.
163
164
Tudo que foi dito sobre indexao neste livro, at aqui, limitou-se a textos escritos. claro
que descrever imagens com palavras ainda importante. Imagens digitais, porm, tambm
podem ser indexadas (automaticamente) e recuperadas por atributos intrnsecos, como cor,
forma e textura. Os termos que distinguem os dois mtodos no so de todo coerentes, mas a
descrio de imagens, com palavras, feita por seres humanos, denomina-se em geral
indexao baseada em conceitos, e a indexao de imagens por seus atributos intrnsecos
baseada em contedos (Rasmussen, 1997). Caractersticas como cor, forma e textura so
amide denominadas caractersticas de nvel baixo. As caractersticas de nvel alto so
descries da imagem baseadas em palavras.1
Besser (1997) chamou a ateno para o problema da indexao relativa a imagens da
seguinte forma:
Como as colees de imagens possuem muito poucas informaes textuais que
originalmente as acompanhem, nossos sistemas tradicionais de recuperao no se aplicam
facilmente a elas [...] Os museus, que, coletivamente, abrigam um dos maiores conjuntos de
imagens que efetivamente vm acompanhadas de texto, muitas vezes atribuem termos a
uma imagem que no so absolutamente teis para o leigo (p. 24).
Alguns autores, como Mostafa (1994), distinguem entre indexao verbal (isto , representao textual de uma
imagem) e indexao baseada em imagens (a extrao de caractersticas, e, portanto, pontos de acesso, da prpria
imagem), e isso parece ser uma diferenciao clara, exceto, naturalmente, que um nico sistema de recuperao pode
incluir ambos os tipos.
165
qualquer um desses nveis de abstrao podem ser multinveis e ser derivadas das
descries nos nveis inferiores de abstrao, ou associadas a elas (p. 61).
As buscas numa base de dados de imagens nos nveis mdios de abstrao envolvem
recuperao de imagens baseada em contedo. Continua Mehrotra para caracterizar os
requisitos da seguinte forma:
1. Consultas que no envolvam processamento/anlise de imagens nestas consultas,
no h necessidade de processamento ou anlise de imagens da base de dados, e no
so apresentadas imagens de consulta. Exemplos: 1) recupere todas as imagens que
contenham pelo menos um automvel em frente de uma casa, 2) recupere fotografias
que contenham um homem sorrindo. As descries simblicas (extradas
automaticamente e/ou especificadas pelo usurio) relativas s imagens da base de
dados so empregadas para selecionar as imagens desejadas. Essas consultas podem
ser processadas por meio dos mtodos tradicionais.
2. Consultas que envolvam processamento/anlise de imagens estas consultas
envolvem uma ou vrias imagens que so processadas para extrair delas as
informaes simblicas desejadas a elas relacionadas. A descrio extrada
comparada com a descrio de imagens da base de dados, a fim de selecionar
imagens que satisfaam s exigncias especificadas. Exemplos: 1) recupere todas as
imagens que contenham um ou vrios objetos similares a determinada imagem de
consulta em termos de cor da imagem e caractersticas textuais (p. 61-62).
bvio que os diferentes nveis de abstrao mostrados na figura 98 representam, de
cima para baixo, problemas de indexao crescentemente complexos e crescentemente
incomuns.
As representaes exclusivamente textuais das imagens possuem evidentes limitaes.
Heller (1974) mostra um exemplo muito radical do registro catalogrfico de uma pintura de
Picasso (figura 99). O primeiro grupo de elementos do registro representa dados exatos sobre
a pintura, mas o segundo grupo, que se refere ao que ali se acha representado, e como
representado, alm de ser uma questo de interpretao, oferece uma viso bastante
imperfeita de como ela . Tambm no inclui outros atributos importantes, principalmente as
cores.
Schroeder (1999) descreve como trs diferentes camadas de indexao so aplicadas s
imagens no General Motors Media Archives: objetos (aquilo que representado - por exemplo,
um caminho Chevrolet ano 1935), estilo (por exemplo, uma fotografia imparcial versus uma
fotografia atraente de um veculo) e implicaes (por exemplo, ilustra a grande durabilidade
do veculo).
provvel que a indexao de imagens por meio de descries verbais seja ainda mais
subjetiva e, portanto, mais incoerente do que a indexao de textos. H indcios de que isso
seja verdade (Markey, 1984). Isso levou Brown et al. (1996) a sugerir a possvel utilidade de
uma abordagem democrtica da indexao, em que os usurios das imagens sugerem seus
prprios termos de indexao, e a fazer experincias com esse mtodo. Vrios autores
defendem a colaborao dos usurios na indexao de bases de dados de vdeos. Liu e Li
(2002), por exemplo, propem um sistema em que os termos que aparecem nas buscas dos
166
usurios tornar-se-iam termos de indexao relativos aos trechos de vdeo que recuperam
(provavelmente apenas os considerados relevantes).
difcil chegar a um acordo sobre a indexao de imagens porque difcil haver
concordncia quanto ao que uma imagem realmente mostra. Shatford (1986) faz uma
distino entre de que uma imagem e do que ela trata. No primeiro caso, lida-se com coisas
concretas (por exemplo, a imagem mostra uma me com os filhos), enquanto no segundo caso
lida-se mais com abstraes (por exemplo, a imagem mostra misria, sofrimento, desespero).
Em artigo posterior (Layne, 1994), ela identifica vrios tipos de atributos na indexao de
imagens, embora sugira que disciplinas diferentes podem querer utilizar atributos muito
diferentes na indexao de um acervo de imagens. Ela acentua a importncia de empregar a
indexao para formar grupos teis de imagens ao invs de pensar somente em imagens
tratadas de modo isolado. Krause (1988) trata com certa mincia do problema da indexao de
acervos de imagens. Ele concorda com a distino entre de e do que trata, mas adota nomes
diferentes, a saber, aspectos rgidos [hard] e flexveis [soft] da imagem.
Svenonius (1994) argumenta que, embora algumas imagens (por exemplo, em textos
mdicos) destinem-se a transmitir informaes, essa no de fato a finalidade de pinturas e
outras formas artsticas. Embora algumas representem pessoas ou objetos que podem ser
descritos verbalmente, outras so lingisticamente indeterminadas.
Markey (1984), Shatford (1986), Svenonius (1994), van der Starre (1995) e Enser (1995),
entre outros, referem-se ao trabalho do historiador da arte Panofsky, que sugeriu que uma
imagem podia ser analisada do ponto de vista pr-iconogrfico, iconogrfico e iconolgico.
Numa experincia de que participaram 18 pessoas, de antecedentes variados, Enser constatou
que a mesma imagem seria indexada em todos os trs nveis. Por exemplo, uma cena da torre
Eiffel receberia termos nos nveis pr-iconogrfico (torre, rio, rvore), iconogrfico (torre Eiffel,
rio Sena) e iconolgico (romantismo, frias, emoo). O grande nmero de termos atribudos a
uma nica imagem (18 pessoas atriburam 101 termos cena de Paris), argumenta Enser,
indica a necessidade de indexao exaustiva.
Orbach (1990) um dentre vrios autores que acentuaram a necessidade de indexar
uma coleo de imagens do ponto de vista de determinado grupo de usurios. Em suas
prprias palavras:
167
A meta da anlise temtica capturar a essncia de uma imagem ou grupo de imagens - seu
contedo e temas mais importantes - ao mesmo tempo que permanece alerta para
elementos que sabidamente sejam de interesse especial para a clientela do repositrio (p.
184).
Para certas exigncias, como, por exemplo, recuperao de uma imagem que ilustre uma
emoo, a indexao de bases de dados de imagens tem algo em comum com a indexao de
obras de fico, como vimos no captulo precedente.
Abordagens baseadas no contedo
Vrios sistemas foram desenvolvidos para permitir a busca de imagens por meio de
caractersticas de nvel baixo, como forma, cor e textura. Na maioria dos casos, o computador
(possivelmente com ajuda humana) extrai das imagens caractersticas teis de nvel baixo e
recodifica esses dados numa forma simblica, mais fcil de ser usada em operaes
posteriores de indexao e recuperao.
O sistema QBIC (Query by Image Content), desenvolvido pela IBM, est sendo empregado
em carter experimental em diversas aplicaes (Flickner et al., 1995). Holt e Hartwick (1994),
que o utilizaram num contexto de histria da arte, descrevem seus recursos da seguinte forma:
O QBIC oferece vrias formas de consultas de imagens. As duas mais gerais so como
consulta de objeto ou consulta de imagem. As consultas de objetos recuperam imagens
que contm objetos que coincidem com especificaes de consulta, do tipo localize formas
vermelhas e circulares, enquanto as consultas de imagens buscam a coincidncia com
caractersticas totais de imagens, do tipo encontre imagens que possuam principalmente
tonalidades de vermelho e azul. Para efetuar consultas de objetos, estes devem ser
identificados em cada cena, normalmente de modo manual, traando um esboo deles antes
da consulta. O processo de esboar os objetos e em seguida processar atributos ou
caractersticas de cada objeto e cada imagem como um todo denomina-se classificao de
imagens. H ferramentas bsicas de desenho, como retngulo, elipse, polgono, pincel e uma
ferramenta de contornos ativos [snake tool], que traa o contorno das imagens selecionadas.
Uma ferramenta de preenchimento [fill tool] acelera o mascaramento de imagens de alto
contraste ao traar automaticamente pixis de valor similar ao que foi selecionado (p. 8283).
O QBIC permite a realizao de buscas que envolvam cores, texturas e formas, bem como
o assunto representado numa pintura. Tambm permite consulta, por exemplo, (encontre
outras fotografias como esta). Holt e Hartwick relatam que buscas sobre formas em pinturas
podem enfrentar enormes problemas.
Diversos outros sistemas de recuperao baseados em contedo foram desenvolvidos,
embora no se tenha clareza sobre quais so operacionais e quais so simplesmente
experimentais. Um exemplo caracterstico o MUSE (Marques e Furht, 2002), um prottipo em
funcionamento destinado a suportar pesquisas e consultas, por exemplo. Um componente que
integra o projeto do MUSE um mecanismo de retroalimentao de relevncia.
As tcnicas de reconhecimento e coincidncia de formas ainda esto muito aqum da
perfeio. E, conforme Picard e Minka (1995) salientam, a anlise de formas no resolve todos
os problemas de consulta, por exemplo - algumas imagens procuradas (um campo, gua,
multides, fogo) no possuem uma forma bem-definida, e devem, ao contrrio, ser cotejadas
pela textura. Eles examinam abordagens de identificao de regies visualmente similares
numa fotografia, empregando caractersticas como direcionalidade, periodicidade,
aleatoriedade, rusticidade, regularidade, aspereza, distribuio da cor, contraste e
complexidade. O sistema experimental que desenvolveram procura imitar o comportamento
humano no reconhecimento de cenas visualmente similares. Picard (1996) trata ainda da
textura da viso em recuperao de imagens, enquanto Mehrotra e Gary (1995), Mehtre et al.
(1997) e Jagadish (1996) tratam do problema do reconhecimento de formas. Em Ogle e
Stonebraker (1995) e Smith e Chang (1997b) encontram-se exemplos de sistemas em que um
dos principais componentes a pesquisa de cores.
Mehrotra (1997) analisa alguns dos problemas presentes na representao e busca de
formas de imagens, e Huang et al. (1997) estudam a forma, cor e textura como problemas de
indexao e recuperao. O analisador de imagens por eles descrito consegue processar um
histograma de cor para uma imagem, bem como uma medida de textura baseada em
aspereza, contraste e direcionalidade.
A segmentao de imagens obtida por meio de uma tcnica de agrupamento. A posio
relativa desses agrupamentos permite buscas nas bases de dados que envolvam cor, textura e
168
caractersticas espaciais (por exemplo, uma regio vermelha acima e direita de uma grande
regio azul). Forsyth et al. (1997) apresentam um amplo e til panorama sobre o uso de
caractersticas de cor, textura e geometria na recuperao em grandes bases de dados de
imagens.
Mehtre et al. (1998) apresentam um mtodo para o agrupamento de imagens que se
baseia numa combinao de caractersticas de forma e cor. O grau de coincidncia entre
qualquer par de imagens pode ser computado e expresso numericamente, permitindo, assim,
consultas por exemplo (ou seja, possvel pesquisar imagens similares a outra j selecionada).
Alegam um grande sucesso em experincias de recuperao, mas trabalharam com bases de
dados muito pequenas (por exemplo, uma delas possua 500 imagens de logomarcas).
importante reconhecer, contudo, que a maioria dos usurios de bases de dados de
imagens provavelmente no far buscas sobre aspectos mais abstratos, como cor, forma e
textura, embora possam empreg-los para limitar ainda mais uma busca. Huang et al. (1997)
assim coloca a questo:
Em muitas aplicaes de sistemas de recuperao de multimdia, os usurios raramente
usam caractersticas de imagens de nvel baixo (isto , forma, cor, textura) diretamente para
consultar a base de dados. Ao contrrio, o usurio interage com o sistema mediante
conceitos de nvel superior (por exemplo, praia, floresta, flores amarelas, crepsculo) para
especificar determinado contedo de imagem (p. 115).
Experincias realizadas por McDonald et al. (2001) sugerem que a cor pode ser um
critrio de classificao e busca bastante til para o usurio que no tenha em vista
determinada imagem.
Diversos sistemas oferecem a possibilidade de consulta, por exemplo, ou recuperao de
similaridade. Kurita e Kato (1993) descrevem vrias aplicaes experimentais, por exemplo:
1. Ao ser feito o pedido de registro de uma marca, ela pode ser escaneada por um
departamento de patentes e cotejada com uma base de dados de marcas existentes. 1
2. Para consultar bases de dados de museus ou museus de arte, o usurio pode esboar
uma imagem (por exemplo, de uma paisagem ou parte de uma paisagem) e o sistema
pesquisar as pinturas que mais se paream com essa imagem. 2
DiLoreto et al. (1995) analisam trabalho que um tanto similar ao de Kurita e Kato
embora em ambiente totalmente diverso. Seu sistema experimental de informao geogrfica,
baseado apenas na representao pictrica de uma consulta, possibilita uma pesquisa que
pode envolver a utilizao de atributos geomtricos, relaes topo lgicas e distncias.
Nem todos os sistemas baseados em contedo esto centrados em imagens em sua
totalidade. Continuam sendo realizadas pesquisas sobre mtodos para representao e buscas
em regies separadas de uma imagem (ver, por exemplo, Moghaddam et al., 2001). Um livro
de autoria de Wang (2001) descreve com detalhes um mtodo baseado em regies para
recuperao de imagens baseada em contedos. Esse mtodo assim descrito:
Uma imagem, ou parte dela, numa base de dados, representada por um conjunto de
regies, que corresponde aproximadamente a objetos, que se caracterizam por cor, textura,
forma e localizao. O sistema classifica as imagens em categorias semnticas, como
texturado-no-texturado, censurvel-benigno ou grfico-fotogrfico. A categorizao melhora
a recuperao ao permitir mtodos de buscas semanticamente adaptveis e o estreitamento
da faixa de buscas numa base de dados (p. xi-xii).
O mtodo baseado em regies tem a vantagem de permitir critrios menos estritos para
o cotejo de imagens: uma nica regio numa imagem pode ser comparada com vrias regies
em outra imagem. Mesmo que duas imagens no coincidam perfeitamente em sua totalidade,
talvez coincidam razoavelmente bem no nvel de regio.
Jones e Roydhouse (1995) descrevem um curioso sistema, baseado em casos, para
indexao e recuperao de dados meteoro lgicos. Diante de uma situao climtica atual, o
meteorologista pode pesquisar condies similares em situaes passadas. Um mapa das
condies atuais (ver figura 100) pode ser usado como uma consulta; o sistema ento colocar
em ordem de similaridade situaes anteriores (ver figura 101). Cada objeto grfico da
consulta (figura 100), como, por exemplo, a localizao do centro de presso e sua magnitude,
convertido numa representao simblica que empregada nas buscas na base de dados
onde casos anteriores tambm esto representados simbolicamente.
1
A indexao/recuperao de marcas tambm tratada por Wu et al. (1995) e Ravela e Luo (2000), entre outros.
Benois-Pineau et al. (1997) descrevem um mtodo similar no qual as imagens de edifcios podem ser recuperadas
pelo cotejo com um esboo sintetizado.
2
169
textura) de uma imagem, mesmo que a consulta feita pelo usurio esteja em nvel muito mais
elevado (por exemplo, encontrar todas as imagens que contenham pomares). Se o usurio
selecionar alguma caracterstica (por exemplo, pomar) numa fotografia area, o sistema
experimental de Zhu e Chen procurar outras imagens que paream conter caractersticas
similares. O sistema emprega apenas textura na comparao de imagens. Sua expectativa
de que resultados muito melhores seriam obtidos se a comparao se baseasse na forma e na
cor, bem como na textura.
A indexao de imagens baseada em palavras e feita por seres humanos cara, e por
isso foram feitas vrias sugestes sobre como a indexao baseada em conceitos seria
efetuada automaticamente, ou, pelo menos, com ajuda do computador. Goodrum et al. (2001)
sugerem como caractersticas de nvel baixo das imagens seriam usadas para agrupar essas
imagens de modo a possibilitar a herana de termos. Imaginemos uma coleo de imagens
que haja sido indexada com termos atribudos por seres humanos. A essa base de dados
acrescenta-se novo lote de imagens. As tcnicas de agrupamento comparam as imagens
recm chegadas (por exemplo, pela forma) com as que j se encontram na base de dados. Se a
nova imagem X for muito parecida com a imagem antiga A, termos A seriam atribudos a X
tambm, ou, pelo menos, apresentados como sugestes para indexao de X. Propem
tambm que esse tipo de comparao seja adotado nas atividades de controle de qualidade.
Isto , se a imagem X e a imagem Y fossem parecidas, mas os seres humanos houvessem
indexado ambas de modo muito diferente, o sistema criaria um alerta que faria com que
fossem examinadas mais cuidadosamente. Por fim, propem que os usurios de uma base de
imagens sejam solicitados a apresentar uma descrio do uso que pretendem dar a uma
imagem (OU grupo) e que essas descries forneceriam termos que seriam teis pontos de
acesso em futuras recuperaes, Patrick et al. (1999) e Frost (2001) tambm propuseram
formas de indexao por herana.
171
Para imagens presentes num contexto textual (por exemplo, num jornal), talvez seja
possvel extrair automaticamente partes do texto que expliquem a imagem. Trabalhos nessa
linha foram descritos por Srihari (1993, 1995a, b, 1997) e Nakamura et al. (1993), entre outros.
Estes ltimos estudam a integrao de informaes do texto com informaes da imagem
(neste caso um diagrama encontrado num manual ou numa enciclopdia). Em seu trabalho,
como no de Rajagopalan (1994), o texto usado para explicar o diagrama. Por exemplo
(segundo Rajogopalan), a afirmao o disco est rolando caminho abaixo pode esclarecer
muito o que estiver representado num diagrama que completamente esttico. Vrios
sistemas experimentais anotaro (isto , indexaro) imagens baseados em palavras-chave
que ocorram no texto em volta da imagem. Ver, por exemplo, Liberman et al. (2001).
Srihari volta-se para problemas mais difceis e sua pesquisa muito mais complexa,
recorrendo ao campo do reconhecimento da fala bem como aos do processamento da
linguagem natural e compreenso da imagem. Uma aplicao emprega o texto de legendas
para identificar seres humanos retratados em fotografias de jornais. Quando a legenda pode
ser usada para identificar um indivduo, o texto dela empregado para indexar a imagem
automaticamente. No prottipo do sistema denominado Show & Tell (Srihari, 1997), um
analista humano v a imagem de uma paisagem numa estao de trabalho e a descreve
(indexa) mediante uma combinao de entrada de dados com o mouse (apontamento) e
linguagem falada. Um sistema de reconhecimento da fala transcreve a entrada e a sincroniza
com a entrada de dados feita pelo mouse. Esse tipo de videoanotao foi expandido para um
sistema destinado anotao de quadros de vdeo com especial referncia indexao e
buscas em vdeos em aplicaes de inteligncia militar.
Carrick e Watters (1997) apresentam um mtodo para problema afim: o reconhecimento
automtico de associaes entre diferentes mdias, como no reconhecimento de que
determinada fotografia se relaciona com determinada notcia.
Parece provvel que alguns usos das bases de dados de imagens sero to imprecisos
que somente permitiro os mtodos de pesquisas aleatrias ou buscas iterativas. Um exemplo
bvio a busca de um rosto do qual se conhecem ou so lembrados apenas os traos gerais. 1
Jain (1997) examina este problema e o mtodo de busca iterativa para resolv-lo (chama-o de
consultas incrementais):
O usurio que estiver procura de certas informaes, por exemplo, acerca de uma pessoa
de quem tem uma vaga lembrana, especifica coisas importantes que ele recorda sobre a
pessoa [ver figura 102]. Esta especificao talvez diga que ela tem olhos grandes, boca
grande, cabelo longo e testa pequena. Com base nessas informaes, recuperam-se
fotografias de pessoas que nelas se enquadrem. O usurio poder, ento, selecionar a que
mais se aproxime de sua consulta e modificar a consulta seja especificando caractersticas
seja empregando na fotografia ferramentas de edio grfica e de imagens. Isso refina a
imagem de consulta, que ento enviada ao sistema para que fornea novos candidatos
satisfao da consulta. Assim, a consulta formulada de modo gradativo, comeando com a
idia vaga original. Esse processo ser concludo quando o usurio considerar-se satisfeito (p.
71).
Vrios mtodos de reconhecimento de fotografias de rostos so analisados na literatura. Por exemplo, Rickman e
Stonham (1991) propem um mtodo baseado em rede neural. O problema tambm abordado por Wu et al. (J 995),
Pentland (1997), Li et al. (1997), Hafed e Levine (2001) e Fleuret e Geman (2001).
172
fotografias que fazem parte de pginas da Rede (Rowe e Guglielmo, 1993; Rowe, 1994, 1996;
Rowe e Frew, 1996, 1997; Guglielmo e Rowe, 1996).
Gauch et al. (1999) descrevem um sistema - VISION - que atribuir trechos de vdeo a
categorias baseadas nos termos que ocorrem em suas legendas. O esquema de classificao
adotado contm cerca de 2 000 categorias. Os vdeos que chegam podem ser cotejados com
perfis de interesses dos usurios mediante este conjunto de categorias.
Vailaya et al. (2001) desenvolveram procedimentos para colocao de imagens em
categorias baseadas em suas caractersticas de nvel baixo. Os experimentos que descrevem
empregam uma base de dados que contm quase 7 000 fotografias de viagens de frias:
Especificamente, estudamos a classificao hierrquica de imagens de viagens de frias; no
nvel mais alto, elas so classificadas como internas ou externas; as externas so ainda
classificadas como urbanas ou naturais; por fim, um subconjunto de imagens naturais
classificado nas classes de crepsculo, floresta e montanha (p. 117).
173
E acrescentam:
Um resumo de imagens em movimento em si mesmo um vdeo curto e pode oferecer aos
usurios informaes ricas e animadas. O exemplo mais reconhecvel o trailer de filmes [...]
O Movie Content Analysis Project [...] seleciona alguns trechos de um filme e em seguida os
monta no resumo final. Resumos de imagens em movimento incorporam tanto informaes
de udio quanto visuais de uma fonte mais longa e podem ser considerados uma prvisualizao curta de um vdeo longo (p. 68).
Geisler et al. alegam que ainda preciso pesquisar bastante sobre como as pessoas
interagem com os videorresumos.
Ding et al. (1999) compararam trs tipos de videorresumos - quadro-chave, verbal
(palavra-chave/frase) e uma combinao de ambos - com base na compreenso verbal (a
174
175
localizao) fossem previsveis e coerentes com estudos anteriores, os termos que descreviam
a histria na fotografia foram usados muito mais do que seria natural.
Heidorn (1999) estudou a descrio em linguagem natural de objetos (neste caso,
fotografias de rvores floridas) criada por pessoas que tentavam descrever objetos de forma
suficientemente minuciosa para que o ouvinte reconhecesse o objeto num conjunto de objetos
similares. Ele descobriu que os participantes faziam grande uso de analogias em suas
descries (por exemplo, uma planta que parecia uma borboleta).
Goodrum e Spink (1999) examinaram mais de um milho de consultas por imagens feitas
por 211 000 usurios de um nico mecanismo de busca na Rede, o EXCITE. Constataram que,
em mdia, havia 3,74 termos por consulta e que a grande maioria de termos empregados eram
exclusivos, com mais da metade ocorrendo apenas uma vez.
Frost (2001) estudou usurios que faziam buscas numa base de imagens, quando
estavam disponveis tanto as opes visuais quanto verbais. Os sujeitos da pesquisa eram
estudantes, funcionrios e membros do corpo docente de uma universidade. A base de dados
inclua imagens relativas Terra e s cincias espaciais. Um dos principais objetivos da
pesquisa era determinar se os usurios possuam uma imagem mental daquilo que estavam
procurando e se a imagem recuperada coincidia com a imagem mental. Com base em
resultados preliminares, ela concluiu que apenas a recuperao baseada em contedo no era
suficientemente boa para os usurios generalistas, enquanto apenas a recuperao baseada
em conceitos exigia mo-de-obra intensiva. Os custos de um sistema de recuperao de
imagens seriam reduzidos se somente parte da coleo fosse indexada. Os usurios
encontrariam uma imagem satisfatria nessa parte e a utilizariam para uma busca visual na
parte maior da coleo.
Burke (2001) relata estudos sobre classificao de fotografias. Ela empregou a teoria do
construto pessoal (uma tcnica importada do campo da psicoterapia) em seus exerccios de
classificao, e encontrou um alto nvel de coerncia entre os construtos pessoais que os
participantes empregaram para distinguir as fotografias umas das outras.
OConnor et al. (1999) realizaram experincias em que estudantes eram solicitados a
observar imagens selecionadas e registrar as reaes que sentiam diante dessas imagens. A
hiptese subjacente era que essas reaes seriam uma fonte til de descritores para a
organizao de uma coleo de imagens, de modo a facilitar a recuperao futura (isto ,
indexao centrada no usurio). Foi pedido aos estudantes que redigissem legendas e tambm
anotassem palavras ou frases que descrevessem o que a imagem continha e o que sentiram
diante das imagens. Um resultado observado pertinente indexao de imagens foi a
ocorrncia, no incomum, de antonmia: uma frase empregada por um estudante para
descrever uma imagem era quase diametralmente oposta empregada por outro estudante
(por exemplo, um pato que apenas nadava, na viso de um estudante, era visto por outro
como se estivesse numa misso). Embora o uso de termos de reao talvez seja til na
indexao e recuperao de imagens, pelo menos como suplemento a termos mais
convencionais, descritivos (como pato e lago ), claro que teriam de ser fornecidos por uma
amostra representativa de observadores, a fim de captar diferentes interpretaes e pontos de
vista.
Com base em anlise de quais os tipos de termos que os usurios de uma amostra
empregariam ao observar imagens selecionadas, Greisdorf e OConnor (2002) concluem que
termos de consulta de base afetiva/emocional parecem ser uma categoria descritiva
impOliante na recuperao de imagens. difcil entender a lgica de tal afirmativa. Os termos
afetivos/emocionais (entre os exemplos citados esto bonito, sempre jovem, feliz, forte,
melancolia) devem certamente corresponder a reaes totalmente dependentes do momento
temporal. Isto , se a pessoa A julga que determinada imagem sugere a idia de forte, haver
alguma probabilidade de sua reao ser a mesma depois de um ano? Os autores no
procuraram estudar a estabilidade desse tipo de reao ou mesmo a coerncia da reao entre
um grupo grande de pessoas, de modo que carecem por completo de base que sustente sua
concluso. Ademais, muito difcil acreditar na probabilidade de usurios de uma base de
imagens fazerem grande uso desses termos em buscas reais. Estou procura de uma
fotografia de rvores que sugira a idia de forte parece ser algo completamente implausvel.
Choi e Rasmussen (2002) recorreram a membros dos corpos docente e discente de psgraduao de departamentos de histria de duas universidades em seu estudo sobre critrios
para determinar a relevncia de uma imagem para uma necessidade de informao. As
consultas situavam-se no campo da histria norte-americana. Naturalmente, a topicalidade
(isto , a imagem guarda relao com a tarefa do usurio) foi o critrio mais importante nos
julgamentos de relevncia, embora outros critrios, como qualidade e clareza da imagem,
tambm fossem importantes. Como tambm foi notado em muitos estudos nessa rea, as
176
concluses a que chegaram os autores so relativamente triviais. Por exemplo, concluem que
mais provvel que os usurios julguem a relevncia das imagens a partir das prprias imagens
do que a partir das descries textuais dessas imagens:
Em primeiro lugar, os sistemas de recuperao devem permitir aos usurios compulsar e
comparar um conjunto de imagens recuperadas, pois a visualizao das imagens torna mais
fcil os julgamentos de relevncia (p. 715).
177
outras palavras, que o homem identifique os assuntos de uma imagem artstica e que o
computador identifique cor, forma e composio. Por exemplo, se o indexador humano
identificasse os assuntos de imagens de arte, o computador analisaria, se necessrio, um
grande conjunto recuperado de imagens do mesmo assunto (por exemplo, catedrais,
dana, sarcfagos) em busca de semelhanas de forma, cor ou composio (p. 14-15).
A maioria dos autores parece concordar com que a recuperao eficaz de imagens exige
tanto mtodos baseados em conceitos quanto baseados em contedo, aspecto esclarecido por
Ornager (1994):
Embora a idia de dar entrada a uma imagem-consulta tenha muitos argumentos que a
recomendam, essas imagens-consulta nem sempre substituem a fora descritiva das
palavras, que podem ser melhores para alguns conceitos abstratos. difcil perceber como
seria possvel criar uma imagem-consulta que representasse, por exemplo, despovoamento
de pequenas aldeias norueguesas ou cime (p. 214).
Turner (1990) salientou que, mesmo que se possa ter acesso muito rpido a uma imagem
(neste caso quadros de filmes cinematogrficos), isso no exclui a necessidade de acesso a
uma descrio textual:
Alm do mais, muitas vezes o texto funciona como um guia da imagem. Em muitos casos,
consultar uma sinopse ajuda o observador a interpretar a imagem; por exemplo, talvez seja
til saber que o trem que a pessoa observa o Expresso do Oriente, ou que a favela que
aparece na tela fica bem na periferia de Quito. Em outras palavras, o texto de uma sinopse
visual pode proporcionar informaes teis que no esto disponveis na imagem. Assim,
embora seja certamente conveniente ter acesso instantneo imagem, isso no dispensaria
a necessidade de uma sinopse textual (p. 7).
Trant (1995) assevera que a descrio textual permanece sendo a chave da recuperao
de imagens, acentua a necessidade de uma norma sobre como descrever imagens em bases
de dados de imagens e menciona trabalho realizado visando ao desenvolvimento dessa norma.
Mostafa e Dillon (1996) testaram uma interface de um sistema de recuperao de
imagens que possua recursos tanto para buscas visuais quanto verbais. Concluram que era
provvel que seus sujeitos (18 estudantes) utilizassem mais o mtodo verbal do que o visual, e
sua sugesto era de que isso poderia ser devido basicamente falta de familiaridade com o
mtodo visual.
Ogle e Stonebraker (1995), ao analisar sua experincia com um grande sistema de
recuperao de imagens na University of California, Berkeley, reconhecem que o melhor
resultado na recuperao obtido quando critrios de buscas baseados em textos so
combinados com critrios baseados em contedo.
O texto ainda essencial mesmo para as mais avanadas aplicaes de recuperao de
multimdia. Por exemplo, Hauptmann e Witbrock (1997) utilizam transcries da parte de udio
dos noticirios de televiso como um meio para recuperao de segmentos de notcias, para
atender a pedidos ( utilizada a tecnologia de reconhecimento da fala para criar as
transcries e tambm para possibilitar consultas faladas), e Mani et al. (1997), em pesquisa
assemelhada, utilizam texto de legendas fechadas na recuperao de vdeo de noticirios. O
texto de legendas fechadas usado de forma similar por Takeshita et al. (1997).
Mesmo o sistema experimental de recuperao em arte analisado por Kurita e Kato
(1993) no depende inteiramente do exemplo visual para fins de busca. Uma alternativa a
178
consulta por descrio subjetiva, que envolve a indexao das pinturas com adjetivos que
representem impresses do observador (por exemplo, quente, brilhante, japonizado). Do
mesmo modo, DiLoreto et al. (1995) incorporam recursos de consulta tanto visuais quanto
descritivos em seu sistema de recuperao geogrfica.
Cawkell (1994) foi um dos que focalizaram o problema da recuperao baseada
exclusivamente em contedo:
Quanto mais complexas as imagens mais difcil fica para o usurio produzir um exemplo
visual utilizvel, e mais difcil se torna efetuar o cotejo de padres. Talvez seja preciso cotejar
padres tridimensionais; isso aumenta as dificuldades. A ordem de dificuldade cresce ainda
mais se o usurio estiver interessado em recuperar imagens que contenham determinado
objeto dentro de uma imagem.
Por exemplo, se o usurio quiser recuperar todas as imagens onde houver um automvel,
no seria muito difcil representar um carro com o auxlio dos programas atualmente
disponveis que incorporam arquivos de clip art (que contm uma grande seleo de objetos
desenhados) e programas do tipo ferramenta de desenho. Quando a consulta-imagem
submetida base de dados para efetuar a comparao, dever ser possvel recuperar um
carro que esteja em qualquer imagem, independentemente de como esteja representado e
posicionado - tarefa que no impossvel, mas atualmente lenta, que exige o uso, intensivo e
caro, de computadores (p. 129).
sem os rtulos verbais. Para uma anlise das vantagens e caractersticas dos tesauros visuais,
nas buscas em bases de imagens, ver Hogan et al. (1991).
Chu (2001), com base em anlise bibliomtrica da literatura, conclui que no se verificou
suficiente interao entre os que trabalham com a abordagem baseada em contedo e os que
trabalham com a baseada em conceito, embora a situao possa estar melhorando.
Metadados e vocabulrios de indexao
Um livro organizado por Baca (2002) trata de metadados e vocabulrios controlados na
descrio de imagens de arte. As ferramentas mostradas incluem Categories for the
Description of Works of Art (Harpring, 2002) e ICONCLASS (Hourihane, 2002), sendo este um
esquema de classificao, com notao, para a descrio de pessoas, objetos e atividades
representados em obras de arte.
Esquemas de metadados aplicveis a imagens digitais so revistos por Greenberg (2001).
Bases de dados de sons
A recuperao de udio apresenta desafios que so ainda maiores do que os
apresentados pela recuperao de imagens. O campo pode ser rigorosamente dividido em
recuperao de fala e recuperao de msica (embora outros tipos de sons possam tambm
estar presentes em alguns casos). Lu (2001) oferece um levantamento conciso e til desse
campo, embora esteja agora um pouco desatualizado, pois os novos progressos ocorrem muito
rapidamente.
Em virtude de uma trilha sonora longa provavelmente apresentar vrios componentes de
udio - fala, msica e, possivelmente, outros sons (por exemplo, gritos de animais ou ondas
lambendo a praia) - o primeiro passo consiste em classificar os vrios componentes, e Lu
descreve mtodos que podem ser usados para se conseguir isso automaticamente.
Os primitivos sistemas de reconhecimento de fala somente podiam funcionar com
vocabulrios limitados e um nmero limitado de falantes, porm, desde ento, deu-se um
notvel avano. Os sistemas atuais so preparados mediante a gravao de seqncias de
falas de um grande nmero de falantes. Da fase de preparao [training] resultam vrios
produtos, dos quais o mais importante um dicionrio de palavras com suas pronncias
possveis. Uma nova amostra da fala gravada comparada com este dicionrio e a seqncia
de palavras que apresentar a melhor coincidncia ser emitida como texto gravado. Esta
explicao est um tanto simplificada (em primeiro lugar, a unidade de fala usada para
comparao est em nvel inferior ao da palavra - um fonema) mas serve como idia geral.
Aplicam-se os sistemas de reconhecimento de fala para converter a palavra falada em texto
que pode ser processado do mesmo modo que outro texto o para fins de recuperao. Quer
dizer, possvel extrair palavras/expresses que funcionaro como termos de indexao ou
fazer buscas no texto inteiro com o emprego dos tipos de procedimento descritos no captulo
14.
O desempenho dos sistemas de reconhecimento de fala varia segundo alguns fatores,
tais como a matria falada (variando, por exemplo, de nmeros a notcias gerais), seja a fala
que resulta da leitura ou de uma conversa espontnea, e o tamanho do vocabulrio envolvido.
Lu (2001) salienta que o reconhecimento de algarismos pode ser superior a 99%, mas que o
reconhecimento de uma conversa telefnica comum pode cair para 50%.
Os problemas da recuperao de documentos falados foram enunciados, de modo muito
sucinto, por Wechsler et al. (2000), da seguinte forma:
O principal problema quando se aplica o reconhecimento de fala recuperao de
documentos falados est na exatido do resultado do reconhecimento. O reconhecimento
automtico de fala uma tarefa difcil e, por conseguinte, seus resultados muitas vezes
contm grande quantidade de erros de reconhecimento. A preciso do reconhecimento
depende principalmente da: 1) quantidade e qualidade dos dados acsticos de preparao
[training data], 2) quantidade e gnero dos diferentes falantes, 3) quantidade de unidades a
serem reconhecidas, e 4) do ambiente de gravao dos documentos falados. Ademais, no
h pausas acsticas entre palavras na fala contnua, ao contrrio dos espaos em branco
num texto.
Os erros de reconhecimento normalmente degradam a eficcia de um sistema de
recuperao de documentos falados. So estratgias para superar tal problema: 1) melhorar
a preciso do reconhecimento de fala, o que requer enorme quantidade de dados de
preparao e tempo, e/ou 2) desenvolver mtodos de recuperao que sejam mais tolerantes
a erros (p. 173-174).
180
Allan (2002), no entanto, alega que mesmo altos ndices de erros de transcrio podem
ser aceitveis em aplicaes de recuperao:
Mesmo com um ndice de erros de reconhecimento de 40%, a eficcia de um sistema comum
de recuperao de documentos cai apenas 10% (p. 60).
Ele explica que isso se deve a vrias razes: 1) palavras no reconhecidas talvez no
sejam necessariamente palavras importantes para a recuperao; 2) redundncia (se uma
palavra no for reconhecida num lugar, poder ser reconhecida em outro); 3) sinnimos ou
parassinnimos da palavra no reconhecida podem ocorrer e ser reconhecidos.
181
Moreno et al. (2002) oferecem um bom apanhado sobre os atuais recursos para o
reconhecimento de fala:
Os sistemas de reconhecimento de fala baseados em palavras adotam vocabulrios
preestabelecidos que incluem de 60 000 a 100 000 vocbulos. O sistema no pode, por
definio, presumir palavras fora desse vocabulrio. Embora um vocabulrio de 100 000
palavras inclua a maior parte das palavras faladas, todo documento inclui pequena
porcentagem de palavras ausentes do vocabulrio que provavelmente so portadoras de
contedo, e sua no-incluso prejudicar o desempenho da recuperao.
Para contornar tal problema, o sistema pode adaptar o vocabulrio mediante o exame de
documentos relativos ao trabalho. Por exemplo, um reconhecedor de fala usado em sesses
de tribunais usaria documentos jurdicos para aprender as palavras do dicionrio apropriado.
Embora esses vocabulrios especializados reduzam o nmero de palavras ausentes do
vocabulrio, no garantem sua eliminao (p. 59).
trabalho de Blum et al. (1997), que descrevem um navegador de sons desenvolvido para
possibilitar buscas difusas em bases de dados de udio. Os recursos incluem consulta, por
exemplo, (isto , encontre sons semelhantes a... ).
Recuperao de msica
O objetivo das abordagens modernas da recuperao de msica responder consultas
de msica formuladas musicalmente (Downie e Nelson, 2000) isto , permitir que seja feita
uma busca baseada numa entrada musical (por exemplo, cantada ou cantarolada).
A histria da recuperao de informao musical remonta dcada de 1960, mas a
maioria dos progressos alcanados se deu a partir da dcada de 1990. Encontra-se condensada
nos anais de trs simpsios internacionais sobre a matria, realizados em 2000, 2001 e 2002.
Os
trabalhos
de
2000
esto
disponveis
no
stio
<http://ciir.cs.umass.edu/music2000/papers.html>
e
os
de
2001
em
<http://ismir2001.indiana.edu/papers.html>. Um objetivo importante desses simpsios
o desenvolvimento de uma coleo-padro de msica, consultas e avaliaes que possam ser
usadas para comparar diferentes mtodos, de modo muito parecido com a forma como
funcionam as conferncias TREC.
A recuperao de msica mais complexa do que a de fala. Lu (2001) divide o campo
em: 1) msica estruturada ou sinttica, e 2) msica baseada em amostras [sample-based]. Na
primeira, as notas musicais so gravadas como algoritmos e linguagens de controle, que torna
o cotejo com as consultas (na forma de uma seqncia de notas) relativamente fcil, pelo
menos no caso de coincidncia exata. A deteco de passagens de msica semelhante
mais complicada.
Muito mais complexa a recuperao de msica que no esteja gravada em formato
estruturado. Lu (2001) refere-se a essa msica como baseada em amostras porque ela
implica o reconhecimento e extrao de samples [amostras] musicais. Ele identifica duas
abordagens de indexao/recuperao. A primeira baseia-se na extrao de caractersticas
acsticas (como audibilidade, tom, brilho, largura de banda e harmonicidade) e que podem ser
calculadas para cada quadro da composio gravada. Uma composio musical, usada como
consulta (normalmente uma forma cantarolada), reduzida s mesmas caractersticas, o que
permite busca com base numa comparao de padres. Na segunda abordagem, a indexao e
a recuperao baseiam-se no tom. Para cada nota extrai-se ou se calcula o tom. Cada tom
pode ser representado como uma mudana (para cima, para baixo ou similar) relativa ao
precedente, e assim a composio musical (ou composio de consulta) representada por
meio de uma seqncia de smbolos que representam essas alteraes de tom.
Alternativamente, cada nota musical pode ser representada por um valor de tom selecionado
de um conjunto de valores-padro de tom numa base de maior coincidncia. De novo, a
composio musical ser representada por uma seqncia de caracteres que representam o
valor do tom.
Lippincott (2002) nos oferece uma descrio bem til e concisa daquilo que as atuais
abordagens da recuperao de msica esto procurando realizar:
Antigamente, os usurios que procuravam informaes sobre msica voltavam-se para
fontes impressas que continham metadados registrados mo e ordenados por ttulo,
compositor e outras categorias. Obviamente, os mtodos de acesso refletiam tcnicas de
recuperao da poca, baseadas em material impresso para recuperao de informao
bibliogrfica, e tambm pressupunham algum conhecimento musical prvio ou a presena de
um bibliotecrio. Grande parte das pesquisas atuais sobre recuperao automatizada de
informao musical baseia-se em caracterizaes da prpria msica, ao invs de informaes
sobre ela. Por exemplo, ao invs de solicitar uma busca por ttulo da composio, o usurio
entra com uma consulta no formato de udio e recupera resultados similares a essa consulta.
As implicaes para os usurios comuns de sistemas de recuperao de msica baseados em
contedo so importantes, pois no preciso o conhecimento bibliogrfico prvio de uma
composio musical; ao contrrio, bastar, para fins de recuperao, um trechinho de msica
a fluir na mente do usurio (p. 137).
Este trabalho uma tima sntese de vrios mtodos que vm sendo pesquisados.
Liu e Tsai (2001) salientam que:
A maneira mais direta de que um usurio leigo dispe para consultar as bases de dados de
msica cantarolar uma composio como uma consulta-exemplo para recuperar objetos
musicais similares (p. 506).
183
Um dos problemas, porm, a grande diferena de extenso entre esse tipo de consultaexemplo e uma composio musical: uma consulta feita com uma msica cantarolada
normalmente dura alguns segundos, enquanto uma msica popular comum dura cerca de
cinco minutos. Os autores descrevem um mtodo experimental em que o cotejo se torna mais
eficiente mediante o seqenciamento de uma composio musical em fases que tm
aproximadamente a mesma extenso de uma consulta feita com msica cantarolada.
Na indexao e recuperao de msica, preciso distinguir entre msica monofnica
(nenhuma nota comea at que a nota atual tenha terminado de soar) e a msica polifnica
(uma nota pode comear antes que a anterior termine). A msica polifnica mais comum,
porm mais complexa para as operaes de indexao e recuperao. Pickens (2001) descreve
os problemas de seleo de caractersticas para indexao e recuperao de msica polifnica.
Diversas abordagens da indexao e recuperao de msica polifnica foram
apresentadas. Ver, por exemplo, Dovey (2001) e Doraisamy e Rger (2001).
Downie e Nelson (2000) descrevem um mtodo de recuperao de msica baseado no
tom, especificamente a diferena entre dois tons, conhecida como intervalo. As melodias de
uma coleo de canes folclricas foram convertidas em representaes de um nico
intervalo de melodias monofnicas. Estas foram ento fragmentadas em subsees
designadas n-gramas, que so usadas para formar palavras musicais. Isso permite uma
abordagem da recuperao que se assemelha busca de palavras na recuperao de textos e
possibilita que seja aplicado um sistema de processamento baseado em textos (o SMART de
Salton) que permite recuperao em ordem de provvel relevncia.
possvel tambm usar entrada em formato de udio para buscas em base de dados de
partituras musicais. McNab et al. (2000) descrevem um mtodo para recuperar partituras de
uma base de dados em resposta a poucas notas entoadas ou cantaroladas num microfone. A
interface adotada transcreve a entrada acstica em notao musical comum que pode ser
usada para cotejo seqencial e recuperao de msica em ordem de provvel relevncia. Seu
prottipo prova de conceito foi testado numa base de dados de canes folclricas.
Concluram que:
No uma empresa simples fazer buscas em grandes bases de dados de msica e recuperar
itens em que ocorra um determinado tema ou seqncia de notas, tendo em vista
principalmente as imprecises que ocorrem quando as pessoas entoam melodias, mas isso
est com certeza ao alcance da tecnologia atual (p. 113).
Byrd e Crawford (2002) fizeram uma reviso do estado atual dos conhecimentos a
respeito da indexao e recuperao de msica e concluram que o progresso alcanado nessa
rea foi muito limitado:
Apesar de expressivo nmero de projetos de pesquisa haver se voltado para a recuperao
de informao musical, nas ltimas trs dcadas, esse campo ainda est muito imaturo.
Poucos dizem respeito msica complexa (polifnica); os mtodos de avaliao ainda esto
numa etapa de desenvolvimento muito primitiva; nenhum dos projetos enfrenta o problema
de bases de dados que so, realisticamente, de grande escala. Muitos dos problemas a
serem enfrentados se devem natureza da prpria msica. Entre eles esto as questes
ligadas percepo humana e cognio da msica, especialmente no que tange
reconhecibilidade da frase musical [...] e o pressuposto comum de que buscas sobre o tom
(ou contorno do tom) provavelmente bastariam para atender a todas as finalidades [...]
talvez seja verdadeiro para a maior parte da msica monofnica (de uma s voz), mas
certamente inadequado para msica polifnica (de muitas vozes). Mesmo no caso
monofnico pode levar a resultados equivocados. O fato, h muito admitido em projetos que
dizem respeito msica monofnica, de que uma passagem reconhecvel normalmente no
idntica ao padro de busca significa que quase sempre necessria uma coincidncia
aproximada, mas tambm isso se torna seriamente complicado pelas demandas da msica
polifnica. Quase todos os mtodos de recuperao da informao de textos apiam-se na
identificao de unidades aproximadas de sentido, isto , palavras. Um problema
fundamental da recuperao da informao em msica est em que extremamente difcil,
talvez impossvel, localizar essas unidades (p. 249).
Sistemas multimdias
At agora este captulo tratou da recuperao de imagens e da recuperao de sons. No
entanto, tambm esto em curso pesquisas sobre problemas de indexao e recuperao
relativos a apresentaes verdadeiramente multimdias, como as transmisses de televiso.
Um sistema de indexao de multimdias descrito por Kubala et al. (2000) processa a
linguagem falada produzida por fontes de udio e vdeo, como os noticirios de televiso. O
184
prottipo desse sistema possui recursos para sumarizao 1 e indexao. O autor descreve o
primeiro deles da seguinte forma:
A sumarizao uma representao estrutural do contedo em linguagem falada que
muito poderosa e flexvel como ndice para gerenciamento de informaes baseadas em
contedo. Este resumo, que produzido automaticamente pelo sistema, inclui caractersticas
extradas, como nomes de pessoas, lugares e organizaes mencionados no transcrito, bem
como as identidades e localizaes dos falantes na gravao (p. 49).
Wactlar et al. afirmam ser possvel um ndice de erros inferior a 20% no reconhecimento
de fala e que a transcrio de um noticirio pode aparecer na base de dados duas horas e meia
depois de haver sido transmitido.
Brown et al. (2001) oferecem mais esclarecimentos:
O projeto de pesquisa Informedia criou uma biblioteca digital de um milho de megabytes
em que descritores obtidos automaticamente para vdeo so utilizados na indexao,
segmentao e acesso ao contedo da biblioteca. Combina reconhecimento de fala,
processamento de imagens e tcnicas de compreenso da linguagem natural para o
processamento automtico de vdeo, a fim de produzir uma sntese [skim] visual, que diminui
o tempo de visualizao sem perda de contedo. Oferece trs maneiras de visualizao dos
resultados das buscas: quadros-pster [poster frames], tiras de filme e snteses. A
visualizao em quadros-pster apresenta os resultados da busca em formato de quadrospster, em que cada quadro representa um pargrafo de vdeo. A visualizao em tiras de
filme reduz a necessidade de visualizar cada pargrafo de vdeo em sua totalidade ao
oferecer pginas de storyboard para rpida visualizao. As subsees mais relevantes do
pargrafo de vdeo so exibidas como cenas-chave e as palavras-chave so nitidamente
marcadas. A recuperao combinada de palavras e fones tambm foi investigada no projeto
Informedia, onde se utilizou um ndice invertido para transcrio fontica, que inclui
subseqncias fonticas de trs a seis fones. Na recuperao o ndice de documentos com
palavras e a transcrio fontica so pesquisados em paralelo e os resultados so fundidos.
Experincias com um corpus de cerca de 500 notcias dos noticirios da ABC e da CNN (Cable
News Network), com o emprego de ndices combinados de palavras e fones, resultou numa
preciso mdia de 0,67 com um desempenho global de 84,6% do de um sistema de
recuperao de texto completo. No caso, porm, de udio do mundo real com alto ndice de
erros de palavras de 70-80%, registrou-se uma queda drstica da preciso e revocao para
0,1 7 e 0,26, respectivamente (p. 989-990).
Os problemas implicados na criao automtica de resllmos de dilogo falado so bem analisados por Zechner
(2001).
185
No entanto, Srinavasan e Brown (2002) frisam que, embora a tecnologia da fala estivesse
lenta para encontrar aplicaes comerciais, parece que agora est pronta para decolar
comercialmente:
A conectividade da Rede, a tecnologia sem fio e os dispositivos portteis de mo combinados
com o reconhecimento eficaz de fala baseado na gramtica [...] - podem finalmente levar o
reconhecimento de fala a ter a importncia de um mercado de massa (p.38).
Aqueles que vimos trabalhando nessa rea h mais de 40 anos sabemos que a
recuperao de documentos textuais est muito longe de ser fcil em bases de dados de porte
significativo.
importante admitir que as pesquisas sobre recuperao de imagens ou sons dependem
muito mais das tcnicas de indexao automtica do que da indexao feita por seres
humanos. Por isso, as abordagens que sero objeto dos dois prximos captulos relacionam-se
bem de perto com o contedo deste.
187
ser representado adequadamente por meio de palavras simples (unitermos) extradas do texto
dos documentos por indexadores com um nvel de especializao relativamente baixo. Escritos
mo ou datilografados, os nmeros dos documentos eram lanados em fichas projetadas
para esse fim, cada uma representando um nico termo, e as buscas eram feitas comparandose os nmeros em duas ou mais fichas (de modo muito parecido com um moderno sistema em
linha que compara listas de nmeros associados a termos).
Taube teve considervel influncia sobre o desenvolvimento de sistemas de recuperao
da informao na dcada de 1950. Infelizmente, todavia, o sistema Uniterm veio a ser na
prtica menos atraente do que parecera primeira vista.
Padecia de todos os problemas para cuja soluo os vocabulrios controlados foram
criados. Contedos temticos que apresentavam relaes muito prximas entre si apareciam
sob diferentes unitermos, e uma busca exaustiva sobre um assunto exigia que se imaginassem
todas as formas como esse assunto estaria representado no texto, o que nem sempre era uma
tarefa fcil. Esses problemas acarretaram um retorno aos vocabulrios controlados e ao
desenvolvimento do tesauro para a recuperao da informao (Holm & Rasmussen, 1961).
Alm dos problemas de ordem termino lgica, o sistema Uniterm tambm padecia de
limitaes mecnicas. Quem fosse fazer uma busca somente poderia cotejar com facilidade
duas fichas de cada vez. Assim, uma busca sobre A em relao a B, onde A estivesse
representado por quatro unitermos e B por dez, exigiria que fossem feitas 4x 10 cotejos de
fichas separadamente. Embora isso fosse possvel, tratava-se de uma tarefa enfadonha e
demorada. Alm disso, ainda que a relao booleana e (que envolve a comparao de
nmeros) seja fcil de fazer mediante a manipulao de fichas do sistema Uniterm (ou fichas
peek-a-boo), fica muito difcil em sistemas manuais desse tipo realizar uma busca booleana
usando ou (que envolve a fuso de listas) e principalmente combinar (e) conjuntos de termos
numa relao ou. Tais manipulaes de termos so, naturalmente, comuns em sistemas
informatizados. O computador, portanto, soluciona os problemas mecnicos acarretados pela
manipulao de inmeros termos no controlados, mas no resolve, por si mesmo, os
problemas intelectuais criados pela inexistncia de controle do vocabulrio.
Todavia, quando os computadores foram inicialmente aplicados recuperao da
informao, em escala importante, em fins da dcada de 1950 e incio da dcada de 1960,
reconheceu-se que as buscas em textos, e mesmo buscas em textos integrais, haviam se
tornado uma possibilidade sedutora. Ao se estudar a histria dos sistemas informatizados de
recuperao da informao, reconhecem-se duas linhas principais de desenvolvimento. Uma
delas tem sua origem nos grandes sistemas, desenvolvidos por certas instituies como a
National Library of Medicine (NLM), o Department of Defense (DOD) e a National Aeronautics
and Space Administration (NASA), que funcionavam com base em termos de indexao
extrados de um vocabulrio controlado e atribudos aos documentos por indexadores
humanos. A outra linha de desenvolvimento teve seu incio no campo do direito, e envolvia a
colocao de textos completos (por exemplo, leis) em formato eletrnico e a utilizao do
computador para fazer buscas de palavras ou combinaes de palavras nesses textos.
Trabalhos dessa natureza antecederam, na realidade, o desenvolvimento de tesauros e o
surgimento dos grandes sistemas baseados na indexao feita por seres humanos. A
recuperao de textos jurdicos integrais remonta ao trabalho de Horty e seus colaboradores no
Health Law Center da University of Pittsburgh (Horty, 1960, 1962, Kehl et al., 1961). Foi no
campo jurdico que as tcnicas modernas de buscas em texto livre tiveram seu
desenvolvimento inicial, e o trabalho pioneiro em Pittsburgh lanou os alicerces dos sistemas
posteriores de recuperao de informao jurdica exemplificados por LEXIS e WESTLAW. Myers
(1973) apresentou uma til reviso sobre o estado dos conhecimentos relativos busca em
textos jurdicos por computador. Embora antigo, continua sendo um bom relato acerca dos
princpios bsicos. Dabney (1986) serve como uma atualizao.
A distino entre os sistemas baseados essencialmente em vocabulrios controlados e
registros de indexao criados por seres humanos (muitas vezes equivocadamente
denominados sistemas bibliogrficos) e os sistemas baseados em buscas no texto tem se
tornado cada vez mais difusa com o passar dos anos. Gradualmente, os sistemas
bibliogrficos foram permitindo a busca de palavras que ocorriam nos ttulos e, depois, nos
resumos, enquanto alguns dos sistemas de texto integral acrescentavam termos de indexao
atribudos por seres humanos a fim de melhorar o acesso, e algumas bases de dados (por
exemplo, INSPEC) foram projetadas, desde o incio, para incluir tanto termos controlados
quanto palavras-chave no controladas. Na medida em que um nmero cada vez maior de
textos tornou-se disponvel em formato eletrnico, como subproduto de atividades de
editorao ou disseminao, a busca em textos de resumos passou a ser um lugar-comum, e a
busca em textos completos ultrapassa hoje as fronteiras do direito: jornais, revistas de cunho
189
Lamentavelmente, os resultados desses estudos defeituosos continuam sendo divulgados como se tivessem validade
(ver, por exemplo, Olson e Boll, 2001).
191
Quanto mais pontos de acesso forem providos para a recuperao, mais alta ser a
revocao possvel, porm, provavelmente, menor ser a preciso. Um dos motivos disso
simplesmente o fato de que quanto mais pontos de acesso so providos, maior a
probabilidade de que alguns digam respeito a aspectos bastante secundrios do documento.
Assim, o consulente que recebesse o item da figura 3 numa busca relativa a Arafat julgaria que
ele no teria qualquer utilidade para si porque trata de Arafat de uma forma muito sucinta e
tangencial.
Quanto mais pontos de acesso forem providos, maior tambm ser a possibilidade de que
venham a ocorrer relaes esprias. Como vimos no captulo 11, essas relaes so de dois
tipos: 1) falsas associaes, 2) relaes incorretas entre termos. Muitas possibilidades so
vislumbradas na figura 3. Por exemplo, o resumo expandido causaria a recuperao desse item
numa busca sobre entrevistas telefnicas com lderes do Oriente Mdio (ou qualquer dos
lderes mencionados), e a indexao exaustiva causaria sua recuperao durante uma busca
sobre lderes polticos dos Estados Unidos. Trata-se de falsas associaes porque os termos que
causaram a recuperao no tm, essencialmente, relao entre si no documento
(ENTREVISTAS TELEFNICAS no se relaciona diretamente com LDERES nem ESTADOS UNIDOS
se relaciona diretamente com LDERES POLTICOS).
Um tipo mais sutil de relao espria acha-se exemplificado na indexao seletiva ou
mesmo no ttulo. Qualquer um dos dois causar a recuperao desse item durante uma busca
sobre atitudes do Oriente Mdio em face dos Estados Unidos. Neste caso, os termos ORIENTE
MDIO, ATITUDES e ESTADOS UNIDOS tm relao direta entre si, mas a relao ambgua.
Quanto mais extenso o registro, maior a chance de que venham a ocorrer relaes
esprias. Estas, evidentemente, causam menor preciso.
Outras lies sobre diferenas entre vocabulrio controlado e linguagem natural podem
ser tiradas da figura 103. Neste caso, o UNBIS thesaurus alcana um resultado medocre na
indexao do item. O resumo bem mais especfico do que os termos controlados: o tesauro
no possui termo para alunos monitores [peer tutoring] ou mesmo monitoria [tutoring]. Esse
exemplo tambm ilustra o fato de a linguagem natural tender a ser mais redundante do que os
termos controlados de indexao. Por exemplo, o resumo contm o termo programmed
learning [ensino programado] e programmed instruction [instruo programada], de modo que
esse item seria recuperado por qualquer um desses termos que a pessoa quisesse
eventualmente usar. provvel que o texto integral de um documento proporcione notvel
redundncia, aumentando as chances de vir a incluir uma expresso empregada por quem faz
a busca, assim melhorando a revocao.
A indexao feita por seres humanos , naturalmente, um processo intelectual subjetivo,
e os indexadores nem sempre incluem um assunto que deveria ser includo, representam um
assunto com o melhor termo possvel ou explicitam alguma relao de interesse potencial para
certos usurios. A completeza e redundncia do texto completo evita esse tipo de problema.
Horty (1962), o verdadeiro pioneiro das buscas em texto completo, reconheceu isso h mais de
20 anos:
Quando o texto completo dos documentos utilizado como base de um sistema de
recuperao, as consultas no ficam amarradas maneira como os documentos foram
indexados. Quase inevitavelmente o indexador desconhece certos assuntos aos quais a
clusula jurdica aplicvel ou seria aplicvel no futuro. Todavia a pesquisa, por sua prpria
natureza, determina que o pesquisador procure relaes inditas entre vrios assuntos;
relaes que podem no ter sido antecipadas pelo indexador. Ao dispensar por completo o
ndice e recorrer ao texto original em cada busca, essas novas relaes podem ser
encontradas (p. 59).
Por outro lado, naturalmente, esta prpria redundncia cria grandes problemas quando os
textos de muitos documentos so combinados para formar uma grande base de dados - h
muitas formas pelas quais um assunto pode ser expresso num texto completo e, em alguns
casos, o assunto representado implcita e no explicitamente (OConnor, 1965), dificultando
uma revocao alta. Um vocabulrio controlado reduz a diversidade da terminologia. Alm
disso, ao ligar semanticamente termos que tenham relao entre si, ajuda o usurio a
identificar todos os termos que seriam necessrios para realizar uma busca completa.
Outro fator a ser levado em conta a recentidade. Novos termos surgiro nos ttulos ou
resumos muito antes de surgirem num vocabulrio controlado. Para novos assuntos, portanto,
a linguagem natural provavelmente vence sem esforo. A preciso ser melhor porque o
vocabulrio controlado no possibilitar uma busca especfica. provvel tambm que a
revocao seja melhor porque quem faz a busca no ter de adivinhar quais os termos a serem
empregados. Finalmente, o uso do vocabulrio controlado costuma ser preferido pelo
especialista em informao, que domina inteiramente as diretrizes e regras que o respaldam,
192
enquanto a linguagem natural conta com a preferncia do usurio especialista num assunto.
Deschtelets (1986) um autor que chamou ateno para a importncia de se fazer com que a
linguagem controlada se aproxime tanto quanto possvel da linguagem natural da respectiva
rea.
Compararam-se os resultados de buscas feitas em: 1) ttulo, 2) ttulos mais resumos, 3) termos
de indexao utilizados na publicao impressa Science Abstracts, 4) indexao feita por seres
humanos com linguagem livre, e 5) termos controlados extrados de um rascunho de tesauro
compilado pelo pessoal do INSPEC. O ambiente do teste consistia em 542 artigos no campo da
eletrnica e 97 questes formuladas por pesquisadores. Fizeram-se avaliaes no sentido de
determinar quais artigos eram relevantes para quais questes. Tomou-se o cuidado de
estabelecer algum nvel de equivalncia entre as estratgias adotadas nas vrias
modalidades de busca. Verificou-se que a recuperao baseada no rascunho de tesauro
proporcionou resultados melhores do que qualquer uma das outras modalidades de busca.
Todavia, recomendava-se que a atribuio pelos indexadores de termos da linguagem livre, que
haviam ficado em segundo lugar quanto ao desempenho, deveria ser o mtodo adotado. A
base de dados INSPEC incorporou posteriormente tanto termos de tesauro quanto termos de
texto livre.
Em importante estudo, Keen e Digger (1972) compararam o desempenho de vrios tipos
de vocabulrios no campo da cincia da informao. As principais caractersticas desse teste
podem ser assim resumidas:
1. Foram utilizadas cinco linguagens de indexao diferentes: UL, uma linguagem pscoordenada, no-controlada, construda por indexadores mediante a seleo de
palavras dos prprios documentos; CT, uma linguagem ps-coordenada de termos
comprimidos, contendo menos de 300 termos, com estrutura de tesauro; Pre-HS, uma
linguagem pr-coordenada, hierarquicamente estruturada, na forma de um esquema
de classificao facetada; HS, uma linguagem hierarquicamente estruturada (o
esquema de classificao modificado de modo a permitir que seja utilizado de
maneira ps-coordenada); Pre-RI, uma linguagem pr-coordenada na qual os termos da
classificao hierrquica so combinados em locues de indexao (analetos) com o
emprego dos operadores relacionais de Farradane.
2. Uma coleo de teste de 800 documentos sobre biblioteconomia e cincia da
informao foi indexada pelos dois pesquisadores, que utilizaram cada um dos cinco
vocabulrios.
3. Os ndices criados eram inteiramente manuais, sendo que o ndice ps-coordenado foi
montado com fichas de coincidncia ptica.
4. Sessenta e trs pedidos de buscas, obtidos junto a bibliotecrios e outros especialistas
em informao, foram processados nesses ndices.
5. As buscas foram realizadas por 19 estudantes de biblioteconomia e cincia da
informao, que empregaram um plano experimental de quadrado latino.
6. Vinte auxiliares de ensino da rea elaboraram julgamentos de relevncia dos pedidos
do teste em relao a cada documento da coleo.
7. Os testes foram realizados com diferentes verses dos cinco ndices. Essas verses
refletiam mudanas introduzi das na linguagem de indexao ou na poltica de
indexao. As principais variveis assim examinadas foram o efeito da exaustividade
da indexao (isto , o nmero de termos atribudos por documento), a especificidade
do vocabulrio, diferentes mtodos de coordenao dos termos no momento da busca,
o grau em que os termos so interligados (por remissivas ou estrutura hierrquica)
num vocabulrio; unio de termos afins no momento da indexao (isto ,
compartimentagem ), o emprego dos operadores relacionais e a proviso de
contexto no arquivo de buscas (quem realiza a busca num ndice de coincidncia
ptica remetido, pelo nmero do documento, a um arquivo de contextos onde uma
entrada de ndice alfabtico em cadeia representa o contedo temtico especfico
estudado no documento, o que equivale aproximadamente ao contexto provido num
ndice pr-coordenado).
As diferentes linguagens foram empregadas em diferentes comparaes (quer dizer, nem
todas as comparaes so relevantes para todas as linguagens), e se utilizou em algumas
dessas comparaes um subconjunto de 241 documentos e 60 pedidos de buscas. Os
resultados das diversas comparaes so apresentados, em sua maioria, sob a forma de
coeficientes de revocao e nmeros absolutos de itens no-relevantes recuperados.
Talvez de maneira no muito imprevisvel, essa pesquisa produziu resultados que tendem
a corroborar os resultados de estudos anteriores:
As linguagens no-controladas testadas tiveram, em geral, um desempenho to bom quanto
o das linguagens controladas, ao proporcionar uma eficcia de recuperao coerentemente
boa e um desempenho de eficincia que jamais chegou a ser to ruim quanto o da pior
196
Keen e Digger chegaram a sugerir que agora estava bem comprovado o argumento
contra os vocabulrios controlados, ao ponto de afirmarem que esta deve ser a ltima vez em
que as tradicionais linguagens controladas de indexao so humilhadas, por ter ficado
demonstrado que no oferecem vantagem alguma (volume 1, p. 170).
Lancaster et al. (1972) realizaram um estudo sobre buscas em linha feitas por
pesquisadores da rea biomdica no Epilepsy Abstracts Retrieval System (EARS). Seu objetivo
era determinar a eficincia com que esses pesquisadores podiam fazer buscas no texto de
resumos no campo da epilepsia, tendo sido efetuadas algumas comparaes entre texto livre e
termos controlados. Constatou-se que, em 47 buscas, o emprego dos termos de indexao
atribudos pela Excerpta Medica proporcionou cerca de metade da revocao que fora obtida
com as buscas feitas em resumos. Observe-se, contudo, que os resumos geralmente ofereciam
muito mais pontos de acesso, de modo que a comparao foi mais a respeito da extenso do
registro do que uma verdadeira comparao entre buscas em texto livre versus buscas com
termos controlados. Os pesquisadores concluram que a busca em texto resultou em melhor
revocao devido a: a) nmero de pontos de acesso, b) maior redundncia, c) maior
coincidncia entre os termos empregados pelos usurios e as palavras do texto, d) erros e
incoerncias na indexao feita por seres humanos, e e) termos de indexao coincidentes
entre si. Levantou-se a hiptese de que o desempenho melhoraria grandemente se algum tipo
de tesauro de busca fosse acrescentado ao sistema.
Utilizando documentos e questes reunidos por Lancaster na avaliao que este efetuou
sobre o sistema MEDLARS (Lancaster, 1968a), Salton (1972) apresentou resultados que
sugeriam que seu sistema SMART superaria em desempenho as dispendiosas atividades de
indexao e controle de vocabulrio associadas ao MEDLARS. Essa comparao difere um
pouco da comparao convencional de buscas em bases de dados que empregam linguagem
natural e que empregam vocabulrios controlados. O SMART no funciona com base na lgebra
booleana, mas por meio de uma espcie de coincidncia de padres, em que os textos dos
resumos so cotejados com os textos dos pedidos feitos em linguagem natural, e o usurio
recebe um conjunto de opes de busca com variados nveis de complexidade. Nos estudos de
Salton, o SMART parecia superar o desempenho do MEDLARS somente quando se aplicava uma
retroalimentao proporcionada pelo usurio. Ou seja, os usurios avaliavam os resultados
preliminares da busca e esta era repetida com base na retroalimentao fornecida pelo usurio
a respeito da relevncia. Isso suscita a questo de saber qual seria o desempenho do MEDLARS
se adotasse a retroalimentao de relevncia. O SMART voltar a ser examinado no prximo
captulo.
Importante estudo realizado nesse perodo freqentemente esquecido. Cleverdon
(1977) comparou buscas em linguagem natural e com termos controlados num subconjunto da
base de dados da NASA formado por 44 000 itens. Foram realizadas buscas em linha em quatro
centros em cada um dos quais se faziam dez buscas. Cada busca era feita de um modo por
uma pessoa e de um modo diferente por uma segunda pessoa. As duas pessoas que
realizavam a busca sobre o mesmo assunto, cada uma de um modo diferente, primeiramente
analisavam a solicitao, a fim de chegar a um acordo sobre aquilo que o consulente desejava.
Essas modalidades de busca eram: a) somente em termos controlados, b) linguagem natural
dos ttulos e resumos, c) termos controlados combinados com linguagem natural, e d)
linguagem natural com o auxlio de uma lista de conceitos associados. Constatou-se que as
buscas em linguagem natural resultaram numa revocao acentuadamente mais alta e pouco
diferiam, quanto preciso, das buscas com termos controlados. A concluso de Cleverdon,
corretamente, foi que a extenso do resumo fora a principal causa disso.
Infelizmente, o estudo de Cleverdon prejudicado pelas deficincias formais com que foi
descrito. Por exemplo, as buscas em que tanto os termos controlados quanto a linguagem
natural foram utilizados tiveram um desempenho bem inferior, tanto quanto revocao
quanto preciso, do que as buscas que envolviam apenas linguagem natural. Isso
exatamente o oposto do que seria natural, sendo difcil de explicar, principalmente porque
197
essas buscas de modo conjunto recuperaram duas vezes mais itens do que as buscas em
linguagem natural. Cleverdon no apresenta explicao para essa anomalia. Outra anomalia
que as buscas em linguagem natural que contaram com a ajuda do arquivo de conceitos
associados tambm tiveram desempenho bem inferior ao das buscas realizadas com o
emprego somente da linguagem natural. Isso tambm no explicado com clareza, ficando
difcil para os leitores do relatrio de Cleverdon chegar a suas prprias concluses, uma vez
que o prprio arquivo de conceitos associados no descrito completamente. Tudo que se
pode conjeturar a partir da descrio de Cleverdon que esse arquivo resultou da coocorrncia de termos nos ttulos de documentos da coleo.
Trabalho posterior de Martin (1980) oferece alguns esclarecimentos, mas, por sua conta,
aumenta ainda mais o mistrio. Ele esclarece que o componente de linguagem natural da base
de dados consistia em palavras simples extradas por computador dos ttulos e resumos e
posteriormente revistas por seres humanos a fim de eliminar palavras proibidas e normalizar
o vocabulrio com a excluso de grafias e formas lexicais variantes. O arquivo de conceitos
associados era um arquivo das palavras-chave extradas apenas dos ttulos e que mostrava,
para cada um deles, as palavras-chave que ocorriam com maior freqncia nos ttulos. Martin
resume os resultados assim:
Termos controlados
Linguagem natural
Linguagem natural mais termos controlados
Revocao (%)
56
78
71
Preciso (%)
74
63
45
E, ento, acrescenta que para cada documento relevante recuperado pela linguagem
controlada, a linguagem natural sozinha recuperou 1,4, a linguagem natural mais a linguagem
controlada 1,6 [...], o que totalmente incompatvel com os valores de revocao/preciso
apresentados. Martin tambm esclarece que as buscas em linguagem natural mais termo
controlado incluem algumas que envolviam somente termos controlados (onde a pessoa que
fazia a busca no viu necessidade de adicionar a linguagem natural) e, portanto, elas no
representavam todo o potencial de LC [linguagem controlada] mais LN [linguagem natural]. As
incoerncias nos resultados e nas afirmaes sobre eles, bem como preocupaes acerca das
instrues passadas s pessoas que faziam as buscas, lanam alguma dvida sobre a validade
dessa comparao.
Somente um estudo realizado durante esse perodo afirma ter encontrado resultados
superiores para a indexao feita por seres humanos com o emprego de um vocabulrio
controlado. Hersey et al. (1971) utilizaram um subconjunto da base de dados do Smithsonian
Science Information Exchange (SIE, formada por 4655 descries de projetos, na comparao
que fizeram entre texto livre e indexao por cientistas. A indexao envolveu o emprego de
cdigos de assuntos, atribudos por especialistas, e extrados de um esquema de classificao
desenvolvido especialmente para esse fim. Para 27 buscas realizadas no prprio SIE, foram
alcanados os seguintes resultados:
Texto de descries de projetos
Indexao de assuntos
Revocao (%)
66
95
Preciso (%)
81
95
Mais uma vez as deficincias do relato dificultam para o leitor a compreenso exata do
que foi feito. As questes utilizadas foram umas que haviam sido anteriormente formuladas,
mas no se esclarece se os resultados concernentes indexao de assuntos foram obtidos
quando as buscas foram originalmente feitas para os usurios, ou se foram obtidos mais tarde,
no momento da realizao das buscas em texto livre. Os seguintes pontos tambm so
obscuros: de que modo foram feitas as avaliaes de relevncia (aparentemente foram feitas
pelo pessoal do SIE e no pelos solicitantes originais), de que forma o pedido foi entregue a
quem fazia a busca em texto livre, e se foram ou no impostos controles s pessoas que
faziam as buscas, a fim de se conseguir certo nvel de equivalncia de mtodo entre busca em
texto e busca em termos de indexao.
Cada um desses fatores teria grande influncia nos resultados do estudo. Por exemplo, se
o pedido usado como base para a busca em texto livre no estivesse nas palavras originais do
solicitante, mas houvesse sido negociado mediante interao com o pessoal do SIE, os
resultados da comparao poderiam muito bem apresentar um vis para os cdigos de
assuntos. O fato de os resultados desse estudo relativos revocao/preciso terem sido bem
mais altos do que os de outras pesquisas, e muito mais altos do que os obtidos durante o
funcionamento rotineiro de sistemas de recuperao (Lancaster, 1968a), aliado a um relato
198
muito impreciso, suscita srias dvidas quanto validade dessa comparao. Os valores de
preciso excepcionalmente altos explicam-se, porm, parcialmente, pelo fato de que o arquivo
de teste de descries de projetos era realmente uma fuso de quatro arquivos de teste
separados sobre reas temticas completamente diferentes.
Um estudo suplementar nessa base de dados foi realizado pelo Biological Sciences
Communication Project, da George Washington University, utilizando 12 questes do SIE. As
buscas nos cdigos de assuntos recuperaram 91 projetos, 74 dos quais foram considerados
relevantes (preciso de 81 %), enquanto as buscas em texto recuperaram 70, dos quais 43
foram considerados relevantes (preciso de 61 %). Combinando-se os resultados das buscas
em texto livre e com cdigos de assuntos, conclui-se que a revocao foi de cerca de 50% para
texto e 90% para indexao de assuntos, porm alguns itens s foram recuperados por cada
uma das modalidades de busca.
Byrne (1975) utilizou 50 perfis de OSI na base de dados COMPENOEX e comparou os
resultados quando as buscas foram realizadas nos ttulos, resumos e cabealhos de assuntos,
alm de vrias combinaes destes elementos. Os resultados de uma modalidade de busca
foram comparados com os resultados combinados de todas as modalidades. Empregando este
padro, os cabealhos de assuntos sozinhos recuperaram 21% dos itens, os resumos sozinhos
61%, os ttulos mais os resumos 75%, e os ttulos mais os termos de assuntos 41%. No de
estranhar, portanto, que, aparentemente, as representaes mais extensas tenham resultado
em muito melhor revocao. No entanto, no se fizeram avaliaes reais de relevncia nesse
estudo: tudo que foi recuperado foi considerado ipso facto como sendo uma resposta
apropriada.
Reviso de estudos afins: a partir de 1980
Em geral, as comparaes entre buscas em texto livre e com vocabulrio controlado
realizadas nas dcadas de 1960 e 1970 mostravam que o texto livre funcionava to bem
quanto os termos controlados, seno melhor. Tais estudos, porm, foram realizados em
arquivos muito pequenos, e s vezes insignificantemente pequenos. Em sua maioria, tratavase de estudos experimentais, ao invs de envolver servios de informao reais funcionando
em condies de trabalho concretas. A pa11ir de 1980 alguns estudos foram realizados com
bases de dados de maior porte e/ou envolvendo servios verdadeiramente operacionais.
Markey et al. (1980) empreenderam uma anlise de enunciados de busca com
vocabulrio controlado e texto livre em buscas em linha na base de dados ERIC. Tambm
realizaram testes de buscas em linha, comparando vocabulrio livre e controlado, mas usando
somente seis assuntos. Concluram que o texto livre resultou em revocao mais alta e os
termos controlados resultaram em mais alta preciso. Igual a muitos outros estudos, o relato
do teste lamentavelmente inadequado. No h informaes sobre como foram feitas as
avaliaes de relevncia nem sobre como as buscas foram realizadas, de modo que o leitor
no sabe se foi feito algum esforo para controlar as estratgias de busca, a fim de evitar o
favorecimento de uma das modalidades de busca. Os escores insolitamente elevados (93% de
revocao e 71 % de preciso para texto livre, e 76% de revocao e 95% de preciso para
termos controlados) lanam dvida sobre a validade desse estudo.
Diversos estudos foram realizados no campo do direito. Coco (1984) utilizou uma base de
dados sobre casos em tribunais itinerantes (1960-1969) e 50 problemas de pesquisa
verdadeiros extrados de um estudo de 1977 do Federal Judicial Center, a fim de comparar a
recuperao nos sistemas WESTLAW e LEXIS. O LEXIS inclui somente o texto dos pareceres
vinculados a esses casos, enquanto o WESTLAW acrescenta componentes editoriais ao texto
dos pareceres, inclusive vrias formas de sinopses. O objetivo declarado desse estudo era
comparar os resultados de buscas baseadas somente no texto com os alcanados com o texto
mais acrscimos editoriais. Como as buscas no WESTLAW foram executadas com e sem os
acrscimos editoriais, a comparao com o LEXIS tornou-se totalmente desnecessria e s
serviu para confundir o leitor. De qualquer modo, a comparao entre LEXIS e WESTLA W no
poderia ser considerada inteiramente vlida porque as bases de dados no eram exatamente
comparveis. Como diz Coco, os sistemas continham aproximadamente [grifo meu] o mesmo
nmero de casos para esse perodo. Alm disso, no houve qualquer esforo sistemtico para
determinar se os casos recuperados eram ou no de alguma forma relevantes para os
problemas de pesquisa.
Se o nico exemplo apresentado por Coco for representativo de todos os itens da base de
dados, o texto ampliado do WESTLAW quase duas vezes o tamanho do texto do parecer
sozinho. No de estranhar, portanto, que tenha recuperado mais casos (913 contra 728,
embora no se saiba quantos mais eram relevantes). De fato, seria razovel supor que o
199
Texto
completo
17,8
Resumos
2,4
Termos
controlados
3,1
3,5
73,9
1,0
19,3
1,2
28,0
18,0
20,57
7,86
35,6
4,95
3,89
34,0
5,32
3,54
As cifras de Tenopir relativas a custos no podem ser levadas muito a srio, pois ela
incluiu os custos da aquisio de cpias completas dos documentos para a realizao dos
julgamentos de relevncia, enquanto na vida real isso raramente aconteceria (isto , os
usurios fariam seus julgamentos com base nos ttulos e/ ou resumos mostrados em linha).
Talvez o resultado mais importante da pesquisa de Tenopir seja ter verificado que as buscas em
termos controlados recuperaram alguns itens que no foram recuperados com texto completo,
e vice-versa, demonstrando a necessidade de ambos os mtodos.
Posteriormente, Ro (1988) realizou estudo dando seguimento pesquisa sobre a base de
dados da Harvard Business Review, o qual produziu resultados semelhantes aos alcanados
por Tenopir.
Sievert et al. (1992) descobriu, o que no foi surpresa, que buscas numa base de dados
que continha o texto integral de artigos de revistas mdicas obtinham melhor revocao do
que buscas na base MEDLINE, embora as buscas em texto completo resultassem em muito
menor preciso. Em artigo anterior, contudo, chamaram a ateno para os problemas das
buscas em texto completo ao analisar os motivos de no-recuperao, na base de dados de
textos completos, de itens relevantes recuperados no MEDLINE (Sievert e McKinin, 1989)
Os melhoramentos que a utilizao de termos do texto, alm dos termos controlados,
introduz na revocao foram demonstrados por diversos pesquisadores, inclusive McCain et al.
(1987), que compararam os resultados de buscas em cinco bases de dados sobre] ] tpicos das
cincias mdicas comportamentais.
200
possvel, para termos controlados equivalentes), bem como a estratgia de busca (isto , uma
estratgia conceitual teria de ser criada e em seguida traduzi da exatamente para: a]
expresses do texto, e b] termos selecionados do vocabulrio controlado). Isso parece que
nunca foi feito desde os estudos em Cranfield. Tenopir controlou suas estratgias de busca,
mas, como estava utilizando uma base de dados j existente, no pde controlar a extenso do
registro. Conseqentemente, suas concluses dizem respeito muito mais extenso do
registro do que controvrsia sobre linguagem natural/vocabulrio controlado.
Tambm lamentvel o fato de a bibliografia ainda trazer afirmativas disparatadas,
baseadas em indcios casusticos, de defensores de ambos os campos, que se recusam a
aceitar o fato de que a linguagem natural e os vocabulrios controlados tm ambos suas
respectivas vantagens. Para um bom exemplo ver Fugmann (1987).
Um exame meticuloso da bibliografia includa nesta reviso no me outorga razo
alguma para modificar minhas opinies originais sobre os prs e contras dos dois mtodos,
conforme se acham resumidas na figura 104. O fato que cada um deles tem suas vantagens
e desvantagens. Os registros em texto livre costumam ser mais extensos e, por isso,
proporcionam mais pontos de acesso; freqentem ente incluiro alguns termos mais
especficos ou mais atualizados do que aqueles existentes em qualquer vocabulrio controlado
e, comumente, proporcionaro maior redundncia. O vocabulrio controlado, por outro lado,
impe coerncia na representao do contedo temtico dos documentos, dispe dos termos
conceituais genricos que amide no se encontram no texto, e, por meio de uma estrutura
hierrquica e remissivas, oferece ao usurio uma ajuda positiva na identificao de termos de
busca que sejam apropriados.
Sistemas hbridos
Praticamente todos os autores que escreveram a respeito de buscas em texto livre,
inclusive Henzler (1978), Perez (1982) e Muddamalle (1998), bem como a maioria dos autores
j citados, chegaram concluso, j esperada, de que o sistema de recuperao ideal incluir
uma parte de termos controlados, bem como uma parte de texto livre. So bvias as
vantagens desses sistemas hbridos, descritos e exemplificados h muitos anos por Holst
(1966), Uhlmann (1967 e Lancaster (1972)). A utilidade do mtodo hbrido apoiada pelo fato
de que, na maioria dos estudos realizados, as buscas em texto livre recuperaram alguns itens
relevantes que no foram identificados por buscas com vocabulrio controlado, e vice-versa.
O termo hbrido empregado para designar qualquer sistema que funcione com uma
combinao de termos controlados e linguagem natural, inclusive aqueles em que ambos os
conjuntos de termos so atribudos por indexadores humanos e aqueles em que uma base de
dados pode ser consultada mediante uma combinao de termos controlados atribudos por
seres humanos e palavras que ocorram nos ttulos, resumos ou texto completo.
Vejamos, por exemplo, um sistema baseado em trs componentes vocabulares
independentes:
1. um pequeno vocabulrio de cdigos de assuntos genricos, com um total talvez de 300
cdigos;
2. uma lista de cdigos que representem reas geogrficas; e
3. palavras-chave ou expresses que ocorram nos ttulos ou textos dos documentos.
A indexao com esses elementos vocabulares representaria uma economia importante
em relao indexao que empregue um grande vocabulrio meticulosamente controlado,
por dois motivos:
1. Os cdigos de assuntos seriam suficientemente genricos para serem atribudos sem
muita dificuldade por um indexador que no dispusesse de um alto nvel de formao
educacional ou especializao num assunto.
2. O nmero de cdigos (temticos e geogrficos) suficientemente reduzido para que o
indexador retenha a maioria deles na memria e dispense a consulta constante a uma
lista de um vocabulrio.
Embora qualquer um dos elementos do vocabulrio, isoladamente, seja relativamente
imperfeito, o emprego conjunto de uma palavra-chave (para obter especificidade) e um cdigo
temtico ou geogrfico (para obter o contexto) constitui dispositivo extremamente poderoso.
Por exemplo, a palavra-chave plantas pode significar algo inteiramente diferente ao ser
combinada com um cdigo temtico relativo agricultura ou ao ser combinada com um cdigo
semntico relativo arquitetura. Igualmente, a palavra-chave assalto, associada ao cdigo
geogrfico relativo ao Iraque, indica uma operao de guerra; por outro lado, quando
202
coordenada com o cdigo geogrfico relativo a uma metrpole onde a criminalidade Seja alta,
mais provvel que signifique roubo. Alm disso, o emprego conjunto de cdigos de assuntos
genricos, cdigos geogrficos e palavras-chave extremamente eficaz para esclarecer
relaes, mesmo quando essas relaes no se acham especificadas explicitamente. Muitas
das bases de dados atualmente acessveis em linha podem ser consultadas com o emprego de
combinaes de termos controlados e palavras-chave ou expresses que ocorrem nos ttulos
ou nos resumos, sendo que os ltimos permitem maior especificidade.
O vocabulrio ps-controlado
Diversos autores salientaram que as buscas em linguagem natural melhoram
consideravelmente mediante a elaborao e utilizao de vrias formas de instrumentos
auxiliares de busca. Piternick (1984) descreveu alguns desses instrumentos auxiliares. Deles, o
mais evidente seria um tesauro de buscas ou vocabulrio ps-controlado imaginado por
Lancaster (1972), Lancaster et al. (1972), e, mais detidamente, por Lancaster (1986).
O primeiro sistema desenvolvido para fazer buscas em grandes colees de textos
jurdicos (em Pittsburgh) utilizava uma espcie de tesauro para ajudar no processo de buscas.
Tratava-se, simplesmente, de uma compilao de palavras com significados semelhantes,
parecendo-se mais com o Rogets thesaurus do que com a estrutura de tesauro comumente
usado na recuperao da informao. Mesmo sem contar com uma estrutura que se
revestisse de alguma importncia, esse tesauro era um instrumento auxiliar extremamente til
durante as buscas; como palavras de significado similar so potencialmente substituveis
durante uma busca, esse instrumento poupa a quem faz as buscas o esforo de imaginar todas
as palavras capazes de expressar determinada idia. O investimento na elaborao de um
instrumento auxiliar como esse resulta em importante economia num sistema onde haja um
grande nmero de buscas. Esse tipo simplificado de tesauro uma espcie de vocabulrio
controlado, em que o controle feito na sada e no na entrada do sistema. um vocabulrio
ps-controlado.
Um exemplo esclarecer ainda mais sobre as propriedades do vocabulrio pscontrolado. Imaginemos uma base de dados sobre negcios pblicos indexada com um tesauro
que inclui o termo companhias de aviao, o que permite fazer uma busca genrica sobre este
assunto. No possvel, porm, restringir uma busca a determinada companhia de aviao,
pois os nomes especficos das empresas no fazem parte do tesauro. Assim, seria impossvel
restringir uma busca a um tema especfico como situao financeira da Varig; o melhor que se
pode fazer recuperar tudo sobre a situao financeira de companhias de aviao. A busca
genrica costuma ser fcil no caso de vocabulrio pr-controlado, mas certas buscas altamente
especficas so praticamente impossveis.
Em comparao, vejamos uma base de dados alternativa sobre negcios pblicos que
dispensa indexao, mas permite buscas nos ttulos e resumos. Nesta, a recuperao de itens
sobre a Varig ou a Swissair provavelmente seria fcil. Mais difcil seria uma busca genrica
sobre companhias de aviao. Para fazer uma busca exaustiva, seria preciso recorrer a algo
mais do que o termo companhias de aviao, utilizando certos sinnimos, como empresas de
transporte areo e os nomes de empresas especficas. A estratgia de busca ficaria assim
companhias de aviao ou empresas de transporte areo ou Varig ou Swissair ou Lufthansa
ou... - talvez uma lista muito extensa. O que a pessoa que faz a busca est fazendo criar
parte de um tesauro ps-controlado. Lamentavelmente, nos servios de informao atuais,
essas entradas de tesauro so raramente retidas e armazenadas depois de terem sido criadas
e utilizadas. Numa grande rede, h muita duplicao de esforos. Companhias de aviao pode
aparecer como faceta de muitas buscas realizadas durante um ano, e o trabalho de elaborar
estratgias de busca de diferentes graus de completeza ser repetido continuamente. Seria
muito mais sensato armazenar isso em forma recupervel para uso futuro.
Um verdadeiro vocabulrio ps-controlado consiste em tabelas com nomes e nmeros de
identificao que podem ser chamados e consultados pelos usurios de bases de dados em
linguagem natural que faam parte de alguma rede em linha. Assim, a pessoa que faz a busca
recuperaria a entrada companhias de aviao, a entrada questes financeiras, etc. As
tabelas so mostradas em linha e os termos selecionados partir delas. Alternativamente, a
tabela inteira pode ser incorporada numa estratgia de busca mediante seus nmeros de
identificao. Essas tabelas no precisam se limitar a palavras, podendo incorporar fragmentos
de palavras. Assim, uma tabela de cirurgia teria o seguinte aspecto: cirurg..., opera...,
secion..., ...seo, ...otomia, ...ectomia, ...plastia, etc. Tambm possvel inserir no vocabulrio
uma estrutura mnima por meio de remissivas de tabelas afins.
203
O ttulo (TI) da tabela POVERTY AREAS [reas de pobreza]. Este termo utilizado para
recuperar itens sobre este tpico no ERIC (ER), nas bases de dados indexadas com o Medical
subject headings (ME), e na base de dados PSYCINFO (ps), na qual um termo afim GHETTOS
[guetos]. No Sociological Abstracts (so), possveis termos so SLUM [favela], GHETTO e
APPALACHIA: enquanto um termo ERIC (EN) mais especfico SLUMS. Finalmente, apresenta-se
uma lista detalhada de termos afins em texto livre (FT), teis para uma busca sobre este
assunto eluqualquer base de dados em lngua inglesa. Era possvel desenvolver uma estratgia
na base TERM, a qual seria salva e executada nas bases de dados bibliogrficos
posteriormente. Esta base de dados, infelizmente, no existe mais. No entanto, seu
desenvolvedor publicou uma verso impressa exaustiva das expresses em texto livre (no os
termos controlados). Ela pode ser vista como um tesauro destinado a buscas em textos
(Knapp, 1993).
Um vocabulrio ps-controlado em determinado campo de especializao elaborado
pelo esforo intelectual de seres humanos, exatamente da mesma forma de um tesauro
convencional. Essa tarefa pode ser extremamente simplificada mediante o processamento por
computador das palavras que ocorram em bases de dados relevantes, de modo a dar origem a
vrios nveis de associao estatstica. Talvez, no entanto, fosse mais sensato recolher e
organizar os fragmentos de busca efetivamente introduzidos pelos usurios de alguns
sistemas em linha (um candidato a isso seria qualquer lista de termos alimentados numa
relao do tipo ou), produzindo assim uma espcie do tesauro em crescimento imaginado por
Reisner (1966), porm sendo-lhe imposto posteriormente algum controle editorial. Mais
recentemente, Besser (1997) analisou a importncia de termos atribudos pelos usurios em
futuras aplicaes de recuperao.
Outra abordagem possvel consiste em construir um tesauro automaticamente com base
em relaes semnticas encontradas em dicionrios que existam em formato eletrnico (Fox et
al., 1988; Ahlswede et al., 1988). Anderson e Rowley (1992) descrevem um mtodo de
construo de tesauros do usurio final a partir de textos completos.
Abordagens atuais
A dcada de 1960 assistiu ao comeo de uma quantidade incrvel de projetos de pesquisa
sobre a utilizao de computadores no tratamento de textos. Havia vrias razes para essa
1
Regio montanhosa pobre dos EUA, que tem como centro o estado da Virgnia Ocidental. (N.T.)
204
E Jacobs (1992a) salienta que as abordagens de hoje em dia extraem mais fora da
enorme quantidade de textos armazenados do que de regras artesanais.
As abordagens atuais do processamento de texto podem ser consideradas inteligentes
na medida em que os computadores possam vir a compreender o texto. 1 Compreender
1
Embora a palavra inteligente possa ser tambm atribuda ao processo, se ele realizar uma tarefa para cuja execuo
os seres humanos precisariam de inteligncia.
205
significa aqui ser capaz de interpretar o significado de uma frase, sem ambigidade.
Normalmente, isso requer alguma forma de anlise sinttica. A anlise sinttica procura
identificar o papel de uma palavra numa frase (por exemplo, substantivo ou verbo), reconhecer
os diferentes elementos estruturais (orao substantiva, orao verbal, orao prepositiva, e
assim por diante), e assim determinar as diversas funes dentro de uma frase (por exemplo,
sujeito, predicativo do sujeito, objeto, predicativo do objeto).
O processamento inteligente de textos vem sendo utilizado, experimental ou
operacionalmente, em vrias aplicaes, inclusive categorizao de textos, extrao de textos,
sumarizao e ampliao [augmentation], gerao de textos, e recuperao otimizada da
informao [enhanced information retrieval], bem como traduo mecnica. 1
O propsito de aplicar mtodos mais complexos de processamento da linguagem natural
[PLN] s buscas em texto completo foi explicado por Strzalkowski et al. (1999) da seguinte
forma:
a principal motivao deste projeto foi demonstrar que um PLN robusto, ainda que
relativamente superficial, pode ajudar a extrair uma melhor representao de documentos
textuais para fins de indexao e busca do que quaisquer mtodos baseados em palavras
simples ou seqncias de palavras comumente adotados em recuperao estatstica em
texto completo. Isso se baseou na premissa de que o processamento lingstico pode
descobrir certos aspectos semnticos do contedo dos documentos, algo que a mera
contagem de palavras no pode fazer, levando assim a uma representao mais precisa (p.
113-114).
Importante abordagem para lidar com a recuperao de textos, utilizada por vrios
grupos de pesquisas que atuam no mbito do TREC, a extrao de sintagmas [phrase
extraction] - isto , reduzir o texto completo a um conjunto de sintagmas que tenham
significado. Um dos motivos para isso est simplesmente no fato de que um sintagma pode ser
significativo mesmo que as palavras que o compem no o sejam. Assim joint venture pode
ser significativo porque ocorre de modo relativamente infreqente numa base de dados,
embora as palavras componentes ocorram com demasiada freqncia para que sejam
consideradas significativas (Strzalkowski et al., 1999). Foram adotados muitos mtodos de
extrao de sintagmas. Um deles, o mtodo ncleo + modificador [head + modifier],
emprega anlise sinttica e subseqente normalizao para, por exemplo, reconhecer que
weapon proliferation e proliferation of weapons [proliferao de armas] so equivalentes
(Strzalkowski et al., 1999).
Grande parte dos trabalhos em curso nesta rea procura reduzir um texto completo a
uma forma mais breve, mediante algum tipo de extrao ou sumarizao, visando
recuperao da informao. Essas abordagens so tratadas no captulo seguinte, que tambm
procura avaliar o que elas chegaram a concretizar. Este captulo limitou-se s buscas em textos
de per si, ao invs dos mtodos automticos de indexao ou sumarizao, embora essa
distino nem sempre seja fcil de manter, e os captulos 14 e 15 esto intimamente
relacionados.
As buscas em textos baseiam-se, em geral, em textos em formato eletrnico criados a
partir do teclado de um computador ou convertidos do formato impresso por meio de leitoras
de caracteres pticos (embora possam tambm derivar de entrada falada, como vimos no
captulo 13). Algumas pesquisas foram feitas sobre buscas e recuperao de documentos
manuscritos (ver, por exemplo, Perrone et al., 2002), embora no haja clareza sobre quais
seriam suas aplicaes potenciais.
O que foi concretizado?
Embora as revistas profissionais populares continuem a fazer afirmativas bastante
entusisticas, os autores srios so muito mais realistas acerca do que j foi conquistado em
matria de processamento automtico de textos. Knight (1999), por exemplo, nos diz que:
As aplicaes de linguagem natural, como a traduo mecnica, reconhecimento da fala,
recuperao da informao e sumarizao, alcanam hoje uma faixa maior de usurios.
Quemj usou esses produtos sabe quo imperfeitos eles so. Apesar disso, as pessoas os
utilizam porque esto ansiosas em busca de solues para organizar e pesquisar a enorme
quantidade de informaes colocadas sua disposio em linha, em formato textual (p. 58).
1
Em algumas aplicaes de processamento de textos necessrio que o computador possa distinguir entre
componentes lgicos do documento (por exemplo, ttulo, resumo, texto principal, notas de rodap, tabelas, figuras) e
identificar relaes entre eles (como a ordem de leitura). Isso foi denominado, de forma um tanto empolada,
compreenso do documento (ver, por exemplo. Semeraro et al., 1994, e Proceedings of the Third Inlernalional
Conference, 1995).
206
Voorhees (1999), que participou dos trabalhos das TRECs durante vrios anos, afirmou
que as abordagens mais complexas da recuperao da informao a partir de textos
produziram resultados desapontadores:
Atualmente, os mtodos de recuperao de uso geral mais bem-sucedidos so os mtodos
estatsticos que tratam o texto como se no passasse de um saco de palavras [...] as
tentativas para melhorar o desempenho da recuperao por meio de processamento
lingstico mais complexo foram em grande parte mal-sucedidos. Na realidade, a menos que
seja feito com cuidado, esse processamento pode rebaixar a eficcia da recuperao (p. 32).
No entanto, ela de fato sugere que os nveis mais elaborados de processamento de textos
podem ser teis em atividades de perguntas e respostas e sumarizao de documentos.
Strzalkowski et al. (1999) salientam que:
at o emprego das mais rpidas ferramentas de anlise sinttica est forando gravemente
os limites da praticabilidade de um sistema de recuperao da informao por causa do
aumento da demanda por potncia e armazenamento (p. 117-118).
Blair (2002) sustenta que as alegaes de que houve grande melhoria nos resultados das
TRECs ao longo dos anos talvez sejam muito exageradas. Em particular, ele critica os mtodos
TREC para o clculo da revocao (uma abordagem que adota uma revocao relativa):
O segundo efeito de estimativas de revocao que no so confiveis diz respeito ao avano
do campo da Recuperao da Informao como disciplina cientfica. Isto , para que avancem
as pesquisas sobre recuperao de documentos, temos de conhecer, com total preciso,
onde nos encontramos agora. Qualquer incerteza importante na comparao de tcnicas de
recuperao solapa nossa percepo do que realmente funciona e do que no funciona, o
que, por sua vez, nos deixa sem qualquer motivo lgico para escolher uma tcnica e no
outra. Atualmente, a maior parte das tcnicas de recuperao automatizada usadas pelos
pesquisadores associados s TRECs funciona exatamente no mesmo nvel modesto de
revocao e preciso. Um dos resultados esperados de estimativas mais exatas de revocao
seria o descobrimento de diferenas maiores no desempenho dos sistemas. Ento,
deveramos realmente comear a construir sobre os sucessos de algumas tcnicas e evitar a
perda de mais tempo com outras que so infrutferas (p. 449).
Saracevic et al. (2003) e Sparck Jones (2003) refutaram algumas crticas de Blair,
afirmando (por exemplo) O que a avaliao feita sob condies cuidadosamente controladas,
baseada em colees de teste, essencial para fazer avanar a compreenso dos fenmenos
ligados recuperao; que os resultados desses experimentos podem ser transpostos para
servios de recuperao reais; que no preciso uma medida de revocao absoluta para
comparaes controladas do desempenho de diferentes processos de busca; e que, no
ambiente controlado das pesquisas TREC, possvel documentar melhorias impo11antes no
desempenho da recuperao medida que se aperfeioam os processos de busca.
Alhures, Sparck Jones afirmou coerentemente que os mtodos mais complexos de
processamento lingstico so difceis de justificar em aplicaes voltadas para a recuperao.
Depois de passar em revista o estado atual do processamento lingstico de textos com a
finalidade de recuperar informao (ela chama isso de indexao lingisticamente motivada),
conclui (Sparck Jones, 1999) que no est provada sua superioridade em comparao com a
abordagem muito mais simples de combinar palavras do texto numa estratgia de busca:
207
Parece que o efeito de coordenao, otimizado pela redundncia da indexao com termos
simples, pode bastar para a desambiguao de sentido, pelo menos no caso de bases de
dados monolnges, embora continue em aberto a questo da necessidade de
desambiguao explcita em buscas em vrias lnguas em bases de dados multilnges.
Mesmo quando a discriminao de sentido acrescenta algo ao desempenho [...] isso pode ser
obtido mais com mtodos estatsticos do que lingsticos (p. 21).
Ao fazer uma reviso das atividades dos grupos TREC at a TREC-6 (1997), ela (Sparck
Jones, 2000) conclui que mtodos baseados na estatstica tm desempenho to bom quanto
quaisquer outros, e que a natureza e o tratamento dado ao pedido do usurio so, de longe, o
fator dominante no desempenho. Os mtodos estatsticos incluem ponderao de termos,
expresses simples bem como palavras simples, expanso da consulta e retroalimentao de
relevncia.
Smeaton (1999) sugere que o processamento lingstico, embora necessrio para
aplicaes que sejam exatas e precisas, como a traduo mecnica, constitui ferramenta
demasiadamente sutil para a recuperao da informao que ele considera no uma aplicao
exata, e a aproximao inerente a seu funcionamento devido aos inmeros graus de
incerteza presente nos processos envolvidos.
Alm disso, nveis complexos de processamento da linguagem ainda so caros. Em geral,
o processamento automtico de texto requer a preparao bastante extensa de um programa
de computador. Isto , o programa processa o texto para fazer o que lhe solicitado, e a sada
vista e corrigida por pessoas, o que leva a alteraes do programa. Esse processo iterativo de
ensaio e erro continua at o programa obter resultados satisfatrios. Knight (1999) chamou
ateno para o volume de processamento exigido para preparar um programa que execute
uma tarefa que seres humanos inteligentes executam facilmente. Por exemplo, retirados de um
texto os artigos definidos e indefinidos, seria possvel escrever um programa capaz de
substitu-los. No entanto, Knight afirma que para conseguir um desempenho apenas
razoavelmente bom seria preciso o processamento de 20 milhes de palavras de texto em
ingls. E acrescenta:
A anlise sinttica de um texto sem limitaes tarefa excessivamente difcil, devido s
ambigidades em partes da fala (substantivo, verbo, etc.) e da estrutura [...] Mas, apesar de
haver algoritmos de aprendizagem promissores, ningum conseguiu ainda extrair de bases
de textos sem tratamento elementos [parses] sintticos que tivessem alguma exatido (p.
59-61).
Descoberta de conhecimento
Importante campo de pesquisa surgido nos ltimos anos refere-se a mtodos de
extrao, das bases de dados, de conhecimentos imprevistos. A terminologia da rea
estranhamente confusa e incoerente. Uma denominao perfeitamente razovel e clara
descobelia de conhecimento. J minerao amide usada como sinnimo de descoberta de
conhecimento ou, pelo menos, do elemento central dessa descoberta. 1 Assim, m inerao de
dados refere-se ao uso (com o objetivo de descobrir conhecimentos novos) de dados
numricos/estatsticos, minerao de textos, ao uso de textos, minerao da fala, ao uso da
fala gravada, e minerao da Rede, ao uso de recursos da Rede. Qualquer que seja a
denominao, o processo de descobrir conhecimento envolve basicamente a identificao de
padres significativos nas fontes que estejam sendo utilizadas.
A minerao de dados em geral revista por Benoit (2000) e a minerao de textos por
Trybula (1999). O emprego de bases de dados bibliogrficos na descobelia de conhecimento
tratado por Qin e Norton (1999), e Munakata (1999) organizou uma srie de artigos sobre
descoberta de conhecimento.
Fayyad e Uthurusamy (2002) organizaram um nmero de peridico dedicado quase
totalmente aos mtodos de minerao de dados. A minerao de dados feita para encontrar
padres interessantes nos dados. Exemplificam com a localizao de produtos comprados
juntos com mais freqncia em supermercados. Embora a minerao possa ser feita para
testar uma hiptese, mais til desenvolver algoritmos de minerao que essencialmente
sugerem as hipteses.
Nasukawa e Nagano (2001) definem a minerao de texto como o encontro, no texto, de
padres e regras teis que indicam tendncias e caractersticas significativas sobre assuntos
especficos. Descrevem um prottipo de sistema para minerao de bases de dados textuais
em centros de ajuda comerciais [help centers] (centros de suporte a clientes), que, segundo
afirmam, pode:
detectar automaticamente defeitos nos produtos; identificar casos que levaram ao rpido
aumento do nmero de chamadas e as razes por trs disso; e analisar a produtividade do
centro de ajuda e mudanas no comportamento dos clientes que envolvam determinado
produto, sem ler nenhum dos textos (p. 697).
Freitas (2002) v a minerao como um componente da descoberta de conhecimento. Esta ltima denominao inclui
o pr-processamento de dados para facilitar a minerao e o ps-processamento do conhecimento descoberto, a fim
de valid-lo e refin-to.
209
210
resumos, bem como a outras operaes que envolvam a formao de classes de documentos e
de termos, ao desenvolvimento de estratgias de buscas e estabelecimento de redes de
associaes entre termos. Como o diagrama implica, o computador podem, em certa medida,
substituir os seres humanos em praticamente todas as atividades exemplificadas. Atualmente,
eles no geram, de modo independente, mensagens ou necessidades de informao, a menos
que sejam especificamente programados para esse fim por seres humanos, mas talvez chegue
o dia em que tambm faro isso. Uma vez que a indexao e a redao de resumos constituem
a preocupao principal deste livro, neste captulo dar-se- mais ateno aplicao de
computadores a essas tarefas.
reflitam a freqncia com que ocorrem no documento. Por exemplo, o radical calor pode
receber um peso numrico relativo ao fato de aparecer no texto, digamos, 12 vezes.
Os critrios de freqncia podem ser complementados com outros critrios. Por exemplo,
Baxendale (1958) props que somente a primeira e a ltima frase de cada pargrafo fossem
processadas, pois um de seus estudos demonstrara que a primeira era o tpico frasal em 85%
das vezes e a ltima o era em outros 7% dos casos. Considerava-se tpico frasal aquele que
provia o mximo de informaes relativas ao contedo. Nos primrdios da indexao
automtica foram propostos ou testados vrios outros mtodos para identificar os segmentos
do texto ricos em informao; programas de computador procurariam certos elementos, como
locues prepositivas, textos que viessem aps palavras sugestivas, como concluses e
resumo do autor, e partes do texto que inclussem as ocorrncias primeiras de substantivos.
Uma evidente desvantagem do emprego da freqncia de palavras simples ou
expresses para a seleo de termos est em que, mesmo depois de usar uma lista de
palavras proibidas, algumas das palavras que ocorrem freqentemente num documento podem
no ser bons discriminantes - que sirvam para diferenar este documento de outros na base de
dados - porque tambm ocorrem com freqncia na base de dados como um todo. Tomando-se
um exemplo bvio, as palavras biblioteca e informao no seriam muito bons discriminantes
de itens numa coleo de biblioteconomia e cincia da informao. Assim, num documento a
palavra biblioteca ocorre 12 vezes, enquanto a palavra amianto s ocorre quatro vezes. No
entanto, o ltimo termo muito melhor discriminante, uma vez que se trata de um termo que
raramente ocorre na literatura de biblioteconomia. Seria um termo altamente importante numa
coleo deste assunto, mesmo que s ocorresse uma nica vez num documento.
A freqncia com que uma palavra ocorre num documento no a nica freqncia para
a qual se deve atentar no processamento de textos por computador. A freqncia com que
uma palavra ocorre na base de dados como um todo ainda mais importante. Quer dizer, as
palavras que so os melhores discriminantes so aquelas que so imprevisveis e raras numa
coleo por exemplo, amianto em biblioteconomia, biblioteca na base de dados de uma
fbrica de cimento-amianto. Na realidade, no preciso calcular a freqncia com que uma
palavra ocorre em toda uma base de dados formada por textos, mas apenas a freqncia com
que ela ocorre no arquivo invertido utilizado para executar a busca nos textos (isto , o nmero
de ocorrncias de uma palavra em relao ao nmero de ocorrncias de todas as palavras no
arquivo).
Emprega-se, ento, ao invs da freqncia absoluta com que uma palavra ocorre num
documento, um mtodo de freqncia relativa para a seleo de termos (Oswald et al., 1959).
Com este mtodo, selecionam-se palavras ou expresses que ocorram num documento com
mais freqncia do que sua taxa de ocorrncia na base de dados como um todo. Isso um
pouco mais complicado do que o mtodo de freqncia absoluta, pois exige que se mantenha
uma contagem da freqncia com que cada palavra ocorre na base de dados (relativa ao
nmero total de ocorrncias de palavras na base de dados), bem como uma comparao dessa
taxa de ocorrncia com a de uma palavra em determinado documento.
Uma lista de palavras ou expresses extradas de um documento com base na freqncia
relativa ser diferente de uma lista criada com base na freqncia absoluta, mas no de forma
radical. Muitos dos termos permanecero os mesmos. Os poucos termos novos sero os que
ocorrem raramente no documento, talvez apenas uma vez, mas ainda mais raramente na base
de dados como um todo - uma nica ocorrncia entre as 5 000 palavras de um artigo de
peridico altamente significativa se essa palavra tiver ocorrido at ento somente cinco
vezes numa base de dados de 10 milhes de palavras! Os termos que desaparecero,
evidentemente, sero os que, embora ocorram freqentemente num documento, ocorrem
freqentemente na base de dados como um todo.
Evidentemente, os termos selecionados com base na freqncia relativa no devem ser
radicalmente diferentes dos selecionados com base na freqncia absoluta. Para uma
recuperao da informao eficaz precisa-se de termos que sejam bons discriminantes de
documentos, e tambm de termos que formem classes eficazes de documentos; Se for til
mirar exatamente no item raro - o nico documento na base de dados que talvez examine os
riscos para a sade do amianto empregado em forros de bibliotecas -, algum tambm pode
querer recuperar grupos de documentos afins. Palavras como riscos ou perigos talvez no
sejam to raras numa base de dados de biblioteconomia quanto amianto, mas sero teis para
recuperar uma certa classe de documentos que podero interessar a alguns usurios. Para
uma recuperao eficaz da informao, requerem-se, comumente, classes que consistam em
mais de um nico item.
213
Os critrios para extrair termos dos documentos incluem, portanto, freqncia absoluta e
freqncia relativa, ou uma combinao de ambas, alm de critrios posicionais ou sintticos. 1
Se se adotar um mtodo relativo para a seleo de palavras, as listas de palavras proibidas,
claro, no sero necessrias: preposies, conjunes e artigos ocorrero com freqncia nos
itens especficos, mas tambm em toda a base de dados, e sero assim rejeitadas, junto com
palavras significativas mas de ocorrncia comum (como biblioteca em biblioteconomia).
Os termos tambm podem ser extrados do texto quando coincidem com algum tipo de
dicionrio armazenado de termos aceitveis. Essa foi a base do importante trabalho sobre
indexao com auxlio de computador realizado na dcada de 1970 pelo Defense
Documentation Center (ver, por exemplo, Klingbiel, 1971). Essencialmente, as cadeias de
palavras que ocorriam nos ttulos e resumos eram cotejadas com uma base de dados em
linguagem natural [Natural Language Data Base (NLDB)]. As cadeias de palavras que
coincidiam tornavam-se candidatas a termos de indexao. Klingbiel e Rinker (1976)
compararam os resultados da indexao com auxlio de computador com os resultados da
indexao feita por seres humanos. Como resultado de trs estudos de casos, concluram que a
indexao com auxlio de computador e sem reviso posterior alcana nveis de revocao
comparveis aos alcanados pela indexao feita por seres humanos, e que a preciso
alcanada pela indexao com auxlio de computador pelo menos to boa quanto a
alcanada pela indexao feita por seres humanos. A indexao por computador com reviso
posterior logrou resultados de revocao comparveis e melhor preciso do que a indexao
feita por seres humanos. Esta abordagem da indexao atualmente adotada no Center for
Aero Space Information da NASA (Silvester et al., 1993, 1994).
Indexao por atribuio automtica
A extrao de palavras e/ou expresses dos documentos tarefa que os computadores
executam de modo bastante satisfatrio. A extrao automtica apresenta ntida vantagem em
relao extrao feita por seres humanos: totalmente coerente. No entanto, a maior parte
da indexao feita por seres humanos no constitui indexao por extrao, mas indexao
por atribuio, e a realizao desse trabalho por computador , em geral, mais difcil. A
maneira bvia de executar a indexao por atribuio com o emprego de computador
desenvolver, para cada termo a ser atribudo, um perfil de palavras ou expresses que
costumam ocorrer freqentemente nos documentos aos quais um indexador humano atribuiria
esse termo. Esse tipo de perfil, por exemplo, para o termo chuva cida incluiria expresses
como chuva cida, precipitao cida, poluio atmosfrica, dixido de enxofre, etc.
Se a cada termo de um vocabulrio controlado correspondesse um perfil desses, seria
possvel utilizar programas de computador para cotejar as expresses importantes num
documento (essencialmente aquelas que fossem extradas segundo os critrios de freqncia
antes mencionados) com essa coleo de perfis, atribuindo um termo ao documento sempre
que o perfil do documento coincidisse com o perfil de termos acima de determinado limiar.
Isso parece relativamente fcil. Na prtica, porm, diferente. Em primeiro lugar, os
critrios de coincidncia teriam de ser um tanto complexos. Se chuva cida ocorrer dez vezes
num artigo de peridico, quase certamente o termo de indexao CHUVA CIDA ter de ser
atribudo. Suponhamos, por outro lado, que chuva cida ocorra apenas duas vezes no
documento, porm atmosfera, dixido de enxofre e cido sulfrico ocorram com bastante
freqncia. Atribui-se o termo CHUVA CIDA? evidente que muitas combinaes diferentes de
palavras ou expresses sinalizam o fato de que determinado termo de indexao ser
candidato atribuio. Alm do mais, a importncia de cada combinao, como preditor de
que determinado termo ser atribudo, implicaria o emprego de diferentes valores de coocorrncia. Por exemplo, se as palavras calor, lago e poluio ocorressem poucas vezes num
documento, isso seria o suficiente para levar atribuio dos termos POLUIO TRMICA e
POLUIO DA GUA. Porm calor e lago, sem o aparecimento de poluio, teriam de ocorrer
juntos num documento muitas vezes, antes de POLUIO TRMICA ter assegurada sua
atribuio.
A expresso chuva cida apresenta grande probabilidade de ocorrer com freqncia num
documento que trate do assunto, de modo que a atribuio correta do termo de indexao
CHUVA CIDA talvez no seja to difcil quanto estariam a sugerir as consideraes anteriores.
O termo POLUIO TRMICA mais problemtico, pois menos provvel que a maioria dos
itens sobre poluio trmica inclua ocorrncias freqentes dessa expresso. Outros termos
que um indexador humano atribuiria com grande facilidade quase que resistem atribuio
1
Para um exame completo dos vrios critrios adotados para a seleo de termos com base na freqncia de
ocorrncia, ver Salton e McGill (1983).
214
por computador. OConnor (1965) analisou alguns problemas concernentes a isso. Um bom
exemplo o termo TOXICIDADE. Um indexador pode, legitimamente, atribu-lo ao defrontar
com esta redao: Dois dias depois de a substncia haver sido ingerida surgiram diversos
sintomas, mas bastante difcil incorporar num programa de computador todos esses
preditores (de que o termo TOXICIDADE deva ser atribudo), mesmo que fossem identificados
de antemo.
Devido a esses problemas, as tentativas iniciais de atribuir termos automaticamente no
tiveram xito, mesmo quando estavam envolvidos vocabulrios muito pequenos de termos de
indexao (por exemplo, Borko e Bernick, 1963). Nos ltimos 40 anos, porm, desenvolveramse processos melhores, e agora possvel executar, com maior chance de xito, a indexao
por atribuio.
A indexao automtica e processos afins tm, portanto, uma longa histria. No resto do
captulo sero vistos em primeiro lugar outros princpios e abordagens anteriores. Os enfoques
mais atuais sero analisadas mais ao final do captulo.
Estudos anteriores sobre indexao
Van der Meulen e Janssen (1977) relatam uma comparao entre indexao por
atribuio automtica e indexao manual. Neste caso, comparou-se a indexao humana
adotada pelo INSPEC com um esquema de indexao automtica que substitui expresses, que
ocorrem nos resumos, por nmeros conceituais extrados de um tesauro armazenado no
computador. Embora os autores digam que a indexao automtica deu resultados to bons
quanto os obtidos pela indexao humana, tal concluso baseou-se nos resultados de apenas
duas buscas.
Um dos programas mais complexos de indexao por atribuio automtica,
desenvolvido no BIOSIS, foi examinado por Vleduts-Stokolov (1987). As palavras que apareciam
nos ttulos de artigos de peridicos foram cotejadas com um Vocabulrio Semntico, formado
por cerca de 15 000 termos de biologia, os quais, por sua vez, foram ligados a um vocabulrio
de 600 Cabealhos Conceituais (isto , cabealhos de assuntos relativamente genricos).
Assim, os Cabealhos Conceituais podiam ser atribudos pelo computador com base em
palavras/expresses que ocorriam nos ttulos. Vleduts-Stokolov relatou que cerca de 61% dos
Cabealhos Conceituais atribudos por seres humanos poderiam ser atribudos pelo
computador com base apenas nos ttulos. Se se considerassem apenas as atribuies primrias
e secundrias (o BIOSIS utilizava um esquema de ponderao de termos de trs nveis:
primrio, secundrio e tercirio), cerca de 75% das atribuies poderiam ser feitas
automaticamente. Na realidade, porm, os programas no alcanaram um nvel de
desempenho to elevado. Alcanaram de 80 a 90% de xito em atribuies primrias e
secundrias (isto , atribuam de 80 a 90% dos 75% que, teoricamente, seriam atribudos com
base nos ttulos), e quase esse nvel de xito em todas as atribuies (ou seja, por volta de
80%, ou um pouco mais, dos 61% de atribuies que ocorreriam com base apenas nos ttulos).
Em outras palavras, ocorria subatribuio; quer dizer, os programas deixavam de atribuir
termos que deveriam ser e seriam atribudos por seres humanos. Ao mesmo tempo, tambm
se verificava superatribuio: atribuam-se termos que no deveriam ser atribudos. Isso estava
na mesma faixa da subatribuio: entre 80 e 90% das atribuies de termos pelo computador
eram corretas, no sentido de que indexadores humanos tambm as teriam feito.
Um mtodo algo similar, descrito por Trubkin (1979), foi adotado para indexar
automaticamente os resumos de ABI/INFORM (uma base de dados na rea de negcios) no
perodo 1971-77. Construiu-se um vocabulrio-ponte com cerca de 19 000 termos que
remetiam das expresses dos textos para os termos de um vocabulrio controlado. Como
bastava uma nica ocorrncia de um termo num ttulo ou resumo para fazer com que fosse
atribudo um termo controlado, os processos de indexao automtica tendiam a atribuir mais
termos a um item do que o faria a indexao humana (mdia de 16 por item em contraste com
8-12).
Tambm similares ao trabalho realizado no BIOSIS so os processos de indexao com
auxlio de computador implementados pelo American Petroleum Institute (Brenner et al., 1984).
Sua finalidade era desenvolver mtodos que permitissem ao computador atribuir os termos
controlados do tesauro do API com base nos textos dos resumos. Brenner et al. relatam que
uma verso anterior do sistema atribua somente cerca de 40% dos termos que os indexadores
humanos atribuiriam, alm de atribuir muitos termos suprfluos. Com os ensinamentos
adquiridos nessa experincia, os autores, contudo, sentiam-se otimistas quanto possibilidade
de os processos informatizados atriburem cerca de 80% dos termos que deveriam ser
atribudos, e que a isso se seguiria uma reduo significativa das atribuies suprfluas. De
215
fato, desde os primeiros testes, ocorreram melhoramentos notveis. Martinez et al. (1987)
analisam esses melhoramentos e tambm descrevem os problemas encontrados ao fazer a
ligao entre expresses dos textos e os termos do tesauro. Posteriormente, Hlava (1992)
analisou progressos na abordagem do API no que concerne ligao de termos de indexao
em uma lngua com termos de indexao em outra (por exemplo, do ingls com o alemo e
vice-versa).
Um mtodo mais elaborado de ligar expresses de textos a descritores foi desenvolvido
na Technische Hochschule Darmstadt. Sua descrio mais completa, feita por Knorz (1983),
precisa ser complementada com referncias posteriores (por exemplo, Fuhr, 1989; Biebricher
et al., 1997). O mtodo de Darmstadt, que adota a tcnica da ponderao, calcula a
probabilidade que um descritor tem de vir a ser atribudo a um item, supondo-se que
determinada expresso textual ocorra no ttulo ou no resumo. Como foi dito antes neste
captulo, uma das mais bem-sucedidas aplicaes da indexao por atribuio com auxlio de
computador encontra-se atualmente em uso no Center for Aero Space Information (Silvester et
al., 1993, 1994), com base no trabalho de Klingbiel.
Apesar de a indexao por atribuio automtica ter melhorado consideravelmente nos
ltimos 40 anos (ver a seo final deste captulo), ainda no chegamos ao ponto onde termos
de um vocabulrio extenso (digamos, 10 000 descritores de um tesauro) possam ser atribudos
de modo completamente automtico sem interveno humana. Um estudo feito por Hersh et
al. (1993), que trabalhou com textos mdicos, afirma ter obtido melhores resultados com
buscas em textos simples do que com a ligao de textos aos termos do vocabulrio
controlado (termos do Unified Medical Language System).
Na realidade, a indexao por atribuio automtica se reveste hoje em dia de reduzido
interesse, exceto para a produo de ndices impressos. H 30 anos, despertava interesse mais
amplo. Como, ento, era muito dispendioso armazenar e processar grandes quantidades de
texto em computador, justificava-se qualquer mtodo que reduzisse o texto. Hoje em dia,
evidentemente, no caso de existir o texto completo de um item em formato eletrnico, ou se
existir um resumo adequado, faz pouco sentido pretender index-lo, a menos que venha a ser
gerada, a partir da base de dados, alguma forma de ndice impresso. No obstante, conforme
ser visto mais adiante neste captulo, existem realmente aplicaes em que as formas de
indexao por atribuio automtica ainda so teis. Ademais, os mtodos de indexao por
atribuio automtica so essencialmente os mesmos usados na categorizao (classificao)
de textos ou tarefas de encaminhamento de mensagens, a serem examinadas mais adiante.
Uma forma especial de ndice impresso o que aparece no final dos livros. Os trabalhos
visando produo desse tipo de ndice por computador tambm remontam a mais de 40
anos. Aliandi (1963) produziu ndices de livro por computador no campo da qumica. Para cada
entrada de ndice (termo de expresso) ela criou uma lista de expresses associadas (termos
de deteco), e a ocorrncia de qualquer uma dessas expresses numa pgina de texto faria
com que fosse selecionada uma das entradas de ndice para aquela pgina. Artandi afirmava
que um ndice assim produzido comparava-se em qualidade a um ndice feito por seres
humanos, mas custava bem mais caro. Grande parcela do custo correspondia, porm,
transcrio do texto para formato eletrnico. Como hoje praticamente toda impresso de
textos feita a partir de registros eletrnicos, os fatores de custo no mais favoreceriam o
esforo intelectual humano. Apesar disso, os problemas inerentes produo automtica de
ndices de livros so mais difceis do que sugere o trabalho de Artandi. Mesmo num campo
limitado seria preciso um vocabulrio muito grande de termos de expresso e, para cada um
deles, tambm seria muito grande o nmero de termos de deteco possveis. Ademais, ambos
os vocabulrios precisariam ser mantidos atualizados para abrigar os novos desenvolvimentos
e as mudanas terminolgicas nesse campo.
Evidentemente, Artandi procurava fazer a indexao por atribuio. Uma proposta mais
fcil seria extrair expresses do texto do livro que fossem adequadas para funcionar como
entradas de ndice. Earl (1970) descreve um mtodo de elaborao de ndices de livros por
computador que envolve a extrao de sintagmas nominais. Ela afirma que: Tudo indica ser
possvel produzir automaticamente ndices de livros que sejam satisfatrios, com um trabalho
posterior de reviso para eliminar termos suprfluos. Mais tarde, Salton (1989) descreveu
como possvel empregar processos de anlise sinttica para gerar expresses que se
prestam ao uso em ndices de livros. Por outro lado, Korycinski e Newell (1990) examinam os
motivos pelos quais a produo automtica de ndices de livros muito mais difcil do que a
indexao automtica de artigos de peridicos.
A maioria dos sistemas de indexao automtica no so realmente automticos, no
sentido de que substituem o ser humano pelo computador, mas se destinam a auxiliar o
indexador humano. Uma denominao que melhor se ajusta a eles com auxlio de
216
com todos os termos da busca original com base na freqncia de co-ocorrncia. Por exemplo,
A, S e C ocorrem na estratgia original e X e Y so acrescentados porque tendem a co-ocorrer
com todos os trs termos iniciais. O processo poderia continuar de modo a introduzir, digamos,
o termo P porque est associado a A, S, C, X e Y. OS itens da base de dados podem receber um
peso numrico, que reflita o nmero de termos que coincidem entre item e estratgia de busca
e as foras de associao que existem entre esses termos (com base na co-ocorrncia), e os
itens recuperados podem ser ordenados por peso. possvel, assim, que alguns itens que
aparecem no alto da ordenao [ranking] no contenham nenhum dos termos com os quais se
iniciou a busca.
Na segunda aplicao, qualquer palavra que ocorra num enunciado de busca pode ser
substituda pela classe de palavras a que pertence. Isso automtico ou pode ser feito sob
controle de quem faz a busca. Os tipos de classes de palavras que podem ser derivadas dos
dados de co-ocorrncia foram claramente identificados por Salton e McGill.(1983). Num deles,
chamado faco, todas as palavras do grupo so associadas com todas as outras palavras do
grupo acima de um limiar escolhido. Num grupo de ligao nica, por outro lado, cada palavra
precisa estar ligada apenas a uma outra palavra do grupo acima do limiar estabelecido.
As classes formadas mediante processos estatsticos sero muito menos puras do que as
de um tesauro convencional. Um grupo de palavras que coocorram fortemente incluir
relaes de gnero/espcie, parte/todo e outras, como no seguinte exemplo:
ASA
AEROFLIO
DELTA
CAUDA
VIBRAO
AERODINMICA
FLUXO
2. A estrela na qual uma classe AQRST definida pelo fato de Q, R, Se T estarem todos,
de alguma forma, ligados de perto a A.
218
4. O conglomerado que pode ser formado com base em vrios critrios. Em geral, no
entanto, cada membro se associa aos outros membros do grupo ao alcanar um valor
acima de determinado limiar.
DISLOCATION
JUNCTION
MINORITY-CARRIER
N-P-N
P-N-P
POINT-CONTACT
RECOMBINE
TRANSITION
UNIJUNCTION
40
9
BLAST-COOLED
HEAT-FLOW
HEAT-TRANSFER
41
0
ANNEAL
STRAIN
41
1
COERCIVE
DEMAGNETIZE
FLUX-LEAKAGE
HYSTERESIS
INDUCT
INSENSITIVE
MAGNETORESISTANCE
SQUARE-LOOP
THRESHOLD
41
2
LONGITUDINAL
TRANSVERSE
413
CAPACITANCE
IMPEDANCE-MATCHING
IMPEDANCE
INDUCTANCE
MUTUAL-IMPEDANCE
MUTUAL-INDUCTANCE
MUTUAL
NEGATIVE-RESISTANCE
POSITIVE-GAP
REACTANCE
RESIST
SELF-IMPEDANCE
SELF-INDUCTANCE
SELF
414
ANTENNA
KLYSTRON
PULSES-PER-BEAM
RECEIVER
SIGNAL-TO-RECEIVER
TRANSMITTER
WAVEGUIDE
CRYOGENIC
CRYOTRON
PERSISTENT-CURRENT
SUPERCONDUCT
SUPER-CONDUCT
415
416
REPLAY
forma normal, empregando palavras do texto ou termos controlados, o conjunto de itens assim
recuperados ser ampliado com os itens a eles ligados por meio de citaes bibliogrficas. Ele
sugere que o conjunto de termos associados aos itens originalmente recuperados seja
ampliado com o acrscimo de termos extrados dos itens que eles citam. Estes novos termos
podem ser termos de indexao atribudos aos itens citados, ou expresses do texto extradas
dos resumos ou dos ttulos. Ele sugere que a ampliao mediante a extrao de termos dos
ttulos dos itens citados mais praticvel. Salton e Zhang (1986) testaram a utilidade de
ampliar o conjunto de termos associados aos itens recuperados mediante o acrscimo de
palavras do ttulo extradas de itens bibliograficamente relacionados. As palavras do ttulo
foram extradas de: a) itens citados pelos itens recuperados, b) itens que citavam os itens
recuperados, e c) itens co-citados. A concluso deles que, embora muitas palavras de
contedo til sejam extradas dessa forma, tambm sero extrados muitos termos de
utilidade duvidosa, e que o processo no suficientemente confivel para justificar sua
incluso em sistemas de recuperao operacionais.
bvio que as ligaes explcitas ou implcitas entre os itens numa rede de hipertexto ou
hipermdia so muito similares s ligaes de citaes aqui examinadas. As implicaes para a
indexao das ligaes de hipertexto/hipermdia so mencionadas no captulo 16. Um livro
organizado por Agosti e Smeaton (1996) uma boa fonte de pesquisas sobre a utilizao de
vnculos de hipertexto na recuperao de informaes:
Redao automtica de resumos
Se os computadores podem ser programados para selecionar termos dos documentos
segundo critrios de freqncia, tambm podem ser programados para selecionar frases dos
documentos. Esta a base do que se denomina comumente redao automtica de resumos,
embora fosse mais exato chamar isso elaborao automtica de extratos. Luhn (1958),
criador desse mtodo, adotou os seguintes procedimentos:
1. Uma lista de palavras proibidas elimina do processamento ulterior todas as palavras
no-significativas.
2. Contam-se as ocorrncias de todas as palavras restantes, que so ordenadas segundo
sua freqncia de ocorrncia (em vez de palavras, podem ser usadas razes (radicais)).
3. Todas as palavras que ocorram mais de x vezes so definidas como palavras de alta
freqncia ou significativas.
4. Localizam-se as frases que contenham concentraes dessas palavras de alta
freqncia. Consideram-se duas palavras relacionadas dentro de uma frase se no
houver mais de quatro palavras intermedirias.
5. Calcula-se um fator de significncia para cada frase, da seguinte maneira: a)
determina-se o nmero de aglomerados na frase (aglomerado o grupo de palavras
mais extenso, demarcado por palavras significativas, no qual as palavras significativas
no se acham separadas por mais de quatro palavras intermedirias);
b) determina-se o nmero de palavras significativas no aglomerado e se divide o
quadrado desse nmero pelo nmero total de palavras dentro do aglomerado;
c) define-se o fator de significncia da frase como o valor do aglomerado mais alto
ou como a soma dos valores de todos os aglomerados na frase.
Isso soa mais complicado do que realmente na prtica, e sua explicao fica mais fcil
por meio de um exemplo. Vejamos a frase:
A B C D* E F* G* H I J* K L M N O P Q R
Onde cada letra representa uma palavra, e as palavras seguidas de asterisco so as
consideradas significativas. O aglomerado formado pelas palavras D-J contm quatro palavras
significativas, de modo que o fator de significncia do aglomerado 42/7 ou 2,3. Este
tambm o fator de significncia da frase, uma vez que ela contm somente um aglomerado.
De acordo com os procedimentos de Luhn, as frases que contenham os fatores de
significncia mais altos so selecionadas e impressas, na seqncia em que ocorrem no texto,
a fim de formar o resumo. possvel estabelecer um ponto de corte, para controlar a
quantidade de frases selecionadas. Isso pode basear-se num nmero fixo de frases ou no
nmero de frases necessrias para atingir certo percentual do texto total do documento. A
figura 109 um exemplo de um auto-resumo produzido de acordo com o mtodo de Luhn.
Ao lidar com documentos muito longos talvez seja conveniente fazer com que os
programas selecionem e imprimam frases significativas para cada seo da publicao. Uma
vez que os resumos devem salientar a importncia especfica de um item para a instituio
221
para a qual o resumo preparado, pode-se incluir uma ponderao adicional numa certa
categoria ou lista de palavras, de modo a garantir que as frases que contenham uma ou mais
ocorrncias dessas palavras sejam selecionadas para incluso no resumo.
claro que um resumo montado dessa forma no ser muito parecido com um resumo
preparado por um ser humano. Uma vez que algumas frases podem vir do primeiro pargrafo,
algumas do ltimo, e vrias outras talvez do meio do trabalho, o extrato pode parecer bastante
desconjuntado. Na realidade, isso no chega a ser de grande importncia enquanto as frases
escolhidas oferecerem, em conjunto, um quadro exato daquilo de que trata o documento.
Alguns pesquisadores, no entanto, discordam disso e insistem para que os extratos obtidos por
mtodos automticos apresentem melhor seqncia lgica (Rush et al., 1971, Mathis et al.,
1973).
Enquanto Luhn (1959) e Oswald et al. (1959) utilizaram a freqncia de palavras ou
expresses para a seleo de frases, outros pesquisadores propuseram ou empregaram
critrios alternativos. Edmundson (1969) identificou quatro mtodos possveis:
1. Mtodo da chave. Similar ao critrio de freqncia de palavras adotado por Luhn.
Atribui-se s frases um peso correspondente soma dos pesos das palavras que as
compem.
2. Mtodo da deixa. A presena de certas palavras numa frase sinaliza o fato de que
provvel que ela seja um bom indicador de contedo. Um dicionrio de deixas inclui
uma lista de palavras que recebem peso positivo e uma lista de palavras com peso
negativo. O valor da significncia de uma frase a soma dos pesos das palavras que a
compem.
3. Mtodo do ttulo. A hiptese em que se baseia este mtodo que as palavras que
ocorrem nos ttulos e subttulos so bons indicadores de contedo. Atribui-se um valor
de significncia s frases baseado no nmero de palavras do ttulo e subttulo que elas
contm.
4. Mtodo da localizao. Neste mtodo atribuem-se pesos s frases, tomando por base a
posio onde aparecem num documento. As frases que aparecem em certas sees
(primeira e ltima frase dos pargrafos, primeiro e ltimo pargrafo, texto antecedido
por entre ttulos, como Introduo ou Concluses) so aceitas como mais indicadoras
de contedo do que outras.
extrao que descrevem baseia-se no cotejo do texto com uma Lista de Controle de Palavras
[Word Control List (WCL)], que inclui uma lista de expresses que, se estivessem presentes
numa frase, causariam sua rejeio, e uma lista muito menor de expresses que. a levariam a
ser selecionada. As expresses de rejeio incluem indicadores de que a frase trata de
material relativo a antecedentes e no aos objetivos, mtodos e resultados do trabalho. As
expresses de seleo so as (do tipo este artigo, este estudo ou o presente trabalho) que
quase sempre significam que a frase trata do tema principal do artigo. So tambm
selecionadas frases que possuam palavras significativas do ttulo do documento. Os critrios de
freqncia no so postos de lado, mas usados apenas para modificar os pesos associados s
deixas negativas e positivas no WCL. Os mtodos de extrao desenvolvidos por Rush et al.
ofereciam vrias vantagens em relao a processos anteriores, inclusive a capacidade de
modificar frases extratadas (por exemplo, pela eliminao de expresses parentticas).
Outra caracterstica era a remisso interfrasal: quando uma frase era selecionada para
incluso num extrato era testada, a fim de determinar se seu significado dependia das frases
imediatamente precedentes (por exemplo, por incluir expresses do tipo portanto ou por este
motivo). Se o significado fosse assim dependente, as frases precedentes, at um mximo de
trs, eram includas no resumo, mesmo que no atendessem a outros critrios de aceitao.
Esse mtodo de extrao tem, portanto, o potencial de criar extratos que possuam melhor
seqncia lgica do que os obtidos mediante processos menos complexos. Na figura 110 temse o exemplo de um extrato produzido segundo os procedimentos de Rush et al. (o sistema de
elaborao automtica de resumos ADAM).
Mathis et al. (1973) introduziram aperfeioamentos nos mtodos de extrao descritos
por Rush et al. Tais aperfeioamentos referem-se fundamentalmente s caractersticas de
modificao frasal e remisso interfrasal dos processos anteriores, e se destinam a produzir
representaes que sejam mais legveis.
Earl (1970) realizou experincias a fim de determinar se frases significativas poderiam ou
no ser identificadas por meio de anlise sinttica. A hiptese era que as frases que
contivessem certas estruturas sintticas seriam mais indicativas de contedo do que outras.
Os resultados no foram promissores, devido principalmente ao grande nmero de tipos de
frases que foram identificados. Um processo mais promissor envolvia o uso de critrios tanto
sintticos quanto estatsticos: identificam-se sintagmas nominais no texto, identificam-se as
palavras significativas nos sintagmas, fazem-se contagens de palavras, e as frases so
selecionadas com base no nmero de palavras de alta freqncia que contm.
Paice (1981) descreveu processos de elaborao automtica de extratos baseados na
identificao de frases com probabilidade de serem bons indicadores daquilo de que trata um
documento (por exemplo, que contivessem expresses como o principal objetivo ou
descreve-se um mtodo).
Fum et al. (1982) descreveram um mtodo de elaborao automtica de resumos no
qual, segundo afirmam, processos de anlise sinttica [parsing] e ponderao identificam as
informaes mais importantes transmitidas num texto, eliminam elementos no-essenciais e
reestruturam o restante num resumo condensado e expressivo. Eles apresentam como
exemplo a frase
A necessidade de gerar enorme quantidade adicional de energia eltrica e ao mesmo tempo
proteger o meio ambiente um dos principais problemas sociais e tecnolgicos que nossa
sociedade ter de resolver em futuro prximo [sic]
que se reduz a
A sociedade deve resolver no futuro o problema da necessidade de gerar energia ao mesmo
tempo que protege o meio ambiente.
223
Embora isso seja esplndido como frase, eles no logram demonstrar que os processos
que descrevem produziro uma condensao expressiva e til de um artigo inteiro.
Hahn e Reimer (1984) descrevem trabalho voltado para o desenvolvimento de um
mtodo, inspirado no conceito de sistema especialista, para condensao de textos, em que
foi adotada uma base de conhecimento de quadros [frame knowledge base] aplicada anlise
sinttica [parsing] de textos. Eles preferem o termo condensao de textos a redao de
resumos porque os mtodos podem, em princpio, ser utilizados para criar condensaes com
vrios nveis de extenso e pormenores.
Evidentemente, quanto mais formais e coerentes forem os textos dos documentos, mais
bem-sucedidos provavelmente sero os processos de elaborao de extratos. Por exemplo,
Borkowski e Martin (1975) alegam ter alcanado mais de 90% de xito na extrao automtica
de ementas e prescries exaradas em processos, partindo do texto de decises judiciais.
As abordagens atuais de extrao automtica, hoje em dia freqentemente chamada de
sumarizao de textos, so mencionadas mais adiante neste captulo. Embora os
procedimentos correntes sejam capazes de fazer coisas mais complexas, como a combinao
bem-sucedida de frases,1 possvel que os critrios relativamente simples introduzidos por
Luhn e Baxendale sejam to bons ou melhores do que quaisquer outros para a seleo prtica
de frases com probabilidade de serem indicativas do contedo do documento. Por exemplo, Hui
e Goh (1996) compararam quatro critrios diferentes na preparao de resumos de notcias:
mtodo de localizao, processo indicativo, freqncia de palavras-chave e palavra-chave do
ttulo. O emprego de expresses indicativas (por exemplo, em concluso, o objetivo era)
para identificar frases significativas deu os piores resultados. O critrio simples de freqncia
de palavras-chave foi melhor, mas os melhores resultados foram obtidos com mtodos que
atribuam peso maior localizao (por exemplo, primeiras frases do pargrafo) ou seleo
de frases que continham maior concentrao de palavras que tambm ocorriam em ttulos,
entre ttulos, legendas ou bibliografias.
Operaes automticas de recuperao
Uma vez que a indexao e a redao de resumos so os temas centrais examinados
neste livro, a ateno deste captulo volta-se para a indexao e a elaborao automticas de
resumos. Todavia, certos mtodos automticos de recuperao da informao guardam com
isso uma relao suficiente para justificar que sejam objeto aqui de algumas consideraes,
ainda que de forma sucinta.
Ao longo dos anos, um dos principais objetivos de inmeros pesquisadores foi o
desenvolvimento de processos que permitiriam que um pedido expresso em texto em
1
Johnson et al. (1997) apresentam um bom exemplo de estudo sobre a situao atual da produo de resumos mais
inteligveis por meio de concatenao de frases.
224
linguagem natural fosse cotejado com os textos dos documentos texto completo, texto parcial
ou alguma forma de representao. Considera-se isso como uma espcie de coincidncia de
padres: atribui-se aos textos da base de dados um tipo de escore, que reflita o grau com que
coincidem com o texto de um pedido, o que permite que sejam apresentados, a quem faz a
busca, na forma de uma sada ordenada por provvel relevncia.
So possveis vrios tipos e nveis de coincidncia. Examinemos, por exemplo, o pedido:
Patologia, fisiologia, radiografia e tratamento de pneumonia causada por irradiao ou
fibrose pulmonar causada por irradiao.
aos itens, a refletir a extenso com que coincidem com os enunciados de pedidos, e a
apresentar esses itens ao usurio de acordo com uma ordenao por provvel relevncia, onde
aparecem em primeiro lugar aqueles com pesos maiores. O SMART incorpora diferentes
critrios para o estabelecimento de coincidncia, inclusive a ponderao de termos, que visa a
refletir seu ndice de ocorrncia numa base de dados, coincidncia de expresses, e
coincidncia baseada em razes de palavras. Tambm possibilita a incorporao de um tesauro,
o que obtido mediante uma combinao de processamento por computador e por seres
humanos. Outro elemento essencial do SMART a retroalimentao de relevncia. Se, numa
sada preliminar, o usurio puder indicar quais os itens que so relevantes e quais os
irrelevantes, o sistema recalcular o peso dos itens da base de dados. Consegue-se isso com a
reduo dos pesos relativos s caractersticas dos itens no relevantes e o aumento dos pesos
das caractersticas relativas aos itens relevantes. Saiton (1989) descreveu como a anlise
sinttica dos textos de captulos de livros, acompanhada de processos de gerao de
expresses, pode ser aplicada produo de ndices de final de livros.
Os mtodos desenvolvidos por Salton determinam essencialmente a similaridade entre
dois textos e expressam essa proximidade como um escore numrico, uma medida de
similaridade. Nas operaes convencionais de recuperao, mede-se a similaridade entre o
texto de uma consulta e textos de documentos numa base de dados, e o escore numrico de
similaridade ser usado para ordenar a sada. Outras utilizaes podero, porm, ser dadas a
essa medida de similaridade dos textos. Por exemplo, possvel medir a proximidade de textos
de documentos, o que permitir a formao de classes de textos similares. Ver, por exemplo, o
mapa de relaes textuais da figura 111, baseado em Salton et al. (1997). Embora os seis
textos representados possam ser considerados semanticamente relacionados, alguns so
intimamente relacionados (por exemplo, 17012 e 17016 so fortemente relacionados com um
valor de 0,57), enquanto as ligaes entre outros pares so fracas (um valor de 0,09 entre
19199 e 22387 e uma ligao completamente no-significante entre 22387 e 8907). Salton et
al. propem que esses processos de medio de similaridade sejam usados para estabelecer
vnculos de hipertexto numa rede de informao. Como ser examinado mais adiante neste
captulo, podem tambm ser utilizados para medir a similaridade entre pargrafos no mesmo
texto (similaridade intradocumental) e isso poder ento ser usado como base para a
sumarizao do texto.
MEDLINE e CATLINE da National Library of Medicine. O CITE funciona numa base de dados de
registros que possuam termos de indexao (como o MEDLINE) ou numa que envolva texto
livre (por exemplo, resumos). O sistema pode remover automaticamente os sufixos das
palavras (isto , reduzir as palavras a seus radicais), atribuir automaticamente pesos aos
termos da consulta (os pesos refletem a raridade do termo: termos que ocorram raramente na
base de dados obtm peso maior) e apresentar termos possveis para que o usurio os aprove
ou rejeite. Como no SMART, os itens da base de dados recebem um escore numrico que
reflete o grau com que coincidem com o enunciado do pedido.
No CITE, os termos relacionados com aqueles empregados na consulta so identificados
somente quando a consulta houver sido processada na base de dados. A matria-prima
trabalhada o conjunto de palavras (termos) relativas aos documentos recuperados. Assim,
nos itens recuperados sobre os termos A, B e C, os termos R e T tambm podem ocorrer
freqentemente e ser teis na expanso da busca. Os termos R e T no so considerados
significativos, contudo, a menos que ocorram no conjunto recuperado com maior freqncia do
que o esperado. Assim, tambm se leva em conta a freqncia de ocorrncia de um termo na
base de dados como um todo. Por exemplo, uma base de dados de biblioteconomia apresenta
85 resumos em resposta a uma consulta simples, como avaliao de colees (que
interpretada como avaliao e colees). A palavra biblioteca ocorre em 59 desses
resumos, mas no considerada significativa, pois sua taxa de ocorrncia no conjunto
recuperado (59/85) no excede a taxa de ocorrncia na base de dados como um todo. Por
outro lado, a palavra distribuio seria considerada associada significativamente com
colees e avaliao: ainda que s ocorra em 8 dos 85 resumos, sua taxa de ocorrncia
(8/85) excede em muito sua taxa de ocorrncia na base de dados como um todo.
Uma das grandes vantagens do mtodo de Doszkocs no exigir um clculo a priori das
associaes entre termos, uma proposta desanimadora no caso de uma base de dados muito
grande. A possibilidade de obter associaes teis entre termos a posteriori (depois de a
consulta haver sido processada na base de dados), o que requer muito menos processamento
do computador, viabiliza processos de otimizao das buscas automticas em sistemas de
informao operacionais de porte muito grande. Os sistemas baseados em buscas em
linguagem natural e na ordenao por relevncia de itens recuperados encontram-se hoje
disponveis comercialmente, como veremos mais adiante.
Mtodo um pouco diferente adotado no sistema conhecido como Grateful Med (Snow et
al. 1986; Bonham & Nelson, 1988). Uma tela formatada em linha convida o usurio a formular
sua estratgia de busca. O sistema tambm sugere ao usurio termos de busca adicionais
(extrados de itens relevantes j recuperados); uma tela de ajuda oferece sugestes para
modificao de uma estratgia de busca quando esta no tiver levado recuperao de
qualquer item.
A maioria dos sistemas examinados at agora so sistemas de recuperao bastante
convencionais no sentido de que lidam com a busca de registros bibliogrficos (ou textos
bibliogrficos), embora os mtodos adotados possam no ser convencionais. Outros sistemas
foram desenvolvidos para buscas de outros tipos de dados. Um exemplo uma interface em
linguagem natural, pouco comum, descrita por Clemencin (1988), que permite a um assinante
consultar as pginas amarelas da lista telefnica em linha da Frana por meio de enunciados
de problemas do tipo Gostaria de mandar consertar uma cmara fotogrfica antiga, Preciso
contratar um motorista particular, Os limpadores de pra-brisas do meu carro esto
quebrados, ou Torci o tornozelo. Em resposta, a interface recuperar da lista informaes
sobre servios ou profissionais relevantes.
Abordagens atuais
Como foi acima sugerido, a internet provocou tremendo aumento do interesse pelas
tcnicas de recuperao em geral e pelos mtodos automticos em particular. Alguns sistemas
e processos considerados como meramente experimentais h alguns anos so hoje em dia
aplicados comercialmente.
Mencionou-se no captulo anterior que o projeto TIPSTER em muito contribuiu para o
progresso alcanado na ltima dcada em vrias atividades de processamento automtico de
texto. Este programa, bem como esforos correlatos, incluram vrias conferncias sobre
recuperao de textos [Text Retrieval Conferences (TRECS)] - a undcima delas realizada em
2002 - bem como conferncias sobre compreenso de mensagens [Message Understanding
Conferences (MUCS) e, mais recentemente, duas conferncias sobre compreenso de
documentos [Document Understanding Conferences (DUCS), em 2001 e 2002 (ver
http://www-nlpir.nist.gov/projects/duc/). As DUCs tratam da sumarizao de textos e so
227
trabalho dos indexadores humanos ao fazer uma atribuio preliminar. Rindflesch e Aronson
(1994) analisam alguns dos problemas de ambigidade presentes na ligao do texto com
vocabulrios mdicos (neste caso, o Unified Medical Language System) e apresentam vrias
regras de desambiguao.
Est longe de se materializar a indexao por atribuio completamente automtica (isto
, sem qualquer interveno humana) de textos que tenham a extenso de artigos e que
tratem de assuntos complexos (por exemplo, em medicina, qumica ou fsica), especialmente
quando o vocabulrio controlado utilizado for muito grande, e por isso foram empreendidas
pesquisas para obter sistemas especialistas mais complexos para ajudar o indexador. Um
exemplo marcante foi o MedIndEx, que a National Library ofMedicine desenvolveu durante
muitos anos (Humphrey, 1992). Trata-se de uma abordagem convencional de um sistema
especialista baseado em quadros [frame-based). O usurio, que no precisa ser um indexador
experiente, mas deve pelo menos ter alguma noo da literatura mdica e sua terminologia,
guiado para vrios quadros relevantes (por exemplo, tipo de doena, tipo de tratamento) e
solicitado a preench-los. O sistema pode instar o indexador a atribuir determinado termo e
tambm corrigi10 quando o termo for empregado de modo inapropriado. Por exemplo, o
indexador que atribuir um termo em que aparea a palavra neoplasia (cncer) com indicao
da localizao da doena (por exemplo, neoplasia ssea) pode ser lembrado a atribuir um
termo associado que representa o tipo histolgico da neoplasia (por exemplo,
adenocarcinoma). Ou o indexador que atribuir uma combinao imprpria, como fmur e
neoplasias sseas, poder ser informado do termo correto, neste caso neoplasiasfemorais. O
MedlndEx foi abandonado em favor de pesquisas sobre mtodos mais totalmente automticos.
Outros sistemas especialistas foram desenvolvidos para auxiliar no treinamento de
indexadores ao invs de ajudar no processo de indexao de forma rotineira; um sistema desse
tipo - CAIT (Computer- Assisted Indexing Tutor) foi desenvolvido na National Agricultural Library
(Irving, 1997).
Qualquer sistema informatizado que auxilie no trabalho de indexao temtica pode ser
visto como um sistema especialista, pelo menos no sentido mais lato do termo, principalmente
se ajudar uma pessoa menos experiente a se aproximar do trabalho de um indexador
especializado. E sistemas que sugerem termos aos indexadores ou corrigem certos erros deles
podem ser vistos como sistemas que tm pelo menos um tantinho de inteligncia.
Alguns sistemas ou programas descritos na literatura so citados como artificialmente
inteligentes. Encontram-se exemplos em Driscoll et al. (1991) e Jones e Bell (1992). Os dois
ltimos autores descrevem um sistema projetado para extrair palavras ou expresses de
textos, a fim de formar entradas de ndices. Seu funcionamento, em grande parte, baseia-se
em listas armazenadas: de palavras a serem ignoradas, palavras/expresses/nomes de
reconhecido interesse, e listas auxiliares para desambiguao de homgrafos, para fundir
formas do singular/plural e para permitir uma anlise simples (lista de terminaes de
vocbulos). As listas so combinadas para formar um dicionrio, que tambm inclui
informaes que permitem outros recursos, como, de modo limitado, indexao tanto com os
termos especficos quanto com os mais genricos [generic posting].
O sistema descrito por Driscoll et al. tambm se destina a encontrar no texto termos de
indexao teis. O texto processado em cotejo com uma lista de mais de 3 000 expresses. A
ocorrncia de uma delas no texto aciona o uso de regras de insero e eliminao. As regras de
eliminao simplesmente evitam novo processamento de palavras ou expresses que sejam
ambguas, enquanto as regras de insero podem gerar, por implicao, um conjunto limitado
de termos procurados (para completar um padro). Por exemplo, as palavras time, over e
target [tempo, sobre, alvo] geraro AIR WARFARE [guerra area], se aparecerem distncia
de x palavras uma da outra. Malone et al. (1991) apresentam um modelo estatstico para
previso do desempenho deste sistema.
Sistemas como os do tipo descrito por Driscoll et al. e por Jones e Bell so engenhosos.
So capazes de realizar indexao por extrao, ou extrao com atribuio limitada, em nvel
comparvel ao alcanado por indexadores humanos e por um custo menor. No mnimo, so
teis para apresentar termos candidatos que sero revistos por seres humanos. Todavia, no se
pode realmente concordar que apresentem inteligncia verdadeira. O mesmo se pode dizer dos
programas que desenvolvell1 tesauros e outros recursos auxiliares de busca com base na coocorrncia de termos (por exemplo, Chen et al. 1995).
Continuam a aparecer na literatura pesquisas destinadas a identificar melhores critrios
de associao estatstica para a atribuio de termos de vocabulrios controlados, com base
nas ocorrncias de palavras no texto. Plaunt e Norgard (1998), por exemplo, descrevem
experincias com a atribuio de termos do tesauro INSPEC com base numa tcnica de
colocao lexical.
229
Trs mtodos principais de indexao automtica esto sendo pesquisados na NLM. Cada
um deles pode gerar uma lista de candidatos a cabealhos de assuntos ordenada por
relevncia provvel; alternativamente, a ordenao pode ser obtida pela combinao de dois
mtodos ou, efetivamente, todos trs. Dois desses mtodos envolvem a ligao com os termos
do MeSH de expresses presentes nos ttulos dos artigos e nos resumos. O Unified Medical
Language System utilizado como ferramenta para o estabelecimento dessas ligaes (ver
tambm Wright et al., 1999, e Aronson, 2001). O terceiro mtodo obtm os termos candidatos
mediante o cotejo das palavras, do ttulo e do resumo, de um artigo novo com as palavras
que ocorrem no ttulo e no resumo de artigos j indexados. Os termos atribudos aos artigos
coincidentes tornam-se candidatos para atribuio ao novo artigo.
Humphrey (1999) estudou a relao entre as palavras do texto em ttulos e resumos de
artigos mdicos e a categoria de assunto do peridico onde apareciam. Por exemplo, se certo
grupo de palavras-chave estiver fortemente associado categoria cardiologia, porque
ocorrem freqentemente em peridicos de cardiologia, o termo CARDIOLOGIA ser
automaticamente atribudo a qualquer texto onde ocorra esse grupo de palavras-chave.
Embora essa categorizao genrica no seja adequada para muitas finalidades, poder ter
aplicaes prticas. Por exemplo, poderia ser adotada para categorizar automaticamente stios
biomdicos existentes na Rede (Humphrey, 2000; Humphrey et al., 2003).
Outros grupos de pesquisadores, sem afiliao com a National Library of Medicine,
desenvolveram mtodos de indexao automtica por atribuio em biomedicina. Roberts e
Souter (2000) descrevem tcnicas para atribuio de descritores baseadas em seqncias de
palavras de ttulos de artigos e ocorrncias de palavras em resumos ( preciso que uma
palavra-chave ocorra pelo menos trs vezes para ser considerada importante). Depois de haver
processado 100 registros, a atribuio automtica de descritores foi comparada com
descritores atribudos por seres humanos. Os mtodos automticos omitiram muitos
descritores que as pessoas atriburam corretamente e acrescentaram muitos que no deviam
ter sido atribudos, embora tambm hajam acrescentado uma mdia levemente superior a um
descritor por registro que os seres humanos deveriam ter atribudo mas no o fizeram. Dos 5,5
descritores por registro atribudos automaticamente, apenas 3,5 foram julgados corretos. As
condies em que trabalharam eram muito simples em comparao com as do MEDLINE (por
exemplo, um vocabulrio muito menor e muito menos termos atribudos por item) o que serve
para dar uma idia dos grandes problemas envolvidos na tentativa de automatizar totalmente
a indexao por atribuio no ambiente de uma base de dados real.
Bradshaw e Hammond (1999) descrevem um sistema em que as citaes que uma
publicao faz de outra podem levar extrao de texto que seria uma descrio til para
recuperao. Isto , se a publicao A cita a publicao B, A talvez inclua texto que indica do
que trata B ou, pelo menos, do que acha que B trata. Por exemplo, um trabalho de Harpring
(2002) cita um livro de Panofsky e afirma:
Panofsky identificou trs nveis principais de significado na arte: descrio pr-iconogrfica,
identificao iconogrfica, e interpretao iconogrfica ou iconologia.
claro que este texto oferece alguns termos de indexao teis para Panofsky:
significado, arte, iconografia, iconologia e assim por diante. O mtodo curioso, mas difcil
perceber nele alguma aplicao prtica, exceto, talvez, para uma base de dados de textos em
rea temtica altamente especializada. Os exemplos de buscas bem-sucedidas usados por
Bradshaw e Hammond (em consultas sobre Java e common Lisp) so bastante comuns,
230
principalmente porque resultados iguais teriam sido obtidos com buscas de palavras-chave nos
ttulos.
Woodruff e Plaunt (1994) descrevem um sistema singular para indexao geogrfica
automtica. Destina-se a:
[...] extrair de documentos nomes de lugares e tambm indicadores geogrficos mais
genricos, e utilizar a interseo desses referentes para gerar estimativas da rea qual se
refere um documento (p. 648).
Nomes de lugares identificados no texto podem ser cotejados com uma base de dados
que fornecer coordenadas de latitude/longitude e tambm caractersticas correlatas, como
floresta, reserva, porto e pntano.
Parece provvel que, pelo menos na maior parte das aplicaes, sempre haver itens que
no podem ser indexados automaticamente. Ribeiro-Neto et al. (2001), por exemplo,
descrevem processos para atribuio automtica de categorias da Classificao Internacional
de Doenas (CID) a pronturios mdicos. O texto dos pronturios cotejado com termos
relativos a cada uma das categorias e subcategorias da CID (extradas de seu ndice, junto com
dicionrios de sinnimos e siglas). Com base na indexao de mais de 20 000 pronturios, os
autores afirmam que obtiveram resultados excelentes. Embora muito poucos dos cdigos
atribudos fossem julgados errados, mais de 3 000 registros no receberam o cdigo ideal.
Desses, 918 no receberam cdigo algum (isto , o algoritmo no conseguiu index-los), que,
na grande maioria, asseveram os autores, representam casos que somente podem ser
inteiramente categorizados com auxlio humano (porque, por exemplo, exigem o conhecimento
especfico de determinada patologia).
Continuam as pesquisas na rea de indexao semntica latente. Anderson e PrezCarballo (2001) descrevem o mtodo da seguinte forma:
A indexao semntica latente (ISL) um dos mais elaborados esforos atuais visando a uma
indexao automtica de alta qualidade. Fundamenta-se em agrupamentos de termos
baseados em co-ocorrncia e identificao de documentos relativos a tais agrupamentos. Ao
se apoiar em dados de co-ocorrncia a ISL tambm consegue lidar com o problema da
variedade de termos que expressam idias semelhantes. [...]
Como exemplo da capacidade de a ISL lidar com terminologia divergente, imaginemos
documentos sobre conserto e manuteno de automveis. Documentos diferentes usaro
vrios termos diferentes como automvel, carro, veculo automotor, sed, alm dos
nomes de marcas e modelos - Buick, Plymouth, Cherokee. O programa ISL, mui
provavelmente, relacionar esses termos entre si devido ao alto nvel de co-ocorrncia com
termos como leo, gasolina, combustvel, carburador, pneus, ar-condicionado, etc. O
programa cria agrupamentos de termos altamente relacionados (por meio da co-ocorrncia),
de modo que, quando um nmero suficiente deles ocorre num documento, este pode ser
ligado ao agrupamento respectivo. Assim, possvel fazer buscas sobre cuidado e
manuteno de carburadores de automveis a gasolina sem nos preocuparmos com as
palavras especficas usadas para automvel. Todas as palavras que significam mais ou
menos o mesmo que automvel sero ligadas ao mesmo agrupamento, medida que um
nmero suficiente de outros termos co-ocorrentes coincidir com os termos do agrupamento
(p. 266).
Ver Guthrie et al. (1999) para uma anlise dos critrios de freqncia na categorizao de textos.
232
Trippe menciona diversos produtos desse tipo, inclusive um da empresa Eprise que
assim descrito:
De acordo com Hank Barnes, vice-presidente de estratgia da Eprise, Um aspecto
importante para tornar os contedos mais eficazes so as metaetiquetas de classificao.
Elas permitem aos usurios de contedos encontrar mais facilmente informaes relevantes
e obter informaes mais profundas sobre assuntos especficos. Barnes observa que a Eprise
utiliza esses tipos de etiquetas para localizar informaes de modo dinmico em resposta a
aes dos usurios, como seguir determinado caminho num stio da Rede. Acrescenta
Barnes, Com freqncia, esse mtodo de fornecimento de contedos que se baseia em
classificao muito mais eficaz do que buscas em texto completo ou de utilidade geral (p.
46).
Kwon e Lee (2003) tambm tratam da classificao de stios da Rede, enquanto Lawrence
et al. (1999) descrevem procedimentos para citao automtica de literatura cientfica na
Rede.
Os processos de categorizao de textos at agora descritos representam formas de
classificao automtica, isto , a atribuio de itens a classes ou categorias preestabelecidas.
Ao longo dos anos, foram feitos estudos sobre a automao do tipo de classificao com o qual
os bibliotecrios esto mais familiarizados, a saber, a atribuio de nmeros de classificao a
livros, mas disso no resultaram sistemas totalmente operacionais. Iyer e Giguere (1995)
fizeram estudo sobre o desenvolvimento de um sistema especialista que estabelecesse ligao
entre um sistema de classificao e outro, no caso especfico do esquema de matemtica da
American Mathematical Society para a classe de matemtica da Classificao Decimal de
Dewey. Afirmam que Uma interface que permita aos matemticos ter acesso aos acervos de
bibliotecas organizados pela Classificao Decimal de Dewey valendo-se do esquema da AMS
como interface ser certamente til. Esse tipo de aplicao, porm,. parece de utilidade muito
limitada.
De interesse mais amplo seria um sistema interativo que ajudasse na atribuio real de
nmeros de classificao. Alguns trabalhos nessa linha j foram realizados, mas no em escala
muito grande. Por exemplo, Gowtham e Kamat (1995) desenvolveram um prottipo de sistema
de classificao no campo da metalurgia com o emprego da Classificao Decimal Universal
(CDU). Embora muito menos ambicioso e complexo do que o sistema MedIndEx antes descrito,
o prottipo que descrevem funciona de maneira semelhante, pois sugere ao usurio construir
um nmero de classificao que contenha todas as facetas necessrias (tipo de metal,
propriedade, tipo de processo adotado, e assim por diante). Cosgrove e Weimann (1992)
tambm examinam uma abordagem de sistema especialista na utilizao da classificao pela
CDU, porm de uma perspectiva terica. No existe qualquer indcio de que algum sistema,
mesmo em carter experimental, haja sido implementado.
Importantes trabalhos sobre classificao automtica foram realizados no OCLC. O
projeto Scorpion, no GCLC, efetuou experincias com a classificao automtica de pginas da
Rede com o emprego da Classificao Decimal de Dewey (Thompson et al., 1997). A atribuio
baseava-se no cotejo de texto da Rede com as definies textuais dos nmeros de classificao
da CDD, mediante o uso de algoritmos desenvolvidos para utilizao no sistema SMART de
Salton.
Antes, Larson (1992) testou, em pequena escala, a atribuio automtica de nmeros de
classificao da Library of Congresso Seu objetivo era diferente: a atribuio automtica de um
nico nmero a um livro com base nos ttulos e cabealhos de assuntos presentes nos registros
MARC. Assim como no estudo feito pelo GCLC, seu algoritmo ordenava os nmeros de
classificao em ordem de probabilidade de correo. Larson concluiu que talvez no fosse
possvel uma classificao totalmente automtica, mas uma classificao semi-automtica. Isto
, o programa produziria uma lista de nmeros candidatos (os de mais alta pontuao) da qual
o classificador selecionaria o que fosse mais apropriado.
Pesquisas sobre classificao automtica tambm so feitas em campos completamente
diversos. Por exemplo, Bailin et al. (1993) examinaram trabalhos sobre classificao de
componentes de programas de computador (para um repositrio de programas reutilizveis);
afirmam que houve caractersticas de aprendizado, de mquina. Savi (1995) lida com as
possibilidades de classificao automtica de correspondncia administrativa.
Em vrios centros de pesquisa, fora do campo da biblioteconomia, cincia da informao,
tm prosseguimento trabalhos sobre a construo automtica de tesauros. As ferramentas
assim construdas, embora, de fato, possivelmente revelem relaes teis entre termos, so
233
muito menos estruturadas do que os tesauros criados por seres humanos. Encontram-se
exemplos em Gao et al. (1995), Chen et al. (1995) e Lu et al. (1995).
Embora a indexao assistida por computador possua uma longa histria, a redao de
resumos assistida por computador (ao contrrio dos mtodos totalmente automticos) tem
recebido muito pouca ateno. Craven (2000, 2001), no entanto, descreveu um sistema que
gerar automaticamente palavras-chave ou expresses a partir de texto completo e as exibir
em janelas para ajudar quem estiver preparando um resumo para esse texto. As expresses
so escolhidas com base num escore numrico que reflete o nmero de palavras-chave
freqentes na expresso, o tamanho da expresso e o nmero de vezes em que ela ocorre. Os
sujeitos de sua experincia julgaram que as expresses extradas no eram mais teis do que
as palavras-chave na redao dos resumos.
A denominao redao automtica de resumos cedeu lugar denominao
sumarizao de textos. Na realidade, nenhum grupo de pesquisa conseguiu produzir
automaticamente o tipo de resumo que uma pessoa consegue redigir. A sumarizao
automtica ainda uma questo de seleo de frases e o objetivo das pesquisas nesta rea
consiste em otimizar essa seleo (no sentido de escolher as frases que melhor representem o
contedo do texto presente) e organizar as frases selecionadas. (possivelmente modificando-as
mediante alguma forma de fuso) para melhorar a clareza e utilidade do extrato..
A sumarizao pode envolver vrias transformaes do texto para condens10 ainda
mais. Por exemplo, possvel agregar enunciados por meio de anlise sinttica e semntica.
Mani (2001) apresenta o exemplo muito simples de Joo e Maria jantaram juntos e Ento Joo
lhe props casamento que se agregam para formar Joo props casamento a Maria depois do
jantar.
As limitaes dos mtodos atuais de sumarizao foram bem explicadas por Hahn e Mani
(2000):
[...] sua aplicao limita-se extrao - selecionar passagens originais do documento-fonte e
concaten-las de modo que produzam um texto menor. A redao de resumos, em
compensao, parafraseia em termos mais gerais aquilo de que trata o texto.
O mtodo de concatenao para fazer a extrao em pouco contribui para garantir a
coerncia do resumo, o que pode dificultar a leitura do texto. Alm do que, nem sempre a
fonte possui texto - por exemplo, um evento esportivo em videoteipe ou tabelas que
mostram dados econmicos - e as ferramentas atuais no podem resumir mdia no-textual.
Finalmente, essas ferramentas atualmente no trabalham com fontes mltiplas. Por exemplo,
se houvesse muitas notcias na Rede sobre um evento, seria til se o resumidor pudesse
capturar informaes comuns e novas (p. 29).
Os procedimentos empregados por Salton et al. produzem resumos de textos mais longos do
que as abordagens mais convencionais.
Resumos de textos produzidos por essa extrao de pargrafos foram comparados com
resumos produzidos pela extrao feita por seres humanos de pargrafos importantes. Os
pesquisadores consideram aceitveis os processos automticos porque o resumo da resultante
tem tanta probabilidade de coincidir com um resumo extratado por uma pessoa quanto dois
resumos extratados por pessoas tm de estar de acordo um com o outro, embora os processos
automticos saiam muito mais baratos.
McKeown et al. (1995) e Maybury (1995) descrevem atividades altamente especializadas
de sumarizao. Os primeiros geram resumos narrativos de dados armazenados (e no de
texto narrativo) relativos a jogos de basquetebol e atividade de planejamento de redes
telefnicas, enquanto o sistema de Maybury gera resumos textuais de mensagens militares
altamente condensadas e estruturadas (dados de batalha).
Nomoto e Matsumoto (2001) descrevem um mtodo de criao de resumos em que a
diversidade levada em conta na formao do extrato. Isto , so identificados os vrios
tpicos abrangidos pelo texto e selecionada a frase mais representativa para cada tpico.
Saggion e Lapalme (2000) descrevem um mtodo de sumarizao baseado em anlise
seletiva. O mtodo possui duas etapas. Na primeira, um resumo indicativo apresentado ao
usurio (na realidade, apenas uma lista de termos-chave extrados); se o usurio quiser mais,
sero recuperadas e apresentadas a ele passagens importantes ,do texto.
O mtodo usado por Lehmam (1999) baseia-se na seleo de frases que contenham a
maior concentrao de palavras indicadoras de contedo ou expresses como nesta
pesquisa, o mtodo e examinado.
Ainda existe um forte interesse pela preparao automtica de extratos. Por exemplo,
Moens e Dumortier (2000) descrevem procedimentos para produo de extratos de artigos de
revistas de interesse geral. A finalidade desses resumos em realce [high-light abstracts]
despertar suficiente interesse dos leitores que, navegando em linha nos resumos, sentiriam
vontade de ler o artigo inteiro. Eles descrevem as caractersticas almejadas da seguinte forma:
O resumo em realce indicativo do contedo do texto original. Sugere os principais tpicos
do artigo sem entrar em muitos detalhes, o que tornaria suprflua a leitura do texto
completo. O resumo em realce possui uma dimenso adicional. Deve no apenas ser factual
e sugerir de que trata o artigo, mas tambm estimular a aquisio do artigo completo. O
resumo consiste em recortes de texto, isto , frases e enunciados extrados do texto. De
preferncia contm frases curtas e facilmente inteligveis, que no dependam do contexto do
artigo circundante para permitir uma interpretao correta. importante incluir linguagem
conversacional no resumo (por exemplo, frases em discurso direto, perguntas), porque isso o
torna interessante (p. 521).
235
Gong e Liu (2001) referem-se a resumos que se relacionam com determinado assunto
como relevantes para a consulta.
Mani (2001) faz uma reviso de trabalhos sobre vrias formas de sumarizao aplicada a
apresentaes de multimdia, que inclui tanto sumarizao de udio quanto de vdeo. Tambm
possvel usar a sumarizao automtica junto com outros processos automticos, como o
emprego dos resumos produzidos como entrada para categorizao de texto (ver, por exemplo,
Ko1cz et al., 2001).
medida que os mtodos de sumarizao foram se tomando cada vez mais aprimorados,
surgiam aplicaes mais especializadas. Elas incluem sumarizao de multidocumentos e
miniaturizao de textos.
A sumarizao de textos no precisa restringir-se a um nico texto. Na sumarizao
automtica de multidocumentos (Mani, 2001), frases de muitas fontes independentes podem
ser fundidas para formar um resumo. Por exemplo, todas as referncias a determinada pessoa
ou evento podem ser localizadas numa base de dados de textos, e essas referncias
comparadas para eliminar redundncia e fundir o que restar em algumas frases proeminentes.
Schiffman et al. (2001) descrevem um sistema para criar um dossi biogrfico de uma
pessoa mencionada com destaque nos noticirios mediante a extrao de aluses presentes
numa variedade de textos. Selecionar e fundir descries de pessoas, extradas de uma
coleo de documentos, eliminando descries redundantes. Efetua-se um alto nvel de fuso
e sumarizao. Eis um exemplo (o texto sublinhado foi extrado diretamente das fontes; os
conectivos, no sublinhados, so fornecidos pelo sistema):
Henry Hyde is a Republican chairman of House Judiciary Committee and a prosecutor in
Senate impeachment trial. He will lead the Judiciary Committees impeachment review. Hyde
urged his colleagues to heed their consciences, the voice that whisoers in our ear, duty,
duty, duty.1
Este resumo foi criado a partir de uma coleo de 1 300 itens de uma agncia de notcias
(707 000 palavras) que continham 503 frases que mencionavam Hyde.
Outra aplicao da sumarizao a multidocumentos, descrita por Elhadad e McKeown
(2001), refere-se a pronturios mdicos. Os procedimentos que descrevem destinam-se a
examinar as sees de resultados publicadas em artigos de peridicos recuperados numa
busca, localizar o texto dos artigos que paream estar diretamente relacionados com as
informaes constantes do pronturio de um paciente e produzir um resumo relacionado a
esse paciente.
O problema da sumarizao de multidocumentos, bem como vrias possveis
abordagens, examinado por Goldstein et al. (2000) e por Mani (2001).
Atualmente muita ateno vem sendo dedicada sumarizao de textos (por exemplo,
de mensagens de correio eletrnico) destinados a telas muito pequenas, como as de telefones
celulares ou assistentes pessoais digitais. Corston-Oliver (2001) descreve um desses mtodos
ao qual denomina compactao de texto. As tcnicas de compactao incluem seleo de
frases, eliminao de caracteres e pontuao, e a substituio por abreviaturas de palavras por
extenso ou expresses. Assim, uma frase como esta:
The problem of automatic summarization poses a variety of tough challenges in both NL
understanding and generation.
Henry Hyde presidente republicano da Comisso de Justia da Cmara dos Deputados e promotor no processo de
impeachment no Senado. Ele dirigir a reviso do impeachment na Comisso de Justia. Hyde conclamou seus colegas
a ouvir suas conscincias, a voz que sussurra em seu ouvido, dever, dever, dever. (N.T.)
236
desempenho relativo dos vrios resumos foi avaliado com a participao de sujeitos humanos
em tarefas de busca de informao. A combinao de palavra-chave e frase-chave foi a mais
eficaz na concluso da tarefa. Boguraev et al. (2001) tambm trataram da sumarizao
miniaturizada de notcias para dispositivos portteis de mo.
O recente incremento de atividades em torno da sumarizao de textos tambm
acarretou um interesse renovado pelos mtodos de avaliao (ver tambm o captulo 9). Mani
(2001) divide a avaliao de resumos preparados automaticamente em mtodos intrnsecos e
extrnsecos. Os mtodos intrnsecos incluem:
a. utilizar um grupo de rbitros para decidir quais as frases que merecem ser
selecionadas e as que no merecem (concordncia)
b. avaliar a legibilidade do resumo em termos de certos critrios, como extenso da
palavra e da frase e qualidade gramatical; para esse fim podem ser usados rbitros
humanos ou corretores gramaticais e de estilo (qualidade)
c. comparar um resumo preparado automaticamente com um resumo ideal
preparado por seres humanos (informatividade)
d. avaliar um resumo em termos de se capaz de responder um determinado
conjunto de questes; o resumo pode ser comparado com o texto completo para
esta avaliao (mtodo baseado em contedo)
e. avaliar quanto da informao no texto completo preservado no resumo
(fidelidade fonte).
Os mtodos extrnsecos reconhecidos por Mani incluem 1) avaliar o resumo em termos de
sua capacidade de prever corretamente a relevncia do texto completo, 2) avaliar sua
capacidade de permitir a um analista humano classificar corretamente o texto completo, e 3)
avaliao da compreenso da leitura. Mani tambm reconhece o sistema avanado de
avaliao, que envolve a avaliao de resumos no contexto de um sistema totalmente
operacional (por exemplo, em termos de satisfao do usurio).
A sumarizao de textos implica normalmente a extrao de frases, embora sejam
possveis outros tipos de extrao, como a de determinados termos ou tipos de termos, e
talvez a colocao de termos extrados em algum tipo de gabarito. Tomando um exemplo
totalmente hipottico, um sistema poderia monitorar o movimento de executivos de empresas
por meio da anlise de notcias, e a frase:
Joo F. Cruzado, Vice-Presidente de Vendas da ARC durante os ltimos cinco anos,
foi nomeado Vice-Presidente Executivo da XYZ seria reduzida seguinte
estrutura:
Executivo: Joo F. Cruzado
Cargo anterior: Vice-Presidente de Vendas
Empregador anterior: ARC
Novo cargo: Vice-Presidente Executivo
Novo empregador: XYZ
Data: 5 de novembro de 1996 (data da notcia)
Cowie e Lehriert (1996) traam um til panorama sobre a extrao de texto, e Grishman
(1994) examina os problemas envolvidos na avaliao de resultados de trabalhos de extrao.
Shuldberg et al. (1993) oferecem a descrio minuciosa de uma abordagem. Onyshkevych
(1994) e Hobbs e Israel (1994), entre outros, tecem consideraes sobre o projeto de gabarito.
Lawson et al. (1996) consideram este tipo de extrao de dados/preenchimento de gabarito
como uma forma de minerao de dados. Esta denominao, no entanto, aplicada com mais
freqncia a procedimentos e programas que procuram descobrir nos dados (por exemplo,
registros de vendas ou pronturios mdicos) padres e correlaes significativas, sem
instrues sobre o que procurar (ver captulo anterior).
H muitas aplicaes potenciais para esse tipo de extrao de texto e preenchimento de
gabarito (quadro), das quais a mais bvia talvez seja a produo de resumos de notcias atuais.
Haug e Beesley (1992) examinam outra aplicao em que os dados de pronturios de
pacientes podem ser reconhecidos automaticamente, extrados e colocados sob um nmero
limitado de cabealhos (por exemplo, queixas de, paciente nega) para ajudar os
radiologistas na interpretao de radiografias. Paice e Jones (1993) examinam o emprego de
uma abordagem de preenchimento de quadros na construo de resumos automticos. Outra
aplicao especializada do mtodo de gabarito a extrao de citaes bibliogrficas do texto
237
de patentes (Lawson et al., 1996). Humphreys et al. (2000) descrevem o modo como processos
de preenchimento de gabarito podem ser aplicados extrao de determinados dados de
peridicos cientficos.
Os processos modernos de extrao podem identificar textos candidatos (isto , aqueles
cujas palavras-chave indicam alta probabilidade de que o texto conter o tipo de dado a ser
extrado) e pores do texto que sejam bons candidatos para os processos de extrao,
baseados numa combinao de anlise sinttica e semntica. Jacobs e Rau (1990) descrevem
um desses sistemas aplicado extrao de informao sobre fuses de empresas. A extrao
de informao em geral objeto de um livro organizado por Pazienza (1999).
Em algumas situaes de recuperao, um conjunto limitado de caractersticas do texto
pode ser da maior importncia. Por exemplo, datas e nomes (de lugares, pessoas,
organizaes) so especialmente teis em buscas de notcias. Watters e Wang (2000)
descrevem um sistema capaz de extrair das notcias expresses substantivas prprias [name
phrases] e categoriz-las (como local do evento, data do evento, nome pessoal, nome de
instituio). O uso de iniciais maisculas a deixa para identificao das expresses
substantivas prprias. O sistema destina-se recuperao interativa, em tempo real, baseada
num algoritmo de comparao: o usurio com acesso em linha que encontra uma notcia de
interesse pode pedir ao sistema que localize outras notcias que sejam semelhantes a essa. O
sistema experimental pretende ser aplicado na Rede usando como interface os navegadores
comuns da Rede.
Vrios processos foram desenvolvidos na National Library of Medicine (NLM) para
identificao/extrao em textos mdicos. Bodenreider e Zweigenbaum (2000) lidam com a
identificao de nomes prprios, Wilbur et al. (1999) com nomes qumicos, Rindflesch et. al.
(1999) com terminologia de ligao molecular, Rindflesch et al. (2000a) com terminologia de
medicamentos e genes, e Sneiderman et al. (1998) com termos anatmicos. Em muitos casos,
os termos identificados ou extrados so ainda processados (por exemplo, para fazer a ligao
com o Unified Medical Language System (UMLS)). Outros projetos de pesquisa na NLM visam ao
desenvolvimento de ferramentas lingsticas para auxlio nesses tipos de processamento. Por
exemplo, Weeber et al. (2001) lidam com o problema de desambiguao do sentido das
palavras, e McCray et al. (2001) com o uso do sistema unificado de linguagem mdica (UMLS)
na identificao de expresses do texto que meream processamento adicional de linguagem
natural.
Naturalmente, a sumarizao extrativa no funciona bem com certos tipos de texto,
inclusive pginas da Rede, que Berger e Mittal (2000) descrevem como uma mixrdia catica
de expresses, vnculos, elementos grficos e comandos de formatao. Descrevem seu
trabalho no sentido de desenvolver snteses essenciais de pginas da Rede que no sejam
extratos de texto (isto , frases ou pargrafos), mas, sim, concatenaes de palavras, como
(um exemplo real) the music business and industry artists raise awareness rock and jazz [os
artistas comrcio e indstria msica elevam conscincia rock e jazz].
Jones e Paynter (2002) descrevem processos para extrao automtica de palavras-chave
ou expresses-chave do texto dos documentos, com o objetivo de produzir sucedneos que
possam ser usados para pesquisar em extensas tarefas de recuperao de texto na Rede. A
extrao de expresses-chave feita por meio de processos de aprendizado de mquina. O
algoritmo de extrao aprende com um conjunto de textos de treinamento nos quais as
expresses chave j foram atribudas (por exemplo, por seus autores). Com base em avaliao
feita por seres humanos, Jones e Paynter concluem que as expresses extradas segundo seus
procedimentos no eram piores, estatisticamente, do que as apresentadas pelos autores.
Anteriormente, Hui e Goh (1996) fizeram experincias com a gerao automtica de resumos
de artigos de jornais como parte de uma interface de recuperao e filtragem da Rede.
Hoje em dia encontram-se disponveis comercialmente programas para extrao de
vrias formas de dados de stios da Rede. Por exemplo, Ojala (2002) refere-se a um produto
que poder fazer buscas de mudanas na direo de empresas, compra e venda de empresas,
resultados de reestruturao de empresas e outros indcios de mudana nessas organizaes
(entre outras aplicaes).
As aplicaes correlatas ao processamento de texto incluem vinculao de texto,
aumento de texto e gerao de texto.
A vinculao de texto emprega anlises estatsticas e/ou sintticas para identificar
semelhanas entre diferentes passagens do texto, em geral de documentos completamente
diferentes, e assim vincul-los (Salton e Buckley, 1992; Maarek, 1992; Salton et al., 1997). Em
essncia, o mtodo pode ser adotado para produzir automaticamente vnculos de hipertexto. 1
1
Pozzi e Celentano (1993) analisam uma aplicao prtica de vinculao, que inclui correspondncia e outros
documentos administrativos.
238
239
no quantitativo de pessoal necessrio para lidar com perguntas dos consumidores e reduzem a
qualificao do pessoal designado para o servio. Tornaram-se particularmente teis porque
muitos dos problemas ocorrem de modo repetitivo.
Um bom exemplo de um servio de atendimento a clientes, instalado na Compaq
Computer Corporation, descrito por Acorn e Walden (1992), emprega uma verso do sistema
de recuperao SMART desenvolvido por Salton. A utilizao do sistema exemplificada nas
figuras 112 a 115. Os casos que foram tratados no passado (isto , problemas e solues) so
armazenados na forma de descries textuais, embora redigidos de modo sucinto e
padronizado. O atendente que recebe a chamada de um cliente insere um enunciado textual
do problema atual (figura 112). O sistema ento procura casos semelhantes mediante busca
em texto e apresenta 1) uma lista de casos de maior coincidncia e 2) perguntas a serem feitas
ao cliente, a fim de concentrar a busca e assim recuperar o caso e a soluo correta. As
respostas s questes afunilam o alcance da busca embora o consulente possa pesquisar
informaes sobre os casos armazenados (ver figura 113) para complementar as perguntas.
Como resultado desse processo interativo, aos casos na base de dados so atribudos escores
numricos que permitem que sejam ordenados por relevncia provvel. Um escore igualou
superior a 70 indica um caso que tem alta probabilidade de ser relevante.
A figura 114 mostra o exemplo de uma consulta, com perguntas geradas pelo sistema
respondidas pelo cliente e os resultados apresentados como casos em ordem de relevncia
provvel, e a figura 115 mostra o registro final do processo: o problema, as perguntas, o caso
recuperado e a ao recomendada ao cliente. Os casos que no so resolvidos so analisados
posteriormente por especialistas o que leva a novas adies base de dados.
Os servios de atendimento a clientes normalmente baseiam-se em interao que
envolve o cliente, o representante do cliente e a base de dados. As perguntas geradas pelo
sistema so necessrias para concentrar a busca com maior preciso. Em alguns casos, a
resposta a uma pergunta genrica ( um refrigerador frost-free?) pode restringir as aes
seguintes a determinado segmento da base de dados (Danilewitz e Freiheit, 1991; Hart e
Graham, 1997).
Os servios de atendimento a clientes do tipo acima mencionado funcionam por meio de
raciocnio baseado em casos. Embora o recurso de classificar em ordem de relevncia provvel
no seja novidade, esses sistemas so inditos pelo fato de que se concentram na soluo
mais provvel mediante a gerao de perguntas para o usurio extradas dos prprios casos
(por exemplo, A impressora foi instalada recentemente? J tentou mudar o x? J tentou limpar
o Y?). Os casos neste tipo de base de dados podem ser construdos por autores de bases de
casos e existem no comrcio programas que ajudam nessa tarefa.
240
Apud T. L. Acorn e S.H. Walden. In Scott, A.C.; Klahr, P., ed. Innovative applications of
artificial intelligence 4, p. 3-18. Cambridge, MA, MIT Press, 1992.
Em livro de Moens (2000) encontra-se uma descrio bem completa dos processos
examinados neste captulo (e, em menor extenso, no anterior).
Concluses
A recuperao da informao est implcita em todas as atividades de processamento de
texto j mencionadas. Em termos de complexidade, a recuperao de frases ou pargrafos
situa-se a meio caminho entre a recuperao de referncias bibliogrficas (tpica da maioria
das buscas em linha feitas em bibliotecas) e a recuperao de respostas reais a perguntas
reais. Croft e Turtle (1992) asseguram que melhoramentos importantes na recuperao
241
Figura 114 Casos com ordenao mais alta selecionados com base em
consulta crtica e respostas dos clientes s perguntas
Apud T. L. Acorn e S.H. Walden. In Scott, A.C.; Klahr, P., ed. Innovative applications of
artificial intelligence 4, p. 3-18. Cambridge, MA, MIT Press, 1992.
Em algumas aplicaes de processamento de texto o computador deve distinguir entre componentes lgicos do
documento (por exemplo, ttulo, resumo, texto principal, notas de rodap, tabelas, figuras) e identificar relaes entre
eles (como, por exemplo, a ordem de leitura). Isso foi designado, um tanto pomposamente, compreenso do
documento (ver, por exemplo, Semeraro et al., 1994, e Proceedings ofthe Third International Conference, 1995).
242
Hobbs et al. (1992) afirmam que o objetivo final desenvolver um sistema que:
[...] recuperar todas as informaes que estejam, implcita ou explicitamente, presentes no
texto, e concretizar isso sem cometer erros. Este modelo ainda est muito alm do estado
atual da tecnologia. Trata-se de uma meta incrivelmente alta para seres humanos, quanto
mais para mquinas (p. 13-14).
Vale a pena observar que os pesquisadores modernos da rea de processamento de texto empregam as mesmas
medidas - revocao e preciso - que foram descritas pela primeira vez na literatura de recuperao da informao na
dcada de 1950.
243
Uma ferramenta desse tipo aprende com um corpus de texto de treinamento. Por exemplo, dado um conjunto
representativo de extratos de textos que sabidamente tratam do tpico x, ela construir um dicionrio capaz de
selecionar, a partir de um novo corpus de textos, frases sobre o tpico x.
244
Note-se que estavam se referindo aos simples mtodos booleanos de busca usados em
bases de dados indexadas (por exemplo, MEDLINE) ou de texto completo (por exemplo, NEXIS)
e no s abordagens mais complexas de sadas ordenadas por relevncia provvel.
Jacobs (1992a) identificou vrios desafios que se colocam hoje para os pesquisadores na
rea de processamento de texto: tornar os sistemas mais robustos (maior exatido, mais
rpidos, mais baratos na anlise lingstica), recursos de refinamento (por exemplo, passar de
1
Em exerccios mais convencionais de recuperao, os mtodos modernos de buscas em texto nem mesmo alcanam
o nvel 50/50 de desempenho quando esto envolvidas bases de dados muito maiores (centenas de milhares de itens)
(Harman, 1997; Sparck Jones, 1995).
245
Alguns autores cometem o erro de afirmar que os tipos de processamento automtico de texto analisados neste
captulo (por exemplo, atividades de extrao) constituem compreenso automtica de texto (ver, por exemplo,
Moens et al. (1999). Nada estaria to longe da verdade.
246
Encontrados na prpria Rede. Este captulo limitar-se- a questes da Rede que sejam
mais pertinentes aos temas da indexao e redao de resumos.
Da perspectiva da recuperao, os recursos informacionais acessveis na Rede so
muitssimo diferentes dos registros bibliogrficos do sistema convencional da figura 1 no
comeo do livro. Entretanto, h certas semelhanas. Os stios da Rede tm diferentes
elementos pesquisveis: URL, nome do stio, quaisquer metadados includos no stio, pginas
de contedo (onde os termos que ali ocorrem podem ser considerados um tanto anlogos aos
termos de indexao de registros bibliogrficos convencionais) e todo o texto encontrado no
stio.
Esses elementos pesquisveis apresentam de fato algumas semelhanas com os
diferentes elementos pesquisveis em registros presentes numa base de dados bibliogrficos:
ttulo, nmeros de classificao (s vezes), termos de indexao, texto de resumo (embora a
quantidade de texto no stio da Rede possa ser consideravelmente maior). Os stios da Rede
diferem da maioria dos registros bibliogrficos pelo fato de que podem tambm conter
apontadores (vnculos de hipertexto) para outros stios, onde os termos dos vnculos so
tambm pesquisveis. Neste sentido, um stio no uma unidade independente (como um
registro bibliogrfico comum), mas um n de uma rede.
Lynch (2001) chamou ateno para uma diferena importante entre uma base de dados
bibliogrficos, como o MEDLINE, e o conjunto de stios que formam a Rede Mundial. As
organizaes produtoras de bases de dados bibliogrficos so neutras em face dos registros
que processam. Os sucedneos que desenvolvem - resumos e termos de indexao - destinamse a representar de modo exato e imparcial os documentos. Por outro lado, muitos stios foram
criados por empresas que almejam que sua pgina seja recuperada e no a produzida pelo
concorrente. H dois modos de fazer isso: o index spamming [saturao de ndice] e o page
jacking [seqestro de pgina] (ver adiante).
Servios de busca na Rede
Hock (2001) nos d uma clara viso global da Rede como um sistema de recuperao de
informao:
Para o que nos interessa, um mecanismo de busca um servio oferecido por intermdio da
Rede Mundial que permite ao usurio dar entrada a uma consulta e fazer buscas numa base
de dados que abrange uma poro bastante substancial do contedo da Rede. Para ser um
pouco mais especfico, um mecanismo de busca permite ao usurio ingressar com um ou
mais termos, e qualificadores opcionais, a fim de localizar pginas de interesse na Rede. O
termo quase intercambivel com servios de busca na Rede, que [...] normalmente se
refere mais ao stio como um todo, e que por sua vez pode fornecer o mecanismo de busca
como uma de mltiplas opes. O mecanismo de busca pode at ser apenas uma oferta num
conjunto de ofertas que juntas visam a oferecer ao usurio um lugar geral de partida ou um
portal da Rede (p. xxii).
Pode-se visualizar o prprio mecanismo de busca como se fosse composto de cinco partes
principais funcionais: 1) os crawlers do mecanismo, que saem em busca de stios e pginas
da Rede; 2) a base de dados de informaes reunidas sobre essas e outras pginas que
hajam sido reunidas a partir de outras fontes; 3) o programa de indexao, que indexa o
contedo da base de dados; 4) o mecanismo de recuperao, o algoritmo e programao
respectiva, dispositivos, etc., que, a pedido, recuperem material do ndice/base de dados; 5)
247
a interface grfica (HTML), que rene dados da consulta do usurio para alimentar o
mecanismo de recuperao (p. 6).
Crawlers ou spiders so programas que percorrem a Rede para 1) identificar novos stios que
sero acrescentados ao mecanismo de busca e 2) identificar stios j cobertos, mas que
tenham sofrido mudanas. Os crawlers coletam informaes sobre o contedo das pginas
de stios e alimentam a base de dados do mecanismo de busca com essas informaes (p. 6).
O conjunto total de informaes armazenadas sobre todas as pginas da Rede constitui a
base de dados do mecanismo de busca. Esse conjunto inclui pginas identificadas por
crawlers, mas, cada vez mais, inclui tambm pginas identificadas por outras fontes ou
tcnicas. Um nmero muito grande de stios acrescentados aos mecanismos de busca tem
origem em solicitaes feitas diretamente pelos editores de pginas da Rede (p. 7).
Em termos de quais pginas sero realmente recuperadas por uma consulta, a indexao
pode at ser mais crtica do que o processo dos crawlers. O programa de indexao examina
as informaes armazenadas na base de dados e cria as entradas apropriadas no ndice.
Quando se submete uma consulta, esse ndice que usado a fim de identificar registros
coincidentes.
A maioria dos mecanismos de busca afirma que indexa todas as palavras de toda pgina. O
logro est no que os mecanismos escolhem para considerar palavra. Alguns trabalham com
uma lista de palavras proibidas [...] que no so indexadas (p. 8). Todos os principais
mecanismos indexam os campos de alto valor, como ttulo e URL. Comumente, mas nem
sempre, indexam-se as metaetiquetas [metatags], que so palavras, expresses ou frases
colocadas numa parte especial do cdigo HTML (Hypertext Markup Language) como forma de
descrever o contedo da pgina. As metaetiquetas no aparecem ao se visualizar uma
pgina, embora se possa v-las, caso se queira, pedindo ao navegador para mostrar a
pgina-fonte. [...] Alguns mecanismos, porm, propositalmente, no indexam algumas
metaetiquetas porque eles so a parte da pgina que mais suscetvel de violao pelos
spammers. Esta cautela adotada em detrimento da indexao de informaes
extremamente teis (p. 8-9)
O estudo de Hert et al. (2000) um dos poucos que analisam um stio da Rede de uma
perspectiva de indexao. Os pesquisadores desenvolveram trs abordagens alternativas para
a indexao realmente utilizada num stio existente e as compararam por meio de buscas
feitas por 20 estudantes universitrios. As comparaes foram feitas com base tanto na
eficcia da recuperao quanto das preferncias dos usurios.
Embora vrios mecanismos de busca aleguem possuir atualmente bases de dados com
mais de 200 milhes de registros, nenhum desses mecanismos consegue abarcar todos os
stios da Rede. Lawrence e Giles (1999) estimaram que a cobertura no passava de 16% no
caso do mecanismo mais exaustivo, e muitos cobriam apenas 10% ou menos. Alm disso,
relataram que a cobertura parecia estar diminuindo com o passar dos anos. Quer dizer, a Rede
estava crescendo numa velocidade mais rpida do que os mecanismos de busca podiam
suportar.
Recursos de recuperao
Embora o usurio comum da internet provavelmente faa suas buscas inserindo uma
seqncia simples de termos (que diferentes mecanismos de busca trataro de modo
diferente) - alguns colocando os termos numa relao OU, outros numa relao E), esses
mecanismos podem na realidade oferecer vrias opes mais avanadas - como o emprego de:
1. Lgica booleana, inclusive recursos de encaixamento [nesting]
2. Truncamento
3. Buscas com expresses
4. Proximidade de palavras
5. Buscas em campos (isto , poder limitar a busca a um campo especificado no registro,
como ttulo ou URL)
248
Outros autores so mais crticos acerca dos recursos de busca na Rede. Wheatley e
Armstrong (1997), por exemplo, expem assim a situao:
No corpo de uma pgina da Rede, no h a possibilidade de dados em campos definidos, e
por isso impossvel [...] limitar as buscas a [...] partes da pgina. Portanto, uma busca
descobrir o(s) termo(s) de busca com igual facilidade no ltimo pargrafo, em nota de
249
rodap explicativa ou em material existente perto do alto da pgina. Com o advento dos
metadados, torna-se [...] [possvel] uma abordagem levemente diferente [...] Mas, como os
metadados no so exibidos e em geral inexiste editora ou autoridade que imponha limites,
fcil ocorrer abuso de palavras-chave e pares de termos descritivos e recheados de termos
destinados a dar-lhes alta relevncia aparente ou localizao freqente [...] Inexiste, at hoje,
norma para atribuio de rtulos a recursos em rede, e, embora continuem os estudos sobre
metadados, seu uso efetivo na rea superior de pginas da Rede ainda raro e incoerente (p.
206).
Entretanto, desde que isso a em cima foi escrito, em certa medida as coisas melhoraram,
tanto na questo dos campos quanto dos metadados.
Naturalmente, diferentes mecanismos de buscas produziro resultados diferentes para a
mesma consulta por causa de diferenas de cobertura, de algoritmos de busca e critrios de
ordenao. Muitas comparaes de desempenho surgiram na literatura nos ltimos anos,
remontando a 1995, mas so de valor limitado devido situao de constante mudana da
prpria Rede.
Comparaes avaliatrias cotejam resultados de buscas somente com base na
duplicao/unicidade ou tentam estabelecer a relevncia dos itens recuperados. Leighton e
Srivastava (2000) e Su e Chen (1999) so exemplos do ltimo caso. Jansen e Pooch (2001)
fazem uma reviso de estudos anteriores. Outras avaliaes foram feitas com objetivos
especiais. Thelwall (2001) compara os mecanismos de busca em relao a seu emprego
potencial em aplicaes de minerao de dados, que ele parece definir como a agregao de
informaes oriundas de grande nmero de pginas da Rede, para criar conhecimento novo.
Oppenheim et al. (2000) fazem excelente reviso de avaliaes de mecanismos de busca
feitas anteriormente. Recomendam o desenvolvimento de um conjunto normalizado de
procedimentos para essas avaliaes, de modo que sejam feitas comparaes de mecanismos
de busca de modo mais eficaz, e que sejam rastreadas as variaes de desempenho de
qualquer mecanismo de busca ao longo do tempo.
Em certa medida, possvel compensar os recursos entre os mecanismos de busca por
meio do emprego de mecanismos de metabusca, servios que fazem buscas em vrios
mecanismos de busca, e em seguida agrupam os resultados. Segundo Hock (2001), existem
hoje mais de 100 mecanismos de metabusca em uso. Hock claro quanto s suas limitaes:
Em particular, se houver mais de um punhado de stios relevantes para encontrar nos
mecanismos de busca, os mecanismos de metabusca freqentemente no encontraro a
maioria deles. Isso causado por vrios fatores, inclusive os limites impostos pelo servio ao
nmero de registros recuperados em cada mecanismo, limites de tempo quando o servio de
metabusca simplesmente interrompe a busca num mecanismo se demorar muito,
incapacidade de traduzir adequadamente a consulta para a sintaxe especfica exigida pelo
mecanismo-alvo, e outros fatores. Felizmente, alguns mecanismos de metabusca realmente
conseguem captar todos os registros que ali existam (mas tm outros inconvenientes).
Os trs principais pontos fracos dos mecanismos de metabusca so: 1) muitas vezes limitam
estritamente o nmero de registros que recuperaro de cada mecanismo (s vezes no mais
de dez); 2) muitas vezes no repassam aos mecanismos consultas que tenham um mnimo
de complexidade; e 3) na maioria dos casos, s fazem buscas em dois ou trs dos maiores
mecanismos de busca [...]
Na maioria, os mecanismos de metabusca diferem entre si nos seguintes aspectos:
Os mecanismos de busca especficos que abrangem
O nmero de mecanismos de busca que podem ser pesquisados por vez A capacidade
de repassar consultas mais complexas - como as que incluem expresses, enunciados
booleanos, etc. - para os mecanismos de busca alvos
Limites quanto ao nmero de registros que podem recuperar de cada mecanismo (que
pode chegar a ser no mximo 10)
O tempo que esto dispostos a gastar na busca em cada mecanismo (antes de
interromper a sesso por decurso de tempo)
Como a sada apresentada, inclusive se eliminaram ou no registros certos
encontrados em duplicata nos vrios mecanismos (p. 186-187).
Hock salienta que os mecanismos de metabusca so mais teis quando se procura algo
obscuro, isto , assuntos sobre os quais provavelmente h muito poucos stios que tenham
algo a oferecer.
No incio do captulo, fez-se uma distino entre os recursos da Rede e as bases de dados
bibliogrficos tradicionais. Naturalmente, muitas dessas bases de dados esto disponveis na
250
Rede. Embora uma base de dados como o MEDLINE possa ser localizada e nela serem feitas
buscas, seu contedo no includo nos resultados apresentados por nenhum dos mecanismos
de busca, aspecto que foi explicitado por Zich (1998):
A busca de informaes na Rede padece de duas deficincias debilitantes - o processo de
buscas superficial e limitado. superficial porque os mecanismos de busca chegam
somente at ao que chamo de documentos de primeiro nvel, isto , documentos que
residem em servidores em HTML. H um mundo de informaes adicionais alm desse ponto.
Refiro-me a informaes em catlogos de bibliotecas e outros arquivos de dados a que a
Rede oferece acesso. O catlogo da Library of Congress, por exemplo, nunca pesquisado
por nenhum dos mecanismos de buscas. Milhes de informaes, meticulosamente
organizadas e rigorosamente autenticadas, que ali jazem e esto disponveis continuam
inexplorados por esses mecanismos. As descries dos materiais em formato digital do
programa American Memory, da Library of Congress, e os prprios materiais digitalizadoscentenas de milhares de fotografias, sons e documentos textuais baseados em imagem - no
aparecem nos resultados das buscas feitas por tais mecanismos, e tampouco materiais e
arquivos semelhantes de uma mriade de outras instituies. Os atuais mecanismos de
buscas arranham a superfcie do contedo da Rede (p. 107).
Metadados
O termo metadados possui vrias definies possveis. Cleveland e Cleveland (2001)
lidam assim com essa questo:
Repetidamente, definem-se metadados como dados sobre dados. Ainda que necessria, no
uma definio suficiente. Metadados quer dizer dados sobre dados que so estruturados
para descrever um objeto ou recurso de informao. Caracterizam dados de fontes e
descrevem suas relaes. Autores de recursos, editoras, bibliotecrios e outros profissionais
da informao podem criar metadados. Podem estar incorporados ao recurso ou mantidos
em repositrios separados de metadados (p. 223).
os dados relativos ao contedo (assunto) do documento. claro que este livro diz mais respeito
aos metadados de contedo.
Outra distino foi feita por ONeill et al. (2001). Os tipos de metadados que estes autores
reconhecem so: aquilo que explicitamente fornecido pelo autor do documento da Rede, e
aquilo que proporcionado automaticamente pelo editor de HTML com que o documento
criado. Com base numa amostra de registros da Rede, colhida em junho de 1998, concluem:
Os resultados [...] sugerem que a utilizao de metadados bastante comum em
documentos da Rede. No entanto, vrias ressalvas devem ser feitas a essa concluso.
Primeiro, evidente que grande parte do uso atual dos metadados pode ser atribudo
gerao automtica de metaetiquetas pelos editores de HTML. No est claro que essa
espcie de metadado seja particularmente til para facilitar a descoberta e a descrio de
recursos. Segundo, com freqncia os metadados so usados para descrever apenas o
prprio stio, ou, no mximo, um pequeno subconjunto dos documentos do stio. Os atuais
padres de uso dos metadados esto muito distantes da descrio exaustiva do documento
em nvel de pgina. Finalmente, a maior parte da utilizao dos metadados ainda
casustica; com poucas excees, a maior parte dos stios no obedece a um conjunto bemdefinido de elementos de metadados (p. 374).
Constatou-se que cerca de 17% da amostra dos stios continham palavras-chave. Porm,
no eram necessariamente termos muito teis para recuperao:
A caracterstica mais notvel foi que as palavras-chave, embora normalmente pertinentes, de
algum modo, ao contedo do stio, eram, no obstante, muitas vezes extremamente
genricas. Por exemplo, o stio de uma universidade na Rede teria educao como palavrachave, ou um provedor da internet usaria Rede como palavra-chave. A utilizao de
palavras-chave dessa maneira sugere que a finalidade dos metadados aumentar ao
mximo as possibilidades de a relevncia do stio ser percebida nas consultas feitas pelos
mecanismos de buscas, ao invs de ajudar no descobrimento do stio por si mesmo ou como
membro de um conjunto relativamente pequeno de resultados de consultas de busca.
Naturalmente, a generalidade de algumas dessas palavras-chave pode ser atenuada pela
combinao de duas ou mais de duas numa consulta de busca. Alm disso, no
necessariamente o caso de terem sido escolhidas palavras-chave no-especficas para
aumentar a probabilidade de recuperao no stio. provvel que, em alguns casos, o uso de
termos extremamente gerais seja simplesmente o resultado de uma prtica de indexao
ruim (p. 366).
A importncia dos metadados para arquivos digitais de vdeo foi analisada por Wactlar e
Christel (2002).
Drott (2002) estudou a extenso com que os stios de grandes empresas na Rede incluem
recursos auxiliares de indexao (isto , auxlios no texto para orientar os robs sobre o que
procurar para fins de indexao). Ele examinou tanto os auxlios positivos (metaetiquetas
incorporadas que identificam palavras-chave ou descrio no texto) e negativos (uso de um
arquivo robots.txt que pode impedir que um rob indexe uma parte de um stio da Rede). Entre
2000 e 2002 ele detectou um aumento no emprego de metaetiquetas.
Alguns autores tm chamado ateno para o fato de que os metadados tanto podem ter
desvantagens quanto vantagens. DeRuiter (2002) um deles:
Para orientar mecanismos de busca sem confundir as pessoas, certas informaes foram
colocadas em metaetiquetas que no so imediatamente visveis na apresentao de uma
tela na Rede. Comprovou-se que isso era uma vantagem discutvel. Por um lado, um
mecanismo de busca pode encontrar a informao com eficincia, mas, por outro lado,
muitas vezes no fica claro para os usurios por que uma pgina apareceu na busca (p. 205).
Craven (2001a) examinou a estabilidade dos metadados na Rede. Ele asssim resumiu os
resultados que obteve:
Quatro conjuntos de pginas da Rede anteriormente visitadas no vero de 2000 foram
revisitadas um ano depois. De 707 pginas que, no ano de 2000, continham descries de
metaetiquetas, 586 permaneciam com essas descries em 2001, e, de 1 230 pginas que
careciam de descries em 2000, 101 possuam descries em 2001. Nas pginas de
252
abertura [home pages] parecia que tanto havia perdas quanto mudanas das descries,
mais do que nas outras pginas, com cerca de 19% das descries modificadas nos dois
conjuntos em que as pginas de abertura predominavam versus cerca de 12% nos outros
dois conjuntos (p. 1).
Em estudo relacionado a esse (Craven, 2001 b), ele examinou a aparncia das
descries (essencialmente um tipo de resumo) em metadados da Rede. assim que ele
descreve os resultados alcanados:
Amostras aleatrias de 1872 pginas da Rede registradas no Yahoo! e 1638 pginas
localizveis a partir de pginas registradas no Yahoo! foram analisadas quanto ao uso de
metaetiquetas, especialmente as que continham descries. Setecentas e vinte e sete
(38,8%) das pginas registradas no Yahoo! e 442 (27,0%) das outras pginas incluam
descries em metaetiquetas. Algumas das descries excediam grandemente as diretrizes
usuais relativas extenso de 150 ou 200 caracteres. Um nmero relativamente pequeno
(10% das pginas registradas e 7% das demais) duplicavam exatamente a redao
encontrada no texto visvel; a maioria repetia algumas palavras e expresses. Ao contrrio
das orientaes documentadas dadas aos redatores de pginas da Rede, era menos provvel
que as pginas com menos texto visvel tivessem descries. Era mais provvel que as
palavras-chave aparecessem mais perto do comeo de uma descrio do que mais perto do
fim. Eram mais comuns sintagmas nominais do que frases completas, especialmente em
pginas no-registradas (p. 1).
253
nada dessa espcie, alguns mecanismos de busca usaro as primeiras linhas do prprio texto
como uma espcie de resumo.
Alguns dos servios de busca constroem primeiro resumos para os recursos que
encontram e, em seguida, tornam pesquisveis as palavras do resumo ou extraem palavras do
resumo e no do texto completo. No entanto, as empresas nisso envolvidas costumam no ser
muito informativas sobre como realmente funcionam seus processos automticos de
elaborao de resumos.
Wheatley e Armstrong (1997) salientaram que os recursos acessveis na Rede podem
exigir uma abordagem algo diferente da elaborao de resumos, em especial porque
provavelmente se refiram a colees de textos (ou, com efeito, imagens) e no itens
individuais:
Um resumo da internet ideal incluiria, por exemplo, orientao ao usurio, avaliao da
autoridade, anlise de atributos fsicos (o design do stio ou a facilidade de navegao), juzos
de qualidade, ou apontadores para fontes alternativas (p. 212).
254
pedindo e a mquina para a qual a requisio enviada), e o servidor da Rede pode ser
programado para responder de modo diferente a solicitaes idnticas de diferentes origens.
Os motivos para isso podem ser bastante generosos; por exemplo, alguns servidores
oferecem pginas que so ajustadas, para indexar eficientemente, com os algoritmos de
indexao usados por diferentes crawlers. Outros motivos para reaes sensveis fonte so
mais ativamente maldosos, como a prtica do seqestro de pgina [page jacking]. Um
exemplo tornar mais fcil a visualizao do que se trata. Suponhamos que se tem um
produto X que concorre com o produto Y fabricado por outra empresa. Quando as pessoas
colocassem uma consulta nos mecanismos de busca da Rede perguntando por Y, sua
vontade seria que o mecanismo de busca, ao contrrio, respondesse com o envio de sua
pgina com o anncio de x. Voc leva uma cpia da pgina para Y e fornece isso ao servio
de indexao da Rede, mas quando um usurio (ao contrrio do servio de indexao, clica
no URL, voc envia a pgina de seu produto X ao invs da pgina copiada para Y. A
concorrncia no o nico motivo; por exemplo, talvez voc quisesse garantir que as
pginas de uma organizao de que voc no gosta fossem devolvidas em resposta a
pedidos de material de sexo explcito. O seqestro de pginas definido, geralmente, como o
fornecimento arbitrrio de documentos com entradas de ndice arbitrrias e independentes.
claro que constitui um problema enorme a construo de sistemas de recuperao .de
informao capazes de fazer face a esse ambiente, e os crawlers da Rede esto comeando a
integrar uma grande variedade de controles de validade (como examinar redes de vnculos
entre pginas e stios) na tentativa de identificar e filtrar tentativas provveis de seqestro
de pginas (p. 13-14).
realizar
Portais
Embora bases de dados bibliogrficos, como as da National Library of Medicine, estejam
acessveis na internet, a grande maioria dos recursos da Rede no est indexada no sentido
com que a palavra empregada neste livro, isto , pela atribuio de termos, feita por seres
humanos ou computador, talvez extrados de um vocabulrio controlado. No obstante,
bibliotecas especializadas e centros de informao podem oferecer um servio importante com
a identificao dos recursos da Rede de maior relevncia e utilidade para seus usurios,
indexando de alguma forma esses recursos, e desenvolvendo um gateway que proporcione
acesso a eles por meio dos elementos de metadados. Vrios desses gateways ou portais so
descritos e exemplificados em Wells et al. (1999), que a eles se referem como bibliotecas
virtuais.
Um gateway ou portal tpico dessa categoria o EEVL, que constitui um empreendimento
conjunto de vrias universidades do Reino Unido. Segundo Breaks e Guyon (1999), trata-se de:
257
[...] um gateway para stios da internet, de qualidade, sobre engenharia [...] [que] tem por
objetivo permitir que professores, pesquisadores e estudantes de engenharia no Reino Unido
utilizem melhor os recursos disponveis na internet graas melhoria do acesso a tais
recursos. Alcanamos isso por um processo de identificao, filtragem, descrio,
classificao e indexao de stios de qualidade antes que sejam acrescentados a uma base
de dados livremente disponvel na Rede Mundial (p. 76).
A base de dados contm descries pesquisveis e vnculos com stios da internet que
tenham interesse. Os recursos so categorizados com um esquema de classificao
especialmente desenvolvido para tal fim. A sigla EEVL (<http://www.eevl.ac.uk/>)
originalmente significava Edinburgh Engineering Virtual Library. Posteriormente foi renomeada
Enhanced and Evaluated Virtual Library quando seu campo de ao foi ampliado para incluir
matemtica e informtica. Em 21/9/2002, a EEVL proporcionava acesso a mais de 9 000 stios.
Um portal parecido o Agriculture Network Information Center (AgNIC), mantido pela
National Agricultural Library e vrias outras instituies. O AgNIC (<http://www.agnic.org/>)
proporciona acesso a recursos da Rede em 15 categorias gerais, todas relativas agricultura
em seu sentido mais amplo.
INFOMINE (<http://infomine.ucr.edu/>) descreve-se assim:
[...] uma biblioteca virtual de recursos da internet, relevantes para os corpos docente e
discente e pesquisadores da universidade. Contm recursos teis da internet, tais como
bases de dados, peridicos eletrnicos, livros eletrnicos, quadros de avisos, listas de
endereos, catlogos de bibliotecas [...] em linha, artigos, cadastros de pesquisadores e
muitos outros tipos de informao.
O INFOMINE foi feito por bibliotecrios. Profissionais de universidades e faculdades, como
University of California, Wake Forest University, California State University, The University of
Detroit - Mercy, colaboraram na construo do INFOMINE.
Os portais mencionados neste captulos destinam-se a serem acessados por uma grande
variedade de usurios potenciais. No entanto, so possveis portais mais restritos e
especializados. As bibliotecas podem criar seus prprios portais para recursos da Rede. Hurt e
Potter (2001) do um exemplo:
No campus da Georgia State University, os bibliotecrios de ligao (que tambm so
bibliotecrios de referncia e desenvolvimento de colees) dedicam-se ativamente
identificao e criao de stios na Rede, particularmente em suas especialidades, e
desenvolvem stios sobre vrios temas, que incorporam outros stios bemconceituados. Outro
grupo importante de bibliotecrios muito envolvidos com a Rede so docentes bibliotecrios
de colees especiais e arquivos, muitos dos quais criam arquivos digitais para ampliar o
contedo da biblioteca virtual na Rede (p. 23).
258
Um centro de informao industrial pode desenvolver um portal que aponte para recursos
de maior interesse e utilidade para a empresa e integrar isso com a prpria intranet da
empresa, adotando o mesmo modo de acesso temtico (por exemplo, esquema de
classificao). Ver, por exemplo, Crandall (2000). Bannan (2002) trata do tema dos portais de
empresas, mas, em sua opinio, eles proporcionam acesso a informaes internas, e
possivelmente permitem a pessoas de fora o acesso a recursos selecionados da empresa, ao
invs de gateways para informaes teis (para a empresa) alhures na Rede.
Campbell (2000) descreveu sua viso de um portal de cientistas destinado a:
Promover o desenvolvimento e proporcionar acesso a contedos da mais alta qualidade na
Rede. Facilitaria o acrscimo de material de alta qualidade ao promover padres, fazer
buscas em bases de dados, e oferecer uma variedade de ferramentas de apoio. Com isso,
bibliotecas, empresas e muitas outras organizaes estariam capacitadas a contribuir para
uma biblioteca digital acessvel e distribuda (p. 3)
Embora Campbell no trate diretamente das questes relativas indexao, elas esto
implcitas no reconhecimento de que o portal tambm ofereceria excelentes tesauros
eletrnicos que orientariam, com preciso, os pesquisadores para reas de interesse. A
Association of Research Libraries vem atuando no desenvolvimento dessa idia por intermdio
do Scholars Portal Project (<http://www.arl.org/access /scholarsportal/>). Ver Jackson
(2002) para os avanos nessa rea at meados de 2002.
Em A wre e Wise (2002) encontra-se uma breve reviso de desenvolvimentos recentes
relativos a portais no Reino Unido.
Place (1999) faz uma previso do futuro dos gateways temticos:
Os usurios j podem aproveitar os gateways temticos, que, juntos, descrevem dezenas de
milhares de recursos de alta qualidade na internet. No futuro, os usurios vero os atuais
gateways temticos crescer notavelmente de tamanho, medida que mais bibliotecrios e
profissionais da informao contriburem para eles e medida que solues automatizadas e
humanas para descobrimento de recursos forem integradas. Vero tambm o surgimento de
novos gateways e podero fazer buscas cruzadas simultanea e inconsutilmente em
diferentes gateways.
Tambm no futuro, ser possvel usar perfis de usurios para habilitar os gateways temticos
a fornecer um servio de informao personalizado. Os usurios sero solicitados a inserir
numa base de dados suas preferncias em matria de informao, de modo que os gateways
possam notific-los sobre novos recursos que surjam no catlogo (p. 243:-244).
259
O grande defeito da internet como fonte de informao, fora seu tamanho, est no fato
de que ela carece de qualquer forma de controle de qualidade. O fato de os servios de
informao funcionar com razovel eficincia no mundo do papel impresso deve-se a que
vrias instituies existem para desempenhar a funo de filtro de qualidade. As editoras de
livros e peridicos cientficos adotam processos de reviso/avaliao que so, pelo menos em
certa medida, eficazes para eliminar a maior parte do que imprestvel. Os servios que
editam ndices e resumos proporcionam o nvel seguinte de filtro de qualidade, principalmente
ao escolher os peridicos, sries de relatrios ou outras publicaes que sero analisados
regularmente. Por fim, as bibliotecas, particularmente as que servem s comunidades de
ensino e pesquisa, colocam os filtros mais perto dos usurios reais quando compram materiais
considerados de maior utilidade para esses usurios e quando organizam as colees segundo
nveis de acessibilidade, para que fiquem mais prximos (fisicamente e talvez tambm
intelectualmente) os materiais que mais provavelmente os usurios venham a precisar.
claro que a imensa vastido de recursos mal-organizados que esto acessveis, pelo
menos em sentido terico, na internet, faz com que a construo de filtros eficazes seja uma
proposta intimidadora, tanto para pessoas quanto para instituies. Ademais, do-nos a
certeza de que a situao haver de ficar muito pior (Weld et al., 1995).
Embora muitos documentos da Rede sejam de baixa utilidade, outros podem
simplesmente desaparecer, conforme salientou Missingham. Spinellis (2003) constatou que
cerca de 28% dos URLs referenciados em dois importantes peridicos de cincia da
computao, entre 1995 e 1999, no estavam mais acessveis em 2000, nmero esse que
aumentou para 41% em 2002. O ndice de desaparecimento de documentos da Rede pode,
grosso modo, equivaler ao ndice de obsolescncia da literatura de cincia da computao (isto
, declnio de uso com a idade). No obstante, o fato de itens desaparecerem ou talvez
reaparecerem em outro formato sem referncia ao original no estimula investimento numa
indexao dispendiosa.
Hoje em dia, no parece provvel que a situao catica causada pelo fenmeno do
cada um ser seu prprio editor seja reversvel. Em outras palavras, difcil visualizar a
possibilidade de que algum poderia impor ou imporia normas de qualidade total publicao
ou distribuio atravs de redes. Por conseguinte, a viabilidade de uma vasta rede como
recurso de informao depender da imposio de filtros de qualidade similares aos do mundo
da impresso em papel.
No h dvida que a funo de filtro to importante no ambiente eletrnico quanto o
era num ambiente editorial dominado pela impresso em papel. Como indexao e resumos,
260
E acrescenta:
A razo menos bvia para a existncia de resumos nessas bases de dados est em que se a
busca se limitar ao campo do resumo numa base de dados de textos completos haver
garantia de que ela ser mais precisa do que se for feita em centenas de milhares de
documentos de texto completo (p. 22).
claro que Jacs no est se referindo necessariamente a resumos preparados por seres
humanos, mas a resumos ou extratos preparados automaticamente. De fato, seu artigo passa
em revista programas disponveis comercialmente destinados sumarizao de documentos.
Mani (2001) outro autor que acentuou a importncia da sumarizao:
A exploso da Rede Mundial trouxe consigo um estoque imenso de informaes, em sua
maior parte relativamente no-estruturadas. Isso fez surgir a demanda por novas maneiras
de gerenciar esse corpo bastante sobrecarregado de informaes dinamicamente
cambiantes. Em tal ambiente, parece indispensvel alguma forma de sumarizao
automtica. Usurios da Rede, fontes de informao em linha e novos dispositivos mveis,
alm da necessidade da gesto do conhecimento pelas empresas, vm exercendo presso
crescente em prol de avanos da tecnologia na questo da sumarizao. Empresas
comerciais passam cada vez mais a oferecer recursos de sumarizao de textos, muitas
vezes integrados com ferramentas de recuperao da informao (p. 529).
261
agravado pela falta de uma noo clara por parte da maioria dos consulentes sobre o que
que os diversos mecanismos de buscas na realidade fazem quando realizam uma busca. De
modo que a origem real dos problemas que ocorrem nas buscas feitas em fontes distribudas
em linha ou na internet no est nos problemas tcnicos de indexao, mas na facilidade de
acesso proporcionado por servios em linha e a Rede Mundial a informaes selecionadas,
estruturadas e indexadas para um grupo de usurios (que possuem um conjunto de
caractersticas e necessidades de informao) por espcies de usurios totalmente diferentes
com caractersticas e necessidades totalmente diferentes.
natural que isso venha a exacerbar problemas existentes em relao coincidncia de
conceitos entre indexador e usurio, pois os usurios encontram muitos arquivos ou stios
diferentes, com caractersticas, prticas de indexao e vocabulrios diferentes, nenhum dos
quais, com certeza, poder satisfazer a todas ou mesmo algumas das necessidades de um
usurio ou grupo de usurios potenciais. Essa uma questo importante, pois os usurios
mais distantes so, no que concerne a caractersticas e necessidades de informao, dentre
os tipos de usurios imaginados e levados em conta pelos que criam ou indexam uma base
de dados, os que mais provavelmente tero problemas em acessar informaes relevantes
dessa base de dados. O problema a indexao para o usurio desconhecido (p. 44).
Essa situao fluida gera confuso em pessoas habituadas ao ambiente bastante slido e
permanente da impresso em papel, porm nem sempre apresentar problemas de indexao
e redao de resumos. As mudanas que o autor fizer num texto autorizado exigiro,
naturalmente, algumas alteraes num resumo ou termos de indexao relativos a esse texto
(por exemplo, em portais que apontem para ele). O documento virtual (descrito por Watters)
somente estaria qualificado para ser indexado ou resumido se fosse capturado e armazenado
numa base de dados como um item novo. Do mesmo modo, o documento reagregado (descrito
por Bishop) provavelmente seria um documento informal, que no mereceria os cuidados da
indexao e resumo. A impermanncia dos documentos eletrnicos tem mais probabilidade de
constituir um problema nas intranets de empresas, onde os documentos podem desaparecer
por completo, ser radicalmente alterados ou agregados/desagregados sem qualquer controle.
Abordagens profissionais
Duas importantes abordagens que oferecem acesso intelectual aos recursos mais
importantes da Rede j esto disponveis e foram focalizadas no captulo anterior: a iniciativa
CORC (Cooperative Online Resource Catalog) (renomeada Connexion em 2002) e vrios
portais especializados. Embora a maioria dos portais hajam sido desenvolvidos em reas
acadmicas, a importncia deste tipo de atividade para a biblioteca pblica foi assim realada
por Holt (1995):
[...] o pessoal de biblioteca pblica pode poupar o tempo de seus clientes ao organizar a
massa de informaes eletrnicas disponveis em servidores locais, nacionais e
internacionais [...] [e] pode desenvolver guias eletrnicos que ajudem os consulentes em
meio aos metadados e megaarquivos, em linha, com que lidaro (p. 555-556).
bibliotecas atriburem nmeros de classificao aos recursos da Rede aos quais elas
proporcionam acesso (algumas j o fazem).
Vrios autores (ver, por exemplo, MacDougall, 2000, e Studwell, 2000) insistem no uso de
vocabulrios controlados na indexao de recursos da Rede, porm se mantm vagos quanto
aplicao ou parecem subestimar grandemente os problemas da aplicao.
Anderson e Perez-Carballo (2001) argumentam que o tremendo aumento na quantidade
de texto indexvel, especialmente na Rede, torna essencial uma abordagem seletiva da
indexao por seres humanos:
O que no podemos nos permitir continuar tratando todos os documentos que ingressam
em nossos acervos e bases de dados de recuperao da informao como se fossem
igualmente importantes e merecedores por igual do nosso trabalho especializado de anlise
e indexao. Simplesmente, eles no so, e a continuar assim estaremos desperdiando
nossos preciosos recursos (p. 274).
E, finalmente:
Nosso modelo de indexao da Rede bem que poderia tornar-se um desses modelos de caos
global, ordem local em que a indexao de campos especficos feita pelo autor adequada
dentro de campos limitados, mas ruim para integrar-se em qualquer esquema global de
conhecimento. Este conceito sugere um sistema de indexao de duas camadas em que o
processamento distribudo de metaetiquetas por um grande nmero. de computadores que
rodem programas bastante simples suportado no nvel seguinte por robs de indexao
mais complexa. Esses robs sero projetados no para extrair de cada pgina descries de
contedo especficas, mas para se concentrar na colocao de grupos de pginas ou stios
inteiros em categorias de assuntos especficos e deixando as informaes de contedo para
os criadores das etiquetas (p. 218).
263
perguntaria quais as palavras que teria usado para buscar essa imagem. Essas palavras
seriam ento inseridas no sistema de recuperao, e usurios subseqentes que fizessem
buscas com essas palavras encontrariam a imagem. medida que crescer a quantidade de
pessoas que usarem esse sistema, tambm crescer a quantidade de pontos de acesso para
muitas imagens.
essencial que esses sistemas permitam a realizao de buscas em termos atribudos de
forma oficial, tanto independentemente dos termos contribudos pelos usurios quanto junto
com eles. Podemos ter dois tipos de buscas: uma que somente examina termos atribudos
por catalogadores, e a outra que examina tanto os termos atribudos pelos catalogadores
quanto os termos atribudos pelos usurios. Sistemas desse tipo tambm podero servir
como auxlio aos catalogadores. Pode-se imaginar um sistema em que, de tempos em
tempos, termos contribudos pelos usurios sejam promovidos condio de termos
oficialmente atribudos pelo catalogador (e sero ento recuperveis por ambos os mtodos).
medida que sistemas como esse crescem, os usurios futuros podero querer limitar suas
buscas a termos atribudos por pessoas em quem confiam (talvez porque provenham do
mesmo campo ou porque atribuam termos de modo mais confivel). Portanto, provavelmente
esses sistemas desenvolvero tanto uma caracterstica pesquisvel de propriedade para
cada termo atribudo e um nvel de confiana que o usurio pode definir e que se aplica a
um grupo de proprietrios. O projeto de sistemas como este ter tambm de ser sensvel
privacidade de quem contribui com termos. Os usurios que definem nveis de confiana
para os atribuidores de termos podem localizar essas pessoas por meio de perfis bsicos de
sua especialidade e cargo (mas sem identificao), ou podem.localiz-los ao encontrar
correlaes entre outros atribuidores de termos e como o prprio usurio atribui termos a
outras imagens [...] (p. 24-25).
A indexao de documentos da Rede feita pelos usurios tambm foi defendida por
Villarroel et al. (2002).
Abordagens automticas
Encontram-se disponveis programas que fazem automaticamente a indexao ou
resumos de recursos da Rede. Jacs (2002) avalia alguns programas de sumarizao
disponveis no comrcio, e Reamy (2002) refere-se a programas de autocategorizao (isto ,
que colocam automaticamente os recursos em categorias) e prev importantes avanos nessa
rea no futuro. A situao do desenvolvimento de mtodos automticos foi examinada no
captulo 15.
Concluso
Depois de tudo isso, pode-se concluir que as atividades de indexao e resumos vm
aumentando ao invs de diminuir de importncia, e que os profissionais dessas reas podem
dar uma contribuio substancial seja no nvel de um stio da Rede ou em nveis mais amplos,
como o projeto e implementao de um portal.
Podero tambm desempenhar importantes papis na operao de intranets de
empresas. De fato, Reamy (2002), especialista na rea de gesto do conhecimento, embora
preveja o crescimento da autocategorizao, oferece enftica defesa da necessidade de
profissionais em atividades de acesso intelectual:
As empresas no querem pagar aos bibliotecrios para categorizar seu contedo porque
acham que sai muito caro. Esto erradas, pelo menos quando se computa o tempo que os
funcionrios desperdiam ao tentar em vo encontrar aquele documento de que precisam
para responder aquela pergunta do cliente, sem o que o cliente ir embora em busca de um
concorrente que, ao contrrio, tem a resposta. Apesar disso, muitas empresas ainda no
pagaro para que seres humanos categorizem seu contedo, e mais provvel que estejam
dispostas a pagar entre 250K a 750K por um programa de computador que amide executa
um trabalho menos eficaz (p. 18).
E acrescenta:
Em primeirssimo lugar, a autocategorizao no pode substituir por completo um
bibliotecrio ou arquiteto de informao, embora possa torn-los mais produtivos, poupar seu
tempo e produzir um melhor produto final. O prprio programa, sem uma categorizao
baseada em regras feitas por seres humanos, no pode atualmente chegar a mais de uns
90% de exatido - o que soa muito bem at se perceber que um de cada dez documentos
listados nos resultados de uma busca ou interface de pesquisa estar errado. E, o que mais
264
importante, estar errado por razes inexplicveis - razes que levaro os usurios a perder
confiana no sistema.
Embora seja muito mais rpida do que um categorizador humano e no exija frias nem
plano de sade, a autocategorizao simplesmente ainda no to boa quanto um
categorizador humano. No pode compreender as sutilezas de significado nem sumarizar
como um ser humano porque no comprende coisas como o significado implcito num
documento e porque no leva para a tarefa de categorizao os contextos significativos que
as pessoas levam. Uma coisa que os trabalhos iniciais da IA nos ensinaram que embora a
velocidade seja importante, a velocidade sozinha no pode compensar a faltam de
compreenso do significado (p. 21).
E finalmente:
Ao invs de um risco para os profissionais da informao, a autocategorizao pode, de fato,
no s aprimorar sua capacidade de solucionar problemas de informao do usurio, mas at
elevar seu status para algo prximo do nvel em que deveria estar. No apenas os
bibliotecrios e arquitetos da informao produziro mais e com mais economia, mas tero
software caro relativo a essa tarefa e, como todos sabemos, nas empresas de hoje, a menos
que haja programas caros envolvidos, ningum pensar que voc til.
Bem, est certo, talvez haja um pouco de exagero nisso, mas o programa de
autocategorizao tem o potencial de realar o que j devia estar claro - que o profissional da
informao est empenhado numa atividade fundamental de infra-estrutura. Os profissionais
da informao esto ou deveriam estar envolvidos na criao e manuteno da infraestrutura intelectual de sua instituio. Embora a tecnologia e as infra-estruturas
organizacionais hajam merecido mais ateno e recursos, parte do desequilbrio poderia ser
corrigido com a utilizao e integrao inteligentes de novos programas, novos mtodos de
trabalho tanto com os provedores de contedo quanto com os consumidores de contedo, e
novas formas de apresentar a informao.
Portanto, como concluso, acho ser provvel que a autocategorizao, em ltima anlise,
melhorar tanto o poder quanto o prestgio do profissional da informao (p. 22).
265
Parte 2 Prtica
Captulo 18 Exerccios de indexao
Fazendo que se aprende, seja na indexao e redao de resumos seja em outras
atividades. Os dois ltimos captulos deste livro contm alguns exerccios de indexao e
redao de resumos. Evidentemente, os poucos exerccios que podem ser includos num livro
deste tipo esto longe do que seria suficiente para formar indexadores e resumidores
consumados. Apesar disso, apresentamo-los na esperana de que pelo menos proporcionaro
alguns exemplos concretos dos principais pontos mencionados nos captulos precedentes.
Nas poucas pginas a seguir encontram-se vrios resumos de relatrios ou artigos de
peridicos. Alguns so resumos verdadeiros de publicaes existentes. Outros so de artigos
hipotticos, embora se baseiem em publicaes existentes.
Voc dever indexar cada um desses itens empregando termos do UNBIS thesaurus (New
York, United Nations, Dag Hammarskjld Library, 1995).1 Se assim lhe aprouver, voc poder
primeiro escrever as palavras ou expresses que representem sua anlise conceitual de cada
item e, em seguida, procurar traduzir cada um desses enunciados para um termo ou termos do
tesauro. De qualquer modo, separe seus descritores em descritores principais e secundrios,
sendo os primeiros os termos que voc considera mais importantes para representar o
contedo temtico.
Depois dos resumos voc encontrar nossas sugestes de indexao para cada item, o
que lhe permitir comparar sua indexao com a minha. Lembrese, contudo, que a indexao
um processo algo subjetivo. Embora acredite na minha indexao, no posso garantir que ela
seja correta em sentido absoluto. Incluem-se explicaes sobre por que a indexao foi feita
de determinada forma.
Os itens 6-13 foram publicados originalmente no nmero de janeiro de 1977 de A.I.D.
Research and Development Abstracts e so aqui reproduzidos com permisso do Center for
Development Information and Evaluation, United States Agency for International Development.
Itens a serem indexados
1. O lcool combustvel hoje [Alcohol fuel today] (Baseado em artigo publicado em
Smithsonian, March 1981, p. 44-53)
Descreve as vrias fontes das quais se pode destilar etanol, abrangendo diversos tipos de
produtos e resduos agrcolas, alm de resduos urbanos e lama industrial. Compara os custos
de produo do etanol com os da gasolina, e analisa os problemas inerentes converso da
produo de etanol da fase de usina-piloto produo comercial em larga escala. Examina as
vantagens e desvantagens do gasool, urna mistura de gasolina e lcool combustvel, e estuda
os problemas que devem ser resolvidos para que os carros a lcool se tornem viveis.
2. A eroso e o agricultor.
Descreve como o vento, a chuva e a neve derretida podem erodir valiosas terras de
cultivo, e avalia o volume das perdas agrcolas devidas a essas causas na Europa setentrional.
Examina possveis solues, a saber, a rotao da cultura de gros com a de gramneas
protetoras do solo e o emprego de rvores e terraos como quebra-ventos.
3. A fotografia area e o que ela pode fazer [Aerial photography and what it cando]
(Baseado em artigo publicado em Smithsonian, March 1984, p. 150-155.)
Faz uma reviso dos vrios usos possveis da fotografia area, que abrangem a fotografia
por satlite, a vigilncia militar, o controle do desarmamento, o estudo de stios arqueolgicos,
aplicaes em censos (por exemplo, contagem de domiclios), previso do tempo e inundaes,
e cartografia (fotogrametria).
4. O fim do bordo sacarino? [The end ofthe sugar maple?] (Baseado em artigos
publicados em Blair & Ketchum s Country Journal, March 1986, p. 46-49 e American
Forests, November-December 1987, p. 26-34.)
Uma grande quantidade de rvores de bordo sacarino, no Canad e norte dos Estados
Unidos, ou esto morrendo, ou j morreram, causando uma grave reduo na produo de
acar. Suspeita-se que a principal causa disso seja a chuva cida que provoca o
desfolhamento.
5. Poder um avio voar eternamente? [Can a plane try forever?] (Baseado em artigo
publicado em Newsweek, September 28, 1987, p. 42, 47.)
1
Um substituto parcial deste tesauro, em portugus, o Tesauro SPINES (Braslia: IBICT; Lisboa: JNICT, 1988), onde se
encontram mais de 70% dos descritores das respostas dadas pelo autor. (.T.)
266
que at hoje no foram utilizadas pelo homem sero utilizadas no futuro, e as chamadas
espcies sem valor sero aceitas como espcies comestveis apropriadas ao consumo humano
direto.
11.
A utilizao de alunos monitores e instruo programada pelo rdio: alternativas
viveis na educao. [The use of peer tutoring and programmed radio instruction:
viable alternatives in education] (Hannum, W.H.; Morgan, R.M. 1974, 38p. Florida State
University, College of Education.)
Os educadores de pases em desenvolvimento provavelmente obtero melhores
resultados ao aplicar os princpios e no os equipamentos da tecnologia educacional. J foi
demonstrado que os princpios do ensino programado so eficazes na promoo da
aprendizagem em circunstncias muito variadas. Os materiais instrucionais mais eficazes
podem ser desenvolvidos com a aplicao dos princpios da instruo programada e do
aprendizado com proficincia. O rdio, quando combinado com alunos monitores, pode ser um
instrumento educacional eficaz em pases em desenvolvimento. Os conceitos de ensino
programado e aprendizado com proficincia podem ser incorporados ao projeto de programas
educacionais pelo rdio. Estes, acompanhados por alunos monitores, aperfeioam o esforo
educacional global de modo compatvel com os recursos de muitos pases em
desenvolvimento. Este tipo de sistema educacional uma alternativa vivel educao formal
tradicional. Deveria ser testado em vrios pases em desenvolvimento visando explorao de
todo seu potencial.
12.
Fatores culturais e sociais que influem na participao de pequenos agricultores
em program asform ais de crdito [Cultural and social factors affecting small farmer
participation in formal credit programs] (Gillette, Cynthia; Uphoff, Norman 1973, 40p.
Rural Development Committee, Center for International Studies, Cornell University.)
Este trabalho contm trs pressupostos bsicos que, com uma exceo, constituem seu
tema principal. A exceo a questo da racionalidade econmica, conhecida de todos os
que se interessam pelo desenvolvimento do Terceiro Mundo, mas que vista como justificativa
de uma breve anlise na introduo. A parte II trata do contexto cultural de pequenos
agricultores como tomadores de emprstimo, isto , diversos fatores que influem sobre a
demanda de crdito. Em seguida, a parte III trata do contexto cultural dos programas
creditcios como emprestadores, isto , fatores que condicionam o fornecimento de crdito
disponvel em termos funcionais aos pequenos agricultores. A parte IV mostra vrias
implicaes das partes II e III: o que acontece quando esses dois sistemas culturais interagem
e quais os provveis pontos de dificuldade. A parte V conclui fazendo uma comparao das
diferenas gerais entre fontes de crdito formais e informais.
13.
Desenvolvimento de coberturas de casas de baixo custo a partir de materiais
locais em naes em desenvolvimento; relatrio anual, 1974/1975 [Development of
low-cost roofing from indigenous materials in developing nations; annual report,
1974/1975] (Monsanto Research Corporation, Dayton, Ohio, 1975,335 p.)
Este relatrio examina a segunda fase (maio de 1974 a setembro de 1975) de uma
pesquisa de trs fases, com trs anos e meio de durao, visando obteno de melhores
coberturas de casas para pases em desenvolvimento, mediante a combinao de fibras e
enchimentos locais com aglutinantes de baixo custo. A meta final do programa tornar
disponvel em pelo menos trs pases, cada um deles na Amrica Latina, sia e frica, um
sistema de cobertura de casas que seja econmica e tecnicamente aceitvel e que dependa
menos de divisas estrangeiras do que as alternativas ora existentes. O objetivo do programa
ser demonstrado, em cada um dos pases participantes, com a construo de pelo menos
quatro prottipos de coberturas e a transferncia da tecnologia necessria a instituies
qualificadas. Os pases colaboradores atuais so Jamaica, Filipinas e Gana. A prioridade do
projeto durante a fase III consistiu no desenvolvimento de materiais de cobertura e
estabelecimento do mecanismo de transferncia de tecnologia. Os objetivos predominantes do
desenvolvimento de materiais incluam o estabelecimento de um conjunto generalizado de
critrios para coberturas; definio dos componentes do material composto; determinao dos
conjuntos mais promissores de materiais, processos e produtos; e anlises de custos e
viabilidade dos sistemas propostos. Foram definidos quatro sistemas propostos de material
composto para coberturas que empregam de 70 a 100% de materiais locais. Excepcional como
enchimento o bagao, que o resduo da cana-de-acar. Os principais aglutinantes
propostos incluem borracha natural, resinas fenlicas e termoplsticas comerciais. A cura
acelerada e ao ar livre demonstra a viabilidade dos sistemas propostos. Os objetivos dos
aspectos relativos transferncia de tecnologia incluram a definio de instituies
colaboradoras potenciais e pessoas fsicas na Jamaica, Filipinas e Gana; a formao de
comisses de trabalho, assessoras e tcnicas, em cada um desses pases que participariam do
269
No se encontra no UNBIS o termo ethanol [etanol] do qual se faz remissiva para alcohol
fuels [lcoois combustveis], que parece ser o termo mais pertinente para este item. Se o
termo ethanol existisse no tesauro, ele seria usado, e no alcohol fuels, apesar do ttulo, pois o
resumo indica que o artigo trata exclusivamente de etanol. No confie em demasia nos ttulos;
eles s vezes so enganosos.
O resumo sugere que o artigo d bastante ateno ao gasool, e por isso este termo
tambm empregado na indexao seletiva. O tesauro no contempla a possibilidade de se
expressar a idia de carros a lcool. No entanto, isso se acha implcito com muita nitidez em
gasohol [gasool], de modo que o emprego do termo automobiles [automveis], embora no
seja errado, parece desnecessrio. Se utilizssemos o termo motor fuels [combustveis para
motores] estaramos cometendo um srio engano, porque o artigo trata exclusivamente de
gasool, que um tipo de combustvel para motores, e motor fuels, no UNBIS, um termo
genrico (TG) de uma ordem superior a gasohol.
Na indexao mais exaustiva seria preciso abarcar as outras idias condensadas no
resumo. As fontes do etanol podem ser satisfatoriamente abrangidas por intermdio do termo
crops [produtos agrcolas] junto com diversos termos especficos de waste [resduos]. Uma
vez que se mencionam tipos especficos de resduos, melhor empregar os termos especficos
e no o mais genrico wastes. Para exemplificar, suponhamos que algum estivesse procura
de informaes sobre possveis aplicaes de resduos agrcolas. Este parece ser um item
bastante relevante, porm no seria encontrado se estivesse indexado sob o termo mais
genrico.
O termo municipal wastes [resduos urbanos] no existe no UNBIS, mas como resduos
urbanos so, em geral, resduos domsticos (ver nota explicativa em domestic wastes no
UNBIS), deve-se, por isso, empregar resduos domsticos. Se o artigo der muita ateno ao
aspecto resduos, um termo adequado parece ser waste utilization [utilizao de resduos].
Refuse derived fuels [combustveis derivados do lixo] , com certeza, um termo apropriado.
Considerando que se comparam os custos do etanol e da gasolina, o termo gasoline
deveria ser includo na indexao exaustiva. Production costs [custos de produo] certamente
sim.
Os termos do UNBIS no permitem que se expresse com preciso a idia de ampliar a
produo da escala de usina-piloto para a escala comercial. O termo mais pertinente parece
ser pilot projects [projetos-piloto].
270
Aqui, o termo fundamental soil erosion [eroso do solo]. Soil conservation [conservao
do solo] o termo que, isoladamente, melhor abrange possveis solues. Deficincias do
tesauro UNBIS dificultam a indexao exaustiva. Rain [chuva], snow [neve] e wind [vento] so
termos apropriados e necessrios, caso algum precise fazer uma busca de artigos
especificamente sobre eroso do solo provocada por chuva, neve ou vento. Quanto s solues
especficas analisadas, crop rotation [rotao de culturas] e windbreaks [quebra-ventos] so
apropriados.
No UNBIS no se pode expressar a idia de perdas agrcolas, porm crop yields
[produo agrcola] suficientemente aproximado para merecer ser atribudo (isto , o efeito
da eroso sobre a produo). O termo Northern Europe [Europa setentrional] no existe no
UNBIS (embora exista Southern Europe! [Europa meridional]), por isso o termo Europe deve ser
atribudo. Isso exemplifica um aspecto importante: se o termo exato de que se necessita no
existe no tesauro, utiliza-se o termo mais especfico que o tesauro permite.
3. A fotografia area e o que ela pode fazer
Aerial photography* [fotografia area]
Aerial photogrammetry [aerofotogrametria]
Image analysis [anlise de imagens]
Aerial surveys* [levantamentos areos] Hydrographic surveys [levantamentos hidrogrficos]
Flood control [controle de inundaes]
Military reconnaissance [reconhecimento militar] Satellite monitoring [monitoramento por
satlite] Geodetic satellites* [satlites geodsicos] Archaeology [ arqueologia]
Censuses [censos]
Weather prediction [previso do tempo] Weather maps [cartas meteoro lgicas]
A idia de uma aeronave movida a eletricidade, que utilize microondas, acha-se bem
abrangi da pelos trs termos com asterisco. O artigo concede mais ateno s possveis
aplicaes cientficas e militares, pelo que se fez um esforo para englobar esses aspectos.
Lamentavelmente, a idia da vigilncia em geral est ausente do UNBIS, mas existe military
surveillance [vigilncia militar]. As outras possveis aplicaes mencionadas no artigo, como,
por exemplo, a previso do tempo, o so de modo to superficial que parecem no merecer
1
Esta advertncia do autor justifica-se por causa da ambigidade da expresso em ingls, que tanto pode significar
monitoramento de satlite quanto monitoramento por satlite. (N.T.)
272
sua incluso na indexao. Como o risco para a sade mencionado a radiao de microondas,
o termo radiation sickness [doena provocada por radiao] parece apropriado.
6. Educao nutricional em programas de alimentao infantil
Child feeding* [alimentao infantil]
Nutrition education* [educao nutricional]
Child nutrition* [nutrio infantil]
Developing countries [pases em desenvolvimento]
Infant nutrition [nutrio do lactente]
School meals [merendas escolares]
O assunto desse relatrio est perfeitamente abarcado pelos termos existentes no tesauro.
No se deixe enganar pelo ttulo. Este documento sobre mulheres em Serra Leoa, no
sobre mulheres africanas em geral. O artigo estuda principalmente as condies de emprego
das mulheres, no a cultura do arroz. Embora rice [arroz] seja um termo pertinente, os mais
importantes so women workers [mulheres trabalhadoras] e hours of work [horas de trabalho].
Arroz no um termo principal, pois quem estiver procura de itens sobre a cultura do arroz
poder no se interessar por esse tipo de estudo social. O termo division oflabour [diviso do
trabalho] provavelmente pertinente, uma vez que o documento analisa a relao
homens/mulheres no trabalho, no entanto, a nota explicativa no tesauro traz uma indicao
muito inadequada sobre como e quando usar este termo.
9. Politica de cincia e tecnologia
Egypt* [Egito]
273
So necessrios vrios termos para abranger esse relatrio de modo adequado. Note-se
que research and development [pesquisa e desenvolvimento] e management [administrao]
so ambos necessrios para refletir a idia de administrao da pesquisa. Egypt [Egito]
considerado um termo principal porque todo o relatrio trata da situao egpcia. O que
muito diferente do artigo sobre mulheres africanas, no qual a localizao (Serra Leoa) quase
acidental para a finalidade do estudo.
10.
Mais uma vez um item que no foi abrangido satisfatoriamente porque o tesauro carece
de termos que expressem a idia de alunos monitores ou mesmo de monitoria.
12.
Fatores culturais e sociais que influem sobre a participao de pequenos
agricultures em programas formais de crdito
Credit policy* [poltica de crdito]
Farmers* [agricultores]
Small farms* [pequenas propriedades agrcolas]
Developing countries [pases em desenvolvimento]
Agricultural credit* [crdito agrcola]
Cultural values [valores culturais]
Social values [valores sociais]
274
[pequenas
propriedades
agrcolas].
Atribui-se
developing
countries
[pases
em
desenvolvimento] porque bvio que este o contexto no qual se analisa o crdito agrcola.
13.
275
277
278
Resumos
[Os resumos so aqui reproduzidos com a gentil permisso do International Irrigation
Information Center, Bet Dagan, Israel, e Pergamon Press Inc. A seleo destes resumos nessa
fonte foi determinada apenas por razes de convenincia e no implica de forma alguma que
os resumos de Irrricab sejam de qualidade inferior. Com efeito, em geral, so muito bons,
sendo difcil encontrar algum que necessite de grandes melhorias.]
1. Anon. (Clarification of highly turbid waters by means of acoustic filters) (Rus)
[Clarificao de guas excessivamente barrentas mediante filtros acsticos] Gidrotekh
Melior, 1977, (9): 98-99
Descreve-se sucintamente o desenvolvimento de um mtodo de clarificao da gua com
filtros acsticos. Estudaram-se as caractersticas hidrulicas de vrios crivos com e sem
vibrao, e se determinou o coeficiente de resistncia de vrios crivos. Prope-se o mtodo
para clarificao da gua sem o emprego de reagentes qumicos.
2. Vaneyan, S.S.; Makoveev, V.P. (Volzhanka side roll sprinkler for irrigation ofvegetable
crops) (Rus) [Aspersor V olzhanka de rotao lateral para irrigao de culturas de
hortalias] Gidrotekh Melior, Mar 1979, (3): 67-68, 1 photo, 2 tab. (All-Union Research
Institute for Vegetable Growing, USSR)
Relatam-se experincias com a irrigao de culturas de vrias hortalias empregando o
aspersor V olzhanka. O artigo contm uma equao para calcular a durao da irrigao e o
nmero de unidades de aspersores necessrios para irrigar determinada rea. Apresenta
dados sobre danos causados aos plantios pelas rodas dos aspersores.
3. Rhoades, J.D. Determining soil salinity and detecting saline seeps using an inductive
electromagnetic soil conductivity sensor (Eng) [Determinao da salinidade do solo e
identificao de nascentes salinas por meio de um senso r indutivo eletromagntico de
condutividade do solo] In: Agronomy Abstracts: 1978 Annual Meeting ofthe Soil
Science Society of America: 183 (USDA, SEA, Riverside, CA, USA)
Desenvolveu-se um novo instrumento para determinar a salinidade do solo e a descoberta de
nascentes salinas a partir de medies da condutividade eltrica do solo, sem sondas ou
contato de terra, mediante uma tcnica indutiva magntica. A condutividade lida
diretamente no instrumento e as medies podem ser feitas caminhandose sobre o solo.
Tecem-se consideraes sobre o equipamento e os resultados. Examinam-se as vantagens e
limitaes do novo mtodo e de mtodos anteriores.
4. Gisser, M.; Pohoryles, S. Water shortage in Israel: long-run policy for the farm sector
(Eng) [Escassez de gua em Israel: poltica de longo prazo para o setor agrcola] Water
Resources, Dec 1977, 13(6): 865-872, 1 figo 10 tab, 4 ref (University of New Mexico,
Dept ofEconomics, Albuquerque, NM 87131, USA)
Israel defronta uma situao de limitado volume de proviso de gua e demandas
crescentes. Como a agricultura utiliza uma grande parcela da gua disponvel, uma poltica
potencial reduzir as destinaes de gua para a agricultura, a fim de permitir o aumento de
uso em outros setores. Fazem-se estimativas da perda total em rendimentos na agricultura
causada pela reduo das cotas atuais, empregando um modelo de programao linear.
5. Debrivna, I.Ye. (Sulfate reducing bacteria ofrice irrigation systems in the Southern
Ukrainian SSR) (Ukr, summary Eng) [Bactrias redutoras de sulfato em sistemas de
irrigao de arroz na RSS da Ucrnia Meridional] Mikrobiologii Jurnal, 1977,39(5): 627629,2 tab, 9 ref (Academy ofSciences of the Ukrainian SSR, Institute ofMicrobiology
and Virology, Kiev, USSR)
Os estudos relatados mostraram um desenvolvimento muito intenso de bactrias
redutoras de sulfato no subsolo dos sistemas de irrigao de arroz caracterizados por um lenol
fretico alto. Sugere-se que isso seria responsvel pelas quedas da produo de arroz nessas
condies.
6. Koo, J.W.; Ryu, H. Y. (A study on the determination method ofpumping rates in
tubewells for irrigation) (Kor, summary Eng) [Um estudo sobre o mtodo de
determinao de coeficientes de bombeamento em poos tubulares para irrigao]
Journal of Korean Society of Agricultural Engineers, Dec 1976, 18(4): 1-9,8 fig, 4 tab,
20 ref(Seoul National University, Suweon, Republic of Korea)
279
8. Arbarb, M.; Manbeck, D.M. Intluence of lateral depth and spacing on com yield and
water use in subsurface irrigation system (Eng) [Intluncia da profundidade lateral e do
espaamento na produo de milho e utilizao da gua em sistema de irrigao
subsuperficial] Annual Meeting, ASAE, North Carolina State University, Raleigh, NC,
USA, Jun26-29, 1977, Paper No. 772021, 21 p. 8 fig., 1 tab, 9 ref. A vailable from ASAE,
POB 410, St. Joseph, MI 49085, USA (University ofNebraska, Agricultural Engineering
Dept, NB, USA)
Os objetivos desse experimento foram estudar a influncia de diferentes profundidades
laterais e espaamentos na produo de milho e utilizao de gua, e estudar a utilizao
prtica de um sistema de irrigao subsuperficial e o padro de distribuio da gua.
(NB. Seria muito melhor identificar as culturas, por exemplo, Relatam-se experimentos
com repolho, beterraba e cenoura.)
3. Pode-se evitar repetio desnecessria e o resumo se tornaria mais conciso:
O novo instrumento descrito funciona por meio da medio da condutividade eltrica do solo,
sem sondas ou contato com a terra. Pode-se ler diretamente a condutividade e as medies
feitas caminhando-se sobre o solo. Comparam-se o instrumento e seus resultados com
mtodos anteriores.
(NB. Como o ttulo informa sobre o contexto - escassez de gua em Israel - no preciso
repeti-lo no resumo. O ttulo e o resumo se complementam; este no deve existir separado do
280
ttulo. Este resumo muito prolixo: limitado volume de proviso de gua e demandas
crescentes um circunlquio para dizer escassez de gua, o que j est implcito no ttulo.)
5. Este pode ser reduzido em quase 50%:
Um desenvolvimento muito intenso das bactrias no subsolo de sistemas de irrigao de
aqfero alto pode ser responsvel pelas quedas na produo de arroz.
(NB. Vrias partes do resumo original so suprfluas. A primeira frase achase implcita na
ltima mediante melhoria da eficincia na utilizao da gua. Devido ao receio de perda da
safra evidente por si mesmo e nada acrescenta ao resumo. Por outro lado, como o ttulo
inespecfico, dever-se-la especificar a cultura (arroz) e no safra em geral. Evidentemente,
no se poderia trocar safra por arroz sem ver o artigo original.)
8. Raro exemplo de um resumo muito ruim do Irricab. No acrescenta praticamente nada
informao do ttulo. No seria possvel melhor-lo sem examinar o artigo original.
281
Sntese de princpios de redao de resumos proposta por Payne et al. (1962). Reproduzida com permisso de
American Institutes for Research.
282
Os dados podem ser apresentados de qualquer forma, com base no seguinte critrio:
adote a apresentao mais econmica possvel, porm a mais lcida. Podem-se incluir tabelas,
diagramas, grficos, desde que identificados exatamente, mas os dados assim apresentados
devem se bastar, isto , ser compreensveis sem necessidade de recorrer ao texto do resumo.
7. Devem ser indicados os mtodos qualitativos e/ou quantitativos adotados no
tratamento dos dados. No preciso descrever tcnicas convencionais e conhecidas.
Variaes ou aplicaes especiais de tcnicas conhecidas sero apresentadas se forem
necessrias para representar por completo os aspectos importantes do estudo e
fundamentar inteiramente as concluses a1canadas.
8. Devem ser apresentadas as concluses lgicas. Hipteses e teorias sero
reexaminadas se foram comprovadas ou invalidadas, aceitas ou refutadas. Neste
ponto, cabe ao resumidor discriminar entre concluses comprovadas e
nocomprovadas e concluses reais versus inferncias. Acima de tudo, no deve
apresentar concluses que no possam ser confirmadas pelas partes anteriores do
resumo. No deve incluir proposies errneas contidas no artigo, ano ser que sejam
acompanhadas de uma advertncia que de modo claro chame ateno para o erro e,
se possvel, para sua correo.
9. possvel incluir interpretaes vlidas e importantes que o autor faa sobre
resultados e/ou concluses apresentados, caso representem um avano dos
conhecimentos ao revelar novas relaes ou reafirmar relaes antigas.
10.
Em todo o resumo, o resumidor deve exercer seu direito de esclarecer e
simplificar elementos contidos no artigo.
283
284
queimaduras com roupas de camadas duplas em comparao com vesturio de uma nica
camada.
Entradas de ndice
Sistemas fsicos e matemticos
CHAPAS COMPOSTAS
CHAPAS DE CAMADA NICA
Transferncia de calor
Meios e mtodos
APARELHO EXPERIMENTAL
CALORMETROS DE CONTATO DE CHAMA
Ambiente
TEMPERATURA: 0-1000 F
MAARICO DE MEKER
CONTATO DE CHAMA
Materials e propriedades
TECIDOS
HT-1
POLIAMIDOS
RTV-20
BORRACHA DE SILICONE
PELE
PROPRIEDADES ISOLANTES
CONDUTIVIDADE TRMICA
DIFUSIVIDADE TRMICA
PROTEO CONTRA QUEIMADURAS
Autores
STOLL, A.M.
CHIANTA, M.A.
MUNROE, L.R.S
Afiliaes
A viation Medical Acceleration Laboratory, D.S. Naval Air Development Center, Johnsville,
Pennsylvania
285