Sei sulla pagina 1di 4

REVOCAO (RECALL) E PRECISO ( PRECISION) NO SDI/CIN/CNEN*

RESUMO Valores para a revocao e preciso no SDI/CIN/CNEN so calculados empregando-se uma nova metodologia para se determinar a relevncia das referncias no recuperadas do arquivo consultado. Estabelece-se a idia de distncia entre respostas para se determinar a aproximao do valor calculado para a revocao daquele que seria o valor real. Eratstenes E. f. de Arajo Departamento de Sistemas e Computao Universidade Federal da Paraba Campina Grande, PB

Descritores: Sistemas de informao; Parmetros de avaliao; Desempenho; Revocao.

INTRODUO

Um SDI ideal aquele capaz de dar a cada usurio, todas as referncias relevantes existentes no arquivo pesquisado, sem lhe fornecer aquelas que so irrelevantes. Um sistema com essas caractersticas dificilmente pode ser encontrado, e assim sendo, as falhas de recuperao devem ser analisadas para melhorar o seu desempenho. Esse desempenho pode ser avaliado atravs de dois parmetros que medem as falhas de recuperao, definidas por Leggate3 como sendo: a) uma referncia que foi julgada relevante para o usurio e no foi recuperada pelo sistema; b) uma referncia que foi julgada irrelevante pelo usurio e que foi recuperada pelo sistema.

Os dois parmetros so conhecidos como recall(R) e precision (P) respectivamente, Eles foram primeiro utilizados por Cleverdon2 em seu trabalho no Aslib Cranfield Research Project e so definidos como: R _ n de referncias relevantes e recuperadas _ a (D no de referncias relevantes no arquivo a+b
(2) n de referncias relevantes e recuperadas a total de referncias recuperadas a +c

onde: a = referncias relevantes e recuperadas b = referncias relevantes no recuperadas c = referncias irrelevantes e recuperadas

* SDI/CIN/CEN Sistema de Disseminao Seletiva de Informaes Centro de Informaes Nucleares Comisso Nacional de Energia Nuclear Ci. Inf., Rio de Janeiro, 8 (1):47 -50, 1979

Utilizando-se esses conceitos, calculamos os valores do recall e da precision para o SDI/CIN/CNEN.


47

Revocaco (Recall) e Preciso (Precision) no SDI/CIN/CNEN Eratstenes E. R. de Arajo 2 NMERO DE REFERNCIAS E PERFIS UTILIZADOS apresentamos uma nova metodologia para se determinar a relevncia das referncias no recuperadas, descritas a seguir. Essa metodologia utiliza uma avaliao exaustiva de cada referncia do arquivo consultado pelo perfil do usurio, feita por especialistas (indexadores) que trabalham no sistema, responsveis pela indexao das referncias brasileiras que so colocadas no arquivo. Isto foi realizado da seguinte maneira. Inicialmente se fez com que cada indexador se identificasse o mximo possvel com o interesse do usurio atribudo para seu julgamento. Para isso, foi entregue ao indexador o perfil do usurio, onde esto indicadas as principais atividades do usurio, suas reas de interesse (no mximo cinco) e os descritores escolhidos (no mximo vinte) e as respostas dadas as referncias recuperadas. Aps uma fase de anlise, que chamamos de conhecimento do interesse do usurio, o indexador passou a julgar as referncias recuperadas e no recuperadas. importante salientar que o julgamento pelo indexador, das referncias j recuperadas e, portanto, j avaliadas pelo usurio, se fez necessrio para se medir o grau de acerto do indexador. Os resuItados encontrados foram considerados satisfatrio, pois se verificou que o indexador conseguiu se aproximar bastante do interesse do usurio, conforme mostra a figura 1. Para medir o grau de acerto do indexador se utilizou a idias de distncia entre suas respostas e do usurio, dadas as referncias recuperadas. Estabelecemos assim que as respostas do tipo MM, RR, NN e MR, dadas pelo indexador e pelo usurio tm distncia igual a zero, isto , a relevncia atribuda a mesma. Para respostas do tipo RN atribuiu-se distncia igual a um, e finalmente as respostas do tipo MN, definimos a distncia como sendo igual a dois.

Nesse estudo 18.847 referncias foram pesquisadas correspondendo a um perodo de seis meses, equivalente a dez notificaes, para um total de 35 perfis de usurios selecionados entre 213 perfis existentes no sistema. Houve, portanto, 350 consultas ao arquivo, utilizando-se a estratgia de pesquisa por peso atribudo ao descritor e a rea de interesse do usurio. A essa estratgia chamamos de critrio do patamar.

AVALIAO DO RECALL E DA PRECISION

A avaliao desses dois parmetros feita medindo-se a relevncia de cada referncia em relao ao interesse do usurio. No SDI/CIN/CNEN, cada referncia recuperada enviada ao usurio atravs de notificaes, e solicitado o julgamento segundo os critrios: a) muito interesse b) relativo interesse c) nenhum interesse (M); (R); (N).

Dessa forma os valores de a e c na equao 2 so conhecidos. A dificuldade se determinar o valor de b na equao 1. Num arquivo pequeno, poderia se recorrer ao usurio para que julgasse tambm as referncias no recuperadas. Para um arquivo grande, este mtodo no pode ser empregado, como o caso do SDI/CIN/CNEN. Faz-se ento atravs de medidas estimativas. Miller4 em seu trabalho na University of Newcastle, examinou vrios mtodos para estimar o valor do recall e considerou-os todos insatisfatrios. Nesse trabalho

Distncia O (M-M, R-R, N-N, M-R)

n9 de Referncias
3275
416 168

%
84,87 10,78 4,35

1 2

( R-N ) ( M-N)

Figura 1

Resultado da avaliao executada pelo indexador e pelo usurio.

Ci. Inf., Rio de Janeiro, 8 ( 1 ) : 37-46, 1979

48

Revocao (Recall) e Preciso (Precision) no SDI/CIN/CNEN Eratstenes E. R. de Arajo Podemos notar que o grau de acerto do indexador aprecivel, 84,87%, com divergncias para as respostas de distncia 1 de 10,78% e de apenas 4,35% para as respostas de distncia 2. Pelas equaes 1 e 2 podemos ver que apenas o recai l afetado pelas distores encontradas entre a resposta do usurio e a do indexador, uma vez que s o parmetro b da equao 1 tem seu valor calculado atravs da resposta do indexador. Assim sendo, observando-se os resultados da figura 1, onde a distoro apresentada na distncia 1 mais aquela na distncia 2 igual a 15,00% aproximadamente, podemos afirmar que o valor do recall, se calculado com a resposta do usurio (RU) estaria entre os limites: REFERNCIAS BIBLIOGRFICAS ARAJO, E.E.R., Atualizao de perfis em um sistema de disseminao seletiva de informao. Rio de Janeiro, IME. 98p. 1977. Tese de Mestrado. CLEVERDON, C.W., Report on testing and analysis of investigation into comparative efficiency of indexing systems. Aslib-Cranfield Research Report, Cranfield England, 1962. LEGGAT, P. et alii, Evaluation of an SDI service based on the index chemicus registry system, J. C. Docuni., 13: 192-203, 1973. MlLLER, W.L., The extension of user's literatura awareness as a measure of retrieval performance, and its application to MEDLARS, J. Doc., 27 125-135, Jun 1971. WAGNER, R.H., A selective current-awareness system using engineering index's plastic data base. Parte I - Performance, J. C. Docum., 9:85-8, 1969. ABSTRACT: Precision and Recall values in SDI/CIN/CNEN are calculated using a new method to determine the relevance of non-recurable references from the called file. A relation between answers was established to determine the aproximation of the calculated value to the one which would be the real value.

a a + 1,15b

RU

<

a + 0,85b

onde b o obtido com a resposta do indexador. 4 DESEMPENHO DO SDI/CIN/CNEN

O desempenho do SDI/CIN/CNEN mostrado graficamente atravs da curva R X P, figura 2, traada com os valores obtidos para o recall e a precision, utilizando-se as equaes 1 e 2. Os pontos assinalados representam a mdia dos 35 perfis utilizados na pesquisa, e esto situados acima da curva proposta por Wagner 5 e neste caso, a performance do sistema aceitvel. Na representao individual do comportamento de cada perfil, figura 3, alguns deles precisam ser analisados, pois se encontram abaixo da curva. Apesar da metodologia para o clculo do recall ser diferente da utilizada por Cleverdon2, importante salientar que a sua afirmao de que h uma relao inversa entre o recall e a precision, tambm foi comprovada nesse trabalho.

CONCLUSO

Para centros de informao que possuam um grupo de indexadores, pensamos que a metodologia apresentada para avaliao dos documentos no recuperados pode ser inteiramente aplicada. Alm da boa aproximao obtida para o clculo do recall, essa metodologia funciona como um instrumento de capacitao dos indexadores, que passam a ter em mos uma anlise comparativa entre o que est descrito no perfil do usurio e o seu interesse real.
Ci. Inf., Rio de Janeiro, 8 (1): 47 - 50, 1979

49

Revocao (Recall) e Preciso (Precision) no SDI/CIN/CNEN Eratstenes E. R. de Arajo

--

100..

9080.. 70..
60-50-

40

302010--

10

20

30

40

50

60

70

80

90

100

Figura 2 - R X P. mdia da amostra

100

90
80-70..

60

50-40-302010
-4-

10

20

30

40

50

60

70

80

90

100

Figura 3 Incidncia de perfis no grfico R X P Ci. Inf., Rio de Janeiro, 8 (1): 47 - 50, 1979

50

Potrebbero piacerti anche