Art 07

Recuperao de Informao
OLINDA NOGUEIRA PAES CARDOSO 1 UFLA Universidade Federal de Lavras DCC Departamento de Cincia da Computao Cx. Postal 37 CEP 37.200-000 Lavras (MG) olinda@comp.ufla.br
1
Resumo: Recuperao de Informao uma rea da Cincia da Computao que lida com armazenamento automtico e recuperao de documentos, que so de grande importncia devido ao uso universal da linguagem para comunicao. Este artigo apresenta uma viso geral dos modelos, componentes e um mtodo de avaliao dos sistemas de recuperao de informao. So descritos os componentes de um sistema, um mtodo de avaliao e os modelos clssicos de recuperao de informao. apresentada a realimentao de relevantes, uma importante tcnica para aumentar o desempenho dos sistemas de informaes. Tpicos relacionados rea de recuperao de informao so brevemente descritos. Palavras-chave: Modelos de recuperao de informao, bibliotecas digitais, bancos de dados textuais, realimentao de relevantes.
1 Introduo Com o crescimento do volume de publicaes, ao longo dos anos, foram desenvolvidas tcnicas de recuperao de informao para responder s necessidades dos usurios de bibliotecas, tradicionais ou digitais. A ferramenta mais importante para auxiliar o processo de recuperao denominada ndice, que uma coleo de termos que indicam o local onde a informao desejada pode ser localizada [Frakes (1992)]. Estes termos devem ser organizados de forma a facilitar sua busca. Atualmente j no se pode falar em crescimento do volume de publicaes mas em uma verdadeira exploso. As bibliotecas digitais, que so publicaes armazenadas e manipuladas eletronicamente, aparecem como um paradigma para melhorar a busca e apresentao de informaes desejadas. Neste contexto so estudadas tcnicas de digitalizao de objetos originados de fontes heterogneas, tcnicas de armazenamento, processos de busca, recuperao e apresentao de forma amigvel das informaes. A indexao ainda a principal ferramenta para recuperao de informao. A crescente complexidade dos objetos armazenados e o grande volume de dados exigem processos de recuperao cada vez mais sofisticados. Diante deste quadro, recuperao de informao apresenta a cada dia, novos desafios e se configura como uma rea de significncia maior.
2 Sistemas de recuperao de informao Recuperao de informao uma subrea da cincia da computao que estuda o armazenamento e recuperao automtica de documentos, que so objetos de dados, geralmente textos. Um sistema de Recuperao de Informao (SRI) pode ser estruturado conforme a Figura 1 [Gey (1992)].
Documentos Necessidade do usurio
PROCESSO DE INDEXAO
PERDA DE INFORMAO
PROCESSO DE ESPECIFICAO DE CONSULTA
ndices
Uma representao dos documentos
Consulta
PROCESSO DE RECUPERAO
Lista de documentos recuperados
Figura 1: Componentes de um sistema de recuperao de informao
Os componentes do sistema incluem documentos, necessidades do usurio, gera a consulta formulada, e finalmente o processo de recuperao que, partir das estruturas de dados e da consulta formulada, recupera uma lista de documentos considerados relevantes. O processo de indexao envolve a criao de estruturas de dados associados parte textual dos documentos, por exemplo, as estruturas de arranjos de sufixos (PAT arrays) e arquivos invertidos, discutidas em [Frakes (1992)]. Estas estruturas podem conter dados sobre caractersticas dos termos na coleo de documentos, tais como a freqncia de cada termo em um documento. O processo de especificao da consulta geralmente uma tarefa difcil. H freqentemente uma distncia semntica entre a real necessidade do usurio e o que ele expressa na consulta formulada. Essa distncia gerada pelo limitado conhecimento do usurio sobre o universo de pesquisa e pelo formalismo da linguagem de consulta. O processo de recuperao consiste na gerao de uma lista de documentos recuperados para responder a consulta formulada pelo usurio. Os ndices construdos para uma coleo de documentos e so usados para acelerar esta tarefa. Alm disso, a lista de documentos recuperados classificada em ordem decrescente de um grau de similaridade entre o documento e a consulta. 2.1 Avaliao de sistemas de recuperao de informao
SRI pode ser observada por um grfico com as mdias preciso x revocao. O grfico pode ser obtido calculando-se a preciso para nveis anteriormente estabelecidos de revocao. A Figura 2 ilustra a forma geral de um grfico preciso x revocao. Seja, N o conjunto de resposta ideal, |N | o nmero de documentos deste conjunto e R o vetor resultado recuperado pelo SRI. Ento, Revocao = | N R | |N | Preciso = | N R | |R |
Sistema de Recuperao de Informao Vetor Resultado Sistema de Coleo de Referncia Conjunto ideal de relevantes Grfico 1.0 P R E C I S O 0 1.0 REVOCAO Avaliao
Os sistemas de recuperao de informao podem ser avaliados atravs de consultas que fazem parte de uma coleo de referncia. Um exemplo a conhecida coleo TIPSTER, usada na Text REtrieval Conference (TREC), descrita em [Harman (1993)]. A TIPSTER uma coleo de cerca de um milho de documentos, obtidos de vrias fontes, tais como o Wall Street Journal. Nesta coleo h um conjunto de consultas e para cada consulta fornecido um conjunto ideal de documentos resposta, criado por especialistas nos temas envolvidos. Um SRI classifica os documentos recuperados para cada consulta, de acordo com uma ordem de relevncia gerando um vetor resultado. Avalia-se o SRI atravs da comparao das respostas geradas por este sistema e o conjunto ideal de respostas. Para isso, o vetor resultado examinado e comparado com o conjunto ideal, obtendo-se dois ndices de avaliao: preciso e revocao. Preciso a frao dos documentos j examinados que so relevantes, e revocao a frao dos documentos relevantes observada dentre os documentos examinados. A avaliao do modelo de um
Figura 2: Processo de avaliao de um sistema de recuperao de informao
3 Modelos clssicos Os modelos clssicos, utilizados no processo de recuperao de informao (booleano, vetorial e probabilstico) apresentam estratgias de busca de documentos relevantes para uma consulta (query). Estes modelos consideram que cada documento descrito por um conjunto de palavras chaves, chamadas termos de indexao. Associa-se a cada termo de indexao ti em um documento d j um peso wij 0, que quantifica a correlao entre os termos e o documento. Alm dos modelos clssicos, modelos muito mais avanados de recuperao de informao tem sido propostos ao longo dos anos, dentre estes, destacam-se modelos baseados em bases de conhecimento [Biwas
(1987)], lgica fuzzi [Bookstein (1980)] e redes neurais [Kwok (1995)]. 3.1 Modelo Booleano
o documento e a consulta, atravs da seguinte frmula [Salton (1988)]. Os pesos quantificam a relevncia de cada termo para as consultas (Wiq) e para os documentos (Wid) no espao vetorial. Para o clculo dos pesos Wiq e Wid, utiliza-se uma tcnica que faz o balanceamento entre as caractersticas do documento, utilizando o conceito de freqncia de um termo num documento. Se uma coleo possui N documentos e n ti a quantidade de documentos que possuem o termo ti, ento o inverso da freqncia do termo na coleo, ou idf (inverse documento frequency) dado por: Este valor usado para calcular o peso, utilizando a
Dada uma consulta Q e um conjunto de documentos considerados relevantes para a Q, o ndice atribudo aos documentos deve indicar qual documento mais relevante que outro, estabelecendo uma ordem de relevncia. Esses ndices so calculados com base na comparao entre a consulta e os documentos. No modelo booleano os documentos recuperados so aqueles que contm os termos que satisfazem a expresso lgica da consulta. Uma consulta considerada como uma expresso booleana convencional formada com os conectivos lgicos AND, OR e NOT. Uma maneira direta de implementar o modelo booleano seria [Salton (1989)]: assuma a existncia de uma lista invertida na qual cada entrada corresponde a um termo de indexao, ademais, a entrada ti aponta para uma lista de documentos nos quais o termo ti ocorre. O conjunto de documentos recuperados pode ser obtido pela interseo das listas invertidas de documentos, dos termos que aparecem na consulta. Assim, somente documentos cujos termos de indexao satisfazem a consulta booleana so recuperados. Os principais problemas do modelo booleano so a ausncia de ordem na resposta, e as respostas podem ser nulas ou muito grandes. As vantagens desse modelo so a facilidade de implementao, e a expressividade completa das expresses. 3.2 Modelo vetorial
idf i = log
N ni
seguinte frmula: Wid = freq(ti,d) x idfi , ou seja, o produto da freqncia do termo no documento pelo inverso da freqncia do termo na coleo. As principais vantagens do modelo vetorial so a sua simplicidade, a facilidade que ele prov de se computar similaridades com eficincia e o fato de que o modelo se comporta bem com colees genricas. 3.3 Modelo probabilstico
O modelo probabilstico descreve documentos considerando pesos binrios que representam a presena ou ausncia de termos. O vetor resultado gerado pelo modelo tem como base o clculo da probabilidade de que um documento seja relevante para uma consulta. A principal ferramenta matemtica do modelo probabilstico o teorema de Bayes [Van (1979)]. O modelo probabilstico baseado no princpio probabilstico de ordenao (Probability Ranking Principle), que estabelece que este modelo pode ser usado de forma tima. Este princpio baseado na hiptese de que a relevncia de um documento para uma determinada consulta independente de outros documentos. O princpio o seguinte:
Se a resposta de um sistema de recuperao de referncia a cada requisio, uma ordem de documentos classificada de forma decrescente pela probabilidade de relevncia para o usurio que submeteu a requisio, onde as probabilidades so estimadas com a melhor preciso com base nos dados disponveis, ento a efetividade geral do sistema para o seu usurio, ser a melhor que pode ser obtida com base naqueles dados.
O modelo de espao vetorial, ou simplesmente modelo vetorial, representa documentos e consultas como vetores de termos. Termos so ocorrncias nicas nos documentos. Os documentos devolvidos como resultado para uma consulta so representados similarmente, ou seja, o vetor resultado para uma consulta montado atravs de um clculo de similaridade. Aos termos das consultas e documentos so atribudos pesos que especificam o tamanho e a direo de seu vetor de representao. Ao ngulo formado por estes vetores d-se o nome de . O cos determina a proximidade da ocorrncia. O clculo da similaridade baseado neste ngulo entre os vetores que representam
sim ( d , q ) =
w
i =1 t
id
wiq
2 i=1 wiq t
2 i=1 wid
O modelo probabilstico considera um processo iterativo de estimativas da probabilidade de relevncia.
Devem ser calculados: P(+Rq|d) a probabilidade de que um documento d seja relevante para uma consulta q e P(Rq|d) a probabilidade de que um documento d no seja relevante para uma consulta q. O documento d considerado relevante para a consulta q se P(+Rq|d)> P(-Rq|d), e o vetor resultado decidido com base num fator Wd|q, definido por:
preferncia. O sistema ento seleciona termos pertencentes aos documentos selecionados e utiliza estes termos para reformular a consulta. Este processo de reformulao pode prosseguir com mais de uma interao. A principal vantagem do mtodo que aps a primeira formulao o usurio interage com o sistema abstraindo-se do processo de formulao, simplesmente identificando documentos como relevantes ou no. Outra vantagem que o mtodo prov um processo controlado de enfatizar alguns termos e diminuir a importncia de outros. 5 Tpicos especiais informao em recuperao de
W d |q =
P( + R q | d ) P ( R q | d )
Este fator minimiza a mdia do erro probabilstico.
Atravs do teorema de Bayes e estimativas de relevncia baseadas nos termos da consulta, pode-se chegar a seguinte equao:
sim ( d , q ) = Wd | q = xi Wqi
i =1
Onde: xi {0, 1}; Wqi = log rqi (1-sqi) / sqi(1-rqi); rqi a probabilidade de que um termo de indexao i ocorra no documento, dado que o documento relevante para a consulta q; e sqi a probabilidade de que um termo de indexao i ocorra no documento, dado que o documento no relevante para a consulta q.
Nesta seo sero brevemente tratados alguns tpicos adicionais freqentemente utilizados na modelagem de um SRI. Estes tpicos incluem: passagens, expanso de consultas, filtragem de informao, categorizao e extrao de informao, e visualizao. 5.1 Passagens
O modelo probabilstico tem como vantagem, alm do bom desempenho prtico, o princpio probabilstico de ordenao, que uma vez garantido, resulta em um comportamento timo do mtodo. Entretanto, a desvantagem que este comportamento depende da preciso das estimativas de probabilidade. Alm disso, o mtodo no explora a freqncia do termo no documento e ignora o problema de filtragem de informao. 4 Realimentao de Relevantes Existem vrias dificuldades para que o usurio transforme suas necessidades em uma consulta devidamente formulada. Geralmente a m formulao da consulta que prejudica o desempenho dos sistemas. Um mtodo de abordar este problema considerar uma forma interativa de construo da consulta, onde o usurio formula uma consulta inicial, examina o resultado diante de suas necessidades e se necessrio melhora a formulao da consulta. A estratgia mais popular para reformular consultas chamada de realimentao de relevantes [Robertson (1976)], cuja idia principal como se segue. Aps a montagem do vetor resultado baseado na consulta inicial, o usurio seleciona documentos de sua
Em recuperao de informao geralmente o usurio necessita identificar qual parte do documento retornado atende sua necessidade de informao. Uma forma de apresentar esta informao ao usurio dividir o documento em pores menores denominadas passagens. Trabalhos recentes sugerem que, no contexto de documentos com estrutura interna complexa, evidncias a nvel de passagens so importantes para os sistemas de recuperao de informaes. Em alguns casos, aplicar os algoritmos de recuperao a passagens, e no a documentos completos, resulta em melhor desempenho do sistema [Callan (1996)]. A diviso dos documentos em passagens pode ser feita de trs formas. A primeira, considera passagens com caractersticas de hierarquia dos documentos como sentenas, pargrafos e sees. A segunda, considera passagens baseadas nas caractersticas semnticas do contedo de partes do documento, neste sentido as passagens agrupam pores do texto que tratam de um determinado assunto. A terceira, considera passagens como uma seqncia contgua de palavras, esse tipo de passagem chamada de janela e o nmero de palavras na seqncia define o tamanho da janela. 5.2 Expanso de consultas
Um problema fundamental em recuperao de informao que os autores nem sempre usam as mesmas palavras que os usurios para descrever o mesmo conceito [Xu (1996)].
A importncia deste problema tende a diminuir com o aumento do amanho da consulta. Entretanto, em muitas aplicaes, as consultas podem possuir uma pequena quantidade de termos. Um caso extremo ocorre no contexto da Web, onde as consultas possuem tipicamente duas palavras. A expanso de consultas um caminho para solucionar estes problemas. Para expandir a consulta, pode-se usar realimentao de relevantes, mas isso requer interveno do usurio. Uma outra idia seria a de expandir a consulta de forma automtica, ou seja, sem a interveno do usurio. Para expandir uma consulta preciso buscar palavras com significados semelhantes aos termos da consulta e acrescentar tais palavras consulta original com o objetivo de melhorar o contexto da mesma. Duas abordagens podem ser adotadas: o uso de dicionrios de sinnimos e o uso de palavras que co-ocorrem com os termos das consultas em documentos da coleo. No caso de dicionrios de sinnimos os resultados obtidos no so em geral muito bons. Melhorias considerveis foram alcanadas quando considerou-se anlise automtica de termos que co-ocorrem em documentos da coleo. Outro tpico importante em expanso de consulta a quantidade de termos adicionados a consulta. Nos experimentos apresentados em [Harman (1992)] o melhor desempenho foi alcanado com adies entre 20 e 40 termos, mas claramente este nmero depende da coleo utilizada. 5.3 Filtragem de informao
recuperao de informao a representao de dados no textuais. Uma comparao entre recuperao e filtragem de informao apresentada em [Belkin (1992)]. Os autores concluem que:
Filtragem de informao e recuperao de informao so dois lados da mesma moeda, trabalham para ajudar pessoas a obter informaes necessrias para executar suas tarefas.
5.4
Categorizao e extrao de informao
Categorizao o processo de classificar documentos em categorias pr-definidas. Sua maior aplicao tem sido para atribuir categorias a documentos e posteriormente utilizar estas categorias para suportar recuperao e filtragem de informao. As categorias so definidas atravs de um pequeno conjunto de caractersticas e tendem a ser mais estticas que os perfis em filtragem de informao. Sistemas de recuperao de informao apresentam baixo desempenho no contexto de categorizao, principalmente devido ao vocabulrio restrito que descreve as categorias e o vocabulrio irrestrito dos documentos [Yang (1994)]. Extrao de informao o problema de obter a partir de documentos algumas informaes especficas. Como por exemplo, obter o nome de seqestradores e de vtimas em ataques terroristas. Neste caso, a parte do documento que no relevante pode ser ignorada. Geralmente o problema abordado no contexto de colees especficas. Uma abordagem para o problema varrer o texto, buscando palavras chaves e extrair dos contextos onde ocorrem tais palavras a informao necessria. Vrias alternativas de tratamento deste problema so apresentados em [Allen (1994)]. 5.5 Visualizao
O processo de filtragem de informao consiste em analisar um fluxo de informaes que chega, comparar os documentos neste fluxo com tpicos de interesse do usurio e selecionar os documentos pertinentes [Belkin (1992)]. Tipicamente o sistema funciona como um agente inteligente que seleciona os documentos do fluxo de acordo com um perfil pr-definido do usurio, geralmente esttico. O problema pode ser abordado com modelagem clssica, mas existem pequenas diferenas devido ao fato dos documentos serem dinmicos, geralmente grandes, e das necessidades do usurio serem relativamente estticas. Os sistemas de filtragem de informao geralmente do uma maior nfase na representao das necessidades do usurio, isto , na definio do perfil do usurio, o que difere dos sistemas de recuperao de informao. Alm disso, um problema que parece alcanar maior destaque em filtragem do que em
Mesmo com as interfaces mais avanadas, com relao a interao com o usurio, expressar uma necessidade de informao uma tarefa difcil. Existe uma distncia semntica entre a real necessidade do usurios e o que ele expressa na consulta formulada. Esta distncia provocada principalmente pelo limitado conhecimento do usurio no universo da pesquisa. Alm do problema de formulao da consulta, o grande volume de dados presentes nos sistemas de recuperao de informao atuais implica que a apresentao dos resultados para o usurio tambm uma tarefa difcil. Facilitar a formulao de consulta e a apresentao dos dados so problemas estudados na rea de
visualizao. O objetivo desenvolv er mecanismos para apresentar visualmente os dados ao usurio, bem como permitir que este explore os dados de forma amigvel. Experincias com abordagens alternativas de visualizao no contexto de recuperao de informao, com melhorias de desempenho dos sistemas, so apresentadas em [Dubin (1995)], onde feita uma anlise de interfaces desenvolvidas especificamente para visualizao de documentos, e [Nowell (1996)], onde so levantadas algumas alternativas de clculos para a similaridade entre documentos e consultas, e seus efeitos na visualizao dos resultados. 6 Concluso Neste artigo, foi apresentada uma viso geral de modelagem em sistemas de recuperao de informao, onde foram descritos os trs modelos clssicos. Alm dos modelos, alguns tpicos relacionados a rea de recuperao de informao foram brevemente apresentados. O estudo da rea de recuperao de informao de grande utilidade para a comunidade de sistemas de informaes em geral. De fato, com a exploso do nmero de documentos e usurios na Web, modelos para recuperao precisa de informaes passaram a ser de muito maior importncia. 7 Referncia Bibliogrfica Allen, R. B. (Ed) ACM Transactions on Informatios Systems Special Isuue on Text Categorization, Vol. 12, No 3,1994. Belkin, J. N. & Croft, B. W. Information Retrieval and Information Filtering: Two sides of the same Coin?, Comunications of the ACM, Vol. 35, No 12,1992. Biwas, G., Bezdek, J., Marques, M. & Subramanian, V. Knowledge-Assisted Document Retrieval: II. The Retrieval Process, Journal of the American Society for Information Science (JASIS), Vol. 38, No 2, 1987. Bookestein, A. Fuzzy Re quests: An Approach to Weighted Boolean Searches, Journal of the American Society for Information Science (JASIS), Vol. 31, No 7, 1980. Callan, J. P. Passage-Level Evidence in Document Retrieval, Proceedings of the 19th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1996. Dubin, D. Document Analysis for Visualization, Proceedings of the 18th ACM Conference on
Research and Development in Information Retrieval (SIGIR), 1995. Frakes, W. B. & Baeza-Yates, R. Information Retrieval Data Structures & Algorithms, Prentice Hall, 1992. Gey, F. Models in Information Retrieval. Folders of Tutorial Presented at the 19th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1992. Harman, D. Relevance Feedback Revisited, Proceedings of the 15th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1992. Harman, D. Overview of the Third Text REtrieval Conference(TREC-3), http://wwwnlpir.nist.gov/TREC/t3_proceedings.html, 1993. Kwok, K. L. A Network Approach to Probabilistic Information Retrieval, ACM Transactions on Information Systems, Vol. 13, No 3, 1995. Nowell, L. T., France, R. K., Hix, D., Heath, L. S. & Fox, E. A. Visualization Search Results: Some Alternatives to Query-Document Similarity, Proceedings of the 19 th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1996. Robertson, S. E. & Spark Jones, K. Relevance Weighting of Search Terms, Journal of the American Society for Information Science (JASIS), Vol. 27, No 3, 1976. Salton, G. & Bucckley, C. Term-weighting approaches in Automatic Retrieval, Information Processing & Management, Vol. 24, No 5, 1988. Salton, G. Automatic Text Processing: The Transformation, Analisys, and Retrieval of Information by Computer, Addison Wesley, 1989. Van Rijsbergen, C. J. Information Butterworths, 2nd edition, 1979. Retrieval,
Xu, J. & Croft, B. W. Query Expansion Using Local and Global Document analysis, Proceedings of the 19th ACM Conference on Research and Development in Information Retrieval (SIGIR), 1996. Yang, Y.. & Chute, C. G. An Example-Based Mapping Method for Text Categorization and Retrieval, ACM Transactions on Informatios Systems Special Isuue on Text Categorization, Vol. 12, No 3, 1994.

Art 07

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Art 07

Caricato da

Copyright:

Formati disponibili

Recuperao de Informao

PROCESSO DE ESPECIFICAO DE CONSULTA

Uma representao dos documentos

Lista de documentos recuperados

Figura 1: Componentes de um sistema de recuperao de informao

Figura 2: Processo de avaliao de um sistema de recuperao de informao

O modelo probabilstico considera um processo iterativo de estimativas da probabilidade de relevncia.

Este fator minimiza a mdia do erro probabilstico.

Categorizao e extrao de informao

Potrebbero piacerti anche