Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Processos
Existem vrios mtodos de clculo de similaridade: Booleano Espao Vetorial Probabilstico O difuso (fuzzy) Busca direta Aglomerados(clusters) Lgico Contextual ou conceitual
Indexao e Normalizao
O objetivo principal da indexao e normalizao dos textos facilitar a identicao de similaridade de signicado entre suas palavras, considerando as variaes morfolgicas. Nessa fase as caractersticas dos documentos so adicionadas ao SRI (Sistema de Recuperao de informao). Em minerao de textos, a indexao um processo automtico. Este processo tem como resultado a gerao de um ndice que facilita a localizao de informaes.
Stopwords termos irrelevante Stemming remoo de termos com o mesmo radical. Vantagem: rpida indexao e arquivo de ndice pequeno.
Identicao de Termos
Esta fase tem como objetivo principal a identicao dos termos contidos no texto, sejam eles simples ou compostos. Remoo de Stopwords Esta fase envolve a eliminao de algumas palavras que no devem ser consideradas no documento, conhecidas como stopwords. Stopwords so palavras consideradas no relevantes na anlise de textos, justamente por no traduzirem sua essncia. Normalizao Morfolgica (Stemming) Durante o processo de indexao, dependendo do caso, torna-se interessante eliminar as variaes morfolgicas de uma palavra. Elas so eliminadas atravs da identicao do radical de uma palavra. Os prexos e os suxos so retirados e os radicais resultantes so adicionados ao ndice.
Clculo de relevncia
O clculo de relevncia de uma palavra em relao ao texto em que est inserido pode basear-se na freqncia da mesma, na anlise estrutural do documento ou na sua posio sinttica.
Seleo de Termos
Etapa de seleo das palavras retiradas do texto, aps o pr-processamento e clculo da relevncia. Esta tcnica pode ser baseada no peso dos termos ou na sua posio sinttica em relao ao texto.
Anlise de Resultados
Esta fase envolve a aplicao de tcnicas de anlise dos resultados de um sistema de recuperao de informaes. Esta anlise pode ser realizada com base em tcnicas de uma rea conhecida como bibliometria, que uma sub-rea da biblioteconomia encarregada de estudar e aplicar mtodos matemticos e estatsticos em ordenao e busca de documentos . A eficincia e a eficcia de um SRI avaliada de acordo com sua capacidade em recuperar o mximo de itens relevantes ao mesmo tempo que filtra o maior nmero de itens irrelevantes.