Sei sulla pagina 1di 15

Minerao de Textos

Processos

Anlise de dados armazenados em formato no estruturado


Minerao de textos um conjunto de mtodos usados para navegar, organizar, achar e descobrir informaes em bases de textos. Envolve a aplicao de algoritmos computacionais que processam textos e identicam informaes teis e implcitas,que normalmente no poderiam ser recuperadas utilizando mtodos tradicionais de consulta,pois a informao contida nestes textos no pode ser obtida de forma direta, uma vez que, em geral, esto armazenadas em formato no estruturado. KDT (Knowledge Discovery from Text - KDT - Descoberta de conhecimento de textos) engloba tcnicas e ferramentas inteligentes e automticas que auxiliam na anlise de grandes volumes de dados com o intuito de garimparconhecimento til, beneciando no somente usurios de documentos eletrnicos da Internet, mas qualquer domnio que utiliza textos no estruturados.

Tipos de Descoberta de Conhecimento

Etapas do processo de minerao de textos

Denio do tipo de abordagem dos dados (anlise semntica ou estatstica)


Anlise semntica - Este tipo de anlise emprega tcnicas que avaliam a seqncia dos termos no contexto dos textos, no sentido de identicar qual a sua funo Anlise estatstica - Neste tipo de anlise, a importncia de um termo dada pelo nmero de vezes que este aparece no texto. Basicamente, seu processo envolve aprendizado estatstico a partir de dados, que normalmente inclui as etapas de codicao dos dados, estimativa dos dados e modelos de representao de documentos.

Preparao dos dados


O Sistema de Recuperao de Informaes textuais (SRI Textual) um sistema desenvolvido para indexar e recuperar documentos do tipo textual. Nesse tipo de sistema, as consultas so descritas atravs de palavras (termo). Os documentos relevantes a essa consulta so selecionados de acordo com a quantidade de palavras semelhantes. Este sistema possui um mecanismo de Anlise de Relevncia (ltro) sobre um conjunto de documentos, retornando ao seu usurio o resultado de um problema particular. Quem faz essa anlise de relevncia uma funo denominada Funo de Similaridade. Essa funo busca identicar uma relao entre os termos da consulta e os termos dos documentos.

Existem vrios mtodos de clculo de similaridade: Booleano Espao Vetorial Probabilstico O difuso (fuzzy) Busca direta Aglomerados(clusters) Lgico Contextual ou conceitual

Processo de minerao de dados em textos

Indexao e Normalizao
O objetivo principal da indexao e normalizao dos textos facilitar a identicao de similaridade de signicado entre suas palavras, considerando as variaes morfolgicas. Nessa fase as caractersticas dos documentos so adicionadas ao SRI (Sistema de Recuperao de informao). Em minerao de textos, a indexao um processo automtico. Este processo tem como resultado a gerao de um ndice que facilita a localizao de informaes.

Etapas do processo de indexao automtica

Stopwords termos irrelevante Stemming remoo de termos com o mesmo radical. Vantagem: rpida indexao e arquivo de ndice pequeno.

Identicao de Termos
Esta fase tem como objetivo principal a identicao dos termos contidos no texto, sejam eles simples ou compostos. Remoo de Stopwords Esta fase envolve a eliminao de algumas palavras que no devem ser consideradas no documento, conhecidas como stopwords. Stopwords so palavras consideradas no relevantes na anlise de textos, justamente por no traduzirem sua essncia. Normalizao Morfolgica (Stemming) Durante o processo de indexao, dependendo do caso, torna-se interessante eliminar as variaes morfolgicas de uma palavra. Elas so eliminadas atravs da identicao do radical de uma palavra. Os prexos e os suxos so retirados e os radicais resultantes so adicionados ao ndice.

Clculo de relevncia
O clculo de relevncia de uma palavra em relao ao texto em que est inserido pode basear-se na freqncia da mesma, na anlise estrutural do documento ou na sua posio sinttica.

Seleo de Termos
Etapa de seleo das palavras retiradas do texto, aps o pr-processamento e clculo da relevncia. Esta tcnica pode ser baseada no peso dos termos ou na sua posio sinttica em relao ao texto.

Anlise de Resultados
Esta fase envolve a aplicao de tcnicas de anlise dos resultados de um sistema de recuperao de informaes. Esta anlise pode ser realizada com base em tcnicas de uma rea conhecida como bibliometria, que uma sub-rea da biblioteconomia encarregada de estudar e aplicar mtodos matemticos e estatsticos em ordenao e busca de documentos . A eficincia e a eficcia de um SRI avaliada de acordo com sua capacidade em recuperar o mximo de itens relevantes ao mesmo tempo que filtra o maior nmero de itens irrelevantes.

Mtricas de anlise de SRI


As principais so: Recall: Habilidade do SRI de recuperar os documentos mais relevantes. Precision: Habilidade do SRI de manter os documentos irrelevantes fora do resultado de uma consulta. Fall-out : Mede a quantidade de documentos irrelevantes. Permitindo verificar se a quantidade de documentos relevantes permanece o mesmo quando o nmero de documentos varia. Effort: Mede o esforo gasto pelo usurio durante o processo de busca, desde a preparao da consulta at a anlise do resultado ou seja toda a interao do usurio com o sistema.

Minerao de texto difere de um mecanismo de busca?


Sim, na busca o usurio j tem conhecimento do que deseja encontrar enquanto que a minerao de textos auxilia na descoberta de informaes desconhecidas.

Potrebbero piacerti anche