Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Sumrio
Sumrio.................................................................................................................3 KDD Knowledge Discovery................................................................................4
1 - Data Warehouse (Armazm de Dados) ..............................................5 2 Seleo...............................................................................................5 3 - Pr-processamento.............................................................................5 4 Transformao .................................................................................5 5 Minerao .........................................................................................5 6 - Interpretao ....................................................................................6 Data Mining.................................................................................................6
Referncias Bibliogrficas:...................................................................................9
Figura 1 1 - Data Warehouse (Armazm de Dados) E estabelece um telhado virtual sob o qual se integram a diferentes bases de dados. 2 Seleo a etapa que consiste na anlise dos dados existentes e na seleo daqueles a serem utilizados na busca por padres e na gerao de conhecimento novo. 3 - Pr-processamento Consiste no tratamento e na preparao dos dados para uso pelos algoritmos. Nesta etapa devemos identificar e retirar valores invlidos, inconsistentes ou redundantes. 4 Transformao Consiste em aplicar, quando necessrio, alguma transformao linear ou mesmo no linear nos dados, de forma a encontrar aqueles mais relevantes para o problema em estudo. Nesta etapa geralmente so aplicadas tcnicas de reduo de dimensionalidade e de projeo dos dados. 5 Minerao Consiste na busca por padres atravs da aplicao de algoritmos e tcnicas computacionais especficas.
6 - Interpretao Consiste na anlise dos resultados da minerao e na gerao de conhecimento pela interpretao e utilizao dos resultados em benefcio do negcio.
Data Mining
6
Data Mining - DM, ou minerao de dados, uma das principais etapas de um processo de KDD. Consiste na construo de modelos computacionais para a descoberta automtica de novos fatos e relacionamentos entre dados, a partir da aplicao repetida e muitas vezes interativa, de algoritmos de busca. A eficincia de um processo de data mining est no potencial de ganho para a empresa a ser gerado pelas informaes extradas. importante no confundir data mining com complexas estruturas de consulta a bases de dados, onde o usurio j possua alguma hiptese e deseja apenas extrair material para manualmente verificar e confirmar a validade de sua hiptese. A idia central em data mining a de que seus algoritmos atuem eles prprios como mineiros e sejam capazes de automaticamente identificar a existncia de padres e relacionamentos desconhecidos, que ao serem analisados posteriormente, possam suscitar e induzir a gerao de hipteses teis e relevantes para o usurio. Data Mining a concepo de modelos computacionais capazes de identificar e revelar padres desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados distintas um Data Warehouse. A distino entre um modelo e um padro pode ser explicada como o padro sendo um caso especfico de um modelo, ou o modelo sendo a generalizao de um padro. O processo de KDD e mais especificamente o de DM representa uma forma de capitalizar o investimento necessrio para o armazenamento de grandes volumes de dados, tentando, por exemplo, descobrir padres de comportamento de clientes para fins de concesso de crdito, ou identificando estilos de aes fraudulentas em administradoras de carto de crditos. Atravs da mdia, alguns exemplos clssicos se popularizaram como o da associao de produtos comprados em uma mesma cesta de supermercados (fraldas com cerveja). O grande problema nesta abordagem que alm da possibilidade de garimpar relacionamentos inteis, o nmero de correlaes possveis de serem obtidas tende a ser muito grande, o que impede a anlise exaustiva de cada uma. A soluo usar algoritmos e tcnicas inteligentes que possam identificar e selecionar automaticamente os casos mais relevantes para cada aplicao. O processo de data mining difere das tcnicas de OLAP j bastante difundidas na literatura, enquanto estas oferecem meios para consolidar os dados em vrios nveis, trabalhando-os em mltiplas dimenses, a tcnica de data mining busca mais do que a interpretao dos dados existentes, visa fundamentalmente inferir e generalizar possveis fatos e correlaes no percebidas nem facilmente deduzidas.
Um Sistema de Informao (SI) para um centro de sade tem como finalidade maior criar a Intra-estrutura para atender os requisitos de assistncia mdica, para o ensino, pesquisa e para atender os aspectos administrativos (3). A partir de um SI consistente e sedimentado, as atividades de pesquisa com as informaes armazenadas tornam-se um enfoque de grande importncia para a rea da sade. De um modo geral as pesquisas baseadas em grandes volumes de dados na rea da sade vem sendo norteadas a partir de uma perspectiva descritiva e preditiva, onde a Estatstica, com toda sua fundamentao matemtica, uma ferramenta bem difundida e aceita. Mas a facilidade de se armazenar a informao em grande quantidade est fazendo com que muitos pesquisadores perguntem: Agora que temos muitos dados, o que faremos com eles? e novas metodologias para extrao de conhecimento esto sendo estudadas, dentre elas a metodologia Data Mining (3,4,5). Nos anos 70, num esforo de se adquirir conhecimento das bases de dados acumuladas, inicia-se a inter disciplina KDD (Knowledge in Data Discovery), englobando recursos de estatstica, reconhecimento de padres, mquinas de aprendizado e mtodos de visualizao para se obter formas de regras, para dar suporte de anlise de dados e descobrir princpios que esto embutidos nestes dados. Entretanto esta tcnica, at o presente momento tem tido pouca popularidade na comunidade interessada em problemas da sade (5,6). KDD e Data Mining so essencialmente tcnicas de Inteligncia Artificial (IA). Com efeito, ler grandes volumes de dados e extrair conhecimento exige inteligncia. Para facilitar, apresentaes grficas so algumas vezes empregadas quando este conhecimento pode ser extrado com tcnicas estatsticas. Entretanto, como ser visto mais adiante, em muitos casos outras tcnicas so mais adequadas, embora ainda no estejam sendo muito utilizadas. As pesquisas envolvendo Inteligncia Artificial na rea da sade concentram seus esforos no desenvolvimento de sistemas especialistas para auxlio ao diagnstico, onde o conhecimento todo adquirido atravs da experincia do especialista. Para montar a base de conhecimento, so montadas as regras com um primeiro formalismo para expressar o conhecimento de uma maneira simblica. As regras tm a vantagem de serem um formalismo simples, uniforme, transparente, e fcil de fazer inferncias. Isto leva a supor ser esta a melhor maneira de representar o conhecimento do mundo real. As regras podem ser Eli citadas diretamente do domnio dos especialistas, e expressas atravs do grau de abstrao do especialista. Esta metodologia pode apresentar alguma inconsistncia, pois em alguns casos o especialista no tem a compreenso global sobre a organizao das regras de uma forma hierarquizada. Para solucionar o problema das falhas encontradas na extrao do conhecimento a partir dos especialistas, as pesquisas em IA esto voltadas para a incluso da inteligncia nos SI, o que resultaria na obteno do conhecimento a partir dos dados reais armezanado no SI.
Referncias Bibliogrficas:
http://equipe.nce.ufrj.br/thome/grad/nn/mat_didatico/apostila_kdd_mbi.pdf
www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula1.pdf equipe.nce.ufrj.br/thome/grad/nn/mat.../apostila_kdd_mbi.pdf