Sei sulla pagina 1di 9

Aplicaes na Medicina da KDD (Data mining) no Mundo

Aluno: Fbio Lima de Aguiar

Anlise e Desenvolvimento de Sistemas

Nova Iguau 2011

Fbio Lima de Aguiar

Aplicaes na Medicina da KDD (Data mining) no Mundo

Nova Iguau 2011

Sumrio
Sumrio.................................................................................................................3 KDD Knowledge Discovery................................................................................4
1 - Data Warehouse (Armazm de Dados) ..............................................5 2 Seleo...............................................................................................5 3 - Pr-processamento.............................................................................5 4 Transformao .................................................................................5 5 Minerao .........................................................................................5 6 - Interpretao ....................................................................................6 Data Mining.................................................................................................6

Referncias Bibliogrficas:...................................................................................9

KDD Knowledge Discovery


O termo KDD Klnowledge Discovery in Databases (descoberta de conhecimento em bases de dados), foi cunhado em 1989 com o objetivo de representar todo o processo de busca e extrao de conhecimento que, em seu nvel mais operacional, inclui a aplicao de tcnicas e algoritmos de data mining (minerao de dados) para manipular e encontrar indcios de correlao ou de implicao em grandes volumes de dados. Como mencionado, ainda no h um consenso sobre o assunto e o que se observa a comunidade formada por estatsticos, analistas de dados e desenvolvedores de sistemas de informao gerencial adotar o termo data mining para denominar as mesmas atividades e procedimentos que a comunidade de inteligncia artificial descreve como KDD. KDD, portanto, se caracteriza por ser um processo no trivial, que busca gerar conhecimento que seja novo e potencialmente til para aumentar os ganhos, reduzir os custos ou melhorar o desempenho do negcio, atravs da procura e da identificao de padres a partir de dados armazenados em bases muitas vezes dispersas e inexploradas. KDD segundo este enfoque, envolve a avaliao e interpretao dos resultados visando a tomada de decises sobre o que constitui conhecimento e o que no constitui conhecimento. Ele tambm inclui a escolha do esquema de modelagem do problema e de codificao, amostragem, pr-processamento e projeo dos dados. Data mining, por outro lado, considerado como uma etapa do KDD, consistindo de algoritmos e tcnicas especficas que, dentro das limitaes e de uma eficincia computacional aceitvel, capaz de produzir como resultado um modelo e a enumerao de padres que se correlacionem com determinados fatos ou fenmenos. O processo de KDD interativo e iterativo, envolvendo uma srie de etapas onde cada uma pode requerer do usurio capacidade de anlise e de tomada de deciso. As principais fases do processo so:

Figura 1 1 - Data Warehouse (Armazm de Dados) E estabelece um telhado virtual sob o qual se integram a diferentes bases de dados. 2 Seleo a etapa que consiste na anlise dos dados existentes e na seleo daqueles a serem utilizados na busca por padres e na gerao de conhecimento novo. 3 - Pr-processamento Consiste no tratamento e na preparao dos dados para uso pelos algoritmos. Nesta etapa devemos identificar e retirar valores invlidos, inconsistentes ou redundantes. 4 Transformao Consiste em aplicar, quando necessrio, alguma transformao linear ou mesmo no linear nos dados, de forma a encontrar aqueles mais relevantes para o problema em estudo. Nesta etapa geralmente so aplicadas tcnicas de reduo de dimensionalidade e de projeo dos dados. 5 Minerao Consiste na busca por padres atravs da aplicao de algoritmos e tcnicas computacionais especficas.

6 - Interpretao Consiste na anlise dos resultados da minerao e na gerao de conhecimento pela interpretao e utilizao dos resultados em benefcio do negcio.

Data Mining
6

Data Mining - DM, ou minerao de dados, uma das principais etapas de um processo de KDD. Consiste na construo de modelos computacionais para a descoberta automtica de novos fatos e relacionamentos entre dados, a partir da aplicao repetida e muitas vezes interativa, de algoritmos de busca. A eficincia de um processo de data mining est no potencial de ganho para a empresa a ser gerado pelas informaes extradas. importante no confundir data mining com complexas estruturas de consulta a bases de dados, onde o usurio j possua alguma hiptese e deseja apenas extrair material para manualmente verificar e confirmar a validade de sua hiptese. A idia central em data mining a de que seus algoritmos atuem eles prprios como mineiros e sejam capazes de automaticamente identificar a existncia de padres e relacionamentos desconhecidos, que ao serem analisados posteriormente, possam suscitar e induzir a gerao de hipteses teis e relevantes para o usurio. Data Mining a concepo de modelos computacionais capazes de identificar e revelar padres desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados distintas um Data Warehouse. A distino entre um modelo e um padro pode ser explicada como o padro sendo um caso especfico de um modelo, ou o modelo sendo a generalizao de um padro. O processo de KDD e mais especificamente o de DM representa uma forma de capitalizar o investimento necessrio para o armazenamento de grandes volumes de dados, tentando, por exemplo, descobrir padres de comportamento de clientes para fins de concesso de crdito, ou identificando estilos de aes fraudulentas em administradoras de carto de crditos. Atravs da mdia, alguns exemplos clssicos se popularizaram como o da associao de produtos comprados em uma mesma cesta de supermercados (fraldas com cerveja). O grande problema nesta abordagem que alm da possibilidade de garimpar relacionamentos inteis, o nmero de correlaes possveis de serem obtidas tende a ser muito grande, o que impede a anlise exaustiva de cada uma. A soluo usar algoritmos e tcnicas inteligentes que possam identificar e selecionar automaticamente os casos mais relevantes para cada aplicao. O processo de data mining difere das tcnicas de OLAP j bastante difundidas na literatura, enquanto estas oferecem meios para consolidar os dados em vrios nveis, trabalhando-os em mltiplas dimenses, a tcnica de data mining busca mais do que a interpretao dos dados existentes, visa fundamentalmente inferir e generalizar possveis fatos e correlaes no percebidas nem facilmente deduzidas.

Aplicaes na Medicina da KDD


7

Um Sistema de Informao (SI) para um centro de sade tem como finalidade maior criar a Intra-estrutura para atender os requisitos de assistncia mdica, para o ensino, pesquisa e para atender os aspectos administrativos (3). A partir de um SI consistente e sedimentado, as atividades de pesquisa com as informaes armazenadas tornam-se um enfoque de grande importncia para a rea da sade. De um modo geral as pesquisas baseadas em grandes volumes de dados na rea da sade vem sendo norteadas a partir de uma perspectiva descritiva e preditiva, onde a Estatstica, com toda sua fundamentao matemtica, uma ferramenta bem difundida e aceita. Mas a facilidade de se armazenar a informao em grande quantidade est fazendo com que muitos pesquisadores perguntem: Agora que temos muitos dados, o que faremos com eles? e novas metodologias para extrao de conhecimento esto sendo estudadas, dentre elas a metodologia Data Mining (3,4,5). Nos anos 70, num esforo de se adquirir conhecimento das bases de dados acumuladas, inicia-se a inter disciplina KDD (Knowledge in Data Discovery), englobando recursos de estatstica, reconhecimento de padres, mquinas de aprendizado e mtodos de visualizao para se obter formas de regras, para dar suporte de anlise de dados e descobrir princpios que esto embutidos nestes dados. Entretanto esta tcnica, at o presente momento tem tido pouca popularidade na comunidade interessada em problemas da sade (5,6). KDD e Data Mining so essencialmente tcnicas de Inteligncia Artificial (IA). Com efeito, ler grandes volumes de dados e extrair conhecimento exige inteligncia. Para facilitar, apresentaes grficas so algumas vezes empregadas quando este conhecimento pode ser extrado com tcnicas estatsticas. Entretanto, como ser visto mais adiante, em muitos casos outras tcnicas so mais adequadas, embora ainda no estejam sendo muito utilizadas. As pesquisas envolvendo Inteligncia Artificial na rea da sade concentram seus esforos no desenvolvimento de sistemas especialistas para auxlio ao diagnstico, onde o conhecimento todo adquirido atravs da experincia do especialista. Para montar a base de conhecimento, so montadas as regras com um primeiro formalismo para expressar o conhecimento de uma maneira simblica. As regras tm a vantagem de serem um formalismo simples, uniforme, transparente, e fcil de fazer inferncias. Isto leva a supor ser esta a melhor maneira de representar o conhecimento do mundo real. As regras podem ser Eli citadas diretamente do domnio dos especialistas, e expressas atravs do grau de abstrao do especialista. Esta metodologia pode apresentar alguma inconsistncia, pois em alguns casos o especialista no tem a compreenso global sobre a organizao das regras de uma forma hierarquizada. Para solucionar o problema das falhas encontradas na extrao do conhecimento a partir dos especialistas, as pesquisas em IA esto voltadas para a incluso da inteligncia nos SI, o que resultaria na obteno do conhecimento a partir dos dados reais armezanado no SI.

Referncias Bibliogrficas:
http://equipe.nce.ufrj.br/thome/grad/nn/mat_didatico/apostila_kdd_mbi.pdf
www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula1.pdf equipe.nce.ufrj.br/thome/grad/nn/mat.../apostila_kdd_mbi.pdf