Sei sulla pagina 1di 43

Descoberta de Conhecimento em Banco de Dados KDD

Prof. MSc. Rodrigo Ayres


1

Roteiro
Motivao Exemplo preliminar Conceitos bsicos Processo de kdd Mtodos de minerao de dados

Tcnicas
Exemplos Referncias

Gesto do Conhecimento
Uma deciso estratgica para o negcio depende das informaes disponveis ao gestor de uma organizao, da capacitao que este possui de interpret-las e da experincia para associ-las de maneira conveniente.

A nica vantagem sustentvel de uma empresa o que ela coletivamente sabe, a eficincia com que ela usa o que sabe e a prontido com que ela adquire e usa novos conhecimentos.

Gesto do Conhecimento
Informao o resultado do processamento de dados num formato que tem significado para o usurio respectivo e que tem valor real ou potencial nas decises presentes ou prospectivas.

GC significa organizar os processos e ferramentas gerenciais de forma a melhorar a compreenso dos processos de gerao, identificao, validao e uso dos conhecimentos estratgicos:
para gerar resultados (econmicos) para a empresa e benefcios para os colaboradores internos e externos. Visa a maximizao da competitividade;
4

Motivao
A informatizao dos meios produtivos permitiu a gerao de

grandes volumes de dados:


Transaes eletrnicas; Novos equipamentos cientficos e industriais para observao e controle; Dispositivos de armazenamento em massa;
Aproveitamento da informao permite ganho de

competitividade: conhecimento poder (e poder = $$!)

Motivao

Motivao
Os recursos de anlise de dados tradicionais so inviveis para

acompanhar esta evoluo Morrendo de sede por conhecimento em um oceano de dados

Motivao

Motivao
Soluo:

ferramentas de automatizao das tarefas repetitivas e sistemtica de anlise de dados ferramentas de auxlio para as tarefas cognitivas da anlise integrao das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de deciso

Motivao

Exemplo Preliminar
Um problema do mundo dos negcios: entender o perfil dos

clientes
desenvolvimento de novos produtos; controle de estoque em postos de distribuio; propaganda mal direcionada gera maiores gastos e desestimula o possvel interessado a procurar as ofertas adequadas;
Quais so meus clientes tpicos?

Exemplo

Descoberta de Conhecimento em Bancos de Dados


O processo no trivial de extrao de informaes implcitas,

anteriormente desconhecidas, e potencialmente teis de uma fonte de dados; Torture os dados at eles confessarem; O que um padro interessante ? (vlido, novo, til e interpretvel)

Conceitos

KDD x Data Mining


Minerao de dados o passo do processo de KDD que

produz um conjunto de padres sob um custo computacional aceitvel; KDD utiliza algoritmos de data mining para extrair padres classificados como conhecimento. Incorpora tambm tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretao de resultados;

10

Conceitos

Etapas do Processo
Seleo Pr-processamento Transformao Data mining (aprendizagem) Interpretao e Avaliao

11

Processo

Processo mnimo de descoberta do conhecimento


Compreenso do domnio e dos objetivos da tarefa; Criao do conjunto de dados envolvendo as variveis necessrias;

12

Processo

Seleo de Dados
Selecionar ou segmentar

dados de acordo com critrios

definidos:

Ex.: Todas as pessoas que so proprietrias de carros um subconjunto de dados determinado.

13

Processo

Processo mnimo
Operaes como identificao de rudos, outliers, como tratar falta de dados em alguns campos, etc.

14

Processo

Pr-Processamento
Estgio de limpeza dos dados, onde informaes julgadas

desnecessrias so removidas. Reconfigurao dos dados para assegurar formatos consistentes (identificao)
Ex. : sexo = F ou M sexo = M ou H

15

Processo

Processo mnimo
Reduo de dimensionalidade, combinao de atributos;

16

Processo

Transformao
Transformam-se os dados em formatos utilizveis. Esta

depende da tcnica data mining usada.

Disponibilizar

os dados de maneira usvel e

navegvel.

17

Processo

Processo mnimo
Escolha e execuo do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida

18

Processo

Data Mining
a verdadeira extrao dos padres de comportamento

dos dados

19

Processo

Processo mnimo
Interpretao dos resultados, com possvel retorno aos passos anteriores;

20

Consolidao: incorporao e documentao do conhecimento e comunicao aos interessados;

Processo

Interpretao e Avaliao
Identificado os padres pelo sistema, estes

so interpretados em conhecimentos, os quais daro suporte a tomada de decises humanas

21

Processo

Mtodos de minerao de dados


Mtodos

de minerao de dados normalmente so extenses ou combinaes de uns poucos mtodos fundamentais; cada algoritmo possui sua prpria tendncia indutiva;

Porm, no vivel a criao de um nico mtodo universal:

22

Mtodos

KDD
O KDD um processo cujo objetivo a descoberta de conhecimento til. Esse conhecimento depende dos dados a serem analisados e do tipo de informao que ser obtida, na etapa de MD. Essas informaes esto relacionadas a duas categorias de padres: descritivos e preditivos.

Tarefas
Sendo assim, necessrio que se defina o que se chama de Tarefa de MD. O tipo de tarefa deve ser definido logo no incio do processo, devendo estar de acordo com o conhecimento que se queira obter.

Tarefas
As tarefas podem ser classificadas em duas categorias: descritivas e preditivas.
Descritivas: caracterizam as propriedades gerais dos dados na base de dados.

Preditivas: fazem inferncias nos dados presentes, para fazer predies sobre dados futuros.

Tarefas
As principais tarefas so:
Associao; Agrupamento; Classificao; Regresso.

Tarefas Preditivas: Regresso e Classificao; Tarefas Descritivas: Associao e Agrupamento.

Tarefas bsicas
Previso

Clculo de variveis de interesse a partir dos valores de um conjunto de variveis de explicao; comumente visada em aprendizado de mquina/estatstica; Exemplos: classificao e regresso;

27

Mtodos

Tarefas bsicas
Descrio

Reportar relaes entre as variveis do modelo de forma simtrica; princpio, est mais relacionada ao processo de KDD; Exemplos: agrupamento, sumarizao (incluindo sumrio de textos), dependncias, anlise de desvio;

28

Mtodos

Exemplo de previso (I)


Anlise de crdito
sem crdito o o o x o o o o

Um hiperplano paralelo de separao: pode ser interpretado diretamente como uma regra:
se a renda menor que t, ento o crdito no deve ser liberado

x
x x

x
o o o

Exemplo:
rvores de deciso; induo de regras

dbito

t
x: exemplo recusado o: exemplo aceito

renda
29

Mtodos

Exemplo de previso (II)


Anlise de crdito
sem crdito o o o x o o o o

Hiperplano oblquo: melhor separao: Exemplos:


regresso linear; perceptron; o

x
x x

x
o o

dbito

t
x: exemplo recusado o: exemplo aceito

renda
30

Mtodos

Exemplo de previso (III)


Anlise de crdito
sem crdito o o o x o o o o

x
x x

x
o o o

Superfcie no linear: melhor poder de classificao, pior interpretao; Exemplos:


perceptrons multicamadas; regresso no-linear;

dbito

t
x: exemplo recusado o: exemplo aceito

renda
31

Mtodos

Exemplo de previso (IV)


Anlise de crdito
sem crdito o o o x o o o o

Mtodos baseado em exemplos; Exemplos:


k-vizinhos mais prximos; raciocnio baseado em casos;

x
x x

x
o o o

dbito

t
x: exemplo recusado o: exemplo aceito

renda
32

Mtodos

Exemplo de descrio (I)


Anlise de crdito
+ + + + + + + +

Agrupamento Exemplo:
vector quantization;

+
+ +

+
+ + +

dbito

t
+: exemplo

renda
33

Mtodos

Exemplo de descrio (II)


Regras de associao

98% dos consumidores que adquiriram pneus e acessrios de automveis tambm se interessaram por servios automotivos; descoberta simtrica de relaes, ao contrrio de mtodos de classificao

qualquer atributo pode ser uma classe ou um atributo de discriminao;

34

Mtodos

Exemplos
reas de aplicaes potenciais:
Vendas e Marketing
Identificar padres de comportamento de consumidores Associar comportamentos caractersticas demogrficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores leais

35

Exemplos

Exemplos
reas de aplicaes potenciais:

Bancos
Identificar padres de fraudes (cartes de crdito) Identificar caractersticas de correntistas Mercado Financeiro ($$$)

36

Exemplos

Exemplos
reas de aplicaes potenciais
Mdica
Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de sades Comportamento de usurios de planos de sade

37

Exemplos

Introduo
Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ?
homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas s sextas-feiras tarde no caminho do trabalho para casa;

Wal-Mart otimizou s gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas;
Resultado: o consumo cresceu 30% .

38

Exemplos

Exemplos
Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milho de dlares em tcnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas:

Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente eltrica 220v
39

Exemplos

Exemplos
Exemplo (3) - Bank of America (Info 03/98)
Selecionou entre seus 36 milhes de clientes
Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em trs anos o banco lucrou 30 milhes de dlares com a carteira de emprstimos.

40

Exemplos

Exemplos
Empresas de software para Data mining:

SAS Information Havesting Red Brick Oracle Sybase Informix

http://www.sas.com http://www.convex.com

http://www.redbrick.com http://www.oracle.com http://www.sybase.com http://www.informix.com

IBM

http://www.ibm.com
41

Exemplos

Concluses
Data mining um processo que permite compreender o comportamento dos dados. Data mining analisa os dados usando tcnicas de aprendizagem para encontrar padres e regulariedades nestes conjuntos de dados. um problema pluridisciplinar, envolve Inteligncia Artificial, Estatstica, Computao Grfica, Banco de Dados. Pode ser bem aplicado em diversas reas de negcios
42

Concluses

Referncias
Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994. http://www-pcc.qub.ac.uk/tec/courses/datamining http://www.rio.com.br/~extended http://www.datamining.com http://www.santafe.edu/~kurt http://www.datamation.com http://www-dse.doc.ic.ac.uk/~kd http://www.cs.bham.ac.uk/~anp http://www.dbms.com http://www.infolink.com.br/~mpolito/mining/mining.html http://www.lci.ufrj.br/~labbd/semins/grupo1
43

Referncias

Potrebbero piacerti anche