Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ou
Mineração de Dados
1
Aprendizado
Exemplos de Máquina
(AM)
Data Mining BC
(DM)
Dados
Knowledge
Discovery
in Database
(KDD)
2
Idade Motivo Duração Valor Risco
45 Carro 36 10,000 Baixo
20 Negoc. 20 35,000 Alto
37 Casa 40 30,000 Baixo
29 Carro 24 25,000 Alto
66 Mobil. 10 7,000 Alto
39,4
3
Data Mining (DM) refere-se ao processo de
extrair conhecimento de bases de dados, ou
seja, trabalhar com grandes quantidades de
dados com o objetivo de extrair significado e
descobrir novos conhecimentos.
4
NIKE
WAL MART
PRÉ-PROCESSAMENTO
EXTRAÇÃO
DE PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
PÓS-PROCESSAMENTO
UTILIZAÇÃO DO
CONHECIMENTO
5
Estudo do domínio da aplicação;
Definidos objetivos e metas a
serem alcançados;
Identificados e selecionados os
conjuntos de dados.
IDENTIFICAÇÃO
DO PROBLEMA
PRÉ-
PROCESSAMENTO
Obtenção e unificação;
Transformação;
IDENTIFICAÇÃO
DO PROBLEMA Limpeza;
Redução do volume de dados:
redução do número de exemplos;
redução do número de atributos;
redução do número de valores de
um atributo.
6
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
Escolha da função:
descritiva ou preditiva
Escolha do algoritmo:
algoritmo e parâmetros
Obtenção de padrões:
aplicação do algoritmo aos dados
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
Interpretação e explanação:
documentado;
PÓS-
PROCESSAMENTO visualizado;
modificado;
comparado.
7
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
Filtragem do conhecimento:
pós-poda;
PÓS-
PROCESSAMENTO truncagem;
restrição de atributos;
ordenação por métricas.
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
Avaliação:
precisão;
PÓS-
PROCESSAMENTO compreensibilidade;
interessabilidade.
8
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
PÓS-
PROCESSAMENTO
PROCESSO
ITERATIVO E INTERATIVO
PRÉ-
PROCESSAMENTO EXTRAÇÃO
DE
PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
O objetivo maior do processo de
Extração de Conhecimento é o
uso do conhecimento obtido, seja
PÓS-
UTILIZAÇÃO DO
em um Sistema Inteligente, seja
PROCESSAMENTO
CONHECIMENTO diretamente pelo usuário final
para apoio a algum processo de
decisão.
9
PRÉ-PROCESSAMENTO
EXTRAÇÃO
DE PADRÕES
IDENTIFICAÇÃO
DO PROBLEMA
PÓS-PROCESSAMENTO
UTILIZAÇÃO DO
CONHECIMENTO
Grande volume
de dados
Terabytes ou até
PentaBytes (1015
bytes)
Base de
Dados
10
A exploração normalmente começa com a
identificação de uma necessidade!
Necessidade:
11
Atividade preditivas
• Classificação
• Regressão
Atividades descritivas
• Regras de associação
• Sumarização
• Clustering
• etc.
Aprendizado de máquina
Estatística
Arquiteturas
Visualização
Sistemas de suporte à decisão
Gerenciamento de dados
Data warehouse e OLAP
12
Técnicas simbólicas: Árvores de decisão e
Regras de decisão
Algoritmos genéticos
Redes neurais
Técnicas de preparação de dados para
mineração
Ferramentas para Data Mining
Text Mining
Web Mining
Recuperação de Informação
13
DM é muito útil quando há dados disponíveis.
Exemplos como Wal Mart nos Estados Unidos,
demonstram que DM e TI funcionam.
Um dos grandes problemas de DM está
relacionado com a utilização/criação dos
algoritmos para grande volume de dados.
A presença de especialistas nos dados é muito
importante no processo DM.
Se o custo da descoberta é maior que o ganho,
o esforço pode não justificar!
14
FIM
15