Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Data Mining
Introdução
Pedro Isaías
e-mail: pisaias@univ-ab.pt
1
O que é Data Mining?
• Data mining (descoberta de conhecimento a partir de
dados)
– Extracção de padrões de interesse (não triviais, implicitos,
previamente desconhecidos e potencialmente úteis) ou
conhecimento de grandes quantidades de dados
• Designações alternativas
– Knowledge Discovery in Databases (KDD), extracção de
conhecimento, análise de dados/análise de padrões,
arqueologia de dados, dragagem de dados, colheita de
i f
informação,
ã business
b i iintelligence,
t lli etc.
t
Starks+Houston+
Ward playing
Shooting
Overall Percentage
0 20 40 60
4
2
Data Mining
Significado do nome
Colheita de Informação
Knowledge Mining
Data Mining
Knowledge Discovery
in Databases Dragagem de Dados
Database Mining
Extracção de Conhecimento
C
Siftware
Machine Inteligência
g
Learning Artificial
Gestão de Bases
de Dados Estatística
Algoritmos Visualização
Data
Mining
3
Data Mining:
Esquemas de Classificação
• Funcionalidade Geral
– Data mining descritivo
– data mining preditivo
Knowledge Discovery in
Databases: Processo
Interpretação/
Avaliação
ç
Pre-processamento
Padrões
Selecção
Dados
Pre-processados
Dados
Dados
Alvo
Adaptado de:
U. Fayyad, et al. (1995), “From Knowledge Discovery to Data
Mining: An Overview,” Advances in Knowledge Discovery and
Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press
4
Visão Multi-Dimensional do
Data Mining
• Bases de Dados a ser alvo do data mining
– Relacionais,
e ac o a s, data warehouse,
a e ouse, transaccionais,
t a sacc o a s, st
stream,
ea ,
orientadas a objectos/relacionais, espaciais, séries
temporais, textuais, multimédia, heterogéneas,
legadas, WWW, etc
Visão Multi-Dimensional do
Data Mining
• Técnicas Utilizadas
– Orientadas a Bases de Dados, data
warehouse (OLAP), machine learning,
estatística, visualização, etc.
• Aplicações
– Retalho, Telecomunicações, banca, análise
de fraudes, bio-data mining, análise de
mercados de acções, Web mining, etc.
10
5
Ingredientes de um Processo
Efectivo de KDD “In order to discover
anything, you must
be looking for
something.” Laws
of Serendipity
Visualização e Interacção
Homem-Computador
Homem Computador
11
Data Mining:
História da Área
• Os Workshops em Knowledge Discovery in Databases
começaram em 1989
– Actualmente existe uma conferência patrocinada pela ACM
SIGKDD
– Existe uma conferência da IEEE que começou em 2001
• Fundadores chave / contribuidores tecnológicos:
– Usama Fayyad, JPL (na altura na Microsoft, agora tem a sua
empresa, Digimine)
– Gregory Piatetsky-Shapiro (na altura na GTE, agora tem a sua
consultora de data mining, a Knowledge Stream Partners)
– Rakesh Agrawal (IBM Research)
12
6
Data Mining:
História da Área
• 1989 IJCAI Workshop on Knowledge Discovery in Databases
(Piatetsky-Shapiro)
– Knowledge Discovery in Databases (G.
(G Piatetsky-Shapiro
Piatetsky Shapiro and W
W.
Frawley, 1991)
• 1991-1994 Workshops on Knowledge Discovery in Databases
– Advances in Knowledge Discovery and Data Mining (U. Fayyad, G.
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
• 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
– Journal of Data Mining and Knowledge Discovery (1997)
• 1998 ACM SIGKDD, SIGKDD’1999-2001 conferências e SIGKDD
E l ti
Explorations
• Mais conferências sobre data mining
– PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), etc.
13
• Outras
O t A
Aplicações
li õ
– Text mining (news group, email, documentos) e Web mining
– Stream data mining
– Análise de DNA e de dados biológicos
14
7
Análise e Gestão de Mercados
(1/2)
• De onde são oriundos os dados?
– Transacções com cartões de crédito, cartões de fidelização,
cupões
õ dde d
desconto,
t chamadas
h d dde reclamação
l ã ddos clientes,
li t
estudos de estilos de vida
• Target marketing
– Procurar clusters de clientes “modelo” que partilhem as mesmas
características: interesses, nível de rendimentos, hábitos de
consumo, etc.
– Determinar padrões de compras dos clientes ao longo do tempo
• Cross-market analysis
– Associações/correlações entre vendas de produtos e predição
baseda em tais associações
15
8
Análise e Gestão de Risco (1/2)
• Planeamento financeiro e avaliação de activos
– Análise do cash flow e predição
– Análise de activos
– Análise cross-sectional e análise por séries
tempoarais (rácios financeiros, análise de tendências,
etc.)
• Planeamento de Recursos
– Sumariação e comparação de recursos e gastos
17
• Concorrência
– Monitorar concorrentes e antever direcções
do mercado
– Agrupar clientes em classes e ter um
procedimento do tipo
p p “preço
p ç em função
ç das
classes”
– Definir a estratégia de preços em mercados
altamente competitivos
18
9
Detecção de Fraudes e de
padrões pouco usuais
• Abordagens: Clustering e construção de modelos para detecção de
fraudes e análise de outliers
19
Outras Aplicações
• Desporto
– IBM Advanced Scout analisou as estatísticas dos jjogos
g da NBA
(passes bloqueados, assistências, faltas) para dar vantagens
competitivas aos New York Knicks e Miami Heat
• Astronomia
– JPL e o Observatório de Palomar descobriram 22 quasars com
a ajuda de técnicas de data mining
• Internet Web Surf-Aid
– IBM Surf-Aid aplica
p algoritmos
g de data mining
g aos logs
g de
acesso Web para sites de comércio com o objectivo de
descobrir preferências dos clientes em termos de páginas e de
comportamento, analisando a eficiência do Web marketing,
permitindo também melhorar a organização dos sites, etc.
20
10