Sei sulla pagina 1di 10

Mestrado em Comércio Electrónico e Internet

Data Mining
Introdução

Pedro Isaías

e-mail: pisaias@univ-ab.pt

Significado dos Dados


Um conceito
filosófico?…
filosófico?
…ou um problema real?
O Observatório climático de Marte...

O Observatóro climático de Marte ardeu quando estava a entrar na órbita de Marte em


23 de Setembro de 2004. A perda foi atribuída a uma falha embaraçosa de conversão
de medidas em unidades métricas. O Observatório climático de Marte perdeu-se
porque ninguém percebeu que a Lockheed Martin Astronautics fornecia dados de
navegação em unidades Inglesas em vez de medidas em metros. 2

1
O que é Data Mining?
• Data mining (descoberta de conhecimento a partir de
dados)
– Extracção de padrões de interesse (não triviais, implicitos,
previamente desconhecidos e potencialmente úteis) ou
conhecimento de grandes quantidades de dados

• Designações alternativas
– Knowledge Discovery in Databases (KDD), extracção de
conhecimento, análise de dados/análise de padrões,
arqueologia de dados, dragagem de dados, colheita de
i f
informação,
ã business
b i iintelligence,
t lli etc.
t

• Mas atenção: tudo é “data mining”?


– Processamento de queries (Dedutivo).
– Sistemas Periciais ou pequenos programas
estatísticos
3

O que é Data Mining?


Exemplo: NBA
• Informação de diversos jogos registados por várias
equipas
– Quem joga
– Quem arremessa
– Resultados
• Os treinadores pretendem saber o que resulta melhor
– Jogadas que funcionam melhor frente a uma dada equipa
– Que jogadores colocar e pares de jogadores
• O Advanced Scout (da IBM Research) é uma ferramenta
de data mining que permite responder a estas e outras
questões
q

Starks+Houston+
Ward playing
Shooting
Overall Percentage
0 20 40 60
4

2
Data Mining
Significado do nome
Colheita de Informação
Knowledge Mining
Data Mining
Knowledge Discovery
in Databases Dragagem de Dados

Processamento de Padrões de Dados Arqueologia de Dados

Database Mining
Extracção de Conhecimento
C
Siftware

Processo de descoberta de correlações novas, padrões e tendências


significativas, através do exame/separação (sifting) de grandes
quantidades de dados armazenados, usando tecnologias de
reconhecimento de padrões e técnicas estatísticas e matemáticas. 5

Integração de Múltiplas Tecnologias e


Confluência de Diversas Disciplinas

Machine Inteligência
g
Learning Artificial

Gestão de Bases
de Dados Estatística

Algoritmos Visualização
Data
Mining

3
Data Mining:
Esquemas de Classificação
• Funcionalidade Geral
– Data mining descritivo
– data mining preditivo

• Diferentes visões, diferentes classificações


– Tipos de bases de dados a ser alvo do data mining
– Tipos de conhecimento a ser alvo do data mining
– Tipos de técnicas utilizadas
– Tipos de Aplicações

Knowledge Discovery in
Databases: Processo
Interpretação/
Avaliação
ç

Data Mining Conhecimento

Pre-processamento
Padrões

Selecção
Dados
Pre-processados
Dados
Dados
Alvo

Adaptado de:
U. Fayyad, et al. (1995), “From Knowledge Discovery to Data
Mining: An Overview,” Advances in Knowledge Discovery and
Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press

4
Visão Multi-Dimensional do
Data Mining
• Bases de Dados a ser alvo do data mining
– Relacionais,
e ac o a s, data warehouse,
a e ouse, transaccionais,
t a sacc o a s, st
stream,
ea ,
orientadas a objectos/relacionais, espaciais, séries
temporais, textuais, multimédia, heterogéneas,
legadas, WWW, etc

• Tipos de Conhecimento a ser alvo do data


mining
– Caracterização
Caracterização, discriminação
discriminação, associação
associação,
classificação, clustering, tendências/desvios, análise
de outliers, etc.
– Funções múltiplas/integradas e prospecção a
diversos níveis
9

Visão Multi-Dimensional do
Data Mining
• Técnicas Utilizadas
– Orientadas a Bases de Dados, data
warehouse (OLAP), machine learning,
estatística, visualização, etc.

• Aplicações
– Retalho, Telecomunicações, banca, análise
de fraudes, bio-data mining, análise de
mercados de acções, Web mining, etc.
10

5
Ingredientes de um Processo
Efectivo de KDD “In order to discover
anything, you must
be looking for
something.” Laws
of Serendipity
Visualização e Interacção
Homem-Computador
Homem Computador

Gerar Determinar Evolução do


Planear a Descobrir
e Testar Relevância Conhecimento/
Aprendizagem Conhecimento
Hipóteses Conhecimento Dados

Objectivos de Aprendiz Knowledge Base Base(s) de Dados

Algoritmos de “descoberta” Conhecimento prévio

11

Data Mining:
História da Área
• Os Workshops em Knowledge Discovery in Databases
começaram em 1989
– Actualmente existe uma conferência patrocinada pela ACM
SIGKDD
– Existe uma conferência da IEEE que começou em 2001
• Fundadores chave / contribuidores tecnológicos:
– Usama Fayyad, JPL (na altura na Microsoft, agora tem a sua
empresa, Digimine)
– Gregory Piatetsky-Shapiro (na altura na GTE, agora tem a sua
consultora de data mining, a Knowledge Stream Partners)
– Rakesh Agrawal (IBM Research)

O termo “data mining” existe pelo menos desde 1983 –


como termo pejorativo na comunidade estaticista

12

6
Data Mining:
História da Área
• 1989 IJCAI Workshop on Knowledge Discovery in Databases
(Piatetsky-Shapiro)
– Knowledge Discovery in Databases (G.
(G Piatetsky-Shapiro
Piatetsky Shapiro and W
W.
Frawley, 1991)
• 1991-1994 Workshops on Knowledge Discovery in Databases
– Advances in Knowledge Discovery and Data Mining (U. Fayyad, G.
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
• 1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining (KDD’95-98)
– Journal of Data Mining and Knowledge Discovery (1997)
• 1998 ACM SIGKDD, SIGKDD’1999-2001 conferências e SIGKDD
E l ti
Explorations
• Mais conferências sobre data mining
– PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM
(2001), etc.

13

Porquê Data Mining?


Aplicações Potenciais
• Análise de Dados e de Suporte à Decisão
– Análise e Gestão de Mercados
• Target marketing, customer relationship management (CRM),
market basket analysis, cross selling, segmentação de mercados
– Análise e Gestão de Risco
• Previsões, retenção de clientes, controlo de qualidade, análise
competitiva
– Detecção de Fraudes e detecção de padrões pouco usuais
(outliers)

• Outras
O t A
Aplicações
li õ
– Text mining (news group, email, documentos) e Web mining
– Stream data mining
– Análise de DNA e de dados biológicos

14

7
Análise e Gestão de Mercados
(1/2)
• De onde são oriundos os dados?
– Transacções com cartões de crédito, cartões de fidelização,
cupões
õ dde d
desconto,
t chamadas
h d dde reclamação
l ã ddos clientes,
li t
estudos de estilos de vida

• Target marketing
– Procurar clusters de clientes “modelo” que partilhem as mesmas
características: interesses, nível de rendimentos, hábitos de
consumo, etc.
– Determinar padrões de compras dos clientes ao longo do tempo

• Cross-market analysis
– Associações/correlações entre vendas de produtos e predição
baseda em tais associações

15

Análise e Gestão de Mercados


(2/2)
• Customer profiling
– Que cclientes
e tes co
compram
p a que p
produtos
odutos (c
(clustering
uste g ou
classificação)

• Customer requirement analysis


– Identificar os melhores produtos para os diferentes
clientes
– Predizer que factores poderão atrair novos clientes

• Fornecimento de informação sumariada


– Relatórios sumariados multidimensionais
– Informação estatística sumária
16

8
Análise e Gestão de Risco (1/2)
• Planeamento financeiro e avaliação de activos
– Análise do cash flow e predição
– Análise de activos
– Análise cross-sectional e análise por séries
tempoarais (rácios financeiros, análise de tendências,
etc.)

• Planeamento de Recursos
– Sumariação e comparação de recursos e gastos

17

Análise e Gestão de Risco (2/2)

• Concorrência
– Monitorar concorrentes e antever direcções
do mercado
– Agrupar clientes em classes e ter um
procedimento do tipo
p p “preço
p ç em função
ç das
classes”
– Definir a estratégia de preços em mercados
altamente competitivos
18

9
Detecção de Fraudes e de
padrões pouco usuais
• Abordagens: Clustering e construção de modelos para detecção de
fraudes e análise de outliers

• Aplicações: Cuidados de Saúde, retalho, serviços de cartão de


crédito, telecomunicações
– Seguros Automóveis: análise das colisões
– Lavagem de dinheiro: transacções monetárias suspeitas
– Seguros Saúde
• Pacientes, médicos
• Testes desnecessários
– Telecomunicações: fraudes em telefonemas
• Modelo de telefonemas: destino da chamada, duração, hora do dia ou da
semana. Permite analisar padrões desviantes da norma.
– Industria de Retalho
• Analistas estimam que há uma diminuição de 38% das vendas devido a
empregados desonestos
– Anti-terrorismo

19

Outras Aplicações
• Desporto
– IBM Advanced Scout analisou as estatísticas dos jjogos
g da NBA
(passes bloqueados, assistências, faltas) para dar vantagens
competitivas aos New York Knicks e Miami Heat
• Astronomia
– JPL e o Observatório de Palomar descobriram 22 quasars com
a ajuda de técnicas de data mining
• Internet Web Surf-Aid
– IBM Surf-Aid aplica
p algoritmos
g de data mining
g aos logs
g de
acesso Web para sites de comércio com o objectivo de
descobrir preferências dos clientes em termos de páginas e de
comportamento, analisando a eficiência do Web marketing,
permitindo também melhorar a organização dos sites, etc.

20

10

Potrebbero piacerti anche