Sei sulla pagina 1di 11

Capítulo 1

Introdução
O que é Data Mining?
Produzir conhecimento novo
escondido em grandes bases de dados

A coleta de dados (transações bancárias, registros de compras, perfil


de uso da internet, integração das informações de diversos sistemas,
código de barras, via sensores remotos (sistemas fotográficos ou
óptico-eletrônicos capazes de detectar e registrar, sob a forma de
imagens ou não, o fluxo de energia radiante refletido ou emitido por
objetos distantes), satélites, processamento analítico on line (OLAP),
documentos), tem atingido grandes proporções acarretou
problema na área do conhecimento novo ramo do
conhecimento (KDD – Knowledge Discovery in Databases), o qual
visa otimizar e automatizar o processo de descrição das tendências e
dos padrões contidos neste processo, potencialmente úteis e
interpretáveis.
Os dados:

• Os dados geralmente originam-se de diversas fontes, e combinando-se as


informações destas pode-se encontrar “algumas coisas” novas e não triviais,
usuais.
• A necessidade por informações melhores e rápidas, tem gerado grande
interesse na construção de data warehouse capazes de trabalhar rapidamente
em conjunto e fornecer as informações necessárias de forma prática (úteis).
• Um conjunto de dados típico apresenta milhares de observações.
• Uma observação pode representar um consumidor, uma transação específica,
ou um chefe de família.
Os dados:

•Como estas informações são utilizadas depende das questões de interesse


da pesquisa.
• Os arquivos de dados contém informações específicas (variáveis) sobre
cada observação tais como informações demográficas, histórico de vendas,
informações financeiras.
• Bases de dados: relacional, data warehouse, transacional, orientado a
objetos, espaciais, séries temporais, textos, multimedia (imagem, vídeo,
áudio).
Padrão:
Um evento ou combinações de eventos numa base de dados que
ocorre com mais freqüência do que esperamos.

Significa que sua ocorrência é significativamente diferente do que


se esperaria devido ao acaso.
Padrões são guiados pelos dados e geralmente refletem os próprios
dados; Exemplo: se “salário < T, então a pessoa não efetuou o
pagamento” pode ser um padrão para uma escolha adequada de T.

Úteis:
Representa o grau de utilidade de um padrão, isto é, até que ponto a descoberta
ajuda a responder os objetivos inerentes ao processo de KDD.
Interpretáveis:
Um dos objetivos do KDD é gerar padrões compreensíveis para os analistas na
perspectiva de um melhor entendimento dos dados.
Válidos:
Para dados novos ou arquivo de teste com certo grau de certeza.
Novo, desconhecido:
Especialmente no sentido de interessante, não usual.
A extração de conhecimento de bases de dados é um processo complexo e, ainda
hoje, muito dependente da experiência e do trabalho do analista (formulação do
problema, preparação dos dados, análises e interpretações dos resultados,
avaliações).
É indispensável a presença do mesmo.
É atribuído às máquinas a responsabilidade de manipular conjuntos de dados,
procurando sempre de maneira eficaz, padrões que satisfazem os problemas
apresentados.
Utiliza-se um conjunto de técnicas estatísticas e de inteligência artificial.

Data Mining se relaciona com a análise de dados e o uso de ferramentas


computacionais (softwares) na busca de características, regras e regularidades em
um grande conjunto de dados.
A interdisciplinaridade da técnica

Data mining é, também, uma área interdisciplinar,


envolvendo:
•banco de dados,
•técnicas de estatísticas,
•redes neurais,
•de aprendizado de máquinas,
•de reconhecimento de padrões e
•de visualização de dados.
Estatística

Banco de dados Mineração de dados Visualização

Inteligência Artificial
Outras Disciplinas
(Redes Neurais)
Problemas típicos de data mining
§ Problemas de sumarização(resumo) e visualização
Tem como objetivo encontrar descrições compactas dos dados e apresentar diferentes
maneiras de apresentá-los. Quando os dados ainda não estão organizados de uma forma padrão
(com atributos e objetivos), técnicas de visualização são essenciais na descoberta de novos
conhecimentos. Para facilitar a interpretação, pode-se aplicar procedimentos estatísticos
tradicionais.

§ Segmentação ou agrupamento de bancos de dados


O banco de dados original é decomposto em vários bancos de dados menores e espera-
se que diferentes conclusões possam ser obtidas para cada um deles. A idéia é dividir um
problema em segmentos menores, os quais formam grupos mais inter-relacionados.
§ Regras de associação
São associações na forma de regras de associação. Relaciona-se a associação entre
diferentes itens presentes na mesma transação. Bastante usada para análises de cestas de compras
ou dados transacionais.
Problemas típicos de data mining

§Classificação e predição
Classificação é o processo de encontrar um conjunto de modelos (ou funções) que
descrevem e distinguem classes de dados, com o propósito de ser capaz de predizer a que classe
de objetos pertence uma nova observação (classe desconhecida). A construção do modelo é feita
com os dados de treinamento, isto é, objetos cujas classes são conhecidas. A predição também
refere-se a avaliação de um novo valor de uma variável alvo com base em outras variáveis
explicativas.

Potrebbero piacerti anche