Sei sulla pagina 1di 31

Abordagens de Mineração de

Dados Multi Relacional


Rosalvo Neto
Roteiro
1. Introdução
2. Motivação
3. Tipos de Abordagens
4. Classificação das abordagens
5. Descrição das abordagens
6. Estudo comparativo
Introdução
• Os dados estão contidos em banco de dados
Relacionais;
• Muitas Relações;
• Muitos atributos;
• Muitas tuplas;
• Como extrair as informações de forma
eficiente?
Motivação
50% - 80%

Source: excerpt of Fayyad et al. 1996


Tipos de abordagens

Mineração de dados
Proposicionalização
Multi Dimensional
Proposicionalização

Table 01 Table 02 Table... Table N

Result Table

Intelligent Systems
AI Algorithm
Mineração de dados Multi Relacional

Table 01 Table 02 Table... Table N

Intelligent Systems
AI Algorithm
Classificação das Abordagens Existentes
Multi Relacional Data Mining
Multi Dimensional DM

Proposicionalização ILP
TupleID
Propagation
Multi view
Graph Mining Learning
LINUS DINUS

FOIL CrossMine
RelAggs

CMVV
Inductive Logic Programming (ILP)
Indutive Logic Program (ILP) é um subcampo da
área de aprendizagem de máquina que utiliza
a programação em lógica como uma
representação uniforme para exemplos, base
de conhecimento e hipóteses
Inductive Logic Programming (ILP)
O problema de aprendizado em ILP é normalmente
especificado como segue:

Dado: uma base de conhecimento B, expressa como


um conjunto de definições de predicados, exemplos
positivos E+ e exemplos negativos E-

Procurar: procurar uma hipótese H tal que o erro de h


seja minimizado em exemplos futuros
Inductive Logic Programming (ILP)
Em ILP, h é usualmente um conjunto de
clausulas de lógica de primeira ordem, e novos
exemplos serão classificados como
pertencente a classe positiva se e somente se
ele é coberto por todas as clausulas de h.
LINUS
O LINUS é uma abordagem de Inductive Logic
Program (ILP) que incorpora existentes
sistemas de aprendizagem atributo-valor.

A ideia é transformar um problema descrito em


ILP dentro da forma proposicional e resolver o
problema através da aprendizagem de regras
proposicionais.
LINUS
Exemplos de treinamento Relações
filha (sue,eve). Pos progenitor (eve,sue). feminino (ann). masculino (pat).
filha (ann,pat). pos progenitor (ann,tom). feminino (sue). masculino (tom).
filha (tom,ann). Neg progenitor (pat,ann). feminino (eve).
filha (eve,ann). neg progenitor (tom,sue).

Variáveis Características proposicionais


X Y F(x) F(y) M(x) M(y) P(x, P(x, y) P(y, P(y, Classe
x) x) y)
Sue Eve 1 1 0 0 0 0 1 0 Pos
Ann Pat 1 0 0 1 0 0 1 0 Pos
Tom Ann 0 1 1 0 0 0 1 0 Neg
Eve ann 0 1 0 0 0 0 0 0 Neg
RelAggs
Em sua abordagem é aplicada a ideia de
agregação, comumente utilizada na área de
Data WareHouse.

Exemplo

Cliente Parcela
RelAggs
Graph Mining
Mineração baseada em grafos é uma técnica que extrai
as informações a partir de dados representados na
forma de grafos estruturados. Um grafo pode ser
definido pela equação G={V,E}, onde

V ={v1,v2,v3,…vn} é o conjunto ordenado de vértices do


grafo e

E={e1,e2,e3,……..en} é o conjunto das bordas do grafo


Graph Mining
B

A C

A C
Propagation ID
Este é método faz a transferência de informação
entre as diferentes relações por meio de junções
virtuais;

Este método mostra-se menos custoso do realizar a


junção física tanto em termos de tempo quanto
espaço;

Quando deseja-se realizar uma predição então


propaga-se os identificadores entre duas
relações;
Propagation ID
Multi View Learning
A abordagem de classificação de múltiplas
visões opera diretamente no banco de dados
relacional com métodos convencionais de
mineração de dados.
Multi View Learning
A abordagem é composta por cinco etapas:

1- Information Propagation Stage


2- Aggregation Stage
3- Multiple Views Construction Stage
4- View Validation Stage
5- View Combination Stage
Comparative Study between
Propositionalization and Multi
Relational Data Mining on a
Relational Database

Rosalvo Neto
Paulo Jorge Adeodato
Ana Carolina Salgado
Murilo Boratto
Outline

1. Objectives
2. Related Work
3. Compared Approaches
4. Database
5. Experimental Methodology
6. Results
7. Conclusions and Future Works
Objective

Performance Comparison:

- Propositionalization X Multi Relational Data Mining


- Binary Classification
- Database Benchmark (PKDD 1999)
- Credit Risk Domain
Related Work

Comparative Study Comparative Study


between the same between different
approach approaches

Early Studies Recent Studies


Compared Approach - RELAGGS (RELational
AGGregationS)
Compared Approach - Correlation-based
Multiple View Validation

Source: excerpt of Guo and Viktor 2006


Database
Experimental Methodology

Cross Validation k-fold

Neural Network - MultiLayer Perceptron (MLP)

Kolmogorov-Smirnov Curve (KS)

Paired t-student test


Results

Null Hypothesis:

Alternative Hypothesis:

µd = µ1 − µ2 upper limit p-value


0,0805 ∞ 0,0181
Paired t-test result
Conclusions and Future Work

- There is indicative of Propositionalization outperforms


Multi Relational Data Mining in Credit Risk Domain

- Domain Driven Data Mining (D3M)

- Investigate the performance of others AI Algorithms and


others databases of the same domain

Potrebbero piacerti anche