Sei sulla pagina 1di 45

Metodi statistici per il

Data Mining

Prof.ssa Stefania Mignani


Dipartimento di Scienze Statistiche
stefania.mignani@unibo.it

*
www.unibo.it
Analisi delle associazioni
(Association Rules AR)
Introduzione

Analisi delle associazioni


– Individuare gli avvenimenti che avvengono più
frequentemente, simultaneamente o in
successione
– Individuare relazioni forti tra due o più fenomeni o
comportamenti
– Ricavare informazioni su dipendenze o relazioni
che spiegano l’avvenire di fenomeni
– Definire regole per formulare previsioni
3
Concetti di base

 Punto di partenza
• Data base di transizioni (comportamenti)
• Prodotto acquistato: Item
• Insieme di item: itemset
• Ciascuna transazione è una lista di item quindi Itemset
contenente un certo numero di item

 Obiettivo:
• Tutte le regole che metteno in relazione la presenza di un
insieme di item con la presenza di un altro insieme di item

Es: 35% delle persone che acquista salmone compra anche


maionese
Formalmente
Terminologia

• Item : singolo elemento,


• Itemset: insieme di elementi
• insieme di comportamenti

Item
biscotti, cereali, frutta, latte,…

Itemset
{latte}, {latte, frutta}…
1-itemset {latte}
2-itemset {latte, frutta}
3-itemset {latte, frutta, biscotti}

insieme di comportamenti:
transazioni d’acquisto
Riepilogo
Terminologia

Consideriamo un gruppo di transizioni N, definiamo per un


Itemset I:

Frequenza dell’itemset I =
Numero di volte in cui si presenta I I numero delle transazioni
Esempio

frequenza {latte}= ¼=0.25


Esempio
Concetti di base

 Punto di partenza
• Data base di transizioni (comportameni)
• Ciascuna transazione è una lista di item acquistati

 Obiettivo:
• Tutte le regole che metteno in relazione la presenza di un
insieme di item (itemset) con la presenza di un altro insieme di
item

Es: 35% delle persone che acquista salmone compra anche


maionese
Regole di associazione
transazione latte frutta cereali biscotti
1 Latte, frutta latte 3 2 0 1
2 latte, frutta, biscotti frutta 3 1 1
3 latte cereali 1 0
4 Frutta, cereali Biscotti 1
• Frutta e latte hanno la probabilità più alta di essere acquistati isieme, di qualsiasi
altra coppia
• Cereali e latte non sono mai acquistati insieme, così come cerali e biscotti

Matrice degli item


Transazione latte frutta cereali biscotti
1 1 1 0 0
2 1 1 0 1
3 1 0 0 0
4 0 1 1 0
Regole associative

Support

Confidence
Support e confidence
Esempio

Transazione Item
1 a,b,c
2 a,c
3 a,d
4 b,e,f
Support e confidence
Scegliamo per support e confident dei valori soglia
min_sup min_conf

Regola VALIDA se sup e conf superano queste soglie


Come si estraggono le regole
Identificazione dei “frequent itemset”
L’approccio “brute force”
L’approccio “brute force”
Alla base di Apriori
Alla base di Apriori
Alla base di Apriori
Alla base di Apriori
Esempio

(min_sup=0,5)
Generazione di regole a partire da
frequent itemsets

*N.B. Ricorda che dati due itemset A e B definiti da partizione di un


itemsetset I si ha:
Il principio di Apriori nella generazione
di regole

Se
una regola R1 ha confidence insufficiente
conf(R1) <min_conf

Allora
Tutte le regole che hanno come antecedente un subset
dell’antecedente di R1 hanno
confidence <min_conf
Esempio

R1: {b c d} => {a}


conf(R1)= supp( {a b c d} / supp({b c d})< min_conf
Allora se consideriamo

R2: {c d} =>{a b}
conf(R2)=supp( {a b c d}/sup({c d})

supp( {a b c d}/sup({c d})<supp( {a b c d}/supp({b c d})=conf(R1)

Conf(R2)<min_conf
Esempio
Qualità di una regola
Misura simmetrica
Un esempio
Analisi multidimensionale
Analisi multidimensionale
Legame tra AR e AR multidimensionale
Pro e contro
Analisi delle associazioni
Come esempio…