Sei sulla pagina 1di 78

Marketing analytics

Lezione 1- Business intelligence e sistemi di supporto alle decisioni, data base, elementi di database e
relazioni

Business Intelligence

• Accesso a grandi quantità di dati (imprese, pubblica amministrazione, associazioni, singolo individuo, …).
• I dati disponibili sono eterogenei per origine, contenuto e rappresentazione (provenienti da transazioni
commerciali, finanziarie e amministrative, da percorsi di navigazione su web, da email, da risultati di test
clinici, …). È necessario mettere ordine a questi dati che spesso sono raccolti automaticamente.
• È possibile trasformare i dati in informazione e conoscenza utilizzabili dai decision maker?

BUSINESS INTELLIGENCE: Insieme di modelli “matematici” meglio dire quantitativi e metodologie di analisi
che esplorano i dati per ricavare informazioni e conoscenze utilizzabili nel corso dei processi decisionali.
Avere dei dati e non saperli leggere è come non averli. I dati devono essere di per se leggibili es. colonna di
costo, importi per transazioni devo decidere la quantità di misura come l’euro. Ci sono tantissime cose che
rendono i dati diversi, eterogenei, c’è tanto lavoro per renderli leggibili e poi leggerli per creare conoscenza.

Efficienza ed efficacia

• Nelle strutture complesse (aziende, amministrazione pubblica, …) vengono prese continuamente decisioni
più o meno rilevanti, con effetti più o meno prolungati nel tempo, che coinvolgono figure e ruoli diversi.
• Le decisioni sono spesso elaborate utilizzando metodologie semplici e intuitive che tengono conto di
esperienze passate, conoscenza del contesto, informazioni disponibili. Si compiono azioni che sono sempre
state fatte. C’è bisogno di conoscenza in più per prendere delle decisioni.
• La business intelligence permette di elaborare decisioni efficaci (decisione migliore possibile, buona
decisione relativamente agli obiettivi specifici) ed efficienti ( mi permette di raggiungere il mio obiettivo in
fretta). Es: ho preso 30 in poco tempo, sono efficiente ed efficace.

Es: Retention nella telefonia mobile Il responsabile marketing scopre che molti clienti chiedono la
disattivazione del servizio per attivarlo con un operatore concorrente (customer attrition o churn, mollo epr
il concorrente). Supponiamo che sia disponibile un budget per svolgere un’operazione di retention solo nei
confronti di 200 mila clienti su un totale di 2 milioni. Li seleziono per arrivare con quella politica. Come
scegliere? È possibile stimare la probabilità di abbandono per ciascun cliente e rivolgere un’offerta ai 200
mila clienti con probabilità più elevata. Oppure individuare i 200 mila clienti più redditizi e rivolgere
l’offerta a questi. Tutto ciò richiede l’utilizzo di modelli matematici adeguati.

Dati informazioni conoscenza

I dati, una volta raccolti e conservati in modo strutturato, devono essere elaborati
mediante strumenti di analisi che li trasformino in informazione e conoscenza per essere
direttamente utilizzabili nell’ambito dei processi decisionali. Dati: codifica strutturata
delle singole entità primarie (clienti, punti vendita, prodotti) e delle transazioni che
coinvolgono due o più entità primarie (scontrini d’acquisto). Informazioni: risultato di
operazioni di estrazione e di elaborazione compiute a partire dai dati (percentuale di scontrini che
superano 100 Euro nel corso di una settimana). Conoscenza: insieme di informazioni inserite in un contesto
specifico, arricchite dall’esperienza e dalle competenze dei decision maker (alcuni clienti che hanno ridotto
l’importo d’acquisto risiedono in una zona in cui opera anche un punto vendita di un’azienda concorrente).
Ruolo dei modelli matematici

Quando si vuole rappresentare il modello di un certo problema siamo costretti a studiare il problema nel
dettaglio perché altrimenti non sono in grado di rappresentarlo e sistemarlo. La business intelligence offre
ai decision maker le informazioni e le conoscenze ricavate a partire dai dati mediante l’utilizzo di modelli
matematici e di algoritmi di calcolo (dal semplice calcolo di totali o percentuali ad analisi evolute che
utilizzano sofisticati modelli di ottimizzazione e di apprendimento).

L’utilizzo di modelli matematici


• costringe il decision maker a concentrare l’attenzione sugli aspetti rilevanti del contesto di analisi
permettendo una comprensione più approfondita del fenomeno,
• permette di trasferire conoscenza più facilmente ad altri individui, la trasferibilità dei modelli è immediata
ad altre persone;
• offre la possibilità di impiegare in circostanze diverse la metodologia sviluppata per affrontare uno
specifico processo decisionale.

Sistemi di supporto alle decisioni (DSS)

Strumenti informatici interattivi che utilizzano dati e modelli matematici per supportare i decision maker
nella risoluzione di problemi complessi che si presentano nella gestione di aziende e organizzazioni
strutturate.
Sistema: entità costituita da un insieme di componenti legati tra loro da mutue relazioni e dotati di una
finalità collettiva.
Decisione: scelta tra molteplici alternative effettuata con un certo grado di razionalità. Un processo
decisionale razionale prevede che tra tutte le alternative formulate ne venga scelta una che risulti migliore
delle altre rispetto ai criteri predefiniti (economici, tecnici, legali, etici, procedurali, politici).

sistema più o meno strutturato che mette insieme algoritmi e esperienza

Un DSS deve… IMPO


• … essere efficace,
• … utilizzare modelli matematici della ricerca operativa e della statistica,
• … integrarsi nei diversi processi decisionali e favorire uno stile decisionale proattivo (processo decisionale
che si mette in moto per evitare che si verifichi il problema) e percettivo anziché reattivo (reagisco per
risolvere un problema) e per eccezione, in modo da anticipare i fenomeni dinamici in rapida evoluzione,
Non usare tutto il tempo per essere reattivi, bisogna essere proattivi in modo da organizzarsi per evitare
l’insorgere di problemi.
• … avere un ruolo organizzativo in grado di favorire la comunicazione tra funzioni e parti diverse
dell’azienda,
• … essere flessibile e adattabile ai cambiamenti che avvengono nel tempo all’interno dell’azienda. Per un
algoritmo si devono cambiare le impostazioni iniziali ad esempio.

Relational Database e Relational Database Management System

Un database è una raccolta di dati organizzata in modo da consentire l’accesso, il reperimento e l’utilizzo di
tali dati. Un sistema per la gestione di database (DataBase Management System – DBMS), come Access,
permette di usare un computer per:
- creare un database,
- aggiungere, modificare ed eliminare dati,
- ordinare e reperire dati nel database,
- creare maschere e report che usano i dati del database

Database: elenco di nomi a cui sono state aggiunte in modo ordinato e sistematico delle informazioni che
sono la base dell’organizzazione (per es. storia del comportamento d’acquisto, num. di telefono, metodo di
acquisto, …). È importante che un database venga aggiornato ogni volta che si presenta l’occasione, cioè ad
ogni evento significativo.

- Database operativi: insiemi di dati continuamente aggiornati (dati dinamici, cioè che cambiano
costantemente, e che riflettono informazioni sempre aggiornate).
- Database analitici: insiemi di dati storici legati ad un preciso momento. Qui non devono essere
aggiornati poiché sono storici, dati vecchi e quindi si modificherebbe il periodo storico.

Database relazionali (Edgar Codd, 1969) sono database in cui i


dati sono immagazzinati in relazioni che all’utente appaiono
come tabelle. Ciascuna relazione (tabella) è composta da
record (righe) e campi (attributi, colonne) . Tabella clienti, ho
tanti report e righe ognuna delle quali rappresenta i clienti e
colonne che rappresentano gli attributi.

Un database relazionale deve: • definire la struttura del database, specificando i dati, il loro tipo (numerico,
testo, immagine,…), le loro relazioni e le regole per il loro utilizzo, • inserire, modificare o cancellare dati, •
effettuare ricerche di differente natura per reperire rapidamente i dati di interesse, • utilizzare un ampio
insieme di funzioni (per es. la visualizzazione, la stampa, …), • accedere ai dati ad un elevato numero di
utenti, gestendo i differenti diritti di accesso e la concorrenza nella modifica e nell’inserimento dei dati, •
offrire prestazioni accettabili anche in presenza di un numero molto elevato di utenti, • realizzare copie di
salvataggio per motivi di sicurezza su richiesta e/o in base a schedulazione temporale pianificata a priori.

Elementi di un database: Tabelle (o relazioni)


• Ogni tabella rappresenta un soggetto unico e specifico.
• L’ordine dei record (righe) e dei campi (colonne) di una
tabella non è rilevante. Ogni record viene identificato con un
codice o un numero che contiene i campi della tabella.
• Ogni tabella deve contenere almeno un campo (chiave
primaria) che identifica ogni record in modo univoco.

Campo • Rappresenta una delle caratteristiche del soggetto della tabella alla quale appartiene. • Ogni
campo contiene un unico valore, non inserire due valori nello stesso campo.

Record • Rappresenta una istanza del soggetto della tabella e viene identificato in tutto il database
attraverso un unico valore del campo chiave primaria (nella tabella “Clienti” precedente il cliente C2 è
Gianni Storchi, di Milano, tel. …). • Ogni record comprende tutti i campi della tabella. • I record sono un
fattore fondamentale per capire le relazioni tra tabelle: bisogna sapere come un record di una tabella si
collega al record di un’altra tabella.

Chiave • Campo speciale all’interno di una tabella.


• Chiave primaria: campo che identifica in modo univoco ogni record all’interno della tabella. Il campo di
una chiave primaria identifica una tabella all’interno del database (rafforza l’integrità dei dati a livello di
tabella ed aiuta a stabilire delle relazioni con le altre tabelle). Ho due clienti Mario Rossi e abitano tutti a
Venezia e anche nella stessa calle e hanno entrambi due figli, hanno numeri di telefono diverso. Ad ogni
record che inserisco in tabella attacco un codice identificativo che avrà solo lui.
• Chiave esterna: campo di una tabella che rappresenta la copia della chiave primaria di un’altra tabella
(permette di stabilire relazioni tra tabelle, aiuta ad assicurare l’integrità a livello di relazione, aiuta ad
evitare i record orfani).

Consideriamo la tabella clienti e tabella transazioni, ogni tabella ha il


suo codice identificativo. Nella tabella transazioni e in quella di clienti
hanno la chiave primaria diversa e potrebbero essere due tabelle
separate però non le voglio separate. Voglio ritrovare gli elementi di
una sull’altra. Le transazioni voglio che siano collegate al database
clienti che mi mostra quali transazioni ha fatto. È utile collegare le
due tabelle per vedere le specifiche. Servono a identificare i record e
collega tabelle diverse

Relazioni tra tabelle • Indicano collegamenti e le associazioni tra i record di una tabella con quelli di un’altra
tabella. Possono essere:

• Relazione “uno a uno”.

- Tra due tabelle c’è una relazione “uno a uno” se ciascun


record della prima tabella può essere associato a un
solo record della seconda e ciascun (NON SCRIVERE -
UNA) record della seconda tabella può (NON SCRIVERE -
NON è) essere associato a un solo record della prima
tabella.
- Tale relazione si usa nei casi in cui una tabella è stata
divisa in due parti per elencare nella seconda delle
informazioni più dettagliate non direttamente necessarie per il database.

• Relazione “uno a molti”.

- Tra due tabelle c’è una relazione “uno a molti” se


ciascun record della prima tabella può essere
associato a molti record della seconda ma ciascun
record della seconda tabella può essere associato
ad un solo record della prima tabella.

• Relazione “molti a molti”.

- Tra due tabelle c’è una relazione “molti a molti”


se ciascun record della prima tabella può essere
associato a molti record della seconda e ciascun
record della seconda tabella può essere
associato a molti record della prima tabella.
- Occorre una tabella di collegamento che viene
definita prendendo una copia delle chiavi primarie di ciascuna tabella della relazione.
Lezione 2- Database in ambiente marketing

Costruire un database

Quali informazioni deve fornire un database di marketing? • A chi indirizzare determinate offerte? • Chi
sono i migliori clienti effettivi? • Chi sono i migliori clienti potenziali? • Quali offerte dovrebbero ricevere? •
Come dovrebbero essere contattati? • Su quali clienti tentare vendite incrociate?

È fondamentale che i dati nel database siano ben organizzati ed esaustivi. Come deve essere un database di
marketing?

- Dati sui clienti


- Dati sulle transazioni
- Dati sul prodotto
- Dati sul venditore
- Dati sull’offerta

Dati sui clienti

Tabella clienti dove il record sono i clienti e le righe riportano cose che a me interessano sapere sui clienti:

• Codice identificativo del cliente (codice di riferimento, chiave primaria), ogni cliente ha il suo codice
• Sig./Sig.ra, Nome, Cognome, Titolo, Azienda, Primo indirizzo, Secondo indirizzo, Città, Stato o provincia,
Codice postale, Numero di telefono, Numero di fax, Indirizzo e-mail
• Codice della fonte iniziale, Data di inserimento nel sistema, Non cedere, Cambiamento d’indirizzo
• Contanti, Addebito, Telefono, Posta
• Data del primo acquisto, Data dell’ultimo acquisto, Volume totale acquistato, Valore totale degli acquisti
• Data dell’ultimo reso, Numero totale dei resi, Numero totale degli articoli cambiati, Valore totale dei resi,
Data dell’ultima cancellazione, Numero totale delle cancellazioni Dati sui clienti
• Data dell’ultimo mailing, Numero totale dei mailing
• Omaggi

Attenzione che è opportuno che ci sia un’unica “tabella clienti” per tutti i clienti: sia quelli a cui l’azienda già
vende che quelli che considera clienti potenziali.

Dati sulle transazioni

I clienti sono importanti perché comprano e si tiene traccia degli acquisti e fatture, è opportuno che i dati
delle fatture siano riepilogati in:

1. tabella riepilogativa delle fatture: record che mi rappresenta l’acquisto


2. tabella con i dettagli delle fatture: 3 record relativi al primo, secondo e terzo prodotto acquistato

Esempio acquisto di un pacco di caffè, due litri di latte e un vasetto di marmellata. La transazione
complessiva è rappresentata da un record nella tabella riepilogativa delle fatture, mentre i tre tipi di articoli
acquistati sono rappresentati da tre record nella tabella dettaglio delle fatture
Nel riepilogativo ho una riga per ogni fattura in cui
riporto il numero fattura che è la chiave primaria, il
codice identificativo (chiave esterna) che collego con la
tabella clienti, la modalità pagamento, il codice della
fonte sempre chiave esterna, codice venditore, data e
ammontare. Non so cosa è stato acquistato.

Mi serve la tabella di dettaglio fatture ogni riga è una


fattura, il numero progressivo compare solo una volta
ovvero il primo prodotto acquistato 001001 compare
solo una volta. È la chiave primaria della tabella. Qui è
individuato lo SKU che è un'altra chiave primaria. Non ci saranno altre volta in cui la stessa coppia (numero
fattura e codice prodotto) compare solo una volta. Vedo cosa è stato acquistato e nella tabella prodotto
vedo cos’è Caffè 3. Però qui vedo il prodotto acquistato, la quantità e quale prezzo.

Tabella riepilogativa delle fatture - Codice identificativo del cliente (chiave esterna) - Numero della fattura
(chiave primaria) - Dati identificativi del venditore (chiave esterna) - Dati identificativi della fonte (chiave
esterna) - Data dell’ordine - Data di spedizione - Metodo di pagamento - Importo lordo - Sconti - Prezzo
netto

Tabella dettaglio delle fatture - Numero della fattura (chiave primaria) - SKU o numero di identificazione
dell’articolo (chiave primaria) - Numero progressivo nella fattura - Quantità - Prezzo totale

Dati sul prodotto

Le informazioni sui prodotti o servizi sono immagazzinate


nella tabella “Prodotti”, che descrive ogni prodotto, ne
descrive la classificazione (abiti, scarpe,…), ne specifica il
costo, il prezzo di listino, contiene altre informazioni su ciò
che si vende.

Esempio acquisto di un pacco di caffè, due litri di latte e un


vasetto di marmellata

Tabella prodotto - SKU o numero di identificazione dell’articolo (chiave primaria) - Classificazione del
prodotto (categoria) - Costo unitario - Prezzo di vendita al dettaglio - Codice di magazzino - Descrizione –
Peso

Dati sul prodotto

È direttamente collegata alla tabella “Riepilogativo delle


fatture” tramite il Codice di identificazione del venditore.
Un’analisi congiunta delle due permette di analizzare il
fatturato, per persona e per reparto. Esempio: acquisto di un
pacco di caffè, due litri di latte e un vasetto di marmellata.

Tabella venditori: - Dati identificativi del venditore (chiave primaria) - Nome del venditore - Reparto o
divisione dei dipendenti
Dati sull’offerta

La tabella “offerta” è direttamente collegata alla tabella “Riepilogativo delle fatture” tramite il Codice di
identificazione della fonte. Vari contatti possibili, le modalità e le caratteristiche i costi le capacità di lancio
dei vari contatti.

Tabella offerta - Dati identificativi della fonte (chiave primaria) - Descrizione - Numero delle offerte
effettuate - Costo per contatto

Nessuno mi regala i dati di queste tabelle, devo attrezzarmi a raccogliere i dati di clienti e transazioni ecc. I
prossimi dati arricchiscono il database.

Dati ulteriori

Derivano da indagini, questionari. Indice di soddisfazione, se contattano i concorrenti, se

Tabella indagine

- Codice di identificazione del cliente (chiave primaria) - Indice di soddisfazione - Concorrenti considerati -
Tipo di utilizzo - Lo raccomanderebbero ad un amico

Tabella elementi demografici del consumatore

- Codice di identificazione del cliente (chiave primaria) - Età - Reddito familiare - Dimensione della famiglia

Tabella informazioni sull’azienda

- Codice di identificazione del cliente (chiave primaria) - Codice di iscrizione alla Camera di Commercio -
Anno di costituzione - Fatturato annuo - Numero dei dipendenti

Tutte le tabelle sono collegate tra loro con


relazioni diverse. Non può esserci una
tabella isolata perché altrimenti non arrivo.
Posso arrivare a tabella venditori a quella
prodotto facendo diverse strade.
Tutti i dati di questo mondo non servono a nulla se non vi si può accedere. Riuscire a raccoglierli e
immagazzinare dati importanti è una cosa, ma immagazzinarli in modo da poterli recuperare è un’altra
cosa.

Alcune regole per progettare un database relazionale

1. Non ripetere gli stessi gruppi di dati

Come si chiama è inutile perché ho l’identificativo clienti.


Stiamo usando un campo che appesantisce la tabella senza
essere significativo.

2. Non aggiungere dati superflui


3. Non creare campi che non dipendano dalle chiavi primarie

Oltre che l’importo anche il titolo del venditore è


inutile, non rispetta nemmeno le regole precedenti. Si
toglie dalla tabella fatture riepilogativa il titolo del
venditore tanto è presente nella tabella venditori.

4. Non creare campi con valori multipli


Lezione 3- Database marketing, marketing analytics

Il database marketing
Processo che consiste nell’estrarre tutte le informazioni rilevanti (oggetto dell’acquisto, volumi acquistati e
loro valore, frequenza d’acquisto, dati anagrafici, informazioni personali sui clienti) da un’operazione
commerciale, per utilizzarle nelle attività successive di marketing e negli ulteriori contatti con i clienti.
Qualunque contatto ci aiuta ad arricchire il database per prendere informazioni per nuovi contatti.

Obiettivi principali del database marketing


• Instaurare una relazione “personale” con ciascuno dei clienti. Dipende dalla numerosità, in alcune
occasioni si parla di gruppi. Capisco a quale cluster appartiene, quindi l’aggettivo personale dipende.
• Incrementare l’efficienza e l’efficacia commerciale grazie alla miglior conoscenza dei clienti e alla miglior
capacità di prevederne i comportamenti di acquisto.

Esempio:

Si prende un caffè al bar spesso, fare database marketing significa che il proprietario sappia già la tua
preferenza, quello che potrebbe desiderare anticipando l’offerta. Conoscere il cliente. Un altro esempio:
Commesso in un piccolo negozio di abbigliamento, pagato a provvigione. Idea: poiché molti clienti
acquistano ripetutamente, pensa di tenere una registrazione degli acquisti effettuati. Comincia a segnare
nomi e numeri di telefono e poi allarga l’elenco per includervi informazioni di base sugli acquisti (articolo
comperato, altre preferenze,…). Con il tempo si rende conto che sarebbe utile disporre di schede distinte
per clienti distinti. Per esempio la scheda del sig. Mario Rossi è la seguente Mario Rossi: Cappotto taglia 48,
Camicia 41, Scarpe n. 42, Pantaloni taglia 48, Cravatte di colori brillanti, Desidera acquistare con la moglie.
Successivamente comincia a registrare le visite effettuate dai clienti al negozio, la frequenza di acquisto e
l’entità della spesa. Quando cambia stagione si accorge che le schede sono molto preziose e per annunciare
l’arrivo della nuova collezione manda un biglietto a tutti i clienti: “È appena arrivata la collezione autunno-
inverno. Se telefona sarò lieto di invitarla a una presentazione privata qualunque mattina della prossima
settimana tra le 8 e le 9, prima dell’apertura del negozio”. In questo modo il commesso ha raddoppiato il
business da un giorno all’altro. Continua a tenere traccia del comportamento dei clienti e aggiorna
continuamente i dati. La stagione successiva ripete l’operazione con altrettanto successo.

Si può fare database marketing anche senza computer e modelli. L’esempio, che non fa cenno ad alcuna
forma di tecnologia e si potrebbe collocare in qualsiasi momento di qualsiasi secolo, mostra l’essenza del
database marketing: il marketing di successo si basa sulla costruzione di relazioni personali con i clienti e la
capacità di costruire relazioni durature si collega alla conoscenza delle abitudini di acquisto dei clienti.
Dipende dalla realtà per capire quali strumenti utilizzare.

Le 4 fasi fondamentali del database marketing

1. Costruire (raccogliere DATI su clienti attuali e potenziali-


potrebbero essere attivi).
2. Analizzare (valutare le informazioni possedute, decidere cosa
significano e come organizzarle al meglio).
3. Definire una strategia (decidere che cosa si vuole fare: Con chi comunicare? Quando? Con quale
frequenza? Come?).
4. Comunicare (effettuare i contatti, classificare le risposte e acquisire il maggior numero possibile di
informazioni sulle risposte per utilizzarle nella fase 1…). Ciclo a fasi continue. Continuo a migliorare.
Il database marketing è impraticabile quando:
• il business non prevede acquisti ripetuti;
• il valore unitario è molto basso;
• la capacità di ottenere informazioni è bassa o inesistente
Es.: banchetto panini davanti ad uno stadio, c’è poca differenza per l’azienda avere info dei consumatori.
Una volta che l’azienda ha costruito un database di marketing, è importante che sia in grado di utilizzarlo al
meglio per estrapolare informazioni dai dati Database Management System, Data Warehouse e Data
Mining. Da approcci semplici a data mining più complicata ovvero estrapolare info non scontati usando
algoritmi diversi..
Il principio fondamentale del database marketing: Più si sa, più si può dire e più si può dire, più di può
vendere. Il database marketing può esistere senza tecnologia, ma una tecnologia relativamente poco
costosa permette di raccogliere e gestire dati, e quindi di praticare il database marketing, anche ad aziende
di piccole dimensioni.

Marketing Analytics

Con il termine Analytics si intendono misure o numeri che indicano come un processo sta performando e
che cosa è possibile fare affinché il processo migliori le sue performance. Definire delle metriche in grado di
definire la valutazione di come si sta lavorando e definire come stiamo lavorando. Per poter parlare di
Analytics in ambiente Marketing è necessario disporre di un Database di Marketing accurato e affidabile…
Marketing Analytics… «is the process of identifying metrics that are valid indicators of marketing
performance in pursuit of its objectives, tracking those metrics over time, and using the results to improve
how marketing does it work.». Come faccio a capire gli effetti? Es. faccio una campagna per un prodotto, si
diffonde anche grazie ad altre cose come il passaparola, come faccio a capire come fa una campagna ad
avere successo? Devo definire metriche specifiche

• Valid indicators: molte sono le cose misurabili nel marketing, ma non tutte sono reali indicatori di
performance. Si tratta di individuare le metriche che meglio rappresentano il valore che il marketing crea
per l’azienda. È la fase più complicata.
• Pursuit of objectives: ovviamente, prima di individuare le metriche da misurare è necessario individuare
gli obiettivi.
• Tracking metrics over time: è necessario che le metriche siano monitorate nel tempo per capire
l’evoluzione della performance.
• Improve how marketing works: lo scopo è comunque quello di migliorare le attività di marketing

Spesso i termini analytics e metriche sono usati come sinonimi. In realtà…


Analytics: comprendono sia il processo che l’output di quel processo – le informazioni sulle performance si
vogliono utilizzare come strumento di gestione. Tutto il processo.
Metriche: sono le «atomic unit» delle analytics. Misure specifiche.

Componenti principali del Marketing Analytics

- People: il processo di marketing analytics viene creato, eseguito e gestito da persone che poi lo
usano, di solito il direttore marketing;
- Steps: il processo di marketing analytics consiste in una sequenza di passi;
- Tools and technology: sebbene il processo di marketing analytics di per se non sia particolarmente
complesso, gli strumenti e la tecnologia aiutano a raggiungere risultati migliori e più rapidamente;
- Input and output: l’input sono i dati e l’output sono le decisioni.
Marketing Analytics process

Tre scenari a confronto


• No Marketing Analytics Process
• A pseudo Marketing Analytics Process
• A true Marketing Analytics Process

Non è detto che aziende che non hanno un processo di Marketing Analytics non abbiamo successo nel
marketing. A volte si riscontrano anche grandi successi, spesso intermittenti. In caso di successo è difficile
capirne il motivo e generalmente la risposta è: «Siamo fortunati!». In caso di insuccesso è difficile spiegare i
motivi del fallimento. In queste realtà il ruolo di responsabile marketing dura poco tempo perché, non
essendo le sue attività supportate da dati e misure, egli non riesce né a prendere decisioni specifiche e
calate nella realtà, né a motivare e circostanziare le conseguenze delle sue decisioni. Tutto ciò comporta
un’assenza di un piano di marketing e un difficile scambio con la direzione.

Si tratta di aziende che usano metriche non totalmente corrette, non esaustive e poco integrate con il
business. Queste metriche spesso sono molto incentrate sulle attività specifiche e non forniscono molte
informazioni su come il marketing stia effettivamente contribuendo al raggiungimento degli obiettivi
aziendali. Metriche non in linea con obiettivi aziendali.

Rand Fishkin, Moz «Se potessi dare un consiglio agli esperti di marketing di tutto il mondo su come
valutare e usare le marketing analytics, direi che è importante leggere i dati, ma non solo: il potere
dell’investimento in marketing non misurabile può essere incredibile» Messaggio per chi ritiene che
l’analytics non sia utile, è fondamentale anche implementarlo con approccio qualitativo del problema.
In questo scenario il reparto marketing dispone di un vero e proprio processo di analisi e lo utilizza; questo
processo tiene traccia delle metriche che forniscono indicatori delle prestazioni e del contributo del
marketing e sono in grado di determinare con precisione in che modo il marketing influenza le entrate
dell’azienda. Questi dati vengono poi condivisi con il resto dell’azienda. L’output del processo di analisi
viene costantemente monitorato per determinare:
• Performance: cosa rivelano le metriche sui risultati che il marketing sta producendo?
• Validità: sono in uso le metriche giuste per fornire un’indicazione precisa delle prestazioni?

Se le metriche rivelano che un’iniziativa di marketing non funziona, vengono apportate modifiche per
produrre risultati migliori. Il marketing non continua a fare la stessa cosa sperando che i risultati migliorino
magicamente, ma realizza che il cambiamento deve avvenire. Le metriche stesse sono costantemente sotto
esame per assicurarsi che siano indicatori accurati delle prestazioni: è alto il rischio che si misuri ciò che è
facile invece che ciò che è rilevante.

«If you can’t describe what you are doing as a process, you don’t know what you’re doing» W. E. Deming –
Se non sai cosa descrivere quello che stai facendo come un processo non sai cosa stai facendo. Questo è
vero in azienda (processi di vendita, contabilità, produzione, formazione, …) e in tutto quello che noi
facciamo: i processi sono i modi in cui portiamo a termine le cose e ci aiutano a lavorare in modo efficace
ed efficiente. Quando ci rendiamo conto che un determinato compito ha un elemento di ripetizione, per
esso sviluppiamo un processo. Appena ci rendiamo conto che questo processo funziona, man mano che lo
utilizziamo portiamo miglioramenti. I processi sono il modo in cui le cose vengono fatte all’interno delle
organizzazioni complesse. Ogni attività ha dei processi precisi con ordini precisi. Processo è la descrizione di
come l’attività viene svolta. Si parla infatti di processo di marketing analytics e di eventi che si ripetono.
Il Marketing Analytics Process serve da interfaccia per tutti gli altri processi di Marketing: identifica
metriche di performance significative per tutti i processi di marketing, monitora tali metriche, e le analizza
per definire azioni di miglioramento basate sull’analisi. In qualsiasi attività le misurazioni sono di
fondamentale importanza perché sono il mezzo per giudicare il successo o il fallimento. Il marketing è
spesso considerato uno sforzo artistico e, come tale, molti non credono che il suo vero impatto sia
misurabile. Ma il fatto che il marketing sia una delle discipline aziendali più creative non deve escluderlo
dalla misurazione. Tra tutti i processi aziendali il marketing è il più artistico, ci sono cose che non sono
misurabili, ma tante altre che sono misurabili supportano quelle non misurabili.

step 1 – Identify metrics

Una volta deciso che la misurazione è molto importante, la prima sfida è determinare quali metriche
utilizzare: il successo dell’intero processo di analisi dipende dalla corretta selezione delle metriche. Nel
marketing sono disponibili centinaia di metriche… Nei social media: mi piace, condivisioni, post, …
Nell’email marketing: aperture, rimbalzi, annullamenti di iscrizioni, … Nei siti web: visite, visite incrociate,
parole chiave,

Quando si determina come misurare i risultati degli sforzi di marketing, è necessario seguire le seguenti
linee guida:
• Concentrarsi sugli obiettivi
• Misurare l’efficienza
• Misurare l’efficacia Le metriche del marketing devono misurare i progressi verso gli obiettivi; quando
esiste una strategia di marketing con obiettivi ben definiti, gli obiettivi rendono la selezione delle metriche
giuste non troppo complicata.

ESEMPIO Obiettivo aziendale: massimizzare i profitti


Obiettivi del marketing: 1. Aumentare la penetrazione di mercato dei prodotti attuali nei mercati attuali 2.
Migliorare la fidelizzazione dei clienti
Per l’obiettivo 1 il marketing potrebbe misurare per esempio la quota di mercato, l’acquisizione di nuovi
clienti, … Per l’obiettivo 2 invece il marketing potrebbe misurare la fidelizzazione dei clienti, la loro
soddisfazione, … In entrambi i casi non è difficile capire l’impatto sulle entrate di ciò che il marketing sta
facendo

Identificare metriche significative è invece molto difficile se non esiste una strategia di marketing. In tal
caso non sono chiari gli obiettivi di business e di marketing. È sempre possibile scegliere alcuni obiettivi
ragionevoli e di conseguenza individuare delle metriche correlate, ma questo non è un approccio strategico
al marketing: la strategia di marketing dovrebbe preesistere al processo di analisi e gli obiettivi di tale
strategia dovrebbero servire come base per identificare le metriche adeguate.

step 2 –Analyze the metrics

«The goal is to turn data into information, and information into insight» C. Fiorina La seconda fase del
processo è l’analisi: si prendono i dati, si analizzano e si trasformano in informazioni utilizzabili. L’obiettivo
di questa fase è estrapolare informazioni dai dati sui progressi del marketing verso il raggiungimento dei
suoi obiettivi. Tutto ciò dovrebbe ovviamente avvenire utilizzando le metriche individuate nello step 1.

L’analisi delle metriche di marketing permette di valutare le prestazioni del marketing. Poiché questa analisi
fornisce la base per intraprendere azioni di miglioramento, è molto importante che i dati utilizzati per
l’analisi siano accurati e completi. Analisi, anche eccellenti, a partire da dati non accurati o non completi
porterà certamente a conclusioni errate e a tentativi inefficaci di migliorare ciò che il marketing sta
facendo. Gli operatori di marketing devono garantire che i dati siano affidabili: è in gioco la reputazione e la
credibilità del marketing.

step 3 – Take improvement actions

«Excellent firms don’t believe in excellence – only in constant improvement and constant change» T. Peters
L’analisi delle metriche di marketing ci dice che cosa sta succedendo e perché, ma di solito non dice cosa
fare se i risultati non soddisfano le aspettative o come fare a replicare ciò che sta succedendo se i risultati
superano le aspettative: spesso le azioni di miglioramento non sono ovvie.

Getting started with Analytics – 1

«Marketing has always been a grueling and competitive sport – not unlike running a marathon. With the
changes in the buying process, in media and technology, and managing expectations, it’s like running a
marathon as the ground shifts beneath your feet. What was already difficult is becoming increasingly
difficult. If you’re going to do it without measurement, it’s like running a marathon, in an earthquake,
blindfolded» D. Raab «Il marketing è sempre stato uno sport estenuante e competitivo… come correre una
maratona. Con i cambiamenti nei processi sottostanti, è come correre una maratona mentre il terreno si
muove sotto i piedi. E se si pensa di farlo senza misurare nulla è come correre una maratona durante un
terremoto con gli occhi bendati…»

«Most of us spend too much time on what is urgent and not


enough time on what is important» S. Covey … bisognerebbe
essere proattivi e non reattivi…. Prevede di lavorare per
implementare non per risolvere problemi.

Stabilire le metriche

«Measuring busy-ness is far easier than measuring business» S. Godin «Misurare l’operosità è molto più
facile che misurare il business»

Quali metriche scegliere per un processo di marketing analytics? Il set di metriche migliore dipende dalla
strategia di marketing, ma alcune metriche comunemente usate sono relative a: - i clienti, - lead
generation*, - il social/digital marketing. *La «lead generation» è un’azione di marketing che consente di
generare una lista di possibili clienti interessati ai prodotti o servizi offerti da un’azienda

I clienti - LTV, - RFM, - soddisfazione dei clienti, - tassi di fidelizzazione dei clienti, - costo di acquisizione di
nuovi clienti, - tassi di abbandono,

Lead generation - nuovi lead per canale, - nuovi lead per campagna, - volume di lead, - nuove
opportunità create, - lead qualificati creati, - costo per lead/lead qualificato, - entrate generate,

Digital marketing: Sito web: sorgenti di traffico, pagine più visitate, visite o visite uniche, ora di visita,
frequenza di rimbalzo, pagine di uscita, … Social media: copertura dei social network (follower, fan,
contatti), condivisioni, post, … Email marketing: dimensione del database, numero di invii, percentuale di
apertura, percentuale di rimbalzi, … Pubblicità digitale: pay-per-click e altre forme di media digitali a
pagamento, click-through, richieste di informazioni.
Lezione 4- Preparazione ed esplorazione dei dati

Preparazione dei dati


Le analisi di business intelligence e l’uso di modelli matematici per le decisioni possono fornire risultati
accurati ed efficaci solo se i dati in ingresso forniscono un’elevata attendibilità. Per disporre di un dataset di
elevato livello qualitativo esistono vari accorgimenti:
• validazione dei dati (per identificare e rimuovere anomalie e inconsistenze),
• integrazione, trasformazione e sostituzione dei dati (per migliorare l’accuratezza e l’efficienza degli
algoritmi),
• riduzione della dimensione e discretizzazione dei dati (per ottenere un dataset ridotto ma ugualmente
informativo del dataset originale).

Validazione – dati incompleti


Dati incompleti: alcuni record presentano valori mancanti in corrispondenza di uno o più attributi per
diverse ragioni
CHE FARE?
• eliminazione (ignorare tutti i record aventi attributi mancanti. Rischio: eliminazione di troppi dati con
perdita di informazioni)
• ispezione (fare ispezionare ad esperti i singoli valori mancanti per suggerimenti su valori sostitutivi.
Operazione onerosa e talvolta arbitraria)
• identificazione (identificare i valori mancanti con un valore convenzionale in modo da segnalare ai modelli
e agli algoritmi l’assenza dei dati),
• sostituzione (sostituire i valori mancanti con, per esempio, la media dei valori dell’attributo
corrispondenti alle altre osservazioni), la colonna età, metto il valore medio.

Validazione – dati soggetti a rumore


Dati soggetti a rumore: alcuni valori possono risultare non corretti o anomali (outlier) a causa di
malfunzionamenti dei dispositivi di misura, di registrazione e di trasmissione dei dati. Trovo un numero che
è impossibile sia cosi. Es. traffico telefonico, spesa mensile, dato elevato.
CHE FARE? Si tratta di identificare gli outlier e procedere alla loro rimozione e regolarizzazione oppure alla
eliminazione dei record che li contengono. Calcolata la media e la varianza dell’attributo, si considerano
outlier tutti i valori che si trovano all’esterno di un intervallo opportuno centrato nel valore medio. L’aiuto
di esperti aiuta ad identificare i valori con cui sostituire gli outlier.

Trasformazione – standardizzazione

La scalatura decimale. Posso decidere se ho la


colonna importi, invece che scrivere 3000, scrivo 3
sapendo che mi indica il numero precedente.
H=intensità della scalatura ovvero in questo caso
3 = 10^3.

La standardizzazione min, max è una


standardizzazione che mi serve quando ho a che
fare con attributi numeri e con ordini di grandezza
diversa. Es. Peso e Altezza di un gruppo di
persone, valori che vanno da 140 e 220 cm. Se
parlo di peso vado da 40 a 100 kg. L’ordine di
grandezza è diverso. Per metterli a confronto, si trasformano in valori mantenedo le proporzioni in termini
di 0 e 1.
Indichiamo con xij = valore di partenza, valore vero.
Indichiamo con xij’= valore nuovo che voglio calcolare
Indichiamo xminj= altezza minimo
Indichiamo xmaxj’ = valore massimo dei valori trasformati, sarà 1.
Indichiamo xminj’ = valore minimo dei valori trasformati, sarà 0.

Applicando la formula trovo la corrispondente altezza espressa nell’intervallo 0-1, altezza minima è 0 e
altezza massima è 1, gli altri saranno proporzionalmente distribuiti. Riesco a mettere a confronto peso e
altezza.

Z-indice = guardo la colonna delle altezze, cerco l’altezza media e la deviazione standard.
Il nuovo valore = il vecchio – la media / deviazione standard

Trasformazione - standardizzazione – min-max (0-1)

Chiamo J la colonna delle altezze


167= X1j ovvero l’altezza del cliente 1
Xminj = altezza minima = 152
Xmaxj = altezza massima = 194
Xminj’ = 0
Xmaxj’ = 1
La formula devo fare
x1j’= è
l’altezza del cliente 1 trasformata
nell’intervallo 0 – 1. Tutti gli altri si
distribuiscono in proporzione.

Es. tanti clienti di cui conosciamo tanti attributi numerici con valori assoluti di natura diversa, stipendo,
altezza, peso. È utile trasformare tutto da 0 e 1. Più è vicino a uno più raggiungo il livello massimo.

Trasformazione – standardizzazione – z-indice

Calcolo la media usando le funzioni excel,


calcolo le deviazioni standard. Il nuovo valore

Un numero più è vicino allo 0, più e media


l’altezza. In corrispondenza dell’altezza più alta
del 194 ho il picco più alto e in corrispondenza
dell’altezza più bassa ho 152 sotto lo zero. Se lo
faccio tra più colonne ho un confronto
immediato.
Trasformazione – standardizzazione – esempio

Trasformazione – estrazione di attributi

Generazione di nuovi attributi che si costruiscono a partire dagli attributi esistenti. Per esempio, in
presenza di attributi che indicano il livello di spesa per ciascun cliente in intervalli temporali successivi,
potrebbe essere interessante definire un nuovo attributo che riporta le differenze o il rapporto tra i valori
di spesa in periodi contigui. Perché penso che siano più utili es. spesa del clienti in intervalli successivi, può
essere utile sapere quanto ha speso in più o meno dal periodo precedente.

Riduzione

In presenza di dataset di grandi dimensioni è opportuno procedere ad una fase di riduzione dei dati in
modo da migliorare l’efficienza, l’accuratezza e la semplicità dei modelli generati.

Riduzione - campionamento

Si tratta di estrarre un campione di osservazioni che sia significativo dal punto di vista statistico. Talvolta è
utile predisporre più campioni indipendenti, della dimensione predeterminata, cui applicare gli algoritmi. In
questo modo i tempi di calcolo crescono linearmente con il numero di campioni estratti ed è possibile
valutare la robustezza della conoscenza estratta dai dati rispetto alla casualità presente nel campione.

Riduzione – discretizzazione

Si tratta di diminuire il numero di valori distinti assunti da uno o più attributi. Esempi:
• il valore settimanale di spesa per un cliente di telefonia mobile è un attributo numerico continuo che può
essere discretizzato mediante 5 classi: bassa [0, 10) euro, mediobassa [10, 20), media [20, 30), medio alta
[30, 40), alta [40, +¥); Suddividere tutti questi valori possibili in gruppi.
• la provincia di residenza di ciascun cliente italiano può assumere un centinaio di valori distinti. Se si
utilizza la regione di residenza anziché la provincia, il nuovo attributo può assumere una ventina di valori
distinti. Ho un attributo che ha una ventina di soluzioni possibili. Qualunque riduzione che non ci fa perdere
di significato anche se perdo qualche informazione.
Esplorazione dei dati

Permette di evidenziare, mediante l’applicazione di metodi grafici e il calcolo di indicatori sintetici, le


caratteristiche principali di ciascun attributo presente in un dataset e di individuare l’intensità della
relazione che lega gli attributi tra loro.
Analisi univariata: studia le proprietà di un singolo attributo presente in un dataset.
Analisi bivariata: considera coppie di attributi e misura l’intensità del legame tra di essi.
Analisi multivariata: studia i legami che sussistono tra un sottoinsieme di attributi.

Attributi dei dati - impo

I dati possono essere:


• Categorici, cioè costituire un insieme finito e limitato di valori distinti, non necessariamente numerici
(provincia di residenza), le cose si e no.
- nominali (sesso)
- ordinali (livello di scolarizzazione); anche se sono categorici riesco a metterli in ordine.
• Numerici, cioè costituire un insieme finito o infinito di valori che si prestano ad operazioni di sottrazione e
divisione (volume di traffico telefonico in un mese). Posso fare somma e differenza, si e no = 1 e 0 sono
categorici, non ha senso fare la somma.
- discreti, se possono assumere un numero finito o una infinità numerabile di valori
- continui, se possono assumere una infinità non numerabile di valori.

Esplorazione dei dati – analisi univariata

Permette di studiare il comportamento di ciascun attributo, considerato come entità indipendente dalle
altre variabili di un dataset. Valuta la tendenza dei valori di un attributo a collocarsi in prossimità di uno
specifico valore centrale (posizionamento) e misura la propensione dell’attributo ad assumere un range più
o meno ampio di valori (dispersione). Siano D un dataset contenente n osservazioni, N = {1, 2, …, n}, aj il
generico attributo analizzato, (x1j , x2j , …, xnj) il vettore di n osservazioni corrispondenti all’attributo aj .

Abbiamo una tabella con N record e consideriamo


l’attributo aj. Ho il cliente c1,c2,c3.. cn. Ho tanti attributi e
considero quello aj, avrò x1j,x2j,x3j..xnj. Non sono altro
che valori che dicono com’è il cliente c3 rispetto
all’attributo.

Analisi univariata – attributi categorici, impo

Sia Vj ={v1j , v2j , …, vHj} l’insieme di valori possibili dell’attributo J. Se l’attributo aj è il colore degli occhi,
qui troverò verde, nero, marrone. H valori distinti che possono essere assunti dall’attributo categorico aj e
sia H = {1, 2, …, H}. La più naturale rappresentazione grafica per l’analisi di un attributo categorico è il
diagramma a barre verticali che riporta in ascissa i valori assunti dall’attributo jesimo e in ordinata le
corrispondenti frequenze empiriche (numero di osservazioni).
- Frequenza empirica del valore h dell’attributo j: ehj = card{i N : xij = vhj} h= occhi blu, la
frequenza empirica dell’attributo h. Nella tabella conto quante sono le persone che hanno gli occhi
blu. Ehj = frequenza empirica dell’attributo h dell’attributo j è uguale alla cardinalità ovvero il
numero di elementi (card) di insieme di record che relativamente all’attributo j assumono valore
vhj. Mi da un numero di quanti hanno l’attributo.
- Frequenza empirica relativa: fhj = ehj / n. Associata alla precedente è la frequenza empirica/
numero di clienti. Mi rapporta il numero alla numerosità totale.

Attributi categorici- diagramma a barre verticali.


In ascisse abbiamo i valori possibili dell’attributo
scelto, giallo, blu e verde. In ordinata posso mettere
sia la frequenza empirica che quella relativa.

Analisi univariata – attributi numerici

Per gli attributi numerici discreti che assumono un numero finito e limitato di valori è possibile ricorrere alla
rappresentazione mediante diagrammi a barre come per gli attributi categorici. Per gli attributi continui o
discreti ma infiniti è necessario suddividere l’asse delle ascisse che riporta i valori assunti dall’attributo in
intervalli (di solito di uguale ampiezza). Ovviamente ciò introduce un grado di approssimazione perché
osservazioni che cadono nello stesso intervallo sono ritenute equivalenti e indistinguibili (più piccoli sono gli
intervalli e migliore è l’approssimazione). Ho la necessità che il numero di valori possibili sia finito. Es.
traffico telefonico dei clienti non posso metterli in questo diagramma, prima di proporre una
rappresentazione di questo tipo, si fanno delle discretizzazioni suddividendo in pacchetti.

Attributi numerici: indici di posizionamento

Media: somma valori possibili e divido per questi. X1+x2+x3..xn

• È la misura centrale più nota e usata.


• A volte è un’entità astratta, poiché può non coincidere con alcun valore reale. Es. casa di riposo
• Il suo valore è fortemente influenzato dagli elementi estremi del campione. Consentono di identificare la
zona centrale per i valori osservati di un attributo numerico.

Esempio
Supponiamo di osservare l’età di 7 bambini:

Età minima: 1. Età massima: 12. Età media: (1+5+5+6+9+11+12)/7=7. Se età


minima < 0 o età massima > 18 si potrebbe pensare a qualche problema sui
dati (dati non corretti o presenza di outliers).
Mediana: valore centrale delle n osservazioni, supponendo di averle ordinate in senso non decrescente.
Regola pratica per la determinazione della mediana:
Ordinare le n osservazioni in modo non decrescente.
Se n è dispari, la mediana è uguale al valore dell’osservazione in posizione (n+1)/2. Es. se ne ho 3 la
mediana è 2
Se n è pari, la mediana è uguale al punto di mezzo dell’intervallo tra i valori delle osservazioni in posizione
n/2 e (n+2)/2. Non ho il dato di mezzo.

• Il valore è condizionato dal numero di elementi del campione, ma non dai valori estremi.
• Si usa soprattutto in presenza di forte asimmetria, quando la media è molto influenzata dai valori estremi.
• Se i dati non sono concentrati nella zona centrale della distribuzione il valore della mediana perde di
significato statistico.

Mediana: 6 (ci sono 1 bambino di 1 anno, 2 di 5 anni, 1 di 6 anni, 1 di 9, 1 di 11 e 1 di 12).

1,5,5,6,9,11,12 la mediana è 6

1,5,5,6,9,11,12,12 la media è compresa tra 6 e 9 = 15/2 = 7,5

Moda: valore più comune, cioè il valore che ricorre il più alto numero di volte.

Alcune proprietà della moda


• Si presta ad essere usata anche nel caso di distribuzioni a classi estreme aperte.
• Se il campione è poco numeroso la moda è poco significativa.
• Se il campione presenta molti picchi è poco significativa.

Moda: 5. Infatti ci sono 2 bambini di 5 anni, mentre c’è 1 bambino per tutte le altre età.

Midrange: punto medio dell’intervallo tra il valore minimo e il valore massimo.

Alcune proprietà del midrange • E’ poco robusto rispetto ai valori estremi e quindi alla presenza di outliers
Midrange: 6,5 =12+1/2

Media aritmetica pesata: rapporto tra la somma pesata dei valori delle osservazioni e la somma dei pesi

Supponiamo di voler calcolare il prezzo medio unitario pagato per l’acquisto di una
materia prima, a partire dai seguenti dati:

PREZZI PER
QUANTITA’/QUANTITA’
Se “moda = mediana = media”, allora c’è simmetria nella distribuzione

Se “moda < mediana < media”, allora c’è asimmetria positiva nella distribuzione.

Se “moda > mediana > media”, allora c’è asimmetria negativa nella
distribuzione.

Esercizi

Media: (1+5+5+6+9+11+12)/7=7
Mediana: 6
Moda: 5 Poiché “moda < mediana < media”, allora c’è asimmetria positiva nella distribuzione

Attributi numerici: indici di dispersione

Consentono di descrivere la dispersione dei dati, cioè il grado di variabilità che le osservazioni manifestano
rispetto ai valori centrali.

Range: differenza tra il valore massimo e il valore minimo


delle osservazioni: Range = xmax - xmin. Ignora l’effettiva
distribuzione dei dati. Per esempio le seguenti
distribuzioni hanno lo stesso range e la stessa media ma
sono distribuzioni diverse.

Scarto: differenza tra il valore dell’osservazione e la


media del campione. 5-6.33 media.
Scarto assoluto: valore assoluto dello scarto.
Scarto quadratico: quadrato dello scarto.
Scarto assoluto medio (MAD): media aritmetica degli
scarti assoluti:

Nell’esempio è 4,5
Varianza: media aritmetica degli scarti quadratici delle osservazioni:

Nell’esempio è 38.75

Deviazione standard: radice quadrata della varianza:

Nell’esempio è 6.22

Lezione 5- LTV E RFM

La gerarchia dei clienti

Questi indici valutano quanto buono è il cliente.


La gerarchia rappresenta i diversi clienti. Ad
ogni cliente corrisponde una azione di
marketing diversa.

Front-end marketing

Funzione del marketing che si occupa dell’acquisizione di nuovi clienti, dell’individuazione di clienti
potenziali e della loro conversione in clienti effettivi. Viene considerato un investimento per il futuro: le
aziende investono in promozione e comunicazione per acquisire nuovi clienti nella speranza di trattenerli
nel tempo per recuperare l’investimento e generare profitti. Si appoggia a qualche dato ma meno della
prossima. È il marketing classico meno quantitativo. Tutto si basa sulla lettura dei dati che ho. Trattengo i
clienti effettivi cercando di spostarmi verso l’alto nella gerarchia dei clienti
Back-end marketing

Funzione del marketing che si occupa di trattenere i clienti effettivi, massimizzando il numero di
comunicazioni con questi clienti e cominciando a differenziare tra clienti migliori, clienti medi e clienti
scadenti, usando il database clienti.

Criteri per calcolare il valore dei clienti: LTV

Il valore di lungo termine (LTV; LifeTime Value) è il valore attuale dei profitti futuri ottenibili dai clienti.
Misura il valore di un investimento rivolto ad acquisire nuovi clienti o a trattenere clienti effettivi, in base al
profitto che si prevede di acquisire da questi clienti. Una delle ipotesi principali nel calcolo del LTV è che il
marketing sui clienti ripetitivi è più redditizio del marketing sui clienti che acquistano per la prima volta.
Infatti, rispetto ai clienti che acquistano per la prima volta, i clienti ripetitivi spendono in generale di più.
Se ciò non fosse vero avrebbe senso cercare sempre nuovi clienti piuttosto che fare marketing per
trattenere gli attuali. Il valore LTV non si basa solo su ciò che succede oggi o su una singola transazione, ma
tiene conto del profitto che si prevede di ottenere nel tempo.
Il primo punto debole è che si basa su stime

LTV – concetti di base

• il marketing sui clienti ripetitivi è più remunerativo del marketing sui clienti potenziali;
• per acquisire il cliente bisogna fare un investimento (pubblicità, promozione,…);
• c’è un ritorno sull’investimento;
• il ritorno si concretizza nel tempo.

LTV – esempio

Commesso in un piccolo negozio di abbigliamento, pagato a provvigione.


Senza programma fedeltà (3 anni)
Vendita annua per cliente: 500 Euro
Dispersione clienti: 50% nel primo anno, 40% nel secondo anno
Costo del venduto: 50% del ricavo
Costi pubblicitari: 10%

Con programma fedeltà (3 anni)


Vendita annua per cliente: 600 Euro primo anno, 650 secondo anno, 700 terzo anno
Dispersione clienti: 45% nel primo anno, 35% nel secondo anno
Costo del venduto: 50%
Costi pubblicitari: 12% (quella standard + quella rivolta ai clienti migliori)
Numero clienti 100*50% = 50, in excel B4*B5.
Fatturato totale dei 3 anni  vendita per cliente * clienti: B6*B4 = 50.000
Costi
Costo del venduto B10*B7
Margine del profitto = fatturato totale – costo del venuto – costi pubblicitari

Attualizzo ad oggi i 20000 come i 10000 li attualizzo ad un anno e i 6000 attualizzo per due anni. Il valore
attuale è C(1+i) ^-n dove n=(numeri di anni). 10000 (1+0,2)^(-1)= 8333,33.

Non li sommo perché sono i valori attuali di tutti i clienti, prima di sommarle bisogna dividerle per il numero
di clienti- 200+ 166.67+138.89= 505.56 = LTV

Lo scenario più conveniente è il secondo. Se aumento i costi pubblicitari ho molto margine perché il tetto
massimo è del 19% dove lo scenario 2 è più conveniente del primo. Se la vendita del cliente si abbassa a
600 non sarà più conveniente.
Esercizio: Stiamo valutando se avviare un canale di comunicazione online per promuovere la vendita di una
linea di maglieria di qualità. Tale vendita avverrà con le modalità tradizionali. Mettiamo a confronto due
scenari programmati su 4 anni e calcoliamo il LTV medio per cliente partendo dalle ipotesi descritte

LTV – esercizio – scenario 1


Vendita annua per cliente: 850 Euro Dispersione clienti: 20% nel primo anno, 25% nel secondo anno, 10%
nel terzo anno Costo del venduto: 60% Costi pubblicitari: 10%

LTV – esercizio – scenario 2


Vendita annua stimata per cliente: 1000 Euro Dispersione stimata clienti: 15% nel primo anno, 10% nel
secondo anno, 10% nel terzo anno Costo del venduto: 60% Costi pubblicitari: 12% (la pubblicità usuale +
pubblicità online)

LTV – esercizio – scenario 1 e 2 a confronto…


1. Qual è il livello massimo giustificato di spesa in pubblicità online?
2. Se il costo del venduto aumenta cosa succede al LTV per cliente nei due scenari?
3. Se la vendita per cliente diminuisce cosa succede al LTV per cliente nei due scenari?
Criteri per calcolare il valore dei clienti: RFM

RFM significa: Recency – Frequency – Monetary value e misura la distanza nel tempo dell’ultimo acquisto
effettuato dal cliente (recency), il numero degli acquisti effettuati dal cliente (frequency) e l’importo totale
speso dal cliente per tutti gli acquisti (monetary value).

Più precisamente…
• Recency è il numero di giorni, settimane, mesi o anni trascorsi dall’ultimo acquisto effettuato dal cliente.
A meno che il cliente non abbia fatto un solo acquisto, la recency non coincide con il tempo trascorso
dall’acquisizione del cliente.
• Frequency è il numero di volte in cui il cliente ha acquistato.
• Monetary value è l’importo complessivo speso dal cliente per tutti i suoi acquisti. Un cliente che ha
effettuato 3 diversi acquisti da 25 Euro ciascuno ha un monetary value di 75 Euro.

Più bassa è la recency e più alti gli altri due ci aspettiamo un buon cliente.

RFM si basa sul concetto che…


• i clienti che hanno acquistato recentemente hanno maggiore probabilità di riacquisto rispetto ai clienti
che non acquistano da molto tempo;
• i clienti che hanno effettuato acquisti frequenti tenderanno ad acquistare più dei clienti che hanno
acquistato con scarsa frequenza;
• i clienti che hanno speso molto in passato hanno maggiori probabilità di spendere in futuro rispetto a
quelli che hanno speso poco. In poche parole: i clienti classificati “buoni clienti” tenderanno a rimanere tali!
L’uso efficace del RFM dovrebbe migliorare il valore di lungo termine dei clienti, ma non serve nei confronti
dei clienti potenziali, quelli che non hanno mai acquistato.

Questo si basa su dati storici non si basa su clienti potenziali, no stime

RFM aiuta a classificare i clienti…


Oltre ad identificare i clienti che rappresentano il target migliore per eventuali nuove offerte, il criterio RFM
può essere usato per identificare correttamente i diversi tipi di clienti. Per esempio ai clienti che comprano
frequentemente ma per importi moderati potrebbero essere fatte offerte per incrementare il loro ordine
medio; i clienti che non comprano da molto tempo potrebbero ricevere un messaggio del tipo “Ci
mancate!”… Come proporsi ad un determinato cliente può essere importante quanto sapere se proporsi o
meno.

Inserire RFM nel database


Il modo più semplice per codificare RFM nel database è inserire i tre campi “recency” (data), “frequency”
(numero) e “monetary value” (valuta) nella tabella clienti. E’ possibile suddividere i clienti in più gruppi a
seconda del valore di questi tre campi.

Esempio:
• Suddividiamo i clienti in base alla recency: 0-6 mesi,
7-12 mesi, 13-24 mesi, 25-36 mesi, 37-48 mesi
• Suddividiamo i clienti in base alla frequency: 1, 2 o più
• Suddividiamo i clienti in base al monetary value: <= 50
Euro, > 50 Euro Si ottengono 20 gruppi con diversa
probabilità di acquisto in base alla RFM
Modello RFM … più in dettaglio…
Supponiamo di segmentare i clienti usando i tre sottocriteri:
• recency: i dati suggeriscono di segmentare 0-30 giorni, 31-90 giorni, 4-6 mesi,… 11 valori possibili
• frequency: tre gruppi usuali sono frequency=1, frequency=2, frequency=3
• monetary value: analizzando i dati tre gruppi possono essere 0-49 Euro, 50-99 Euro e >=99 Euro Ogni
segmento è descritto dal numero di clienti che figurano in quella cella e dal tasso di risposta di quei clienti.
Ovviamente ciascun cliente può stare solo in una cella

Il valore assoluto in ogni


casella mi dice il numero di
clienti che si riconoscono
in quella categoria. La
percentuale mi indica
quanti di quei 1350 hanno
risposto positivamente ad
una campagna che ho
avviato. Ho avviato una
campagna e con questo so
chi ha risposto
positivamente. 1350
hanno risposto
positivamente. Più scendo,
più diminuisce la % di
risposta. Più mi sposto
verso dentra >frequency e
monetary value più
aumenta la % di risposta.
Più interessanti in alto a
destra
La tabella si legge come segue:
• Ci sono 1350 clienti che hanno speso fino a 49 Euro effettuando un solo acquisto negli ultimi 30 giorni.
Alla nuova offerta ha risposto il 10,9% di essi.
• Ci sono 1016 clienti che hanno speso più di 99 Euro e hanno effettuato un solo acquisto da 4 a 6 mesi fa.
Alla nuova offerta ha risposto il 9,29% di essi.
• Scendendo nella tabella, cioè all’aumentare del tempo trascorso dall’ultimo acquisto, il tasso di risposta si
riduce sempre più.
• Procedendo da sinistra verso destra nella tabella, cioè all’aumentare della frequency e del valore
monetario a parità di frequency, il tasso di risposta aumenta sempre più.
• I clienti colorati in blu sono i clienti meno remunerativi (tasso di risposta < 4%).
• I clienti che hanno speso di più o acquistato più spesso sono da ricontattare per un periodo più lungo
rispetto a quelli che hanno speso meno o comprato meno spesso. Gli acquirenti occasionali (1 solo
acquisto) diventano non redditizi dopo 18 mesi.
• E’ conveniente investire sui clienti che hanno speso molto e effettuato molti acquisti fino a 5 anni
dall’ultimo acquisto.

Informazioni di questo tipo aiutano a capire su quali clienti vale la pena investire
RFM – esercizio

Stiamo valutando la RFM a partire da un database di 100 clienti per i quali si è deciso di assegnare i
seguenti valori di Recency, Frequency e Monetary Value. Di questi clienti si sa anche se hanno risposto
positivamente ad una vecchia campagna pubblicitaria oppure no.

Risulteranno 27 segmenti con


100 record: poco significativo dal
punto applicativo ma utile dal
punto di vista metodologico.
3 valori possibili per ognuno di
questi. Se faccio la tabella
quante caselle? 3*3*3=27
segmenti

Recency la risposta 1= quanti hanno risposto positivamente,


al diminuire della recency aumenta il numero di risposte.
La prima riga è Recency 1 con le possibili combinazioni. Conto quante volte 1 si ripete. Si ripete per 4 volte.
Di questi 4 quanti hanno risposto positivamente? = 25%. Che ha 1 nell’ultima colonna.
L’ultima riga che significa recency 3 =ultimo acquisto da meno di 6 mesi, quelli che hanno risposto
positivamente sono aumentati.
Lezione 6- Data Warehouse

Che cos’è un Data Warehouse (magazzino) (DW)?

Data Warehouse: un deposito di dati che contiene l’informazione estratta da altri sistemi dell’azienda che
viene resa accessibile agli utenti aziendali per sviluppare analisi di business intelligence. Non è un semplice
data base aziendale è un contenitore che contiene i dati dei diversi database in azienda ed è una
piattaforma di appoggio per qualunque tentativo di estrarre informazioni che riguardano tutte le diverse
attività aziendali.
Data Warehousing: complesso di attività riguardanti la progettazione, la realizzazione e l’utilizzo di un Data
Warehouse. Il cuore del DW è il sistema per la gestione dei database (DBMS, DataBase Management
System), cioè il software che esplora i database. Hardware, software, dati e il tutto opportunamente
combinato, non sono solo dati ma anche l’infrastruttura.

Data Mart
• un Data Warehouse di dimensioni ridotte, di supporto al marketing
• un Data Warehouse specifico, di funzione, utilizzato da un reparto o un gruppo di utenti aziendali per
svolgere un determinato tipo di compiti.
Data Mart
– dipendente se riceve i dati da un Data Warehouse,
– indipendente se riceve i dati direttamente dai sistemi transazionali e non si appoggia su altri Data
Warehouse.

Da dove provengono i dati?


Dati interni: dati conservati nei database che costituiscono i sistemi informativi aziendali e che vengono
raccolti attraverso i programmi applicativi gestionali riguardanti l’amministrazione, la contabilità, la
produzione, la logistica (Enterprise Resource Planning – ERP).
Dati esterni: dati raccolti da società di servizi, da sistemi informativi geografici (GIS), non impo come quelli
interni
Dati personali: informazioni e valutazioni personali dei decision maker.

I dati e le informazioni
• Un DW sintetizza dati che possono essere molto importanti, ma che diventano informazioni solo quando
vengono trasformati in risposte o report significativi per l’interpretazione degli eventi aziendali.
• Il vero valore di un DW è quello di rendere disponibili nuove informazioni aziendali semplicemente
premendo un tasto. La ricerca e la raccolta dei dati vengono effettuate elettronicamente dall’utente finale
(da cui “e”-data), il quale può disporre dell’informazione necessaria in modo diretto, rapido e significativo.

Perché un DW separato dai database aziendali?


Integrazione: un DW che integra le molteplici fonti di dati, spesso eterogenee, è uno strumento che
favorisce e agevola l’accesso alle informazioni.
Qualità: i dati trasferiti dai sistemi operazionali al DW vengono esaminati e corretti. Ciò aumenta il valore e
la significatività delle analisi di BI sviluppate a partire dal DW.
Efficienza: le interrogazioni rivolte ad estrarre informazioni possono risultare molto onerose in termini di
tempi di calcolo. Se sono rivolte ad un DW i tempi diminuiscono.
Estensione: un DW permette una maggior estensione temporale nel passato dei sistemi operazionali
aziendali.
Caratteristiche di un DW
Orientato alle entità: un DW è orientato alle principali entità di interesse per le analisi (prodotti, clienti,
ordini, vendite), mentre i sistemi operazionali sono orientati soprattutto alle funzionalità operative.
Integrato: i dati provenienti dalle diverse fonti vengono integrati e omogeneizzati (per es. stesse unità di
misura). Contiene tabelle di dati che riguardano le entità sotto analisi, prodotti, clienti, ordini.. nel caso del
marketing. Mentre i sistemi operazionali sono orientati alle funzioni operativi più che alle entità.
Tempificato: tutti i dati inseriti in un DW sono caratterizzati da un’etichetta temporale che ne identifica il
periodo di riferimento. La dimensione temporale è importante.
Persistente: i dati, una volta inseriti, non vengono modificati. Non ci sono quindi problemi relativi alla
concorrenza negli aggiornamenti.
Consolidato: alcuni dati dei DW vengono ottenuti come somme parziali di dati elementari dei sistemi
operazionali (meno spazio e più significatività).

Qualità dei dati


Accuratezza: nomi e codifiche devono essere rappresentati correttamente e i valori numerici essere
compresi in intervalli di variazione ammissibile.
Completezza: i dati non devono comprendere un numero troppo elevato di valori mancanti.
Consistenza: la forma e il contenuto dei dati devono essere coerenti rispetto alle diverse fonti di
provenienza.
Attualità: i dati devono essere aggiornati rispetto agli obiettivi di analisi.
Non rindondanza: devono essere evitate repliche e ridondanze nei dati per evitare sprechi di memoria.
Rilevanza: i dati devono essere significativi e aggiungere valore alle analisi.
Interpretabilità: il significato dei dati deve essere compreso dagli analisti anche a chi prende le decisioni
Accessibilità: i dati devono essere facilmente accessibili agli analisti.

Strumenti ETL – Extract, Transform and Load


Estrazione: i dati, sulla base del progetto di DW che si vuole ottenere, vengono estratti dalle diverse fonti
interne ed esterne disponibili.
Trasformazione: la fase di pulitura e trasformazione mira a migliorare la qualità dei dati estratti,
correggendo eventuali inconsistenze, inesattezze e carenze.
Caricamento: i dati, estratti e trasformati, vengono inseriti nelle strutture informative predisposte nel DW e
resi disponibili agli analisti e ai sistemi di supporto alle decisioni

Il Data Warehouse e la struttura informatica aziendale


Il DW ha avuto una rapida espansione alla fine degli anni 80, quando le aziende hanno compreso l’effettivo
valore dei dati a loro disposizione. Lo sforzo maggiore era quello di integrare il DW con la struttura
informatica già presente. Recentemente c’è stato un ulteriore ricorso al DW dovuto a:
- Obsolescenza delle macchine. La struttura informatica delle aziende era satura e il suo aggiornamento
avrebbe comportato le stesse spese necessarie per acquistare un DW nuovo.
- Dati spuri. I dati provenienti dalle varie entità aziendali erano difficili da recuperare e spesso
incomprensibili o errati. Il DW offriva una piattaforma unica per memorizzare tali dati eterogenei,
depurandoli, controllandoli in termini di qualità e accuratezza e riformattandoli in modo da renderli
comprensibili e utili.
Prima dell’avvento dei DW molte aziende non potevano disporre di elaboratori sufficientemente grandi per
poter avere i dati in un’unica locazione. Con i DW è invece possibile memorizzare elevati volumi di dati
differenti in un’unica locazione. Inoltre molti sono i vantaggi legati alla gestione aziendale:
• niente più numeri contradditori o più risposte alla stessa domanda (consolidamento di dati eterogenei)
• è possibile conoscere in modo approfondito la clientela (questa è la ragione che le aziende riportano più
spesso nel giustificare la necessità di un DW)

Le aziende utenti di Data Warehouse


Tra i possibili utenti di DW ci sono aziende appartenenti a diversi settori economici: • vendita al dettaglio •
telecomunicazioni • servizi finanziari • trasporti • sanità • governo • servizi pubblici

Traggono beneficio dalle analisi di e-data forniti da un DW tutte le persone che devono prendere decisioni:
• product manager • analisti finanziari • acquirenti • pianificatori strategici • commercianti • direttori di
negozi • dirigenti d’azienda

Principali obiettivi nell’implementazione di un Data Warehouse


• fornire ad ogni entità aziendale un’unica visione del cliente
• monitorare il comportamento della clientela
• mettere a disposizione del maggior numero di utenti il maggior numero di informazioni
• migliorare i tempi di risposta per i report più comuni
• prevedere le vendite di un prodotto
• effettuare analisi statistiche su dati collocati in un’unica locazione
• incrementare la comprensione degli eventi aziendali
• aumentare l’accuratezza delle valutazioni
• incrementare la produttività
• incrementare e distribuire le responsabilità

Il Data Warehouse può essere considerato uno strumento strategico?


È essenziale distinguere ciò che le aziende fanno con il loro DW da ciò che decidono in base alle analisi di
supporto alle decisioni che vengono effettuate. - Uno dei principali vantaggi offerti dal DW è quello di
consentire al personale di svolgere meglio e più rapidamente i propri compiti - L’utilizzo strategico del DW
consiste nel determinare migliorie aziendali che potrebbero permettere all’azienda di battere la
concorrenza, ridurre il Time to market, personalizzare il prodotto, effettuare analisi sui percorsi di
navigazione registrati nell’ambito del proprio sito Internet dedicato all’e-commerce

Le aziende che hanno avuto successo con il Data Warehouse… …presentano i seguenti tratti in comune:
- I dati che hanno individuato per effettuare le analisi esistono sul minor numero possibile di piattaforme
- Gli utenti aziendali sono abituati ad accedere al DW in prima persona per ottenere le informazioni di cui
necessitano
- Hanno nel loro organico utenti di diversa esperienza
- Hanno un insieme di strumenti applicativi diversi mediante i quali è possibile analizzare i dati
- Le aziende credono nel valore aziendale di un DW e mettono a disposizione fondi per progetti in fase di
sviluppo
- Le aziende sono disposte a modificare le proprie procedure e consuetudini

Il datawarehouse non consiste sono di dati ma anche di software e hardware necessari per la gestione
dei dati. Parleremo del sistema dell’analisi dei dati, sull’interrogazione dei dati passando da approcci molto
semplici ad approcci via via più semplici. Il primo strumento per interrogare dei dati, banale database o
Supporto alle decisioni: un processo evolutivo

Le query

Il primo strumento per interrogare dei dati, banale database o DW ci sono le query sono lo strumento di
analisi più semplice e più diffuso.
Esempio di query: Visualizza tutti i clienti che lo scorso anno hanno acquistato il prodotto X.

Le query possono essere:


• standard (preconfezionate, uguali per tutti gli utenti, e utilizzate in modo generalizzato);
precedentemente preparate, al posto di x scrivo nutella e avrò una risposta immediata. Non richiede
conoscenza.
• “ad hoc” (specifiche di un determinato utente o di un determinato problema, di solito relative ad un
determinato prodotto, canale di distribuzione o conto clienti). Richiedono conoscenza per usarle.
Le query in tempi brevi permettono agli impiegati di pensare e di agire in modo autonomo. Dato che le
risposte ai problemi sono immediate, l’azienda può adottare rapidamente azioni atte a controbattere le
improvvise strategie di marketing dei concorrenti, a fornire risposte in tempo reale o ad incoraggiare un
cliente scontento a restare.

Esempi
1- Una società telefonica classifica i tipi di query standard effettuate dai suoi utenti in: query sulle vendite,
query sui costi dei prodotti, query sull’utilizzo della rete telefonica e sulle entrate, query sulla redditività a
fine mese. Grazie a queste query il personale, cioè addetti alle vendite, Product Manager e analisti
finanziari, può esaminare gli e-data e prendere decisioni immediate. Una query che può essere effettuata
regolarmente è:
Visualizza un elenco di tutti quei clienti le cui entrate relative all’utilizzo del servizio nelle fasce orarie di
punta sono diminuite per lo meno del 20%

Il risultato di questa query può dare vita a offerta di sconti sui prodotti e sulle fasce orarie, interruzione di
un servizio le cui entrate sono in diminuzione.

2- La maggior parte delle query standard si basa su ipotesi sicure. La seguente query standard si basa su un
sospetto:
Mostra tutti i pagamenti ritardati del cliente X con le relative date di pagamento, per tutti i casi in cui i
termini di pagamento erano scaduti da più di 2 settimane.

L’utente che effettua questa query potrebbe fare un controllo o verificare un sospetto al fine di inviare al
cliente X una lettera per il recupero dei crediti.

3- Un’altra query utile è la seguente:


Mostra tutti gli utenti di cellulari le cui chiamate interne sono state interrotte per più del 20% delle volte
nel corso di una settimana.

Disporre di queste informazioni permette di individuare quei clienti che sfruttano molto il servizio e che
potrebbero avere bisogno di apparecchiature aggiuntive, di individuare possibili concorrenti sul mercato,
candidati per prodotti potenziali, clienti potenzialmente insoddisfatti. Può consentire di mantenere e
acquisire nuovi clienti.
L’analisi multidimensionale

L’analisi multidimensionale (detta anche OLAP) è il gradino successivo nella scelta delle tipologie di analisi e
consente di studiare e confrontare l’informazione. L’analisi multidimensionale offre differenti prospettive,
dimensioni o punti di vista, attraverso i quali osservare i dati: “periodo di tempo”, “luogo” e “prodotto”
sono esempi di dimensioni comunemente utilizzate. Successione di query che l’utente fa sullo stesso
oggetto.

Le ragioni che spingono ad effettuare l’analisi multidimensionale derivano dall’esigenza di vedere


l’informazione in una particolare prospettiva: per esempio si possono suddividere i clienti per aree
geografiche, le vendite per città o le chiamate per periodo della giornata.

Gli strumenti utilizzati per le analisi multidimensionali sono simili, a volte proprio gli stessi, a quelli utilizzati
per effettuare query. Sia le query che le analisi multidimensionali possono essere preconfezionate per
consentire un uso ripetitivo e vengono eseguite ricorrendo a strumenti software user-friendly. La differenza
tra le due tipologie di indagine risiede nel fatto che mentre le query richiamano un’ampia sezione
trasversale di dati differenti, le analisi multidimensionali vengono utilizzate per vedere gli stessi dati sotto
prospettive diverse. Solitamente ricorrono ad analisi multidimensionali gli utenti che hanno maggior
consapevolezza degli strumenti che stanno impiegando.

Esempi:

Supponiamo che la risposta alla query standard


Mostra tutti gli utenti di cellulari le cui chiamate interne sono state interrotte per più del 20% delle volte
nel corso di una settimana porti a formulare un’altra domanda:
Di quei clienti (le cui chiamate interne sono state interrotte per più del 20% delle volte nel corso di una
settimana) quali effettuano chiamate al di fuori della rete?

Questa richiesta di dati raggiunge un maggior livello di dettaglio, fornendo informazioni rilevanti in merito a
parametri relativi all’origine e alla destinazione delle chiamate che potrebbero indurre a proporre servizi
aggiuntivi ai clienti più importanti o perfino portare allo sviluppo di nuovi prodotti o servizi.

Supponiamo che la query standard


Mostra le entrate registrate trimestralmente suddivise per grandi clienti aziendali nelle zone
settentrionali, centrali e meridionali per gli anni 1997 e 1998 evidenzi che le entrate nelle regioni
settentrionali siano inferiori rispetto alle altre e che quindi il manager decida di scendere ad un ulteriore
livello di dettaglio formulando la seguente query:
Mostra gli stessi dati suddivisi per aree nelle zone settentrionali (aree: A, B, C).

Se per es. l’area che presenta le entrate minori fosse la B, l’utente potrebbe voler esaminare nel dettaglio i
dati relativi a quest’area geografica per comprendere le ragioni del problema
Modellazione e segmentazione: analisi per “utenti esperti”

La modellazione

Gli utenti più esperti (analisti di marketing e statistici) richiedono maggiori capacità analitiche per poter
raccogliere informazioni nuove, rispetto a quelle offerte dalle query e dall’analisi multidimensionale.
Modellazione e segmentazione: analisi per “utenti esperti” La modellazione I dati estrapolati devono
servire per poter formulare e utilizzare modelli, cioè per fare la modellazione. In questo contesto si usano i
dati storici per formulare i modelli (i modelli imparano dai dati, training) e si usano i modelli così creati per
fare previsioni per il futuro. Quindi i dati danno origine ai modelli. Allora dati sbagliati danno origine a
modelli sbagliati (attenzione!).
I modelli imparano dai dati ( uso dati storici per prendere queste regole per fare previsioni) e vado a
studiare una dinamica studiando i dati e capisco cosa ha innescato questa dinamica e le cose che
accomunano gli utenti che negli ultimi 6 mesi non sono più tornati a comprare. Queste caratteristiche le
ricerco negli utenti attuali perché penso che questi siano quelli che potrebbero non comprare più. Es. tiro
fuori i modelli a partire dai dati, per modelli si intendono regole es. se il cliente non telefona per una
settimana penso che questo mi abbandonerà. If than else.

La segmentazione

La segmentazione suddivide i clienti o altre aree di dati in gruppi o segmenti aventi caratteristiche comuni
che permettono di definirne il comportamento e quindi determinare strategie di vendita e di marketing
appropriate. Una volta che è stata effettuata una segmentazione della clientela, i segmenti possono essere
analizzati ricorrendo a strumenti di analisi multidimensionale; questo dà agli utenti meno specializzati
l’opportunità di esaminare i modelli che sono stati creati mediante analisi avanzate senza il bisogno di
dover effettuare queste analisi in prima persona.

Nella maggior parte dei casi la modellazione e la segmentazione utilizzano del software specializzato; per
questo motivo l’analista che esegue queste procedure, oltre a essere in grado di comprendere i dati a un
più elevato livello di dettaglio, molto probabilmente è stato addestrato per saper utilizzare strumenti
sviluppati appositamente.

Esempio:

I modelli e la segmentazione offrono alle aziende la possibilità di prevedere il futuro comportamento della
clientela e consentono di classificare i clienti in base alle caratteristiche demografiche, alla propensione
all’acquisto e ad altre categorie simili. Alcuni esempi di segmenti:
- clienti che rispondono a nuove promozioni
- clienti che rispondono agli sconti
- clienti che rispondono a offerte di nuovi prodotti
- clienti che non rispondono alle promozioni

La segmentazione offre suggerimenti su come un’azienda dovrebbe trattare una determinata fascia di
clienti e consente di rispondere a domande del tipo:
• Inizialmente a quale gruppo di clienti dovrebbe essere mirato un determinato nuovo servizio?
• Quali clienti potrebbero assumere più facilmente comportamenti fraudolenti?
• Quali clienti potrebbero rispondere con più probabilità ai saldi?
Un istituto di credito utilizza la modellazione per la valutazione del valore medio della perdita di clienti e
della durata della relazione di clientela, partendo in entrambe i casi da dati storici contenuti nel DW. Alcuni
esempi di modellazione sono i seguenti:
• Durata media della relazione con la clientela
• Perdita della clientela

Knowledge Discovery (KD)

Processo di acquisizione della conoscenza (Knowledge Process) che, nell’ambito della gestione della
conoscenza (Knowledge Management), consente al personale di reperire le informazioni necessarie per
svolgere con profitto il proprio lavoro e raggiungere gli obiettivi aziendali dei singoli reparti dell’impresa. La
KD è svolta tramite algoritmi molto potenti che ricercano particolari elementi nell’ambito di database di
grandi dimensioni. Questi elementi non vengono specificati anticipatamente ed è per questo che viene
sfruttata in tutti quei casi in cui l’utente sta cercando risposte a domande che non è in grado di formulare: è
il DW a indicare all’impresa dove si trovano gli elementi, le relazioni e i punti caldi più interessanti.
Sono delle tecniche di analisi più spinte e complesse delle precedenti. Voglio vedere i prodotti che nella
settimana scorsa nel supermercato sono stati acquistati insieme, coppie e pacchetti di prodotti = regole
associative e sono delle tecniche di KD più comuni. Quali sono le pagine web consulate insieme e cosi via.
Richiedono software e conoscenze importanti.

A differenza degli altri tipi di analisi, la KD è un’analisi che parte da “zero ipotesi” e dato che non sappiamo
quali domande porre non possiamo prevedere quali saranno le risposte che otterremo. La KD scopre i
modelli nascosti nei dati che riflettono il comportamento della clientela, le disdette, gli acquisti futuri o altri
eventi aziendali. Questi modelli sono troppo particolari e apparentemente arbitrari per essere specificati e
quindi l’analista sarebbe costretto a un continuo “gioco di indovinelli” per cercare di immaginare i possibili
modelli esistenti in un database. Il procedimento della KD è esattamente l’opposto: speciali strumenti
scoprono questi schemi e li comunicano all’analista specificando di cosa si tratta e dove reperirli.
Voglio studiare il churn, i clienti vadano dai concorrenti. Ora invece sono i dati a fornirmi informazioni
interessanti. Prendendo le coppie acquistate insieme poi posso decidere cosa fare. Nel cercare la coppia di
prodotti il cui acquisto dell’uno innesca quello dell’altro. In usa il sabato pomeriggio l’acquisto combinato
più frequente erano i pannolini e birra. Tiro fuori queste informazioni e non tirando a caso.

Esempio: una casa farmaceutica utilizza la KD per esaminare cosa accade quando certe medicine vengono
prese contemporaneamente (affinità multi-oggetto tra i prodotti), rendendo possibile l’analisi dei modelli di
affinità dei prodotti. Inoltre l’azienda analizza i successivi acquisti di prodotti in modo da determinare se
certi medicinali portino a necessitarne degli altri (analisi sequenziale degli acquisti). L’analisi delle affinità è
una delle molte analisi di KD possibili. Un potente algoritmo delle affinità legge tutti gli elementi informativi
contenuti nel DW e collega ogni attributo con ogni altro oggetto informativo prescindendo dal loro
significato. Il risultato è un insieme di regole che descrive determinate relazioni tra i dati e queste regole
possono portare sorprese interessanti.

Per esempio si è osservato che dei clienti che acquistano patatine, il 63% acquistano anche chupa-chupa. È
interessante soprattutto se si considera che un’azienda non aveva modo di trovare questa relazione senza
ricorrere alla KD. La potenzialità è ancora più evidente se si osserva che Dei clienti che acquistano patatine
e chupa-chupa, il 74% acquista anche vino rosso. Grazie a questi informazioni il proprietario di un
alimentari potrebbe decidere di spedire coupon ai clienti che acquistano più spesso uno di questi tre
prodotti, eliminare gli sconti sul vino rosso, disporre in modo più efficace i prodotti sugli scaffali.
Elenco di informazioni che possono essere acquisite mediante la KD

• Si possono individuare i prodotti che innescano altri acquisti


• Si può prevedere quale sarà il prossimo acquisto di un determinato cliente o di un segmento di clienti,
prima che avvenga
• Si possono determinare le ragioni e i fattori che hanno portato a flessioni nelle vendite o alla disdetta di
un servizio
• Si possono determinare le caratteristiche del cliente che influenzano la durata di vita di un prodotto (per
es. le famiglie con figli appena diplomati sono più propense a permutare un’auto vecchia con una nuova)
Nell’ambito della KD i dati sono attendibili; è necessario che anche l’interpretazione dei dati sia attendibile
(specialisti!)

Ci sono 4 livelli di analisi:

Aumenta la complessità e gli strumenti sono più


difficili. Diminuisce l’ipotesi di partenza. Se faccio
una query so che domanda voglio fare via via che
salgo l’ipotesi diminuisce sempre più. Man mano il
sospetto diventa più specifico. Man mano che
salgo sono i dati a parlare. Il tempo di risposta
aumenta salendo nella piramide.

Perché si ricorre al Data Mining

Gli ultimi due gradini della piramide fanno


parte del Data Mining (nato nel ‘94-’95) non
è una vera e propria tipologia di analisi ma
una classificazione delle diverse tipologie di
analisi dei dati. Se c’è chi tende a sostituire il
termine “supporto alle decisioni” con “Data
Mining” e quindi afferma che questo
termine comprende tutti i livelli della piramide, in questo contesto si preferisce considerare il Data Mining
una categoria di analisi che comprende sia la modellazione/segmentazione che la Knowledge Discovery. Più
precisamente il Data Mining prevede due fasi: - Knowledge discovery: trovare schemi regolari che sono
celati nei dati; - Knowledge deployment: usare tali schemi per fare previsioni, cioè applicare la conoscenza
identificata per prendere decisioni e acquisire vantaggi di business.
Formulo una domanda, scrivo una riga di codice per fare la domanda. Es. quali dei clienti abitano a
venezia = Query- ah hoc preconfezionata quando sono domande ricorrenti. Ci sono anche quelle non
preconfezionate che chiedono competenze. In seguito abbiamo l’analisi multidimensionale parte dall’analisi
dove c’è una sequenza di query che si formano man mano alle domande. La maggior informazione dipende
dalla sequenza. In seguito passo alla modellazione e segmentazione,guardo i dati storici e cerco di tracciare
dei comportamenti (le persone che hanno speso di più sono le donne tra 40/50 anni e con stipendio > tot,
di questo c’è stata una buona risposta all’attivitàif then= modello di regola probabilistica. Ci aiutano a
trovare associazioni. Infine passo a KD = data mining gli ultimi due gradini.
Data mining

Processo che si articola nella raccolta e


nell’analisi dei dati, nello sviluppo di modelli
matematici di apprendimento e nell’adozione
di decisioni concrete basate sulle conoscenze
acquisite. Le analisi di DM si propongono di
trarre alcune conclusioni a partire da un
campione di osservazioni passate e di
generalizzare queste conclusioni all’intera
popolazione in modo che queste si rivelino
quanto più possibile accurate. I modelli e le
regolarità identificati possono assumere diverse forme: equazioni lineari, sequenze di regole if-then-else,
cluster, grafici, alberi, cose che possono avere natura diversa. Quando parliamo di modelli finora parliamo
di modelli di ottimizzazione. Nel datamining i modelli sono diversi sono regole decisionali che possono
essere rappresentate in forme diverse.

Esempio Settore: telefonia mobile Fenomeno: customer attrition


• Il tasso di churn è molto alto
• I clienti ricevono un bonus quando sottoscrivono un abbonamento (costo per l’azienda), per es. sconto sui
primi mesi, sconti sull’acquisto di un nuovo cellulare,…
• Ogni nuova acquisizione rappresenta un costo per l’azienda (promozione, agenti, commissioni,…)
• Una campagna di retention che preveda di regalare un telefono cellulare ad ogni vecchio abbonato in
cambio del rinnovo del contratto rappresenta un costo per l’azienda
• Riacquisire un nuovo cliente dopo il churn è difficile e costoso

Esempio – obiettivo del Data Mining


Costruire un sistema di supporto alle decisioni (DSS) predittivo, cioè costruire un modello quantitativo che
permetta di prevedere con anticipo sulla data di chiusura del contratto un indicatore numerico che esprima
la propensione del cliente al churn (IPC).
• Ai clienti con IPC elevato e aventi valore elevato per l’azienda verrà fatta un’offerta per prevenire il churn
(un nuovo modello di cellulare in regalo,…).
• Ai clienti con IPC basso o aventi scarso valore per l’azienda non verrà fatta alcuna offerta e magari nei loro
confronti verrà intrapresa un’azione pubblicitaria di minore costo (mailing, messaggi,…).
I modelli di DM consentono di analizzare il fenomeno della customer retention ricavando una
segmentazione dell’insieme dei clienti in modo da separare i segmenti a prevalenza di churners dai
segmenti a prevalenza di clienti fedeli.

Una piccola riduzione del tasso di churn… … può comportare anche un consistente guadagno

Ipotesi: • l’insieme dei clienti è composto da 500.000 unità; • il tasso di churn è del 25% annuo (n. di clienti
che se ne vanno = 125.000); • il costo di acquisizione di un cliente è di 300 Euro; • il valore medio annuo di
un cliente è di 500 Euro. Una riduzione annua del churn del 5% comporta: • una riduzione di 1.875.000
Euro in un anno del costo di acquisizione (125.000 * 5% * 300 Euro = 1.875.000 Euro) • un guadagno di
3.125.000 Euro in un anno per i clienti trattenuti (125.000 * 5% * 500 Euro = 3.125.000 Euro) per un totale
di 5.000.000 Euro in un anno.
Principali potenzialità del DM
• Possibilità di intervenire in anticipo nei confronti dei clienti anziché reagire in ritardo a loro
comportamenti (si è proattivi anziché reattivi)
• Possibilità di reagire tempestivamente a nuove condizioni competitive
• Possibilità di ottimizzare l’impatto complessivo di campagne e azioni di marketing (qui interviene
l’ottimizzazione)
• Possibilità di accrescere il LTV (Life Time Value) del cliente
• Possibilità di ridurre il numero di contatti e quindi i costi dovuti alla gestione delle interazioni con i clienti

I modelli di Data Mining sono modelli predittivi…


…cioè effettuano delle previsioni circa il futuro sulla base della conoscenza di informazioni passate e
presenti. Il Data Mining prevede una fase di training in cui si usano i dati disponibili (dati storici) per fare
apprendere il modello e una fase in cui si usa il modello così generato per costruire un legame funzionale e
fare delle previsioni. Il modello ha visto, ha origine dalla storia passata e noi lo usiamo per prevedere il
futuro. I dati storici danno origine al modello di data mining, prendiamo dei dati storici e per dare poi delle
previsioni per prevedere il futuro. Modello testa delle regole, se sono ok mi possono prevedere il futuro.

Purtroppo i dati…
• I dati nel mondo reale sono “sporchi”: –
incompleti: valori mancanti in attributi
importanti, sono contenuti solo dati aggregati –
noisy: contengono errori o outliers –
inconsistenti: contengono discrepanze nei codici
o nei nomi
• No quality data, no quality mining results! –
Decisioni di qualità devono essere basate su dati
di qualità

I database sono sempre più grandi a causa (o grazie a) delle tecnologie di raccolta automatica e
memorizzazione di dati (codici a barre, carta fedeltà, POS, carta di credito,…) e del trascorrere del tempo
(accumulo di serie storiche di dati). Le tecniche di DM aiutano gli analisti e i manager a scoprire
informazioni nascoste nella mole di dati I dati vengono trasformati in conoscenza e tale conoscenza può
essere utilizzata per migliorare le decisioni Alcuni sinonimi di DM sono Knowledge Discovery e Knowledge
Deployment, Machine Learning, Business Intelligence

La conoscenza è a cavallo tra blu e viola.


Processo iterativo che conduce ad estrarre da database di grandi dimensioni informazioni:
• corrette (è importante tenere da parte un insieme di dati da usare per fare benchmark, cioè controllare la
correttezza previsiva del modello)
• originali (non scontate, non evidenti)
• non banali (è stato dimostrato che molti uomini che acquistano pannolini per bambini acquistano anche
birra)
• potenzialmente utili (deve essere un’informazione utile, per es. noto quanto sopra, metterò nello scaffale
del supermercato la birra vicino ai pannolini)
• espresse secondo schemi di regolarità comprensibili e condivisibili da parte degli esperti del dominio di
applicazione (è importante tradurre il modello in un linguaggio comprensibile agli utenti)

Rappresentiamo le persone che hanno ricevuto un


prestito, come variabili lo stipendio mensile e l’entità
del prestito della banca. Più alto è lo stipendio più
facilmente si pagano i debiti e viceversa.

Un buon modello di datamining ci permette di trovare


K, cioè la soglia sotto la quale la probabilità di mancati
pagamenti è meno o più elevata. Ci sono comunque
eccezioni, ma la maggior parte dei clienti a sinistra non
rispettano le scadenze e viceversa. Le regole che si
estrapolano sono regole probabilistiche. Se stipendio
<k = mancati pagamenti. Aggiungiamo questa regola
con probabilità del 95%.

Data Warehousing e Data Mining


• Il DW facilita le analisi di DM Se il DW non ci fosse sarebbe molto più difficile fare DM perché dovremmo
andare a cercare i dati. I tempi del progetto si allungherebbero di molto.
• Le analisi di DM cercano le informazioni nascoste nei DW Le dimensioni del DW crescono molto
velocemente e quindi è impossibile praticare indagini esplorative di tipo manuale.
• Il DM è un completamento naturale del DW: trasforma i dati in informazioni e conoscenza

Esempi di applicazioni Dato un insieme di clienti (persone fisiche o carta SIM), di cui conosciamo le
caratteristiche (profilo, dati di traffico,…), che hanno abbandonato un’azienda di telefonia mobile, costruire
un modello in grado di attribuire a ciascun cliente rimasto un punteggio che esprima la probabilità di
abbandono entro 2 mesi Dato un insieme di sinistri, di cui conosciamo le caratteristiche (profilo, dettagli del
sinistro,…), denunciati ad una compagnia di assicurazioni e riconosciuti fraudolenti, costruire un modello
che attribuisca a ciascun cliente un punteggio che esprima il grado di rischio di comportamento
fraudolento.
Applicazioni del DM al Database Marketing
• Identificare i profili di clienti più promettenti per una campagna di vendita
• Riconoscere le offerte che hanno maggiore probabilità di ricevere consensi
• Identificare il profilo dei clienti che corrisponde alla maggiore redditività lifetime
• Segmentare la customer base per fare cross-selling
• Effettuare la customer retention e la fidelizzazione
• Effettuare la basket analysis (regole associative, analisi del carrello d’acquisto)
• Pianificare le risorse di vendita (agenti, budget,…)
• Pianificare le vendite per approvvigionamenti e produzione

Caratterizzazione: Identificazione delle caratteristiche comuni a un insieme di elementi appartenenti ad una


medesima classe (identificare le caratteristiche comuni ai churn per una società di telefonia mobile)
Discriminazione Confrontare le caratteristiche degli elementi appartenenti ad una classe rispetto a quelle di
elementi appartenenti ad un’altra classe (confrontare le caratteristiche dei churn rispetto a quelle dei
clienti fedeli per una società di telefonia mobile)
Clustering: Suddividere una popolazione in segmenti (cluster) in modo da minimizzare le differenze tra le
caratteristiche degli elementi appartenenti ad uno stesso cluster e massimizzare le differenze tra le
caratteristiche di elementi appartenenti a cluster diversi (segmentare l’insieme dei clienti in relazione ai
profili di utilizzo del cellulare)
Regole di associazione Dato un insieme di oggetti e un insieme di transazioni, determinare regole di affinità
tra gli oggetti nelle transazioni (almeno il 60% di persone che acquistano latte in un supermercato
acquistano anche pane)
Classificazione: Classificare un insieme di elementi in classi (di solito un numero piccolo, 2 o poco più) sulla
base delle loro caratteristiche. Si possono fare delle previsioni sulla classe di appartenenza di nuovi
elementi date le loro caratteristiche (distinguere i clienti a rischio di frode per una compagnia di
assicurazioni e classificare i nuovi potenziali clienti)
Predizione: Prevedere il valore di un attributo misurabile (continuo) di un elemento in base ad altre sue
caratteristiche (prevedere la lifetime di un cliente di carta di credito per un istituto bancario)

Analizzo i dipendenti di 6 record– nome,


come sono assunti, da quanti anni e se hanno
cambiato lavoro o meno.
Guardo i dati, applico un algoritmo di
classificazione che da il seguente modello: se
status è professore ordinario oppure anni di
servizio >=7 abbandona = no. Se è professore
ordinario non si licenzia mai, Carlo = no.
Oppure se gli anni di servizio sono maggiori
uguali di 7 non abbandona.

Questa regola mi piace? La testo su un nuovo


pacchetto di dati diversa dalla precedente mi
fa testare la regola. Faccio previsioni arriva
Sara professore ordinario quindi non
abbandona.
Ho fatto training, test e previsioni della regola.
Lezione 7 – Clustering

Tecniche di Data Mining


• Caratterizzazione e discriminazione
• Classificazione (alberi decisionali)
• Regole di associazione
• Tecniche di clustering (nearest neighbor)
• Modelli di stima e modelli di serie storiche
• Algoritmi genetici
• Reti neurali
• Ant Colony
• Descrizione e visualizzazione

Le tecniche di Data Mining più usate nei software commerciali di maggior diffusione nelle aziende sono
• tecniche di clustering, • alberi decisionali, • reti neurali.

Caratterizzazione e discriminazione: analisi esplorativa preliminare che mira a caratterizzare la distribuzione


dei record appartenenti ad una medesima classe e a confrontare la distribuzione dei valori degli attributi
per i record di classi diverse. È un’analisi semplice, basata su query e conteggi, e le informazioni ottenute
vengono di solito rappresentate mediante istogrammi. Utile soprattutto se utilizzata come analisi
preliminare

Classificazione: noto un insieme di osservazioni di cui è nota la classe di appartenenza, un algoritmo di


classificazione deve utilizzare le osservazioni disponibili, riferite al passato, per identificare un modello
matematico che consenta di assegnare la classe di appartenenza alle osservazioni future di cui siano noti i
valori degli attributi. L’attributo target, il cui valore deve essere predetto, assume un numero finito e
limitato di valori (di solito 2, si e no)

Regole associative: mirano a identificare associazioni interessanti e ricorrenti tra gruppi di record in un
dataset. Le aziende della grande distribuzione utilizzano questa tecnica per pianificare la disposizione della
merce negli scaffali.

Clustering: le tecniche di clustering mirano a segmentare una popolazione eterogenea in un certo numero
di sottogruppi (cluster) contenenti osservazioni aventi tra loro caratteristiche affini. Talvolta tale tecnica
può essere usata come fase preliminare in un processo di DM per ridurre la dimensione del dataset
originale trattando dati effettivamente confrontabili.

DM supervisionato

Il DM supervisionato è un approccio top down applicabile quando si sa che cosa si sta cercando, cioè è
facilmente individuabile un attributo target e si indirizzano gli sforzi verso un obiettivo specifico. Alcune
domande che cercano risposta sono:
• Chi risponderà positivamente alla prossima offerta, in base all’andamento delle campagne promozionali
precedenti?
• Qual è la terapia medica più efficace in base all’esperienza passata?
• Quali sono i clienti più a rischio di abbandono nell’arco dei prossimi sei mesi?
• Quali sono le transazioni potenzialmente fraudolente in base agli esempi già noti? Il DM supervisionato è
orientato alla predizione e all’interpretazione in riferimento ad un attributo target.
I modelli previsionali, in base all’esperienza, attribuiscono punteggi
a determinati risultati che si otterranno in futuro. È fondamentale
disporre di una sufficiente mole di dati con relativo esito per
preparare il modello. L’obiettivo è generare previsioni, stime,
classificazioni relativamente al comportamento di alcune variabili
target. Questo approccio è rappresentato da una scatola nera nel
senso che non interessano i meccanismi di funzionamento del modello previsionale. Conosco input perché
conosco la domanda e formulo output

Data Mining non supervisionato

Il DM non supervisionato è invece un approccio bottom up, in cui si


lascia che siano i dati ad indicare un risultato. L’obiettivo è quello di
individuare nuovi pattern, ricorrenze, affinità e difformità presenti
nel dataset, in grado di offrire nuovi punti di vista che si possono
rivelare utili. Questo approccio è rappresentato da una scatola
semitrasparente nel senso che si ritengono interessanti i
meccanismi di funzionamento e il modo in cui viene generata la risposta.

Il modello viene utilizzato per valutare e analizzare i dati ed è necessario comprenderne il funzionamento.
Tale approccio viene di solito usato nella fase esplorativa, cioè nella fase in cui si cerca di rispondere a
domande del tipo: Che cosa si cela dietro i dati? Si individuano pattern insoliti? Che cosa suggeriscono i dati
per la segmentazione della clientela? In questo caso non esiste una variabile target da prevedere, ma
l’obiettivo è scoprire la struttura dell’insieme dei dati visto nella sua interezza

 Supervisionato e non supervisionato: Non sono due approcci che si escludono a vicenda, anzi spesso è
opportuno che essi siano usati in modo combinato: anche volendo costruire un modello previsionale è utile
individuare andamenti particolari utilizzando tecniche non supervisionate in modo da costruire nuovi
segmenti di clientela all’interno dei quali sia possibile ottenere risultati migliori tramite i modelli
supervisionati. La “rilevazione dei cluster” è una tecnica di DM non supervisionato, mentre gli “alberi
decisionali” e le “regole associative” sono tecniche di DM supervisionato.

Cluster analysis

Tecniche non supervisionate per classificare l’insieme delle unità (record) dell’analisi in gruppi non definiti a
priori, in base alle caratteristiche possedute.

I gruppi vengono costruiti cercando di massimizzare l’omogeneità interna e massimizzare le differenze tra i
gruppi stessi. Per stabilire similarità e dissimilarità tra le unità deve essere definita una metrica in grado di
esprimere la distanza tra le unità da analizzare. Costruisco gruppi di cliente nei quali siano più simili
possibili. Simile, distante è necessario chiarire questa funzione.

- Input: matrice che riporta per ciascuna unità il valore delle variabili rispetto alle quali si vuole fare
la classificazione.
- Output: nuova variabile categorica che indica il gruppo di appartenenza di ciascuna unità.
La determinazione di cluster omogenei aiuta ad intraprendere azioni di marketing focalizzate e specifiche
per gli elementi componenti ciascun cluster. La qualità, l’efficacia e la probabilità di successo delle azioni di
marketing aumentano quanto maggiore è la conoscenza dei comportamenti storici manifestati da un
gruppo omogeneo di clienti, in relazione all’acquisto di un definito gruppo di prodotti.

Un gruppo (cluster) è una collezione di unità tali che:


• le unità dello stesso cluster sono simili tra loro (alta somiglianza intra-classe)
• le unità di cluster diversi sono dissimili (bassa somiglianza inter-classe)
La cluster analysis è
• un processo di raggruppamento delle unità in cluster
• tecnica di apprendimento non supervisionato (le unità non hanno una classe nota a priori), non so
formulare la domanda

Applicazioni

Varie possibilità di utilizzo:


• come stand-alone,
• come processo preliminare ad altre tecniche di analisi,
• come processo integrato di algoritmi per altri tipi di analisi.

Il problema di clustering

Sia O un insieme di n oggetti (record) detti popolazione e sia V un insieme finito di m variabili (campi), che
descrivono le proprietà degli oggetti in O.

Sia X=[Xij], i=1,…,n, j=1,…,m, una matrice di dati


relativa a n osservazioni (record) e a m variabili
(campi).
Xij dice come è l’oggetto i rispetto alla variabile j. Il
valore che assume il record i relativamente
all’attributo j.
Sia Rj il campo di variabilità del j-esimo campo, XijÎ Rj
, per ogni i=1,…,nla colonna j-esima è
rappresentata da attributi da R. La prima riga dice
quali valori assume il cliente 1 relativamente agli
attributi 1,2,j,m. Mi interessa la colonna J perché
decido che appartengono ad un insieme Rj = campo
di variabilità dell’attributo j. Se uno dei campi è il colore degli occhi all’interno troverò uno di questi.
Matrice delle distante: mi dice quanto dista ciascun
record da tutti gli altri. È una matrice nxn in cui la
diagonale principale è formata da tutti 0 = cliente
dista da se stesso 0.
d(i,j) è la distanza (“dissimilarità”) tra l’unità i e
l’unità j. È usuale supporre che d(i,j)=d(j,i)
La definizione di d(i,j) cambia molto a seconda del
tipo di variabili
Variabili: quando parlo di distanza devo sapere le variabili

A seconda della natura di Rj , e quindi dei valori che possono assumere le variabili, si possono distinguere
diverse situazioni:
• variabili qualitative (o categoriche, o modali, o nominali): per es. occhi blu, verdi, grigi; femmina o
maschio; un oggetto ha una determinata proprietà o no; possono non essere ordinali , qualitativa
ordinale è il livello di scolarizzazione.
• variabili binarie: Rj ={0,1}, per es. una persona ha acquistato un certo prodotto (1) oppure no (0)?
• variabili quantitative (o reali, o continue): per es. temperatura, entrate, età;
• variabili ordinali: quando è possibile costruire un ordine tra tutti i valori che le variabili possono assumere;
possono essere ordinali sia variabili qualitative che variabili quantitative;
• variabili cicliche: quando assumono valori ciclici, per es. le 24 ore.

- Variabili simmetriche: quando possono assumere dei valori e anche i valori esattamente simmetrici;
per es. maschio 1 e femmina 0, oppure maschio 0 e femmina 1: non è importante a chi assegniamo
valore 0 e chi assegniamo valore 1, l’importante è assegnare valori diversi. Mi basta distinguere
senza dire che qualcuno ha qualcosa in più.
- Variabili indicatrici: quando servono a segnalare se un determinato oggetto ha una certa proprietà
(1) oppure no (0). Segnalano che proprietà hanno gli oggetti in considerazione.

Discretizzazione

Talvolta è necessario discretizzare una variabile quantitativa, rendendola qualitativa. Una possibilità è
suddividere l’intervallo in cui assume valori tale variabile in q sottointervalli di uguale ampiezza w:=(rmax-
rmin)/q. Creo dei range da 20 a 30 dicretizzando e riducendo i valori possibili.

Normalizzazione

Spesso si vuole che i vari attributi pesino in maniera uguale

Esempio Le unità rappresentano città


Attributi: temperatura media (gradi centigradi) e popolazione (numero di abitanti)
Il range di valori della popolazione è molto più ampio ma si vuole che questo attributo non conti
proporzionalmente di più rispetto all’altro
È necessario normalizzare i dati

Zero-score normalization Per ogni attributo f,


calcolare la media mf e lo scarto assoluto
medio sf delle Xif, i=1,…,n

Min-max normalization
Come misurare la distanza tra unità?
Per affrontare concretamente il problema, è necessario poter esprimere quantitativamente la “distanza”
tra gli elementi di O per poi costruire una partizione di O tale che
• la “distanza” intra-cluster sia minima,
• la “distanza” inter-cluster sia massima

Funzione distanza

Funzione che prende due unità e a queste associa un numero. Prende due clienti, record, unità e associa un
numero che ci dice quanto distano queste due unità tra loro.

Definizione: Si dice funzione distanza una funzione d:OxO [dmin,dmax]. Va da una distanza minima a
massima. Tale che
• d(x, x)=dmin, x O, ci conviene mettere 0 è la distanza minima del cliente a se stesso
• d è simmetrica, cioè d(x, y)=d(y, x), x,y O, la distanza di x a y sia uguale alla distanza di y ad x.
dove dmin e dmax, che rappresentano la distanza minima e massima rispettivamente, sono numeri reali tali
che dmin < dmax.
La matrice n x n D=[dxy], dxy =d(x, y), con x,y O, si dice matrice di similarità.

Definizione: Se una funzione distanza è tale che


• dmin =0 e dmax =
• vale la disuguaglianza triangolare, cioè d(x, z) <= d(x, y) + d(y, z), x,y, z O,
• d(x, y)=0  x = y, x,y O allora la funzione si dice distanza metrica

Variabili quantitative

Sia X=[Xij], i=1,…,n, j=1,…,m, una matrice di dati relativa a n osservazioni (record) e a m variabili (campi).

Si utilizza la distanza euclidea:

Prendo il cliente h e il cliente k, faccio per


ciascuna colonna la differenza assunta dai due
clienti per tutte le colonne e sommo le
quantità facendo la radice quadrata. La
differenza, il quadrato e la somma si possono
faresono variabili quantitative.

Si utilizza la distanza media


assoluta/Manhattan:
Prendere tutti i valori delle differenze tra
gli attributi e invece di sommarli si prende
il massimo.

Variabili binarie

Variabili che assumono valore 1 o 0. Sono i e j


le due unità di cui io voglio misurare la
distanza.

Ci sono due righe:


i= 011010
J= 010100

Costruisco una tabella con ciascuna coppia di


record. Nella posizione 11a = scrivo la
situazione che per i e j hanno valore 1.

Il controllo è che la somma mi dia il numero di attributi considerati.

Utilizzo la tabella di contingenza per calcolare un


indicatore di distanza. Per variabili simmetriche e
asimmetriche.
-> la prima: calcola quante volte i e j assumono
valori diversi. Più piccolo è questo valore quindi
minore è la distanza, meno sono le volte che
assumono valori diversi.
->il secondo: non inserisco d.
Variabili nominali: attributo assume più valori

Estensione del caso binario: l’attributo può assumere più di due valori

1. Metodo 1: matching semplice


p: numero di attributi che corrispondono
m: numero totale di attributi
2. Metodo 2: trasformazione in attributi binari Se per la variabile qualitativa j-esima si verifica che |Rj
|>2, per es. occhi blu, verdi, grigi, marroni (|Rj |=4), è possibile trasformare tale variabile in
variabile binaria aggiungendo tante variabili, dette variabili help, quanti sono gli elementi di Rj .
Per esempio: occhi blu? (si o no) Occhi verdi? (si o no) Occhi grigi? (si o no) Occhi marroni? (si o no).
Le variabili help così generate saranno variabili binarie simmetriche. Applico quindi i discorsi delle
variabili 0,1.
Lezione 8 – Clustering

Il Set Covering problem

Voglio suddividere un gruppo di unità in più


gruppi tali per cui la distanza all’interno dei
gruppi sia min e tra i gruppi sia max.

Set covering: è una clusterizzazione con


delle caratteristiche diverse.

Esempio:

T= insieme di elementi della

popolazione/database/record
insieme di clienti.
Supponiamo che F sia una
famiglia di sottoinsiemi. J1=
contiene la prima famiglia, J2=
contiene la seconda famiglia,
J3= la prima la seconda e la
terza. Ho 6 clienti e ho 4
sottoinsiemi. F è insieme dei
sottoinsiemi J. Alcuni dei
sottoinsiemi si chiamano
copertura se la loro unione mi
da tutto T. J1= è copertura da
solo? No. J1+j2 è copertura?
No. J1+j2+j3 è copertura? Si.
J2 +j4 è copertura? Si.
Se prendiamo J1+j2 non è una
copertura in questo esempio.
Cardinalità minima: formato dal
numero minore possibile di
sottoinsiemi. Tra le due coperture
preferisco la seconda perché
formata solo da due sottoinsiemi. Se
unisco tutti gli elementi di F’ mi da T.

Copertura come si fa? Tra le due


coperture si sceglie la seconda ovvero al
minor numero possibile di sotto insiemi.
Set covering = minimizzare la cardinalità.

Variabile binaria che chiamo Xj= assume


valore 1 se quel sottoinsieme lo scelgo.
Assume valore 0 se quel sottoinsieme
non lo scelgo.

Il primo membro è la somma di quantità


che assumono valore o 0 o 1 . il fatto che
voglio che questo primo membro sia
maggiore uguale a 1 implica che voglio che almeno un addendo sia 1. Quando è che un addendo è 1.
Quando
Partizione: si dice partizione F’
sottoinsieme di F se è una
copertura cioè l’unione di tutti i
sottoinsiemi e l’insiemi che
scelgo sono disgiunti cioè non
hanno elementi in comune.
Si definisce partizione ( ho un
insieme T e uno F) si dice
partizione se l’unione mi da
tutto T ma l’intersezione tra
insiemi diversi è nulla. Nessun
elemento compare in più di un
insieme. Si dice partizione se la loro unione oltre a coprire tutti gli elementi sono fatti anche in modo
disgiunto. Una famiglia se non è copertura non è partizione.
Il problema di Clustering

Il problema di clustering è un problema in cui si tratta di determinare una partizione (suddivisione in


cluster), tutti siano coperti e che nessun cliente cada in due cluster diversi, con determinate caratteristiche:
• la “distanza” intra-cluster deve essere minimizzata, all’interno del cluster
• la “distanza” inter-cluster deve essere massimizzata, di due cluster diversi
• il numero di cluster può essere fissato oppure no, es. divido in 5 cluster
• … E’ un problema difficile: se volessi trovare la migliore clusterizzazione possibile provandole tutte
sarebbe difficile. Anche con 5 elementi, il numero di modi in cui posso partizionare è grande e richiede
tempo.

Il problema del clustering: algoritmi

1. Algoritmi gerarchici: ogni gruppo fa parte di un gruppo più ampio, che a sua volta è contenuto in un
gruppo più ampio ancora e così fino a che si ottiene tutto l’insieme di unità analizzate. Che tipo di
algoritmo voglio usare visto che il clustering è difficile da fare.
- Scissori: quando l’insieme delle n unità (in n-1 passi) si
ripartisce in gruppi che sono sottoinsiemi di un gruppo
formato nello stadio precedente e che termina quando ogni
gruppo è formato da una unità. Inserisco tutti i clienti e
continuo a spezzare i gruppi. Le unità non possono più tornare
insieme dopo averli spezzati.
- Aggregativi: quando procedono ad una successione di fusioni
delle n unità, a partire dalla situazione base in cui ogni unità
costituisce un gruppo a sé stante, fino allo stadio n-1 in cui si
ha un gruppo che le contiene tutte. Si parte dal basso invece
che dall’alto, inizio ad aggregarli via via.

2. Algoritmi non gerarchici: Tali algoritmi procedono in modo


iterativo aggregando e disaggregando cluster via via. Più
precisamente, ad esempio: ad ogni iterazione dispari
vengono accorpati i due cluster più vicini e ad ogni iterazione
pari viene separato il cluster più disomogeneo. Ogni volta
che la clusterizzazione cambia, e quindi ad ogni iterazione,
vengono individuati i nuovi centroidi e il procedimento continua fino a che lo spostamento dei
centroidi da un’iterazione all’altra diventa infinitesimale. Dati iniziali: numero di cluster che si
vogliono ottenere, cluster di partenza e loro centroidi. Alterno spaccature e aggregazioni.

Gli algoritmi gerarchici, che non richiedono a priori la definizione del numero di gruppi in cui si vuole
ripartire la popolazione, sono molto onerosi dal punto di vista computazionale (calcolo della matrice delle
distanze ad ogni iterazione): si usano quando si devono classificare poche unità

Gli algoritmi non gerarchici, che sono non monotoni (cioè permettono ad una unità di cambiare cluster di
appartenenza durante il processo iterativo), sono più efficienti: si usano anche con dataset di elevate
dimensioni.
Tecniche non gerarchiche

Filosofia: a partire da una situazione iniziale provvisoria in cui si hanno un numero predefinito di cluster, si
aggiustano via via i cluster ottenendo ad ogni iterazione cluster “migliori”, fino a che si dispone di una
soluzione giudicata buona.

Si tratta di: 1. avviare il processo che prevede un numero prefissato di cluster, individuando una soluzione
iniziale provvisoria; 2. assegnare le unità ai gruppi individuati nella fase 1; 3. assegnare le unità a gruppi
diversi da quelli precedentemente individuati, al fine di ottimizzare una prefissata funzione obiettivo.

Soluzione ottima: si può ottenere solo enumerando tutte le possibili partizioni … non è praticabile
Soluzione euristica: basata sulla ricerca di minimi locali Di solito viene definito un “centro di gravità” di un
cluster, detto centroide, e le varie misure di similarità vengono riferite a questo punto I metodi più famosi
sono due:
• k-means (MacQueen, 1967) algoritmo non gerarchico per risolvere il problema del clustering
• k-medoids (Kaufman & Rousseeuw, 1987

Xij= come si comporta il cliente i rispetto


all’attributo j
Il centroide di un cluster è il punto medio del
cluster.

La procedura si sviluppa come segue:

-generazione dei centroidi (punti


medi) iniziali casuali (tanti quanti sono
i gruppi che si vogliono formare) e
assegnazione delle unità ai gruppi in
base alla minima distanza (euclidea)
dai centroidi;
-suddivisione del cluster meno
omogeneo e aggregazione dei due
cluster più omogenei;
- individuazione dei nuovi centroidi.
La procedura si arresta quando lo
spostamento dei centroidi diventa
irrilevante
Sia K il numero di cluster in cui si vuole suddividere l’insieme di dati. A ogni record si assegnano coordinate
nello “spazio dei record”, cioè uno spazio che ha tante dimensioni quanti sono i campi nei record. È
necessario che tutti i campi siano trasformati in numeri e che i numeri siano normalizzati in modo che
differenze in dimensioni diverse siano confrontabili.

Attributo 1 = età e attributo 2 altezzasituazione di partenza.

Si scelgono 3 centroidi iniziali pescandone


3.

Ora si assegni ogni record al seme più vicino.


Per fare ciò, si ricordi che: dati due punti X e Y in un piano, tutti i punti equidistanti da X e Y si trovano
sull’asse del segmento XY. Ovviamente se anzichè su un piano fossimo su uno spazio a n dimensioni
bisognerebbe parlare di iperpiani di dimensione n-1 anzichè di rette

Devo calcolare la distanza dei centroidi.


Costruisco il segmento che unisce i due
centroidi e l’asse che passa per il punto
media perpendicolare. Tutti i punti
nell’asse sono equidistanti dai punti rossi.
Mi individua due cluster.
Si costruiscono dei cluster diversi a causa di
nuovi centroidi. Ci si ferma quando la
posizione dei centroidi cambia di gran
poco, finchè i confini dei cluster non si
somigliano.

Pregi: • Relativamente efficiente. La sua


complessità è O(tnk), dove t è il numero di
iterazioni. Di solito t e K sono molto minori
di n e quindi la complessità è O(n) • Spesso
fornisce una buona soluzione approssimata
Diffetti: • Applicabile solo se è possibile
definire il centroide • K deve essere noto in
anticipo • È molto sensibile alla presenza di
outliers • Non è adatto per cluster con
forme non convesse

Algoritmo K-medoidsidentico solo che lavora con la mediana


Conseguenze della scelta della cluster analysis

Essendo una tecnica non supervisionata, tale tecnica può essere applicata senza conoscere nulla della
struttura da scoprire. Inoltre, visto che i cluster individuati non hanno alcuna interpretazione naturale a
parte quella geometrica, potrebbe essere difficile utilizzare i risultati ottenuti. Questa tecnica può essere
applicata a qualsiasi tipo di dati a patto di scegliere la funzione distanza giusta. Si può parlare per esempio
di distanza tra due brani di testo e questa può essere usata per aggregare articoli giornalistici in gruppi a
seconda dell’argomento. Tuttavia nella maggior parte dei casi la distanza usata è quella euclidea e quindi le
variabili non numeriche devono essere trasformate e scalate prima di poter essere utilizzate

Ha senso con numerosità elevate e ho bisogno di suddividere queste unità in gruppi più omogenei. Una
società di telefonia mobile considera tutti i suoi clienti in 3 o 4 gruppi. All’interno di questi si suddividono
ancora.

Lezione 11 – Alberi decisionali

Problemi di classificazione

In un problema di classificazione si dispone di un dataset D contenente n osservazioni (esempi o istanze)


costituite da m attributi esplicativi e da 1 attributo target categorico (classe o etichetta). Gli attributi
esplicativi (predittori) possono essere categorici e numerici.
I modelli di classificazione si propongono di individuare legami ricorrenti tra le variabili esplicative
corrispondenti ad osservazioni appartenenti ad una medesima classe. Questi legami vengono tradotti come
regole di classificazione che vengono impiegate per predire la classe di osservazioni di cui è noto solo il
valore degli attributi esplicativi. Es. Se peso è minore uguale di 70, allora con probabilità 90%. Seallora.

Abbiamo la tabella in cui le righe sono record (clienti, prodotti..) e questi si chiamano anche esempio,
istanze, osservazioni, unità che vogliono dire la stessa cosa. Ci sono i campi che si chiamano anche attributi
che sono di due tipologie:
-Attributi esplicativi: sono degli attributi che descrivono caratteristiche note delle nostre osservazioni, peso,
altezza, taglia..
-Attributo target: attributo sul quale vogliamo fare delle previsioni, se guardo i dati storici i valori sono noti,
se guardo i dati attuali i valori di questo non sono noti e su questo voglio fare delle previsioni costruendo
un albero decisionale.

Es. conoscono taglia, altezza, peso e lunghezza delle gambe, sono tutti dati che ho e sono tutti attributi
esplicativi, l’attributo target è acquista jeans slim. Se guardo la classe dell’anno scorso ho tutti i dati, per
quelli di quest’anno non ho. Vedendo quello che ho fatto l’anno scorso saprò attraverso i dati confrontando
gli attributi esplicativi di quest’anno e dell’anno scorso per fare previsioni su quanti acquisteranno
l’attributo target.

Esempio: Un operatore di telefonia mobile si propone di svolgere un’analisi di DM con l’obiettivo di


valutare la probabilità di abbandono da parte di ciascun cliente, per pilotare le azioni di marketing rivolte
alla retention, e di comprendere le ragioni che inducono i propri clienti all’abbandono, per migliorare il
livello di servizio e ridurre le defezioni future.
Attributi selezionati

zona: zona di residenza


numin: numero di chiamate ricevute nel mese t-2
timein: durata in secondi delle chiamate effettuate nel mese t-2
numout: numero di chiamate ricevute nel mese t-2
Paltri: percentuale chiamate effettuate verso altri operatori nel mese t2
Pmob: percentuale chiamate effettuate verso il medesimo operatore nel mese t-2
Pfisso: percentuale chiamate effettuate verso telefoni fissi nel mese t-2
numsms: numero messaggi inviati nel mese t-2
numserv: numero di chiamate effettuate verso servizi speciali nel mese t-2
numcall: numero di chiamate effettuate verso il call-center nel mese t2
diropz: varibile binaria che dice se il cliente ha attivato un’opzione di chiamata a tariffa agevolata verso
alcuni numeri
distacco: varibile binaria che dice se il cliente ha abbandonato il servizio nel mese t, 1 se ha abbandonato, 0
se non ha abbandonato.la variabile distacco che assume il ruolo di attributo target se la porto ad un
periodo storico concluso so i valori, ma se guardo i dati attuali non lo saprò e voglio fare delle previsioni

I primi 11 attributi rappresentano variabili esplicative, mentre l’ultimo rappresenta la variabile target, cioè
esprime la classe di appartenenza di ciascun record in relazione agli obiettivi dell’analisi di DM. La variabile
target assume valore 1 se un cliente ha disattivato il servizio, 0 in caso contrario. Il numero di osservazioni
disponibili è 23. Un modello di classificazione può rivelarsi utile per identificare i clienti a rischio di
disattivazione.  Cercare dei comportamenti ricorrenti che provochino la rottura del contratto. Le
ricorrenze che legano gli attributi esplicativi e target nel passato, vengono usati nel presente per cercare
persone con queste caratteristiche per prevenire questa probabilità. Tecnica supervisionata: guido la
ricerca e decido cosa fare.
L’attributo target è binario
quindi si o no.

I primi m attributi sono quelli


esplorativi che descrivono il
comportamento e m+1 che è
quello su cui vogliamo fare
previsioni.

Per ogni riga i-esima avrò un


valore per ogni attributo
xi1,xi2 = vettore Xi di attributi
esplicativi.E ho un valore di
attributo target yi

Trovare delle regole che


legano yi con i valori di xi.
Generare alcune regole che
leghino il valore di yi con i
valori di xi e tra queste
scegliere quelle chi sembrano
interessanti.

Sviluppo di un modello mirano a classificare l’attributo target

1. Fase di training: un sottoinsieme T (training set) degli esempi presenti nel dataset D viene utilizzata
per il training di un modello di classificazione allo scopo di ricavare le regole di classificazione che
consentono di attribuire a ciascuna osservazione la corrispondente classe target. Usa molte unità
per costruire delle regole che leghino il valore dell’attributo target ai valori degli attributi esplicativi
2. Fase di test: le regole prodotte nella fase precedente vengono impiegate per classificare le
osservazioni di D non utilizzate per il training. Per valutare l’accuratezza del modello di
classificazione la classe di appartenenza di ciascuna osservazione di V = D-T (test set) viene
confrontata con la classe predetta dal modello. Uso le osservazioni per testare le regole costruite
3. Fase di predizione: il modello viene effettivamente utilizzato per assegnare la classe target alle
nuove osservazioni, applicando le regole generate in fase di training alle variabili esplicative che
descrivono la nuova istanza. Uso le regole per fare previsioni.
Valutazione di modelli

Un’analisi di classificazione prevede di


sviluppare modelli alternativi generati
mediante algoritmi diversi, per poi adottare
il modello che risulta “migliore” in termini
di …

Accuratezza

Prima cosa da fare è andare


a vedere le previsioni
corrette. Ovvero l’indicatore
più naturale è la % di
osservazioni del test set V
che il modello classifica
correttamente.
Consideriamo l’osservazione
i che appartiene a V.

Applico il modello

F(xi)= va confrontato con yi


una volta calcolato.

La sommatoria è 0 è giusto e
1 se sbaglio.
L(yi,f(xi)) se sommo tutte le
osservazioni del validation
set (V) conto tutti gli errori
che faccio. Se divido per il
numero di osservazioni
ottengo la percentuale di
errore.
TRA DUE MODELLI
SCELGO QUELLO CON
ACCURATEZZA PIU’ALTA
PERCHE’ SIGNIFICA CHE HA
UNA % DI PREVISIONI
CORRETTE PIU’ ELEVATA.
- Velocità: alcuni metodi richiedono tempi di elaborazione inferiori rispetto ad altri e consentono di trattare
problemi di grandi dimensioni
- Robustezza: un metodo di classificazione è robusto se le regole di classificazione generate non variano in
modo significativo al variare della scelta del training set e del test set
- Interpretabilità: è necessario che le regole generate siano semplici e comprensibili per gli esperti del
dominio di applicazione

Lift

Supponiamo di voler valutare le performance di un modello usato per scegliere l’insieme di potenziali
clienti a cui rivolgere una campagna pubblicitaria. Costruiamo un piano cartesiano avente per ascissa la
dimensione del target della campagna e per ordinata il numero di risposte positive ottenute. Supponiamo
che la retta uscente dall’origine (in blu) rappresenti il numero di risposte positive ottenute se il campione è
stato scelto a caso e che la curva (in verde) rappresenti il numero di risposte positive ottenute se il
campione è stato scelto sulla base del modello. La curva verde deve stare sopra la retta. Se sta sotto il
modello fa peggio che andare a caso. Blu e verde si intersecano i 0 e 1 o 0% e 100%.

È evidente che se la dimensione del target è 100%,


scegliendo casualmente o usando il modello si ottiene
lo stesso numero di risposte positive. La stessa cosa
succede se la dimensione del target è 0. In generale la
curva starà sopra la retta, cioè usando il modello
colpiremo un maggior numero di persone che
scegliendo il campione casualmente.

Se è il 10% è chiaro che la curva deve essere più alta


della retta.

Siano:
x% la dimensione del target,
OA il numero di risposte positive ottenute scegliendo il target di dimensione x% casualmente,
OB il numero di risposte positive ottenute scegliendo il target di dimensione x% sulla base del modello.

Ovviamente sarà OA<OB. Fissata una x preferisco tra due modelli quello con lift più grande o più piccolo?
Più piccolo è il lift più mi piace il modello.
Il rapporto OA/OB è detto lift al x%

Esempio: Se per esempio il lift è 1/6, significa che usando il modello ottengo un numero di risposte positive
pari a 6 volte il numero di risposte positive che otterrei con un campionamento casuale. Ovviamente, più
distanti sono le due curve, e quindi più basso è il lift, e migliore è il modello. Quando si parla di lift bisogna
specificare a quale percentuale di popolazione colpita (target) è stato calcolato. La dimensione del target
della campagna è determinato a priori (budget). Per tutti i modelli si calcolerà il lift al x% e si sceglierà il
modello con lift al x% più basso.
Il primo modello 0 predice 0 quindi è corretta , si inseriscono i dati.

Accuratezza= 1-1/10(0+0+1+0+1+1+0+0+0+0)= 1-3/10= 70%


L’accuratezza del modello F1 è del 70%.

Accuratezza= 1-1/10 (1+0+0+0+0+1+0+1+1+0)= 60%


L’accuratezza del modello F2 è del 60%

Scelgo il modello con accuratezza maggiore quindi F1.


Lezione 12 – Alberi decisionali

Gli alberi decisionali costituiscono una delle


tecniche di DM più usate e più apprezzate: essi
realizzano un procedimento di ripartizione
della popolazione analizzata in gruppi
mediante una successione di spaccature di tipo
gerarchico, al fine di selezionare, tra le variabili
esplicative, quelle che maggiormente spiegano
la variabilità della variabile target. Sono
particolarmente apprezzati per la semplicità
concettuale, la facilità d’uso, la velocità di
elaborazione, la robustezza rispetto a valori
mancanti e outlier, l’interpretabilità delle regole generate.

Tecnica molto usata perché è semplice e facile da usare e le regole generate sono facilmente
interpretabili e accessibili. Queste costruzioni hanno dei nodi e degli archi che formano un grafo.

Gli alberi decisionali sono una struttura di classificazione di tipo gerarchico in cui
- i nodi interni rappresentano i gruppi di unità ai diversi stadi del livello di segmentazione,
- i rami (archi) rappresentano le condizioni che hanno determinato le suddivisioni,
- i nodi foglia rappresentano i gruppi per i quali non è ritenuta utile un’ulteriore suddivisione.

Quando un modello ad albero viene applicato ai dati, ogni record viene analizzato dall’albero lungo un
percorso stabilito da una serie di test del tipo: “Il campo 3 è maggiore di 7?”, “Il campo 4 è rosso, bianco o
verde?”, fino a che il record non raggiunge una foglia dell’albero.

Percorso di analisi

La sequenza di decisioni da prendere per costruire un albero decisionale è la seguente:


• determinazione della variabile target (variabile di disquisizione), Algoritmi di classificazione: abbiamo
tanti attributi esplicativi e uno target su cui fare previsioni.
• scelta dei predittori (variabili, attributi rispetto ai quali ramificare),
• determinazione dell’ordine di entrata dei predittori, (*)
• criteri di valutazione dell’efficacia di una spaccatura,
• definizione dei criteri per l’arresto del
processo di partizione, (*) quando possiamo
definire foglia un nodo e che non si può
continuare da un nodo
• criteri di pruning (potatura). Non vogliamo
che sia troppo largo con tanti rami – con tante
regole ne troppo lungo – con regole troppo
complicate.

Molto hanno da dire gli statistici sulla scelta


del target e dei predittori e sull’ordine di
entrata dei predittori.
Esempio:

Problema: a chi indirizzare una campagna pubblicitaria per un nuovo modello di Mercedes?
Ci chiediamo chi ha maggiore probabilità di comprare una Mercedes in modo da decidere a quali gruppi di
clienti indirizzare la campagna pubblicitaria, dal momento che non la possiamo rivolgere a tutti, sia per
problemi di budget, sia perché non sarebbe conveniente.
Usiamo i dati del training set per costruire delle regole.
Supponiamo di conoscere per ciascun record del training set età, sesso, auto posseduta dai genitori,
indirizzo, professione, composizione nucleo familiare.
Nell’insieme di tutta la popolazione del training set la percentuale di acquisto è del 50%

Se segmentiamo sull’età (<= 45 o > 45) otteniamo due segmenti


con percentuale di acquisto diversa: di tutte le persone che
hanno acquistato una Mercedes, il 55% ha non più di 45 anni.

Ho una partizione, nel senso che i miei clienti andranno in un


nodo unico > o < a 45.

Ora, a partire dall’insieme con maggiore


percentuale di acquisto, segmentiamo sul
genere: maschio o femmina? Si trova che di
tutte le persone che hanno acquistato una
Mercedes e ha non più di 45 anni, il 67% sono
maschi. Ora, ancora a partire dall’insieme con
maggiore percentuale di acquisto, segmentiamo
su “genitori con Mercedes?” e troviamo che di
tutte le persone che hanno acquistato una
Mercedes, hanno non più di 45 anni e sono
maschi, il 92% hanno genitori con Mercedes =
FOGLIA GLI ULTIMI DUE, mi fermo perché la
percentuale è buona se sono un uomo con
più di 45 anni con genitori con mercedes mi
interessa.

Posso costruire tante regole quante sono le foglie. Più largo è più regole ho. Più lungo è più complicate
sono le regole. L’ordine con cui scelgo gli attributi determinano l’albero.

A partire da un training set è possibile costruire un numero esponenziale di alberi di classificazione distinti.
Il problema di determinare l’albero ottimale è NP-hard, cioè computazionalmente difficile.
Di conseguenza i metodi per lo sviluppo di alberi di classificazione hanno natura euristica
Criteri di separazione univariati

Criteri generalmente meno accurati ma più diffusi rispetto alle versioni multivariate perché più semplici e
proposti per primi. Si tratta di individuare l’attributo migliore tra quelli disponibili e selezionare la
partizione più efficace tra quelle ad esso corrispondenti. Ciò avviene mediante il calcolo di una funzione di
valutazione che fornisce una misura di disomogeneità tra le osservazioni presenti nei nodi considerati. I
nodi devono essere più omogenei al loro interno di quanto lo sia il nodo padre. Le funzioni di valutazione
più note sono indice di entropia, indice di Gini, indice di misclassificazione

un nodo che contenta 50% si e 50% no non ci piace. Ci piace un nodo da 10%e 90%. Misurazione di
quanto disomogeneo è un nodo e ci aiutano a capire se usando un attributo rispetto ad un altro ci portano
ad un nodo che ci piace di più.

Siano ph la percentuale di osservazioni di classe target vh, h ϵ H, contenute in un


generico nodo q e Q il numero totale di osservazioni presenti in q.
Vale la relazione:

L’indice di eterogeneità I(q) di un nodo è funzione delle frequenze ph, h ϵ H, dei valori della classe target
per le osservazioni presenti nel nodo e deve soddisfare tre requisiti: assumere valore massimo quando le
osservazioni del nodo sono distribuite in modo omogeneo su tutte le classi (se sono 2: 50% 50% quindi se
ho colore degli occhi con 5 ho un nodo di 25%, non mi piace un nodo perché non mi da info), assumere
valore minimo quando tutte le osservazioni del nodo appartengono alla stessa classe (100% occhi blu molto
informativo) e rappresentare una funzione simmetrica rispetto alle frequenze ph (100% occhi blu o occhi
grigi, l’indice deve darmi lo stesso valore).

Vogliamo fare delle previsioni sul colore degli occhi, h=5 il numero di valori possibili dell’attributo target.
Ph è la percentuale di osservazione di classe target Vh contenute nel nodo Q. Dentro il nodo Q ho le
percentuali dei clienti che sono p1= occhi blu, p2=occhi verdi,
p3=occhi marroni, p4=occhi grigi, p5=occhi neri. So come si
distribuiscono le unità rispetto alla classe target. Si definisce
l’indice di eterogeneità del nodo ovvero I(q) una funzione di
pk , voglio agganciare a questo nodo un numero che mi
esprima quanto eterogeneo è quel nodo.

Ad ogni nodo si associa un indice, l’indice


di eterogeneità deve soddisfare i 3
requisiti. Deve assumere valore elevato
quando ho un nodo che non mi piace
(info sono omogenee). Valore minimo
quando le info appartengono alla stessa
classe e quindi è un nodo buono.
Indice di Gini: noto come indice di Simpson in biologia e come indice di
Gini nel DM. Esso può essere interpretato come la probabilità che due
elementi qualsiasi di una popolazione scelti a caso con sostituzione
appartengano a classi diverse. Detta ph la probabilità che venga scelto
un elemento della classe h, la probabilità che un elemento
appartenente alla classe h sia scelto per due volte di seguito è ph ^2.
L’indice di diversità è allora: 1-p1^2-p2^2… probabilità di tirarne fuori due di diversi, togliendo quelli uguali.

Probabilità che se pesco due elementi da un urna


ributtando dentro tiro fuori di classi diverse.

Esempio: P1, P2 sono classi. H=2. P1+p2=1


Se le classi sono solamente due, e quindi p2=1-p1, si
ha:
indice di Gini =1-(p1 ^ 2+ p2 ^2)=1-(p1 ^2+ (1-p1)^2)=
= 1-(p1^ 2+ 1 - 2 p1 +p1 ^ 2)
=2 p1 - 2p1 ^ 2
= 2 p1 (1-p1).

Un elevato indice di diversità evidenzia una


distribuzione uniforme di classi all’interno
dell’insieme, mentre un basso indice significa che predominano i componenti di una sola classe. Il nodo in
cui ho in ugual misura clienti si e clienti no, non mi piace.

Il campo migliore per la segmentazione è quello che riduce il più possibile la diversità: si tratta di provare
ogni possibile segmentazione, calcolare l’indice di diversità e scegliere la segmentazione che presenta la
massima riduzione di diversità

Indice di entropia

Supponiamo che ci siano due classi: P e N. Supponiamo che il training set S del nodo q contenga p elementi
di classe P e n elementi di classe N. Si definisce quantità di informazione contenuta in q il valore:

Il meno va a compensare il
segno del logaritmo.

In generale, se ci sono H classi:


Scegliamo l’attributo A per
ramificare in 3 nodi, s1,2,3.

Alcuni elementi di p
andranno in p1,2,3 e alcuni
elementi di n andranno in
n1,2,3.

Supponiamo che mediante l’attributo A il training set del nodo q venga ripartito nei sottoinsiemi {S1, S2, …,
Sr}. Per es. se l’attributo è “età > 27” e “età <= 27” allora r=2, se invece l’attributo è “occhi verdi”, “occhi
marroni”, “occhi azzurri” e “occhi neri” allora r=4.
Se il nodo Si contiene pi elementi di classe P e ni elementi di classe N, si definisce informazione attesa
legata alla scelta dell’attributo A il valore E(A) = Si=1,…,r ((pi + ni )/(p+n)) * I(Si ).

Si definisce information gain o guadagno di informazione che si ottiene ramificando sull’attributo A il valore
Gain(A) = I(q) - E(A). Si sceglie l’attributo che massimizza Gain(A) e quindi, essendo I(p, n) costante, si sceglie
l’attributo che minimizza E(A).

Compra pc = si è la classe P
Compra pc = no è la classe N

Variabile target: compra PC Siano classe


P = “compra PC = SI”, p=9 classe N =
“compra PC = NO”, n=5.

Si calcola I(9, 5) = 0,940,


E(età)=(5/14)*I(2,3)+(4/14)*I(4,0)+(5/14)*I(3,2)=0,6935,
E(reddito) =(4/14)*I(3,1)+(6/14)*I(4,2)+(4/14)*I(2,2)=0,911,
E(studente) =(7/14)*I(3,4)+(7/14)*I(6,1)=0,788,
E(classe-credito) =(8/14)*I(6,2)+(6/14)*I(3,3)=0,892.
Di conseguenza
Gain(età) = I(9, 5) - E(età) = 0,2465,
Gain(reddito) = I(9, 5) - E(reddito) = 0,029,
Gain(studente) = I(9, 5) - E(studente) = 0,152,
Gain(classe-credito) = I(9, 5) - E(classe-credito) = 0,048.

Si tratta di scegliere l’attributo che massimizza il Gain e quindi, in questo caso si sceglie l’attributo “età”.
Perché questa è la scelta che mi porta ad acquisire più informazioni possibili. Sono 5 regole:

Quando calcolo l’entropia faccio una media dei nodi. È considerata di più entropia con nodi più numerosi.
Info attesa è la media pesata delle entropie dei nodi di arrivo s1s2s3 dove i pesi sono il rapporto tra la
numerosità di ciascuno di questi nodi e la numerosità del nodo da cui sto arrivando
Information gain: la differenza tra l’entropia del nodo di partenza e l’informazione attesa che ho calcolato
Scelgo l’attributo A che mi permette di massimizzare il gain, più lontana sono dal 50% e 50% più il dato è
buono. Conta di più entropia dei nodi più numerosi perché il peso è più alto più numerose sono le unità di
quel nodo.
Modelli di classificazione

Esempio: lancio di un nuovo prodotto

Supponiamo di disporre di un dataset contenente m = 25 segmenti prodotto-mercato già classificati, cioè


aventi un assegnato valore dell’attributo target classe di fatturato, variabile categorica che può assumere i
tre valori y1 = alto, y2 = medio, y3 = basso. Esistono 5 nuovi segmenti da classificare, caratterizzati dalla
presenza del nuovo prodotto P6 da collocare all’interno dei mercati C1, C2, C3, C4 e C5. Le 25 osservazioni
disponibili si riferiscono all’impatto sul fatturato avutosi nel passato, in seguito alla vendita dei prodotti P1,
P2, P3, P4 e P5 promozionati nei periodi precedenti, per i quali è stata registrata nella variabile target classe
di fatturato la fascia di collocazione del fatturato nel primo semestre di vendita. Si vuole determinare un
modello di classificazione in grado di prevedere la classe di fatturato per nuovi prodotti (per esempio P6),
che in un futuro saranno collocati presso i cinque mercati C1, C2, C3, C4 e C5.

Sono stati scelti i seguenti 6 attributi descrittivi indipendenti tra loro:


• colore del prodotto;
• tipo di prodotto (sostitutivo (1) o innovativo (0));
• prezzo del prodotto;
• presenza di campagne pubblicitarie su canali televisivi (si (1) o no (0));
• numero di varianti del prodotto vendute nello specifico mercato;
• intensità della campagna di marketing associata al nuovo prodotto.
Regole associative

Si tratta di una classe di modelli per l’apprendimento non supervisionato utilizzabile quando il dataset non
contempla la presenza di un attributo target. Sono regole che individuano correlazioni, associazioni tra
diversi insiemi di elementi e vengono spesso ricavate da particolari basi di dati che memorizzano
transazioni. Una transazione è un elenco di oggetti

Per esempio uno scontrino è una transazione e i prodotti acquistati sono gli oggetti che fanno parte della
transazione.

Market basket analysis: ogni volta che un cliente acquista in un punto vendita e riceve uno scontrino,
l’operazione svolta viene registrata nel sistema informativo dell’azienda. Per ogni transazione registrata
viene conservata la lista degli articoli acquistati, il loro prezzo e l’ora dell’operazione. L’elenco delle
transazioni costituisce un dataset voluminoso che può essere utilizzato per determinare regole ricorrenti
che pongono in relazione l’acquisto di un prodotto, o di un gruppo di prodotti, all’acquisto di un altro
prodotto, o di un altro gruppo di prodotti

Esempi:

• Un cliente che acquista il prodotto X (cereali da prima colazione) acquista anche il prodotto Y (latte
intero) con probabilità p1 (0.68) nella medesima transazione;
• Tre prodotti (A, B, C) sono acquistati insieme con probabilità p2;
• Un cliente residente nel Nord Italia, avente più di 35 anni, sposato, che acquista i prodotti A, B e C
insieme, acquista anche i prodotti D e E con probabilità p3;
• Un cliente che ha acquistato nel corso di una transazione il prodotto P riacquisterà lo stesso prodotto
almeno una volta nelle successive due transazioni con probabilità p4.

Utilità

• Spiegano le correlazioni che inducono all’acquisto di alcuni prodotti, condizionatamente al precedente


acquisto di altri (pattern analysis)
• Valutano a priori il potenziale effetto di attività promozionali operate su insiemi di prodotti correlati tra
loro (cross selling)
• Valutano a priori gli effetti derivanti dall’introduzione di nuovi prodotti su prodotti ad essi correlati
negativamente (cannibalizzazione)
• Progettano la miglior collocazione dei prodotti sugli scaffali dei negozi, al fine di orientare spazialmente il
consumatore all’acquisto congiunto di insiemi di prodotti disposti nello stesso settore (store layout
planning)
• Analizzano gli effetti indotti dalla rimozione dal mercato di prodotti obsoleti
• Permettono di organizzare le operazioni di riassortimento dei punti vendita (stock replenishment)

Visite a pagine Web: un’analisi nel web mining riguarda le modalità e la frequenza con cui combinazioni
di pagine web vengono visitate da un generico navigatore. L’elenco di pagine visitate nel corso di una
sessione viene registrato come una transazione, cui possono corrispondere un numero di sequenza e un
orario di visita. Si possono identificare regole che consentono di associare la visualizzazione di una o più
pagine e possono guidare alla progettazione di link tra le pagine allo scopo di facilitare la navigazione,
suggerire percorsi di visita, collocare banner e messaggi promozionali Esempio: se un navigatore visita il sito
inter.it allora entro una settimana visiterà anche il sito gazzetta.it con probabilità 0.87
Acquisti con carta di credito: le regole associative vengono usate anche per analizzare gli acquisti con
carta di credito allo scopo di orientare le azioni di promozione future. Ciascuna transazione consiste negli
acquisti e nei pagamenti effettuati mediante una carta di credito
Identificazione di frodi: le transazioni sono costituite dalle denunce di sinistri e dalle relative richieste di
risarcimento. La presenza di particolari combinazioni di sinistri può rivelare comportamenti potenzialmente
fraudolenti e giustificare un approfondimento di indagine da parte della compagnia assicurativa

Struttura

Dati del problema:


• O insieme di items, O = {o1, o2, …, on} (prodotti venduti da un supermercato)
• Ti transazione: insieme di items tali che Ti sottoinsieme di O (oggetti acquistati nella stessa transazione di
cassa al supermercato)
• D base di dati (insieme di transazioni), D = {T1, T2, …, Tm}

Date due proposizioni Y e Z, che possono essere vere o false, una regola è un’implicazione del tipo Y
implica Z, avente il seguente significato: se Y è vera allora anche Z è vera. Una regola si dice
probabilistica se la validità di Z è associata a una probabilità p: se Y è vera allora anche Z è vera con
probabilità p. Y=oggi piove e Z=prendo ombrello. Difficile trovare regole con probabilità 1.

Per i dataset di transazioni è possibile una rappresentazione mediante una matrice bidimensionale X,
facendo corrispondere gli n oggetti dell’insieme O alle colonne della matrice, le m transazioni Ti di D alle
righe e definendo il generico elemento.

La frequenza empirica = 23 volte per 23 transazioni. È il numero di volte in cui questo oggetto compare
nelle transazioni. È il numero di transazioni che contengono questo oggetto. Cardinalità = numero di
elementi dell’insieme delle transazioni che contengono m.

In presenza di un campione di grandi dimensioni (m elevato), il rapporto f(L)/m tra la frequenza empirica e
il numero totale di transazioni approssima la probabilità di occorrenza dell’insieme di oggetti L, intesa come
probabilità che L sia contenuto in una nuova transazione T registrata nel database
Confidenza

L insieme di prodotti che induce


ad altri acquisti si chiama
antecedente o corpo. H è
conseguente.
La confidenza della regola = La
frequenza empirica di L unito ad
H/ frequenza empirica di L  Il
numero di volte in cui L e H sono
acquistati insieme/ numero di
volte in cui L è acquistato.

Dentifriciospazzolino
confidenza bassa
Spazzolinodentifricio
confidenza alta

La confidenza della regola HL e


LH è diversa. Vedi denominatore,
la confidenza cambia non è
simmetrica rispetto allo scambio.

Supporto

Abbinamento di L e H (spazzolino e dentifricio) da origine ad una regola di solito con confidenza elevata e
che ha supporto basso. La coppia pur essendo valida può comunque essere meno frequente. Il supporto è
lo stesso per HL e LH.
Esempio:

Abbiamo O prodotti e D= 10000


transazioni. La settimana scorsa ci
sono state 2000 transazioni che
hanno acquistato i prodotti A,B,C.
La frequenza empirica dell’oggetto è
il numero di volte in cui compare.
F(a)= 2000+1000+3000
F(b)=6000
F(c)=5000
F(d)=3000
F(e)= 5000
F(f)= 4000

La regola FA non implica


nessuna regola perché non
vengono acquistati insieme

B C non viene calcolato il


supporto perché la
confidenza non arriva al
50%.
Assegnato un dataset D formato da m transazioni e stabiliti dei valori soglia minimi smin e pmin per il
supporto e per la confidenza, si tratta di determinare tutte le regole associative forti, cioè caratterizzate da
un supporto s >=smin e da una confidenza p >=pmin. Nel caso di dataset di grandi dimensioni è proibitivo
dal punto di vista del tempo di calcolo pensare di estrarre tutte le regole associative mediante una
procedura di enumerazione completa. Il numero NT di possibili regole associative cresce in modo
esponenziale con il numero n di oggetti

NT = 3n – 2n+1 + 1

D’altra parte molte delle regole generate non sono forti, nel senso che non soddisfano i requisiti di
superamento delle soglie minime prefissate per supporto e confidenza. È quindi opportuno disporre di un
metodo in grado di generare solo regole associative forti. Il problema si può scomporre in due fasi
successive: la generazione degli itemset frequenti e delle regole forti. Dato L sottoinsieme di O, L si dice
frequente se f(L)/m>= s’ dove s’ è la soglia prefissata per il supporto.

Nel cercare regole forti è usuale andare ad indagare quali sono gli insiemi di oggetti frequenti. Un oggetto si
dice frequente se ha una frequenza empirica che è tale da rispettare le soglie.

1. Generazione degli itemset frequenti: si tratta di estrarre tutti gli insiemi di oggetti la cui frequenza
relativa è superiore al supporto minimo smin assegnato. Essendo una fase più costosa dal punto di
vista computazionale della successiva, sono stati proposti vari algoritmi per ricavare in modo più
efficiente gli itemset frequenti (algorimo Apriori)
2. Generazione delle regole: si tratta di separare gli oggetti contenuti in ciascun itemset frequente
secondo tutte le possibili combinazioni di corpo e testa della regola e verificare se la confidenza
della regola supera la soglia minima pmin.

Algorirmo Apriori

L’algoritmo Apriori è un metodo efficiente per estrarre le regole forti contenute in un insieme di
transazioni. L’algoritmo inizialmente genera gli itemset frequenti senza procedere all’esplorazione dello
spazio di tutti i candidati, successivamente ricava le regole forti

Principio Apriori: se un insieme di oggetti (itemset) è frequente, allora anche tutti i suoi sottoinsiemi sono
frequenti. Es. pane,latte costituiscono oggetti frequenti ovvero questi oggetti compaiono nell’insieme delle
transazioni con un numero superiore alla soglia. Se parto da questo insieme frequente allora tutti i
sottoinsiemi saranno frequenti
Corollario: se un itemset non è frequente, allora ciascun itemset che lo contiene è non frequente.

In C2 combino gli elementi in due


coppie per costituire insieme valutando
il supporto ed escludendo quelli con
supporto troppo basso.

Quanti sottoinsiemi da 3 posso fare? Ne


trovo uno.
Generazione degli itemset frequenti

1. Calcolare la frequenza relativa di ciascun oggetto del dataset ed eliminare gli oggetti che hanno
frequenza inferiore alla soglia di supporto smin. Si individuano così tutti gli 1-itemset frequenti.
Porre k=2
2. Generare iterativamente i k-itemset candidati a partire dai k1-itemset determinati al passo
precedente
3. Calcolare il supporto di ciascun k-itemset
4. Eliminare i candidati a cui corrisponde un supporto inferiore alla soglia minima smin
5. Stop se non è stato generato nessun k-itemset. Altrimenti porre k:=k+1 e ripetere il passo 2

Generazione delle regole

1. Effettuare una scansione della lista degli itemset frequenti generati nella prima fase. Se la lista è
vuota la procedura si arresta, altrimenti sia B il successivo itemset che viene tolto dalla lista
2. Suddividere l’insieme degli oggetti B in due sottoinsiemi
disgiunti non vuoti L e H = B – L, secondo tutte le combinazioni
possibili
3. Per ciascuna regola candidata L  H calcolare
4. Se p ³ pmin la regola viene inserita nella lista delle regole forti, altrimenti viene eliminata

Applicazioni

Che cosa si deve promuovere per aumentare le vendite di uova?


* uova

Quali altri prodotti è opportuno che siano venduti da un supermercato che vende latte?
latte  *

Regole di associazione validità regole estratte

Non sempre tutte le regole con supporto e confidenza superiori alla soglia sono interessanti

Esempio • Scuola con 5000 studenti • 60% (3000) gioca a pallacanestro • 75% (3750) mangia fiocchi di
cereali a colazione • 40% (2000) gioca a pallacanestro e mangia fiocchi di cereali a colazione Valutare la
regola gioca a pallacanestro Þ mangia fiocchi a colazione supponendo S’ = 40% e C’ = 60%

Gioca a pallacanestro Þ mangia fiocchi a colazione (S’ = 40% e C’ = 60%) S=2000/5000=0,4=S’


C=2000/3000=0,66>0,6 Sembra essere una regola interessante, ma in realtà è poco informativa perché il
75% degli studenti mangia fiocchi a colazione!

Potrebbero piacerti anche