Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lezione 1- Business intelligence e sistemi di supporto alle decisioni, data base, elementi di database e
relazioni
Business Intelligence
• Accesso a grandi quantità di dati (imprese, pubblica amministrazione, associazioni, singolo individuo, …).
• I dati disponibili sono eterogenei per origine, contenuto e rappresentazione (provenienti da transazioni
commerciali, finanziarie e amministrative, da percorsi di navigazione su web, da email, da risultati di test
clinici, …). È necessario mettere ordine a questi dati che spesso sono raccolti automaticamente.
• È possibile trasformare i dati in informazione e conoscenza utilizzabili dai decision maker?
BUSINESS INTELLIGENCE: Insieme di modelli “matematici” meglio dire quantitativi e metodologie di analisi
che esplorano i dati per ricavare informazioni e conoscenze utilizzabili nel corso dei processi decisionali.
Avere dei dati e non saperli leggere è come non averli. I dati devono essere di per se leggibili es. colonna di
costo, importi per transazioni devo decidere la quantità di misura come l’euro. Ci sono tantissime cose che
rendono i dati diversi, eterogenei, c’è tanto lavoro per renderli leggibili e poi leggerli per creare conoscenza.
Efficienza ed efficacia
• Nelle strutture complesse (aziende, amministrazione pubblica, …) vengono prese continuamente decisioni
più o meno rilevanti, con effetti più o meno prolungati nel tempo, che coinvolgono figure e ruoli diversi.
• Le decisioni sono spesso elaborate utilizzando metodologie semplici e intuitive che tengono conto di
esperienze passate, conoscenza del contesto, informazioni disponibili. Si compiono azioni che sono sempre
state fatte. C’è bisogno di conoscenza in più per prendere delle decisioni.
• La business intelligence permette di elaborare decisioni efficaci (decisione migliore possibile, buona
decisione relativamente agli obiettivi specifici) ed efficienti ( mi permette di raggiungere il mio obiettivo in
fretta). Es: ho preso 30 in poco tempo, sono efficiente ed efficace.
Es: Retention nella telefonia mobile Il responsabile marketing scopre che molti clienti chiedono la
disattivazione del servizio per attivarlo con un operatore concorrente (customer attrition o churn, mollo epr
il concorrente). Supponiamo che sia disponibile un budget per svolgere un’operazione di retention solo nei
confronti di 200 mila clienti su un totale di 2 milioni. Li seleziono per arrivare con quella politica. Come
scegliere? È possibile stimare la probabilità di abbandono per ciascun cliente e rivolgere un’offerta ai 200
mila clienti con probabilità più elevata. Oppure individuare i 200 mila clienti più redditizi e rivolgere
l’offerta a questi. Tutto ciò richiede l’utilizzo di modelli matematici adeguati.
I dati, una volta raccolti e conservati in modo strutturato, devono essere elaborati
mediante strumenti di analisi che li trasformino in informazione e conoscenza per essere
direttamente utilizzabili nell’ambito dei processi decisionali. Dati: codifica strutturata
delle singole entità primarie (clienti, punti vendita, prodotti) e delle transazioni che
coinvolgono due o più entità primarie (scontrini d’acquisto). Informazioni: risultato di
operazioni di estrazione e di elaborazione compiute a partire dai dati (percentuale di scontrini che
superano 100 Euro nel corso di una settimana). Conoscenza: insieme di informazioni inserite in un contesto
specifico, arricchite dall’esperienza e dalle competenze dei decision maker (alcuni clienti che hanno ridotto
l’importo d’acquisto risiedono in una zona in cui opera anche un punto vendita di un’azienda concorrente).
Ruolo dei modelli matematici
Quando si vuole rappresentare il modello di un certo problema siamo costretti a studiare il problema nel
dettaglio perché altrimenti non sono in grado di rappresentarlo e sistemarlo. La business intelligence offre
ai decision maker le informazioni e le conoscenze ricavate a partire dai dati mediante l’utilizzo di modelli
matematici e di algoritmi di calcolo (dal semplice calcolo di totali o percentuali ad analisi evolute che
utilizzano sofisticati modelli di ottimizzazione e di apprendimento).
Strumenti informatici interattivi che utilizzano dati e modelli matematici per supportare i decision maker
nella risoluzione di problemi complessi che si presentano nella gestione di aziende e organizzazioni
strutturate.
Sistema: entità costituita da un insieme di componenti legati tra loro da mutue relazioni e dotati di una
finalità collettiva.
Decisione: scelta tra molteplici alternative effettuata con un certo grado di razionalità. Un processo
decisionale razionale prevede che tra tutte le alternative formulate ne venga scelta una che risulti migliore
delle altre rispetto ai criteri predefiniti (economici, tecnici, legali, etici, procedurali, politici).
Un database è una raccolta di dati organizzata in modo da consentire l’accesso, il reperimento e l’utilizzo di
tali dati. Un sistema per la gestione di database (DataBase Management System – DBMS), come Access,
permette di usare un computer per:
- creare un database,
- aggiungere, modificare ed eliminare dati,
- ordinare e reperire dati nel database,
- creare maschere e report che usano i dati del database
Database: elenco di nomi a cui sono state aggiunte in modo ordinato e sistematico delle informazioni che
sono la base dell’organizzazione (per es. storia del comportamento d’acquisto, num. di telefono, metodo di
acquisto, …). È importante che un database venga aggiornato ogni volta che si presenta l’occasione, cioè ad
ogni evento significativo.
- Database operativi: insiemi di dati continuamente aggiornati (dati dinamici, cioè che cambiano
costantemente, e che riflettono informazioni sempre aggiornate).
- Database analitici: insiemi di dati storici legati ad un preciso momento. Qui non devono essere
aggiornati poiché sono storici, dati vecchi e quindi si modificherebbe il periodo storico.
Un database relazionale deve: • definire la struttura del database, specificando i dati, il loro tipo (numerico,
testo, immagine,…), le loro relazioni e le regole per il loro utilizzo, • inserire, modificare o cancellare dati, •
effettuare ricerche di differente natura per reperire rapidamente i dati di interesse, • utilizzare un ampio
insieme di funzioni (per es. la visualizzazione, la stampa, …), • accedere ai dati ad un elevato numero di
utenti, gestendo i differenti diritti di accesso e la concorrenza nella modifica e nell’inserimento dei dati, •
offrire prestazioni accettabili anche in presenza di un numero molto elevato di utenti, • realizzare copie di
salvataggio per motivi di sicurezza su richiesta e/o in base a schedulazione temporale pianificata a priori.
Campo • Rappresenta una delle caratteristiche del soggetto della tabella alla quale appartiene. • Ogni
campo contiene un unico valore, non inserire due valori nello stesso campo.
Record • Rappresenta una istanza del soggetto della tabella e viene identificato in tutto il database
attraverso un unico valore del campo chiave primaria (nella tabella “Clienti” precedente il cliente C2 è
Gianni Storchi, di Milano, tel. …). • Ogni record comprende tutti i campi della tabella. • I record sono un
fattore fondamentale per capire le relazioni tra tabelle: bisogna sapere come un record di una tabella si
collega al record di un’altra tabella.
Relazioni tra tabelle • Indicano collegamenti e le associazioni tra i record di una tabella con quelli di un’altra
tabella. Possono essere:
Costruire un database
Quali informazioni deve fornire un database di marketing? • A chi indirizzare determinate offerte? • Chi
sono i migliori clienti effettivi? • Chi sono i migliori clienti potenziali? • Quali offerte dovrebbero ricevere? •
Come dovrebbero essere contattati? • Su quali clienti tentare vendite incrociate?
È fondamentale che i dati nel database siano ben organizzati ed esaustivi. Come deve essere un database di
marketing?
Tabella clienti dove il record sono i clienti e le righe riportano cose che a me interessano sapere sui clienti:
• Codice identificativo del cliente (codice di riferimento, chiave primaria), ogni cliente ha il suo codice
• Sig./Sig.ra, Nome, Cognome, Titolo, Azienda, Primo indirizzo, Secondo indirizzo, Città, Stato o provincia,
Codice postale, Numero di telefono, Numero di fax, Indirizzo e-mail
• Codice della fonte iniziale, Data di inserimento nel sistema, Non cedere, Cambiamento d’indirizzo
• Contanti, Addebito, Telefono, Posta
• Data del primo acquisto, Data dell’ultimo acquisto, Volume totale acquistato, Valore totale degli acquisti
• Data dell’ultimo reso, Numero totale dei resi, Numero totale degli articoli cambiati, Valore totale dei resi,
Data dell’ultima cancellazione, Numero totale delle cancellazioni Dati sui clienti
• Data dell’ultimo mailing, Numero totale dei mailing
• Omaggi
Attenzione che è opportuno che ci sia un’unica “tabella clienti” per tutti i clienti: sia quelli a cui l’azienda già
vende che quelli che considera clienti potenziali.
I clienti sono importanti perché comprano e si tiene traccia degli acquisti e fatture, è opportuno che i dati
delle fatture siano riepilogati in:
Esempio acquisto di un pacco di caffè, due litri di latte e un vasetto di marmellata. La transazione
complessiva è rappresentata da un record nella tabella riepilogativa delle fatture, mentre i tre tipi di articoli
acquistati sono rappresentati da tre record nella tabella dettaglio delle fatture
Nel riepilogativo ho una riga per ogni fattura in cui
riporto il numero fattura che è la chiave primaria, il
codice identificativo (chiave esterna) che collego con la
tabella clienti, la modalità pagamento, il codice della
fonte sempre chiave esterna, codice venditore, data e
ammontare. Non so cosa è stato acquistato.
Tabella riepilogativa delle fatture - Codice identificativo del cliente (chiave esterna) - Numero della fattura
(chiave primaria) - Dati identificativi del venditore (chiave esterna) - Dati identificativi della fonte (chiave
esterna) - Data dell’ordine - Data di spedizione - Metodo di pagamento - Importo lordo - Sconti - Prezzo
netto
Tabella dettaglio delle fatture - Numero della fattura (chiave primaria) - SKU o numero di identificazione
dell’articolo (chiave primaria) - Numero progressivo nella fattura - Quantità - Prezzo totale
Tabella prodotto - SKU o numero di identificazione dell’articolo (chiave primaria) - Classificazione del
prodotto (categoria) - Costo unitario - Prezzo di vendita al dettaglio - Codice di magazzino - Descrizione –
Peso
Tabella venditori: - Dati identificativi del venditore (chiave primaria) - Nome del venditore - Reparto o
divisione dei dipendenti
Dati sull’offerta
La tabella “offerta” è direttamente collegata alla tabella “Riepilogativo delle fatture” tramite il Codice di
identificazione della fonte. Vari contatti possibili, le modalità e le caratteristiche i costi le capacità di lancio
dei vari contatti.
Tabella offerta - Dati identificativi della fonte (chiave primaria) - Descrizione - Numero delle offerte
effettuate - Costo per contatto
Nessuno mi regala i dati di queste tabelle, devo attrezzarmi a raccogliere i dati di clienti e transazioni ecc. I
prossimi dati arricchiscono il database.
Dati ulteriori
Tabella indagine
- Codice di identificazione del cliente (chiave primaria) - Indice di soddisfazione - Concorrenti considerati -
Tipo di utilizzo - Lo raccomanderebbero ad un amico
- Codice di identificazione del cliente (chiave primaria) - Età - Reddito familiare - Dimensione della famiglia
- Codice di identificazione del cliente (chiave primaria) - Codice di iscrizione alla Camera di Commercio -
Anno di costituzione - Fatturato annuo - Numero dei dipendenti
Il database marketing
Processo che consiste nell’estrarre tutte le informazioni rilevanti (oggetto dell’acquisto, volumi acquistati e
loro valore, frequenza d’acquisto, dati anagrafici, informazioni personali sui clienti) da un’operazione
commerciale, per utilizzarle nelle attività successive di marketing e negli ulteriori contatti con i clienti.
Qualunque contatto ci aiuta ad arricchire il database per prendere informazioni per nuovi contatti.
Esempio:
Si prende un caffè al bar spesso, fare database marketing significa che il proprietario sappia già la tua
preferenza, quello che potrebbe desiderare anticipando l’offerta. Conoscere il cliente. Un altro esempio:
Commesso in un piccolo negozio di abbigliamento, pagato a provvigione. Idea: poiché molti clienti
acquistano ripetutamente, pensa di tenere una registrazione degli acquisti effettuati. Comincia a segnare
nomi e numeri di telefono e poi allarga l’elenco per includervi informazioni di base sugli acquisti (articolo
comperato, altre preferenze,…). Con il tempo si rende conto che sarebbe utile disporre di schede distinte
per clienti distinti. Per esempio la scheda del sig. Mario Rossi è la seguente Mario Rossi: Cappotto taglia 48,
Camicia 41, Scarpe n. 42, Pantaloni taglia 48, Cravatte di colori brillanti, Desidera acquistare con la moglie.
Successivamente comincia a registrare le visite effettuate dai clienti al negozio, la frequenza di acquisto e
l’entità della spesa. Quando cambia stagione si accorge che le schede sono molto preziose e per annunciare
l’arrivo della nuova collezione manda un biglietto a tutti i clienti: “È appena arrivata la collezione autunno-
inverno. Se telefona sarò lieto di invitarla a una presentazione privata qualunque mattina della prossima
settimana tra le 8 e le 9, prima dell’apertura del negozio”. In questo modo il commesso ha raddoppiato il
business da un giorno all’altro. Continua a tenere traccia del comportamento dei clienti e aggiorna
continuamente i dati. La stagione successiva ripete l’operazione con altrettanto successo.
Si può fare database marketing anche senza computer e modelli. L’esempio, che non fa cenno ad alcuna
forma di tecnologia e si potrebbe collocare in qualsiasi momento di qualsiasi secolo, mostra l’essenza del
database marketing: il marketing di successo si basa sulla costruzione di relazioni personali con i clienti e la
capacità di costruire relazioni durature si collega alla conoscenza delle abitudini di acquisto dei clienti.
Dipende dalla realtà per capire quali strumenti utilizzare.
Marketing Analytics
Con il termine Analytics si intendono misure o numeri che indicano come un processo sta performando e
che cosa è possibile fare affinché il processo migliori le sue performance. Definire delle metriche in grado di
definire la valutazione di come si sta lavorando e definire come stiamo lavorando. Per poter parlare di
Analytics in ambiente Marketing è necessario disporre di un Database di Marketing accurato e affidabile…
Marketing Analytics… «is the process of identifying metrics that are valid indicators of marketing
performance in pursuit of its objectives, tracking those metrics over time, and using the results to improve
how marketing does it work.». Come faccio a capire gli effetti? Es. faccio una campagna per un prodotto, si
diffonde anche grazie ad altre cose come il passaparola, come faccio a capire come fa una campagna ad
avere successo? Devo definire metriche specifiche
• Valid indicators: molte sono le cose misurabili nel marketing, ma non tutte sono reali indicatori di
performance. Si tratta di individuare le metriche che meglio rappresentano il valore che il marketing crea
per l’azienda. È la fase più complicata.
• Pursuit of objectives: ovviamente, prima di individuare le metriche da misurare è necessario individuare
gli obiettivi.
• Tracking metrics over time: è necessario che le metriche siano monitorate nel tempo per capire
l’evoluzione della performance.
• Improve how marketing works: lo scopo è comunque quello di migliorare le attività di marketing
- People: il processo di marketing analytics viene creato, eseguito e gestito da persone che poi lo
usano, di solito il direttore marketing;
- Steps: il processo di marketing analytics consiste in una sequenza di passi;
- Tools and technology: sebbene il processo di marketing analytics di per se non sia particolarmente
complesso, gli strumenti e la tecnologia aiutano a raggiungere risultati migliori e più rapidamente;
- Input and output: l’input sono i dati e l’output sono le decisioni.
Marketing Analytics process
Non è detto che aziende che non hanno un processo di Marketing Analytics non abbiamo successo nel
marketing. A volte si riscontrano anche grandi successi, spesso intermittenti. In caso di successo è difficile
capirne il motivo e generalmente la risposta è: «Siamo fortunati!». In caso di insuccesso è difficile spiegare i
motivi del fallimento. In queste realtà il ruolo di responsabile marketing dura poco tempo perché, non
essendo le sue attività supportate da dati e misure, egli non riesce né a prendere decisioni specifiche e
calate nella realtà, né a motivare e circostanziare le conseguenze delle sue decisioni. Tutto ciò comporta
un’assenza di un piano di marketing e un difficile scambio con la direzione.
Si tratta di aziende che usano metriche non totalmente corrette, non esaustive e poco integrate con il
business. Queste metriche spesso sono molto incentrate sulle attività specifiche e non forniscono molte
informazioni su come il marketing stia effettivamente contribuendo al raggiungimento degli obiettivi
aziendali. Metriche non in linea con obiettivi aziendali.
Rand Fishkin, Moz «Se potessi dare un consiglio agli esperti di marketing di tutto il mondo su come
valutare e usare le marketing analytics, direi che è importante leggere i dati, ma non solo: il potere
dell’investimento in marketing non misurabile può essere incredibile» Messaggio per chi ritiene che
l’analytics non sia utile, è fondamentale anche implementarlo con approccio qualitativo del problema.
In questo scenario il reparto marketing dispone di un vero e proprio processo di analisi e lo utilizza; questo
processo tiene traccia delle metriche che forniscono indicatori delle prestazioni e del contributo del
marketing e sono in grado di determinare con precisione in che modo il marketing influenza le entrate
dell’azienda. Questi dati vengono poi condivisi con il resto dell’azienda. L’output del processo di analisi
viene costantemente monitorato per determinare:
• Performance: cosa rivelano le metriche sui risultati che il marketing sta producendo?
• Validità: sono in uso le metriche giuste per fornire un’indicazione precisa delle prestazioni?
Se le metriche rivelano che un’iniziativa di marketing non funziona, vengono apportate modifiche per
produrre risultati migliori. Il marketing non continua a fare la stessa cosa sperando che i risultati migliorino
magicamente, ma realizza che il cambiamento deve avvenire. Le metriche stesse sono costantemente sotto
esame per assicurarsi che siano indicatori accurati delle prestazioni: è alto il rischio che si misuri ciò che è
facile invece che ciò che è rilevante.
«If you can’t describe what you are doing as a process, you don’t know what you’re doing» W. E. Deming –
Se non sai cosa descrivere quello che stai facendo come un processo non sai cosa stai facendo. Questo è
vero in azienda (processi di vendita, contabilità, produzione, formazione, …) e in tutto quello che noi
facciamo: i processi sono i modi in cui portiamo a termine le cose e ci aiutano a lavorare in modo efficace
ed efficiente. Quando ci rendiamo conto che un determinato compito ha un elemento di ripetizione, per
esso sviluppiamo un processo. Appena ci rendiamo conto che questo processo funziona, man mano che lo
utilizziamo portiamo miglioramenti. I processi sono il modo in cui le cose vengono fatte all’interno delle
organizzazioni complesse. Ogni attività ha dei processi precisi con ordini precisi. Processo è la descrizione di
come l’attività viene svolta. Si parla infatti di processo di marketing analytics e di eventi che si ripetono.
Il Marketing Analytics Process serve da interfaccia per tutti gli altri processi di Marketing: identifica
metriche di performance significative per tutti i processi di marketing, monitora tali metriche, e le analizza
per definire azioni di miglioramento basate sull’analisi. In qualsiasi attività le misurazioni sono di
fondamentale importanza perché sono il mezzo per giudicare il successo o il fallimento. Il marketing è
spesso considerato uno sforzo artistico e, come tale, molti non credono che il suo vero impatto sia
misurabile. Ma il fatto che il marketing sia una delle discipline aziendali più creative non deve escluderlo
dalla misurazione. Tra tutti i processi aziendali il marketing è il più artistico, ci sono cose che non sono
misurabili, ma tante altre che sono misurabili supportano quelle non misurabili.
Una volta deciso che la misurazione è molto importante, la prima sfida è determinare quali metriche
utilizzare: il successo dell’intero processo di analisi dipende dalla corretta selezione delle metriche. Nel
marketing sono disponibili centinaia di metriche… Nei social media: mi piace, condivisioni, post, …
Nell’email marketing: aperture, rimbalzi, annullamenti di iscrizioni, … Nei siti web: visite, visite incrociate,
parole chiave,
Quando si determina come misurare i risultati degli sforzi di marketing, è necessario seguire le seguenti
linee guida:
• Concentrarsi sugli obiettivi
• Misurare l’efficienza
• Misurare l’efficacia Le metriche del marketing devono misurare i progressi verso gli obiettivi; quando
esiste una strategia di marketing con obiettivi ben definiti, gli obiettivi rendono la selezione delle metriche
giuste non troppo complicata.
Identificare metriche significative è invece molto difficile se non esiste una strategia di marketing. In tal
caso non sono chiari gli obiettivi di business e di marketing. È sempre possibile scegliere alcuni obiettivi
ragionevoli e di conseguenza individuare delle metriche correlate, ma questo non è un approccio strategico
al marketing: la strategia di marketing dovrebbe preesistere al processo di analisi e gli obiettivi di tale
strategia dovrebbero servire come base per identificare le metriche adeguate.
«The goal is to turn data into information, and information into insight» C. Fiorina La seconda fase del
processo è l’analisi: si prendono i dati, si analizzano e si trasformano in informazioni utilizzabili. L’obiettivo
di questa fase è estrapolare informazioni dai dati sui progressi del marketing verso il raggiungimento dei
suoi obiettivi. Tutto ciò dovrebbe ovviamente avvenire utilizzando le metriche individuate nello step 1.
L’analisi delle metriche di marketing permette di valutare le prestazioni del marketing. Poiché questa analisi
fornisce la base per intraprendere azioni di miglioramento, è molto importante che i dati utilizzati per
l’analisi siano accurati e completi. Analisi, anche eccellenti, a partire da dati non accurati o non completi
porterà certamente a conclusioni errate e a tentativi inefficaci di migliorare ciò che il marketing sta
facendo. Gli operatori di marketing devono garantire che i dati siano affidabili: è in gioco la reputazione e la
credibilità del marketing.
«Excellent firms don’t believe in excellence – only in constant improvement and constant change» T. Peters
L’analisi delle metriche di marketing ci dice che cosa sta succedendo e perché, ma di solito non dice cosa
fare se i risultati non soddisfano le aspettative o come fare a replicare ciò che sta succedendo se i risultati
superano le aspettative: spesso le azioni di miglioramento non sono ovvie.
«Marketing has always been a grueling and competitive sport – not unlike running a marathon. With the
changes in the buying process, in media and technology, and managing expectations, it’s like running a
marathon as the ground shifts beneath your feet. What was already difficult is becoming increasingly
difficult. If you’re going to do it without measurement, it’s like running a marathon, in an earthquake,
blindfolded» D. Raab «Il marketing è sempre stato uno sport estenuante e competitivo… come correre una
maratona. Con i cambiamenti nei processi sottostanti, è come correre una maratona mentre il terreno si
muove sotto i piedi. E se si pensa di farlo senza misurare nulla è come correre una maratona durante un
terremoto con gli occhi bendati…»
Stabilire le metriche
«Measuring busy-ness is far easier than measuring business» S. Godin «Misurare l’operosità è molto più
facile che misurare il business»
Quali metriche scegliere per un processo di marketing analytics? Il set di metriche migliore dipende dalla
strategia di marketing, ma alcune metriche comunemente usate sono relative a: - i clienti, - lead
generation*, - il social/digital marketing. *La «lead generation» è un’azione di marketing che consente di
generare una lista di possibili clienti interessati ai prodotti o servizi offerti da un’azienda
I clienti - LTV, - RFM, - soddisfazione dei clienti, - tassi di fidelizzazione dei clienti, - costo di acquisizione di
nuovi clienti, - tassi di abbandono,
Lead generation - nuovi lead per canale, - nuovi lead per campagna, - volume di lead, - nuove
opportunità create, - lead qualificati creati, - costo per lead/lead qualificato, - entrate generate,
Digital marketing: Sito web: sorgenti di traffico, pagine più visitate, visite o visite uniche, ora di visita,
frequenza di rimbalzo, pagine di uscita, … Social media: copertura dei social network (follower, fan,
contatti), condivisioni, post, … Email marketing: dimensione del database, numero di invii, percentuale di
apertura, percentuale di rimbalzi, … Pubblicità digitale: pay-per-click e altre forme di media digitali a
pagamento, click-through, richieste di informazioni.
Lezione 4- Preparazione ed esplorazione dei dati
Trasformazione – standardizzazione
Applicando la formula trovo la corrispondente altezza espressa nell’intervallo 0-1, altezza minima è 0 e
altezza massima è 1, gli altri saranno proporzionalmente distribuiti. Riesco a mettere a confronto peso e
altezza.
Z-indice = guardo la colonna delle altezze, cerco l’altezza media e la deviazione standard.
Il nuovo valore = il vecchio – la media / deviazione standard
Es. tanti clienti di cui conosciamo tanti attributi numerici con valori assoluti di natura diversa, stipendo,
altezza, peso. È utile trasformare tutto da 0 e 1. Più è vicino a uno più raggiungo il livello massimo.
Generazione di nuovi attributi che si costruiscono a partire dagli attributi esistenti. Per esempio, in
presenza di attributi che indicano il livello di spesa per ciascun cliente in intervalli temporali successivi,
potrebbe essere interessante definire un nuovo attributo che riporta le differenze o il rapporto tra i valori
di spesa in periodi contigui. Perché penso che siano più utili es. spesa del clienti in intervalli successivi, può
essere utile sapere quanto ha speso in più o meno dal periodo precedente.
Riduzione
In presenza di dataset di grandi dimensioni è opportuno procedere ad una fase di riduzione dei dati in
modo da migliorare l’efficienza, l’accuratezza e la semplicità dei modelli generati.
Riduzione - campionamento
Si tratta di estrarre un campione di osservazioni che sia significativo dal punto di vista statistico. Talvolta è
utile predisporre più campioni indipendenti, della dimensione predeterminata, cui applicare gli algoritmi. In
questo modo i tempi di calcolo crescono linearmente con il numero di campioni estratti ed è possibile
valutare la robustezza della conoscenza estratta dai dati rispetto alla casualità presente nel campione.
Riduzione – discretizzazione
Si tratta di diminuire il numero di valori distinti assunti da uno o più attributi. Esempi:
• il valore settimanale di spesa per un cliente di telefonia mobile è un attributo numerico continuo che può
essere discretizzato mediante 5 classi: bassa [0, 10) euro, mediobassa [10, 20), media [20, 30), medio alta
[30, 40), alta [40, +¥); Suddividere tutti questi valori possibili in gruppi.
• la provincia di residenza di ciascun cliente italiano può assumere un centinaio di valori distinti. Se si
utilizza la regione di residenza anziché la provincia, il nuovo attributo può assumere una ventina di valori
distinti. Ho un attributo che ha una ventina di soluzioni possibili. Qualunque riduzione che non ci fa perdere
di significato anche se perdo qualche informazione.
Esplorazione dei dati
Permette di studiare il comportamento di ciascun attributo, considerato come entità indipendente dalle
altre variabili di un dataset. Valuta la tendenza dei valori di un attributo a collocarsi in prossimità di uno
specifico valore centrale (posizionamento) e misura la propensione dell’attributo ad assumere un range più
o meno ampio di valori (dispersione). Siano D un dataset contenente n osservazioni, N = {1, 2, …, n}, aj il
generico attributo analizzato, (x1j , x2j , …, xnj) il vettore di n osservazioni corrispondenti all’attributo aj .
Sia Vj ={v1j , v2j , …, vHj} l’insieme di valori possibili dell’attributo J. Se l’attributo aj è il colore degli occhi,
qui troverò verde, nero, marrone. H valori distinti che possono essere assunti dall’attributo categorico aj e
sia H = {1, 2, …, H}. La più naturale rappresentazione grafica per l’analisi di un attributo categorico è il
diagramma a barre verticali che riporta in ascissa i valori assunti dall’attributo jesimo e in ordinata le
corrispondenti frequenze empiriche (numero di osservazioni).
- Frequenza empirica del valore h dell’attributo j: ehj = card{i N : xij = vhj} h= occhi blu, la
frequenza empirica dell’attributo h. Nella tabella conto quante sono le persone che hanno gli occhi
blu. Ehj = frequenza empirica dell’attributo h dell’attributo j è uguale alla cardinalità ovvero il
numero di elementi (card) di insieme di record che relativamente all’attributo j assumono valore
vhj. Mi da un numero di quanti hanno l’attributo.
- Frequenza empirica relativa: fhj = ehj / n. Associata alla precedente è la frequenza empirica/
numero di clienti. Mi rapporta il numero alla numerosità totale.
Per gli attributi numerici discreti che assumono un numero finito e limitato di valori è possibile ricorrere alla
rappresentazione mediante diagrammi a barre come per gli attributi categorici. Per gli attributi continui o
discreti ma infiniti è necessario suddividere l’asse delle ascisse che riporta i valori assunti dall’attributo in
intervalli (di solito di uguale ampiezza). Ovviamente ciò introduce un grado di approssimazione perché
osservazioni che cadono nello stesso intervallo sono ritenute equivalenti e indistinguibili (più piccoli sono gli
intervalli e migliore è l’approssimazione). Ho la necessità che il numero di valori possibili sia finito. Es.
traffico telefonico dei clienti non posso metterli in questo diagramma, prima di proporre una
rappresentazione di questo tipo, si fanno delle discretizzazioni suddividendo in pacchetti.
Esempio
Supponiamo di osservare l’età di 7 bambini:
• Il valore è condizionato dal numero di elementi del campione, ma non dai valori estremi.
• Si usa soprattutto in presenza di forte asimmetria, quando la media è molto influenzata dai valori estremi.
• Se i dati non sono concentrati nella zona centrale della distribuzione il valore della mediana perde di
significato statistico.
1,5,5,6,9,11,12 la mediana è 6
Moda: valore più comune, cioè il valore che ricorre il più alto numero di volte.
Moda: 5. Infatti ci sono 2 bambini di 5 anni, mentre c’è 1 bambino per tutte le altre età.
Alcune proprietà del midrange • E’ poco robusto rispetto ai valori estremi e quindi alla presenza di outliers
Midrange: 6,5 =12+1/2
Media aritmetica pesata: rapporto tra la somma pesata dei valori delle osservazioni e la somma dei pesi
Supponiamo di voler calcolare il prezzo medio unitario pagato per l’acquisto di una
materia prima, a partire dai seguenti dati:
PREZZI PER
QUANTITA’/QUANTITA’
Se “moda = mediana = media”, allora c’è simmetria nella distribuzione
Se “moda < mediana < media”, allora c’è asimmetria positiva nella distribuzione.
Se “moda > mediana > media”, allora c’è asimmetria negativa nella
distribuzione.
Esercizi
Media: (1+5+5+6+9+11+12)/7=7
Mediana: 6
Moda: 5 Poiché “moda < mediana < media”, allora c’è asimmetria positiva nella distribuzione
Consentono di descrivere la dispersione dei dati, cioè il grado di variabilità che le osservazioni manifestano
rispetto ai valori centrali.
Nell’esempio è 4,5
Varianza: media aritmetica degli scarti quadratici delle osservazioni:
Nell’esempio è 38.75
Nell’esempio è 6.22
Front-end marketing
Funzione del marketing che si occupa dell’acquisizione di nuovi clienti, dell’individuazione di clienti
potenziali e della loro conversione in clienti effettivi. Viene considerato un investimento per il futuro: le
aziende investono in promozione e comunicazione per acquisire nuovi clienti nella speranza di trattenerli
nel tempo per recuperare l’investimento e generare profitti. Si appoggia a qualche dato ma meno della
prossima. È il marketing classico meno quantitativo. Tutto si basa sulla lettura dei dati che ho. Trattengo i
clienti effettivi cercando di spostarmi verso l’alto nella gerarchia dei clienti
Back-end marketing
Funzione del marketing che si occupa di trattenere i clienti effettivi, massimizzando il numero di
comunicazioni con questi clienti e cominciando a differenziare tra clienti migliori, clienti medi e clienti
scadenti, usando il database clienti.
Il valore di lungo termine (LTV; LifeTime Value) è il valore attuale dei profitti futuri ottenibili dai clienti.
Misura il valore di un investimento rivolto ad acquisire nuovi clienti o a trattenere clienti effettivi, in base al
profitto che si prevede di acquisire da questi clienti. Una delle ipotesi principali nel calcolo del LTV è che il
marketing sui clienti ripetitivi è più redditizio del marketing sui clienti che acquistano per la prima volta.
Infatti, rispetto ai clienti che acquistano per la prima volta, i clienti ripetitivi spendono in generale di più.
Se ciò non fosse vero avrebbe senso cercare sempre nuovi clienti piuttosto che fare marketing per
trattenere gli attuali. Il valore LTV non si basa solo su ciò che succede oggi o su una singola transazione, ma
tiene conto del profitto che si prevede di ottenere nel tempo.
Il primo punto debole è che si basa su stime
• il marketing sui clienti ripetitivi è più remunerativo del marketing sui clienti potenziali;
• per acquisire il cliente bisogna fare un investimento (pubblicità, promozione,…);
• c’è un ritorno sull’investimento;
• il ritorno si concretizza nel tempo.
LTV – esempio
Attualizzo ad oggi i 20000 come i 10000 li attualizzo ad un anno e i 6000 attualizzo per due anni. Il valore
attuale è C(1+i) ^-n dove n=(numeri di anni). 10000 (1+0,2)^(-1)= 8333,33.
Non li sommo perché sono i valori attuali di tutti i clienti, prima di sommarle bisogna dividerle per il numero
di clienti- 200+ 166.67+138.89= 505.56 = LTV
Lo scenario più conveniente è il secondo. Se aumento i costi pubblicitari ho molto margine perché il tetto
massimo è del 19% dove lo scenario 2 è più conveniente del primo. Se la vendita del cliente si abbassa a
600 non sarà più conveniente.
Esercizio: Stiamo valutando se avviare un canale di comunicazione online per promuovere la vendita di una
linea di maglieria di qualità. Tale vendita avverrà con le modalità tradizionali. Mettiamo a confronto due
scenari programmati su 4 anni e calcoliamo il LTV medio per cliente partendo dalle ipotesi descritte
RFM significa: Recency – Frequency – Monetary value e misura la distanza nel tempo dell’ultimo acquisto
effettuato dal cliente (recency), il numero degli acquisti effettuati dal cliente (frequency) e l’importo totale
speso dal cliente per tutti gli acquisti (monetary value).
Più precisamente…
• Recency è il numero di giorni, settimane, mesi o anni trascorsi dall’ultimo acquisto effettuato dal cliente.
A meno che il cliente non abbia fatto un solo acquisto, la recency non coincide con il tempo trascorso
dall’acquisizione del cliente.
• Frequency è il numero di volte in cui il cliente ha acquistato.
• Monetary value è l’importo complessivo speso dal cliente per tutti i suoi acquisti. Un cliente che ha
effettuato 3 diversi acquisti da 25 Euro ciascuno ha un monetary value di 75 Euro.
Più bassa è la recency e più alti gli altri due ci aspettiamo un buon cliente.
Esempio:
• Suddividiamo i clienti in base alla recency: 0-6 mesi,
7-12 mesi, 13-24 mesi, 25-36 mesi, 37-48 mesi
• Suddividiamo i clienti in base alla frequency: 1, 2 o più
• Suddividiamo i clienti in base al monetary value: <= 50
Euro, > 50 Euro Si ottengono 20 gruppi con diversa
probabilità di acquisto in base alla RFM
Modello RFM … più in dettaglio…
Supponiamo di segmentare i clienti usando i tre sottocriteri:
• recency: i dati suggeriscono di segmentare 0-30 giorni, 31-90 giorni, 4-6 mesi,… 11 valori possibili
• frequency: tre gruppi usuali sono frequency=1, frequency=2, frequency=3
• monetary value: analizzando i dati tre gruppi possono essere 0-49 Euro, 50-99 Euro e >=99 Euro Ogni
segmento è descritto dal numero di clienti che figurano in quella cella e dal tasso di risposta di quei clienti.
Ovviamente ciascun cliente può stare solo in una cella
Informazioni di questo tipo aiutano a capire su quali clienti vale la pena investire
RFM – esercizio
Stiamo valutando la RFM a partire da un database di 100 clienti per i quali si è deciso di assegnare i
seguenti valori di Recency, Frequency e Monetary Value. Di questi clienti si sa anche se hanno risposto
positivamente ad una vecchia campagna pubblicitaria oppure no.
Data Warehouse: un deposito di dati che contiene l’informazione estratta da altri sistemi dell’azienda che
viene resa accessibile agli utenti aziendali per sviluppare analisi di business intelligence. Non è un semplice
data base aziendale è un contenitore che contiene i dati dei diversi database in azienda ed è una
piattaforma di appoggio per qualunque tentativo di estrarre informazioni che riguardano tutte le diverse
attività aziendali.
Data Warehousing: complesso di attività riguardanti la progettazione, la realizzazione e l’utilizzo di un Data
Warehouse. Il cuore del DW è il sistema per la gestione dei database (DBMS, DataBase Management
System), cioè il software che esplora i database. Hardware, software, dati e il tutto opportunamente
combinato, non sono solo dati ma anche l’infrastruttura.
Data Mart
• un Data Warehouse di dimensioni ridotte, di supporto al marketing
• un Data Warehouse specifico, di funzione, utilizzato da un reparto o un gruppo di utenti aziendali per
svolgere un determinato tipo di compiti.
Data Mart
– dipendente se riceve i dati da un Data Warehouse,
– indipendente se riceve i dati direttamente dai sistemi transazionali e non si appoggia su altri Data
Warehouse.
I dati e le informazioni
• Un DW sintetizza dati che possono essere molto importanti, ma che diventano informazioni solo quando
vengono trasformati in risposte o report significativi per l’interpretazione degli eventi aziendali.
• Il vero valore di un DW è quello di rendere disponibili nuove informazioni aziendali semplicemente
premendo un tasto. La ricerca e la raccolta dei dati vengono effettuate elettronicamente dall’utente finale
(da cui “e”-data), il quale può disporre dell’informazione necessaria in modo diretto, rapido e significativo.
Traggono beneficio dalle analisi di e-data forniti da un DW tutte le persone che devono prendere decisioni:
• product manager • analisti finanziari • acquirenti • pianificatori strategici • commercianti • direttori di
negozi • dirigenti d’azienda
Le aziende che hanno avuto successo con il Data Warehouse… …presentano i seguenti tratti in comune:
- I dati che hanno individuato per effettuare le analisi esistono sul minor numero possibile di piattaforme
- Gli utenti aziendali sono abituati ad accedere al DW in prima persona per ottenere le informazioni di cui
necessitano
- Hanno nel loro organico utenti di diversa esperienza
- Hanno un insieme di strumenti applicativi diversi mediante i quali è possibile analizzare i dati
- Le aziende credono nel valore aziendale di un DW e mettono a disposizione fondi per progetti in fase di
sviluppo
- Le aziende sono disposte a modificare le proprie procedure e consuetudini
Il datawarehouse non consiste sono di dati ma anche di software e hardware necessari per la gestione
dei dati. Parleremo del sistema dell’analisi dei dati, sull’interrogazione dei dati passando da approcci molto
semplici ad approcci via via più semplici. Il primo strumento per interrogare dei dati, banale database o
Supporto alle decisioni: un processo evolutivo
Le query
Il primo strumento per interrogare dei dati, banale database o DW ci sono le query sono lo strumento di
analisi più semplice e più diffuso.
Esempio di query: Visualizza tutti i clienti che lo scorso anno hanno acquistato il prodotto X.
Esempi
1- Una società telefonica classifica i tipi di query standard effettuate dai suoi utenti in: query sulle vendite,
query sui costi dei prodotti, query sull’utilizzo della rete telefonica e sulle entrate, query sulla redditività a
fine mese. Grazie a queste query il personale, cioè addetti alle vendite, Product Manager e analisti
finanziari, può esaminare gli e-data e prendere decisioni immediate. Una query che può essere effettuata
regolarmente è:
Visualizza un elenco di tutti quei clienti le cui entrate relative all’utilizzo del servizio nelle fasce orarie di
punta sono diminuite per lo meno del 20%
Il risultato di questa query può dare vita a offerta di sconti sui prodotti e sulle fasce orarie, interruzione di
un servizio le cui entrate sono in diminuzione.
2- La maggior parte delle query standard si basa su ipotesi sicure. La seguente query standard si basa su un
sospetto:
Mostra tutti i pagamenti ritardati del cliente X con le relative date di pagamento, per tutti i casi in cui i
termini di pagamento erano scaduti da più di 2 settimane.
L’utente che effettua questa query potrebbe fare un controllo o verificare un sospetto al fine di inviare al
cliente X una lettera per il recupero dei crediti.
Disporre di queste informazioni permette di individuare quei clienti che sfruttano molto il servizio e che
potrebbero avere bisogno di apparecchiature aggiuntive, di individuare possibili concorrenti sul mercato,
candidati per prodotti potenziali, clienti potenzialmente insoddisfatti. Può consentire di mantenere e
acquisire nuovi clienti.
L’analisi multidimensionale
L’analisi multidimensionale (detta anche OLAP) è il gradino successivo nella scelta delle tipologie di analisi e
consente di studiare e confrontare l’informazione. L’analisi multidimensionale offre differenti prospettive,
dimensioni o punti di vista, attraverso i quali osservare i dati: “periodo di tempo”, “luogo” e “prodotto”
sono esempi di dimensioni comunemente utilizzate. Successione di query che l’utente fa sullo stesso
oggetto.
Gli strumenti utilizzati per le analisi multidimensionali sono simili, a volte proprio gli stessi, a quelli utilizzati
per effettuare query. Sia le query che le analisi multidimensionali possono essere preconfezionate per
consentire un uso ripetitivo e vengono eseguite ricorrendo a strumenti software user-friendly. La differenza
tra le due tipologie di indagine risiede nel fatto che mentre le query richiamano un’ampia sezione
trasversale di dati differenti, le analisi multidimensionali vengono utilizzate per vedere gli stessi dati sotto
prospettive diverse. Solitamente ricorrono ad analisi multidimensionali gli utenti che hanno maggior
consapevolezza degli strumenti che stanno impiegando.
Esempi:
Questa richiesta di dati raggiunge un maggior livello di dettaglio, fornendo informazioni rilevanti in merito a
parametri relativi all’origine e alla destinazione delle chiamate che potrebbero indurre a proporre servizi
aggiuntivi ai clienti più importanti o perfino portare allo sviluppo di nuovi prodotti o servizi.
Se per es. l’area che presenta le entrate minori fosse la B, l’utente potrebbe voler esaminare nel dettaglio i
dati relativi a quest’area geografica per comprendere le ragioni del problema
Modellazione e segmentazione: analisi per “utenti esperti”
La modellazione
Gli utenti più esperti (analisti di marketing e statistici) richiedono maggiori capacità analitiche per poter
raccogliere informazioni nuove, rispetto a quelle offerte dalle query e dall’analisi multidimensionale.
Modellazione e segmentazione: analisi per “utenti esperti” La modellazione I dati estrapolati devono
servire per poter formulare e utilizzare modelli, cioè per fare la modellazione. In questo contesto si usano i
dati storici per formulare i modelli (i modelli imparano dai dati, training) e si usano i modelli così creati per
fare previsioni per il futuro. Quindi i dati danno origine ai modelli. Allora dati sbagliati danno origine a
modelli sbagliati (attenzione!).
I modelli imparano dai dati ( uso dati storici per prendere queste regole per fare previsioni) e vado a
studiare una dinamica studiando i dati e capisco cosa ha innescato questa dinamica e le cose che
accomunano gli utenti che negli ultimi 6 mesi non sono più tornati a comprare. Queste caratteristiche le
ricerco negli utenti attuali perché penso che questi siano quelli che potrebbero non comprare più. Es. tiro
fuori i modelli a partire dai dati, per modelli si intendono regole es. se il cliente non telefona per una
settimana penso che questo mi abbandonerà. If than else.
La segmentazione
La segmentazione suddivide i clienti o altre aree di dati in gruppi o segmenti aventi caratteristiche comuni
che permettono di definirne il comportamento e quindi determinare strategie di vendita e di marketing
appropriate. Una volta che è stata effettuata una segmentazione della clientela, i segmenti possono essere
analizzati ricorrendo a strumenti di analisi multidimensionale; questo dà agli utenti meno specializzati
l’opportunità di esaminare i modelli che sono stati creati mediante analisi avanzate senza il bisogno di
dover effettuare queste analisi in prima persona.
Nella maggior parte dei casi la modellazione e la segmentazione utilizzano del software specializzato; per
questo motivo l’analista che esegue queste procedure, oltre a essere in grado di comprendere i dati a un
più elevato livello di dettaglio, molto probabilmente è stato addestrato per saper utilizzare strumenti
sviluppati appositamente.
Esempio:
I modelli e la segmentazione offrono alle aziende la possibilità di prevedere il futuro comportamento della
clientela e consentono di classificare i clienti in base alle caratteristiche demografiche, alla propensione
all’acquisto e ad altre categorie simili. Alcuni esempi di segmenti:
- clienti che rispondono a nuove promozioni
- clienti che rispondono agli sconti
- clienti che rispondono a offerte di nuovi prodotti
- clienti che non rispondono alle promozioni
La segmentazione offre suggerimenti su come un’azienda dovrebbe trattare una determinata fascia di
clienti e consente di rispondere a domande del tipo:
• Inizialmente a quale gruppo di clienti dovrebbe essere mirato un determinato nuovo servizio?
• Quali clienti potrebbero assumere più facilmente comportamenti fraudolenti?
• Quali clienti potrebbero rispondere con più probabilità ai saldi?
Un istituto di credito utilizza la modellazione per la valutazione del valore medio della perdita di clienti e
della durata della relazione di clientela, partendo in entrambe i casi da dati storici contenuti nel DW. Alcuni
esempi di modellazione sono i seguenti:
• Durata media della relazione con la clientela
• Perdita della clientela
Processo di acquisizione della conoscenza (Knowledge Process) che, nell’ambito della gestione della
conoscenza (Knowledge Management), consente al personale di reperire le informazioni necessarie per
svolgere con profitto il proprio lavoro e raggiungere gli obiettivi aziendali dei singoli reparti dell’impresa. La
KD è svolta tramite algoritmi molto potenti che ricercano particolari elementi nell’ambito di database di
grandi dimensioni. Questi elementi non vengono specificati anticipatamente ed è per questo che viene
sfruttata in tutti quei casi in cui l’utente sta cercando risposte a domande che non è in grado di formulare: è
il DW a indicare all’impresa dove si trovano gli elementi, le relazioni e i punti caldi più interessanti.
Sono delle tecniche di analisi più spinte e complesse delle precedenti. Voglio vedere i prodotti che nella
settimana scorsa nel supermercato sono stati acquistati insieme, coppie e pacchetti di prodotti = regole
associative e sono delle tecniche di KD più comuni. Quali sono le pagine web consulate insieme e cosi via.
Richiedono software e conoscenze importanti.
A differenza degli altri tipi di analisi, la KD è un’analisi che parte da “zero ipotesi” e dato che non sappiamo
quali domande porre non possiamo prevedere quali saranno le risposte che otterremo. La KD scopre i
modelli nascosti nei dati che riflettono il comportamento della clientela, le disdette, gli acquisti futuri o altri
eventi aziendali. Questi modelli sono troppo particolari e apparentemente arbitrari per essere specificati e
quindi l’analista sarebbe costretto a un continuo “gioco di indovinelli” per cercare di immaginare i possibili
modelli esistenti in un database. Il procedimento della KD è esattamente l’opposto: speciali strumenti
scoprono questi schemi e li comunicano all’analista specificando di cosa si tratta e dove reperirli.
Voglio studiare il churn, i clienti vadano dai concorrenti. Ora invece sono i dati a fornirmi informazioni
interessanti. Prendendo le coppie acquistate insieme poi posso decidere cosa fare. Nel cercare la coppia di
prodotti il cui acquisto dell’uno innesca quello dell’altro. In usa il sabato pomeriggio l’acquisto combinato
più frequente erano i pannolini e birra. Tiro fuori queste informazioni e non tirando a caso.
Esempio: una casa farmaceutica utilizza la KD per esaminare cosa accade quando certe medicine vengono
prese contemporaneamente (affinità multi-oggetto tra i prodotti), rendendo possibile l’analisi dei modelli di
affinità dei prodotti. Inoltre l’azienda analizza i successivi acquisti di prodotti in modo da determinare se
certi medicinali portino a necessitarne degli altri (analisi sequenziale degli acquisti). L’analisi delle affinità è
una delle molte analisi di KD possibili. Un potente algoritmo delle affinità legge tutti gli elementi informativi
contenuti nel DW e collega ogni attributo con ogni altro oggetto informativo prescindendo dal loro
significato. Il risultato è un insieme di regole che descrive determinate relazioni tra i dati e queste regole
possono portare sorprese interessanti.
Per esempio si è osservato che dei clienti che acquistano patatine, il 63% acquistano anche chupa-chupa. È
interessante soprattutto se si considera che un’azienda non aveva modo di trovare questa relazione senza
ricorrere alla KD. La potenzialità è ancora più evidente se si osserva che Dei clienti che acquistano patatine
e chupa-chupa, il 74% acquista anche vino rosso. Grazie a questi informazioni il proprietario di un
alimentari potrebbe decidere di spedire coupon ai clienti che acquistano più spesso uno di questi tre
prodotti, eliminare gli sconti sul vino rosso, disporre in modo più efficace i prodotti sugli scaffali.
Elenco di informazioni che possono essere acquisite mediante la KD
Una piccola riduzione del tasso di churn… … può comportare anche un consistente guadagno
Ipotesi: • l’insieme dei clienti è composto da 500.000 unità; • il tasso di churn è del 25% annuo (n. di clienti
che se ne vanno = 125.000); • il costo di acquisizione di un cliente è di 300 Euro; • il valore medio annuo di
un cliente è di 500 Euro. Una riduzione annua del churn del 5% comporta: • una riduzione di 1.875.000
Euro in un anno del costo di acquisizione (125.000 * 5% * 300 Euro = 1.875.000 Euro) • un guadagno di
3.125.000 Euro in un anno per i clienti trattenuti (125.000 * 5% * 500 Euro = 3.125.000 Euro) per un totale
di 5.000.000 Euro in un anno.
Principali potenzialità del DM
• Possibilità di intervenire in anticipo nei confronti dei clienti anziché reagire in ritardo a loro
comportamenti (si è proattivi anziché reattivi)
• Possibilità di reagire tempestivamente a nuove condizioni competitive
• Possibilità di ottimizzare l’impatto complessivo di campagne e azioni di marketing (qui interviene
l’ottimizzazione)
• Possibilità di accrescere il LTV (Life Time Value) del cliente
• Possibilità di ridurre il numero di contatti e quindi i costi dovuti alla gestione delle interazioni con i clienti
Purtroppo i dati…
• I dati nel mondo reale sono “sporchi”: –
incompleti: valori mancanti in attributi
importanti, sono contenuti solo dati aggregati –
noisy: contengono errori o outliers –
inconsistenti: contengono discrepanze nei codici
o nei nomi
• No quality data, no quality mining results! –
Decisioni di qualità devono essere basate su dati
di qualità
I database sono sempre più grandi a causa (o grazie a) delle tecnologie di raccolta automatica e
memorizzazione di dati (codici a barre, carta fedeltà, POS, carta di credito,…) e del trascorrere del tempo
(accumulo di serie storiche di dati). Le tecniche di DM aiutano gli analisti e i manager a scoprire
informazioni nascoste nella mole di dati I dati vengono trasformati in conoscenza e tale conoscenza può
essere utilizzata per migliorare le decisioni Alcuni sinonimi di DM sono Knowledge Discovery e Knowledge
Deployment, Machine Learning, Business Intelligence
Esempi di applicazioni Dato un insieme di clienti (persone fisiche o carta SIM), di cui conosciamo le
caratteristiche (profilo, dati di traffico,…), che hanno abbandonato un’azienda di telefonia mobile, costruire
un modello in grado di attribuire a ciascun cliente rimasto un punteggio che esprima la probabilità di
abbandono entro 2 mesi Dato un insieme di sinistri, di cui conosciamo le caratteristiche (profilo, dettagli del
sinistro,…), denunciati ad una compagnia di assicurazioni e riconosciuti fraudolenti, costruire un modello
che attribuisca a ciascun cliente un punteggio che esprima il grado di rischio di comportamento
fraudolento.
Applicazioni del DM al Database Marketing
• Identificare i profili di clienti più promettenti per una campagna di vendita
• Riconoscere le offerte che hanno maggiore probabilità di ricevere consensi
• Identificare il profilo dei clienti che corrisponde alla maggiore redditività lifetime
• Segmentare la customer base per fare cross-selling
• Effettuare la customer retention e la fidelizzazione
• Effettuare la basket analysis (regole associative, analisi del carrello d’acquisto)
• Pianificare le risorse di vendita (agenti, budget,…)
• Pianificare le vendite per approvvigionamenti e produzione
Le tecniche di Data Mining più usate nei software commerciali di maggior diffusione nelle aziende sono
• tecniche di clustering, • alberi decisionali, • reti neurali.
Regole associative: mirano a identificare associazioni interessanti e ricorrenti tra gruppi di record in un
dataset. Le aziende della grande distribuzione utilizzano questa tecnica per pianificare la disposizione della
merce negli scaffali.
Clustering: le tecniche di clustering mirano a segmentare una popolazione eterogenea in un certo numero
di sottogruppi (cluster) contenenti osservazioni aventi tra loro caratteristiche affini. Talvolta tale tecnica
può essere usata come fase preliminare in un processo di DM per ridurre la dimensione del dataset
originale trattando dati effettivamente confrontabili.
DM supervisionato
Il DM supervisionato è un approccio top down applicabile quando si sa che cosa si sta cercando, cioè è
facilmente individuabile un attributo target e si indirizzano gli sforzi verso un obiettivo specifico. Alcune
domande che cercano risposta sono:
• Chi risponderà positivamente alla prossima offerta, in base all’andamento delle campagne promozionali
precedenti?
• Qual è la terapia medica più efficace in base all’esperienza passata?
• Quali sono i clienti più a rischio di abbandono nell’arco dei prossimi sei mesi?
• Quali sono le transazioni potenzialmente fraudolente in base agli esempi già noti? Il DM supervisionato è
orientato alla predizione e all’interpretazione in riferimento ad un attributo target.
I modelli previsionali, in base all’esperienza, attribuiscono punteggi
a determinati risultati che si otterranno in futuro. È fondamentale
disporre di una sufficiente mole di dati con relativo esito per
preparare il modello. L’obiettivo è generare previsioni, stime,
classificazioni relativamente al comportamento di alcune variabili
target. Questo approccio è rappresentato da una scatola nera nel
senso che non interessano i meccanismi di funzionamento del modello previsionale. Conosco input perché
conosco la domanda e formulo output
Il modello viene utilizzato per valutare e analizzare i dati ed è necessario comprenderne il funzionamento.
Tale approccio viene di solito usato nella fase esplorativa, cioè nella fase in cui si cerca di rispondere a
domande del tipo: Che cosa si cela dietro i dati? Si individuano pattern insoliti? Che cosa suggeriscono i dati
per la segmentazione della clientela? In questo caso non esiste una variabile target da prevedere, ma
l’obiettivo è scoprire la struttura dell’insieme dei dati visto nella sua interezza
Supervisionato e non supervisionato: Non sono due approcci che si escludono a vicenda, anzi spesso è
opportuno che essi siano usati in modo combinato: anche volendo costruire un modello previsionale è utile
individuare andamenti particolari utilizzando tecniche non supervisionate in modo da costruire nuovi
segmenti di clientela all’interno dei quali sia possibile ottenere risultati migliori tramite i modelli
supervisionati. La “rilevazione dei cluster” è una tecnica di DM non supervisionato, mentre gli “alberi
decisionali” e le “regole associative” sono tecniche di DM supervisionato.
Cluster analysis
Tecniche non supervisionate per classificare l’insieme delle unità (record) dell’analisi in gruppi non definiti a
priori, in base alle caratteristiche possedute.
I gruppi vengono costruiti cercando di massimizzare l’omogeneità interna e massimizzare le differenze tra i
gruppi stessi. Per stabilire similarità e dissimilarità tra le unità deve essere definita una metrica in grado di
esprimere la distanza tra le unità da analizzare. Costruisco gruppi di cliente nei quali siano più simili
possibili. Simile, distante è necessario chiarire questa funzione.
- Input: matrice che riporta per ciascuna unità il valore delle variabili rispetto alle quali si vuole fare
la classificazione.
- Output: nuova variabile categorica che indica il gruppo di appartenenza di ciascuna unità.
La determinazione di cluster omogenei aiuta ad intraprendere azioni di marketing focalizzate e specifiche
per gli elementi componenti ciascun cluster. La qualità, l’efficacia e la probabilità di successo delle azioni di
marketing aumentano quanto maggiore è la conoscenza dei comportamenti storici manifestati da un
gruppo omogeneo di clienti, in relazione all’acquisto di un definito gruppo di prodotti.
Applicazioni
Il problema di clustering
Sia O un insieme di n oggetti (record) detti popolazione e sia V un insieme finito di m variabili (campi), che
descrivono le proprietà degli oggetti in O.
A seconda della natura di Rj , e quindi dei valori che possono assumere le variabili, si possono distinguere
diverse situazioni:
• variabili qualitative (o categoriche, o modali, o nominali): per es. occhi blu, verdi, grigi; femmina o
maschio; un oggetto ha una determinata proprietà o no; possono non essere ordinali , qualitativa
ordinale è il livello di scolarizzazione.
• variabili binarie: Rj ={0,1}, per es. una persona ha acquistato un certo prodotto (1) oppure no (0)?
• variabili quantitative (o reali, o continue): per es. temperatura, entrate, età;
• variabili ordinali: quando è possibile costruire un ordine tra tutti i valori che le variabili possono assumere;
possono essere ordinali sia variabili qualitative che variabili quantitative;
• variabili cicliche: quando assumono valori ciclici, per es. le 24 ore.
- Variabili simmetriche: quando possono assumere dei valori e anche i valori esattamente simmetrici;
per es. maschio 1 e femmina 0, oppure maschio 0 e femmina 1: non è importante a chi assegniamo
valore 0 e chi assegniamo valore 1, l’importante è assegnare valori diversi. Mi basta distinguere
senza dire che qualcuno ha qualcosa in più.
- Variabili indicatrici: quando servono a segnalare se un determinato oggetto ha una certa proprietà
(1) oppure no (0). Segnalano che proprietà hanno gli oggetti in considerazione.
Discretizzazione
Talvolta è necessario discretizzare una variabile quantitativa, rendendola qualitativa. Una possibilità è
suddividere l’intervallo in cui assume valori tale variabile in q sottointervalli di uguale ampiezza w:=(rmax-
rmin)/q. Creo dei range da 20 a 30 dicretizzando e riducendo i valori possibili.
Normalizzazione
Min-max normalization
Come misurare la distanza tra unità?
Per affrontare concretamente il problema, è necessario poter esprimere quantitativamente la “distanza”
tra gli elementi di O per poi costruire una partizione di O tale che
• la “distanza” intra-cluster sia minima,
• la “distanza” inter-cluster sia massima
Funzione distanza
Funzione che prende due unità e a queste associa un numero. Prende due clienti, record, unità e associa un
numero che ci dice quanto distano queste due unità tra loro.
Definizione: Si dice funzione distanza una funzione d:OxO [dmin,dmax]. Va da una distanza minima a
massima. Tale che
• d(x, x)=dmin, x O, ci conviene mettere 0 è la distanza minima del cliente a se stesso
• d è simmetrica, cioè d(x, y)=d(y, x), x,y O, la distanza di x a y sia uguale alla distanza di y ad x.
dove dmin e dmax, che rappresentano la distanza minima e massima rispettivamente, sono numeri reali tali
che dmin < dmax.
La matrice n x n D=[dxy], dxy =d(x, y), con x,y O, si dice matrice di similarità.
Variabili quantitative
Sia X=[Xij], i=1,…,n, j=1,…,m, una matrice di dati relativa a n osservazioni (record) e a m variabili (campi).
Variabili binarie
Estensione del caso binario: l’attributo può assumere più di due valori
Esempio:
popolazione/database/record
insieme di clienti.
Supponiamo che F sia una
famiglia di sottoinsiemi. J1=
contiene la prima famiglia, J2=
contiene la seconda famiglia,
J3= la prima la seconda e la
terza. Ho 6 clienti e ho 4
sottoinsiemi. F è insieme dei
sottoinsiemi J. Alcuni dei
sottoinsiemi si chiamano
copertura se la loro unione mi
da tutto T. J1= è copertura da
solo? No. J1+j2 è copertura?
No. J1+j2+j3 è copertura? Si.
J2 +j4 è copertura? Si.
Se prendiamo J1+j2 non è una
copertura in questo esempio.
Cardinalità minima: formato dal
numero minore possibile di
sottoinsiemi. Tra le due coperture
preferisco la seconda perché
formata solo da due sottoinsiemi. Se
unisco tutti gli elementi di F’ mi da T.
1. Algoritmi gerarchici: ogni gruppo fa parte di un gruppo più ampio, che a sua volta è contenuto in un
gruppo più ampio ancora e così fino a che si ottiene tutto l’insieme di unità analizzate. Che tipo di
algoritmo voglio usare visto che il clustering è difficile da fare.
- Scissori: quando l’insieme delle n unità (in n-1 passi) si
ripartisce in gruppi che sono sottoinsiemi di un gruppo
formato nello stadio precedente e che termina quando ogni
gruppo è formato da una unità. Inserisco tutti i clienti e
continuo a spezzare i gruppi. Le unità non possono più tornare
insieme dopo averli spezzati.
- Aggregativi: quando procedono ad una successione di fusioni
delle n unità, a partire dalla situazione base in cui ogni unità
costituisce un gruppo a sé stante, fino allo stadio n-1 in cui si
ha un gruppo che le contiene tutte. Si parte dal basso invece
che dall’alto, inizio ad aggregarli via via.
Gli algoritmi gerarchici, che non richiedono a priori la definizione del numero di gruppi in cui si vuole
ripartire la popolazione, sono molto onerosi dal punto di vista computazionale (calcolo della matrice delle
distanze ad ogni iterazione): si usano quando si devono classificare poche unità
Gli algoritmi non gerarchici, che sono non monotoni (cioè permettono ad una unità di cambiare cluster di
appartenenza durante il processo iterativo), sono più efficienti: si usano anche con dataset di elevate
dimensioni.
Tecniche non gerarchiche
Filosofia: a partire da una situazione iniziale provvisoria in cui si hanno un numero predefinito di cluster, si
aggiustano via via i cluster ottenendo ad ogni iterazione cluster “migliori”, fino a che si dispone di una
soluzione giudicata buona.
Si tratta di: 1. avviare il processo che prevede un numero prefissato di cluster, individuando una soluzione
iniziale provvisoria; 2. assegnare le unità ai gruppi individuati nella fase 1; 3. assegnare le unità a gruppi
diversi da quelli precedentemente individuati, al fine di ottimizzare una prefissata funzione obiettivo.
Soluzione ottima: si può ottenere solo enumerando tutte le possibili partizioni … non è praticabile
Soluzione euristica: basata sulla ricerca di minimi locali Di solito viene definito un “centro di gravità” di un
cluster, detto centroide, e le varie misure di similarità vengono riferite a questo punto I metodi più famosi
sono due:
• k-means (MacQueen, 1967) algoritmo non gerarchico per risolvere il problema del clustering
• k-medoids (Kaufman & Rousseeuw, 1987
Essendo una tecnica non supervisionata, tale tecnica può essere applicata senza conoscere nulla della
struttura da scoprire. Inoltre, visto che i cluster individuati non hanno alcuna interpretazione naturale a
parte quella geometrica, potrebbe essere difficile utilizzare i risultati ottenuti. Questa tecnica può essere
applicata a qualsiasi tipo di dati a patto di scegliere la funzione distanza giusta. Si può parlare per esempio
di distanza tra due brani di testo e questa può essere usata per aggregare articoli giornalistici in gruppi a
seconda dell’argomento. Tuttavia nella maggior parte dei casi la distanza usata è quella euclidea e quindi le
variabili non numeriche devono essere trasformate e scalate prima di poter essere utilizzate
Ha senso con numerosità elevate e ho bisogno di suddividere queste unità in gruppi più omogenei. Una
società di telefonia mobile considera tutti i suoi clienti in 3 o 4 gruppi. All’interno di questi si suddividono
ancora.
Problemi di classificazione
Abbiamo la tabella in cui le righe sono record (clienti, prodotti..) e questi si chiamano anche esempio,
istanze, osservazioni, unità che vogliono dire la stessa cosa. Ci sono i campi che si chiamano anche attributi
che sono di due tipologie:
-Attributi esplicativi: sono degli attributi che descrivono caratteristiche note delle nostre osservazioni, peso,
altezza, taglia..
-Attributo target: attributo sul quale vogliamo fare delle previsioni, se guardo i dati storici i valori sono noti,
se guardo i dati attuali i valori di questo non sono noti e su questo voglio fare delle previsioni costruendo
un albero decisionale.
Es. conoscono taglia, altezza, peso e lunghezza delle gambe, sono tutti dati che ho e sono tutti attributi
esplicativi, l’attributo target è acquista jeans slim. Se guardo la classe dell’anno scorso ho tutti i dati, per
quelli di quest’anno non ho. Vedendo quello che ho fatto l’anno scorso saprò attraverso i dati confrontando
gli attributi esplicativi di quest’anno e dell’anno scorso per fare previsioni su quanti acquisteranno
l’attributo target.
I primi 11 attributi rappresentano variabili esplicative, mentre l’ultimo rappresenta la variabile target, cioè
esprime la classe di appartenenza di ciascun record in relazione agli obiettivi dell’analisi di DM. La variabile
target assume valore 1 se un cliente ha disattivato il servizio, 0 in caso contrario. Il numero di osservazioni
disponibili è 23. Un modello di classificazione può rivelarsi utile per identificare i clienti a rischio di
disattivazione. Cercare dei comportamenti ricorrenti che provochino la rottura del contratto. Le
ricorrenze che legano gli attributi esplicativi e target nel passato, vengono usati nel presente per cercare
persone con queste caratteristiche per prevenire questa probabilità. Tecnica supervisionata: guido la
ricerca e decido cosa fare.
L’attributo target è binario
quindi si o no.
1. Fase di training: un sottoinsieme T (training set) degli esempi presenti nel dataset D viene utilizzata
per il training di un modello di classificazione allo scopo di ricavare le regole di classificazione che
consentono di attribuire a ciascuna osservazione la corrispondente classe target. Usa molte unità
per costruire delle regole che leghino il valore dell’attributo target ai valori degli attributi esplicativi
2. Fase di test: le regole prodotte nella fase precedente vengono impiegate per classificare le
osservazioni di D non utilizzate per il training. Per valutare l’accuratezza del modello di
classificazione la classe di appartenenza di ciascuna osservazione di V = D-T (test set) viene
confrontata con la classe predetta dal modello. Uso le osservazioni per testare le regole costruite
3. Fase di predizione: il modello viene effettivamente utilizzato per assegnare la classe target alle
nuove osservazioni, applicando le regole generate in fase di training alle variabili esplicative che
descrivono la nuova istanza. Uso le regole per fare previsioni.
Valutazione di modelli
Accuratezza
Applico il modello
La sommatoria è 0 è giusto e
1 se sbaglio.
L(yi,f(xi)) se sommo tutte le
osservazioni del validation
set (V) conto tutti gli errori
che faccio. Se divido per il
numero di osservazioni
ottengo la percentuale di
errore.
TRA DUE MODELLI
SCELGO QUELLO CON
ACCURATEZZA PIU’ALTA
PERCHE’ SIGNIFICA CHE HA
UNA % DI PREVISIONI
CORRETTE PIU’ ELEVATA.
- Velocità: alcuni metodi richiedono tempi di elaborazione inferiori rispetto ad altri e consentono di trattare
problemi di grandi dimensioni
- Robustezza: un metodo di classificazione è robusto se le regole di classificazione generate non variano in
modo significativo al variare della scelta del training set e del test set
- Interpretabilità: è necessario che le regole generate siano semplici e comprensibili per gli esperti del
dominio di applicazione
Lift
Supponiamo di voler valutare le performance di un modello usato per scegliere l’insieme di potenziali
clienti a cui rivolgere una campagna pubblicitaria. Costruiamo un piano cartesiano avente per ascissa la
dimensione del target della campagna e per ordinata il numero di risposte positive ottenute. Supponiamo
che la retta uscente dall’origine (in blu) rappresenti il numero di risposte positive ottenute se il campione è
stato scelto a caso e che la curva (in verde) rappresenti il numero di risposte positive ottenute se il
campione è stato scelto sulla base del modello. La curva verde deve stare sopra la retta. Se sta sotto il
modello fa peggio che andare a caso. Blu e verde si intersecano i 0 e 1 o 0% e 100%.
Siano:
x% la dimensione del target,
OA il numero di risposte positive ottenute scegliendo il target di dimensione x% casualmente,
OB il numero di risposte positive ottenute scegliendo il target di dimensione x% sulla base del modello.
Ovviamente sarà OA<OB. Fissata una x preferisco tra due modelli quello con lift più grande o più piccolo?
Più piccolo è il lift più mi piace il modello.
Il rapporto OA/OB è detto lift al x%
Esempio: Se per esempio il lift è 1/6, significa che usando il modello ottengo un numero di risposte positive
pari a 6 volte il numero di risposte positive che otterrei con un campionamento casuale. Ovviamente, più
distanti sono le due curve, e quindi più basso è il lift, e migliore è il modello. Quando si parla di lift bisogna
specificare a quale percentuale di popolazione colpita (target) è stato calcolato. La dimensione del target
della campagna è determinato a priori (budget). Per tutti i modelli si calcolerà il lift al x% e si sceglierà il
modello con lift al x% più basso.
Il primo modello 0 predice 0 quindi è corretta , si inseriscono i dati.
Tecnica molto usata perché è semplice e facile da usare e le regole generate sono facilmente
interpretabili e accessibili. Queste costruzioni hanno dei nodi e degli archi che formano un grafo.
Gli alberi decisionali sono una struttura di classificazione di tipo gerarchico in cui
- i nodi interni rappresentano i gruppi di unità ai diversi stadi del livello di segmentazione,
- i rami (archi) rappresentano le condizioni che hanno determinato le suddivisioni,
- i nodi foglia rappresentano i gruppi per i quali non è ritenuta utile un’ulteriore suddivisione.
Quando un modello ad albero viene applicato ai dati, ogni record viene analizzato dall’albero lungo un
percorso stabilito da una serie di test del tipo: “Il campo 3 è maggiore di 7?”, “Il campo 4 è rosso, bianco o
verde?”, fino a che il record non raggiunge una foglia dell’albero.
Percorso di analisi
Problema: a chi indirizzare una campagna pubblicitaria per un nuovo modello di Mercedes?
Ci chiediamo chi ha maggiore probabilità di comprare una Mercedes in modo da decidere a quali gruppi di
clienti indirizzare la campagna pubblicitaria, dal momento che non la possiamo rivolgere a tutti, sia per
problemi di budget, sia perché non sarebbe conveniente.
Usiamo i dati del training set per costruire delle regole.
Supponiamo di conoscere per ciascun record del training set età, sesso, auto posseduta dai genitori,
indirizzo, professione, composizione nucleo familiare.
Nell’insieme di tutta la popolazione del training set la percentuale di acquisto è del 50%
Posso costruire tante regole quante sono le foglie. Più largo è più regole ho. Più lungo è più complicate
sono le regole. L’ordine con cui scelgo gli attributi determinano l’albero.
A partire da un training set è possibile costruire un numero esponenziale di alberi di classificazione distinti.
Il problema di determinare l’albero ottimale è NP-hard, cioè computazionalmente difficile.
Di conseguenza i metodi per lo sviluppo di alberi di classificazione hanno natura euristica
Criteri di separazione univariati
Criteri generalmente meno accurati ma più diffusi rispetto alle versioni multivariate perché più semplici e
proposti per primi. Si tratta di individuare l’attributo migliore tra quelli disponibili e selezionare la
partizione più efficace tra quelle ad esso corrispondenti. Ciò avviene mediante il calcolo di una funzione di
valutazione che fornisce una misura di disomogeneità tra le osservazioni presenti nei nodi considerati. I
nodi devono essere più omogenei al loro interno di quanto lo sia il nodo padre. Le funzioni di valutazione
più note sono indice di entropia, indice di Gini, indice di misclassificazione
un nodo che contenta 50% si e 50% no non ci piace. Ci piace un nodo da 10%e 90%. Misurazione di
quanto disomogeneo è un nodo e ci aiutano a capire se usando un attributo rispetto ad un altro ci portano
ad un nodo che ci piace di più.
L’indice di eterogeneità I(q) di un nodo è funzione delle frequenze ph, h ϵ H, dei valori della classe target
per le osservazioni presenti nel nodo e deve soddisfare tre requisiti: assumere valore massimo quando le
osservazioni del nodo sono distribuite in modo omogeneo su tutte le classi (se sono 2: 50% 50% quindi se
ho colore degli occhi con 5 ho un nodo di 25%, non mi piace un nodo perché non mi da info), assumere
valore minimo quando tutte le osservazioni del nodo appartengono alla stessa classe (100% occhi blu molto
informativo) e rappresentare una funzione simmetrica rispetto alle frequenze ph (100% occhi blu o occhi
grigi, l’indice deve darmi lo stesso valore).
Vogliamo fare delle previsioni sul colore degli occhi, h=5 il numero di valori possibili dell’attributo target.
Ph è la percentuale di osservazione di classe target Vh contenute nel nodo Q. Dentro il nodo Q ho le
percentuali dei clienti che sono p1= occhi blu, p2=occhi verdi,
p3=occhi marroni, p4=occhi grigi, p5=occhi neri. So come si
distribuiscono le unità rispetto alla classe target. Si definisce
l’indice di eterogeneità del nodo ovvero I(q) una funzione di
pk , voglio agganciare a questo nodo un numero che mi
esprima quanto eterogeneo è quel nodo.
Il campo migliore per la segmentazione è quello che riduce il più possibile la diversità: si tratta di provare
ogni possibile segmentazione, calcolare l’indice di diversità e scegliere la segmentazione che presenta la
massima riduzione di diversità
Indice di entropia
Supponiamo che ci siano due classi: P e N. Supponiamo che il training set S del nodo q contenga p elementi
di classe P e n elementi di classe N. Si definisce quantità di informazione contenuta in q il valore:
Il meno va a compensare il
segno del logaritmo.
Alcuni elementi di p
andranno in p1,2,3 e alcuni
elementi di n andranno in
n1,2,3.
Supponiamo che mediante l’attributo A il training set del nodo q venga ripartito nei sottoinsiemi {S1, S2, …,
Sr}. Per es. se l’attributo è “età > 27” e “età <= 27” allora r=2, se invece l’attributo è “occhi verdi”, “occhi
marroni”, “occhi azzurri” e “occhi neri” allora r=4.
Se il nodo Si contiene pi elementi di classe P e ni elementi di classe N, si definisce informazione attesa
legata alla scelta dell’attributo A il valore E(A) = Si=1,…,r ((pi + ni )/(p+n)) * I(Si ).
Si definisce information gain o guadagno di informazione che si ottiene ramificando sull’attributo A il valore
Gain(A) = I(q) - E(A). Si sceglie l’attributo che massimizza Gain(A) e quindi, essendo I(p, n) costante, si sceglie
l’attributo che minimizza E(A).
Compra pc = si è la classe P
Compra pc = no è la classe N
Si tratta di scegliere l’attributo che massimizza il Gain e quindi, in questo caso si sceglie l’attributo “età”.
Perché questa è la scelta che mi porta ad acquisire più informazioni possibili. Sono 5 regole:
Quando calcolo l’entropia faccio una media dei nodi. È considerata di più entropia con nodi più numerosi.
Info attesa è la media pesata delle entropie dei nodi di arrivo s1s2s3 dove i pesi sono il rapporto tra la
numerosità di ciascuno di questi nodi e la numerosità del nodo da cui sto arrivando
Information gain: la differenza tra l’entropia del nodo di partenza e l’informazione attesa che ho calcolato
Scelgo l’attributo A che mi permette di massimizzare il gain, più lontana sono dal 50% e 50% più il dato è
buono. Conta di più entropia dei nodi più numerosi perché il peso è più alto più numerose sono le unità di
quel nodo.
Modelli di classificazione
Si tratta di una classe di modelli per l’apprendimento non supervisionato utilizzabile quando il dataset non
contempla la presenza di un attributo target. Sono regole che individuano correlazioni, associazioni tra
diversi insiemi di elementi e vengono spesso ricavate da particolari basi di dati che memorizzano
transazioni. Una transazione è un elenco di oggetti
Per esempio uno scontrino è una transazione e i prodotti acquistati sono gli oggetti che fanno parte della
transazione.
Market basket analysis: ogni volta che un cliente acquista in un punto vendita e riceve uno scontrino,
l’operazione svolta viene registrata nel sistema informativo dell’azienda. Per ogni transazione registrata
viene conservata la lista degli articoli acquistati, il loro prezzo e l’ora dell’operazione. L’elenco delle
transazioni costituisce un dataset voluminoso che può essere utilizzato per determinare regole ricorrenti
che pongono in relazione l’acquisto di un prodotto, o di un gruppo di prodotti, all’acquisto di un altro
prodotto, o di un altro gruppo di prodotti
Esempi:
• Un cliente che acquista il prodotto X (cereali da prima colazione) acquista anche il prodotto Y (latte
intero) con probabilità p1 (0.68) nella medesima transazione;
• Tre prodotti (A, B, C) sono acquistati insieme con probabilità p2;
• Un cliente residente nel Nord Italia, avente più di 35 anni, sposato, che acquista i prodotti A, B e C
insieme, acquista anche i prodotti D e E con probabilità p3;
• Un cliente che ha acquistato nel corso di una transazione il prodotto P riacquisterà lo stesso prodotto
almeno una volta nelle successive due transazioni con probabilità p4.
Utilità
Visite a pagine Web: un’analisi nel web mining riguarda le modalità e la frequenza con cui combinazioni
di pagine web vengono visitate da un generico navigatore. L’elenco di pagine visitate nel corso di una
sessione viene registrato come una transazione, cui possono corrispondere un numero di sequenza e un
orario di visita. Si possono identificare regole che consentono di associare la visualizzazione di una o più
pagine e possono guidare alla progettazione di link tra le pagine allo scopo di facilitare la navigazione,
suggerire percorsi di visita, collocare banner e messaggi promozionali Esempio: se un navigatore visita il sito
inter.it allora entro una settimana visiterà anche il sito gazzetta.it con probabilità 0.87
Acquisti con carta di credito: le regole associative vengono usate anche per analizzare gli acquisti con
carta di credito allo scopo di orientare le azioni di promozione future. Ciascuna transazione consiste negli
acquisti e nei pagamenti effettuati mediante una carta di credito
Identificazione di frodi: le transazioni sono costituite dalle denunce di sinistri e dalle relative richieste di
risarcimento. La presenza di particolari combinazioni di sinistri può rivelare comportamenti potenzialmente
fraudolenti e giustificare un approfondimento di indagine da parte della compagnia assicurativa
Struttura
Date due proposizioni Y e Z, che possono essere vere o false, una regola è un’implicazione del tipo Y
implica Z, avente il seguente significato: se Y è vera allora anche Z è vera. Una regola si dice
probabilistica se la validità di Z è associata a una probabilità p: se Y è vera allora anche Z è vera con
probabilità p. Y=oggi piove e Z=prendo ombrello. Difficile trovare regole con probabilità 1.
Per i dataset di transazioni è possibile una rappresentazione mediante una matrice bidimensionale X,
facendo corrispondere gli n oggetti dell’insieme O alle colonne della matrice, le m transazioni Ti di D alle
righe e definendo il generico elemento.
La frequenza empirica = 23 volte per 23 transazioni. È il numero di volte in cui questo oggetto compare
nelle transazioni. È il numero di transazioni che contengono questo oggetto. Cardinalità = numero di
elementi dell’insieme delle transazioni che contengono m.
In presenza di un campione di grandi dimensioni (m elevato), il rapporto f(L)/m tra la frequenza empirica e
il numero totale di transazioni approssima la probabilità di occorrenza dell’insieme di oggetti L, intesa come
probabilità che L sia contenuto in una nuova transazione T registrata nel database
Confidenza
Dentifriciospazzolino
confidenza bassa
Spazzolinodentifricio
confidenza alta
Supporto
Abbinamento di L e H (spazzolino e dentifricio) da origine ad una regola di solito con confidenza elevata e
che ha supporto basso. La coppia pur essendo valida può comunque essere meno frequente. Il supporto è
lo stesso per HL e LH.
Esempio:
NT = 3n – 2n+1 + 1
D’altra parte molte delle regole generate non sono forti, nel senso che non soddisfano i requisiti di
superamento delle soglie minime prefissate per supporto e confidenza. È quindi opportuno disporre di un
metodo in grado di generare solo regole associative forti. Il problema si può scomporre in due fasi
successive: la generazione degli itemset frequenti e delle regole forti. Dato L sottoinsieme di O, L si dice
frequente se f(L)/m>= s’ dove s’ è la soglia prefissata per il supporto.
Nel cercare regole forti è usuale andare ad indagare quali sono gli insiemi di oggetti frequenti. Un oggetto si
dice frequente se ha una frequenza empirica che è tale da rispettare le soglie.
1. Generazione degli itemset frequenti: si tratta di estrarre tutti gli insiemi di oggetti la cui frequenza
relativa è superiore al supporto minimo smin assegnato. Essendo una fase più costosa dal punto di
vista computazionale della successiva, sono stati proposti vari algoritmi per ricavare in modo più
efficiente gli itemset frequenti (algorimo Apriori)
2. Generazione delle regole: si tratta di separare gli oggetti contenuti in ciascun itemset frequente
secondo tutte le possibili combinazioni di corpo e testa della regola e verificare se la confidenza
della regola supera la soglia minima pmin.
Algorirmo Apriori
L’algoritmo Apriori è un metodo efficiente per estrarre le regole forti contenute in un insieme di
transazioni. L’algoritmo inizialmente genera gli itemset frequenti senza procedere all’esplorazione dello
spazio di tutti i candidati, successivamente ricava le regole forti
Principio Apriori: se un insieme di oggetti (itemset) è frequente, allora anche tutti i suoi sottoinsiemi sono
frequenti. Es. pane,latte costituiscono oggetti frequenti ovvero questi oggetti compaiono nell’insieme delle
transazioni con un numero superiore alla soglia. Se parto da questo insieme frequente allora tutti i
sottoinsiemi saranno frequenti
Corollario: se un itemset non è frequente, allora ciascun itemset che lo contiene è non frequente.
1. Calcolare la frequenza relativa di ciascun oggetto del dataset ed eliminare gli oggetti che hanno
frequenza inferiore alla soglia di supporto smin. Si individuano così tutti gli 1-itemset frequenti.
Porre k=2
2. Generare iterativamente i k-itemset candidati a partire dai k1-itemset determinati al passo
precedente
3. Calcolare il supporto di ciascun k-itemset
4. Eliminare i candidati a cui corrisponde un supporto inferiore alla soglia minima smin
5. Stop se non è stato generato nessun k-itemset. Altrimenti porre k:=k+1 e ripetere il passo 2
1. Effettuare una scansione della lista degli itemset frequenti generati nella prima fase. Se la lista è
vuota la procedura si arresta, altrimenti sia B il successivo itemset che viene tolto dalla lista
2. Suddividere l’insieme degli oggetti B in due sottoinsiemi
disgiunti non vuoti L e H = B – L, secondo tutte le combinazioni
possibili
3. Per ciascuna regola candidata L H calcolare
4. Se p ³ pmin la regola viene inserita nella lista delle regole forti, altrimenti viene eliminata
Applicazioni
Quali altri prodotti è opportuno che siano venduti da un supermercato che vende latte?
latte *
Non sempre tutte le regole con supporto e confidenza superiori alla soglia sono interessanti
Esempio • Scuola con 5000 studenti • 60% (3000) gioca a pallacanestro • 75% (3750) mangia fiocchi di
cereali a colazione • 40% (2000) gioca a pallacanestro e mangia fiocchi di cereali a colazione Valutare la
regola gioca a pallacanestro Þ mangia fiocchi a colazione supponendo S’ = 40% e C’ = 60%